예시: Spam mail, Stolen card, 악성 판정

0: Negative Class, 1: “Positive Class”

선형회귀는 분류 데이터에 적용하면 대다수의 경우에서 좋지 않은 결과를 나타낸다

이유:

$h(x)= \theta_0+\theta_1x$

  1. 가설식(h(x))의 결과가 1,0의 분류값을 벗어나는 경우가 존재한다
  2. 훈련용 데이터가 추가될 수록 대부분 옳지 않게 작동한다(분류는 선형식이 아니다)

⇒ logistic regression을 분류에서 사용한다.

Logistic Regression

logistic Regression

logistic == sigmoid이다.

기존 선형회귀식의 가설식을

$$ h(x)= \theta_0x_0+\theta_1x_1+...+\theta_nx_n \\ = \theta^TX \\ = [\theta_0, \theta_1,...\theta_n,] * [x_o,x_1..x_n]^T $$

아래와 같이 바꾸는 g(x)를 logistic(sigmoid) function이라고 한다.

$$ h(x) = g(\theta^TX)\\ =\frac{1}{1+e^{-\theta^TX}}\\g(z)=\frac{1}{1+e^{-z}} $$

Untitled

Decision boundary: Class를 구분 짓는 경계선 == h(x)=g(0)=0.5인 선

Sigmoid function에서 x의 값이 0보다 크면 y값은 0.5보다 큰, positive영역으로 구분, 0보다 작으면 반대

Cost function of logistic regression

문제: 기존 cost function은 convex한 형태였기 때문에 global minimum을 찾는데에 문제가 없었다.