예시: Spam mail, Stolen card, 악성 판정
0: Negative Class, 1: “Positive Class”
선형회귀는 분류 데이터에 적용하면 대다수의 경우에서 좋지 않은 결과를 나타낸다
이유:
$h(x)= \theta_0+\theta_1x$
⇒ logistic regression을 분류에서 사용한다.
logistic == sigmoid이다.
기존 선형회귀식의 가설식을
$$ h(x)= \theta_0x_0+\theta_1x_1+...+\theta_nx_n \\ = \theta^TX \\ = [\theta_0, \theta_1,...\theta_n,] * [x_o,x_1..x_n]^T $$
아래와 같이 바꾸는 g(x)를 logistic(sigmoid) function이라고 한다.
$$ h(x) = g(\theta^TX)\\ =\frac{1}{1+e^{-\theta^TX}}\\g(z)=\frac{1}{1+e^{-z}} $$
Decision boundary: Class를 구분 짓는 경계선 == h(x)=g(0)=0.5인 선
Sigmoid function에서 x의 값이 0보다 크면 y값은 0.5보다 큰, positive영역으로 구분, 0보다 작으면 반대
문제: 기존 cost function은 convex한 형태였기 때문에 global minimum을 찾는데에 문제가 없었다.