비선형 문제에 있어서, feature의 수가 증가함에 따라 복잡도(dimension of feature size)가 기하급수적으로 증가하는 문제 존재
(예시: Computer vision은 pixel을 기준으로 컴퓨터가 판단하기 때문에 training이 매우 어려움 → 비선형&feature 수)
우리의 뇌는 여러 활동들을 함. 연구 결과 뇌는 여러 부분에서 시각, 청각, 촉각 등 여러 정보(input)을 각기 다른 부위에서 받아들이고 처리함을 확인. 하지만 신호가 도착하는 부위만 바꾸어주면 이들은 같은 역할을 다른 영역에서 실행 가능하다 ⇒ 같은 알고리즘으로 전혀 다른 일들을 할 수 있다
실제 인간의 뇌를 이루는 뉴런 여러 입력 단자로 부터 input을 받고 out put을 준다. 이를 모방해 인공 신경망 개념이 등장
logistic activation(neuron group)이라고도 불리는 Neural network의 함수는 logistic regression에서의 식과 동일하다
$$ h(x) = g(\theta^TX)\\ =\frac{1}{1+e^{-\theta^TX}}\\g(z)=\frac{1}{1+e^{-z}} $$
동일하게 $x_0$는 bias unit(=1)이라 불리며 diagram에서는 생략할때가 많다.
$\theta$는 parameter라는 표현 대신 weight라고 불리기도 한다.
Neural network == 여러 neuron group이 연결된 것
$a_i^j =$ activation of unit i in layer j
$a_1^{(2)} = g(\theta_{10}^1x_0+\theta_{11}^1x_1+\theta_{12}^1x_2+\theta_{13}^1x_3)$