Motivation

Data compression

보통의 dataset 예제들은 많은 feature가 존재한다. 이때 관련성이 큰, 혹은 겹치는 feature들이 존재할 수도 있다(ex: inch, cm).

이때, 우리는 겹치는 feature를 제거하여 data의 차원을 줄일 수 있다. 이는 data 양의 감소로 인한 memory reduce와 함께 학습 알고리즘의 학습 속도를 높여준다.

이러한 차원축소는 2개의 feature 뿐만 아니라 여러개의 feature에도 적용이 가능하다.

Data visualization

Untitled

Feature가 있을 때, 이를 쉽게 알아보려면 시각화가 제일 쉬운 방법일것이다. 하지만 우리는 3차원 이상의 데이터를 시각화할 수는 없다.

따라서 위의 feature들을 아래 그림과 같이 기존 feature들을 효과적으로 표현해주는 new feature를 찾으면 아래와 같이 쉽게 시각화가 가능하다.

Untitled

Untitled

Principal component Analysis(PCA)

차원 축소에 가장 널리 사용되는 알고리즘은 Principal Component Analysis(PCA) : 주성분분석이다.

Untitled

가장 간단한 예제로 $R^2$의 PCA를 확인해보자.

PCA는 projection error(파란색)가 가장 작도록 하는 vector를 선택하는 것이다.

빨간색과 분홍색을 비교해보자. projection error는 파란 부분, 즉, sample과 선 사이의 거리의 합이 될 것이다. 즉, 더 적절한 vector는 빨간색임을 확인 가능하다.

PCA는 1차원 벡터만 찾는 문제가 아니다. 우리가 원하는 k개의 vector를 찾을 수도 있다. 이때 우리의 PCA는 k개의 vectror가 만드는 span이 될 것이다(선대 내용 참조)

PCA is not linear regression

Untitled