Clustering

Untitled

Untitled

지도 학습과 비지도 학습의 차이는 위의 그림으로 한번에 설명 가능하다. y lable이 주어지면 지도학습, 주어지지 않으면 비지도 학습이다.

그 중 비슷한 특성을 가진 군집을 분류하는 방법인 clustering부터 확인해보자.

K-means Algorithm

K-means Algorithm은 크게 3가지 단계로 나뉜다.

  1. k개의 cluster centroid를 지정한다.

  2. Data set과 거리가 최소인 cluster centroid로 data set을 지정한다.

  3. 각 cluster의 평균 거리로 cluster centorid를 모두 옮긴다.

    (단, 어떤 data set도 지정받지 못한 cluster centroid가 있는 경우 그것을 제거하고 k-n개의 cnetorid를 찍거나 or centroid를 모두 다시 찍고 처음부터 다시 시작한다)

  4. 2,3을 반복하고, 변경되지 않으면 결정한다.

단계를 그림으로 표현하면 다음과 같다.

Untitled

Untitled

Untitled

Untitled

parameter는 다음과 같다.

  1. K: 원하는 cluster의 갯수
  2. $u_k$: cluster centroid k
  3. $x^{(i)}$: data set
  4. $c^{(i)}$: index of cluster to which example $x^{(i)}$ is currently assigned

! k-means는 아래 그림과 같이 명확히 분류되지 않는 데이터에서도 군집을 분류해준다.

Untitled

Optimization objective