지도 학습과 비지도 학습의 차이는 위의 그림으로 한번에 설명 가능하다. y lable이 주어지면 지도학습, 주어지지 않으면 비지도 학습이다.
그 중 비슷한 특성을 가진 군집을 분류하는 방법인 clustering부터 확인해보자.
K-means Algorithm은 크게 3가지 단계로 나뉜다.
k개의 cluster centroid를 지정한다.
Data set과 거리가 최소인 cluster centroid로 data set을 지정한다.
각 cluster의 평균 거리로 cluster centorid를 모두 옮긴다.
(단, 어떤 data set도 지정받지 못한 cluster centroid가 있는 경우 그것을 제거하고 k-n개의 cnetorid를 찍거나 or centroid를 모두 다시 찍고 처음부터 다시 시작한다)
2,3을 반복하고, 변경되지 않으면 결정한다.
단계를 그림으로 표현하면 다음과 같다.
parameter는 다음과 같다.
! k-means는 아래 그림과 같이 명확히 분류되지 않는 데이터에서도 군집을 분류해준다.