본문 바로가기

ML & DL

K-means 클러스터링

유사한 분포끼리 묶는 것을 클러스터링이라 한다. 그렇다면 컴퓨터는 어떻게 클러스터링을 행하는가?


K-means 클러스터링이라는 기법을 사용하는데 과정은 대략적으로 다음과 같다.
1. k개의 점을 랜덤하게 샘플 포인트가 뿌려져 있는 평면에 뿌린다.
2. 뿌려진 k개의 점으로 부터 가까운 샘플 포인트가 각각의 점에 할당된다.
3. 할당된 샘플 포인트의 중간을 취해 각각의 점은 샘플 포인트 공간의 가운데에 가깝게 업데이트 된다.
4. 더 이상 업데이트가 없을 때까지 업데이트를 반복한다.

k-means 클러스터링은 랜덤하게 점을 뿌리는 특성상 매 시도마다 결과가 달라지고(초기값에 민감), 지역 최적점(local minima)에 빠지기 쉽고 outlier에 민감하다는 한계점이 있다.

이런 한계점을 개선하기 위해 다음과 같은 기법을 사용한다.
*  Multi start K-means: 클러스터링을 반복하여 가장 최적점을 취한다.
*  K-medoids: means는 샘플 포인트의 중간을 취하지만 medoids는 샘플 포인트들 중에 중간에 가까운 포인트를 취한다.

'ML & DL' 카테고리의 다른 글

선형대수 기본  (0) 2023.04.24
앙상블 기법  (0) 2023.04.19
분류  (0) 2023.04.12
모델의 성능 평가  (0) 2023.04.06
Regularization  (0) 2023.04.05