본문 바로가기

ML & DL

분류

k-최근접 이웃 분류기

데이터가 특정 분포를 따르지 않을 경우 사용. 정규 분포를 가정하지 않는다. 정규 분포를 가정하지 않기 때문에 확률 밀도를 얻고자 하면 특정 범위 h안에 점의 갯수와 전체 범위 안에 모든 점의 갯수를 비교하는 카운팅 방식을 이용한다.


이런 기법이 파젠창(Parzen window)이라는 기법이다.
파젠창의 단점은 차원의 저주(차원수가 늘어날 수록 빈 공간이 늘어나기 때문에 데이터를 추가해주지 않으면 제대로된 결과를 얻을 수 없다)에서 자유롭지 않다는 점과, 다른 모든 점과의 거리를 계산해야 하기 때문에 계산 비용이 많이 든다는 점이 있다. 특히 다차원일 경우 다른 점을 찾기 힘들기 때문에 다른 k개의 점을 찾을 때까지 범위를 계속 확장시킨다.

 

그러나 단점을 극복하기 위한 알고리즘도 있으며 주로 유클리디안 디스턴스와 코사인 디스턴스를 사용한다.

k-최근접 이웃 분류기의 경우 서로 비교하는 피처의 범위가 제각각이기 때문에 피처 스케일링이 중요하다.

'ML & DL' 카테고리의 다른 글

앙상블 기법  (0) 2023.04.19
K-means 클러스터링  (0) 2023.04.13
모델의 성능 평가  (0) 2023.04.06
Regularization  (0) 2023.04.05
피처 엔지니어링(feature engineering)  (0) 2023.04.03