본문 바로가기

ML & DL

앙상블 기법

한 모델로 모든 문제를 풀 수 없다. 그렇다면 여러개의 모델을 조합하여 문제를 풀도록 하는 것이 앙상블 기법
서로 다른 모델은 다른 모델의 부족한 부분을 채워 줄 수 있다. 


Input -> [A모델, B모델, C모델 ...] -> 결합 알고리즘 -> Output

앙상블 기법의 3가지 관건
앙상블 생성: 모델들을 어떻게 생성할 것인가
앙상블 선택: 어떤 기준으로 모델을 선택할 것인가
앙상블 결합: 선택한 모델들을 어떻게 결합할 것인가

앙상블 생성
여러개의 분류기를 생성하는 작업.


훈련 집합을 재 샘플링(Bagging, Boosting)하거나 서로 다른 알고리즘(MLP, SVM, k-nn 등)을 사용하거나 특징 벡터의 부분 공간을 사용(A(x1,x2), B(x3,x4)...)하는 방식이 있다.

Bagging: 여러번 학습해서 모은다. 각 분류기 생성은 서로 연관이 없음.
Boosting: 전 분류기가 제대로 분류하지 못한 샘플에 가중치를 두어 더 잘 분류되도록 함. 이전 분류기가 다음 분류기에 영향을 미치기에 서로 연관이 있다.

앙상블 결합
여러 분류기의 출력을 하나의 출력 결과로 합친다.


부류 표지(class label) 기반: 부류 표지란 한 모델이 출력으로 선택한 최종 부류를 말한다. 
  다수 투표: 분류기들이 가장 많이 선택한 부류를 최종 부류로 결정
  가중 다수 투표: 분류기들의 신뢰도 또는 영향력을 고려해 가중 다수 투표.
부류 확률(class probablity) 기반: 부류 확률이란한 모델이 각 부류마다 출력하는 출력 확률을 말한다. 합, 가중합, 곱, 최대 확률이 있다.
부류 순위(class ranking) 기반: 부류 순위란 부류에 대한 순위를 나타낸 것을 말한다. 총 부류의 개수와 요소값을 이용해 계산 한다.

'ML & DL' 카테고리의 다른 글

인공 신경망  (0) 2023.05.07
선형대수 기본  (0) 2023.04.24
K-means 클러스터링  (0) 2023.04.13
분류  (0) 2023.04.12
모델의 성능 평가  (0) 2023.04.06