머신러닝 알고리즘은 입력에 대해 특징(feature)을 추출하고, 추출한 특성에 대해 분류와 군집화를 수행한다.
숫자(정수, 실수), 문자(text, 이진 카테고리) 전부 분류와 군집화의 대상이다.
* Numerical feature
* continuous (연속적)
* discrete (불연속적)
Numerical feature 간에 범위가 다를 수 있고, 범위 차이가 클 수록 학습 수렴 속도가 느리다.
* Numerical feature scaling
* Min-Max feature scaling - 0과 1 사이에 변수의 값을 매핑시킨다.
* Mean feature scaling - 0을 사이에 둔 -0.5와 0.5 사이에 변수의 값을 매핑시킨다.
* standardization - 극단값의 영향을 적게 받기 위해 변수의 분포를 활용. 변수x가 다른 변수에 비해 표준편차의 몇배 거리에 있는지로 정규화
Min-Max feature scaling과 Mean feature scaling 경우 범주를 지나치게 넘어선 값(outlier)에 취약하다. 일반적인 값의 해상력이 떨어지게 됨.
* Bucketing - 대표적인 수를 설정해서 세세하게 나눠진 수를 모아서 일반화하고 추상화 한다.(0, 2, 7 -> 10 / 11, 13 -> 20 식으로 )
꼭 규칙적이지 않고 한 버켓에 같은 갯수가 들어가도록 설정할 수 도 있다.(Quantile Bucketing)
* Categorical feature
* Ordinal - 순서가 있음
* Nominal - 순서가 없음
* Array feaure
* image, sound등 각 도메인 별로 차이가 현격하면 공통점으로 묶기 힘들다.
Categorical feature는 순서가 없는 경우가 많다.
만약 Categorical feature에 숫자를 부여하려면?
이진일 경우(남, 녀)와 순서를 부여할 수 있는 경우에 부여할 수 있다.
만약 2차원(저차원)에서 선형을 그려 분류할 수 없어도 (3차원)고차원을 그리면 분류할 수 있는 경우가 있다.
3개 이상의 카테고리가 있는 변수일 경우 각 카테고리를 별도의 이진을 가진 변수들로 변형한다.
(A -> (1,0,0) / B -> (0,1,0) 식.
묶어서 일반화 시킬 수 있는 유사 카테고리의 경우 버켓팅 가능(Mrs, Miss, Ms -> [Ms])
결정 경계가 linear하지 않다면 -> 입력변수에 거듭제곱을 하여 Polynomical feature를 만들면 non-linear한 결정경계를 그릴 수 있다.(곡선, 원형, 타원 등을 그려야 할 경우)
'ML & DL' 카테고리의 다른 글
앙상블 기법 (0) | 2023.04.19 |
---|---|
K-means 클러스터링 (0) | 2023.04.13 |
분류 (0) | 2023.04.12 |
모델의 성능 평가 (0) | 2023.04.06 |
Regularization (0) | 2023.04.05 |