Data Scaling (normalization, standardization)
Data Scaling 1) 개요 - tree 모델처럼 scale 조정이 필요없는 몇몇 모델을 제외하고 대부분의 머신러닝 알고리즘은 feature들의 scale이 맞을 때 성능이 좋을 확률이 높다. - 예를 들어, 2 개의 특성을 비교할 때 1번은 1 ~ 10, 2번이 1 ~ 10만이면 knn, perceptron 등 확률분포를 사용한 알고리즘은 scale (범위)이 큰 특성에 오차를 맞추어 가중치를 최적화 한다. - 따라서 특성의 단위나 범위가 다르기 때문에 이를 비교가 가능하도록 하는 것이다. Normalization (정규화) 1) 개요 - 특성 값의 범위를 [0, 1] 사이에 맞추는 것이다. - feature 내의 가장 작은 값은 0, 가장 큰 값이 1을 가진다. 2) Min-max scaler ..