발생 이유
- 훈련 데이터가 부족하거나 실제(테스트) 데이터에는 존재하지만 훈련 데이터에 없을 경우
- 모델 파라미터가 너무 많을 경우
Overfitting (과대적합)
1) 개요
- 훈련 데이터에서는 잘 동작하지만 테스트 데이터에서는 잘못된 판단을 한다.
- 분산이 크다고 할 수 있으며, 이는 모델이 복잡하기 때문이다.
2) 해결
- 훈련 데이터의 양을 늘린다.
- 모델의 복잡도를 낮춘다.
- 모델 훈련 중 early stopping (loss가 다시 상승하기 시작할 때)
- 규제 사용 (Ridge, Lasso, etc)
Underfitting (과소적합)
1) 개요
- 모델이 충분히 복잡하지 않아 훈련 데이터는 물론 테스트 데이터에서도 낮은 성능을 보여줄 수 있다.
- 편향이 크다고 할 수 있다.
2) 해결
- 모델 복잡도 증가
- feature의 개수 증가
- 데이터의 noise 제거
- epoch 또는 훈련량 증가
분산 : 다회의 훈련 시, 특정 타켓에 대한 예측의 일관성 측도 (무작위성에 민감)
편향 : 예측값의 벗어난 정도 (구조적 에러)
Regularization (규제)
sjpyo.tistory.com/43'AI > Machine Learning' 카테고리의 다른 글
Random Forest (0) | 2021.02.19 |
---|---|
Support Vector Machine; SVM (0) | 2021.02.18 |
Decision Tree (0) | 2021.01.21 |
k-NN (Nearest Neighbors) (0) | 2021.01.18 |
주성분 분석 (PCA) (0) | 2021.01.04 |