Overfitting (과적합) 발생 이유 - 훈련 데이터가 부족하거나 실제(테스트) 데이터에는 존재하지만 훈련 데이터에 없을 경우 - 모델 파라미터가 너무 많을 경우 Overfitting (과대적합) 1) 개요 - 훈련 데이터에서는 잘 동작하지만 테스트 데이터에서는 잘못된 판단을 한다. - 분산이 크다고 할 수 있으며, 이는 모델이 복잡하기 때문이다. 2) 해결 - 훈련 데이터의 양을 늘린다. - 모델의 복잡도를 낮춘다. - 모델 훈련 중 early stopping (loss가 다시 상승하기 시작할 때) - 규제 사용 (Ridge, Lasso, etc) Underfitting (과소적합) 1) 개요 - 모델이 충분히 복잡하지 않아 훈련 데이터는 물론 테스트 데이터에서도 낮은 성능을 보여줄 수 있다. - 편향이 크다고 할 수 있다. 2.. AI/Machine Learning 4년 전
Decision Tree 개념 1) 패턴을 변수의 조합으로 나타냄 2) 스무고개와 유사함 (yes or no) 개요 1) 데이터가 균일해지도록 2개 이상으로 분할 - 분류 : 비슷한 범주 기준 - 예측 : 비슷한 수치 기준 2) 이진분할에 의해서 끝마디의 분할된 데이터의 개수는 input개수와 동일하다. 3차원에서의 모형 예측 모델 1) 새로운 입력 데이터 (Xnew)에 대한 예측값 (Ynew)은 Xnew가 속하는 끝 노드 y값들의 평균값이 된다. (오류가 최소) 2) 과정 - 데이터를 m개로 분할 - cost function이 최소가 되도록 분할 3) 분할변수와 분할점 결정 방법 - 모든 분할변수와 분할점 경우의 수를 계산하며, cost function이 최소가 되는 순서로 노드를 생성한다. - 그리디 알고리즘과 맥락이 같다... AI/Machine Learning 4년 전
k-NN (Nearest Neighbors) Instance-based learning으로 별도의 모델 생성없이 인접 데이터를 분류 또는 예측에 사용 (비선형) Nearest neighbors 1) 새로운 데이터에서 가장 가까운 거리에 있는 이웃값들의 범위를 의미함 - k-nearest neighbor의 k는 설정할 거리를 의미함 특징 1) intance-based learning : 관측치 (instance) 만을 이용하여 새로운 데이터에 대한 예측 2) memory-based learning : 모든 데이터를 메모리에 저장한 후, 예측 시도 3) lazy learning : 모델을 적용하지 않고 테스팅 데이터가 들어와야 작동하는 알고리즘을 의미 장점 1) 데이터 내의 노이즈에 영향 x 2) 학습 데이터 수가 많을 경우 효과적이다. 3) 메모리 .. AI/Machine Learning 4년 전
주성분 분석 (PCA) PCA (Principal Component Analysis) 1) 개념 - Unsupervised feature extraction의 방법 중 하나 - 다수 데이터가 모인 분포의 주요 성분을 분석하는 것으로 데이터들의 분산이 가장 큰 방향벡터를 의미 - 원본 데이터셋과 투영된 데이터셋 간의 평균제곱거리를 최소화하는 축 - n 개의 관측치와 i 개의 변수로 구성된 데이터에서 상관관계가 없는 j 개의 변수로 구성된 데이터(n개의 관측치) - 기존 변수의 선형결합으로 구성됨 2) 활용도 - 영상인식 - 데이터 압축 (차원 감소) - 노이즈 제거 등 3) 방법 - 모든 변수 x 에 대해 임의의 기저 (basis) 또는 계수 (x 개수)로 선형결합 -> 각 기저로 사영 변환 후의 변수 - 정사영 (project.. AI/Machine Learning 4년 전