Decision Tree 개념 1) 패턴을 변수의 조합으로 나타냄 2) 스무고개와 유사함 (yes or no) 개요 1) 데이터가 균일해지도록 2개 이상으로 분할 - 분류 : 비슷한 범주 기준 - 예측 : 비슷한 수치 기준 2) 이진분할에 의해서 끝마디의 분할된 데이터의 개수는 input개수와 동일하다. 3차원에서의 모형 예측 모델 1) 새로운 입력 데이터 (Xnew)에 대한 예측값 (Ynew)은 Xnew가 속하는 끝 노드 y값들의 평균값이 된다. (오류가 최소) 2) 과정 - 데이터를 m개로 분할 - cost function이 최소가 되도록 분할 3) 분할변수와 분할점 결정 방법 - 모든 분할변수와 분할점 경우의 수를 계산하며, cost function이 최소가 되는 순서로 노드를 생성한다. - 그리디 알고리즘과 맥락이 같다... AI/Machine Learning 4년 전
k-NN (Nearest Neighbors) Instance-based learning으로 별도의 모델 생성없이 인접 데이터를 분류 또는 예측에 사용 (비선형) Nearest neighbors 1) 새로운 데이터에서 가장 가까운 거리에 있는 이웃값들의 범위를 의미함 - k-nearest neighbor의 k는 설정할 거리를 의미함 특징 1) intance-based learning : 관측치 (instance) 만을 이용하여 새로운 데이터에 대한 예측 2) memory-based learning : 모든 데이터를 메모리에 저장한 후, 예측 시도 3) lazy learning : 모델을 적용하지 않고 테스팅 데이터가 들어와야 작동하는 알고리즘을 의미 장점 1) 데이터 내의 노이즈에 영향 x 2) 학습 데이터 수가 많을 경우 효과적이다. 3) 메모리 .. AI/Machine Learning 4년 전