Pearson's correlation
1) 개요
- 수치로 나타낸 두 변수 간에 상관관계가 있는지 알아내기 위해 사용한다.
- 상관관계는 다음과 같이 총 3개로 분류할 수 있다.
2) Correlation coefficient (상관계수)
- 피어슨 상관계수는 두 변수 간의 선형 관계를 통계적 수치로 나타낸 것이다.
$$-1 <= r <= 1$$
- 계수가 정확히 += 1 일 때, perfect correlation 이라고 한다.
- 상관계수의 +, - 는 기울기와 상관없다.
- 값이 0 이어도 상관관계가 없다고 할 수 없다. E.g. 2차 함수 모양의 산점도
3) Assumptions
- 피어슨 상관계수는 다음 3가지의 조건을 충족한다고 가정한다.
(1) interval or ratio level
(2) linearly related
(3) bivariate normally distributed
- 데이터의 이상치나 비대칭에 매우 민감하므로 이를 꼭 충족해야 한다. (불충족할 경우 Spearman's rank correlation 사용)
4) 주의
- 높은 상관계수는 실질적으로 항상 적용된다고 할 수 없으며, 숨겨진 변수에 대한 정보 파악이 요구된다.
'Data > Data Analysis' 카테고리의 다른 글
데이터 분석 / 데이터 타입 (0) | 2021.01.18 |
---|