본문으로 바로가기

Pearson's correlation

category Data/Data Analysis 2021. 2. 3. 21:39

Pearson's correlation

1) 개요

    - 수치로 나타낸 두 변수 간에 상관관계가 있는지 알아내기 위해 사용한다.

    - 상관관계는 다음과 같이 총 3개로 분류할 수 있다.

2) Correlation coefficient (상관계수)

    - 피어슨 상관계수는 두 변수 간의 선형 관계를 통계적 수치로 나타낸 것이다.

$$-1 <= r <= 1$$

    - 계수가 정확히 += 1 일 때, perfect correlation 이라고 한다.

    - 상관계수의 +, - 는 기울기와 상관없다.

    - 값이 0 이어도 상관관계가 없다고 할 수 없다. E.g. 2차 함수 모양의 산점도

 

3) Assumptions

    - 피어슨 상관계수는 다음 3가지의 조건을 충족한다고 가정한다.

        (1) interval or ratio level

        (2) linearly related

        (3) bivariate normally distributed

    - 데이터의 이상치나 비대칭에 매우 민감하므로 이를 꼭 충족해야 한다. (불충족할 경우 Spearman's rank correlation 사용)

 

4) 주의

    - 높은 상관계수는 실질적으로 항상 적용된다고 할 수 없으며, 숨겨진 변수에 대한 정보 파악이 요구된다.

'Data > Data Analysis' 카테고리의 다른 글

데이터 분석 / 데이터 타입  (0) 2021.01.18