앎을 경계하기

Machine Learning/Statistics

통계학 도감 정리 - 기술통계학 3. 상관계수

양갱맨 2022. 3. 15. 15:33

상관이란 두 변수가 있을 때, 한 쪽이 증가하면 다른 쪽도 증가하거나 한 쪽이 증가하면 다른 쪽은 감소한다와 같은 직선적인 관계를 말한다.

> 피어슨 적률상관계수

피어슨 상관계수는 들어봤는데 '적률'은 뭔지 모르겠다.

찾아보니 적률 = moment 라고 하고 함수의 모양을 표현하는 하나의 척도이다.
통계학에서는 1차 적률 = 평균, 2차 적률 = 분산, 3차 적률 = 왜도, 4차 적률 = 첨도
적률은 수학에서 정의되었고 이 개념을 통계학, 물리학에서도 사용한다.

피어슨 상관계수는 -1에서 1 사이의 값을 취한다.

상관계수 계산식

ex) 소비자들의 사과 구입량(x)과 귤 구입량(y)의 상관

소비자 사과 구입량(x) 귤 구입량(y) x-x의 평균 y-y의 평균
1 1 2 -2.5 -0.5
2 2 1 -1.5 -1.5
3 5 4 1.5 1.5
4 6 3 2.5 0.5
평균 3.5 2.5 0 0

상관계수 해석은 r의 값이 1, 0, -1 어디에 가까운지에 따라 달라진다.

1에 가까우면 양의 상관으로 한쪽이 증가하면 다른 쪽도 증가, 한쪽이 감소하면 다른 쪽도 감소한다.

0에 가까우면 무상관으로 상관관계가 없다고 해석한다.

-1에 가까우면 음의 상관으로 한쪽이 증가하면 다른 쪽은 감소, 한쪽이 감소하면 다른 쪽은 증가하는 반비례 형태를 나타낸다.


> 스피어만 순위상관계수

순위 데이터만 사용해야하는 경우나 두 변수 간 관계가 곡선적으로 상정되는 경우에는 순위상관계수를 이용한다.​

순위 데이터에 대해 계산한 피어슨의 확률상관계수가 스피어만의 순위상관계수다.

연속값을 갖는 연속 변수에 대해서는 먼저 순위 데이터로 변환하고 스피어만 상관계수를 구한다.

피어슨 상관계수와 해석하는 방법은 같다.


> 켄달 순위상관계수

x에 대한 순위와 y에 대한 순위가 일치하는지 여부에 대해 주목해서 상관 정도를 측정하는 지표

ex)

순위 일치 기준은 다음과 같다.

소비자 1의 순위 데이터(x1, y1)와 소비자 2의 순위 데이터(x2, y2)에 대해

1. x1 < x2 and y1 < y2 or x1 > x2 and y1 > y2 - 순위 일치

2. x1 < x2 and y1 > y2 or x1 > x2 and y1 < y2 - 순위 불일치

즉, 쉽게 말하면 소비자 1의 순위 데이터가 소비자 2의 순위 데이터보다 모두 우선 순위이면 일치이고 아니면 불일치다. 

A = 일치의 수, B = 불일치의 수, n = 데이터 쌍의 수

만약 같은 순위가 있다면 계산식이 달라진다.

소비자 사과(x) 순위 귤(y) 순위 소비자1 소비자2 소비자3
1 1 2      
2 2 1 x    
3 3 4 o o  
4 4 3 o o x
  소비자1 소비자2 소비자3
o의 수 2 2 0 4
x의 수 1 0 1 2

켄달 순위상과계수를 계산할 때 조합(combination)을 사용한다.

조합은 C를 사용해서 나타내고 n개의 데이터에서 x개를 뽑는다.