앎을 경계하기

Machine Learning/Statistics

통계학 도감 정리 - 확률분포 4. 정규분포 normal distribution

양갱맨 2022. 3. 15. 19:36

정규분포는 평균값을 중심으로 대칭을 이루는 종 모양의 분포

통계학에서 가장 중요한 분포라고 할 수 있다.

이항분포의 시행 횟수를 늘리면 분포가 정규분포에 가까워진다.

출처 : http://piramvill2.org/?p=3748

 


> 표준정규분포 (standard normal distribution, z-distribution)

표준정규분포란 말그대로 표준화한 정규분포를 말한다.

표준화라는 것은 무엇일까?

표준화는 평균값을 0, 분산 1로 변환하는 것을 말한다.

표준화변량 식은 다음과 같다.

μ는 평균, σ는 표준편차다.

편차는 데이터 값과 평균 값의 차이이다.


표준화하면 데이터가 표준정규분포의 어디에 위치하는지 알 수 있다.

z의 값이 3σ 구간(99.7%) 밖에 있을 때, 잘 발생하지 않는 수이다.

출처 : https://ko.wikipedia.org/wiki/68-95-99.7_%EA%B7%9C%EC%B9%99

 


> 왜도

분포가 좌우대칭인지, 왼쪽 또는 오른쪽으로 치우쳐져있는지를 나타내는 지표

왜도가 양인 경우 : 분포의 뾰족한 부분이 왼쪽에 치우쳐 있고 꼬리는 오른쪽으로 길어진다.

왜도가 음인 경우 : 분포의 뾰족한 부분이 오른쪽에 치우쳐 있고 꼬리는 왼쪽으로 길어진다.


> 첨도

분포의 뾰족한 정도를 나타내는 지표

첨도가 양인 경우 : 정규분포보다 분산이 작아지고 산이 뾰족한 모양

첨도가 음인 경우 : 정규분포보다 분산이 커지고 산이 완만한 모양

 

왜도나 첨도가 0에서 크게 벗어난 경우, 극단적으로 값이 크거나 작은 수치(이상치)가 섞여있을 가능성이 있다.