확률분포는 추측통계학의 기초
- 사상 (mapping)
- 행위에 의해 생긴 결과
- ex ) 주사위를 던져서 나온 눈이 사상에 해당됨
- 확률 (probability)
- 어떤 사상이 어느 정도로 일어나기 쉬운지를 수치화한 것
- 확률의 합 = 1(100%)
- 확률변수(random variable)
- 시행을 해봐야 결과를 알 수 있는 변수
- 값의 수가 유한한 것을 이산확률변수(discrete), 무한한 것을 연속확률변수(continuous)
- 확률분포(probability distribution)
- 확률변수가 취하는 값과 그 값이 실현하는 확률의 관계를 나타낸 분포
- 이산확률분포
- 균일분포(discrete uniform distribution)
- 주사위 던지기, 다트게임에서 각 번호 적중확률
- 이항분포(binomial distribution)
- 성공 또는 실패 같은 사상에 대한 분포
- 두 종류밖에 없는 시행을 베르누이 시행이라고 함
- 포아송분포(poisson distribution)
- 시행 횟수가 매우 크고, 사상이 매우 드문 이항 분포
- e : 네이피어상수 람다 : 평균값(시행횟수 n * 확률 p) a : 사상 발생 횟수
- 평균값이 커지면 점차 분산이 커지면서 정규분포에 가까워진다.
- 포아송 분포의 분산은 평균값과 같다.
- 균일분포(discrete uniform distribution)
- 연속확률분포
- 균일분포(continuous uniform distribution)
- 다트가 맞은 원반 위의 점 위치(각도)
- 정규분포(normal distribution, gaussian distribution)
- 평균값을 중심으로 대칭을 이루는 종 모양의 분포
- 이항분포의 시행이 늘어나면 정규분포에 가까워진다.
- 표준정규분포(standard normal distribution)
- avg = 0, std = 1
- 표준화(standardization)
- 표준화변량
- (변수값-평균값)/표준편차
- 표준화변량
- 표준점수
- 평균점수가 낮을수록 편차가 커진다.
- ex ) 시험 난이도 차이를 고려해서 실력을 보다 정확하게 측정하기 위한 지표
- X^2분포(chi-squared distribution)
- 정규분포를 따르는 여러 데이터를 한꺼번에 취급하는 것이 가능함
- 분산분석 가능
- 자유도에 따라 분포의 형태가 달라진다.
- 기대값=자유도, 분산=2*자유도
- 자유도가 커지면 분산이 커져서 그래프가 평평해지는 것이다.
- 정규분포를 따르는 여러 데이터를 한꺼번에 취급하는 것이 가능함
- F분포(F distribution)
- F값은 2개의 카이제곱의 비율로 정의된다.
- 자유도=2
- t분포(t distribution)
- 모분산을 모르고 표본의 크기가 작을때 사용한다.
- 작은 표본의 t분포는 정규분포보다 꼬리가 두꺼운 곡선이 된다.
- 시그마를 모르면 t분포를 따르는 스튜던트화 변량을 사용한다.
- n≥ 30 이면 정규분포와 거의 일치한다.
- 균일분포(continuous uniform distribution)
- 모집단
- 모든 연구대상을 말함
- 모집단 분포의 평균, 분산을 각각 모평균, 모분산이라고 하고 이들을 합쳐 모수라고 한다.
- 시그마 구간
- 표준화하면 데이터가 표준정규분포의 어디에 있는지 위치를 알 수 있다.
- 분포의 형태
- 왜도와 첨도
- 왜도
- 분포가 좌우로 치우친 정도를 나타내는 지표
- 표본 데이터에서 왜도를 계산할 때의 식
- 왜도가 양인 경우
- 정규분포보다 분포의 뾰족한 곳이 왼쪽에 치우쳐 있고 꼬리는 오른쪽으로 길어짐
- 왜도 = 0
- 정규분포
- 왜도가 음인 경우
- 분포의 뾰족한 곳이 오른쪽에 치우쳐 있고 꼬리는 왼쪽으로 길어짐
- 첨도
- 분포의 산의 뾰족한 정도를 나타내는 지표
- 왜도 식을 4제곱 바꾸고 -3하면 됨
- 첨도 양인 경우
- 정규분포보다 급격히 분산이 작아지는 경향이 있다
- 첨도 음인 경우
- 분산이 완만하게 커지는 경향이 있다
- 왜도나 첨도가 0에서 크게 벗어나면 극단적인 이상치가 섞여있을 가능성이 있다.
- 사상 (mapping)
- 행위에 의해 생긴 결과
- ex ) 주사위를 던져서 나온 눈이 사상에 해당됨
- 확률 (probability)
- 어떤 사상이 어느 정도로 일어나기 쉬운지를 수치화한 것
- 확률의 합 = 1(100%)
- 확률변수(random variable)
- 시행을 해봐야 결과를 알 수 있는 변수
- 값의 수가 유한한 것을 이산확률변수(discrete), 무한한 것을 연속확률변수(continuous)
- 확률분포(probability distribution)
- 확률변수가 취하는 값과 그 값이 실현하는 확률의 관계를 나타낸 분포
- 이산확률분포
- 균일분포(discrete uniform distribution)
- 주사위 던지기, 다트게임에서 각 번호 적중확률
- 이항분포(binomial distribution)
- 성공 또는 실패 같은 사상에 대한 분포
- 두 종류밖에 없는 시행을 베르누이 시행이라고 함
- 포아송분포(poisson distribution)
- 시행 횟수가 매우 크고, 사상이 매우 드문 이항 분포
- e : 네이피어상수 람다 : 평균값(시행횟수 n * 확률 p) a : 사상 발생 횟수
- 평균값이 커지면 점차 분산이 커지면서 정규분포에 가까워진다.
- 포아송 분포의 분산은 평균값과 같다.
- 균일분포(discrete uniform distribution)
- 연속확률분포
- 균일분포(continuous uniform distribution)
- 다트가 맞은 원반 위의 점 위치(각도)
- 정규분포(normal distribution, gaussian distribution)
- 평균값을 중심으로 대칭을 이루는 종 모양의 분포
- 이항분포의 시행이 늘어나면 정규분포에 가까워진다.
- 표준정규분포(standard normal distribution)
- avg = 0, std = 1
- 표준화(standardization)
- 표준화변량
- (변수값-평균값)/표준편차
- 표준화변량
- 표준점수
- 평균점수가 낮을수록 편차가 커진다.
- ex ) 시험 난이도 차이를 고려해서 실력을 보다 정확하게 측정하기 위한 지표
- X^2분포(chi-squared distribution)
- 정규분포를 따르는 여러 데이터를 한꺼번에 취급하는 것이 가능함
- 분산분석 가능
- 자유도에 따라 분포의 형태가 달라진다.
- 기대값=자유도, 분산=2*자유도
- 자유도가 커지면 분산이 커져서 그래프가 평평해지는 것이다.
- 정규분포를 따르는 여러 데이터를 한꺼번에 취급하는 것이 가능함
- F분포(F distribution)
- F값은 2개의 카이제곱의 비율로 정의된다.
- 자유도=2
- t분포(t distribution)
- 모분산을 모르고 표본의 크기가 작을때 사용한다.
- 작은 표본의 t분포는 정규분포보다 꼬리가 두꺼운 곡선이 된다.
- 시그마를 모르면 t분포를 따르는 스튜던트화 변량을 사용한다.
- n≥ 30 이면 정규분포와 거의 일치한다.
- 균일분포(continuous uniform distribution)
- 모집단
- 모든 연구대상을 말함
- 모집단 분포의 평균, 분산을 각각 모평균, 모분산이라고 하고 이들을 합쳐 모수라고 한다.
- 시그마 구간
- 표준화하면 데이터가 표준정규분포의 어디에 있는지 위치를 알 수 있다.
- 분포의 형태
- 왜도와 첨도
- 왜도
- 분포가 좌우로 치우친 정도를 나타내는 지표
- 표본 데이터에서 왜도를 계산할 때의 식
- 왜도가 양인 경우
- 정규분포보다 분포의 뾰족한 곳이 왼쪽에 치우쳐 있고 꼬리는 오른쪽으로 길어짐
- 왜도 = 0
- 정규분포
- 왜도가 음인 경우
- 분포의 뾰족한 곳이 오른쪽에 치우쳐 있고 꼬리는 왼쪽으로 길어짐
- 첨도
- 분포의 산의 뾰족한 정도를 나타내는 지표
- 왜도 식을 4제곱 바꾸고 -3하면 됨
- 첨도 양인 경우
- 정규분포보다 급격히 분산이 작아지는 경향이 있다
- 첨도 음인 경우
- 분산이 완만하게 커지는 경향이 있다
- 왜도나 첨도가 0에서 크게 벗어나면 극단적인 이상치가 섞여있을 가능성이 있다.
- 왜도
- 왜도와 첨도
- 사상 (mapping)
- 왜도
- 왜도와 첨도
'Machine Learning > Statistics' 카테고리의 다른 글
통계학 도감 정리 - 기술 통계학 1. 평균 (0) | 2022.03.14 |
---|---|
통계학 도감 정리 - 통계학이란? (0) | 2022.03.14 |
파이썬 데이터분석 실무 테크닉 100 - 6장 (1) | 2021.07.01 |
파이썬 데이터분석 실무 테크닉 100 - 5장 (1) | 2021.03.03 |
파이썬 데이터분석 실무 테크닉 100 - 4장 (0) | 2021.01.07 |