앎을 경계하기

통계학 정리 5

통계학 도감 정리 - 확률분포 6. F 분포, t 분포

> F분포 F값은 2개의 x의 제곱값의 비로 정의된다. 이 비의 분포를 F 분포라고 한다. 두 개의 X제곱값을 사용하기 때문에 자유도는 2개가 된다. m1은 분자의 자유도, m2는 분모의 자유도이고 아래와 같이 표현한다. > t분포 모분산을 알 수 없고, 표본의 크기가 작을 때 z분포(정규분포)를 사용하여 검정하면 결과가 틀릴 수 있다. 이런 경우, 스튜던트화 변량이 따르는 t분포를 사용한다. t분포는 자유도에 따라 분포 형태가 달라진다. t(자유도) 로 표현한다. 모분산을 모르는 것은 모표준편차도 알 수 없다는 것이다. 이럴 때 정규분포 대신 사용하는데 식은 다음과 같다. S는 원래 모표준편차 값이 되어야하는데, 값을 모르기 때문에 t분포의 표본표준편차(s)를 사용한다. 표본 크기가 커질수록 정규분포와..

통계학 도감 정리 - 확률분포 5. 포아송 분포 poisson distribution, 카이제곱 분포 chi-squared distribution

> 포아송 분포 시행 횟수가 아주 많고, 사상 발생 확률이 아주 작을 때의 이항분포 공장에서 물건을 생산할 때 불량품의 수와 같이 시행 횟수는 많으나 적게 발생하는 사항의 확률 분포를 나타내는데 이용한다. e = 네이피어 상수, λ = 평균값(시행횟수 * 확률), x = 사상이 일어나는 횟수 평균값이 왜 시행횟수 * 확률일까는 이 블로그를 참고하자 이항분포의 기댓값은 시행횟수 * 확률이다. 포아송 분포의 람다값이 커지면, 즉 n 또는 p 값이 커지면 분산이 커지고, 분포곡선이 오른쪽으로 이동한다. 결과적으로는 정규분포에 가까워진다. > 카이제곱 분포 카이제곱 분포는 정규분포를 따르는 여러 데이터를 한 번에 취급하는 것이 가능하다. 이 때문에 분산분석에 이용할 수 있고 제곱하면 자유도에 따라 분포 형태가 ..

통계학 도감 정리 - 기술통계학 3. 상관계수

상관이란 두 변수가 있을 때, 한 쪽이 증가하면 다른 쪽도 증가하거나 한 쪽이 증가하면 다른 쪽은 감소한다와 같은 직선적인 관계를 말한다. > 피어슨 적률상관계수 피어슨 상관계수는 들어봤는데 '적률'은 뭔지 모르겠다. 찾아보니 적률 = moment 라고 하고 함수의 모양을 표현하는 하나의 척도이다. 통계학에서는 1차 적률 = 평균, 2차 적률 = 분산, 3차 적률 = 왜도, 4차 적률 = 첨도 적률은 수학에서 정의되었고 이 개념을 통계학, 물리학에서도 사용한다. 피어슨 상관계수는 -1에서 1 사이의 값을 취한다. 상관계수 계산식 ex) 소비자들의 사과 구입량(x)과 귤 구입량(y)의 상관 소비자 사과 구입량(x) 귤 구입량(y) x-x의 평균 y-y의 평균 1 1 2 -2.5 -0.5 2 2 1 -1.5..

통계학 도감 정리 - 기술통계학 2. 데이터의 분산

평균 값만으로는 데이터가 어떻게 흩어져 있는지 알 수 없다. 따라서 최댓값(max), 최솟값(min), 분위수(Quantile), 사분위범위(interquartile range, IQR), 분산(Variance) 등을 사용하여 데이터의 흩어진 정도를 파악한다. > 분위수(Quantile) n개의 데이터를 오름차순(작은 수부터 큰 수 순)으로 늘어놓고, 그것을 k등분하여 그 경계가 된 수치를 분위수라고 한다. k=4인 사분위수가 가장 많이 사용된다. 제2사분위수는 전체 데이터의 중앙에 위치하기 때문에 중앙값(median)이라고도 한다. ex) X = {2,2,5,3,4,7,6,1,5,3,8,9} 정렬한 X = {1, 2, 2, 3, 3, 4, 5, 5, 6, 7, 8, 9} k=4, [1, 2, 2] | ..

통계학 도감 정리 - 기술 통계학 1. 평균

여러가지 평균 > 산술 평균 우리가 흔히 알고있는 평균 계산이 산술 평균이다. ex ) 5개월(1월~ 5월) 간 평균 전기요금 1월 5300 2월 6800 3월 4000 4월 4100 5월 4300 ( 5300 + 6800 + 4000 + 4100 + 4300 ) / 5 = 4900 > 기하평균 연속적인 변화율 값들의 평균 변화율을 구할 때 사용하는 평균이 기하평균이다. 쉽게 생각하면 산술평균은 '합의 평균', 기하평균은 '곱의 평균'이다. ex) 1월~4월 매출 평균 성장률 구하기 1월 1000 성장률 2월 2300 230% 3월 1800 78.3% 4월 2900 161.1% (2.30*0.783*1.611)^(1/3) = 1.426 -> 42.6% 1000 -> 1426 -> 2034 -> 2900 ..