앎을 경계하기

Machine Learning 109

탐색적 데이터 분석 (EDA) - 변이 추정

변이 : 데이터 값이 얼마나 퍼져있는지 알 수 있는 척도 변이 추정 하는 방법 편차 : 데이터가 중앙값을 주변으로 얼마나 퍼져 있는지에 대한 값 평균절대편차 : 편차의 대푯값을 추정하는 법 단순히 편차를 평균을 내면 편차의 합이 항상 0이 되기 때문에 사용할 수 없게 된다. 분산 : 제곱편차의 평균 표준편차 : 분산의 제곱근 표준편차는 원래 데이터와 스케일이 같아서 해석이 쉽다. 수식이 복잡해도 수학적으로 제곱한 값이 절댓값보다 통계 모델 다루기 편리하다는 이론을 근거로 평균절대편차보다 표준편차를 더 선호한다. 중위절대편차 : 분산, 표준편차, 평균절대편차는 특잇값, 극단값이 민감하다. 로버스트한 값을 얻기위해서 중위절대편차를 사용한다. 백분위수를 사용한 추정 사분위범위(IQR) : 25번째 백분위수와 ..

탐색적 데이터 분석 (EDA) - 데이터 종류와 대푯값

보통 처음 데이터가 주어지면 데이터의 유형, 분포 등 데이터에 대해 탐색하는 작업을 수행한다. 이것을 Exploratory Data Analysis, 탐색적 데이터 분석 (EDA)라고 한다. 데이터를 얻게되면 쓸모있는 데이터 외에도 무의미한 정보들이나 이상치 등 다양한 데이터들이 함께 존재한다. 그래서 데이터를 활용하기 위해 어떻게 전처리할 것인지 기준을 세우고, 변환하는 과정을 하는 것이 중요한 작업이다. 먼저, 원시 데이터를 가공하여 정형 데이터로 변환하는 작업을 한다. 정형 데이터의 종류 1. 수치형 데이터 연속형 : 일정 구간 내 어떤 값이든 가질 수 있는 변수 이산형 : 정수 값을 갖는 변수 2. 범주형 데이터 이진형 : True/False, 0 또는 1 등 둘 중 하나의 값을 갖는 변수 순서형..

통계학 도감 정리 - 확률분포 6. F 분포, t 분포

> F분포 F값은 2개의 x의 제곱값의 비로 정의된다. 이 비의 분포를 F 분포라고 한다. 두 개의 X제곱값을 사용하기 때문에 자유도는 2개가 된다. m1은 분자의 자유도, m2는 분모의 자유도이고 아래와 같이 표현한다. > t분포 모분산을 알 수 없고, 표본의 크기가 작을 때 z분포(정규분포)를 사용하여 검정하면 결과가 틀릴 수 있다. 이런 경우, 스튜던트화 변량이 따르는 t분포를 사용한다. t분포는 자유도에 따라 분포 형태가 달라진다. t(자유도) 로 표현한다. 모분산을 모르는 것은 모표준편차도 알 수 없다는 것이다. 이럴 때 정규분포 대신 사용하는데 식은 다음과 같다. S는 원래 모표준편차 값이 되어야하는데, 값을 모르기 때문에 t분포의 표본표준편차(s)를 사용한다. 표본 크기가 커질수록 정규분포와..

통계학 도감 정리 - 확률분포 5. 포아송 분포 poisson distribution, 카이제곱 분포 chi-squared distribution

> 포아송 분포 시행 횟수가 아주 많고, 사상 발생 확률이 아주 작을 때의 이항분포 공장에서 물건을 생산할 때 불량품의 수와 같이 시행 횟수는 많으나 적게 발생하는 사항의 확률 분포를 나타내는데 이용한다. e = 네이피어 상수, λ = 평균값(시행횟수 * 확률), x = 사상이 일어나는 횟수 평균값이 왜 시행횟수 * 확률일까는 이 블로그를 참고하자 이항분포의 기댓값은 시행횟수 * 확률이다. 포아송 분포의 람다값이 커지면, 즉 n 또는 p 값이 커지면 분산이 커지고, 분포곡선이 오른쪽으로 이동한다. 결과적으로는 정규분포에 가까워진다. > 카이제곱 분포 카이제곱 분포는 정규분포를 따르는 여러 데이터를 한 번에 취급하는 것이 가능하다. 이 때문에 분산분석에 이용할 수 있고 제곱하면 자유도에 따라 분포 형태가 ..

통계학 도감 정리 - 확률분포 4. 정규분포 normal distribution

정규분포는 평균값을 중심으로 대칭을 이루는 종 모양의 분포 통계학에서 가장 중요한 분포라고 할 수 있다. 이항분포의 시행 횟수를 늘리면 분포가 정규분포에 가까워진다. > 표준정규분포 (standard normal distribution, z-distribution) 표준정규분포란 말그대로 표준화한 정규분포를 말한다. 표준화라는 것은 무엇일까? 표준화는 평균값을 0, 분산 1로 변환하는 것을 말한다. 표준화변량 식은 다음과 같다. μ는 평균, σ는 표준편차다. 편차는 데이터 값과 평균 값의 차이이다. 표준화하면 데이터가 표준정규분포의 어디에 위치하는지 알 수 있다. z의 값이 3σ 구간(99.7%) 밖에 있을 때, 잘 발생하지 않는 수이다. > 왜도 분포가 좌우대칭인지, 왼쪽 또는 오른쪽으로 치우쳐져있는지..

통계학 도감 정리 - 확률분포 3. 이항분포 binomial distribution

확률 공부를 할 때, 처음 접하는 예제는 주로 "동전 던지기" 일 것이다. 동전 던지기는 동전의 면이 '앞' 또는 '뒤'라는 사상을 가지고 있다. 이렇게 2가지 종류의 결과만 있는 시행을 베르누이 시행이라고 하고 배르누이 시행의 사상에 대한 분포를 베르누이 분포, 이항분포라고 한다. ex) 동전 던지기의 앞면 - 성공(x=1), 뒷면 - 실패(x=0)라고 표기 1회 시행으로 성공할 확률 P(x=1) = 1/2 = 0.5 1회 시행으로 실패할 확률 P(x=0) = 1-P(x=1) = 1-0.5 = 0.5 1회에 성공하고 2, 3회에 실패할 확률 P(x=1, x=0, x=0), P(x=1)*P(x=0)*P(x=0)=0.5*0.5*0.5 = 0.125 3회 시행으로 1회 성공하고 2회 실패할 확률 3회 시행으..

통계학 도감 정리 - 확률분포 2. 균등분포 uniform distribution

지난 번 용어 정리때 사상은 시행에 일어난 결과를 말한다고 했다. 균등분포 (=균일분포)는 각 사상이 일어나는 확률이 같은 분포이다. 균등분포는 이산형과 연속형 둘 다 있다. > 이산균등분포 주사위 눈을 던져서 각 눈이 나올 확률과 같이 나올 확률이 이산적인 값을 취하고 모든 결과가 나올 확률이 같은 경우, 균일분포를 따른다고 말한다. > 연속균등분포 연속균일분포는 확률변수가 연속적인 값을 취할 수 있고, 모두 같은 확률로 사상이 일어날 때 연속균등분포를 따른다고 할 수 있다. ex)

통계학 도감 정리 - 확률분포 1. 확률과 확률분포

이제 확률에 대해 본격적으로 정리한다. 용어 정리가 잘 되어있지 않으면 나중에 구간추정 등에서 헷갈리는 문제가 생긴다. > 사상 (mapping) 실험과 같은 행위를 시행이라고 하는데, 이 시행에 의해 생긴 결과를 사상이라고 한다. 주사위 던지기 시행을 하면 '나온 눈'이 사상에 해당된다. > 확률 (probability) 어떤 사상이 어느 정도로 일어나기 쉬운지를 수치화한 것이다. 모든 사상에 대한 확률의 합은 1이다. 1 = 100% > 확률변수 (random variable) 시행했을 때 결과를 알 수 있는 변수를 확률 변수라고 한다. 확률 변수가 가질 수 있는 값이 1, 2, 3 이런식으로 값의 수가 유한한 것을 이산확률변수라고 한다. 만약 무한하게 연속적으로 가질 수 있는 값, 몸무게나 키 등이..

통계학 도감 정리 - 기술통계학 3. 상관계수

상관이란 두 변수가 있을 때, 한 쪽이 증가하면 다른 쪽도 증가하거나 한 쪽이 증가하면 다른 쪽은 감소한다와 같은 직선적인 관계를 말한다. > 피어슨 적률상관계수 피어슨 상관계수는 들어봤는데 '적률'은 뭔지 모르겠다. 찾아보니 적률 = moment 라고 하고 함수의 모양을 표현하는 하나의 척도이다. 통계학에서는 1차 적률 = 평균, 2차 적률 = 분산, 3차 적률 = 왜도, 4차 적률 = 첨도 적률은 수학에서 정의되었고 이 개념을 통계학, 물리학에서도 사용한다. 피어슨 상관계수는 -1에서 1 사이의 값을 취한다. 상관계수 계산식 ex) 소비자들의 사과 구입량(x)과 귤 구입량(y)의 상관 소비자 사과 구입량(x) 귤 구입량(y) x-x의 평균 y-y의 평균 1 1 2 -2.5 -0.5 2 2 1 -1.5..

통계학 도감 정리 - 기술통계학 2. 데이터의 분산

평균 값만으로는 데이터가 어떻게 흩어져 있는지 알 수 없다. 따라서 최댓값(max), 최솟값(min), 분위수(Quantile), 사분위범위(interquartile range, IQR), 분산(Variance) 등을 사용하여 데이터의 흩어진 정도를 파악한다. > 분위수(Quantile) n개의 데이터를 오름차순(작은 수부터 큰 수 순)으로 늘어놓고, 그것을 k등분하여 그 경계가 된 수치를 분위수라고 한다. k=4인 사분위수가 가장 많이 사용된다. 제2사분위수는 전체 데이터의 중앙에 위치하기 때문에 중앙값(median)이라고도 한다. ex) X = {2,2,5,3,4,7,6,1,5,3,8,9} 정렬한 X = {1, 2, 2, 3, 3, 4, 5, 5, 6, 7, 8, 9} k=4, [1, 2, 2] | ..