앎을 경계하기

분산 2

탐색적 데이터 분석 (EDA) - 변이 추정

변이 : 데이터 값이 얼마나 퍼져있는지 알 수 있는 척도 변이 추정 하는 방법 편차 : 데이터가 중앙값을 주변으로 얼마나 퍼져 있는지에 대한 값 평균절대편차 : 편차의 대푯값을 추정하는 법 단순히 편차를 평균을 내면 편차의 합이 항상 0이 되기 때문에 사용할 수 없게 된다. 분산 : 제곱편차의 평균 표준편차 : 분산의 제곱근 표준편차는 원래 데이터와 스케일이 같아서 해석이 쉽다. 수식이 복잡해도 수학적으로 제곱한 값이 절댓값보다 통계 모델 다루기 편리하다는 이론을 근거로 평균절대편차보다 표준편차를 더 선호한다. 중위절대편차 : 분산, 표준편차, 평균절대편차는 특잇값, 극단값이 민감하다. 로버스트한 값을 얻기위해서 중위절대편차를 사용한다. 백분위수를 사용한 추정 사분위범위(IQR) : 25번째 백분위수와 ..

통계학 도감 정리 - 기술통계학 2. 데이터의 분산

평균 값만으로는 데이터가 어떻게 흩어져 있는지 알 수 없다. 따라서 최댓값(max), 최솟값(min), 분위수(Quantile), 사분위범위(interquartile range, IQR), 분산(Variance) 등을 사용하여 데이터의 흩어진 정도를 파악한다. > 분위수(Quantile) n개의 데이터를 오름차순(작은 수부터 큰 수 순)으로 늘어놓고, 그것을 k등분하여 그 경계가 된 수치를 분위수라고 한다. k=4인 사분위수가 가장 많이 사용된다. 제2사분위수는 전체 데이터의 중앙에 위치하기 때문에 중앙값(median)이라고도 한다. ex) X = {2,2,5,3,4,7,6,1,5,3,8,9} 정렬한 X = {1, 2, 2, 3, 3, 4, 5, 5, 6, 7, 8, 9} k=4, [1, 2, 2] | ..