앎을 경계하기

통계 2

탐색적 데이터 분석 (EDA) - 변이 추정

변이 : 데이터 값이 얼마나 퍼져있는지 알 수 있는 척도 변이 추정 하는 방법 편차 : 데이터가 중앙값을 주변으로 얼마나 퍼져 있는지에 대한 값 평균절대편차 : 편차의 대푯값을 추정하는 법 단순히 편차를 평균을 내면 편차의 합이 항상 0이 되기 때문에 사용할 수 없게 된다. 분산 : 제곱편차의 평균 표준편차 : 분산의 제곱근 표준편차는 원래 데이터와 스케일이 같아서 해석이 쉽다. 수식이 복잡해도 수학적으로 제곱한 값이 절댓값보다 통계 모델 다루기 편리하다는 이론을 근거로 평균절대편차보다 표준편차를 더 선호한다. 중위절대편차 : 분산, 표준편차, 평균절대편차는 특잇값, 극단값이 민감하다. 로버스트한 값을 얻기위해서 중위절대편차를 사용한다. 백분위수를 사용한 추정 사분위범위(IQR) : 25번째 백분위수와 ..

탐색적 데이터 분석 (EDA) - 데이터 종류와 대푯값

보통 처음 데이터가 주어지면 데이터의 유형, 분포 등 데이터에 대해 탐색하는 작업을 수행한다. 이것을 Exploratory Data Analysis, 탐색적 데이터 분석 (EDA)라고 한다. 데이터를 얻게되면 쓸모있는 데이터 외에도 무의미한 정보들이나 이상치 등 다양한 데이터들이 함께 존재한다. 그래서 데이터를 활용하기 위해 어떻게 전처리할 것인지 기준을 세우고, 변환하는 과정을 하는 것이 중요한 작업이다. 먼저, 원시 데이터를 가공하여 정형 데이터로 변환하는 작업을 한다. 정형 데이터의 종류 1. 수치형 데이터 연속형 : 일정 구간 내 어떤 값이든 가질 수 있는 변수 이산형 : 정수 값을 갖는 변수 2. 범주형 데이터 이진형 : True/False, 0 또는 1 등 둘 중 하나의 값을 갖는 변수 순서형..