앎을 경계하기

Machine Learning/Statistics

탐색적 데이터 분석 (EDA) - 변이 추정

양갱맨 2024. 1. 7. 00:16

변이 : 데이터 값이 얼마나 퍼져있는지 알 수 있는 척도

변이 추정 하는 방법

  • 편차 : 데이터가 중앙값을 주변으로 얼마나 퍼져 있는지에 대한 값
    • 평균절대편차 : 편차의 대푯값을 추정하는 법
      단순히 편차를 평균을 내면 편차의 합이 항상 0이 되기 때문에 사용할 수 없게 된다.

  • 분산 : 제곱편차의 평균
  • 표준편차 : 분산의 제곱근
    • 표준편차는 원래 데이터와 스케일이 같아서 해석이 쉽다.
    • 수식이 복잡해도 수학적으로 제곱한 값이 절댓값보다 통계 모델 다루기 편리하다는 이론을 근거로 평균절대편차보다 표준편차를 더 선호한다.
  • 중위절대편차 : 분산, 표준편차, 평균절대편차는 특잇값, 극단값이 민감하다. 로버스트한 값을 얻기위해서 중위절대편차를 사용한다.

평균절대편차는 극단값때문에 평균이 커져서 절대편차의 합도 커지게 된다.중간값을 쓰면 극단값에 대해 로버스트해지기 때문에 극단값 영향을 받지 않음

  • 백분위수를 사용한 추정
    • 사분위범위(IQR) : 25번째 백분위수와 75번째 백분위수 차이를 통해 변위측정한다.