앎을 경계하기

Machine Learning/Statistics

여러가지 확률분포

양갱맨 2022. 2. 3. 23:33

확률분포는 추측통계학의 기초

  • 사상 (mapping)
    • 행위에 의해 생긴 결과
    • ex ) 주사위를 던져서 나온 눈이 사상에 해당됨
  • 확률 (probability)
    • 어떤 사상이 어느 정도로 일어나기 쉬운지를 수치화한 것
    • 확률의 합 = 1(100%)
  • 확률변수(random variable)
    • 시행을 해봐야 결과를 알 수 있는 변수
    • 값의 수가 유한한 것을 이산확률변수(discrete), 무한한 것을 연속확률변수(continuous)
  • 확률분포(probability distribution)
    • 확률변수가 취하는 값과 그 값이 실현하는 확률의 관계를 나타낸 분포
    • 이산확률분포
      • 균일분포(discrete uniform distribution)
        • 주사위 던지기, 다트게임에서 각 번호 적중확률
      • 이항분포(binomial distribution)
        • 성공 또는 실패 같은 사상에 대한 분포
        • 두 종류밖에 없는 시행을 베르누이 시행이라고 함
      • 포아송분포(poisson distribution)
        • 시행 횟수가 매우 크고, 사상이 매우 드문 이항 분포
        • e : 네이피어상수 람다 : 평균값(시행횟수 n * 확률 p) a : 사상 발생 횟수
        • 평균값이 커지면 점차 분산이 커지면서 정규분포에 가까워진다.
        • 포아송 분포의 분산은 평균값과 같다.
    • 연속확률분포
      • 균일분포(continuous uniform distribution)
        • 다트가 맞은 원반 위의 점 위치(각도)
      • 정규분포(normal distribution, gaussian distribution)
        • 평균값을 중심으로 대칭을 이루는 종 모양의 분포
        • 이항분포의 시행이 늘어나면 정규분포에 가까워진다.
      • 표준정규분포(standard normal distribution)
        • avg = 0, std = 1
        • 표준화(standardization)
          • 표준화변량
            • (변수값-평균값)/표준편차
        • 표준점수
          • 평균점수가 낮을수록 편차가 커진다.
          • ex ) 시험 난이도 차이를 고려해서 실력을 보다 정확하게 측정하기 위한 지표
      • X^2분포(chi-squared distribution)
        • 정규분포를 따르는 여러 데이터를 한꺼번에 취급하는 것이 가능함
          • 분산분석 가능
        • 자유도에 따라 분포의 형태가 달라진다.
        • 기대값=자유도, 분산=2*자유도
          • 자유도가 커지면 분산이 커져서 그래프가 평평해지는 것이다.
      • F분포(F distribution)
        • F값은 2개의 카이제곱의 비율로 정의된다.
        • 자유도=2
      • t분포(t distribution)
        • 모분산을 모르고 표본의 크기가 작을때 사용한다.
        • 작은 표본의 t분포는 정규분포보다 꼬리가 두꺼운 곡선이 된다.
        • 시그마를 모르면 t분포를 따르는 스튜던트화 변량을 사용한다.
        • n≥ 30 이면 정규분포와 거의 일치한다.
  • 모집단
    • 모든 연구대상을 말함
    • 모집단 분포의 평균, 분산을 각각 모평균, 모분산이라고 하고 이들을 합쳐 모수라고 한다.
  • 시그마 구간
    • 표준화하면 데이터가 표준정규분포의 어디에 있는지 위치를 알 수 있다.
  • 분포의 형태
    • 왜도와 첨도
      • 왜도
        • 분포가 좌우로 치우친 정도를 나타내는 지표
        • 표본 데이터에서 왜도를 계산할 때의 식
        • 왜도가 양인 경우
          • 정규분포보다 분포의 뾰족한 곳이 왼쪽에 치우쳐 있고 꼬리는 오른쪽으로 길어짐
        • 왜도 = 0
          • 정규분포
        • 왜도가 음인 경우
          • 분포의 뾰족한 곳이 오른쪽에 치우쳐 있고 꼬리는 왼쪽으로 길어짐
      • 첨도
        • 분포의 산의 뾰족한 정도를 나타내는 지표
        • 왜도 식을 4제곱 바꾸고 -3하면 됨
        • 첨도 양인 경우
          • 정규분포보다 급격히 분산이 작아지는 경향이 있다
        • 첨도 음인 경우
          • 분산이 완만하게 커지는 경향이 있다
      • 왜도나 첨도가 0에서 크게 벗어나면 극단적인 이상치가 섞여있을 가능성이 있다.
        • 사상 (mapping)
          • 행위에 의해 생긴 결과
          • ex ) 주사위를 던져서 나온 눈이 사상에 해당됨
        • 확률 (probability)
          • 어떤 사상이 어느 정도로 일어나기 쉬운지를 수치화한 것
          • 확률의 합 = 1(100%)
        • 확률변수(random variable)
          • 시행을 해봐야 결과를 알 수 있는 변수
          • 값의 수가 유한한 것을 이산확률변수(discrete), 무한한 것을 연속확률변수(continuous)
        • 확률분포(probability distribution)
          • 확률변수가 취하는 값과 그 값이 실현하는 확률의 관계를 나타낸 분포
          • 이산확률분포
            • 균일분포(discrete uniform distribution)
              • 주사위 던지기, 다트게임에서 각 번호 적중확률
            • 이항분포(binomial distribution)
              • 성공 또는 실패 같은 사상에 대한 분포
              • 두 종류밖에 없는 시행을 베르누이 시행이라고 함
            • 포아송분포(poisson distribution)
              • 시행 횟수가 매우 크고, 사상이 매우 드문 이항 분포
              • e : 네이피어상수 람다 : 평균값(시행횟수 n * 확률 p) a : 사상 발생 횟수
              • 평균값이 커지면 점차 분산이 커지면서 정규분포에 가까워진다.
              • 포아송 분포의 분산은 평균값과 같다.
          • 연속확률분포
            • 균일분포(continuous uniform distribution)
              • 다트가 맞은 원반 위의 점 위치(각도)
            • 정규분포(normal distribution, gaussian distribution)
              • 평균값을 중심으로 대칭을 이루는 종 모양의 분포
              • 이항분포의 시행이 늘어나면 정규분포에 가까워진다.
            • 표준정규분포(standard normal distribution)
              • avg = 0, std = 1
              • 표준화(standardization)
                • 표준화변량
                  • (변수값-평균값)/표준편차
              • 표준점수
                • 평균점수가 낮을수록 편차가 커진다.
                • ex ) 시험 난이도 차이를 고려해서 실력을 보다 정확하게 측정하기 위한 지표
            • X^2분포(chi-squared distribution)
              • 정규분포를 따르는 여러 데이터를 한꺼번에 취급하는 것이 가능함
                • 분산분석 가능
              • 자유도에 따라 분포의 형태가 달라진다.
              • 기대값=자유도, 분산=2*자유도
                • 자유도가 커지면 분산이 커져서 그래프가 평평해지는 것이다.
            • F분포(F distribution)
              • F값은 2개의 카이제곱의 비율로 정의된다.
              • 자유도=2
            • t분포(t distribution)
              • 모분산을 모르고 표본의 크기가 작을때 사용한다.
              • 작은 표본의 t분포는 정규분포보다 꼬리가 두꺼운 곡선이 된다.
              • 시그마를 모르면 t분포를 따르는 스튜던트화 변량을 사용한다.
              • n≥ 30 이면 정규분포와 거의 일치한다.
        • 모집단
          • 모든 연구대상을 말함
          • 모집단 분포의 평균, 분산을 각각 모평균, 모분산이라고 하고 이들을 합쳐 모수라고 한다.
        • 시그마 구간
          • 표준화하면 데이터가 표준정규분포의 어디에 있는지 위치를 알 수 있다.
        • 분포의 형태
          • 왜도와 첨도
            • 왜도
              • 분포가 좌우로 치우친 정도를 나타내는 지표
              • 표본 데이터에서 왜도를 계산할 때의 식
              • 왜도가 양인 경우
                • 정규분포보다 분포의 뾰족한 곳이 왼쪽에 치우쳐 있고 꼬리는 오른쪽으로 길어짐
              • 왜도 = 0
                • 정규분포
              • 왜도가 음인 경우
                • 분포의 뾰족한 곳이 오른쪽에 치우쳐 있고 꼬리는 왼쪽으로 길어짐
            • 첨도
              • 분포의 산의 뾰족한 정도를 나타내는 지표
              • 왜도 식을 4제곱 바꾸고 -3하면 됨
              • 첨도 양인 경우
                • 정규분포보다 급격히 분산이 작아지는 경향이 있다
              • 첨도 음인 경우
                • 분산이 완만하게 커지는 경향이 있다
            • 왜도나 첨도가 0에서 크게 벗어나면 극단적인 이상치가 섞여있을 가능성이 있다.