👩‍💻LEARN : ML&Data/Book Study

[머신러닝을 위한 수학 with 파이썬, R] #5. 확률분포와 통계적 추론

쟈니유 2023. 1. 30. 22:31
728x90

더보기

🐍👣

분명히..석사시절 (n년전) 투스텝와이즈 리그레션 모델을...돌리면서 통계를 마스터 했다 생각했는데..

다시봐도..새롭고...지금봐도...새로운...통계와..수식의 세계...


#4. 확률분포와 통계적 추론 

※ 확통 내용 중 기본적으로 알 만한 내용은 모두 건너뛰고 기억해야 할 개념 및 수식 위주로 정리 

 

 

 

확률 변수와 확률 분포 

 

  • 표본 공간 : 얻을 수 있는 값의 총 집합 
  • 확률 변수 : 표본 공간의 각 값에 실수를 부여하는 함수 
  • 확률 분포 : 확률 변수가 취할 수 있는 모든 값에 대해 이들 값이 취할 수 있는 확률을 나타낸 것 
  • 확률 분포 함수 : 확률 변수에 대응되는 확률의 관계를 함수로 나타낸 것 
    • 항상 양의 값을 가진다
    • 표본 공간 안에 있는 전체 event의 확률을 합치면 1이 된다 
    • 이산형 확률 분포일 경우 → 확률 질량 함수 
    • 연속형 확률 분포일 경우 → 확률 밀도 함수 : f(y)  
      • 다만 연속형 확률 분포에서에서는 확률 밀도 함수를 적분한 누적분포함수를 사용 
      • F(y) = P(Y<=y) 

 

이산형 확률 분포 

  • 개념 : 이산형 확률 변수가 가지는 각 값 (셀 수 있음)에 대한 가능성을 확률로 표현한 것을 대응한 것 
  • 종류
    • 포아송 분포 : 이항분포에서 해당 사건의 발생확률인 p가 0.1 이하인 경우  
    • 이항분포 : 베르누이 시행을 여러번 할 때에 그 결과가 나타나는 분포
      • 베르누이 시행 
        • 한 event 는 성공(S) 다른 event는 실패(F)로 두 사건은 상호 배타적
        • p=P(s), q=1-p이며 두 시행은 서로 독립적이다 

 

연속형 확률 분포 

  • 개념 : 어떤 구간에 속한 모든 점에서 연속적으로 값을 취하는 변수들이 있을 경우 (셀 수 없음) 이에 대한 가능성들을 연속적인 곡선으로 나타낸 것 
  • 특징 in 연속형 확률 변수 Y의 확률 분포 
    • 모든 확률 값을 더하면 1이 된다. 즉 확률 밀도 함수의 모든 구간에서의 적분값은 1이다 
    • 모든 구간에서의 확률 밀도 함수의 값은 0보다 크다. 단 특정 지점a에서의 확률은 0이다 
    • 특정 구간에서의 확률 값을 구할 경우 확률 밀도 함수의 적분을 사용한다 (=누적분포함수 : F) 
      • 누적분포함수 : F(y) = P(Y<=y) = d*F(y) / dy (적분) 
      • 특정 구간에서의 확률을 구할 때 : P(a<=Y<=b) = F(b)-F(a) 
  • 더 알아 두면 좋을 분포들 
    • 정규분포 
      • 평균과 표준편차로 정규분포의 모양과 위치가 정해짐 
      • 표준 정규 분포는 평균을 0, 표준편차를 1에 맞춘 것 : Z=N(0,1**2)
    • 중심극한정리
      • 표본의 크기가 충분히 크다면 표본 평균의 분포는 정규 분포를 따른다 
    • t분포
      • 서로 다른 두 집단의 평균에 대한 통계 검정에 주로 사용됨 
      • 표본의 크기가 크지 않고 표준편차를 모른다면 t분포의 확률변수는 자유도가 n-1인 분포를 따름 
        • 모양이 정규분포보다 퍼져있음
        • 자유도 n-1 (표본 크기에서 1을 뺌)이 커질수록 정규 분포에 근접 -> 자유도에 따라 분포모양이 다름 
    • 카이제곱분포
      • 단일 모집단에서 서로 독립적인 확률 변수를 제곱한 후 더하는 분포 
      • 두 개 이상의 서로 다른 범주에 대해 가설 검정, 모분산 추정 등에 사용 
    • F분포 
      • 정규 분포를 따르는 두개의 모집단에서 각각의 두 표본을 추출하여 표본 분산을 계산할 경우, 표본분산과 모분산의 비율로 이루어진 두개의 카이제곱의 비율은 F 분포를 이룬다 
      • 서로 다른 두개 이상의 모집단의 분산이 서로 같은지 확인할 때 사용됨 (분산분석, 회귀분석 결과 해석 시 활용) 
📌각각의 분포의 결과 값대로 해석하는 법은 알지만 어떻게 도출되는지는 아직 잘 모른다. 프로그래머를 위한 확률과 통계 스터디 시 꼭 다시 짚고 넘어가야 함 

 

점추정과 구간 추정

  • 추정이란 
    • 표본으로 모집단의 값인 모수를 추정하는 것이 통계적 추론의 중요한 부분임. 표본으로 미지의 모수를 알아내는 과정이 추정이며 표본의 특성을 이해하고 이 특성들이 통계적으로 얼마나 신뢰할 수 있을 지 봐야 모집단의 특성(평균, 편차)을 이해할 수 있음 
  • 종류
    • 점추정
      • 모수가 특정한 값이라고 추정하는 것 
    • 구간추정
      • 점추정의 정확성을 보완하기 위해 모수가 특정한 구간에 있을 것이라고 선언하는 것 
      • 필요 내용
        • 통계량의 확률 분포에 대한 전제, 추정하는 구간 안에 모수가 있을 가능성의 크기 (신뢰 수준) 
        • e.g. 95%의 신뢰 수준 하에 특정 통계량이 모평균의 신뢰 구간에 있는 것을 보는 것 

 

가설 검정 

 

  • 귀무가설(영가설) : 일반적인 통념 or 사실 
  • 대립가설(연구가설) : 일반적인 통념과 반대되지만 이번 실험 등을 통해 입증하고 싶은 내용 
  • 유의 수준 : 귀무 가설을 기각하는 기준 (1-신뢰수준, 95%신뢰수준이라면 5%) 
  • p value : 유의 수준과 비교하여 p값이 높을 수록 귀무가설이 참일 확률이 높아 기각하지 못함 

 

다양한 통계 검정 

 

  • 정규성 검정 
    • 우리가 사용하는 값이 정규 분포를 따르는 지 보기 위해 사용 
  • t 검정
    • 두 집단의 평균 차이를 볼 때 사용 (AB test 등)
  • 쌍체 t 검정 
    • 동일한 모집단의 두 평균을 비교할 때 사용 (실험 전 후 비교 등)
  • 등분산 검정 (F검정)
    • 두, 세집단 이상의 분산 차이를 검정할 때 사용 
    • 자료가 정규 분포를 따르는 경우 : F 검정, 바트렛 검정 
    • 자료가 정규 분포를 따르지 않는 경우 : 레빈 검정 
  • 카이제곱 검정
    • 범주형 자료에서 범주들 간의 독립성 여부를 통계적인 방법으로 검정 

 

가설 검정의 오류