728x90
더보기
🐍👣
분명히..석사시절 (n년전) 투스텝와이즈 리그레션 모델을...돌리면서 통계를 마스터 했다 생각했는데..
다시봐도..새롭고...지금봐도...새로운...통계와..수식의 세계...
#4. 확률분포와 통계적 추론
※ 확통 내용 중 기본적으로 알 만한 내용은 모두 건너뛰고 기억해야 할 개념 및 수식 위주로 정리
확률 변수와 확률 분포
- 표본 공간 : 얻을 수 있는 값의 총 집합
- 확률 변수 : 표본 공간의 각 값에 실수를 부여하는 함수
- 확률 분포 : 확률 변수가 취할 수 있는 모든 값에 대해 이들 값이 취할 수 있는 확률을 나타낸 것
- 확률 분포 함수 : 확률 변수에 대응되는 확률의 관계를 함수로 나타낸 것
- 항상 양의 값을 가진다
- 표본 공간 안에 있는 전체 event의 확률을 합치면 1이 된다
- 이산형 확률 분포일 경우 → 확률 질량 함수
- 연속형 확률 분포일 경우 → 확률 밀도 함수 : f(y)
- 다만 연속형 확률 분포에서에서는 확률 밀도 함수를 적분한 누적분포함수를 사용
- F(y) = P(Y<=y)
이산형 확률 분포
- 개념 : 이산형 확률 변수가 가지는 각 값 (셀 수 있음)에 대한 가능성을 확률로 표현한 것을 대응한 것
- 종류
- 포아송 분포 : 이항분포에서 해당 사건의 발생확률인 p가 0.1 이하인 경우
- 이항분포 : 베르누이 시행을 여러번 할 때에 그 결과가 나타나는 분포
- 베르누이 시행
- 한 event 는 성공(S) 다른 event는 실패(F)로 두 사건은 상호 배타적
- p=P(s), q=1-p이며 두 시행은 서로 독립적이다
- 베르누이 시행
연속형 확률 분포
- 개념 : 어떤 구간에 속한 모든 점에서 연속적으로 값을 취하는 변수들이 있을 경우 (셀 수 없음) 이에 대한 가능성들을 연속적인 곡선으로 나타낸 것
- 특징 in 연속형 확률 변수 Y의 확률 분포
- 모든 확률 값을 더하면 1이 된다. 즉 확률 밀도 함수의 모든 구간에서의 적분값은 1이다
- 모든 구간에서의 확률 밀도 함수의 값은 0보다 크다. 단 특정 지점a에서의 확률은 0이다
- 특정 구간에서의 확률 값을 구할 경우 확률 밀도 함수의 적분을 사용한다 (=누적분포함수 : F)
- 누적분포함수 : F(y) = P(Y<=y) = d*F(y) / dy (적분)
- 특정 구간에서의 확률을 구할 때 : P(a<=Y<=b) = F(b)-F(a)
- 더 알아 두면 좋을 분포들
- 정규분포
- 평균과 표준편차로 정규분포의 모양과 위치가 정해짐
- 표준 정규 분포는 평균을 0, 표준편차를 1에 맞춘 것 : Z=N(0,1**2)
- 중심극한정리
- 표본의 크기가 충분히 크다면 표본 평균의 분포는 정규 분포를 따른다
- t분포
- 서로 다른 두 집단의 평균에 대한 통계 검정에 주로 사용됨
- 표본의 크기가 크지 않고 표준편차를 모른다면 t분포의 확률변수는 자유도가 n-1인 분포를 따름
- 모양이 정규분포보다 퍼져있음
- 자유도 n-1 (표본 크기에서 1을 뺌)이 커질수록 정규 분포에 근접 -> 자유도에 따라 분포모양이 다름
- 카이제곱분포
- 단일 모집단에서 서로 독립적인 확률 변수를 제곱한 후 더하는 분포
- 두 개 이상의 서로 다른 범주에 대해 가설 검정, 모분산 추정 등에 사용
- F분포
- 정규 분포를 따르는 두개의 모집단에서 각각의 두 표본을 추출하여 표본 분산을 계산할 경우, 표본분산과 모분산의 비율로 이루어진 두개의 카이제곱의 비율은 F 분포를 이룬다
- 서로 다른 두개 이상의 모집단의 분산이 서로 같은지 확인할 때 사용됨 (분산분석, 회귀분석 결과 해석 시 활용)
- 정규분포
📌각각의 분포의 결과 값대로 해석하는 법은 알지만 어떻게 도출되는지는 아직 잘 모른다. 프로그래머를 위한 확률과 통계 스터디 시 꼭 다시 짚고 넘어가야 함
점추정과 구간 추정
- 추정이란
- 표본으로 모집단의 값인 모수를 추정하는 것이 통계적 추론의 중요한 부분임. 표본으로 미지의 모수를 알아내는 과정이 추정이며 표본의 특성을 이해하고 이 특성들이 통계적으로 얼마나 신뢰할 수 있을 지 봐야 모집단의 특성(평균, 편차)을 이해할 수 있음
- 종류
- 점추정
- 모수가 특정한 값이라고 추정하는 것
- 구간추정
- 점추정의 정확성을 보완하기 위해 모수가 특정한 구간에 있을 것이라고 선언하는 것
- 필요 내용
- 통계량의 확률 분포에 대한 전제, 추정하는 구간 안에 모수가 있을 가능성의 크기 (신뢰 수준)
- e.g. 95%의 신뢰 수준 하에 특정 통계량이 모평균의 신뢰 구간에 있는 것을 보는 것
- 점추정
가설 검정
- 귀무가설(영가설) : 일반적인 통념 or 사실
- 대립가설(연구가설) : 일반적인 통념과 반대되지만 이번 실험 등을 통해 입증하고 싶은 내용
- 유의 수준 : 귀무 가설을 기각하는 기준 (1-신뢰수준, 95%신뢰수준이라면 5%)
- p value : 유의 수준과 비교하여 p값이 높을 수록 귀무가설이 참일 확률이 높아 기각하지 못함
다양한 통계 검정
- 정규성 검정
- 우리가 사용하는 값이 정규 분포를 따르는 지 보기 위해 사용
- t 검정
- 두 집단의 평균 차이를 볼 때 사용 (AB test 등)
- 쌍체 t 검정
- 동일한 모집단의 두 평균을 비교할 때 사용 (실험 전 후 비교 등)
- 등분산 검정 (F검정)
- 두, 세집단 이상의 분산 차이를 검정할 때 사용
- 자료가 정규 분포를 따르는 경우 : F 검정, 바트렛 검정
- 자료가 정규 분포를 따르지 않는 경우 : 레빈 검정
- 카이제곱 검정
- 범주형 자료에서 범주들 간의 독립성 여부를 통계적인 방법으로 검정
가설 검정의 오류
'👩💻LEARN : ML&Data > Book Study' 카테고리의 다른 글
[머신러닝을 위한 수학 with 파이썬, R] #7. 선형 회귀 분석과 모형 확장 (0) | 2023.02.03 |
---|---|
[머신러닝을 위한 수학 with 파이썬, R] #6. 상관분석과 분산분석 (0) | 2023.02.03 |
[머신러닝을 위한 수학 with 파이썬, R] #4. 확률과 통계 (2) | 2023.01.29 |
[머신러닝을 위한 수학 with 파이썬, R] #3. 미분과 적분의 이해와 응용 (0) | 2023.01.28 |
[머신러닝을 위한 수학 with 파이썬, R] #2. 머신 러닝을 위한 선형 대수 part2. 고윳값, 고유벡터, 대각화 (1) | 2023.01.26 |