[머신러닝을 위한 수학 with 파이썬, R] #5. 확률분포와 통계적 추론

👩‍💻LEARN : ML&Data/Book Study

[머신러닝을 위한 수학 with 파이썬, R] #5. 확률분포와 통계적 추론

쟈니유 2023. 1. 30. 22:31

728x90

🐍👣

분명히..석사시절 (n년전) 투스텝와이즈 리그레션 모델을...돌리면서 통계를 마스터 했다 생각했는데..

다시봐도..새롭고...지금봐도...새로운...통계와..수식의 세계...

#4. 확률분포와 통계적 추론

※ 확통 내용 중 기본적으로 알 만한 내용은 모두 건너뛰고 기억해야 할 개념 및 수식 위주로 정리

확률 변수와 확률 분포

표본 공간 : 얻을 수 있는 값의 총 집합
확률 변수 : 표본 공간의 각 값에 실수를 부여하는 함수
확률 분포 : 확률 변수가 취할 수 있는 모든 값에 대해 이들 값이 취할 수 있는 확률을 나타낸 것
확률 분포 함수 : 확률 변수에 대응되는 확률의 관계를 함수로 나타낸 것
- 항상 양의 값을 가진다
- 표본 공간 안에 있는 전체 event의 확률을 합치면 1이 된다
- 이산형 확률 분포일 경우 → 확률 질량 함수
- 연속형 확률 분포일 경우 → 확률 밀도 함수 : f(y)
  - 다만 연속형 확률 분포에서에서는 확률 밀도 함수를 적분한 누적분포함수를 사용
  - F(y) = P(Y<=y)

이산형 확률 분포

개념 : 이산형 확률 변수가 가지는 각 값 (셀 수 있음)에 대한 가능성을 확률로 표현한 것을 대응한 것
종류
- 포아송 분포 : 이항분포에서 해당 사건의 발생확률인 p가 0.1 이하인 경우
- 이항분포 : 베르누이 시행을 여러번 할 때에 그 결과가 나타나는 분포
  - 베르누이 시행
    - 한 event 는 성공(S) 다른 event는 실패(F)로 두 사건은 상호 배타적
    - p=P(s), q=1-p이며 두 시행은 서로 독립적이다

연속형 확률 분포

개념 : 어떤 구간에 속한 모든 점에서 연속적으로 값을 취하는 변수들이 있을 경우 (셀 수 없음) 이에 대한 가능성들을 연속적인 곡선으로 나타낸 것
특징 in 연속형 확률 변수 Y의 확률 분포
- 모든 확률 값을 더하면 1이 된다. 즉 확률 밀도 함수의 모든 구간에서의 적분값은 1이다
- 모든 구간에서의 확률 밀도 함수의 값은 0보다 크다. 단 특정 지점a에서의 확률은 0이다
- 특정 구간에서의 확률 값을 구할 경우 확률 밀도 함수의 적분을 사용한다 (=누적분포함수 : F)
  - 누적분포함수 : F(y) = P(Y<=y) = d*F(y) / dy (적분)
  - 특정 구간에서의 확률을 구할 때 : P(a<=Y<=b) = F(b)-F(a)
더 알아 두면 좋을 분포들
- 정규분포
  - 평균과 표준편차로 정규분포의 모양과 위치가 정해짐
  - 표준 정규 분포는 평균을 0, 표준편차를 1에 맞춘 것 : Z=N(0,1**2)
- 중심극한정리
  - 표본의 크기가 충분히 크다면 표본 평균의 분포는 정규 분포를 따른다
- t분포
  - 서로 다른 두 집단의 평균에 대한 통계 검정에 주로 사용됨
  - 표본의 크기가 크지 않고 표준편차를 모른다면 t분포의 확률변수는 자유도가 n-1인 분포를 따름
    - 모양이 정규분포보다 퍼져있음
    - 자유도 n-1 (표본 크기에서 1을 뺌)이 커질수록 정규 분포에 근접 -> 자유도에 따라 분포모양이 다름
- 카이제곱분포
  - 단일 모집단에서 서로 독립적인 확률 변수를 제곱한 후 더하는 분포
  - 두 개 이상의 서로 다른 범주에 대해 가설 검정, 모분산 추정 등에 사용
- F분포
  - 정규 분포를 따르는 두개의 모집단에서 각각의 두 표본을 추출하여 표본 분산을 계산할 경우, 표본분산과 모분산의 비율로 이루어진 두개의 카이제곱의 비율은 F 분포를 이룬다
  - 서로 다른 두개 이상의 모집단의 분산이 서로 같은지 확인할 때 사용됨 (분산분석, 회귀분석 결과 해석 시 활용)

📌각각의 분포의 결과 값대로 해석하는 법은 알지만 어떻게 도출되는지는 아직 잘 모른다. 프로그래머를 위한 확률과 통계 스터디 시 꼭 다시 짚고 넘어가야 함

점추정과 구간 추정

추정이란
- 표본으로 모집단의 값인 모수를 추정하는 것이 통계적 추론의 중요한 부분임. 표본으로 미지의 모수를 알아내는 과정이 추정이며 표본의 특성을 이해하고 이 특성들이 통계적으로 얼마나 신뢰할 수 있을 지 봐야 모집단의 특성(평균, 편차)을 이해할 수 있음
종류
- 점추정
  - 모수가 특정한 값이라고 추정하는 것
- 구간추정
  - 점추정의 정확성을 보완하기 위해 모수가 특정한 구간에 있을 것이라고 선언하는 것
  - 필요 내용
    - 통계량의 확률 분포에 대한 전제, 추정하는 구간 안에 모수가 있을 가능성의 크기 (신뢰 수준)
    - e.g. 95%의 신뢰 수준 하에 특정 통계량이 모평균의 신뢰 구간에 있는 것을 보는 것

가설 검정

귀무가설(영가설) : 일반적인 통념 or 사실
대립가설(연구가설) : 일반적인 통념과 반대되지만 이번 실험 등을 통해 입증하고 싶은 내용
유의 수준 : 귀무 가설을 기각하는 기준 (1-신뢰수준, 95%신뢰수준이라면 5%)
p value : 유의 수준과 비교하여 p값이 높을 수록 귀무가설이 참일 확률이 높아 기각하지 못함

다양한 통계 검정

정규성 검정
- 우리가 사용하는 값이 정규 분포를 따르는 지 보기 위해 사용
t 검정
- 두 집단의 평균 차이를 볼 때 사용 (AB test 등)
쌍체 t 검정
- 동일한 모집단의 두 평균을 비교할 때 사용 (실험 전 후 비교 등)
등분산 검정 (F검정)
- 두, 세집단 이상의 분산 차이를 검정할 때 사용
- 자료가 정규 분포를 따르는 경우 : F 검정, 바트렛 검정
- 자료가 정규 분포를 따르지 않는 경우 : 레빈 검정
카이제곱 검정
- 범주형 자료에서 범주들 간의 독립성 여부를 통계적인 방법으로 검정

가설 검정의 오류

'👩‍💻LEARN : ML&Data > Book Study' 카테고리의 다른 글

[머신러닝을 위한 수학 with 파이썬, R] #7. 선형 회귀 분석과 모형 확장 (0)	2023.02.03
[머신러닝을 위한 수학 with 파이썬, R] #6. 상관분석과 분산분석 (0)	2023.02.03
[머신러닝을 위한 수학 with 파이썬, R] #4. 확률과 통계 (2)	2023.01.29
[머신러닝을 위한 수학 with 파이썬, R] #3. 미분과 적분의 이해와 응용 (0)	2023.01.28
[머신러닝을 위한 수학 with 파이썬, R] #2. 머신 러닝을 위한 선형 대수 part2. 고윳값, 고유벡터, 대각화 (1)	2023.01.26

현재글[머신러닝을 위한 수학 with 파이썬, R] #5. 확률분포와 통계적 추론

전방에 정체가 있어 새로운 길로 안내합니다

미분, 7차교육과정은 미적분을 안배웠어요, 컨볼루션, 지도학습, 비지도학습, 코세라, 선형회귀, 지금은 개념만 우겨넣자..우선..., HR Analytics, People Analytics, HRD, neural network, 프로퇴사러, 적분, 딥러닝, 노잼, coursera, 경사하강법, 머신러닝을위한수학, 문과생살아남기,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

낡고 지친 회사원

[머신러닝을 위한 수학 with 파이썬, R] #5. 확률분포와 통계적 추론

#4. 확률분포와 통계적 추론

확률 변수와 확률 분포

이산형 확률 분포

연속형 확률 분포

점추정과 구간 추정

가설 검정

다양한 통계 검정

가설 검정의 오류

'👩‍💻LEARN : ML&Data > Book Study' 카테고리의 다른 글

'👩‍💻LEARN : ML&Data/Book Study'의 다른글

티스토리툴바

[머신러닝을 위한 수학 with 파이썬, R] #5. 확률분포와 통계적 추론

#4. 확률분포와 통계적 추론

확률 변수와 확률 분포

이산형 확률 분포

연속형 확률 분포

점추정과 구간 추정

가설 검정

다양한 통계 검정

가설 검정의 오류

'👩‍💻LEARN : ML&Data > Book Study' 카테고리의 다른 글

'👩‍💻LEARN : ML&Data/Book Study'의 다른글

관련글

티스토리툴바