728x90
#5. 상관분석과 분산분석
※ 내용 중 아는 내용은 모두 건너뛰고 기억해야 할 개념 및 수식 위주로 정리
상관분석
상관분석의 가설
- 귀무가설(H0) : p = 0 (상관관계가 없다)
- 대립가설(H1) : p =/ 1 (있다)
상관계수 : 두 변수의 공분산을 각 변수의 표준편차로 나눈 일종의 표준화된 공분산의 개념. 공분산을 -1~1 사이로 변환한 것
분산분석
일원분산분석
- x가 집단(범주형), 해당 집단에서 평균을 구하고자 하는 값(y값들)이 수치형 y로 나타나며 y의 평균을 x의 요인별로 구해서 비교하는 것. 어렵게 설명했는데, 결국 A, B,C집단에서 측정하고자 하는 값의 평균을 비교하고 싶닼!!! 인거
- 개별 관측값인 y값들은 결국 속한 집단의 평균 + 오차로 구성됨. 이때의 오차는 서로 독립이며 정규분포를 따른다고 가정함
- 분산분석의 기법은, 각 개별 관측값인 y와 전체 y의 관측값의 평균의 차이(편차)를 (1) A,B,C집단과같은 각 특정 집단의 평균 - 전체 총 관측값의 평균과 (2) 집단 내의 각 개별 관측 값 - 개별 관측값이 속한 집단(A,B,C)의 평균 을 합하여 분석하는 기법이다.
- 다만 해당 값들은 더하고 빼면 서로 상쇄될 수 있으므로 이를 양 변을 제곱한 제곱합으로 표현한다.
전체 제곱합(SST) = 처리제곱합(SSTR)+오차제곱합 (SSE)
제곱합 | 자유도 | 평균제곱 | F통계량 | |
처리 | SSTR 요인의 수준별 평균과 전체 자료의 평균 차를 알려줌 |
r-1 | MSTR(SSTR/r-1) | MSTR/MSE 요인 수준이 설명하는 정도가 커질수록 F값이 커짐. F가 커질수록 p 가 작아짐 |
오차 | SSE SSTR로 설명되지 않는 부분 |
nT-r | MSE(SSTR/nT-r) | |
전체 | SST 자료가 갖는 변동량 |
nT-1 |
- 분산 분석 가설
- 귀무가설 : 각 집단의 평균은 모두 같다
- 대립가설 : 모든 집단의 평균이 같지는 않다
다중비교
- 일원분산분석에서 대립가설이 채택되었을 때, 즉 평균이 같지 않다고 나왔을때 어떤 이유 때문에 평균이 같지 않은지 확인하기 위한 방법.(A,B,C집단간 비교했으면 A, C가 다른건지, B,C가 다른건지 등등)
- 종류
- 쌍체 t 검정
- 1종 오류 가능성이 높음
- 투키 HSD검정
- 스튜던트화 범위 분포를 바탕으로 모든 두 집단의 평균 차이를 검정함. 두 집단의 평균 차이가 없다는 귀무 가설을 고려하여 검정 결과로 나오는 p값을 통해 귀무가설의 기각 여부를 판단함.
- 쌍체 t 검정
이원분산분석
- 한 관측값 Y를 x1과 x2을 조합하여 평균 차이를 비교하는 분석
- 웹툰 유저를 생물학적 성별 (남성/여성)과 연령대 (10대/2030/4050)으로 나누었을때 성별과 연령대에 따른 효과를 검증하는 것이 이원분산분석
- 이 때 각 요인 (예시 상에선 성별과 연령대) 의 수준에 따라 평균 차이가 있는 지 각각 비교
요인 | 제곱합 (squared sum) |
자유도 (degrees of freedom) |
평균제곱 (mean squared) |
F 통계량 |
요인 A | SSA | a-1 | MSA | MSA/MSE |
요인 B | SSB | b-1 | MSB | MSB/MSE |
오차 | SSE | (a-1)(b-1) | MSE | |
계 | SST | ab-1 |
- 가설
- 귀무가설 : 요인 A(B)에 따라 평균차이가 없다
- 대립가설 : 요인에 따라 평균 차이가 있다
'👩💻LEARN : ML&Data > Book Study' 카테고리의 다른 글
[모두의 딥러닝] #1-3. 딥러닝을 위한 기초 수학 (0) | 2023.02.09 |
---|---|
[머신러닝을 위한 수학 with 파이썬, R] #7. 선형 회귀 분석과 모형 확장 (0) | 2023.02.03 |
[머신러닝을 위한 수학 with 파이썬, R] #5. 확률분포와 통계적 추론 (0) | 2023.01.30 |
[머신러닝을 위한 수학 with 파이썬, R] #4. 확률과 통계 (2) | 2023.01.29 |
[머신러닝을 위한 수학 with 파이썬, R] #3. 미분과 적분의 이해와 응용 (0) | 2023.01.28 |