👩‍💻LEARN : ML&Data/Book Study

[머신러닝을 위한 수학 with 파이썬, R] #6. 상관분석과 분산분석

쟈니유 2023. 2. 3. 00:02
728x90

 

 


#5. 상관분석과 분산분석 

※ 내용 중 아는 내용은 모두 건너뛰고 기억해야 할 개념 및 수식 위주로 정리

 

상관분석 

상관분석의 가설

  • 귀무가설(H0) : p = 0 (상관관계가 없다)
  • 대립가설(H1) : p =/ 1 (있다)

 

상관계수 : 두 변수의 공분산을 각 변수의 표준편차로 나눈 일종의 표준화된 공분산의 개념. 공분산을 -1~1 사이로 변환한 것 

 

분산분석 

일원분산분석

  • x가 집단(범주형), 해당 집단에서 평균을 구하고자 하는 값(y값들)이 수치형 y로 나타나며 y의 평균을 x의 요인별로 구해서 비교하는 것. 어렵게 설명했는데, 결국 A, B,C집단에서 측정하고자 하는 값의 평균을 비교하고 싶닼!!! 인거 
  • 개별 관측값인 y값들은 결국 속한 집단의 평균 + 오차로 구성됨. 이때의 오차는 서로 독립이며 정규분포를 따른다고 가정함 
  • 분산분석의 기법은, 각 개별 관측값인 y와 전체 y의 관측값의 평균의 차이(편차)를 (1) A,B,C집단과같은 각 특정 집단의 평균 - 전체 총 관측값의 평균과 (2) 집단 내의 각 개별 관측 값 - 개별 관측값이 속한 집단(A,B,C)의 평균 을 합하여 분석하는 기법이다. 

  • 다만 해당 값들은 더하고 빼면 서로 상쇄될 수 있으므로 이를 양 변을 제곱한 제곱합으로 표현한다. 

전체 제곱합(SST) = 처리제곱합(SSTR)+오차제곱합 (SSE)

  제곱합 자유도 평균제곱 F통계량
처리 SSTR
요인의 수준별 평균과 전체 자료의 평균 차를 알려줌
r-1 MSTR(SSTR/r-1) MSTR/MSE
요인 수준이 설명하는 정도가 커질수록 F값이 커짐.
F가 커질수록 p 가 작아짐
오차 SSE
SSTR로 설명되지 않는 부분 
nT-r MSE(SSTR/nT-r)  
전체 SST
자료가 갖는 변동량
nT-1    
  • 분산 분석 가설
    • 귀무가설 : 각 집단의 평균은 모두 같다 
    • 대립가설 : 모든 집단의 평균이 같지는 않다 

다중비교 

  • 일원분산분석에서 대립가설이 채택되었을 때, 즉 평균이 같지 않다고 나왔을때 어떤 이유 때문에 평균이 같지 않은지 확인하기 위한 방법.(A,B,C집단간 비교했으면 A, C가 다른건지, B,C가 다른건지 등등) 
  • 종류
    • 쌍체 t 검정
      • 1종 오류 가능성이 높음 
    • 투키 HSD검정 
      • 스튜던트화 범위 분포를 바탕으로 모든 두 집단의 평균 차이를 검정함. 두 집단의 평균 차이가 없다는 귀무 가설을 고려하여 검정 결과로 나오는 p값을 통해 귀무가설의 기각 여부를 판단함. 

이원분산분석 

  • 한 관측값 Y를 x1과 x2을 조합하여 평균 차이를 비교하는 분석 
  • 웹툰 유저를 생물학적 성별 (남성/여성)과 연령대 (10대/2030/4050)으로 나누었을때 성별과 연령대에 따른 효과를 검증하는 것이 이원분산분석 
  • 이 때 각 요인 (예시 상에선 성별과 연령대) 의 수준에 따라 평균 차이가 있는 지 각각 비교 

요인 제곱합
(squared sum)
자유도
(degrees of freedom) 
평균제곱
(mean squared) 
F 통계량
 요인 A  SSA a-1 MSA MSA/MSE
 요인 B  SSB b-1 MSB MSB/MSE
 오차  SSE (a-1)(b-1)  MSE   
 계  SST  ab-1    

 

  • 가설
    • 귀무가설 : 요인 A(B)에 따라 평균차이가 없다
    • 대립가설 : 요인에 따라 평균 차이가 있다