👩‍💻LEARN : ML&Data/Book Study

[머신러닝을 위한 수학 with 파이썬, R] #7. 선형 회귀 분석과 모형 확장

쟈니유 2023. 2. 3. 19:00
728x90

회귀 빙의 환생물 좋아하는데요 ...

 


#7. 선형 회귀 분석과 모형 확장 

 

[분석의 목적]

  • 추론 : 과거를 이해하기 위함 (선형 회귀 분석)
  • 예측 : 미래를 알아보기 위함 (딥러닝)

 

[선형 회귀 분석] 

  • 기본 개념
    • 선형 회귀란 주어진 데이터를 설명하기 위해 Y절편과 기울기로 나타낸 직선을 적합시키는 과정 
    • 적합시키기 위해 잔차(예측값과 실제값의 차이)의 제곱을 모두 다한 잔차제곱합이 최소가 되게 하는 직선 (최소제곱법)
  • 잔차 확률 분포에 대한 가정 
    • 잔차가 모든 같은 분산을 갖는 정규 분포를 따른다 (등분산성, 정규성) 
    • 종속변수와 독립변수가 선형성을 갖는다 
  • 다중 선형 회귀 분석
    • 독립 변수 간 다중공선성을 주의해야 함 (서로 상관) 
    • 직선 모형이 데이터를 얼마나 잘 설명하고 있는 지 검정을 해야 함 
      •  모형에 대한 검정 (결정계수, R**2)
        • 전체 제곱합 (SST) = 회귀제곱합(SSR) + 잔차제곱합(SSE) 
          • 전체 제곱합 : 실제 Y와 모형으로 예측한 Y의 차이가 Y의 갯수만큼 발생하는데, 이 둘의 차이값을 요약한 것 
          • 회귀 제곱합 : 예측한 각 Y에서 예측한 Y의 평균을 뺀 부분. 독립 변수에 의해설명되는 부분으로 가정. 
          • 잔차 제곱합 : 독립변수로는 설명되지 않는 부분들 
        • 결정계수 = SSR/SST 선택한 변수 X가 Y를 얼마나 잘 설명하는 지가 중요함. 1에 가까울수록 좋음 
      • 변수 X가 갖는 계수(기울기, 회귀계수)에 대한 검정  
        • Y와 X의 관계를 밝히기 이전엔 회귀계수 = 0 이라 가정했으나, 계산된 회귀계수는 해당 가정(가설)에 대한 대립가설이므로 검정 통계량으로 유의확률값을 구해서 가설 검정을 진행할 수 있음. 

[모형의 예측과 오차 측정] 

  • 데이터 분류법(샘플링) : 전체 데이터에서 표본 추출하는 것 
    • 단순 무작위 추출  (복원추출, 비복원추출로 갈림) > 단순 비복원 무작위 추출로 훈련 데이터, 테스트 데이터 선택 
    • 층화 무작위 추출 (동일 배분법, 비례 배분법 등)
  • 데이터 파티셔닝 
    • 훈련 데이터(7) , 샘플 데이터(3) 으로 나누는 것 
    • 훈련 데이터로 찾아낸 직선식에 테스트 데이터의 X를 대입해서 Y를 잘 예측하는 지 확인하는 것  

 

[회귀 모형의 확장 1 : 포아송 회귀모형] 

 

조건 

  • X와 Y의 관계가 비선형인 경우, 특히 Y가 0~1에 많이 쏠린 경우 사용됨 (Y가 이분산이라 등분산성 가정 X) 

 

개념 

  • 정규방정식과 다른 추정 방식을 사용하며, 로그 선형모형이라고도 불림 
  • log(y) = a + Bx 

 

[선형 모형의 확장 2 : 로지스틱 회귀모형] 

 

  • 조건
    • 종속변수가 범주형이거나 이항이며, 독립변수는 범주형 혹은 수치형일 경우 
  • 로지스틱 회귀 모형 
    • log it(p) = Sum(Bx) + B0
    • log it(p)= log p / 1-p (odds라는 비율에 로그 함수를 적용한 값) 
    • p = e**log it(p) / 1 + e**log it(p) 
    • 이 때 log it(p)에 대한 처음 표현식을 위 수식에 대입하면, x에 해당하는 데이터와 모형 추정 계수들만 안다면 p값 계산 가능. 
  • 로지스틱 회귀 모형에서 계수 추정하는 방법 
    • 최대 우도 측정법 : 예측된 Y를 실제 Y와 최대한 같게 만드는 것으로 반복적인 시행착오로 진행됨. 
  • 로지스틱 회귀 무형에서 적합도 확인하는 방법
    • 모형의 편차 값이 작을 수록 좋음 
      • 특정 독립 변수를 포함한 모형과 포함하지 않은 변수를 비교하여 각 경우의 p값을 비교 -> 변수 추가 유의성 확인 
      • 독립변수를 추가할 수록 편차는 작아지기 때문에 주의해야 함 
  • 분류 모형 평가법 
    • 혼동행렬 
      • 예측 Y가 실제 Y와 같은 경우 : TP (정답)
      • 예측 Y가 실제 N으로 본 경우 : FP
      • 예측 N가 실제 Y로 본 경우 : FN 
      • 예측 N이 실제 N으로 본 경우 : TN (정답) 
      • TN + TP가 많을수록 모형의 성능이 좋은 것임. 
    • 분류 성능 지표 
      • 정분류율 (TP+TN)/n : 전체 결과 중 맞게 분류한 비율 
      • 정확도 TP/(TP+FP) : 사건의 발생의 예측 중에서 얼마나 실제로 맞췄는 지를 봄