📝 CONCEPT/Statistics

#3. 베이즈 공식

쟈니유 2023. 5. 30. 15:51
728x90

앞에 나왔던 조건부확률, 결합확률, 주변확률 등을 응용해서 베이즈 공식을 학습할 수 있음. 

 

1. 기본 개념 

  • 베이즈 공식은 결과 Y 에서 원인 X을 찾는 문제를 해결하기 위해 사용함 (X를 안 상태에서 어떤 Y가 나올 지 예측하는 조건부확률과는 반대) 
  • 즉 원인 X를 직접 관측/측정할 수 없을 때 원인으로 인해 일어난 결과 Y를 보고 X를 추측하는 것 
  • 대부분 측정을하게 되면 원본에 노이즈가 더해짐. 그렇기 때문에 이 노이즈를 확률적으로 다루는 확률변수 X,Y의 조합으로 이 둘의 관계를 기술하고자 하는 것 
  • (ex. 스캐너로 읽은 화상데이터 Y에서 적힌 문자 X를 맞힌다) 

 

사전확률(Prior)

P(원인) : 보통 원인의 발생 확률 

 

Likelihood

P(결과|원인) : 원인이 발생했을 때 그 결과의 발생 확률 

 

사후확률(Posterior)

P(원인|결과) : 결과가 나왔을 때 그 원인 추측 

 

결국 Posterior를 통해 알고 싶은 것은 Next Prior인 것이다. 실제 Prior을 정확하게 알 수 없고 대략적인 확률만 알고 있으므로, Prior와 Likelihood를 이용하여 이러한 결과가 나왔으니 이 원인은 이러할 것이다! 라고 예측하는 것이 베이즈 공식의 주된 목표라고 이해. 

 

이렇게만 쓰면 헷갈리니까 예시를 통해 봐보자. 개인적으로 이번 책은 예시가 친절하게 작성되어 있어서 매우 마음에 든다.  

2. 예시 

RPG게임에서 보물상자를 발견한다. 보물상자에 보물이 들어있을 확률은 1/3, 함정일 확률은 2/3이다.
보물상자에 함정의 낌새를 마법으로 판정할 수 있지만, 1/4 확률로 잘못된 판정 결과가 나온다. 

지금 보물상자에 마법을 걸어 함정의 낌새가 없다는 판정이 나왔다. 이 상황에서 실제로 보물상자가 함정일 확률은? 

사전확률

  • P(X=함정있음) = 2/3

Likelihood (두가지 경우 모두 기술)

  • P(Y=낌새 있음 | X=함정없음) = 1/4
  • P(Y=낌새 없음 | X=함정있음) = 1/4

사후확률(구하고자 하는 것) 

  • P(X=함정있음 | Y=낌새없음) = ?? 

풀이

  • Y=낌새없음 의 모든 확률을 구한다
    • (1) 함정이 있는데 낌새가 없을 경우 : P(X=함정있음) * P(Y=낌새 없음 | X=함정있음) = 2/3 * 1/4 = 1/6 
    • (2) 함정이 없는데 낌새가 없을 경우 : P(X=함정없음) * P(Y=낌새 없음 | X=함정없음) = 1/3 * 3/4 = 1/4 
    • (3) 전체 확률 중 Y=낌새없음은 1/6 + 1/4 = 5/12 
  • Y=낌새없음 일 때 X=함정있음의 확률을 구한다 
    • 함정이 있는데 낌새가 없었던 확률은 전체의 1/6 
    • 함정이 있는데 낌새가 없을 경우 / Y=낌새없음 = 1/6 / 5/12 = 2/5 
    • 그러므로 낌새가 없다고 측정되었지만 실제로 함정이 있을 확률은 40%가 되는 것 -> 안하는 것이 좋다; 

 

3. 공식 

  • P(X|Y) = P(Y|X)*P(X) / ∑_x P(Y|X)P(X)
  • = P(Y|X)*P(X) / ∑_x P(X,Y)
  • 즉 Posterior는 고정된 Y값에서 X가 취할수 있는 모든값을 더한 Y의 주변분포 (=Likelihood*Prior의 모든 합) 중 구하고자 하는 X값이 Y와 함께 발생한 결합확률의 면적을 구하는 것 

https://www.youtube.com/watch?v=HZGCoVF3YvM 

 

4. X,Y(사상 즉 조건)이 독립이라면?

  • P(X|Y) = P(Y|X) : 조건이 달라져도 조건부 확률이 같다 
  • P(X|Y) = P(X) : 조건의 여부와 상관없이 확률이 같다 
  • P(X,Y):P(X,1-Y) = P(1-X,Y):P(1-X,1-Y) : 결합확률의 비율이 같다 
  • P(X,Y) = P(X)*P(Y) : 주변확률의 곱이 결합확률 

 

5. 확률변수의 독립성 

어떤 값 a,b에 대해 조건 X=a, Y=b가 항상 독립이라면 확률변수 X,Y는 독립이다 

그러므로

  • P(Y=b|X=a)일 때, X=a와 상관없이 Y만으로 분포를 결정한다 
  • P(Y=b|X=a) = P(Y=b)가 항상 성립한다 (조건이랑 무관하기 때문에)
  • 결합확률의 비율이 일정하다 (4의 3번째와 동일...)
  • 결합확률 P(X=a,Y=b) = P(X=a) * P(Y=b)가 항상 성립한다