📝 CONCEPT/Statistics

#4. 이산값의 확률분포

쟈니유 2023. 5. 31. 16:36
728x90

 

1. 이항분포  Bn(n,p) 

확률 p로 1이 나오는 동전을 n번 던질 때 1이 몇번 나올지에 대한 분포 

 

  • 1이 나올 확률 : p
  • 0이 나올 확률 : q = 1-p
  • 독립적인 확률변수 : Z_1,Z_2,,,,Z_n 
  • 이항분포 : X = Z_1 + Z_2 +...+ Z_n의 분포 
  • P(X=k) = nCk * p^k * q^(n-k) 
    • 동전을 7번 던졌을 때 앞면이 3번 나올 확률 
    • nCk = 7번(n) 중 앞면이 3번(k) 나오는 경우의 수 (순서와는 상관 없음) 
    • p^k = p의 확률이 3번(k) 발생할 확률 
    • q^(n-k) = q의 확률이 4번 (n-k) 발생할 확률 

 

2. 기댓값 E[X]

기본 성질

  • E[X] = ∑_k (k * P(X=k)) 
    • X=1이 나올 확률 1/2, X=3이 나올 확률 1/3, X=5가 나올 확률 1/6이라고 가정했을 때 
    • 1*1/2 + 3*1/3 + 5*1/6이 X의 기댓값 
  • E[g(X)] = ∑_k g(k) P(X=k)  
    • g(X)가 k에 대한 함수값, 이에 X=k가 될 확률을 곱하면 상단의 식과 동일 
  • Bn(n,p)의 E[X] = np
    • E[X] = E[Z1+...Zn] = E[Z1]+...E[Zn] =np
      • E[Zn] = 1 * p + 0 * (1-p) = p 

 

  • E[X+c] = E[X] + c
  • E[cX] = cE[X]
  • E[X+Y] = E[X]+E[Y] 
  • E[XY] = E[X]*E[Y] (X,Y가 독립일때만) 

3. 분산과 표준편차 

분산 V[X]

  • 유동적으로 값이 나오는 X에서 나온 x가 μ로 부터 얼마나 벗어나있는지 그 정도를 측정하는 것 
  • V[X] = E[(x-μ)^2] , >=0 
    • 벗어난 정도를 (x-μ)^2으로 측정 (X의 값이 μ면 0이 나오지만 그 외의 경우엔 모두 >0)
    • x는 유동적으로 변하는 값이므로 이의 기대값을 취한 것이 분산 

표준편차 σ = √V[X]

  • 분산은 벗어난 거리를 제곱한 것이므로, 이를 다시 길이로 돌리기 위해 분산에 제곱근을 취한 것 
  • σ = √V[X]

 

분산과 표준편차의 성질 

  • V[X+c] = V[X]
    • V[X+c] = E[((X+c)-(μ+c))^2] = E[(X-μ)^2] = V[X] 
  • V[cX] = c^2V[X] 
    • V[cX] = E[(cX-cμ)^2] = E[c^2(X-μ)^2] = c^2V[X] 
  • 표준화할 경우 E[W] = 0, V[W]= 1 where E=(X-μ)/σ
    • 종류가 다른 데이터를 모을 경우 각각 표준화하여 맞춘 다음 처리를 진행 
  • V[X+Y] = V[X]+V[Y] where X,Y가 독립일 경우 
  • V[X] = E[X^2]-E[X]^2 
    • X의 2제곱의 기댓값은 X의 기댓값의 2제곱 외에 분산만큼 늘어남
    • Z=X-μ 라고 가정했을 때 E[Z]=0, X=Z+μ 
    • E[X^2] = E[(Z+μ)^2] = E[Z^2+μ^2+2μZ] = E[Z^2]+E[μ^2]+E[2μZ] = E[Z^2]+μ^2+2μE[Z]
      • E[Z^2]=V[X], 2μE[Z]=0이므로
      • E[X^2] = V[X]+μ^2 
    • 그러므로 V[X] = E[X^2]-E[X]^2 = V[X]+μ^2 - E[X]^2 =V[X] 

 

4. 큰 수의 법칙 

개별적으로 보면 랜덤하게 오차가 발생하지만 많이 모아서 평균을 내면 거의 오차가 없는 현상에서 기인함 

 

독립 동일 분포 (i.i.d) 

  • 각각의 분포(주변 분포)는 모두 같으며 독립인 것 
  • P(X1=x1, X2=x2, X3=x3,,,Xn=xn) = P(X1=x1)P(X2=x2)..P(Xn=xn) 
  • 예시: 주사위를 던졌을 때 k가 나올 확률은 n차 시기에도 언제나 1/6 

 

평균값의 기댓값과 평균값의 분산 

평균값과 기댓값의 구별 

  • 확률변수에 대한 평균값 
    • Z = (X1+X2+...+Xn)/n 
  • 확률변수 Z의 기댓값은 각각의 기대값의 평균 
    • E[Z] = E[(X1+X2+...+Xn)/n] = E[X1]+E[X2]+..+E[Xn] / n
  • X1,X2,..Xn이 iid라면 
    • E[Z] = nμ/n 

평균값의 분산 

  • V[Z] = V[(X1+X2+...+Xn)/n] = V[X1+X2+..+Xn] / n^2
  • 확률변수 X가 서로 독립이라면
    • V[Z] = V[X1]+V[X2]+...V[Xn] / n^2
  • 확률변수 X가 iid라면 
    • V[Z] = nσ^2/n^2 = σ^2/n 
    • 이는 원래 확률변수 X들의 분산인 σ^2을 1/n 한 값 

큰 수의 법칙 

  • 가정 
    • i.i.d인 확률변수 X1,X2,..,Xn(모두 기대값은 μ, 분산은 σ^2)에 대해 
  • 평균
    • Zn = (X1+X2+...+Xn)/n
  • 평균의 기댓값 → 원래 기댓값과 동일하다 
    • E[Zn] = μ 
  • 평균의 분산 → 원래 분산값을 n으로 나눈 값 
    • V[Zn] = σ^2/n 

∴ n을 무한대로 키운다면 V[Zn]은 0으로 수렴

분산이 0이라는 것은 오차가 없다는 의미로, 개수 n을 무한하게 늘리면 평균 Zn은 오차가 없어지므로 μ에 수렴한다 

 

 

5. 조건부 기댓값과 최소제곱 예측 

조건부 기댓값

  • E[Y|X=a] = ∑_b b*P(Y=b|X=a) 
    • X=a일 때 Y에 대한 하나의 예측값을 도출할때 사용할 수 있음 
    • X의 값 a에 따라 조건부기댓값이 달라짐 
  • E[Y] = ∑_a E[Y|X=a] * P(X=a) = ∑_a∑_b b*P(Y=b|X=a)*P(X=a) = ∑_a∑_b b * P(X=a, Y=b)     
    • 모든 X값에 대한 Y의 조건부기댓값을 합하면 Y의 기댓값과 일치함 

 

최소제곱 예측 

g(a) = E[Y|X = a] 

조건부분포 P(Y=b|X=a)일때, 제곱오차의 기댓값 E[(Y-Yhat)^2]을 최소화하는 형태의 함수 

 

  • E[(Y-Yhat)^2] = E[(Y-g(X))^2] 
  • 편의상 g(X)를 g(1), g(2), g(3)이라고 가정하면 
    • E[(Y-g(X))^2] = ∑_b(Y-g(1))^2 * P(X=1,Y=b) + ∑_b(Y-g(2))^2 * P(X=2,Y=b) +∑_b(Y-g(3))^2 * P(X=3,Y=b) 
  • 그러므로 각각이 최소가 되도록 g를 설정하면 최적의 g를 찾을 수 있음 

 

  • ∑_b(Y-g(1))^2 * P(X=1,Y=b) = ∑_b(Y-g(1))^2 * P(Y=b|X=a)*P(X=1) = P(X=1)∑_b(Y-g(1))^2 * P(Y=b|X=a)
  • 이 중 상수를 제외하고 h1(g1) = ∑_b(Y-g(1))^2 * P(Y=b|X=a) 이라하고 이의 미분을 확인하면 
    • dh1/dg1 = 2 * ∑_b(g(1)-b)* P(Y=b|X=a)= 2(∑_b g(1)*P(Y=b|X=a) - ∑_b b*P(Y=b|X=a))
    • = 2*(g(1)*∑_bP(Y=b|X=a)-∑_b b*P(Y=b|X=a)) = 2(g(1)*1 - E[Y|X=1])

 

∴ 2(g(1)*1 - E[Y|X=1]) = 0이 되는, 즉 g(1) = E[Y|X=1] 가 될 때 h1(g1)이 최소가 됨 

 

 

조건부기댓값과 보통의 기댓값과의 관계

  • E[E[Y|X]] = E[Y]
    • E[Y|X]는 X가 유동적인 확률변수일 경우, X에 따라 값이 변화하는 확률변수의 성질을 가짐 
    • E[E[Y|X]]은, 조건 X에 따른 Y의 기댓값(유동적)의 기댓값(고정)이므로 E[Y]와 동일 

조건부 분산 

  • E[Y|X=a] = μ(a)라 했을 때
    • V[Y|X=a] = E[(Y-μ(a))^2 | X=a]
  • 즉 X=a라는 조건 하의 Y의 분산은, Y에서 조건부기댓값을 뺀 분산값이다