728x90
1. 이항분포 Bn(n,p)
확률 p로 1이 나오는 동전을 n번 던질 때 1이 몇번 나올지에 대한 분포
- 1이 나올 확률 : p
- 0이 나올 확률 : q = 1-p
- 독립적인 확률변수 : Z_1,Z_2,,,,Z_n
- 이항분포 : X = Z_1 + Z_2 +...+ Z_n의 분포
- P(X=k) = nCk * p^k * q^(n-k)
- 동전을 7번 던졌을 때 앞면이 3번 나올 확률
- nCk = 7번(n) 중 앞면이 3번(k) 나오는 경우의 수 (순서와는 상관 없음)
- p^k = p의 확률이 3번(k) 발생할 확률
- q^(n-k) = q의 확률이 4번 (n-k) 발생할 확률
2. 기댓값 E[X]
기본 성질
- E[X] = ∑_k (k * P(X=k))
- X=1이 나올 확률 1/2, X=3이 나올 확률 1/3, X=5가 나올 확률 1/6이라고 가정했을 때
- 1*1/2 + 3*1/3 + 5*1/6이 X의 기댓값
- E[g(X)] = ∑_k g(k) P(X=k)
- g(X)가 k에 대한 함수값, 이에 X=k가 될 확률을 곱하면 상단의 식과 동일
- Bn(n,p)의 E[X] = np
- E[X] = E[Z1+...Zn] = E[Z1]+...E[Zn] =np
- E[Zn] = 1 * p + 0 * (1-p) = p
- E[X] = E[Z1+...Zn] = E[Z1]+...E[Zn] =np
- E[X+c] = E[X] + c
- E[cX] = cE[X]
- E[X+Y] = E[X]+E[Y]
- E[XY] = E[X]*E[Y] (X,Y가 독립일때만)
3. 분산과 표준편차
분산 V[X]
- 유동적으로 값이 나오는 X에서 나온 x가 μ로 부터 얼마나 벗어나있는지 그 정도를 측정하는 것
- V[X] = E[(x-μ)^2] , >=0
- 벗어난 정도를 (x-μ)^2으로 측정 (X의 값이 μ면 0이 나오지만 그 외의 경우엔 모두 >0)
- x는 유동적으로 변하는 값이므로 이의 기대값을 취한 것이 분산
표준편차 σ = √V[X]
- 분산은 벗어난 거리를 제곱한 것이므로, 이를 다시 길이로 돌리기 위해 분산에 제곱근을 취한 것
- σ = √V[X]
분산과 표준편차의 성질
- V[X+c] = V[X]
- V[X+c] = E[((X+c)-(μ+c))^2] = E[(X-μ)^2] = V[X]
- V[cX] = c^2V[X]
- V[cX] = E[(cX-cμ)^2] = E[c^2(X-μ)^2] = c^2V[X]
- 표준화할 경우 E[W] = 0, V[W]= 1 where E=(X-μ)/σ
- 종류가 다른 데이터를 모을 경우 각각 표준화하여 맞춘 다음 처리를 진행
- V[X+Y] = V[X]+V[Y] where X,Y가 독립일 경우
- V[X] = E[X^2]-E[X]^2
- X의 2제곱의 기댓값은 X의 기댓값의 2제곱 외에 분산만큼 늘어남
- Z=X-μ 라고 가정했을 때 E[Z]=0, X=Z+μ
- E[X^2] = E[(Z+μ)^2] = E[Z^2+μ^2+2μZ] = E[Z^2]+E[μ^2]+E[2μZ] = E[Z^2]+μ^2+2μE[Z]
- E[Z^2]=V[X], 2μE[Z]=0이므로
- E[X^2] = V[X]+μ^2
- 그러므로 V[X] = E[X^2]-E[X]^2 = V[X]+
μ^2 - E[X]^2=V[X]
4. 큰 수의 법칙
개별적으로 보면 랜덤하게 오차가 발생하지만 많이 모아서 평균을 내면 거의 오차가 없는 현상에서 기인함
독립 동일 분포 (i.i.d)
- 각각의 분포(주변 분포)는 모두 같으며 독립인 것
- P(X1=x1, X2=x2, X3=x3,,,Xn=xn) = P(X1=x1)P(X2=x2)..P(Xn=xn)
- 예시: 주사위를 던졌을 때 k가 나올 확률은 n차 시기에도 언제나 1/6
평균값의 기댓값과 평균값의 분산
평균값과 기댓값의 구별
- 확률변수에 대한 평균값
- Z = (X1+X2+...+Xn)/n
- 확률변수 Z의 기댓값은 각각의 기대값의 평균
- E[Z] = E[(X1+X2+...+Xn)/n] = E[X1]+E[X2]+..+E[Xn] / n
- X1,X2,..Xn이 iid라면
- E[Z] = nμ/n
평균값의 분산
- V[Z] = V[(X1+X2+...+Xn)/n] = V[X1+X2+..+Xn] / n^2
- 확률변수 X가 서로 독립이라면
- V[Z] = V[X1]+V[X2]+...V[Xn] / n^2
- 확률변수 X가 iid라면
- V[Z] = nσ^2/n^2 = σ^2/n
- 이는 원래 확률변수 X들의 분산인 σ^2을 1/n 한 값
큰 수의 법칙
- 가정
- i.i.d인 확률변수 X1,X2,..,Xn(모두 기대값은 μ, 분산은 σ^2)에 대해
- 평균
- Zn = (X1+X2+...+Xn)/n
- 평균의 기댓값 → 원래 기댓값과 동일하다
- E[Zn] = μ
- 평균의 분산 → 원래 분산값을 n으로 나눈 값
- V[Zn] = σ^2/n
∴ n을 무한대로 키운다면 V[Zn]은 0으로 수렴
분산이 0이라는 것은 오차가 없다는 의미로, 개수 n을 무한하게 늘리면 평균 Zn은 오차가 없어지므로 μ에 수렴한다
5. 조건부 기댓값과 최소제곱 예측
조건부 기댓값
- E[Y|X=a] = ∑_b b*P(Y=b|X=a)
- X=a일 때 Y에 대한 하나의 예측값을 도출할때 사용할 수 있음
- X의 값 a에 따라 조건부기댓값이 달라짐
- E[Y] = ∑_a E[Y|X=a] * P(X=a) = ∑_a∑_b b*P(Y=b|X=a)*P(X=a) = ∑_a∑_b b * P(X=a, Y=b)
- 모든 X값에 대한 Y의 조건부기댓값을 합하면 Y의 기댓값과 일치함
최소제곱 예측
g(a) = E[Y|X = a]
조건부분포 P(Y=b|X=a)일때, 제곱오차의 기댓값 E[(Y-Yhat)^2]을 최소화하는 형태의 함수
- E[(Y-Yhat)^2] = E[(Y-g(X))^2]
- 편의상 g(X)를 g(1), g(2), g(3)이라고 가정하면
- E[(Y-g(X))^2] = ∑_b(Y-g(1))^2 * P(X=1,Y=b) + ∑_b(Y-g(2))^2 * P(X=2,Y=b) +∑_b(Y-g(3))^2 * P(X=3,Y=b)
- 그러므로 각각이 최소가 되도록 g를 설정하면 최적의 g를 찾을 수 있음
- ∑_b(Y-g(1))^2 * P(X=1,Y=b) = ∑_b(Y-g(1))^2 * P(Y=b|X=a)*P(X=1) = P(X=1)∑_b(Y-g(1))^2 * P(Y=b|X=a)
- 이 중 상수를 제외하고 h1(g1) = ∑_b(Y-g(1))^2 * P(Y=b|X=a) 이라하고 이의 미분을 확인하면
- dh1/dg1 = 2 * ∑_b(g(1)-b)* P(Y=b|X=a)= 2(∑_b g(1)*P(Y=b|X=a) - ∑_b b*P(Y=b|X=a))
- = 2*(g(1)*∑_bP(Y=b|X=a)-∑_b b*P(Y=b|X=a)) = 2(g(1)*1 - E[Y|X=1])
∴ 2(g(1)*1 - E[Y|X=1]) = 0이 되는, 즉 g(1) = E[Y|X=1] 가 될 때 h1(g1)이 최소가 됨
조건부기댓값과 보통의 기댓값과의 관계
- E[E[Y|X]] = E[Y]
- E[Y|X]는 X가 유동적인 확률변수일 경우, X에 따라 값이 변화하는 확률변수의 성질을 가짐
- E[E[Y|X]]은, 조건 X에 따른 Y의 기댓값(유동적)의 기댓값(고정)이므로 E[Y]와 동일
조건부 분산
- E[Y|X=a] = μ(a)라 했을 때
- V[Y|X=a] = E[(Y-μ(a))^2 | X=a]
- 즉 X=a라는 조건 하의 Y의 분산은, Y에서 조건부기댓값을 뺀 분산값이다
'📝 CONCEPT > Statistics' 카테고리의 다른 글
#6. 실수값에서의 변수 변환 (0) | 2023.06.05 |
---|---|
#5. 실수값을 위한 확률밀도함수 (0) | 2023.06.05 |
#3. 베이즈 공식 (0) | 2023.05.30 |
#2. 결합확률, 주변확률, 조건부확률 (0) | 2023.05.29 |
#1. 확률과 확률변수, 그리고 확률 분포 (0) | 2023.05.29 |