#4. 이산값의 확률분포

📝 CONCEPT/Statistics

#4. 이산값의 확률분포

쟈니유 2023. 5. 31. 16:36

728x90

1. 이항분포 Bn(n,p)

확률 p로 1이 나오는 동전을 n번 던질 때 1이 몇번 나올지에 대한 분포

1이 나올 확률 : p
0이 나올 확률 : q = 1-p
독립적인 확률변수 : Z_1,Z_2,,,,Z_n
이항분포 : X = Z_1 + Z_2 +...+ Z_n의 분포
P(X=k) = nCk * p^k * q^(n-k)
- 동전을 7번 던졌을 때 앞면이 3번 나올 확률
- nCk = 7번(n) 중 앞면이 3번(k) 나오는 경우의 수 (순서와는 상관 없음)
- p^k = p의 확률이 3번(k) 발생할 확률
- q^(n-k) = q의 확률이 4번 (n-k) 발생할 확률

2. 기댓값 E[X]

기본 성질

E[X] = ∑_k (k * P(X=k))
- X=1이 나올 확률 1/2, X=3이 나올 확률 1/3, X=5가 나올 확률 1/6이라고 가정했을 때
- 1*1/2 + 3*1/3 + 5*1/6이 X의 기댓값
E[g(X)] = ∑_k g(k) P(X=k)
- g(X)가 k에 대한 함수값, 이에 X=k가 될 확률을 곱하면 상단의 식과 동일
Bn(n,p)의 E[X] = np
- E[X] = E[Z1+...Zn] = E[Z1]+...E[Zn] =np
  - E[Zn] = 1 * p + 0 * (1-p) = p

E[X+c] = E[X] + c
E[cX] = cE[X]
E[X+Y] = E[X]+E[Y]
E[XY] = E[X]*E[Y] (X,Y가 독립일때만)

3. 분산과 표준편차

분산 V[X]

유동적으로 값이 나오는 X에서 나온 x가 μ로 부터 얼마나 벗어나있는지 그 정도를 측정하는 것
V[X] = E[(x-μ)^2] , >=0
- 벗어난 정도를 (x-μ)^2으로 측정 (X의 값이 μ면 0이 나오지만 그 외의 경우엔 모두 >0)
- x는 유동적으로 변하는 값이므로 이의 기대값을 취한 것이 분산

표준편차 σ = √V[X]

분산은 벗어난 거리를 제곱한 것이므로, 이를 다시 길이로 돌리기 위해 분산에 제곱근을 취한 것
σ = √V[X]

분산과 표준편차의 성질

V[X+c] = V[X]
- V[X+c] = E[((X+c)-(μ+c))^2] = E[(X-μ)^2] = V[X]
V[cX] = c^2V[X]
- V[cX] = E[(cX-cμ)^2] = E[c^2(X-μ)^2] = c^2V[X]
표준화할 경우 E[W] = 0, V[W]= 1 where E=(X-μ)/σ
- 종류가 다른 데이터를 모을 경우 각각 표준화하여 맞춘 다음 처리를 진행
V[X+Y] = V[X]+V[Y] where X,Y가 독립일 경우
V[X] = E[X^2]-E[X]^2
- X의 2제곱의 기댓값은 X의 기댓값의 2제곱 외에 분산만큼 늘어남
- Z=X-μ 라고 가정했을 때 E[Z]=0, X=Z+μ
- E[X^2] = E[(Z+μ)^2] = E[Z^2+μ^2+2μZ] = E[Z^2]+E[μ^2]+E[2μZ] = E[Z^2]+μ^2+2μE[Z]
  - E[Z^2]=V[X], 2μE[Z]=0이므로
  - E[X^2] = V[X]+μ^2
- 그러므로 V[X] = E[X^2]-E[X]^2 = V[X]+~~μ^2 - E[X]^2~~ =V[X]

4. 큰 수의 법칙

개별적으로 보면 랜덤하게 오차가 발생하지만 많이 모아서 평균을 내면 거의 오차가 없는 현상에서 기인함

독립 동일 분포 (i.i.d)

각각의 분포(주변 분포)는 모두 같으며 독립인 것
P(X1=x1, X2=x2, X3=x3,,,Xn=xn) = P(X1=x1)P(X2=x2)..P(Xn=xn)
예시: 주사위를 던졌을 때 k가 나올 확률은 n차 시기에도 언제나 1/6

평균값의 기댓값과 평균값의 분산

평균값과 기댓값의 구별

확률변수에 대한 평균값
- Z = (X1+X2+...+Xn)/n
확률변수 Z의 기댓값은 각각의 기대값의 평균
- E[Z] = E[(X1+X2+...+Xn)/n] = E[X1]+E[X2]+..+E[Xn] / n
X1,X2,..Xn이 iid라면
- E[Z] = nμ/n

평균값의 분산

V[Z] = V[(X1+X2+...+Xn)/n] = V[X1+X2+..+Xn] / n^2
확률변수 X가 서로 독립이라면
- V[Z] = V[X1]+V[X2]+...V[Xn] / n^2
확률변수 X가 iid라면
- V[Z] = nσ^2/n^2 = σ^2/n
- 이는 원래 확률변수 X들의 분산인 σ^2을 1/n 한 값

큰 수의 법칙

가정
- i.i.d인 확률변수 X1,X2,..,Xn(모두 기대값은 μ, 분산은 σ^2)에 대해
평균
- Zn = (X1+X2+...+Xn)/n
평균의 기댓값 → 원래 기댓값과 동일하다
- E[Zn] = μ
평균의 분산 → 원래 분산값을 n으로 나눈 값
- V[Zn] = σ^2/n

∴ n을 무한대로 키운다면 V[Zn]은 0으로 수렴

분산이 0이라는 것은 오차가 없다는 의미로, 개수 n을 무한하게 늘리면 평균 Zn은 오차가 없어지므로 μ에 수렴한다

5. 조건부 기댓값과 최소제곱 예측

조건부 기댓값

E[Y|X=a] = ∑_b b*P(Y=b|X=a)
- X=a일 때 Y에 대한 하나의 예측값을 도출할때 사용할 수 있음
- X의 값 a에 따라 조건부기댓값이 달라짐
E[Y] = ∑_a E[Y|X=a] * P(X=a) = ∑_a∑_b b*P(Y=b|X=a)*P(X=a) = ∑_a∑_b b * P(X=a, Y=b)
- 모든 X값에 대한 Y의 조건부기댓값을 합하면 Y의 기댓값과 일치함

최소제곱 예측

g(a) = E[Y|X = a]

조건부분포 P(Y=b|X=a)일때, 제곱오차의 기댓값 E[(Y-Yhat)^2]을 최소화하는 형태의 함수

E[(Y-Yhat)^2] = E[(Y-g(X))^2]
편의상 g(X)를 g(1), g(2), g(3)이라고 가정하면
- E[(Y-g(X))^2] = ∑_b(Y-g(1))^2 * P(X=1,Y=b) + ∑_b(Y-g(2))^2 * P(X=2,Y=b) +∑_b(Y-g(3))^2 * P(X=3,Y=b)
그러므로 각각이 최소가 되도록 g를 설정하면 최적의 g를 찾을 수 있음

∑_b(Y-g(1))^2 * P(X=1,Y=b) = ∑_b(Y-g(1))^2 * P(Y=b|X=a)*P(X=1) = P(X=1)∑_b(Y-g(1))^2 * P(Y=b|X=a)
이 중 상수를 제외하고 h1(g1) = ∑_b(Y-g(1))^2 * P(Y=b|X=a) 이라하고 이의 미분을 확인하면
- dh1/dg1 = 2 * ∑_b(g(1)-b)* P(Y=b|X=a)= 2(∑_b g(1)*P(Y=b|X=a) - ∑_b b*P(Y=b|X=a))
- = 2*(g(1)*∑_bP(Y=b|X=a)-∑_b b*P(Y=b|X=a)) = 2(g(1)*1 - E[Y|X=1])

∴ 2(g(1)*1 - E[Y|X=1]) = 0이 되는, 즉 g(1) = E[Y|X=1] 가 될 때 h1(g1)이 최소가 됨

조건부기댓값과 보통의 기댓값과의 관계

E[E[Y|X]] = E[Y]
- E[Y|X]는 X가 유동적인 확률변수일 경우, X에 따라 값이 변화하는 확률변수의 성질을 가짐
- E[E[Y|X]]은, 조건 X에 따른 Y의 기댓값(유동적)의 기댓값(고정)이므로 E[Y]와 동일

조건부 분산

E[Y|X=a] = μ(a)라 했을 때
- V[Y|X=a] = E[(Y-μ(a))^2 | X=a]
즉 X=a라는 조건 하의 Y의 분산은, Y에서 조건부기댓값을 뺀 분산값이다

'📝 CONCEPT > Statistics' 카테고리의 다른 글

#6. 실수값에서의 변수 변환 (0)	2023.06.05
#5. 실수값을 위한 확률밀도함수 (0)	2023.06.05
#3. 베이즈 공식 (0)	2023.05.30
#2. 결합확률, 주변확률, 조건부확률 (0)	2023.05.29
#1. 확률과 확률변수, 그리고 확률 분포 (0)	2023.05.29

현재글#4. 이산값의 확률분포

전방에 정체가 있어 새로운 길로 안내합니다

딥러닝, 7차교육과정은 미적분을 안배웠어요, neural network, 비지도학습, 머신러닝을위한수학, 선형회귀, 지도학습, 노잼, 컨볼루션, coursera, 문과생살아남기, 미분, HR Analytics, HRD, 지금은 개념만 우겨넣자..우선..., 적분, People Analytics, 코세라, 프로퇴사러, 경사하강법,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

낡고 지친 회사원