📝 CONCEPT/Statistics 10

[Probabilistic Machine Learning 1] #4.2 MLE

머피책 혼자서 공부하다가 놓았다 반복하다보니 읽었던 것도 다 까먹어서 복습 차 정리.. 4.1 Introduction Ch2-3에서는 확률 모델의 parameter를 알고 있다고 가정했지만, 이번 챕터에서는 데이터로부터 어떻게 parameters를 학습하는 지 알고자 함 데이터로부터 parameter를 측정하는 과정을 Model fitting, training이라고 함 측정 방식은 매우 다양하지만, 보통 Loss function을 최소화시키는 parameter를 찾게 됨 이에 더 나아가서 이 측정에서의 uncertainty를 model(=quantifying)하는 것에 대해서도 논의할 것임. 통계학에서는 한정된 데이터 샘플로부터 측정된 unknown quantity에 대한 uncertainty를 quan..

#9. 다변량 정규분포

정규분포가 여러개 있는 다차원의 정규분포를 의미 1. 다변량 표준정규분포 가정 : 표준정규분포를 따르는 i.i.d한 확률변수 Z1,Z2,,,Zn을 늘어놓은 열 벡터 Z가 따르는 분포를 n차원의 표준분포라고 함 Z의 확률밀도 함수 Z의 기댓값 벡터와 공분산행렬 각각의 확률변수 Z1,Z2..Zn이 모두 표준정규분포를 따르고 독립이므로 E[Zn] = 0, V[Zn]=1 , Cov[Zi,Zj]=0 즉 기댓값은 n차원의 제로벡터, 공분산행렬은 n차원의 단위행렬 I가 됨 2. 일반적인 다변량 정규분포 1차원의 표준정규분포를 따르는 확률변수 Z~N(0,1)을 확대축소, 평행이동해서 여러 정규분포를 따르는 확률변수를 표현한 것 처럼 n차원의 표준정규분포를 따르는 확률변수 Z~N(o, I)를 변환해서 여러가지 변화를 나..

#8. 공분산행렬

공분산과 상관계수는 문과 대학원생이라면 상관분석을 하면서 쉽게 접하는 개념이지만 이걸 벡터로 하게 될 줄은 꿈에도 몰랐읍니다 사전지식 : 공분산과 상관계수 공분산이란 Cov[X,Y] = E[(X-mu)(Y-y's mu)] X,Y 가 각각의 기댓값보다 얼마나 크거나 작은지를 나타내는 것 Cov[X,Y] > 0 : 한쪽이 기댓값보다 크면 다른 한쪽도 해당 기댓값보다 큰 값이 나올 때가 많다 & 반대 성립 (기호가 같음) Cov[X,Y] < 0 : 한쪽이 기댓값보다 작으면 다른 한쪽은 크거나 & 반대 성립 (기호가 다름) Cov[X,Y] = 0 : 위와 같은 경향이 없음. 상관이 없다. 공분산의 성질 Cov[X,Y] = Cov[Y,X] Cov[X,X] = V[X] Cov[X+a, Y+b] = Cov[X,Y] ..

#6. 실수값에서의 변수 변환

변수변환을 알려면 자코비안행렬을 알아야한다...물론 난 모름... ⭐️기억해야 할 것 고무밴드에 잉크를 인쇄했을 때 면적이 a배 넓어지면 잉크의 농도는 1/a배로 변했다 Case1. 가로로만 or 세로로만 늘려보자 확률변수 X,Y를 Z=2X, W=Y로 변환했을 때, f_Z,W(z,w) = f_Z,W(2x,y) 이므로 f_X,Y(x,y) = f_X,Y(z/2,w) X,Y의 면적이 X방향으로 2배 늘어났으므로 밀도는 1/2배로 감소됨 그러므로 f_Z,W(z,w) = 1/2 * f_X,Y(x,y) = 1/2 * f_X,Y(z/2,w) 세로의 경우에도 이와 같은 방식으로 계산 Case2. 비스듬하게 즉 가로 세로로도 다 늘려보자 확률변수 X,Y를 Z=3X+Y, W=X+2Y로 변환했을 때, X = (2Z-W)/5..

#4. 이산값의 확률분포

1. 이항분포 Bn(n,p) 확률 p로 1이 나오는 동전을 n번 던질 때 1이 몇번 나올지에 대한 분포 1이 나올 확률 : p 0이 나올 확률 : q = 1-p 독립적인 확률변수 : Z_1,Z_2,,,,Z_n 이항분포 : X = Z_1 + Z_2 +...+ Z_n의 분포 P(X=k) = nCk * p^k * q^(n-k) 동전을 7번 던졌을 때 앞면이 3번 나올 확률 nCk = 7번(n) 중 앞면이 3번(k) 나오는 경우의 수 (순서와는 상관 없음) p^k = p의 확률이 3번(k) 발생할 확률 q^(n-k) = q의 확률이 4번 (n-k) 발생할 확률 2. 기댓값 E[X] 기본 성질 E[X] = ∑_k (k * P(X=k)) X=1이 나올 확률 1/2, X=3이 나올 확률 1/3, X=5가 나올 확률 ..

#3. 베이즈 공식

앞에 나왔던 조건부확률, 결합확률, 주변확률 등을 응용해서 베이즈 공식을 학습할 수 있음. 1. 기본 개념 베이즈 공식은 결과 Y 에서 원인 X을 찾는 문제를 해결하기 위해 사용함 (X를 안 상태에서 어떤 Y가 나올 지 예측하는 조건부확률과는 반대) 즉 원인 X를 직접 관측/측정할 수 없을 때 원인으로 인해 일어난 결과 Y를 보고 X를 추측하는 것 대부분 측정을하게 되면 원본에 노이즈가 더해짐. 그렇기 때문에 이 노이즈를 확률적으로 다루는 확률변수 X,Y의 조합으로 이 둘의 관계를 기술하고자 하는 것 (ex. 스캐너로 읽은 화상데이터 Y에서 적힌 문자 X를 맞힌다) 사전확률(Prior) P(원인) : 보통 원인의 발생 확률 Likelihood P(결과|원인) : 원인이 발생했을 때 그 결과의 발생 확률 ..

#2. 결합확률, 주변확률, 조건부확률

확률분포 X,Y에 대해 X=a, Y=b가 될 확률을 각각 P(X=a), P(Y=b)라 가정 1. 결합확률 X=a, Y=b가 동시에 될 확률 P(X=a,Y=b) 여러 조건을 지정하고 모든 조건이 동시에 각각 성립하는 것 결합분포의 모든 조합에 대한 확률을 합하면 1이 됨 ∑_a∑_b P(X=a,Y=b) = 1 2. 주변확률 각각 X=a, Y=b가 될 단독확을 주변확률이라고 하며 이는 P(X=a), P(Y=b) 처럼 각각 나타냄 결합분포에서 주변분포를 계산할 수 있음 (반대는 X) P(X=a) = ∑_b P(X=a,Y=b) : Y가 취할 수 있는 모든 값 b를 X=a일때 계산하여 합산 P(Y=b) = ∑_a P(X=a,Y=b) : X가 취할 수 있는 모든 값 a를 Y=b일때 계산하여 합산 + 예시 카드 16..

#1. 확률과 확률변수, 그리고 확률 분포

Reference 프로그래머를 위한 확률과 통계 1. 확률 표본 [ω] : 전체 모집단으로 부터 관찰한 관측값들의 집합 (ex. 평행세계속 하나의 평행 세계) 표본공간[Ω] : 측정/관찰 가능한 모든 값들의 집합 (ex. 전체 평행세계) 사건 [A] : 표본공간의 부분집합으로 특정 조건을 만족시키는 표본점들의 집합 (ex. 동전을 던졌을때 앞면이 나온다) P(A): A의 면적 (전체 측정/관찰 가능한 값 중 A가 발생하는 영역의 비) (ex. P(동전 앞면) = 0.5) 확률 표기법 P(X=a) : X(ω)=a가 되는 ω의 집합 2. 확률변수 확률 변수 정의 표본공간Ω 위의 함수로, 표본공간의 각 요소인 표본ω에 정수값을 반환하는 f(ω)가 있다면 이것은 정수의 확률 변수 즉 어떤 세계(ω)에서 어떤 값..