먼저 여기와 여기, 그리고 여기를 보고 오는거 추천




해석1

가능도(likelyhood) L은 $L(모델|샘플):=P(샘플|모델)$로 정의되고 수학적 정의를 사용하면 $L(\theta|X) := P(X|\theta)$ 가 된다.

MLE는 L을 최대로 만드는 $\theta$를 찾는 문제로서 역시나 수학적으로 적어보면 다음과 같다.

$$\theta_{MLE} = \operatorname*{argmax}_\theta P(X|\theta)$$

X는 샘플 시퀀스를 의미하고 각각의 샘플 $x_i$로 표현하면 다음과 같다.

$$\theta_{MLE} = \operatorname*{argmax}_\theta \prod_i P(x_i|\theta)$$

근데 0보다 작은 확률을 여러번 곱하면 급하게 0으로 수렴하므로 log를 씌워서 보통 사용하게 된다.

그러면 곱셈이 덧셈으로 바뀌어서 다음처럼 된다.

$$\theta_{MLE} = \operatorname*{argmax}_\theta \sum_i \log P(x_i|\theta)$$

이제 위의 식을 가지고 gradient descent 등으로 최적의 $\theta$를 찾는 식으로 활용한다.

해석2

보통은 확률P는 상수로 주어지고 이를 통한 계산을 하게되는데.. 거꾸로 P가 변수이고 P를 추정할 수 있는 샘플들만 주어질때 MLE문제가 된다.

즉, MLE문제에서 주어지는값은 표본들이요, 우리가 구하고자 하는 것은 P가 된다.

이때 P를 x축에 놓고 y축에 무언가를 설정한다음에 다음과 같이 y가 최대가 되는 p=x를 구하면 좋은데..

이때 y축에 놓는 값을 가능도(likelyhood)라고 한다.

그리고 위 그래프에서 가능도가 가장 큰 극점을 찾는걸 최대우도추정(MLE)라고 한다.


해석3

실제로는 p를 정규분포로 놓고 L을 극대화 하는 $\mu$와 $\sigma$를 찾는 식으로 많이 쓰이기 때문에 이에 대한 설명을 해보자.

해석1에서는 x축에 바로 p를 놓았지만 위처럼 p가 정규분포를 따른다고 가정하면 $\mu$와 $\sigma$에 대한 가능도 L의 다변수 함수로 모델링 할 수 있게 된다.

예를 들어 키를 5번 측정해서 178, 179, 180, 181, 182가 나왔을때.. 이를 가장 잘 표현하는 정규분포 $\mu$와 $\sigma$는 무얼까 하는 문제가 되는 식이다.

다음은 MLE로 모델링하고 구하는 과정이다.

1. 실제 모델이 정규분포를 따른다고 가정(이제 $\mu$와 $\sigma$를 구하는 문제로 바뀌었다.)

2. *$L(모델|샘플) = P(샘플|모델\mu, \sigma)$의 최대값을 구하는 문제가 되었다.

3. 특정 키에 대한 가능도, 즉 정규분포는 $\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$이다.

4. 여기에 5개의 독립시행 샘플을 넣고 가능도를 구하면 

$\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(178-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(179-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(180-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(181-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(182-\mu)^2}{2\sigma^2}}$

이렇게 된다.

이를 최대화 하는 $\mu$를 구해보면 180이 나온다.


* 여기서 사실은 L(모델|샘플).. 즉 주어진 샘플에 대해 가장 잘 설명하는 모델을 찾는 건데, 이 모델이 실제 전체 샘플에 대해 가장 좋은 모델인지는 좀 더 고민이 필요하다. 왜냐하면 만약에 주어진 샘플 들이 우연히도 굉장히 표준편차가 큰 것들이었다고 한다면, 이러한 샘플로 추정된 모델은 향후예측시 정답과 괴리가 있을것이다. 따라서 샘플들도 실제 향후 정답과 유사한 $\mu$와 $\sigma$를 가진다는 가정이 들어가게 되는데, 샘플수가 많아질수록 타당하다고 할 수 있을것이다.


아직 이해 안되는점

Q.$L(\theta|X) := P(X|\theta)$ 이렇게 정의한다고 해서 말이 되는 이유는 뭘까?

A. 여기를 보면 베이즈 정리를 사용해서 위처럼 정의안하고 하는 방법이 나오고, 그 이름이 MLE가 아니라 MAP임을 알 수 있다 .MLE는 MAP의 특수한 경우인것


위에서 $\sigma$도 자동으로 계산되나? 5번 측정한거의 $\sigma$를 쓰면 될거 같다는 생각은 드는데 정확히 모르겠다.


반응형

'수학' 카테고리의 다른 글

3D그래픽스 - 회전(Rotation)  (0) 2019.01.09
likelihood(가능도 = 우도)  (0) 2018.10.02
베이즈 정리(Bayes' theorem)  (0) 2018.09.27
독립사건, 독립시행  (0) 2018.09.27
조건부 확률  (0) 2018.09.27

사건 A와 B가 있을 때, 서로 영향을 주지 않으면 독립사건이라 한다.

이 경우 $ P(A \cap B) = P(A)P(B)$ 이다.


주의할 점은 좀 헷갈릴수도 있다는 점이다.


다음 예를 보자.


사건A를 주사위 하나를 던져서 짝수가 나오는 경우라 하고,

사건B를 주사위 하나를 던져서 4의 배수가 나오는 경우라 하자.


사건 A와 사건 B는 서로 독립일까?

일견 각각의 주사위를 던지는 이벤트는 독립시행이므로 독립사건으로 보인다. 


하지만 $P(A \cap B)$를 계산해보면, 

$P(A) = 1/2,  P(B) = 1/6$ 이지만 $P(A \cap B)$는 둘을 곱한 1/12이 아님을 알 수 있다.

왜냐하면 4의 배수인 경우는 무조건 짝수이기도 하기 때문에

짝수이면서 4의 배수가 될 확률은 그냥 4의 배수가 될 확률인 1/6이 되기 때문이다.

결론적으로 A와 B는 독립이 아니고 종속사건이 되겠다.


독립시행과 독립사건의 차이에 대해서는 여기를 참조하면 좋다(내용은 긴데 읽어볼만 하다)


독립시행인 경우는 두 번 던져서 앞에는 짝수가 나오고 뒤에는 4의 배수가 나온다는 개념으로 $P(A \cap B)$가 아닌 $P(A \times B)$로 표시하고, 그냥 곱하면된다.

P(A)P(B) = 1/12. 즉 독립시행시 확률을 묻는 문제였으면 답이 1/12가 맞다.

반응형

'수학' 카테고리의 다른 글

likelihood(가능도 = 우도)  (0) 2018.10.02
MLE, 최대우도추정(Maximum Likelihood Estimation)  (0) 2018.09.27
베이즈 정리(Bayes' theorem)  (0) 2018.09.27
조건부 확률  (0) 2018.09.27
조합  (0) 2017.11.08

+ Recent posts