먼저 여기와 여기, 그리고 여기를 보고 오는거 추천




해석1

가능도(likelyhood) L은 $L(모델|샘플):=P(샘플|모델)$로 정의되고 수학적 정의를 사용하면 $L(\theta|X) := P(X|\theta)$ 가 된다.

MLE는 L을 최대로 만드는 $\theta$를 찾는 문제로서 역시나 수학적으로 적어보면 다음과 같다.

$$\theta_{MLE} = \operatorname*{argmax}_\theta P(X|\theta)$$

X는 샘플 시퀀스를 의미하고 각각의 샘플 $x_i$로 표현하면 다음과 같다.

$$\theta_{MLE} = \operatorname*{argmax}_\theta \prod_i P(x_i|\theta)$$

근데 0보다 작은 확률을 여러번 곱하면 급하게 0으로 수렴하므로 log를 씌워서 보통 사용하게 된다.

그러면 곱셈이 덧셈으로 바뀌어서 다음처럼 된다.

$$\theta_{MLE} = \operatorname*{argmax}_\theta \sum_i \log P(x_i|\theta)$$

이제 위의 식을 가지고 gradient descent 등으로 최적의 $\theta$를 찾는 식으로 활용한다.

해석2

보통은 확률P는 상수로 주어지고 이를 통한 계산을 하게되는데.. 거꾸로 P가 변수이고 P를 추정할 수 있는 샘플들만 주어질때 MLE문제가 된다.

즉, MLE문제에서 주어지는값은 표본들이요, 우리가 구하고자 하는 것은 P가 된다.

이때 P를 x축에 놓고 y축에 무언가를 설정한다음에 다음과 같이 y가 최대가 되는 p=x를 구하면 좋은데..

이때 y축에 놓는 값을 가능도(likelyhood)라고 한다.

그리고 위 그래프에서 가능도가 가장 큰 극점을 찾는걸 최대우도추정(MLE)라고 한다.


해석3

실제로는 p를 정규분포로 놓고 L을 극대화 하는 $\mu$와 $\sigma$를 찾는 식으로 많이 쓰이기 때문에 이에 대한 설명을 해보자.

해석1에서는 x축에 바로 p를 놓았지만 위처럼 p가 정규분포를 따른다고 가정하면 $\mu$와 $\sigma$에 대한 가능도 L의 다변수 함수로 모델링 할 수 있게 된다.

예를 들어 키를 5번 측정해서 178, 179, 180, 181, 182가 나왔을때.. 이를 가장 잘 표현하는 정규분포 $\mu$와 $\sigma$는 무얼까 하는 문제가 되는 식이다.

다음은 MLE로 모델링하고 구하는 과정이다.

1. 실제 모델이 정규분포를 따른다고 가정(이제 $\mu$와 $\sigma$를 구하는 문제로 바뀌었다.)

2. *$L(모델|샘플) = P(샘플|모델\mu, \sigma)$의 최대값을 구하는 문제가 되었다.

3. 특정 키에 대한 가능도, 즉 정규분포는 $\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$이다.

4. 여기에 5개의 독립시행 샘플을 넣고 가능도를 구하면 

$\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(178-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(179-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(180-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(181-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(182-\mu)^2}{2\sigma^2}}$

이렇게 된다.

이를 최대화 하는 $\mu$를 구해보면 180이 나온다.


* 여기서 사실은 L(모델|샘플).. 즉 주어진 샘플에 대해 가장 잘 설명하는 모델을 찾는 건데, 이 모델이 실제 전체 샘플에 대해 가장 좋은 모델인지는 좀 더 고민이 필요하다. 왜냐하면 만약에 주어진 샘플 들이 우연히도 굉장히 표준편차가 큰 것들이었다고 한다면, 이러한 샘플로 추정된 모델은 향후예측시 정답과 괴리가 있을것이다. 따라서 샘플들도 실제 향후 정답과 유사한 $\mu$와 $\sigma$를 가진다는 가정이 들어가게 되는데, 샘플수가 많아질수록 타당하다고 할 수 있을것이다.


아직 이해 안되는점

Q.$L(\theta|X) := P(X|\theta)$ 이렇게 정의한다고 해서 말이 되는 이유는 뭘까?

A. 여기를 보면 베이즈 정리를 사용해서 위처럼 정의안하고 하는 방법이 나오고, 그 이름이 MLE가 아니라 MAP임을 알 수 있다 .MLE는 MAP의 특수한 경우인것


위에서 $\sigma$도 자동으로 계산되나? 5번 측정한거의 $\sigma$를 쓰면 될거 같다는 생각은 드는데 정확히 모르겠다.


반응형

'수학' 카테고리의 다른 글

3D그래픽스 - 회전(Rotation)  (0) 2019.01.09
likelihood(가능도 = 우도)  (0) 2018.10.02
베이즈 정리(Bayes' theorem)  (0) 2018.09.27
독립사건, 독립시행  (0) 2018.09.27
조건부 확률  (0) 2018.09.27

+ Recent posts