Loading [MathJax]/jax/output/CommonHTML/jax.js

먼저 여기와 여기, 그리고 여기를 보고 오는거 추천




해석1

가능도(likelyhood) L은 L(|):=P(|)로 정의되고 수학적 정의를 사용하면 L(θ|X):=P(X|θ) 가 된다.

MLE는 L을 최대로 만드는 θ를 찾는 문제로서 역시나 수학적으로 적어보면 다음과 같다.

θMLE=argmaxθP(X|θ)

X는 샘플 시퀀스를 의미하고 각각의 샘플 xi로 표현하면 다음과 같다.

θMLE=argmaxθiP(xi|θ)

근데 0보다 작은 확률을 여러번 곱하면 급하게 0으로 수렴하므로 log를 씌워서 보통 사용하게 된다.

그러면 곱셈이 덧셈으로 바뀌어서 다음처럼 된다.

θMLE=argmaxθilogP(xi|θ)

이제 위의 식을 가지고 gradient descent 등으로 최적의 θ를 찾는 식으로 활용한다.

해석2

보통은 확률P는 상수로 주어지고 이를 통한 계산을 하게되는데.. 거꾸로 P가 변수이고 P를 추정할 수 있는 샘플들만 주어질때 MLE문제가 된다.

즉, MLE문제에서 주어지는값은 표본들이요, 우리가 구하고자 하는 것은 P가 된다.

이때 P를 x축에 놓고 y축에 무언가를 설정한다음에 다음과 같이 y가 최대가 되는 p=x를 구하면 좋은데..

이때 y축에 놓는 값을 가능도(likelyhood)라고 한다.

그리고 위 그래프에서 가능도가 가장 큰 극점을 찾는걸 최대우도추정(MLE)라고 한다.


해석3

실제로는 p를 정규분포로 놓고 L을 극대화 하는 μσ를 찾는 식으로 많이 쓰이기 때문에 이에 대한 설명을 해보자.

해석1에서는 x축에 바로 p를 놓았지만 위처럼 p가 정규분포를 따른다고 가정하면 μσ에 대한 가능도 L의 다변수 함수로 모델링 할 수 있게 된다.

예를 들어 키를 5번 측정해서 178, 179, 180, 181, 182가 나왔을때.. 이를 가장 잘 표현하는 정규분포 μσ는 무얼까 하는 문제가 되는 식이다.

다음은 MLE로 모델링하고 구하는 과정이다.

1. 실제 모델이 정규분포를 따른다고 가정(이제 μσ를 구하는 문제로 바뀌었다.)

2. *L(|)=P(|μ,σ)의 최대값을 구하는 문제가 되었다.

3. 특정 키에 대한 가능도, 즉 정규분포는 12πσe(xμ)22σ2이다.

4. 여기에 5개의 독립시행 샘플을 넣고 가능도를 구하면 

12πσ2e(178μ)22σ2×12πσ2e(179μ)22σ2×12πσ2e(180μ)22σ2×12πσ2e(181μ)22σ2×12πσ2e(182μ)22σ2

이렇게 된다.

이를 최대화 하는 μ를 구해보면 180이 나온다.


* 여기서 사실은 L(모델|샘플).. 즉 주어진 샘플에 대해 가장 잘 설명하는 모델을 찾는 건데, 이 모델이 실제 전체 샘플에 대해 가장 좋은 모델인지는 좀 더 고민이 필요하다. 왜냐하면 만약에 주어진 샘플 들이 우연히도 굉장히 표준편차가 큰 것들이었다고 한다면, 이러한 샘플로 추정된 모델은 향후예측시 정답과 괴리가 있을것이다. 따라서 샘플들도 실제 향후 정답과 유사한 μσ를 가진다는 가정이 들어가게 되는데, 샘플수가 많아질수록 타당하다고 할 수 있을것이다.


아직 이해 안되는점

Q.L(θ|X):=P(X|θ) 이렇게 정의한다고 해서 말이 되는 이유는 뭘까?

A. 여기를 보면 베이즈 정리를 사용해서 위처럼 정의안하고 하는 방법이 나오고, 그 이름이 MLE가 아니라 MAP임을 알 수 있다 .MLE는 MAP의 특수한 경우인것


위에서 σ도 자동으로 계산되나? 5번 측정한거의 σ를 쓰면 될거 같다는 생각은 드는데 정확히 모르겠다.


반응형

'수학' 카테고리의 다른 글

3D그래픽스 - 회전(Rotation)  (0) 2019.01.09
likelihood(가능도 = 우도)  (0) 2018.10.02
베이즈 정리(Bayes' theorem)  (0) 2018.09.27
독립사건, 독립시행  (1) 2018.09.27
조건부 확률  (0) 2018.09.27

+ Recent posts