해석1
가능도 L은 정의상, 조건부 확률 P(A|B)에서 A와 B를 뒤집은 P(B|A)로 정의된다고 생각하면 이해하기 편하다.
즉, $L(A|B) := P(B|A)$라는 것
좀 더 의미상 실용적으로 와 닿게 표현해보자면
$L(모델|샘플) = P(샘플|모델)$ 요런식으로 해서 사용한다.
(후자는 보통 계산하기 쉽다는 점을 이용한다.)
예를들어 동전의 앞면이 두번 나왔을때 앞면이나올확률이 0.5일 가능도는
$L(pH=0.5 | HH) = P(HH | pH=0.5) = 0.5 \times 0.5 = 0.25$
앞면이 두 번 나왔는데 동전이 찌그러져서 앞면이나올확률이 0.3일 가능도는
$(LpH=0.3 | HH) = P(HH | pH=0.3) = 0.3 \times 0.3 = 0.09$
시사점
위에서보면 HH등 독립시행 시퀀스에 대해서 곱셈으로 처리하고 있다. 이에 따라 0에 급격하게 수렴하기 쉽고, log를 씌워서 log likelihood를 사용하게 되는 동기가 된다.
주의할점
위에서 앞면이 두번 나왔을 때 앞면이나올 확률이 0.5일 가능도가 0.25라고 해서 이게 25%라는 의미가 아니다.
베이즈 정리를 보면 $P(A|B) = P(B|A)P(A)/P(B)$ 니까.. $L(A|B) := P(B|A)$인 가능도 식과 비교해보면(앞에는 equal, 뒤에는 define임에 주의) $P(A)/P(B)$텀이 다르다는 내용인듯 하다.
따라서 가능도는 확률이 아니고 모든 p에 대해서 가능도를 다 더했을때(적분했을때) 1.0이 되지도 않는다.
아래 해석2에서 확률분포의 y값이라고 설명은 했지만 잘 보면 아래는 x축이 사건 또는 확률변수 값이고 가능도에서의 x축은 p인점이 다르다. (헷갈리기 쉬움)
해석2
확률질량함수(이산) 또는 확률밀도함수(연속)에서 y값을 가능도라고 해석하면 편하다.
가능도 = 특정 사건이 일어날 가능성에 대한 수치
그러니까 이런생각을 해보자..
정리하면 다음과 같다.
예를들어 주사위를 3번던져 각각 1,3,6이 나올 확률은 얼마인가.. 라는 문제를 생각해보자.
$L(p=1/6 | 1,3,6) = P(1,3,6 | p=1/6) = 1/6 \times 1/6 \times 1/6 = 1/216$ 요런식으로 의식의 흐름이 전개되는 것..
물론 여기서 우리가 관심이 있고 변수로 설정한게 p라는점이 중요하다.
p가 바뀔때마다 P()도 바뀌고 L도 바뀐다.
여기서 p에 대한 L의 함수로 놓고 L이 최대가 되는 p를 구하는 문제로 세팅하면 바로 최대 가능도 추정(MLE) 문제가 된다.
'수학' 카테고리의 다른 글
고유값, 고유벡터(eigenvalue and eigenvector) (0) | 2019.01.09 |
---|---|
3D그래픽스 - 회전(Rotation) (0) | 2019.01.09 |
MLE, 최대우도추정(Maximum Likelihood Estimation) (0) | 2018.09.27 |
베이즈 정리(Bayes' theorem) (0) | 2018.09.27 |
독립사건, 독립시행 (0) | 2018.09.27 |