여기여기 내용 좋다.



해석1

가능도 L은 정의상, 조건부 확률 P(A|B)에서 A와 B를 뒤집은 P(B|A)로 정의된다고 생각하면 이해하기 편하다.

즉, $L(A|B) := P(B|A)$라는 것

좀 더 의미상 실용적으로 와 닿게 표현해보자면 

$L(모델|샘플) = P(샘플|모델)$ 요런식으로 해서 사용한다.

(후자는 보통 계산하기 쉽다는 점을 이용한다.)


예를들어 동전의 앞면이 두번 나왔을때 앞면이나올확률이 0.5일 가능도는

$L(pH=0.5 | HH) = P(HH | pH=0.5) = 0.5 \times 0.5 = 0.25$


앞면이 두 번 나왔는데 동전이 찌그러져서 앞면이나올확률이 0.3일 가능도는

$(LpH=0.3 | HH) = P(HH | pH=0.3) = 0.3 \times 0.3 = 0.09$


시사점

위에서보면 HH등 독립시행 시퀀스에 대해서 곱셈으로 처리하고 있다. 이에 따라 0에 급격하게 수렴하기 쉽고, log를 씌워서 log likelihood를 사용하게 되는 동기가 된다.


주의할점

위에서 앞면이 두번 나왔을 때 앞면이나올 확률이 0.5일 가능도가 0.25라고 해서 이게 25%라는 의미가 아니다.

베이즈 정리를 보면 $P(A|B) = P(B|A)P(A)/P(B)$ 니까.. $L(A|B) := P(B|A)$인 가능도 식과 비교해보면(앞에는 equal, 뒤에는 define임에 주의)  $P(A)/P(B)$텀이 다르다는 내용인듯 하다.

따라서 가능도는 확률이 아니고 모든 p에 대해서 가능도를 다 더했을때(적분했을때) 1.0이 되지도 않는다.

아래 해석2에서 확률분포의 y값이라고 설명은 했지만 잘 보면 아래는 x축이 사건 또는 확률변수 값이고 가능도에서의 x축은 p인점이 다르다. (헷갈리기 쉬움)



해석2

확률질량함수(이산) 또는 확률밀도함수(연속)에서 y값을 가능도라고 해석하면 편하다.

가능도 = 특정 사건이 일어날 가능성에 대한 수치

그러니까 이런생각을 해보자..

위처럼 이산확률에 대한 확률질량함수의 경우는 x값에 대해서 y값을 읽으면 그 사건이 일어날 확률이 된다.
즉 위에서 왼쪽걸 보면 주사위를 한 번 굴렸을 때 3이나올 확률은 1/6이고 오른쪽걸 보면 동전을 10번 던졌을 때 앞면의 횟수가 20번이 될 확률은 0이고 이런식이다.

그런데 연속사건의 경우는 질량밀도함수가 존재하긴 하지만 특정 x에 대한 발생확률은 항상 0이된다. (면적이 아니면 다 0이 됨)
위는 확률밀도 함수가 정규분포라고 가정하고 그린건데.. 특정 x값에 대해서 y값을 읽으면 확률이라고 할수는 없지만 가능도라고는 할 수 있게 된다(이게 바로 가능도의 정의니까)
다시말해서 x가 0일 확률은 0이지만, x가 0일 가능도는 0.4정도라는것..
이렇게 하면 확률은 아니지만 서로다른 x값에 대해서 그 크기를 비교할 수 있어서 유용하게 되는 것..


정리하면 다음과 같다.


예를들어 주사위를 3번던져 각각 1,3,6이 나올 확률은 얼마인가.. 라는 문제를 생각해보자.

$L(p=1/6 | 1,3,6) = P(1,3,6 | p=1/6) = 1/6 \times 1/6 \times 1/6 = 1/216$ 요런식으로 의식의 흐름이 전개되는 것..

물론 여기서 우리가 관심이 있고 변수로 설정한게 p라는점이 중요하다.

p가 바뀔때마다 P()도 바뀌고 L도 바뀐다.


여기서 p에 대한 L의 함수로 놓고 L이 최대가 되는 p를 구하는 문제로 세팅하면 바로 최대 가능도 추정(MLE) 문제가 된다.

반응형

+ Recent posts