최대우도추정 MLE는 이미 관측된 데이터를 가장 그럴듯하게 설명하는 모델 파라미터를 찾는 방법입니다.
확률은 파라미터가 주어졌을 때 데이터가 나올 가능성을 보고, likelihood는 관측 데이터가 고정된 상태에서 어떤 파라미터가 더 그럴듯한지 비교하는 함수로 이해하면 됩니다.
핵심 정리
MLE를 볼 때 가장 헷갈리는 지점은 probability와 likelihood가 같은 식 모양을 쓰더라도 보는 방향이 다르다는 점입니다. 확률은 모델이 정해져 있을 때 앞으로 어떤 데이터가 나올지를 말하고, likelihood는 데이터가 이미 관측된 뒤 어떤 모델 파라미터가 그 데이터를 잘 설명하는지를 비교합니다. 그래서 likelihood 값들을 파라미터 전체에 대해 더한다고 항상 1이 되는 확률분포처럼 다룰 수는 없습니다. MLE는 이 likelihood가 가장 커지는 파라미터를 선택하는 절차입니다.
- MLE는 maximum likelihood estimation의 약자입니다.
- 관측 데이터는 고정하고 파라미터 후보를 비교합니다.
- probability는 파라미터가 주어진 상태에서 데이터의 가능성을 봅니다.
- likelihood는 데이터가 주어진 상태에서 파라미터의 그럴듯함을 봅니다.
- likelihood는 파라미터에 대한 함수이므로 단순 확률분포처럼 합이 1일 필요가 없습니다.
- 정규분포 예제에서는 평균과 표준편차 같은 파라미터를 데이터에 맞게 추정하는 식으로 이해할 수 있습니다.
원문은 공부 중인 의문과 수식 메모가 그대로 남아 있어 학습 과정이 잘 보입니다. 이번 보강은 확률과 likelihood의 방향 차이, 그리고 MLE가 파라미터를 고르는 절차라는 큰 그림을 먼저 세웠습니다.
이어서 볼 글
- MLE 최대우도추정: 가능도, 로그우도, 파라미터 추정 - MLE와 로그우도, 파라미터 추정을 더 직접적으로 다룬다.
- 베이즈 추론 개념: prior, likelihood, posterior - likelihood가 베이즈 추론에서 어떻게 쓰이는지 이어서 볼 수 있다.
likelihood
아래에 주저리 적긴했는데 아직 100% 파악은 못했다.
특히 더해서 1이 아닐 수 있다는둥.. 이내용 잘모르겟고
시타의 정확한 의미에 대해 잘모르겠다.파라미터 모음인지 숫자인지 모델인지 등
좀 더 적절한 쉬운 예제가 필요한 상황이다
게다가 베이즈 정리랑 관련있다는데.. 이부분도 잘 모르겠다 ㅋㅋ
대략적인 개념파악은 그렇게 어렵지는 않다.
왜냐면 일반적인 확률이 시타가 주어진 상황에서 관측치를 보면서 논하는거라면
순서만 거꾸로 해준 개념이라고 보면된다
즉 관측치를 보고 시타를 논하는..즉 관측치를 이끌어낸 모델을 논한다고 보면 될듯
확률과 likelihood의 차이점에 대해 공부중(엄청 어려움)
확률과 다르게 likelihood는 더해서 1이 아닐 수 있다는데..
Probability is used before data are available to describe possible future outcomes given a fixed value for the parameter (or parameter vector).
Likelihood is used after data are available to describe a function of a parameter (or parameter vector) for a given outcome.
결과적으로 식은 아래처럼 표현된다고 한다.

x가 관측값이고,
시타가 규칙이라고 보면 될것 같은데(튜닝해야할 파라미터값 모음?)
원래 확률 P라는 것은 규칙이 주어진 상황에서 관측치의 확률을 구하는 것이고
(예를 들어 동전던지기라면 규칙은 앞뒤면이 0.5확률을 가진다는 것이고, 관측치는 HH(앞면, 앞면)이 될 수 있다. 이경우 독립사건을 가정하면 P(x|시타) = 0.25가된다.
근데 우도(가능도, likelihood)를 보면, 거꾸로 HH라는 관측치를 보고 규칙이 시타일 확률을 말한다.
(예를 들어 위의 경우에 HH가 나왔을때 원래 규칙이 앞뒤면 0.5일 확률은 0.25가 된다는 소리)
이때 중요한 것은.. P는 모든 x에 대해서 다 더하면 1이 되는데 (확률분포라는 소리, P(앞면) + P(뒷면) = 1)
L은 모든 시타에 대해서 다 더해도 1이 안나올 수 있다고 하네..
예를 들어 관측치가 HH(앞면, 앞면)일때 모든 시타를 적분한다는건 어떤의미일까
음 앞면이 나올 확률을 시타라고 정의했다면..
그건 0에서 1사이값을 가질것이고 적분해보면 시타제곱을 0에서 1사이로 적분하는거라 1/3이 나온다.
MLE
예를 들면 평균과 표준편차를 모르는 샘플들이 주어졌을때 평균과 표준편차를 추정하는 방법이라고 할 수 있어.
아래 위키예제에 잘 나와있다. ㅎ

MLE, Maximum likelihood estimation
데이터의 배경에는 M차 다항식 관계가 존재하고 표준편차 $ \sigma $ 만큼의 오차가 포함되어 있다고 가정
대략 $\pm\sigma$ 의 범위로 관측 데이터가 변동한다는 의미
M차 다항식 관계를 가정한다는 점은 최소제곱법에서와 동일하지마 최우추정법에서는 오차에 관한 가정이 하나 추가 됨
가장 적합한 다항식과 더불어 가장 적합한 $\sigma$를 구한다는 의미가 된다.
관측점 $x_n$의 관측값 $y_n$은 $f(x_n)$을 중심으로 하여 약 $f(x_n)\pm\sigma$ 범위로 흩어져 있다고 생각
그리고 $\mu$를 중심으로 $\mu\pm\sigma$의 범위로 흩어지는 난수는 $N(\mu, \sigma^2)$인 정규분포를 이룬다.
여기 부터가 중요
$y_n$이 관측 되었을때, 관측값은 정규분포를 이룬다고 가정 했고,정규 분포는 확률밀도 함수이므로, $y_n$이 관측된 확률을 계산해보면
$N(y_n|f(x_n), \sigma^2)$으로 표기할 수 있다 (다항식과 시그마가 파라미터가 된다. 확률적으로 보면 다항식과 시그마가 주어진 상황에서의 조건부 확률값이 된다.)
이는 당첨된 복권을 보고 얼마의 확률로 당첨 된건지 확인해 보는 과정과 비슷하다.
그리고 이러한 확률을 모든 관측값에 대해 적용하면, 모든 관측이 독립이라는 가정하에
$P = \prod^N_{n=1}N(y_n|f(x_n),\sigma^2)$ 이 된다.(독립사건이 동시에 일어날 확률이므로 곱하기 곱하기)
이걸 우도함수라고 부른다.
여기가 젤 중요
근데 지금부터 뭘할거냐면.. 다항식과 $\sigma$를 바꿔가면서 위의 우도함수가 최대가 되도록 할거야.
이게 무슨의미를 갖는지가 중요한데..
다항식과 시그마를 P가 최대가 되도록 피팅하면.. 이렇게 피팅된 다항식과 시그마가 나중에 발생할 관측값을 정확하게 예측할거라는 건데..
표본추출을 통해서 표본평균과 표본분산을 구하고 이를 통해 모평균과 모분산을 추정하는 과정과 비슷하다고 할 수 있어
아무튼 우도함수가 최대가 되도록 계산하는 방법을 최우추정법이라고 해
좀 더 고찰해보면..
엉터리 다항식과 시그마로 P값이 굉장히 높게 나온 상황을 생각해보자.
이게 무슨의미냐면.. 엉터리 다항식이면 실제 현상과 다르게 모델링 된 걸 의미하고, 그럼에도 P가 높게 나왔다는건 확률상 '운이 없어서' 우연히 시그마값이 높은 샘플들만 추출되었다는 이야기가 돼..
하지만 확률적으로 이럴 경우는 별로 없기 때문에.. 실제로 확률이 가장 높은것은
정확한 다항식과 시그마가 사용됐을때 P가 높게 나올 확률도 가장 높게 되겠지..
따라서 P를 최대로 만드는 다항식과 시그마를 찾으면 확률적으로 이걸 기반으로 해서 샘플이 추출되었을 가능성이 가장 높다는 거야
'Data Engineering' 카테고리의 다른 글
| 주식 데이터 정합성 점검: 누락, 중복, 기준일 확인 방법 (0) | 2026.06.02 |
|---|---|
| Learning Rate와 Iteration 관계: 반복 횟수에 따른 수렴 변화 (0) | 2026.05.24 |
| Apache Flink Window 개념: Tumbling, Event Time, Watermark, Trigger (1) | 2023.10.29 |
| flink Table API를 사용한 실시간 Reporting샘플 (0) | 2023.10.28 |
| Flink 기본 개념: JobManager, TaskManager, ValueState (1) | 2023.10.28 |
