SVM, Bayesian 추론, HMM, Markov 성질은 모두 데이터에서 패턴을 찾거나 불확실한 상황을 확률적으로 판단할 때 자주 만나는 개념입니다.
각 용어는 서로 다른 분야처럼 보이지만, 데이터에서 패턴을 찾고 불확실한 상황에서 확률적으로 판단한다는 큰 흐름 안에서 함께 등장합니다.
핵심 정리
SVM은 분류 문제에서 경계를 찾는 모델로 볼 수 있고, Bayesian 관점은 관측한 증거를 바탕으로 믿음을 갱신하는 방식입니다. Base rate fallacy는 기본 확률을 무시하면 판단이 크게 틀어질 수 있다는 예시로 이해하면 됩니다. HMM은 직접 보이지 않는 숨은 상태가 있고, 관측값을 통해 그 상태를 추론하는 모델입니다. Markov 성질은 미래 상태를 판단할 때 먼 과거 전체가 아니라 현재 상태가 핵심 정보가 된다는 가정입니다.
- SVM은 분류 경계를 찾는 대표적인 머신러닝 모델입니다.
- Bayesian 추론은 기존 믿음과 새 증거를 함께 사용해 확률을 갱신합니다.
- Base rate fallacy는 전체 집단의 기본 비율을 무시할 때 생기는 판단 오류입니다.
- HMM은 관측되지 않는 숨은 상태를 관측값으로 추정하는 모델입니다.
- Markov 성질은 다음 상태가 현재 상태에 의해 주로 결정된다고 보는 관점입니다.
- 이 글의 여러 메모는 확률적 판단과 머신러닝 개념을 연결해서 읽을 때 더 잘 이어집니다.
원문은 링크와 용어가 빠르게 이어져 있어 어떤 순서로 이해해야 하는지 흐름이 약했습니다. 이번 보강은 개념들을 하나의 확률적 판단 흐름으로 묶어, 뒤쪽 메모를 단어장처럼 찾아볼 수 있게 했습니다.
이어서 볼 글
- 베이즈 추론 개념: prior, likelihood, posterior - Bayesian 추론, prior, likelihood, posterior를 별도로 정리한 글이다.
- MDP 개념 정리: Markov Decision Process, Policy, Reward - Markov 성질을 강화학습 의사결정 모델로 확장해 설명한다.
http://artint.info/html/ArtInt.html 이 링크 완전 좋아보인다.. 근데 양이 많아 보임
sigmoid function
특징추출
기계학습
SVM

Base rate fallacy = Base rate neglect
사람들이 기본적인 확률을 감안하지 않아서 발생하는 흔한 오류(?)를 의미
다음 예를 보면 뭔지 바로 알 수 있다.
Example 1[edit]
John is a man who wears gothic inspired clothing, has long black hair, and listens to death metal. How likely is it that he is a Christian and how likely is it that he is a Satanist?
If people were asked this question, they would likely underestimate the probability of him being a Christian, and overestimate the probability of him being a Satanist. This is because they would ignore that the base rate of being a Christian (there are about 2 billion in the world) is vastly higher than that of being a Satanist (estimated to be in the thousands).[2] Therefore, even if such clothing choices indicated an order of magnitude jump in probability of being a Satanist, the probability of being a Christian is still much larger.
확률론#확률변수
In an experiment a person may be chosen at random, and one random variable may be the person's height.
Mathematically, the random variable is interpreted as a function which maps the person to the person's height.
Coin Toss[edit]
The possible outcomes for one coin toss can be described by the sample space
$\Omega = \{\text{heads}, \text{tails}\}$. We can introduce a real-valued random variable Y that models a $1 payoff for a successful bet on heads as follows:

베이지안 == 베이즈 = Bayes = Bayesian
딥러닝
일종의 통계적 추론이다.

머신러닝
HMM
쉽게 얘기하면 숨겨진 state가 존재하고 관찰가능한 state가 존재할때..
관찰가능한 state를 보고 뭔가를 추론한다?.. 이런 컨셉인듯..
보통 마르코프라는 단어가 나오면, 이전 스테이트에만 의존한다 이런뜻인듯하다.
마르코프 성질은 과거와 현재 상태가 주어졌을 때의 미래 상태의 조건부 확률 분포가
과거 상태와는 독립적으로 현재 상태에 의해서만 결정된다는 것을 뜻한다.
위키의 다음 설명이 유용한듯 하다.

구체적인 예제[편집]
영희와 철수는 멀리 떨어져서 살고 있기 때문에 안부를 전화로 물을 수 밖에 없다. 철수의 일과는 크게 '걷거나', '쇼핑을 하거나', '집안을 청소'하는 세가지로 있는데, 무엇을 할지는 그 날의 날씨에 따라 결정된다. 영희는 철수가 살고 있는 지역의 날씨에 관해서 정확히는 모르고 대략적인 경향성만을 알고 있을 뿐이다. 영희는 철수와의 통화내용에 기반하여 그 지역의 날씨를 예측해보려고 한다.
Graphical representation of the given HMM
영희는 날씨가 이산 마르코프 연쇄로 동작한다고 믿는다. "비"가 오거나(Rainy) "맑음(Sunny)"이라는 두 가지 상태가 있다는 것을 알지만 직접 관찰할 수 없기 때문에 정확히 알 수는 없다. 즉, 날씨는 영희에게 은닉 상태이다. 철수는 그 날의 날씨에 따라서 걷거나, 쇼핑을 하거나, 청소를 하고 영희는 전화 통화를 통해 그것들을 관찰(observations)한다. 이는 은닉 마르코프 모델의 좋은 비유가 될 수 있다.
영희는 그 지역의 일반적인 날씨의 경향성과 철수가 특정한 날씨에 주로 어떤 행동을 하는지에 대해 알고 있다. 즉, 영희의 은닉 마르코프 모델의 모수는 모두 알려져있다는 것이다. 이 파이썬 프로그래밍 언어로 다음과 같이 나타내 질 수 있다:
states = ('Rainy', 'Sunny')
observations = ('walk', 'shop', 'clean')
start_probability = {'Rainy': 0.6, 'Sunny': 0.4}
transition_probability = {
'Rainy' : {'Rainy': 0.7, 'Sunny': 0.3},
'Sunny' : {'Rainy': 0.4, 'Sunny': 0.6},
}
emission_probability = {
'Rainy' : {'walk': 0.1, 'shop': 0.4, 'clean': 0.5},
'Sunny' : {'walk': 0.6, 'shop': 0.3, 'clean': 0.1},
}
이 코드에서, start_probability는 초기 확률 분포로서 철수가 영희에게 첫 번째 전화를 했을 때 은닉 마르코프 모델이 어떤 상태에 있을 것이라는 그녀의 믿음을 의미한다. (그녀는 철수가 사는 지역이 주로 비가 온다는 사실을 알고 있다) {'Rainy': 0.57, 'Sunny': 0.43}이다. transition_probability는 마르코프 연쇄에서 행해지는 날씨의 변화를 나타낸다. 위의 예시에서 오늘 비가 오면 내일 맑을 확률은 30%이다. emission_probability는 매일 철수가 어떤 행동을 할지를 나타낸다. 만약 비가 온다면, 철수는 50%의 확률로 집을 청소할 것이고, 그렇지 않고 날씨가 맑다면 60%의 확률로 산책을 나갈 것이다.
유사한 예시는 비터비 알고리즘 페이지에서 더 자세히 확인할 수 있다.
음성 인식에의 응용
음성을 인식하기 위해서는 먼저 주어진 음성이 어떤 문자열로 부터 비롯되어있는지를 판단해야 한다. 은닉 마르코프 모델의 관점에서 음성은 "특정한 문자열로 부터 도출된 출력 변수"로 여겨질 수 있고, 따라서 은닉 마르코프 모델의 최적해를 찾는 과정은 "관찰된 출력 변수(음성)를 가장 잘 설명하는 은닉 상태(문자열)"을 찾는 과정이라고 여겨질 수 있다. 이러한 모델은 비터비 알고리즘을 이용하여 최적해를 찾아낼 수 있으며 음성 인식 분야에서 널리 이용되고 있다.
'AI, ML' 카테고리의 다른 글
| Q-Learning Learning Rate 문제: 작은 학습률과 느린 수렴 (0) | 2026.05.16 |
|---|---|
| Q-Learning 실험: 횡행 행동이 이득으로 학습되는 상황 (0) | 2026.05.16 |
| Convolution 개념과 CNN 기초 정리 (0) | 2026.05.15 |
| ResNet과 Keras 메모: residual connection, input_shape, predict/evaluate (0) | 2026.05.15 |
| Latent Semantic Indexing(LSI)와 NLP 정리 (0) | 2026.05.13 |
