먼저 보고올 개념

확률변수(random variable)


분산

정의

확률변수 X에 대한 

기대값 $\mu = E(X)$

분산 $Var(X) = E((X-\mu)^2)$ 

즉 평균에서 얼마나 떨어졌는지를 나타내는 편차의 제곱을 평균낸것

의미

평균에서 표본들이 얼마나 떨어져있는지의 정도를 나타낸다고 보면 된다. 분산이 크면 말그대로 평균에서 멀리 멀리 떨어져들 있어서 변동성이 심한 것



공분산

공분산은 식은 매우 간단한 편이고, 의미를 이해하는데 난이도가 있다.

여기 링크 좋다.


정의

확률변수가 이번엔 두개 등장.. X와 Y

각각의 평균에 해당하는 기대값은 다음과 같다.

$$E(X) = \mu, E(Y) = \nu$$

뒤에 v처럼 생긴건 라고 읽는다.


이때 공분산은 다음과 같이 나타낼 수 있다.

$$Cov(X, Y) = E((X-\mu)(Y-\nu))$$

분산과 비교해보면 분산에서는 하나의 확률변수에 대한 표본과 평균의 차이를 제곱하는데($E((X-\mu)^2)$)

공분산에서는 대신에 두개의 확률변수에 대한 표본과 평균의 차이를 곱해준 형태이다.

다르게 표현하자면 공분산은 X의 편차와 Y의 편차를 곱한것의 평균이 된다.

여기서 반드시 가져야할 의문은, 위처럼 하면 왜 X와 Y의 관계를 나타내주는가 하는 점과

X와 Y의 관계를 나타내는데 있어서는 위의 식이 아니라 다른 형태의 식으로도 가능한거 아니야? 

라는 질문이 반드시 나와야 한다.

학자들이 결론낸걸 외우기만 해서는 아무 의미가 없다.

그냥 공분산이 아~ 저런식이고 저런의미를 갖는구나~ 하고 인정하고 넘어가지말고

분산에서 공분산으로 넘어가는 과정에서 왜 반드시 위의 식이 유일한 솔루션이 되었는가를 파해치는게 중요하다.


식을 전개해보면 다음과 같이 된다.

$$Cov(X,Y)=E((X-\mu)(Y-\nu))=E(XY)-\mu\nu$$

X와 Y가 독립이라면 공분산은 0이된다. 
(독립사건과 독립시행이 있는데 여기서는 독립사건으로 해석해야할 듯 하다.)


이산확률변수에 대해서 기대값을 제거한 식을 써보면 다음과 같다.

$$Cov(X,Y) = {{1\over n} \sum_{i=1}^n{(x_i-E(X))(y_i-E(Y))}}$$


분산에서와 마찬가지로 표본공분산을 구할때는 n이 아니라 n-1로 나눠줘야 한다.


의미

두 변수 사이의 관계를 나타냄


$Cov(X, Y) > 0$    X가 증가 할 때 Y도 증가한다.

$Cov(X, Y) < 0 $   X가 증가 할 때 Y는 감소한다.

$Cov(X, Y) = 0 $   X와 Y는 서로 독립


위 그림을 보고 식과 연관지어 생각해보자. 어떤 샘플이 $\mu$에 대해서도 양의 편차를 가지고 $\nu$에 대해서도 양의 편차를 가지면 위 그래프에서 1사분면에 점이 찍히게 된다.

평균은 어차피 중간쯤으로 정해져 있지만 X가 양의 편차일때 Y도 양의 편차, X가 음의 편차일때 Y도 음의편차를 가지는 식이 되면 공분산이 커진다는 것  


상관계수

위 공분산의 문제점은 원본데이터의 평균이나 편차에 대해서 정규화가 안된 값이다 보니 서로 비교하기가 어렵다는 점이다.

따라서 공분산을 그 크기(?)로 나눠주는 식으로 정규화(?)하면 그것이 바로 상관계수가 되고 그 식은 다음과 같다.

(아래식은 피어슨 상관계수 (Pearson correlation coefficient)이며 다르게 정의된 상관계수도 있다.)

공분산을 각자의 표준편차의 곱으로 나눠주면 된다.


$$\rho_{X,Y}= \frac{\operatorname{cov}(X,Y)}{\sigma_X \sigma_Y}$$


주요 성질은 다음과 같다.

1. 상관계수의 절대값은 1을 넘을 수 없다.

2. 확률변수 X, Y가 독립이라면 상관계수는 0이다.

3. X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다.


공분산과 개념적으로는 같고 수치만 절대값 1이내로 정규화됐다고 보면 될 것 같다.



공분산의 성질

내적과 유사하다

이거 전에 어디서 봤는데.. 다시 찾아서 정리하자.

여기였구나. 공분산이 아니라 상관관계구나


반응형

직관

주사위를 굴렸을 때 짝수가 나올 확률에 관심이 있다고 해보자.

직관적으로 $P(짝수)=1/2, P(홀수)=1/2$ 이란것을 우리는 알고 있다.

이를 확률변수X를 사용해서 표현하면 다음처럼 된다. $$P(X=짝수)=1/2, P(X=홀수)=1/2$$

위를 보면 확률변수가 어떤것인지 대략적으로 감이 올것이다.


좀 더 세밀한 이해를 위해, 표본공간 부터 시작해서 썰을 풀어보자.


표본공간(sample space)

주사위를 굴렸을때는 우리가 관심있는 짝수나 홀수라는 이벤트가 직접적으로 나온다기 보다는 

1,2,3,4,5,6이라는 숫자가 나오고 이를 우리가 짝수, 또는 홀수로 해석한다고 말할 수 있다.

여기서 1,2,3,4,5,6이라는 raw하게 관측되는 low-level 정보를 모아서 표본공간이라고 이야기 하고 $S$또는 $\Omega$로  표기한다.


주사위를 던지는 실험에서 표본공간 $\Omega = \{1,2,3,4,5,6\}$이 되고,

동전을 던지는 실험에서의 표본공간 $\Omega = \{앞면, 뒷면\}$이 된다.

동전을 두 번 던지는 실험에서의 표본공간 $\Omega = \{앞앞, 뒤뒤, 앞뒤, 뒤앞\}$이 된다.


주사위는 1,2,3,4,5,6이외에 다른것이 나올 수 없으므로 $P(\Omega)=1.0$이 된다.


사건공간(event space)

우리가 실제적으로 관심이 있는 확률은 주사위의 눈이 1일 확률, 2일 확률 이런 raw하고 low-level인 정보가 아니라, 짝수냐 홀수냐고 하는 좀더 high-level 정보이다.

(짝수/홀수가 아닌 prime number냐 아니냐로 설정할수도 있고 관심사에 따라 다양하다)

따라서 우리가 관심이 있는 짝수, 홀수등을 사건으로 정의하고 확률변수 X등을 붙인다.

(표본이 아닌 사건에 확률변수를 붙임에 주의, 물론 표본자체가 관심사이면 표본=사건이 될 수도 있다.)

여기서 정의역이 표본공간인 {1,2,3,4,5,6}이고 치역이 {짝수,홀수}인 함수를 생각해보면 표본에서 사건으로 매핑되는 테이블이 하나 나오는데,

이 때문에 확률변수를 함수로 해석한다는 개념이 나오지만 중요하진 않으므로 넘어가자.

각 사건들은 이런개념에서는 치역이 되지만, P(짝수)=1/2처럼 확률에 대해서는 정의역이 됨에 주의(여기서 치역의 범위는 [0, 1]인 실수)


사건공간은 필드라고도 하며 F로 표기하는데, 

필드라는 용어는 표본공간의 부분집합을 모아놓은 집합이면서, 원소끼리 합집합,교집합,여집합을 해도 닫혀있으면 필드라고 한다.

즉 표본공간이 {1,2,3,4,5,6}일때 사건공간 F = {{1,2,3},{4,5,6}} 이렇게 짝수, 홀수로만 해놓으면 합집합등에 대해 닫혀있지 않기 때문에 다음처럼 공집합과 전체집합을 포함해야 완전해지고 필드가 된다.


$$\Omega = \{1,2,3,4,5,6\}$$

$$F = \{\emptyset, \Omega, 짝수, 홀수\}$$


사건공간의 각 사건에 대해서 확률을 표시하면 다음과 같다.

$$P(\emptyset)=0, P(\Omega)=1, P(짝수)=1/2, P(홀수)=1/2$$



확률공간(probability space)

위의 $\Omega, F, P$를 모아서 확률공간이라 한다.


확률공간 ($\Omega, F, P$)


$\Omega$: 표본공간

$F$: $\Omega$의 부분집합으로 이루어진 사건들을 모아놓은 집합. 표본공간의 치역이면서 동시에 아래 확률 함수의 정의역 

$P$: $F$에 정의된 각 사건에 대한 확률 함수.. 즉 $F$의 치역이 되며 범위는 [0, 1]이다. 


주사위 짝수/홀수 실험에서는 다음과 같다.


$\Omega = \{1,2,3,4,5,6\}$

$F = \{\emptyset, \Omega, 짝수, 홀수\}$

$P(\emptyset)=0, P(\Omega)=1, P(짝수)=1/2, P(홀수)=1/2$



확률변수(random variable)

확률공간에서 각 사건별 확률이 있을때 확률변수 X를 써서 다음처럼 표기
$$P(X=사건)=확률$$

위의 주사위 짝수/홀수 실험에서는 다음처럼 된다.

$$P(X=짝수)=1/2, P(X=홀수)=1/2$$

확률변수는 이처럼 각 사건에 대응되고, 반복실험을 할때마다 발생하는 사건이 확률에 따라 달라지므로,

확률변수 X를 실험의 관측사건으로 해석하면 편한경우도 있다.

관측사건으로 해석하면 다음처럼 기대값을 구할때 확률변수를 쓰는것도 자연스럽게 이해가 된다.


$$E(X) = \sum x_ip_i$$































반응형

자신의 전치행렬(transpose)이 역행렬과 같은 정방행렬

$$A^{-1}=A^{T}$$

$$AA^{T}=E$$


단순히 대각선으로 뒤집으면 역행렬이 구해지는 편리한 성질이 있다.


또한, 직교행렬은 그 열벡터, 행벡터가 모두 서로 정규직교(orthonormal)하는 성질이 있다.

즉 열벡터들은 모두 단위벡터이면서 서로 수직인 성질을 갖는다.


$$||v_i||=1$$

$$v_i \cdot v_j =0, i \neq j$$


반응형

선형변환이 일어난 후에도 크기는 변하더라도 방향이 변하지 않는 벡터를 고유벡터라 하고, 그때 변하는 크기의 양을 고유값이라고 한다.


특정 선형변환은 특히 행렬로 표시하면 간단한 경우가 많고, 고유값, 고유벡터는 이행렬의 특징을 나타내게 된다.

고유값, 고유벡터는 정방행렬에 대해서만 정의된다.

위 정의에 따라 어떤 행렬 A에 대해서 $Av=\lambda v$를 만족하는 $\lambda, v$가 있을때 이를 각각 고유값, 고유벡터라 한다.


어떤 숫자의 본질적인 특성을 나타내는게 prime number라고 할 수 있듯이,


어떤 행렬(선형변환)의 본질적인 특성을 나타내는게 고유벡터, 고유값이라고 말할 수 있다.

PCA(주성분 분석)에 쓰이는 모습을 보면 그런점을 명확하게 더 파악할 수 있다고 본다.


전반적인 개념을 잡는데는 이 링크가 아주 좋다.

한글 문서중에는 이 링크가 좋다.


존재여부에 대해서는 어떤행렬은 고유값, 고유벡터가 없을수도 있고 하나만 존재하거나 최대 n개까지 존재할 수 있다.


직관

여기서 첫번째 답변이 다항식의 근에 비유한 표현과, 그 밑에 답변에서 hinge(경첩)에 비유한 표현이 좋은거 같다.

왜냐면 방향이 변하지 않는 부분이기 때문에 일종의 말뚝을 박아놓은 부분이라 전체적인 변환의 특성을 표현하기 좋기 때문인거 같애

다항식의 근이 그렇듯이 (다항식의 근을 보면 대충 어떻게 생긴지 앎.. 왜냐면 근은 y=0 축에다가 못 움직이게 말뚝을 박아놓은 형태기 때문에 )


고유벡터 예제


1. 모나리자



2. 자전운동

자전운동은 회전변환인데 이 변환에 의해 변하지 않는 고유벡터는 회전축(자전축)벡터일 것이고 그 고유값은 1이 될 것이다(스케일이 변하지 않으므로)




고유벡터 활용예


1. 고유값 분해(eigendecomposition, =대각화?)

이건 마치 prime factorization과 비슷한 느낌이다.

요건 별도 문서로 정리하자


2. 특이값분해(SVD)


3. 주성분분석(PCA)


고유벡터 문제풀이 예제


외부링크

https://math.stackexchange.com/questions/243533/how-to-intuitively-understand-eigenvalue-and-eigenvector


visualization





반응형

'수학' 카테고리의 다른 글

확률변수(random variable)  (0) 2019.01.18
직교행렬(orthogonal matrix)  (0) 2019.01.09
3D그래픽스 - 회전(Rotation)  (0) 2019.01.09
likelihood(가능도 = 우도)  (0) 2018.10.02
MLE, 최대우도추정(Maximum Likelihood Estimation)  (0) 2018.09.27



좌표계

직교좌표계(Cartesian coordinate system)

(x,y,z) 뻔한거



구면좌표계(spherical coordinate system)

반지름, 위도, 경도 




Rotation


Euler angle(오일러각)

3차원 벡터의 방향을 세 개의 각으로 표시한 것

Orientation coordonnees spheriques generalisees.png

위에서 물체 M이 놓인 방향을 (α, β, γ) 또는 (ψ, θ, φ)로 표현

x,y,z축에 대해서 회전하는 쉬운 개념이 tait-bryan angle이고 proper Euler angle은 좀 어렵다 x,y,z가 아니라 z,x,z 이런식으로 회전한다는데 정확히 이해 못함


또한 Intrinsic vs Extrinsic rotations 개념이 있다.

전자는 회전축이 변경되는거고 후자는 고정.

처음회전은 둘다동일한데 다음회전을 다른축에 대해서 할때 전자는 첫번째 회전에 의해 이동된 축을 기준으로 회전하고 후자는 원래부터 고정된 월드회전축 기준으로 회전함



Axis-angle representation


Rotation matrix

2차원일때

{\displaystyle R={\begin{bmatrix}\cos \theta &-\sin \theta \\\sin \theta &\cos \theta \\\end{bmatrix}}}

원점(0,0)을 기준으로 반시계방향(오른손 좌표계)으로 회전하는 행렬은 위와 같다.

특정한 픽셀의 좌표가 컬럼벡터 v로 표현될때 해당 필셀을 회전한 후의 좌표는 형렬연산으로 Rv 가 된다.

{\begin{bmatrix}x'\\y'\\\end{bmatrix}}={\begin{bmatrix}\cos \theta &-\sin \theta \\\sin \theta &\cos \theta \\\end{bmatrix}}{\begin{bmatrix}x\\y\\\end{bmatrix}}


3차원일때

2차원 회전에서는 회전축이 가상의 z축 하나라면 3차원 회전에서는 회전에 대해 고를 수 있는 축이 3개가 된다(x축, y축, z축)

각각에 대해서 오른손 좌표계(축을 오른손 엄지로 놓았을때 나머지 네 손가락이 쥐어지는 방향..반시계) 기준으로 회전행렬은 다음과 같다.

{\displaystyle {\begin{alignedat}{1}R_{x}(\theta )&={\begin{bmatrix}1&0&0\\0&\cos \theta &-\sin \theta \\[3pt]0&\sin \theta &\cos \theta \\[3pt]\end{bmatrix}}\\[6pt]R_{y}(\theta )&={\begin{bmatrix}\cos \theta &0&\sin \theta \\[3pt]0&1&0\\[3pt]-\sin \theta &0&\cos \theta \\\end{bmatrix}}\\[6pt]R_{z}(\theta )&={\begin{bmatrix}\cos \theta &-\sin \theta &0\\[3pt]\sin \theta &\cos \theta &0\\[3pt]0&0&1\\\end{bmatrix}}\end{alignedat}}}

2차원 회전행렬과 상당히 비슷한걸 볼 수 있다.


재밌는점은 












반응형

여기여기 내용 좋다.



해석1

가능도 L은 정의상, 조건부 확률 P(A|B)에서 A와 B를 뒤집은 P(B|A)로 정의된다고 생각하면 이해하기 편하다.

즉, $L(A|B) := P(B|A)$라는 것

좀 더 의미상 실용적으로 와 닿게 표현해보자면 

$L(모델|샘플) = P(샘플|모델)$ 요런식으로 해서 사용한다.

(후자는 보통 계산하기 쉽다는 점을 이용한다.)


예를들어 동전의 앞면이 두번 나왔을때 앞면이나올확률이 0.5일 가능도는

$L(pH=0.5 | HH) = P(HH | pH=0.5) = 0.5 \times 0.5 = 0.25$


앞면이 두 번 나왔는데 동전이 찌그러져서 앞면이나올확률이 0.3일 가능도는

$(LpH=0.3 | HH) = P(HH | pH=0.3) = 0.3 \times 0.3 = 0.09$


시사점

위에서보면 HH등 독립시행 시퀀스에 대해서 곱셈으로 처리하고 있다. 이에 따라 0에 급격하게 수렴하기 쉽고, log를 씌워서 log likelihood를 사용하게 되는 동기가 된다.


주의할점

위에서 앞면이 두번 나왔을 때 앞면이나올 확률이 0.5일 가능도가 0.25라고 해서 이게 25%라는 의미가 아니다.

베이즈 정리를 보면 $P(A|B) = P(B|A)P(A)/P(B)$ 니까.. $L(A|B) := P(B|A)$인 가능도 식과 비교해보면(앞에는 equal, 뒤에는 define임에 주의)  $P(A)/P(B)$텀이 다르다는 내용인듯 하다.

따라서 가능도는 확률이 아니고 모든 p에 대해서 가능도를 다 더했을때(적분했을때) 1.0이 되지도 않는다.

아래 해석2에서 확률분포의 y값이라고 설명은 했지만 잘 보면 아래는 x축이 사건 또는 확률변수 값이고 가능도에서의 x축은 p인점이 다르다. (헷갈리기 쉬움)



해석2

확률질량함수(이산) 또는 확률밀도함수(연속)에서 y값을 가능도라고 해석하면 편하다.

가능도 = 특정 사건이 일어날 가능성에 대한 수치

그러니까 이런생각을 해보자..

위처럼 이산확률에 대한 확률질량함수의 경우는 x값에 대해서 y값을 읽으면 그 사건이 일어날 확률이 된다.
즉 위에서 왼쪽걸 보면 주사위를 한 번 굴렸을 때 3이나올 확률은 1/6이고 오른쪽걸 보면 동전을 10번 던졌을 때 앞면의 횟수가 20번이 될 확률은 0이고 이런식이다.

그런데 연속사건의 경우는 질량밀도함수가 존재하긴 하지만 특정 x에 대한 발생확률은 항상 0이된다. (면적이 아니면 다 0이 됨)
위는 확률밀도 함수가 정규분포라고 가정하고 그린건데.. 특정 x값에 대해서 y값을 읽으면 확률이라고 할수는 없지만 가능도라고는 할 수 있게 된다(이게 바로 가능도의 정의니까)
다시말해서 x가 0일 확률은 0이지만, x가 0일 가능도는 0.4정도라는것..
이렇게 하면 확률은 아니지만 서로다른 x값에 대해서 그 크기를 비교할 수 있어서 유용하게 되는 것..


정리하면 다음과 같다.


예를들어 주사위를 3번던져 각각 1,3,6이 나올 확률은 얼마인가.. 라는 문제를 생각해보자.

$L(p=1/6 | 1,3,6) = P(1,3,6 | p=1/6) = 1/6 \times 1/6 \times 1/6 = 1/216$ 요런식으로 의식의 흐름이 전개되는 것..

물론 여기서 우리가 관심이 있고 변수로 설정한게 p라는점이 중요하다.

p가 바뀔때마다 P()도 바뀌고 L도 바뀐다.


여기서 p에 대한 L의 함수로 놓고 L이 최대가 되는 p를 구하는 문제로 세팅하면 바로 최대 가능도 추정(MLE) 문제가 된다.

반응형

먼저 여기와 여기, 그리고 여기를 보고 오는거 추천




해석1

가능도(likelyhood) L은 $L(모델|샘플):=P(샘플|모델)$로 정의되고 수학적 정의를 사용하면 $L(\theta|X) := P(X|\theta)$ 가 된다.

MLE는 L을 최대로 만드는 $\theta$를 찾는 문제로서 역시나 수학적으로 적어보면 다음과 같다.

$$\theta_{MLE} = \operatorname*{argmax}_\theta P(X|\theta)$$

X는 샘플 시퀀스를 의미하고 각각의 샘플 $x_i$로 표현하면 다음과 같다.

$$\theta_{MLE} = \operatorname*{argmax}_\theta \prod_i P(x_i|\theta)$$

근데 0보다 작은 확률을 여러번 곱하면 급하게 0으로 수렴하므로 log를 씌워서 보통 사용하게 된다.

그러면 곱셈이 덧셈으로 바뀌어서 다음처럼 된다.

$$\theta_{MLE} = \operatorname*{argmax}_\theta \sum_i \log P(x_i|\theta)$$

이제 위의 식을 가지고 gradient descent 등으로 최적의 $\theta$를 찾는 식으로 활용한다.

해석2

보통은 확률P는 상수로 주어지고 이를 통한 계산을 하게되는데.. 거꾸로 P가 변수이고 P를 추정할 수 있는 샘플들만 주어질때 MLE문제가 된다.

즉, MLE문제에서 주어지는값은 표본들이요, 우리가 구하고자 하는 것은 P가 된다.

이때 P를 x축에 놓고 y축에 무언가를 설정한다음에 다음과 같이 y가 최대가 되는 p=x를 구하면 좋은데..

이때 y축에 놓는 값을 가능도(likelyhood)라고 한다.

그리고 위 그래프에서 가능도가 가장 큰 극점을 찾는걸 최대우도추정(MLE)라고 한다.


해석3

실제로는 p를 정규분포로 놓고 L을 극대화 하는 $\mu$와 $\sigma$를 찾는 식으로 많이 쓰이기 때문에 이에 대한 설명을 해보자.

해석1에서는 x축에 바로 p를 놓았지만 위처럼 p가 정규분포를 따른다고 가정하면 $\mu$와 $\sigma$에 대한 가능도 L의 다변수 함수로 모델링 할 수 있게 된다.

예를 들어 키를 5번 측정해서 178, 179, 180, 181, 182가 나왔을때.. 이를 가장 잘 표현하는 정규분포 $\mu$와 $\sigma$는 무얼까 하는 문제가 되는 식이다.

다음은 MLE로 모델링하고 구하는 과정이다.

1. 실제 모델이 정규분포를 따른다고 가정(이제 $\mu$와 $\sigma$를 구하는 문제로 바뀌었다.)

2. *$L(모델|샘플) = P(샘플|모델\mu, \sigma)$의 최대값을 구하는 문제가 되었다.

3. 특정 키에 대한 가능도, 즉 정규분포는 $\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$이다.

4. 여기에 5개의 독립시행 샘플을 넣고 가능도를 구하면 

$\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(178-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(179-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(180-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(181-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(182-\mu)^2}{2\sigma^2}}$

이렇게 된다.

이를 최대화 하는 $\mu$를 구해보면 180이 나온다.


* 여기서 사실은 L(모델|샘플).. 즉 주어진 샘플에 대해 가장 잘 설명하는 모델을 찾는 건데, 이 모델이 실제 전체 샘플에 대해 가장 좋은 모델인지는 좀 더 고민이 필요하다. 왜냐하면 만약에 주어진 샘플 들이 우연히도 굉장히 표준편차가 큰 것들이었다고 한다면, 이러한 샘플로 추정된 모델은 향후예측시 정답과 괴리가 있을것이다. 따라서 샘플들도 실제 향후 정답과 유사한 $\mu$와 $\sigma$를 가진다는 가정이 들어가게 되는데, 샘플수가 많아질수록 타당하다고 할 수 있을것이다.


아직 이해 안되는점

Q.$L(\theta|X) := P(X|\theta)$ 이렇게 정의한다고 해서 말이 되는 이유는 뭘까?

A. 여기를 보면 베이즈 정리를 사용해서 위처럼 정의안하고 하는 방법이 나오고, 그 이름이 MLE가 아니라 MAP임을 알 수 있다 .MLE는 MAP의 특수한 경우인것


위에서 $\sigma$도 자동으로 계산되나? 5번 측정한거의 $\sigma$를 쓰면 될거 같다는 생각은 드는데 정확히 모르겠다.


반응형

'수학' 카테고리의 다른 글

3D그래픽스 - 회전(Rotation)  (0) 2019.01.09
likelihood(가능도 = 우도)  (0) 2018.10.02
베이즈 정리(Bayes' theorem)  (0) 2018.09.27
독립사건, 독립시행  (0) 2018.09.27
조건부 확률  (0) 2018.09.27

먼저 여기여기를 보고 오는거 추천


조건부 확률의 정의에 의해서..

$P(A|B) = {P(A \cap B) \over P(B)}$

이렇게 되는데..


위 식을 $P(A \cap B)$에 대해서 다시 정리하면 $P(A \cap B) = P(A|B)P(B)$가 된다.

(A와 B가 독립이라면 $P(A \cap B) = P(A)P(B)$ 이렇게 간단하게 되지만.. 문제는 항상 그렇지 않다는것)

A와 B를 바꾸면 $P(A \cap B) = P(B|A)P(A)$

따라서

$P(A|B) = {P(A \cap B) \over P(B)} = {{P(B|A)P(A)} \over P(B)}$가 되고 이를 베이즈 정리라고 부른다.


유도자체는 참 쉬운데, 예제를 통해 직관적으로 파악하기는 어려운 편으로.. 한 번 예를 들어보자.

(아례 예제들은 여기서 가져왔다.)


예제1

두개의 노트북 조립라인을 가진 공장에서 생산된 1,000대씩의 노트북들을 같은 화물 창고에 쌓아 놓았다. 각각의 조립라인을 정밀하게 조사하여, 1번 조립라인에서 생산된 노트북의 10%가 불량이고, 2번 조립라인에서 생산된 노트북의 15%가 불량임을 알았다. 화물 창고의 노트북을 하나 꺼내 조사한 결과 불량이었을 때, 이 노트북이 1번 조립라인에서 생산되었을 확률은?


사건 1 = 1번공장에서 노트북이 나옴

사건 2 = 2번공장에서 노트북이 나옴

사건 불량 = 노트북이 불량임

으로 정의하면

문제에서 주어진 값들은 P(불량|1)=0.1, P(불량|2)=0.15 이다.

또한 P(1) = P(2) = 0.5임을 유추할 수 있다.


구하고자 하는 값은 P(1|불량) 이므로

베이즈 정리를 적용하면

$P(1|불량) = P(불량|1)P(1) / P(불량)$인데, 여기서 문제가 생겼다. $P(불량)$은 주어지지 않은 값이기 때문 ㅋ

근데 조금 까다롭지만 곰곰히 생각해보면 $P(불량) = P(불량 \cap 1) + P(불량 \cap 2)$임을 유추할 수 있다.


따라서 

$P(1|불량) = P(불량|1)P(1) / P(불량) = {{P(불량|1)P(1)} \over {P(불량 \cap 1) + P(불량 \cap 2)}} = {{P(불량|1)P(1)} \over {P(불량|1)P(1) + P(불량|2)P(2)}}$

가 되고,

P(1) = P(2) = 0.5이므로 약분시키고, 위에 알려진 숫자들을 다 대입하면, 

$P(1|불량) = {{P(불량|1)} \over {P(불량|1) + P(불량|2)}} = {0.1 \over {0.1 \times 0.15}} = 0.4$


답은 40%가 된다.



사후확률


- P(A) : A의 사전확률 (a prioi). 어떠한 사건에 대한 정보가 없을 때의 확률.

- P(A|B) : B에 대한 A의 사후확률 (posteriori). B라는 정보가 주어졌을 때의 확률.


반응형

'수학' 카테고리의 다른 글

likelihood(가능도 = 우도)  (0) 2018.10.02
MLE, 최대우도추정(Maximum Likelihood Estimation)  (0) 2018.09.27
독립사건, 독립시행  (0) 2018.09.27
조건부 확률  (0) 2018.09.27
조합  (0) 2017.11.08

사건 A와 B가 있을 때, 서로 영향을 주지 않으면 독립사건이라 한다.

이 경우 $ P(A \cap B) = P(A)P(B)$ 이다.


주의할 점은 좀 헷갈릴수도 있다는 점이다.


다음 예를 보자.


사건A를 주사위 하나를 던져서 짝수가 나오는 경우라 하고,

사건B를 주사위 하나를 던져서 4의 배수가 나오는 경우라 하자.


사건 A와 사건 B는 서로 독립일까?

일견 각각의 주사위를 던지는 이벤트는 독립시행이므로 독립사건으로 보인다. 


하지만 $P(A \cap B)$를 계산해보면, 

$P(A) = 1/2,  P(B) = 1/6$ 이지만 $P(A \cap B)$는 둘을 곱한 1/12이 아님을 알 수 있다.

왜냐하면 4의 배수인 경우는 무조건 짝수이기도 하기 때문에

짝수이면서 4의 배수가 될 확률은 그냥 4의 배수가 될 확률인 1/6이 되기 때문이다.

결론적으로 A와 B는 독립이 아니고 종속사건이 되겠다.


독립시행과 독립사건의 차이에 대해서는 여기를 참조하면 좋다(내용은 긴데 읽어볼만 하다)


독립시행인 경우는 두 번 던져서 앞에는 짝수가 나오고 뒤에는 4의 배수가 나온다는 개념으로 $P(A \cap B)$가 아닌 $P(A \times B)$로 표시하고, 그냥 곱하면된다.

P(A)P(B) = 1/12. 즉 독립시행시 확률을 묻는 문제였으면 답이 1/12가 맞다.

반응형

'수학' 카테고리의 다른 글

likelihood(가능도 = 우도)  (0) 2018.10.02
MLE, 최대우도추정(Maximum Likelihood Estimation)  (0) 2018.09.27
베이즈 정리(Bayes' theorem)  (0) 2018.09.27
조건부 확률  (0) 2018.09.27
조합  (0) 2017.11.08

두 사건 A, B에 대해서 사건 B가 일어난 조건 하에서 사건 A가 일어날 확률은 다음과 같다.

$P(A|B) = {P(A \cap B) \over P(B)}$


벤다이어그램으로 표현하면 다음과 같다.

(근데 확률을 벤다이어그램으로 표현하는건 사실 굉장히 위험한 발상이다.

제대로 하려면 확률공간 안의 사건들을 정의하고 모든 사건들을 벤다이어그램에 넣고 카운팅하는 방식이 되어야 한다.)



예를 들어보자면

"한 개의 주사위를 던져서 홀수의 눈이 나왔을 때, 그 눈이 3의 배수일 확률을 구하라"


A사건을 홀수눈이 나오는 사건, B사건을 3의 배수가 나오는 사건으로 정의하면

P(A) = 1/2, P(B) = 1/3 이다.


A와 B는 독립사건이므로

$P(A \cap B) = P(A)P(B) = 1/2 \times 1/3 = 1/6$ 이고


조건부 확률을 맨 위 식을 따라서 구해보면 $P(B|A) = 1/6 \div 1/2 = 1/3$이 된다.


근데 사실 위에서 A와 B는 결산결과(?) 독립사건인거지, 주사위에 대한 모든 사건 A와 B가 독립이지는 않다 ㅋㅋ

독립이지 않은 예에 대해서는 여기 참조





반응형

'수학' 카테고리의 다른 글

likelihood(가능도 = 우도)  (0) 2018.10.02
MLE, 최대우도추정(Maximum Likelihood Estimation)  (0) 2018.09.27
베이즈 정리(Bayes' theorem)  (0) 2018.09.27
독립사건, 독립시행  (0) 2018.09.27
조합  (0) 2017.11.08

+ Recent posts