여기 참조


이항분포처럼 확률이 정해진 독립사건을 여러번 시행했을때를 다룬다. (예를 들면 동전이나 주사위)

베르누이는 이항분포의 특수한 사례에 속하며 이항분포에서 반복실험 횟수 n에 1을 대입하면 베르누이분포가 된다.


동전을 던졌을때 앞면이 나올 확률을 $\theta$라고 하고, 앞면이 나오는 사건을 y=1, 뒷면이 나오는 사건을 y=0으로 표기하면 


동전의 앞면이 나올 확률은 $p(y=1|\theta)=\theta$가 되고 뒷면이 나올 확률은 $p(y=0|\theta)=1-\theta$가 됨을 알 수 있다.


앞면뒷면 사건을 1,0으로 정의한 덕분에 동시에 합쳐서 다음과 같이 표현할 수 있다.


$$p(y|\theta) = \theta^y(1-\theta)^{(1-y)}$$


위식이 바로 베르누이 분포를 나타낸다.


성공과 실패두가지 밖에 없으므로 이산확률분포가 되며 그 모양은 여기를 참조



동전 던지기 N번 실행해서 z번 앞면이 나오는 경우는 다음처럼 표현이 가능하다.


$$p(z,N|\theta) = \theta^z(1-\theta)^{(N-z)}$$

반응형

여기 참조


직관

베타분포는 베르누이분포의 모수(모델 또는 파라미터) $\theta$를 추정하는데 쓰인다.

동전던지기를 예로 들면 베르누이 분포는 다음과 같이 되는데..


$$p(y|\theta) = \theta^y(1-\theta)^{(1-y)}$$

우리가 궁금한것은 모델이 주어졌을때의 샘플의 확률이 아니라, 거꾸로 샘플이 주어졌을때 어떤 모델($\theta$)이 적합한가이기 때문에, (ML적인 관점에선 당연하고 학습과정이 곧 이것)

거꾸로 $p(\theta|y)$에 관심이 있고 구해야하는 값이다.

그런데 베이즈 정리에 따르면 

$P(\theta|y) = {{P(y|\theta)P(\theta)}\over{P(y)}}$가 되고, 다음과 같은 의미로 해석한다.

$$사후확률(posterior) = {{가능도(likelihood) \times 사전확률(prior)}\over{증거(evidence)}}$$


즉 우리가 학습을 한다는 것은 사후확률을 구한다고도 얘기할 수 있는데, 이때 베타함수 형태로 가정하면 식을 세우기 편하다고 직관적으로 보면 딱 좋을것 같다.

(즉 무조건 사후확률이 베타분포가 된다는게 아니라 베타분포로 가정한다는걸 이해하는게 중요)


베타함수

베타함수는 두변수(x, y)에 대한 다변수 함수이며 다음과 같이 정의된다.


x>0, y>0일때

$$B(x, y) = \int_0^1 t^{x-1}(1-t)^{y-1}dt$$


보통 팩토리얼이 감마함수로 일반화 되듯이,

조합(Combination)의 일반화로 이야기 된다.


조합은 이항계수라고도 하고 n과 k가 자연수일때 다음과 같이 정의된다.


$$_nC_k = {n \choose k} = {{n!}\over{k!(n-k)!}}$$


보면 자연수일때도 팩토리얼이 들어가므로, 실수, 복소수로 확장하게 된다면 감마함수가 들어가는게 자연스러울 거란걸 알 수 있다.

베타함수는 감마함수를 쓰면 다음과 같이 된다.


$$B(x,y) = {{\Gamma(x)\Gamma(y)}\over{\Gamma(x+y)}}$$

근데 위 식을 보면은 감마함수의 경우는 팩토리얼과 아주 유사하게 되어 있는데 이항계수식과 베타함수를 보면 분모분자도 바뀌어 있는것 같고 뭔가 정확히 같아보이진 않는다.

실제로 m과n이 자연수일때 둘간의 관계를 나타내 보면 다음과 같이 서로 역수 형태임을 알 수 있다.


$$B(m,n) = {1\over{m\cdot _{m+n-1}C_{n-1}}}$$

$${n \choose k} = {1\over{(n+1)B(n-k+1,k+1)}}$$


베타분포

역시나 감마함수가 감마분포가 될 때와 마찬가지로 적분값을 1.0으로 만들기위해 역수로 나눠주는 과정이 들어가 있다.

$\alpha, \beta$에 따른 분포의 모양은 위와 같다.


반응형

여기, 여기 참조함


MLE의 경우를 생각해보면 우리는 샘플들을 보고 그 샘플들을 가장 잘 설명하는 모델을 찾아나가게 된다.

MLE가 아니라 전반적인 ML이란 것 자체가 샘플(학습인풋)들을 보고 그 샘플을 가장 잘 설명하는 모델(딥러닝 웨이트 등)을 찾는 과정이라는 점에서 동일함을 알 수 있다.


근데 이 샘플을 주어진 샘플을 사용하는게 아니라 generation해야 한다고 생각해보면 어떻게 될까?

예를 들어 $\pi$를 구하는 몬테카를로의 경우 사각영역안에서 uniform random으로 좌표를 찍어서 샘플링을 하게된다.

이런 uniform random sampling의 경우는 간단한데..

uniform하지 않고 특정 확률분포를 따르는 경우는 복잡해지기 시작한다.

그리고 샘플이 보통 1차원이 아니라 n차원이 되는데(딥러닝 인풋이 n개면 n차원으로 볼 수 있다)

이런경우에 각각의 차원이 별도의 확률분포를 가지는 경우 샘플링이 상당히 힘들어지게 된다.


깁스 샘플링은 이러한 경우에 한번에 하나의 차원씩 샘플링하면서 만들어 나가는 방법론인걸로 일단 파악중이다.

(자세한건 전혀 모름)




반응형

직관

단일변수에 대한 z검정 또는 t검정은 귀무가설과 대립가설을 세우고, 표준정규분포 또는 t분포와 p-value를 통해서 유의성을 검증하는데,


아래와 같이 두 변수의 연관성에 대한 검증을 할때는, 정규분포 또는 t분포가 아닌 카이제곱분포를 따르는것이 알려져 있으며,

정규분포 또는 t분포가 아닌 카이제곱분포를 사용한다는 것만 다르고 다음처럼 p-value를 통한 유의성을 보고 대립가설을 채택할지 말지를 결정하는 나머지 과정은 유사하다.

위 예시에 대한 자세한 내용은 여기를 참조하자.
보면 알겠지만 위의 2x2 테이블에 대해서 하나의 카이제곱값이 계산되며, 이 값이 카이제곱분포에 대한 확률밀도함수의 x위치가 됨을 알 수 있다.


상세


카이제곱 검정을 이해하기 위해서는 카이분포를 먼저 이해해야 한다.


카이분포를 이해하기 위해서는 정규분포감마분포를 이해해야 한다.


감마분포는 아래 감마함수와 연관되어 있고, 팩토리얼을 실수 및 복소수까지 일반화한 바로 그 함수이다.


감마분포는 확률밀도함수 형태여야 하므로 감마함수에서 전체 적분값이 1.0이 되도록 맞춰주면 나온다.

(감마함수 -> 감마분포 부분 설명이 좀 부실한듯 하다.. 나중에 보강하자)


근데, 정규분포에서 평균m과 표준편차 $\sigma$가 파라미터로 추가되듯, 여기서도 감마분포의 특성을 고려해 알파,베타 파라미터를 추가하면 다음과 같다.


위처럼 감마분포는 보통 x>0 인 구간에 대해서만 사용하는 것 같다. (정규분포는 모든 x구간 사용)


파이선에서 알파,베타를 바꿔가면서 감마분포를 그려보면 다음과 같다 (scipy.stat의 gamma.pdf 사용)


$\beta$가 커질수록 그래프는 더 퍼지는 형태를 띠게 되고, $\alpha$가 커질수록 bell shape에 가까운 모양이 됨을 알 수 있다.


카이제곱분포는 감마분포에서 , β= 2로 고정한 특별한 경우이다 .

자유도가 r인 카이제곱분포는 감마분포 $\Gamma({r\over 2},2)$에 해당되며, 확률밀도함수는 다음과 같다.



이 분포를 자유도가 r인 카이제곱분포(chi-square distribution)라하고, 기호로는 $X \sim \chi^2(r)$로 나타낸다. 여기서 r > 0 이다.
즉, 카이제곱 분포와 감마분포 간에는 다음의 관계가 성립한다.
$$\chi^2(r) = \Gamma({r\over 2},2)$$

파이선 코드로 카이제곱분포와 감마분포함수를 각각 사용해서 같은지 그려보면 다음과 같이 실제로도 같음을 알 수 있다.(아래에서는 r대신 v로 표현)



TODO

* 감마분포의 자연스러운 사용 예제

* 카이제곱검정에서 셀을통한 계산을 하면 카이제곱분포의 x값이 나오는 정확한 이유

반응형

동의어: 가우시안 분포


여기좋다.


본 글은 따라가다 보면 정규분포가 자연스럽게 이해되도록 의식의 흐름대로 작성되었습니다. 


관련함수

먼저 다음 함수를 보자


$f(x) = e^{-x^2}$


벨커브 모양을 그린다는걸 알 수 있다.

다음처럼 상수 a,b,c를 써서 살짝 만져주면 가우스함수가 된다.
$f(x) = ae^{-{{(x-b)^2}\over{c^2}}}$

매개변수 a는 곡선의 꼭대기 높이가 되며, b는 꼭대기의 중심의 위치가 된다. c는 종의 너비를 결정한다.


여기서 평균과 표준편차와 관련되도록 다음처럼 a,b,c값을 살짝 살짝 또 만져주면서 대입하면 드디어 정규분포에 관련된 함수가 된다.

$f(x)=\frac 1 {\sqrt{2\pi} \sigma} e^{-\frac {(x-m)^2 }{2\sigma^2}}$

좀더 정확히는 정규분포를 따르는 확률변수의 확률밀도함수이다. (대충 넘어가자)

확률밀도 함수이므로 적분값이 1.0이 되도록 살짝 살짝 만진것이다.


정규분포를 따르는 예시에 대해서는 여기를 참조하자(동전, 주사위 등)


표준정규분포 = 평균이 0이고 표준편차가 1인 정규분포(위 식에서 평균에 0, 표준편차에 1을 대입하면 된다.)

$f(x)=\frac 1 {\sqrt{2\pi} } e^{-\frac {x^2 }{2}}$


반응형

여기, 여기, 여기, 여기 참조했음


개요

귀무가설(H0)이란 관습적이고 보수적인 주장, 통념. 

대립가설(H1)이란 귀무가설과 반대 주장, 때에 따라 우리가 입증하려는 주장이 된다.


신뢰수준(=신뢰도) : 귀무가설을 선택할수 있는 수준( 0 ~ 100% )

유의수준($\alpha$): 귀무가설을 기각할 수 있는 수준 ( 0 ~ 100%), 둘이 더하면 항상 100%(=1.0)가 된다.

예를 들어, 신뢰수준 90%라면 유의수준은 10% 즉 0.1이 된다.


신뢰도나 유의수준은 실험자가 임의로 정하는 값이다.

예를 들면, 샘플링한 데이터가 신뢰도95%에서 유의미한지 검정하겠다. 라고 정하는 식이다.

즉, 일종의 threshold 개념이고, 신뢰수준이 아닌 유의수준에서 설정한 이 threshold를 알파라고 부른다.

신뢰도95%라면 유의수준은 5%이므로 $\alpha$는 0.05가 된다.


p-value는 귀무가설이 맞다는 전제하에 관측된 통계값 보다 더 희귀할 확률을 의미한다. 

따라서 p-value가 너무 낮다면 그렇게 낮은 확률이 실제로 일어났다고 생각하기 보다는 귀무가설이 틀렸다고 생각하게 된다. 

그래서 귀무가설을 기각하고 대립가설을 채택하게 된다. 


여기서 통계값이란, 관측된 샘플데이터에 대해서 일종의 표준편차를 구하는 작업으로, 다음과 같이 구한다.

정규분포                                t분포        

 .                           


즉, 다시 정리하면

유의수준($\alpha$) 은 실험자가 선정한 스레시홀드이며,

유의확률(p-value)이란 관측된 샘플데이터를 바탕으로 구한 값으로, 낮을수록 엄밀하지 않게는 귀무가설이 틀리고, 대립가설이 맞을 확률이 높다고 해석할 수 있다.

(즉 실험자가 원하는 것이 대립가설의 검정이라면 p-value가 낮으면 낮을수록 우연이 아닌것이 되므로 좋다)

자료로부터 얻은 p값 < 유의확률($\alpha$) 이라라면 해당 귀무가설을 기각(타파)할 수 있으며 가설검정 성공


z-test(z검정) 예제

A나라의 평균수명은 70세라고 통상 알려져 있습니다. 실제로 평균 수명이 70세인지 아닌지 검정하고 싶습니다.


Q) 귀무가설과 대립가설은?

A)

귀무가설:  A나라의 평균수명의 통념대로 70세 이다. 

대립가설:  A나라의 실제로 평균 수명이 70세가 아니다. 

(이때 대립가설을 70세가 아니다 라고만 하면 양방향, 70세 초과다 또는 70세 미만이다 라고 하면 한방향이 된다.)


Q) 샘플링한 데이터를 t-test를 진행한 결과 p-value가 0.04로 나왔습니다.

     유의수준 5%에서 검정하세요. 

A)

대립가설채택근거는 t-test (두 집단의 평균 차이 확인시 사용)결과 p-value = 0.04로

유의확율인 0.05보다 작아 귀무가설은 기각하고, 대립가설을 채택할 수 있다.




t-test(t검정)

위에 설명은 표본이 실제 모집단의 정규분포를 따른다는 가정을 하고 있는데, 실제로는 정규분포가 아니라 t-분포를 따른다고 한다.

그리고 당연히 샘플수가 많아지면 많아질수록 정규분포에 가까워지기는 한다.


t분포의 특성


1) t분포는 표준정규분포처럼 0을 중심으로 종형의 모습을 가진 대칭 분포이다. 

2) t분포의 꼬리는 표준정규분포보다 두껍다(fat tail). 

3) t분포는 자유도 n에 따라 모습이 변하는데, 자유도 n이 커짐에 따라 표준정규분포 N(0,1)에 수렴한다.


통계적 추론에서는 통상 모집단의 분산이 알려져 있지 않은 경우, 표분분포를 결정할 때 표본의 크기가 30 이하이면 t분포를, 그 크기가 30 이상이면 표준정규분포를 이용한다고 하는데, 이는 바로 위에서 설명된 특성 3) 때문이다. 


반응형

'수학 > 통계' 카테고리의 다른 글

베르누이 분포(bernoulli distribution)  (0) 2019.06.27
베타함수, 베타분포  (0) 2019.06.27
깁스 샘플링(Gibbs Sampling)  (0) 2019.06.26
카이제곱 검정(chi-squared test)  (0) 2019.06.21
정규분포  (1) 2019.06.20

+ Recent posts