직관

단일변수에 대한 z검정 또는 t검정은 귀무가설과 대립가설을 세우고, 표준정규분포 또는 t분포와 p-value를 통해서 유의성을 검증하는데,


아래와 같이 두 변수의 연관성에 대한 검증을 할때는, 정규분포 또는 t분포가 아닌 카이제곱분포를 따르는것이 알려져 있으며,

정규분포 또는 t분포가 아닌 카이제곱분포를 사용한다는 것만 다르고 다음처럼 p-value를 통한 유의성을 보고 대립가설을 채택할지 말지를 결정하는 나머지 과정은 유사하다.

위 예시에 대한 자세한 내용은 여기를 참조하자.
보면 알겠지만 위의 2x2 테이블에 대해서 하나의 카이제곱값이 계산되며, 이 값이 카이제곱분포에 대한 확률밀도함수의 x위치가 됨을 알 수 있다.


상세


카이제곱 검정을 이해하기 위해서는 카이분포를 먼저 이해해야 한다.


카이분포를 이해하기 위해서는 정규분포감마분포를 이해해야 한다.


감마분포는 아래 감마함수와 연관되어 있고, 팩토리얼을 실수 및 복소수까지 일반화한 바로 그 함수이다.


감마분포는 확률밀도함수 형태여야 하므로 감마함수에서 전체 적분값이 1.0이 되도록 맞춰주면 나온다.

(감마함수 -> 감마분포 부분 설명이 좀 부실한듯 하다.. 나중에 보강하자)


근데, 정규분포에서 평균m과 표준편차 $\sigma$가 파라미터로 추가되듯, 여기서도 감마분포의 특성을 고려해 알파,베타 파라미터를 추가하면 다음과 같다.


위처럼 감마분포는 보통 x>0 인 구간에 대해서만 사용하는 것 같다. (정규분포는 모든 x구간 사용)


파이선에서 알파,베타를 바꿔가면서 감마분포를 그려보면 다음과 같다 (scipy.stat의 gamma.pdf 사용)


$\beta$가 커질수록 그래프는 더 퍼지는 형태를 띠게 되고, $\alpha$가 커질수록 bell shape에 가까운 모양이 됨을 알 수 있다.


카이제곱분포는 감마분포에서 , β= 2로 고정한 특별한 경우이다 .

자유도가 r인 카이제곱분포는 감마분포 $\Gamma({r\over 2},2)$에 해당되며, 확률밀도함수는 다음과 같다.



이 분포를 자유도가 r인 카이제곱분포(chi-square distribution)라하고, 기호로는 $X \sim \chi^2(r)$로 나타낸다. 여기서 r > 0 이다.
즉, 카이제곱 분포와 감마분포 간에는 다음의 관계가 성립한다.
$$\chi^2(r) = \Gamma({r\over 2},2)$$

파이선 코드로 카이제곱분포와 감마분포함수를 각각 사용해서 같은지 그려보면 다음과 같이 실제로도 같음을 알 수 있다.(아래에서는 r대신 v로 표현)



TODO

* 감마분포의 자연스러운 사용 예제

* 카이제곱검정에서 셀을통한 계산을 하면 카이제곱분포의 x값이 나오는 정확한 이유

반응형

+ Recent posts