(Bayes 학습)(4) P-value, 표집분포, 가설 검증

“아빠, (카이 자승)은 어떻게 계산하고, 어디다 쓰는 거야?” 자동차를 타고 가면서 막내가 물었다. 카이 자승을 한참 설명하고 났더니, 다음에는 p-value가 무어냐고 물었다. 막내의 통계학 공부가 드디어 기술통계(descriptive statistics)에서 추론통계(inferential statistics)로 넘어가는 단계인 모양이다. 사실 그 때가 통계학을 배우면서 가장 혼란스런 순간이기도 하고 가장 중요한 순간이기도 하다. 그래서 추리통계의 기초를 좀 정리해 보았다.

우리가 통계학을 배우는 근본적인 이유는 불확실성의 세계 혹은 미지의 세계를 체계적으로 탐색하기 위해서이다. 평균적으로 우리 나라 고등학생들의 키는 얼마나 될까 라는 의문을 생각해보자. 우리 나라 고등학생들의 키를 모두 재서 평균을 내면 될 것이다. 문제는 그것이 현실적으로 불가능하다는 데 있다. 고등학생 전체 숫자가 한 1백50만명은 될텐데, 그들의 키를 무슨 수로 다 잴 것인가? 전체 학생수가 많기도 하지만 학교에 결석하는 학생들도 적지 않을 테니 말이다. 고등학생들의 평균 신장은 근본적으로 미지의 모수(unknown parameter)이다. 그것을 라고 하자.

미지의 모수인 는 결코 정확히 알 수 없다. 다만 그것의 근사값이 추정될(inferred) 수 있을 뿐이다. 가장 좋은 추정 방법은 고등학생들을 몇 백명 정도 무작위 표집해서 그들의 키를 재고 그 통계치(sample statistics)를 가지고 를 추정하면 될 것이다. (참고로 무작위 표집(random sampling)이란 모든 고등학생들이 뽑힐 확률이 동일하다는 조건을 만족시키면서 추출해야 한다는 의미이다. 사실 이것도 쉽지 않은 작업이다.) 예컨대 무작위로 4백명()을 뽑아서 그들 키의 평균()과 표준편차()를 계산했더니, 각각 168cm, 13cm였다고 하자. 우리는   라는 알고 있는 표본정보(known sample statistics)를 가지고 미지의 모수(unknown population parameter) 를 추정할 수 있다. 추리 통계(inferential statistics)란 바로 그러한 추정을 가능하게 해주는 학문적 지식이다.

통계적 추론을 위해서는 몇 가지 기본 지식이 필요하다. 그 중 첫째가 중앙집중한계정리(central limit theorem)이다. 중앙집중한계정리란 아래와 같다.

표본의 크기()가 충분히 크면,  평균()의  확률분포[표집분포(sampling distribution)라고 부른다]는 모집단 분포의 모양과 상관없이 정규분포(normal distribution)를 이룬다. 그 분포의 평균은 이고, 분산은  이다.

중앙집중한계정리를 그림으로 표시하면 아래와 같다.

Central Limit Theorem ... | Limit theorems, Statistics math ...

이 그림에서 파란색으로 된 그래프가 모집단의 분포이고, 붉은색으로 된 그래프가 표집분포이다.

그런데 표집분포(sampling distribution)가 무엇인가? 적지 않은 학생들이 표집분포에서 좌절하고 만다. 일종의 가상적 상황이 도입되기 때문이다. 표집분포란 반복해서 표본을 추출한다(표본추출은 실험으로 간주될 수 있다)고 가정했을 때 우리가 얻게 되는 평균()의 확률분포이다. 표본을 반복해서 추출하다니….한 번 뽑는데도 얼마나 비용이 많이 드는데….그러니 가상적인 상황이다. 표본추출이 실험이니 그 ‘실험’의 결과인 평균은 확률변수이고 그것의 확률분포가 정규분포라는 것이다(아래 그림 참조). 전통적인 통계학에서 이 가상적인 분포를 가지고 추론(혹은 추정)을 한다. 표집분포중앙집중한계정리의 힘을 빌리지 않으면 추론이 불가능하다.

정규분포의 모양은 잘 알려져 있다. 를 중심으로 1 (표준편차의 1배)까지의 면적은 전체 면적의 34.1%이고, 2(표준편차의 2배)까지의 면적은 47.7%, 3(표준편차의 3배)까지의 면적은 49.8%이다. 를 중심으로 양쪽을 모두 고려한다면, 좌우대칭이기 때문에 의 면적은 전체 면적의 68.2%, 의 면적은 95.4%, 의 면적은 전체 면적의 99.6%이다. 기억하겠지만 정규분포에서 표준편차의 배수를 나타내는 도구는  값(z-value) 혹은  값(t-value)이다. 모집단의 분산()을 모르면  값을 사용한다.  값이 2이면 양쪽 면적이 95.4%이다. 양쪽 면적이 전체 면적의 95%가 되는  값은 1.96이다.

File:Standard deviation diagram.svg - Wikimedia Commons

z 값이나 t 값의 확률(밀도)은 정규분포의 확률밀도함수를 적분해서 구해야 하기 때문에, 복잡한 수학적 계산을 피할 수 있게 해주기 위해 자주 사용되는 z 값이나 t값에 관한 확률(Pr (Z  z))이 표로 만들어져 통계학 책의 부록으로 실려 있다.

요즘에는 표 대신 스마트폰 어플을 이용해서도 쉽게 구할 수 있다.  미국 아이오아대학교 통계학과 Mattew Bognar 교수가 Probability Distributions라는 어플을 무료로 제공하고 있다. (그가 운영하는 웹사이트에서 애플릿을 이용해서도 계산할 수 있다. http://homepage.divms.uiowa.edu/~mbognar/applets/normal.html)

통계적 추론을 위해서는 몇 가지 개념이 더 필요하다. 신뢰수준(confidence level), 영가설(null hypothesis), p-value, 자유도(degree of freedom),  검증 정도는 정확히 이해해야 한다. 그래야 상관관계분석, ANOVA, 교차표(cross-table) 분석, 회귀분석 등을 기초적인 수준에서나마 수행할 수 있다.

신뢰수준이란 연구자가 어느 정도의 확신을 가지고 추정(혹은 검정)을 할 것인가에 대한 기준이다. 확신의 기준이 높을수록 실수할 가능성도 높아질 것이다. 예컨대 불확실한 현상에 대해 다른 조건이 동일하다면, 100% 확신을 가지고 추정하면, 90% 확신을 가지고 추정할 때보다 실수할 가능성이 높다. 실수할 가능성을 낮추려면 확신의 기준을 낮춰서(다시 말해, 좀 넉넉하게) 추정해야 한다.

우리가 95% 신뢰수준(confidence level)에서 모집단의 평균 를 추정하면,

 …….(1)

이 될 것이다. 이 식에서 는 우리가 가진 표본의 평균이고,  가 0.025(양쪽을 합치면 0.05이다)이 되는 값으로 1.96이다 (는 유의수준(significance level)인데, 그것은 영가설이 진실인데도 기각할 확률을 의미한다.   =1-신뢰계수이다. 95% 신뢰수준은 신뢰계수가 0.95이다). SE (Standard Error)는 표본의 표준편차와 표본의 크기를 가지고, 즉, 으로 추정할 수 있다. 식 (1)을 다시 쓰면,

…….(2)(* 이 식이 어디에서 왔는가를 이해하려면 z-value와 t-value를 복습할 것)이 된다.

이 공식을 우리의 평균키 사례에 적용해 보자.

를 대입하면,

이다. 식을 정리하면,

즉, 우리나라 고등학생들의 평균키()는 95% 신뢰수준에서 166.7cm와 169.3cm 사이라고 추정된다.

통계학은 가설(hypothesis)을 검증하기 위해 자주 사용된다. 가설이란 어떤 연구문제에 대한 잠정적인 답변이다. 잠정적이라는 표현은 그것의 검증이 요구된다는 의미이다. 검증을 위해서는 영가설(null hypothesis)대립가설(alternative hypothesis)를 세운다. 영가설이란 문자 그대로 변수들 사이에 서로 관계가 없다든가 어떤 실험 처지(treatment)의 효과가 없다는 의미로 사용된다. 영가설은 흔히 이라고 표기된다. 대립가설은 변수들 사이에 관계가 있다 혹은 실험 처지의 효과가 있다는 의미로 사용되며, 흔히 로 표기된다.

왜 영가설 따위가 필요한가? 다소 복잡한 철학적 이유까지 있기는 하지만 단순화시켜서 말하자면 경험과학이 지닌 검증의 한계 때문이다. 경험과학은 귀납법을 사용해서 자신의 주장(가설로 표현된다)을 입증한다. 그런데 아무리 데이터를 많이 제시해도 단 한 개의 예외만 발견되면(그리고 현실에서는 그런 경우가 아주 많다) 검증 결과는 바로 공격받게 된다. 즉, 경험과학에서는 가설(그것이 대립가설이든 영가설이든)이 참일 확률을 계산할 수 없다. 오직 가능한 것은, 영가설이 참일 때 우리가 손에 든 데이터를 얻을 확률을 계산할 수 있을 뿐이다. 그것이 곧 p value (p 값)이다.

이렇게 경험과학에서는  자기의 주장을 직접 검증하지 못하고 우회적으로 검증할 밖에 없다. 영가설 검증을 통해서 대립가설을 우회적으로(어떻게 말하면 겸손하게) 검증하는 것이다. 영가설은 기각하거나(reject) 기각에 실패한다고(fail to reject) 표현한다. 만약 영가설을 기각하면, 데이터가 대립가설, 즉, 자신의 주장을 지지한다(support)고 결론을 내리고, 영가설을 기각하는데 실패하면, 데이터가 대립가설, 즉, 자신의 주장을 지지하지 않는다(not support)고 결론을 내리게 된다.

P-value는 통계학에서 매우 중요한 개념이다. 그것은 바로 영가설이 진실일때 우리가 통계치(sample statistics)나 그보다 더 극단적인 값(extreme value)을 얻을 확률()을 가리킨다. 그림으로 나타내면 아래와 같다.

위 그림은 확률분포인데 진한 회색으로 된 부분이 p-value이다. P-value가 아주 작으면 영가설이 진실일 때 통계치나 그 이상의 극단적인 값을 얻을 확률이 아주 작다. 다시 말해 영가설이 진실일 가능성이 아주 낮다. 만약 p-value가 연구자가 설정한 신뢰수준, 예컨대 95%(0.05)보다 작으면 영가설이 기각된다. 반대로 p-value가 신뢰수준의 값, 0.05보다 크면 영가설을 기각하는데 실패한다.

글이 너무 길어졌다. 다음 글에서 자유도(degree of freedom)와  검증에 관해 알아보자.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.