가설검정의 원리(요약)

조사연구자는 어떤 모집단의 구조나 특성 혹은 트렌드에 관심을 갖는다. 그것을 전문가들은 흔히 모수(퍼라미터, parameter)라고 부른다. 모수를 추정하거나 모수에 대한 가설을 검정하는 작업은 모두, 한 마디로 모수를 알아내려는 노력이다. 모수를 파악한다는 것은, 사회과학자들에게는 사회조직과 사회 전체를 이해하는 것을 의미하며, 자연과학자들에게는 자연과 우주를 이해하는 것을 의미한다. 모수 추정과 가설 검정은 그만큼 커다란 무게를 지닌다.

가설(hypothesis)이란, 조사연구자가 연구 대상 모집단에 대해 갖고 있는 인식–그것은 이론일수도 있고, 선입견일 수도 있으며, 막연한 추측일 수도 있다–을 압축적으로 표현한 명제이다. 가설이 진실(truth) 혹은 현실(reality)로 인정받기 위해서는 반드시 경험적 데이터(혹은 사실들, facts)에 의해 검증되어야 한다. 그것이 실증과학의 입장이다.

특히 신실증주의 과학관에 의하면 어떤 연구 가설이나 이론도 경험적 데이터에 의해 직접 증명될 수 없다. 경험적 데이터는 오직 우회적인 방법에 의해서만 가설에 대해 발언할 수 있을 뿐이다. 우회적 방법이란, 연구 가설(그것을 대립가설, alterative hypothesis 로 둔다)에 반대되는 영가설(null hypothesis), 을 설정하고, 그 다음 경험적 데이터를 가지고 그 영가설을 검증하여 연구가설(대립 가설)을 에 대한 판단을 내리는 방식을 말한다.

관련 이미지

대부분의 경우 조사연구자는 모집단 전체를 조사할 수 없다. 거기에 들어가는 막대한 비용이나 시간을 감당하기 어렵기 때문이다. 그래서 소규모의 표본을 추출하여 설문조사를 하거나 실험을 시행하여 경험적인 데이터를 수집한다.

표본 데이터가 수집되면, 표본통계치를 구하여 영가설을 검증한다. 모평균에 대한 가설을 검증하는 경우를 살펴보면, 표본평균()을 구하고, 그 표본통계치가 (표본평균의) 표집분포의 중심으로부터 얼마나 멀리 떨어져 있는지를 계산한다. 그리고 그 거리()가 표준오차()의 몇 배인가를 계산한다. 그것이 표본통계치 z-값이다. 표집분포의 중심은 영가설로부터 추정된 이며, 표준오차는, 모집단의 표준편차()를 알고 있는 경우 공식  을 사용하여 구할 수 있다. z-값은 아래 공식으로 구해진다.

z-값을 구하면, 통계 소프트웨어를 이용하여 손쉽게 p-값을 구할 수 있다. p-값은 영가설이 참일 때 그것을 기각할 확률(제1종 오류)이다. 다시 말하면, 그것은 영가설이 참일 때, 표본조사를 통해서 우리 손에 들어온 표본통계치를 얻을 확률이다.

조사연구자는 미리 자신이 어느 정도의 확신을 갖고 영가설에 대한 판단을 내릴 것인지를 결정해 둔다. 즉, 분석을 시작하기 전에 신뢰수준을 결정해 둔다. 통상 95% 신뢰수준을 선택한다. 그러면 신뢰계수가 0.95이고, 유의수준()은 0.05이다. 유의수준은 영가설에 대한 판단을 내릴 때 조사연구자가 통제하는 제1종 오류이다. 즉, 표본통계치의 제1종 오류(p-값)가 그 기준을 넘지 않으면 영가설을 기각한다. 영가설이 참일 가능성이 작기 때문이다. 이를 간략히 표현하면,

1) 유의수준() 설정(통상 0.05)

2) p-값 계산: 아래 순서로 구한다.

3) 수준과 -값을 비교하여 영가설에 대해 판단한다.

p-value and hypothesis testing에 대한 이미지 검색결과

위의 두 번째 단계에서 모분산(모표준편차 )을 모르면 -분포를 사용해야 하기 때문에 -값을 구한다. 양측검정을 해야 하는 경우에는 -값의 단측검정에 해당되는 p-값을 구하고 그것을 2배한다.

위의 세 번째 단계에서 p-값 < 수준이면, 영가설을 기각하고, 반대로 p-값 > 수준이면, 영가설 기각에 실패한다.

이상으로 가설검정과 p-값에 대한 설명을 마친다. 편의상 모평균의 검정만을 다루었지만 이 논리는 모든 모수의 통계적 유의성(statistical significance) 검정에 적용된다. 즉, 모비율의 유의성 검정, 분산분석, 상관계수의 유의성 검정, 회귀계수의 유의성 검정, 카이자승() 검정 등 어떤 유의성 검정에서도, 유의수준을 설정하고,  p-값을 계산한 다음, 유의수준과 p-값을 비교하여 통계적 유의성을 판단한다. p-값을 구하는 과정이 다를 뿐이다.

한 마디로, 유의수준과 p-값의 비교는, 표본조사에서 발견된 차이가 단순히 표집으로 인해 우연히 발생한 것인지 아니면 정말로 모집단에 존재하는 차이 때문인지를 보여준다. 그것이 모든 가설 검정과 (통계적) 유의성 검정을 관통하는 핵심적 원리이다. (2019-10-17)

모수 추정의 원리

통계학에서 모수 추정이란 무엇일까? 잠시 상상해 보자. 만약 우리가 어떤 사회현상–대통령 후보의 지지율, 남북관계에 대한 입장, 입시정책에 대한 생각 등–을 조사한다면, 모집단 전체(성인 전체나 유권자 전체)를 전수 조사할 가능성은 거의 없을 것이다. 그럴 예산도 없고 시간도 없을 것이며,  사실 그럴 필요도 없기 때문이다. 좋은 표본만 얻을 수 있다면, 한 1천명만 조사해도 충분하다.

때문에 통상 우리 연구자의 손에 쥐게 되는 것은 1천명 내외 혹은 그보다 훨씬 작은 표본조사 결과가 담긴 파일이다. 그 파일을 엑셀에 불러오면, 우리는 순식간에 평균, 분산과 표준편차, 최빈값, 중앙값, 비율 따위의 표본 통계치(sample statistics)를 계산할 수 있다.

문제는 누구도 표본 통계치 자체에는 관심이 없다는 사실이다. 우리가 관심을 갖는 것은 모집단의 값, 즉, 모수(parameter)이다.  예컨대 유권자 전체에 있어 대통령 후보들의 지지율이다. 손에 쥔 것은 표본에서 얻은 지지율인데 정작 우리가 언급해야 하는 것은 모집단에서의 지지율이다.

예컨대, 대통령 선거에서 A, B 두 정당 후보가 경합하고 있고, 표본 여론조사 결과가 A 정당 후보 45%, B 정당 후보 40%, 지지 미정 15%라고 하자. 이 결과를 보고 A 정당 선거 참모가 자기 당 후보에게 우리가 B 당 후보를 이기고 있다고 보고했다면, 그의 보고는 맞는 것일까? 정답은 맞을 수도, 틀릴 수도 있다는 것이다. 그 차이가 실제 유권자 전체에서의 차이가 아니라 단지 표집의 우연적인 결과일 수도 있기 때문이다.

통계학의 모수 추정 기법은 이점을 분별할 수 있게 해준다. 제대로 통계를 배운 참모가 있다면 과학적 근거를 지닌 해석을 제공해서 선거 전략이 잘못될 가능성을 막아줄 것이다.

조금 쉬운 예를 가지고 모수 추정 방법을 알아보자.

한 콜 택시회사는 고객이 전화를 한 뒤 요청한 곳에 택시가 도착하기까지의 소요시간을 알아보기 위해 100번의 전화요청에 대해 소요시간을 조사했다. 그 결과, 표본평균은 13.3분이었다. 소요시간의 표준편차는 4.2분이라고 알려져 있다. 소요시간이 정규분포를 따른다고 가정하고 모평균에 대한 95%양측 신뢰구간을 구하면? (사회조사분석사 5회 출제)

통계학을 배우지 않았다면, 소요시간(모평균)이 대체로 13.3분(표본평균)일 것이라고 추정할 것이다. 모집단의 평균이 정확히  13.3분일 가능성이 거의 없으리라 짐작되니 ‘대체로’라는 수식어를 사용해서 빠져 나갈 구멍을 만들어 놓는 것이다. 통계학은 그 ‘대체로’를 수치적으로 표현한다.

그러기 위해서 표본평균으로 모평균(소요시간)을 추정하는 대신 신뢰수준을 설정하고 그 신뢰수준에서 모평균이 속할 범위(신뢰구간이라고 함)를 제시한다. 신뢰구간은 아래 방식으로 구할 수 있다.

                 표본통계치 오차범위(오차한계)

표본통계치–예컨대 표본평균–를 중심으로 하고 좌우로 오차범위를 잡아서 구한다. 표본통계치야 표본조사만 하면 손쉽게 구하지만 문제는 오차범위를 어떻게 구할 것인가이다.

오차범위는 표준오차(Standard Error)유의수준z-값을 곱한 값이다. 표준오차는 표본평균의 분포인 표집분포의 표준편차이고, 유의수준은 신뢰수준으로부터 도출된다. 위 예에서 신뢰수준(confidence level)을 95%로 선택했으므로 유의수준(significance level)은 0.05(=1-0.95)이다. 유의수준은 대표성이 없는 표본평균을 얻게 될 확률이다. 표집분포(정규분포)에서 양쪽 끝 부분이 0.05가 되는 지점의 z-값은 1.96이다. 표본평균의 표준오차는 아래 식으로 구할 수 있다.

그렇다면 오차범위(E라고 하자)는,

이 식을 보면, 오차범위는 신뢰수준이 높을수록(z-값이 커지므로) 커지고, 모집단의 이질성이 클수록(이 커지므로) 크다. 반면에 표본의 크기가 커지면(이 커지므로), 작아진다. 공식이 논리적으로 충분히 설득력을 갖고 있다. 추정하려는 모평균 를 가지고 공식을 다시 쓰면 아래와 같다.

이 공식을 가지고 위 예를 풀어보면,

즉, 95% 신뢰수준에서 소요시간(모평균)은 12.48분부터 14.12분 사이일 것으로 추정된다. “대체로 13.3분”“95% 신뢰수준에서 소요시간이 12.48분부터 14.12분 사이일 것이다”로 정교화되었다.

위 공식은 모집단의 표준편차()가 알려져 있을 때 사용된다. 만약 를 모른다면 어떻게 추정해야 하나?

우리 손에 쥔 것은 표본조사의 결과이다. 거기에서 표본평균()과 표본의 표준편차()를 구할 수 있다. 결국 그 표본 통계치로부터 모수를 추정할 수밖에 없다.

그런데 로부터 를 추정하고, 로부터 추정해야 하니 모수 추정의 불확실성이 커진다. 그 점이 추정에 반영되어야 한다. 통계학자들은 평균 추정의 경우에는 아래 식처럼 로 대체하고, 로 대체하면 충분하다고 생각한다.

여기서 분포에서 양쪽 끝 부분에 해당되는 확률이 가 되는 값이다. 만약95% 신뢰수준이라면, 양쪽 끝 부분의 확률이 0.05가 되는 -값이다. 그런데 분포는 분포와 달리 자유도에 따라 그 모양이 상당히 달라진다(아래 그림 참조).

즉, 자유도에 따라 동일한 신뢰수준(따라서 동일한 유의수준)에 대한 -값이 달라진다. 분포의 자유도는 이다. 즉,표본의 크기에서 1을 빼면 된다.그렇다면 표본이클수록 자유도도 커질것이다. 자유도가 커지면 동일한 유의수준의 -값이 작아진다.그러다 어느 이상의 크기가 되면 분포(표준정규확률분포)의 -값과 같아진다. 시뮬레이션을 해보면 자유도가 500 이상이면 그렇게 된다. 다시 말하면 표본의 크기가 대략 500 이상이 되면 분포 대신 분포를 사용해서 추정해도 무방하다는 말이다. 두 분포 모두 양끝의 확률을 0.05가 되게 만드는 지점(-값, -값)이 둘 다 1.96이기 때문이다.

위 예에서 만약 모집단 소요시간의 표준편차를 모르고 표본의 표준편차가 4.2분이라면, 소요시간은 신뢰구간은 얼마가 될까? 아래 공식을 사용해서 구해보자.

여기에 유의수준 0.05의 -값과 표본 통계치를 대입하면,

자유도 99에서 값은 1.9842이다. 위 식을 간단히 하면,

이 결과를 부등호를 사용하여 구간으로 표시하면 아래와 같다.

모집단의 표준편차를 알고 있을 때보다 신뢰구간이 약간 커졌음을 알 수 있다. 이를 말로 풀면, “95% 신뢰수준에서 소요시간이 12.47분부터 14.13분 사이일 것이다.”라가 될 것이다.

이상으로 평균의 추정에 대해서 알아 보았다. 만약 추정하려는 모수가 평균이 아니라 비율이라면 어떻게 될까? 평균을 추정할 때와 같은 부분도 있고 다른 부분도 있다. 다음 포스팅에서 알아보자. (2019-09-26)