모수 추정의 원리

통계학에서 모수 추정이란 무엇일까? 잠시 상상해 보자. 만약 우리가 어떤 사회현상–대통령 후보의 지지율, 남북관계에 대한 입장, 입시정책에 대한 생각 등–을 조사한다면, 모집단 전체(성인 전체나 유권자 전체)를 전수 조사할 가능성은 거의 없을 것이다. 그럴 예산도 없고 시간도 없을 것이며,  사실 그럴 필요도 없기 때문이다. 좋은 표본만 얻을 수 있다면, 한 1천명만 조사해도 충분하다.

때문에 통상 우리 연구자의 손에 쥐게 되는 것은 1천명 내외 혹은 그보다 훨씬 작은 표본조사 결과가 담긴 파일이다. 그 파일을 엑셀에 불러오면, 우리는 순식간에 평균, 분산과 표준편차, 최빈값, 중앙값, 비율 따위의 표본 통계치(sample statistics)를 계산할 수 있다.

문제는 누구도 표본 통계치 자체에는 관심이 없다는 사실이다. 우리가 관심을 갖는 것은 모집단의 값, 즉, 모수(parameter)이다.  예컨대 유권자 전체에 있어 대통령 후보들의 지지율이다. 손에 쥔 것은 표본에서 얻은 지지율인데 정작 우리가 언급해야 하는 것은 모집단에서의 지지율이다.

예컨대, 대통령 선거에서 A, B 두 정당 후보가 경합하고 있고, 표본 여론조사 결과가 A 정당 후보 45%, B 정당 후보 40%, 지지 미정 15%라고 하자. 이 결과를 보고 A 정당 선거 참모가 자기 당 후보에게 우리가 B 당 후보를 이기고 있다고 보고했다면, 그의 보고는 맞는 것일까? 정답은 맞을 수도, 틀릴 수도 있다는 것이다. 그 차이가 실제 유권자 전체에서의 차이가 아니라 단지 표집의 우연적인 결과일 수도 있기 때문이다.

통계학의 모수 추정 기법은 이점을 분별할 수 있게 해준다. 제대로 통계를 배운 참모가 있다면 과학적 근거를 지닌 해석을 제공해서 선거 전략이 잘못될 가능성을 막아줄 것이다.

조금 쉬운 예를 가지고 모수 추정 방법을 알아보자.

한 콜 택시회사는 고객이 전화를 한 뒤 요청한 곳에 택시가 도착하기까지의 소요시간을 알아보기 위해 100번의 전화요청에 대해 소요시간을 조사했다. 그 결과, 표본평균은 13.3분이었다. 소요시간의 표준편차는 4.2분이라고 알려져 있다. 소요시간이 정규분포를 따른다고 가정하고 모평균에 대한 95%양측 신뢰구간을 구하면? (사회조사분석사 5회 출제)

통계학을 배우지 않았다면, 소요시간(모평균)이 대체로 13.3분(표본평균)일 것이라고 추정할 것이다. 모집단의 평균이 정확히  13.3분일 가능성이 거의 없으리라 짐작되니 ‘대체로’라는 수식어를 사용해서 빠져 나갈 구멍을 만들어 놓는 것이다. 통계학은 그 ‘대체로’를 수치적으로 표현한다.

그러기 위해서 표본평균으로 모평균(소요시간)을 추정하는 대신 신뢰수준을 설정하고 그 신뢰수준에서 모평균이 속할 범위(신뢰구간이라고 함)를 제시한다. 신뢰구간은 아래 방식으로 구할 수 있다.

                 표본통계치 오차범위(오차한계)

표본통계치–예컨대 표본평균–를 중심으로 하고 좌우로 오차범위를 잡아서 구한다. 표본통계치야 표본조사만 하면 손쉽게 구하지만 문제는 오차범위를 어떻게 구할 것인가이다.

오차범위는 표준오차(Standard Error)유의수준z-값을 곱한 값이다. 표준오차는 표본평균의 분포인 표집분포의 표준편차이고, 유의수준은 신뢰수준으로부터 도출된다. 위 예에서 신뢰수준(confidence level)을 95%로 선택했으므로 유의수준(significance level)은 0.05(=1-0.95)이다. 유의수준은 대표성이 없는 표본평균을 얻게 될 확률이다. 표집분포(정규분포)에서 양쪽 끝 부분이 0.05가 되는 지점의 z-값은 1.96이다. 표본평균의 표준오차는 아래 식으로 구할 수 있다.

그렇다면 오차범위(E라고 하자)는,

이 식을 보면, 오차범위는 신뢰수준이 높을수록(z-값이 커지므로) 커지고, 모집단의 이질성이 클수록(이 커지므로) 크다. 반면에 표본의 크기가 커지면(이 커지므로), 작아진다. 공식이 논리적으로 충분히 설득력을 갖고 있다. 추정하려는 모평균 를 가지고 공식을 다시 쓰면 아래와 같다.

이 공식을 가지고 위 예를 풀어보면,

즉, 95% 신뢰수준에서 소요시간(모평균)은 12.48분부터 14.12분 사이일 것으로 추정된다. “대체로 13.3분”“95% 신뢰수준에서 소요시간이 12.48분부터 14.12분 사이일 것이다”로 정교화되었다.

위 공식은 모집단의 표준편차()가 알려져 있을 때 사용된다. 만약 를 모른다면 어떻게 추정해야 하나?

우리 손에 쥔 것은 표본조사의 결과이다. 거기에서 표본평균()과 표본의 표준편차()를 구할 수 있다. 결국 그 표본 통계치로부터 모수를 추정할 수밖에 없다.

그런데 로부터 를 추정하고, 로부터 추정해야 하니 모수 추정의 불확실성이 커진다. 그 점이 추정에 반영되어야 한다. 통계학자들은 평균 추정의 경우에는 아래 식처럼 로 대체하고, 로 대체하면 충분하다고 생각한다.

여기서 분포에서 양쪽 끝 부분에 해당되는 확률이 가 되는 값이다. 만약95% 신뢰수준이라면, 양쪽 끝 부분의 확률이 0.05가 되는 -값이다. 그런데 분포는 분포와 달리 자유도에 따라 그 모양이 상당히 달라진다(아래 그림 참조).

즉, 자유도에 따라 동일한 신뢰수준(따라서 동일한 유의수준)에 대한 -값이 달라진다. 분포의 자유도는 이다. 즉,표본의 크기에서 1을 빼면 된다.그렇다면 표본이클수록 자유도도 커질것이다. 자유도가 커지면 동일한 유의수준의 -값이 작아진다.그러다 어느 이상의 크기가 되면 분포(표준정규확률분포)의 -값과 같아진다. 시뮬레이션을 해보면 자유도가 500 이상이면 그렇게 된다. 다시 말하면 표본의 크기가 대략 500 이상이 되면 분포 대신 분포를 사용해서 추정해도 무방하다는 말이다. 두 분포 모두 양끝의 확률을 0.05가 되게 만드는 지점(-값, -값)이 둘 다 1.96이기 때문이다.

위 예에서 만약 모집단 소요시간의 표준편차를 모르고 표본의 표준편차가 4.2분이라면, 소요시간은 신뢰구간은 얼마가 될까? 아래 공식을 사용해서 구해보자.

여기에 유의수준 0.05의 -값과 표본 통계치를 대입하면,

자유도 99에서 값은 1.9842이다. 위 식을 간단히 하면,

이 결과를 부등호를 사용하여 구간으로 표시하면 아래와 같다.

모집단의 표준편차를 알고 있을 때보다 신뢰구간이 약간 커졌음을 알 수 있다. 이를 말로 풀면, “95% 신뢰수준에서 소요시간이 12.47분부터 14.13분 사이일 것이다.”라가 될 것이다.

이상으로 평균의 추정에 대해서 알아 보았다. 만약 추정하려는 모수가 평균이 아니라 비율이라면 어떻게 될까? 평균을 추정할 때와 같은 부분도 있고 다른 부분도 있다. 다음 포스팅에서 알아보자. (2019-09-26)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.