모비율의 추정은 어떻게?(중)

앞에서 모비율을 추정하면서 “표본의 크기가 큰 경우”라는 조건을 달았다. 모비율의 추정 공식이 항상 성립하는 것은 아님을 시사하면서 슬쩍 넘어간 것이다. 실제로 표본이 얼마나 커야  추정 공식을 적용할 수 있는 지에 대해 해답을 제시하지 않았다. 모비율 추정에 있어서는 이점이 중요함으로 충분히 알아보자.

핵심은 정규 근사(normal approximation, 표집분포가 정규분포에 충분히 근사함)를 하는데 요구되는 표본의 크기는 성공 확률()에 달려 있다는 점이다. 만약 가 0.5에 가까우면, 표본은 그렇게 클 필요가 없다. 반면에 가 0이나 1에 가까우면 훨씬 큰 표본이 요구된다. 이점을 구체적으로 살펴보자.

아래 그림에는 성공확률이 0.5이고  표본의 크기가 25인 이항분포의 그래프가 시뮬레이션되어 있다. 표본의 크기가 25 밖에 되지 않는데도 분포의 모양이 정규분포에 가깝다.

표본을 50, 100으로 키워서 시뮬레이션 한 결과가 아래에 있다.

표본의 크기가 100이 되니 비록 이산확률분포이지만 연속확률분포인 정규분포에 매우 근사하고 있음을 알 수 있다.

이번에는 성공확률이 0에 근접한 0.02일 때 표본의 크기를 가지고 시뮬레이션을 해보자. 아래에 표본의 크기가 100일 때 우측으로 꼬리가 긴 분포를 하고 있음을 볼 수 있다. 정규분포의 모습과는 거리가 멀다.

이번에는 성공확률 0.02는 그대로 두고 표본을 1,000으로 키웠더니 아래 그림처럼 정규분포에 근사한 결과를 얻었다.

이번에는 성공확률을 1에 근접한 0.96로 두고 시뮬레이션을 해보자. 표본의 크기가 100인 경우와 1,000인 경우의 결과가 아래에 제시되어 있다.

표본의 크기가 100일 때는 아직 뚜렷하게 왼쪽으로 편포되어 있지만, 1,000이 되니 정규분포에 근사하고 있다.

이상으로 몇 번의 시뮬레이션을 통하여, 성공확률이 0.5에 근접하면 정규 근사를 위해 표본이 그렇게 클 필요가 없지만, 성공확률이 0이나 1에 근접하면 정규 근사를 위해 표본이 상당히 커야함을 살펴보았다. 그렇다면 모비율 추정을 위해 필요한 표본의 크기를 어떻게 결정할까? 거친 가이드라인이기는 하지만, 아래 조건을 충족하면 증심극한정리를 적용하는 정규 근사가 가능하다고 본다.

어떤 학자들은 기준이 되는 값을 15 대신 5 혹은 10을 사용하기도 하지만 15가 좀 더 신중해 보인다. 이 공식을 적용하면, 만약 성공확률 가 0.03이면, 15 나누기 0.03하여 표본의 크기가 500, 성공확률이 0.9이면, 15 나누기 0.1하여, 표본의 크기가 150 이상이면 표집분포의 근사치로 정규확률분포를 사용할 수 있음을 의미한다.

다음 포스팅에서는 모비율 추정의 사례를 몇 개 살펴보자. (2019-09-28)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.