모비율의 추정은 어떻게?(상)

모집단의 비율을 추정하는 방법은 모평균의 경우와 상당히 차이가 있기 때문에 상세한 설명이 필요하다.

비율이란 집단 전체 중 특정한 속성을 갖는 하위집단의 비를 분수로 나타낸 것이다. 예컨대, 흡연자 비율, 특정 대통령 후보의 지지율, 구매 제품에 만족한 고객의 비율, 여성의 비율, 소수인종의 비율 등이다.

성인 남녀의 흡연율을 생각해보자. 모비율(population proportion)은 전체 성인 중 담배를 피우는 사람의 비율이다. 모비율을 p, 흡연자 수를 X, 전체 성인 수를 N로 놓으면, 아래와 같이 쓸 수 있을 것이다.

이는 성인 전체를 흡연자와 비흡연자로 나누는 이항분포(binomial distribution)이다. X는 성공횟수, N은 전체 시행 횟수로 볼 수 있다. 즉, 흡연은 성공, 비흡연은 실패로 간주되는 셈이다.

흡연율을 계산하기 위해 성인 전체를 대상으로 조사를 할 수 없으므로 무작위 표본을 뽑아서 담배를 피우는가를 물어보고 그 질문에 ‘예’라고 답하는 사람의 비율, 즉, 표본 비율()을 구해서 그것으로 모비율 p를 추정하면 될 것이다.  표본 비율은 ‘예’라고 답한 사람의 수(X)를 표본의 크기(n)으로 나누면 구할 수 있다.

모수 추정을 위해서는 평균의 경우처럼 표본비율의 표집분포(sampling distribution of sampling proportions)를 구해야 한다. 그러기 위해서 비율에 적용되는 이항실험과 이항분포의 속성을 상기해 보자.

1) 이항실험은 n개의 동일한 시행으로 구성되어 있다.

2)  각 실험은 두 가지 결과를 가진다. 그 결과는 성공, 실패라고 부른다.

3) 성공의 확률은 이며 반복실험에서 변하지 않는다. 따라서 실패 확률 도 반복실험에서 변하지 않는다.

4) 각 실험은 독립적으로 행해진다.

5) 이항확률함수

여기서 X = 성공횟수, n회 시행에서 성공횟수가 X일 확률, n = 시행횟수, p = 각 시행에서 성공이 일어날 확률, 1-p = 각 시행에서 실패가 일어날 확률

6) 이항분포의 기댓값과 분산은 다음과 같다.

7) 표본의 크기가 충분히 크면, 표본비율의 표집분포가 정규분포에 근사한다(normal approximation).

이 정보를 가지고 표본비율의 표집분포의 기댓값과 표준오차를 도출해 보자. 먼저,

그런데 이므로,

즉, 표본비율의 기댓값(평균)은 모비율이다. 이는 표본비율이 모비율의 불편의적 추정치임을 보여준다. 표본비율의 분산을 구하면,

이것의 양의 제곱근이 표본비율의 표준오차이다.

아래 그림에서 처럼 표본비율 는 평균이 이고, 표준오차가 인 표집분포를 이룬다.

sampling distribution of sample proportion에 대한 이미지 검색결과

그런데, 현실에서 우리는 모비율의 값을 모르기 때문에(그러기 때문에 표본비율로 추정하고 있지 않는가) 표집분포의 표준오차를 구하는데 아래 공식을 사용할 수 없다.

대신 우리 손에 들어온 표본비율로 이것도 추정해야 한다. 즉,

그렇게 되면, 그것은 오차의 또 다른 원천이 된다. 다행히 표본의 크기가 충분히 크면 오차가 0에 근접하기 때문에 표본의 크기가 클 경우 그렇게 추정해도 무방하다.

결국, 표본크기가 큰 경우 95% 신뢰수준에서 모비율을 구간 추정하는 공식은 다음과 같이 될 것이다.

(2019-09-28, 다음 포스팅에 계속)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.