확률분포(3): 초기하 분포

이항분포를 공부하면서 이항분포의 전제 조건들이 현실에서 충족되기 쉽지 않을 것이라는 생각이 든 독자들이 있었을 것이다. 성공확률이 일정하다는 조건도 그렇고, 시행이 독립적이라는 조건도 그렇다.

초기하 확률분포(hypergeometric probability distribution)는 그런 아쉬움을 채워주는 확률 모형이다. 이 분포에서는 성공확률이 일정하지 않아도 되고, 시행이 독립적이 아니어도 된다. 확률변수 X가 초기하 분포를 따르면 다음과 같이 표시된다.

N: 모집단의 크기    K: 모집단에서 성공 원소의 갯수    n: 시행 횟수(표본의 크기)

초기하 확률분포의 모양을 결정하는 퍼라미터가 이 세 개이다. 확률변수 X 는 표본 중의 성공 원소의 갯수()이다. 초기하 확률분포는 다음과 같이 정의된다.

: n 번 시행에서 x개가 성공할 확률(n 크기의 표본에 성공원소가 x개 포함될 확률)

식 (1)에서 분모 은 모집단 N개 중에서 표본 n개를 추출하는 방법의 수이고, 분자에서 는 성공원소 모집단 K개에서 x개를 추출하는 방법의 수이며, 는 실패원소 모집단 N-K개에서 n-x개를 추출하는 방법의 수이다.

초기하 분포의 수학적 정의가 상당히 복잡해 보인다. 그런데 사실 조합 기호가 들어가서 표기가 좀 복잡하게 보일 뿐 내용상으로는 오히려 다른 확률분포의 정의에 비해 단순하다. 좀 거칠게 표현하면, 성공원소추출 방법의 수와 실패원소추출 방법의 수를 곱한 값을 전체 표본의 추출방법의 수로 나눈 것이 초기하 분포의 확률함수이다.

초기하 확률분포의 기대값과 분산은 다음과 같다.

예제를 가지고 살펴보자.

예제 1) 온타리오 전기는 전기 퓨즈를 생산한다. 한 박스에 12개의 퓨즈를 넣는다. 품질 검사자는 박스에 들어 있는 12개의 퓨즈에서 무작위로 3개를 뽑아 검사한다. 박스에 5개의 불량품이 있을 경우 검사자가 뽑은 3개의 퓨즈 중 불량품이 1개 들어 있을 확률은?

해제) 이 문제에서는 불량품이 성공원소이다.

확률변수 X는 표본(n = 3) 중 성공원소의 갯수(x = 1)이다.  N = 12, K = 5. 이 값들을 식 (1)에 대입한다.

엑셀에서 초기하분포의 확률을 구하는 함수는 HYPGEOM.DIST이다.

위 표에서 f(1) = 0.477273이다. 앞에서 수작업으로 계산한 결과와 동일하다.

예제 2) 20장으로 된 한 묶음의 카드가 있다. 그중 6장은 붉은 카드이고 14장은 검정 카드이다. 비복원 무작위 추출로 5장의 카드를 뽑는다. 그중 4장의 붉은 카드가 뽑힐 확률은?

해제) 비복원 추출이니 시행별 확률이 일정하지 않다. 따라서 이항분포를 적용할 수 없고 초기하분포를 적용해야 한다.

퍼라미터: N = 20, K =6, n = 5          x = 4. 이 값들을 식 (1)에 대입하면 확률 f(4)를 구할 수 있다.

위 표에 보면, f(4) = 0.013544892이다. 수작업으로 계산한 확률값과 동일하다.

예제 3) 어떤 작은 선거구에 101명의 여성 유권자와 95명의 남성 유권자가 있다. 그 중 10명을 무작위로 뽑는다. 거기에 7명의 여성 유권자가 뽑힐 확률은? 

해제) 비복원추출이니 이항분포를 적용할 수 없고 초기하분포를 적용한다. 확률변수 X는 10명 표본 중 여성유권자의 수이다. 여성유권자는 0명부터 10명까지 뽑힐 수 있다.

퍼라미터: N = 196명, K = 101명, n = 10       x = 7. 이 값들을 식 (1)에 대입한다.

엑셀을 이용해서 확률분포, 기대값, 분산을 구해보자.

위 표에서 f(7) = 0.130396이다. 수작업으로 계산한 결과와 소숫점 다섯자리까지 일치한다.

예제 4) 코로나 19로 인해 많은 사람들이 온라인 쇼핑을 한다. 물론 코로나 19에도 불구하고 오프라인 쇼핑을 하려는 사람도 있다. 10명의 쇼핑객 중 7명은 온라인으로 쇼핑하는 것을 좋아하고 3명은 오프라인 쇼핑을 좋아한다고 가정하자. 그 10명 중 3명을 무작위로 추출하였다. 

1) 2명이 온라인 쇼핑을 좋아할 확률은?

2) 2명 이상이 온라인 쇼핑을 좋아할 확률은?

해제)  비복원추출이므로 이항분포 대신 초기하분포를 적용한다.

문제 1) N = 10, K = 7, n = 3, x =2을 식 (1)에 대입한다.

엑셀을 이용해서 확률분포, 기대값, 분산을 구해보자.

문제 2) 전체 확률에서 온라인 쇼핑을 좋아하는 쇼핑객이 한명도 뽑히지않을 확률과 한 명 뽑힐 확률을 빼면 될 것이다.  1 – 0.0083 – 0.175 = 0.8167(위 표 참조).

예제 5) 컴퓨터 부품회사 A는 수원과 파주 두 곳에 공장을 가지고 있다. 수원에는 40명의 종업원이, 파주에는 20명의 종업원이 있다. 10명의 종업원을 뽑아서 설문조사를 하였다.

1) 파주에서 근무하는 종업원이 한 명도 뽑히지 않을 확률은?

2) 파주에서 근무하는 종업원이 한 명 뽑힐 확률은?

3) 파주에서 근무하는 종업원이 두 명 이상 뽑힐 확률은?

해제) 설문조사는 비복원추출이므로 초기하분포를 적용한다. 확률변수 X는 10명 표본 중 파주 종업원의 수이다.

N = 60, K = 20, n = 10을 PDF에 대입한다.

수작업 계산은 생략하고 엑셀을 이용해서 확률분포를 구한다.

문제 1) 0.011243

문제 2) 0.072536

문제 3) 1 – 0.011243 – 0.072536 = 0.916221

이상으로 초기하 확률분포에 대해 알아보았다. 예제들을 통해서 초기하 분포가 이항분포를 보완하는 확률모형임을 알았으리라 생각한다. 이산확률분포에 대해서는 여기까지 공부하고 이제 연속확률분포에 대해서 알아보자. (2020-08-29)