확률분포(3): 초기하 분포

이항분포를 공부하면서 이항분포의 전제 조건들이 현실에서 충족되기 쉽지 않을 것이라는 생각이 든 독자들이 있었을 것이다. 성공확률이 일정하다는 조건도 그렇고, 시행이 독립적이라는 조건도 그렇다.

초기하 확률분포(hypergeometric probability distribution)는 그런 아쉬움을 채워주는 확률 모형이다. 이 분포에서는 성공확률이 일정하지 않아도 되고, 시행이 독립적이 아니어도 된다. 확률변수 X가 초기하 분포를 따르면 다음과 같이 표시된다.

N: 모집단의 크기    K: 모집단에서 성공 원소의 갯수    n: 시행 횟수(표본의 크기)

초기하 확률분포의 모양을 결정하는 퍼라미터가 이 세 개이다. 확률변수 X 는 표본 중의 성공 원소의 갯수()이다. 초기하 확률분포는 다음과 같이 정의된다.

: n 번 시행에서 x개가 성공할 확률(n 크기의 표본에 성공원소가 x개 포함될 확률)

식 (1)에서 분모 은 모집단 N개 중에서 표본 n개를 추출하는 방법의 수이고, 분자에서 는 성공원소 모집단 K개에서 x개를 추출하는 방법의 수이며, 는 실패원소 모집단 N-K개에서 n-x개를 추출하는 방법의 수이다.

초기하 분포의 수학적 정의가 상당히 복잡해 보인다. 그런데 사실 조합 기호가 들어가서 표기가 좀 복잡하게 보일 뿐 내용상으로는 오히려 다른 확률분포의 정의에 비해 단순하다. 좀 거칠게 표현하면, 성공원소추출 방법의 수와 실패원소추출 방법의 수를 곱한 값을 전체 표본의 추출방법의 수로 나눈 것이 초기하 분포의 확률함수이다.

초기하 확률분포의 기대값과 분산은 다음과 같다.

예제를 가지고 살펴보자.

예제 1) 온타리오 전기는 전기 퓨즈를 생산한다. 한 박스에 12개의 퓨즈를 넣는다. 품질 검사자는 박스에 들어 있는 12개의 퓨즈에서 무작위로 3개를 뽑아 검사한다. 박스에 5개의 불량품이 있을 경우 검사자가 뽑은 3개의 퓨즈 중 불량품이 1개 들어 있을 확률은?

해제) 이 문제에서는 불량품이 성공원소이다.

확률변수 X는 표본(n = 3) 중 성공원소의 갯수(x = 1)이다.  N = 12, K = 5. 이 값들을 식 (1)에 대입한다.

엑셀에서 초기하분포의 확률을 구하는 함수는 HYPGEOM.DIST이다.

위 표에서 f(1) = 0.477273이다. 앞에서 수작업으로 계산한 결과와 동일하다.

예제 2) 20장으로 된 한 묶음의 카드가 있다. 그중 6장은 붉은 카드이고 14장은 검정 카드이다. 비복원 무작위 추출로 5장의 카드를 뽑는다. 그중 4장의 붉은 카드가 뽑힐 확률은?

해제) 비복원 추출이니 시행별 확률이 일정하지 않다. 따라서 이항분포를 적용할 수 없고 초기하분포를 적용해야 한다.

퍼라미터: N = 20, K =6, n = 5          x = 4. 이 값들을 식 (1)에 대입하면 확률 f(4)를 구할 수 있다.

위 표에 보면, f(4) = 0.013544892이다. 수작업으로 계산한 확률값과 동일하다.

예제 3) 어떤 작은 선거구에 101명의 여성 유권자와 95명의 남성 유권자가 있다. 그 중 10명을 무작위로 뽑는다. 거기에 7명의 여성 유권자가 뽑힐 확률은? 

해제) 비복원추출이니 이항분포를 적용할 수 없고 초기하분포를 적용한다. 확률변수 X는 10명 표본 중 여성유권자의 수이다. 여성유권자는 0명부터 10명까지 뽑힐 수 있다.

퍼라미터: N = 196명, K = 101명, n = 10       x = 7. 이 값들을 식 (1)에 대입한다.

엑셀을 이용해서 확률분포, 기대값, 분산을 구해보자.

위 표에서 f(7) = 0.130396이다. 수작업으로 계산한 결과와 소숫점 다섯자리까지 일치한다.

예제 4) 코로나 19로 인해 많은 사람들이 온라인 쇼핑을 한다. 물론 코로나 19에도 불구하고 오프라인 쇼핑을 하려는 사람도 있다. 10명의 쇼핑객 중 7명은 온라인으로 쇼핑하는 것을 좋아하고 3명은 오프라인 쇼핑을 좋아한다고 가정하자. 그 10명 중 3명을 무작위로 추출하였다. 

1) 2명이 온라인 쇼핑을 좋아할 확률은?

2) 2명 이상이 온라인 쇼핑을 좋아할 확률은?

해제)  비복원추출이므로 이항분포 대신 초기하분포를 적용한다.

문제 1) N = 10, K = 7, n = 3, x =2을 식 (1)에 대입한다.

엑셀을 이용해서 확률분포, 기대값, 분산을 구해보자.

문제 2) 전체 확률에서 온라인 쇼핑을 좋아하는 쇼핑객이 한명도 뽑히지않을 확률과 한 명 뽑힐 확률을 빼면 될 것이다.  1 – 0.0083 – 0.175 = 0.8167(위 표 참조).

예제 5) 컴퓨터 부품회사 A는 수원과 파주 두 곳에 공장을 가지고 있다. 수원에는 40명의 종업원이, 파주에는 20명의 종업원이 있다. 10명의 종업원을 뽑아서 설문조사를 하였다.

1) 파주에서 근무하는 종업원이 한 명도 뽑히지 않을 확률은?

2) 파주에서 근무하는 종업원이 한 명 뽑힐 확률은?

3) 파주에서 근무하는 종업원이 두 명 이상 뽑힐 확률은?

해제) 설문조사는 비복원추출이므로 초기하분포를 적용한다. 확률변수 X는 10명 표본 중 파주 종업원의 수이다.

N = 60, K = 20, n = 10을 PDF에 대입한다.

수작업 계산은 생략하고 엑셀을 이용해서 확률분포를 구한다.

문제 1) 0.011243

문제 2) 0.072536

문제 3) 1 – 0.011243 – 0.072536 = 0.916221

이상으로 초기하 확률분포에 대해 알아보았다. 예제들을 통해서 초기하 분포가 이항분포를 보완하는 확률모형임을 알았으리라 생각한다. 이산확률분포에 대해서는 여기까지 공부하고 이제 연속확률분포에 대해서 알아보자. (2020-08-29)

확률변수와 확률분포(2)

앞 포스팅에서 확률변수가 무엇인지를 알아보았다. 이제 확률분포와 확률함수에 관해 살펴보자.

확률변수는 이산적 확률변수(discrete random variable)와 연속적 확률변수(continuous random variable)로 나눌 수 있다. 이산적 확률변수는 0, 1, 2, 3과 같은 정수의 값을 가지며, 연속적 확률변수는 소수점의 값을 포함하는 실수의 값을 가진다. 확률변수가 그 두 가지 중 어느 것에 속하는가에 따라 확률의 의미와 계산 방법이 크게 달라진다.

이산적 확률변수는 확률변수의 각 값이 발생 확률을 갖지만, 연속적 확률변수는 특정 값의 발생 확률은 0이다. 연속적 확률변수는 확률변수가 특정 구간에 속할 확률만을 계산할 수 있다.

예컨대 필자가 가르치는 사회통계 과목은 상대평가이다. 그 과목에서 어떤 학생이 A+를 받을 확률은 10%, A0를 받을 확률은 15%이다. 등급(letter grade)은 이산적 확률변수이다. 그러나 어떤 학생이 기말시험에서 90점을 받을 확률이나 80.5점을 받을 확률은 모두 0이다. 취득점수(score)는 연속적 확률변수이다. 만약 확률을 계산하고 싶으면,  90점 이상 받을 확률(), 80점 이상 90점 미만을 받을 확률() 처럼 확률변수의 구간을 정해주어야 한다.

이산확률변수은 확률변수의 확률과 확률분포를 생성하는 확률함수를 갖는다. 반면에 연속확률변수는 확률변수의 구간 확률과 확률분포를 생성하는 확률밀도함수(Probability Density Function, PDF)를 갖는다.

이산확률변수가 이루는 이산확률분포에는 이항확률분포(binomial probability distribution), 포아송 확률분포(Poission probability distribution), 초기하 확률분포(hypergeometric probability distribution), 기하확률분포(geometric probability distribution) 등이 있다. 

이항확률분포는 이항실험(binomial experiment)과 연관되어 있다. 이항실험은 네 가지의 특성을 갖고 있다. 

  1) 실험은 n개의 동일한 시행으로 구성된다.

  2) 각 실험은 두 가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.

  3) 성공 확률은 p이며 반복실험에서 변하지 않는다. 

  4) 각 실험은 독립적으로 행해진다.

위에서 1번을 제외한 세 가지 특성을 가진 실험을 베르누이 시행(Bernoulli Trial)이라고 한다. 베르누이 시행을 반복하면 이항실험이 된다. 이항확률함수는, 

    여기서  = n회 시행에서 성공의 횟수가 x일 확률; x = 성공횟수; n = 시행 횟수;  p = 각 시행에서 성공이 일어날 확률; 1-p = 각 시행에서 실패가 일어날 확률;

이항확률분포의 기대값과 분산

포아송분포는 이항분포와 성격이 비슷하나, 시행횟수 n이 크고, 사건의 발생(성공) 확률 p는 매우 작은 경우에 사용된다. 포아송 확률함수는,

여기서  = 구간에서 x회 발생할 확률; (람다) = 구간에서 발생횟수의 기대값 또는 평균(이다); 

포아송 분포의 기대값과 분산


초기하 확률분포도 이항분포와 관계가 있다. 성공할 확률이 매회 동일할 경우(상호 독립적인 사건)는 이항분포를 이용하고, 동일하지 않을 경우(상호 종속적인 사건)는 초기하분포를 이용한다. 즉, 같은 실험에서 복원추출을 하는 경우나, 표본추출을 하는 모집단의 크기가 무한한 경우는 이항분포를 사용하고, 비복원추출인 경우나 모집단의 크기가 작은 경우는 초기하분포를 사용하여 확률을 구한다.

기하확률분포는 단 한번의 성공을 위해 실패를 거듭해야 하는 경우에 사용한다. x-1번까지는 계속 실패를 하고, x번째에 비로소 성공할 확률은 다음과 같이 구할 수 있다.

몇 가지 사례를 보자.

(이항확률분포) 한 개의 동전을 4번 던졌을 때 앞면이 나오는 횟수가 2회일 확률은 얼마인가?

n = 4, x = 2, p = 0.5

실제 계산은 스마트폰 앱 Probability Distributions로 수행할 수 있다. 답은 0.37500 이다.

(포아송확률분포) 주중 아침 15분 동안 자동차를 탄 채로 은행 서비스를 받기 위해 창구에 도착하는 자동차 대수에 관심이 있다고 하자. 과거의 자료로 볼 때 15분 동안 도착하는 자동차는 평균 10대이라고 하자. 경영자가 15분 동안에 5대가 도착할 확률을 알고 싶어한다. 그 확률을 계산해 보자.

, x = 5.

(초기하 확률분포) 온타리오 전기는 전기 퓨즈를 생산한다. 한 박스에는 12개의 퓨즈를 넣는다. 검사자는 박스에 들어있는 12개의 퓨즈에서 무작위로 3개를 뽑는다. 박스에 5개의 불량품이 있을 경우 검사자가 3개의 퓨즈 중 불량품 1개를 뽑을 확률은 얼마인가?

N(모집단의 갯수) = 12, n(시행횟수) = 3, M(모집단에서 성공원소의 갯수) = 5, x(성공 횟수) = 1

(기하확률분포) 한 개의 동전을 던져서 앞면이 나올 확률은 1/2이다. 동전을 던질 때 다섯 번째 비로소 앞면이 나올 확률은 얼마인가?

(윤영민, 2018-06-18)