확률분포(1): 이항확률분포

입문 수준의 베이즈 통계를 위해서 꼭 익혀 두어야 할 확률분포는, 이산분포에서 이항분포, 포아송분포, 초기하분포, 연속분포에서 균일분포, 정규분포, 지수분포, 감마분포, 베타분포, t분포 9개 정도가 아닌가 생각된다. 이 가운데 정규분포와 t분포는 빈도주의 통계에서도 꼭 알아두어야 하는 확률분포이다. 빈도주의 통계에서는 추가로 F분포분포를 익혀야 할 것이니, 전체적으로 보면 입문 수준의 사회통계에서 11개 정도의 확률분포를 익혀두면 충분하지 않을까 생각된다.

빈도주의 통계에서 정규분포, t분포, F분포, 분포를 모르면, 모수를 통계적으로 추정할 수 없다. 비슷하게 베이즈 통계에서 위에서 언급한 10개를 모르면, 베이즈 정리를 다양한 예측에 적용하기 어렵다. 베이즈통계에서 예측은 관찰된 데이터를 가지고 사전분포를 업데이트하여 사후분포를 추정하는 것이기 때문이다.

통계를 이용한 추정과 예측에서 확률분포가 차지하는 비중이 워낙 크기 때문에 확률분포에 대해 충분히 시간을 갖고 공부할 필요가 있다. 그래서 전에 확률분포에 관해 몇 개의 글을 올렸지만, 너무 간략히 소개했던 것 같아 다시 베이즈통계에 필요한 10개의 분포를 하나 하나 좀 더 쉽고 자세하게 설명해 보도록 하겠다.

먼저 이산확률분포부터 시작하자. 이항확률분포(binomial probability distribution)는 가장 대표적 이산확률분포이며 정규분포에 버금가게 중요한 확률분포이다. 실제 이항분포가 적용될 수 있는 사회현상이 많기도 하다.

이항확률분포는 이항실험(binomial experiment)과 연관되어 있다. 이항실험은 네 가지의 특성을 갖고 있다. 

  1) 실험은 n개의 동일한 시행으로 구성된다.

  2) 각 시행은 두 가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.

  3) 각 시행에서 성공 확률은 p이며, 성공 확률은 반복 시행에서 변하지 않는다. (성공확률 불변 조건)

  4) 각 시행은 독립적으로 행해진다. (독립시행 조건)

위에서 1번을 제외한 세 가지 특성을 가진 실험을 베르누이 시행(Bernoulli Trial)이라고 한다. 베르누이 시행이 n회 반복된 실험이 이항실험이다. 

수업에서 가장 흔히 드는 이항실험의 사례는 동전 던지기이다. 동전을 던져서 특정한 면이 나오는 실험이다. 예컨대, 100원 주화를 다섯 번 던져서 앞면(이순신 장군 얼굴)이 나오는 횟수를 세는 실험은 이항실험이다. 실험은 5회의 동일한 시행으로 구성되며, 각 시행은 앞면과 뒷면의 두 가지 결과를 가지고, 각 시행에서 앞면이 나올 확률은, 정직한 동전이라면, 0.5이며, 그것은 반복 시행에서도 달라지지 않는다. 따라서 이항실험 조건을 충족한다. 그리고 동전 던지기 실험에서 앞면이 나오는 횟수는 이항확률분포를 갖는다.

이항실험의 예를 더 들어보자.

예제 1) 한 개의 주사위를 5회 던질 때 1의 눈이 2회 나올 확률은?

주사위는 육면체이고 여섯 개의 숫자로 되어 있지만, 이 실험에서 던질 때마다  1이 나오거나(성공) 1이 아닌 다른 수가 나오는(실패) 두 가지 결과밖에 없다. 주사위가 정직하게 만들어져 있다면, 1이 나올 확률(성공확률)은 1/6이고, 성공확률은 모든 시행에서 동일하게 1/6이다. 그리고 각 시행은 상호 독립적이며, 실험은 다섯 번의 시행으로 구성된다. 따라서 이 실험은 이항실험 조건을 충족하며, 일정 횟수만큼의  반복적인 주사위 던지기에서 1의 눈이 나오는 횟수는 이항확률분포를 갖는다.

예제 2) 어느 공장에서 생산되는 제품의 5%가 불량품이다. 이 제품 10개를 검사하였을 때 2개가 불량품일 확률은?

좀 이상하게 들리기도 하겠지만, 불량품이 나오는 결과는 기대하는 사건이 발생했다는 의미에서 확률적으로 성공이라고 간주될 수 있으며, 그 성공확률은 0.05이다. 각 제품의 생산은 하나의 시행이 되며, 매 시행에서 성공확률은 0.05이다. 각 제품의 생산은 독립 시행이며, 실험은 10번의 독립 시행으로 구성되어 있다. 따라서 이항실험 조건을 충족하며, 이 제품 검사에서 불량품의 갯수는 이항확률분포를 갖는다.

예제 3) 코로나 19로 인한 국가 위기에서 2차 긴급재난지원금을 지급해야 하는가에 대한 한 언론사의 성인 대상 여론조사(응답자 1,000명)에서  80%의 응답자가 찬성을, 20%의 응답자가 반대하는 것으로 나타났다. 만일 임의로 성인 10명을 선정했을 때 6명이 찬성할 확률은?

응답자에 관한 다른 정보가 없다면, 어떤 응답자가 찬성이라고 응답할 확률(성공 확률)은 0.8이며, 그것은 그 여론조사에 참여한 모든 응답자에게 동일하다고 가정될 수 있다.  그리고 각 응답자의 응답은 독립 시행으로 간주될 수 있으며, 임의로 10명을 뽑아서 동일한 질문을 물었을 때 찬성한 사람의 수를 구하는 것은 이항실험이며, 찬성한 사람의 수는 확률변수이다. 그리고 그 확률변수는 이항확률분포를 갖는다.

예제 4)  어떤 양궁 선수가 화살을 쏘았을 때 명중할 확률이 0.6이라고 한다. 이 선수가 7번 화살을 쏘았을 때 몇 번이나 명중할까?

현실에서 양궁 선수가 화살을 여러 차례 쏠 경우, 어떤 시행에서 화살의 명중확률은 이전에 쏜 화살이 명중했는가 아닌가에 따라 영향을 받게 될 것이다. 앞선 시행의 결과에 의해 대부분의 선수들이 심리적 영향을 받을 것이기 때문이다.

그런데 다소 비현실적이기는 하지만 앞선 시행 결과의 영향이 없다고 가정하면 독립시행으로 간주될 수 있다. 여기서는 그렇게 가정하자. 그럴 경우 명중(성공) 확률은 0.6으로 일정하다. 이 선수가 7번 화살을 쏜 것은 7번의 독립시행으로 간주될 수 있을 것이며, 명중(성공) 횟수는 확률변수이고, 그것은 이항확률분포를 이룰 것이다.

예제 5) 어느 회사원이 승용차로 출근하는 길에 신호등이 5개 있다고 한다. 각 신호등에서 빨간불에 의해 신호 대기할 확률은 0.2이고, 각 신호등에서 신호 대기 여부는 서로 독립적이라고 가정한다. 어느 날 이 회사원이 5개의 신호등 중 1개의 신호등에서만 신호대기에 걸리고 출근할 확률은?

각 신호등에서 빨간불에 의해 신호 대기할 확률(0.2)은 성공 확률로 간주될 수 있고, 신호등 통과는 독립시행이며, 여러 개의 신호등을 통과하는 데, 몇 번이나 빨간불에 걸리는가는 하나의 이항실험이 될 것이다. 그리고 빨간불에 걸리는 횟수는 확률변수이며, 일정한 갯수의 신호등을 통과하는데 있어 빨간불에 정지당하는 횟수는 이항확률분포를 이룰 것이다.

현실에서 이항분포는 공산품 제조에서 불량품 예측, 영업사원의 제품 판매 예측, 통신망에서 신호의 전달(혹은 실패) 예측, 도로의 분기점에서 자동차의 선회 방향 예측, 임직원의 통근 방법 예측 등 시행의 결과가 두 가지로 나오는 사회 현상에 광범위하게 적용될 수 있다. 이항실험 조건을 충족하는 사회 현상이 많기 때문이다. 더구나 주사위의 예에서 보듯이 시행의 결과가 두 가지 이상일 때도 관심을 갖는 하나의 결과를 중심으로 보면 시행 결과는 항상 두 가지로 나누어 질 수 있다. 따라서 독립시행 조건과 성공확률 불변 조건을 추가로 충족하면 사회현상은 이항확률분포를 적용할 수 있다.

이항실험은 베르누이 시행을 n회 반복한 것이고, 그렇게 해서 얻어진 것이 이항확률분포이다. 확률변수 X가 베르누이 분포를 따르면, 다음과 같이 표시된다.

여기서 B는 Bernoulli의 첫글자, p는 성공확률, 1-p는 실패확률이다. 이것을 일반화하는 함수로 표기하면,

여기서 . X =1은 성공, X=0은 실패.

기대값:

분산:

예컨대, 성공확률이 0.6인 베르누이 분포에서 성공할 확률은 PDF(Probability Density Function, 확률밀도함수: 이산분포의 경우 PMF, Probability Mass Function, 확률질량함수라고도 하지만 여기서는 그냥 PDF로 통일함)를 이용해 아래와 같이 구해진다.

실패할 확률은 아래와 같다.

확률변수 X의 기대값은 0.6, 분산은 0.24이다.

이항확률분포는 통상 로 표기한다. B는 Binomial(이항)의 첫글자이며, n은 베르누이 시행의 횟수, p는 성공확률이다. 확률변수 가 이항확률분포를 가지면 다음과 같이 표시된다.

이항확률분포는 다음과 같이 정의된다. 이항확률분포의 PDF는, 

여기서 는 n회 시행에서 성공의 횟수가 x일 확률; x = 성공횟수; n = 시행 횟수;  p = 각 시행에서 성공이 일어날 확률; 1-p = 각 시행에서 실패가 일어날 확률;

이항확률분포의 기대값과 분산은 다음과 같다.

이항확률분포의 기대값과 분산은 베르누이 분포의 기대값과 분산의 각 n배이다.

이항확률분포에 관한 정의를 가지고 위 예제들을 풀어보자.

예제 풀이

예제 1) 한 개의 주사위를 5회 던질 때 1의 눈이 2회 나올 확률은?

퍼라미터(parameter, 모수)가 n = 5, p = 1/6(0.17)인 이항분포에서 확률변수 X의 값이 2인, 즉, x = 2에 해당되는 확률을 구하는 문제이므로, 위에서 이항분포의 PDF인 식 (5)에 이 세 가지 값을 대입하면 된다.

문제에는 없지만, 한 개의 주사위를 5회 던질 때 1의 눈이 나오는 횟수를 확률변수 X라고 하고 X의 확률분포를 구해보자.

X는 0, 1, 2, 3, 4, 5를 값으로 가질 수 있을 것이다. 즉, 1의 눈이 한번도 나오지 않을 경우(X = 0), 1의 눈이 1회 나오는 경우(X = 1), 1의 눈이 2회 나오는 경우(X = 2), 1의 눈이 3회 나오는 경우(X = 3), 1의 눈이 4회 나오는 경우(X = 4), 그리고 1의 눈이 5회 나오는 경우(X = 5)가 있을 것이다. 확률변수의 각 값에 대한 확률은 다음과 같다.

기대되는 평균값(기대값)은 얼마일까?

이항분포의 기대값을 구하는 공식 (6)에 n = 5, p = 0.17을 대입하면 될 것이다.

이 기대값은 주사위를 5회 던졌을 때 1의 눈이 나오는 횟수가 평균 0.85회 정도라는 의미이다.

분산은?

공식 (7)에 n = 5, p = 0.17, 1-p = 0.83을 대입하면 구해진다.

아래는 MS 엑셀에서 확률분포, 기대값, 분산을 구하고, 확률분포를 그래프로 나타낸 것이다. 엑셀에서 이항확률분포를 구하는 함수는 BINOM.DIST이다. 공식을 이용해서 수작업으로 구한 결과와 엑셀 함수로 구한 결과가 일치한다. 그래프를 보면, 무게중심이 1의 약간 왼쪽에 있음을 알 수 있다. 그것이 기대값 0.85이다.

예제 2) 어느 공장에서 생산되는 제품의 5%가 불량품이다. 이 제품 10개를 검사하였을 때 2개가 불량품일 확률은?

퍼라미터: n = 10, X = 2, p = 0.05

확률변수 X : 10개 검사할 때 불량품의 갯수

엑셀을 이용해서 확률분포, 기대값, 분산을 구하면 다음과 같다.

예제 3) 코로나 19로 인한 국가 위기에서 2차 긴급재난지원금을 지급해야 하는가에 대한 한 언론사의 성인 대상 여론조사(응답자 1,000명)에서  80%의 응답자가 찬성을, 20%의 응답자가 반대하는 것으로 나타났다. 만일 임의로 성인 10명을 선정했을 때 6명이 찬성할 확률은?

이 문제에서 확률변수(X)는 찬성한 사람의 수이다. 퍼라미터는, n = 10, x = 6, p = 0.8. 이 값들을 PDF에 대입하면 답을 구할 수 있다.

엑셀을 이용해서 X의 확률분포, 기대값, 분산을 구하면 아래와 같다.

성공확률이 높으니 확률분포의 왼쪽 꼬리가 길다. 무게 중심은 X = 8에 있다.

예제 4)  어떤 양궁 선수가 화살을 쏘았을 때 명중할 확률이 0.6이라고 한다. 이 선수가 7번 화살을 쏘았을 때 몇 번이나 명중할까?

확률변수 X는 명중 횟수이다. 이항확률분포의 퍼라미터는, n = 7, p = 0.6 일 때 기대값(평균적인 명중 횟수)을 구하는 문제이다.

위에서 공식 (6)에 퍼라미터 값을 대입하면 된다.

즉, 예상되는 명중 횟수는 약 4번이다.

엑셀을 사용해서 확률분포, 기대값, 분산을 구해보자.

예제 5) 어느 회사원이 승용차로 출근하는 길에 신호등이 5개 있다고 한다. 각 신호등에서 빨간불에 의해 신호 대기할 확률은 0.2이고, 각 신호등에서 신호 대기 여부는 서로 독립적이라고 가정한다. 어느 날 이 회사원이 5개의 신호등 중 1개의 신호등에서만 신호대기에 걸리고 출근할 확률은?

이 문제에서는 빨간불 신호대기에 걸린 횟수가 확률변수 X이다. 이항확률분포의 퍼라미터는, n = 5, p = 0.2. 그리고 X = 1. 이 값들을 PDF에 대입하면 아래와 같다.

엑셀을 이용해 확률분포, 기대값, 분산을 구해보자.

빨간불 신호대기에 걸릴 평균적인 횟수(기대값)는 한 번이다. 그래프에서 무게중심도 1임을 알 수 있다.

이상으로 이항(확률)분포에 대한 설명을 마친다. 이항분포의 특성 중 두 가지를 첨언한다면, 이항분포에서 시행 횟수(n)이 크고, 성공확률(p)가 작으면 다음에 살펴 볼 포아송 분포가 되고, 이항분포의 시행 횟수가 많아지면 정규분포에 가까워진다. 그리고 성공확률이 0.5이면, 확률분포 그래프가 기대값을 중심으로 좌우대칭이 된다.

이항분포의 중요성은 아무리 강조해도 부족하다. 확률과 베이즈통계를 위해서는 꼭 기억해 둘 필요가 있다. (2020-08-28)

모비율의 추정은 어떻게?(중)

앞에서 모비율을 추정하면서 “표본의 크기가 큰 경우”라는 조건을 달았다. 모비율의 추정 공식이 항상 성립하는 것은 아님을 시사하면서 슬쩍 넘어간 것이다. 실제로 표본이 얼마나 커야  추정 공식을 적용할 수 있는 지에 대해 해답을 제시하지 않았다. 모비율 추정에 있어서는 이점이 중요함으로 충분히 알아보자.

핵심은 정규 근사(normal approximation, 표집분포가 정규분포에 충분히 근사함)를 하는데 요구되는 표본의 크기는 성공 확률()에 달려 있다는 점이다. 만약 가 0.5에 가까우면, 표본은 그렇게 클 필요가 없다. 반면에 가 0이나 1에 가까우면 훨씬 큰 표본이 요구된다. 이점을 구체적으로 살펴보자.

아래 그림에는 성공확률이 0.5이고  표본의 크기가 25인 이항분포의 그래프가 시뮬레이션되어 있다. 표본의 크기가 25 밖에 되지 않는데도 분포의 모양이 정규분포에 가깝다.

표본을 50, 100으로 키워서 시뮬레이션 한 결과가 아래에 있다.

표본의 크기가 100이 되니 비록 이산확률분포이지만 연속확률분포인 정규분포에 매우 근사하고 있음을 알 수 있다.

이번에는 성공확률이 0에 근접한 0.02일 때 표본의 크기를 가지고 시뮬레이션을 해보자. 아래에 표본의 크기가 100일 때 우측으로 꼬리가 긴 분포를 하고 있음을 볼 수 있다. 정규분포의 모습과는 거리가 멀다.

이번에는 성공확률 0.02는 그대로 두고 표본을 1,000으로 키웠더니 아래 그림처럼 정규분포에 근사한 결과를 얻었다.

이번에는 성공확률을 1에 근접한 0.96로 두고 시뮬레이션을 해보자. 표본의 크기가 100인 경우와 1,000인 경우의 결과가 아래에 제시되어 있다.

표본의 크기가 100일 때는 아직 뚜렷하게 왼쪽으로 편포되어 있지만, 1,000이 되니 정규분포에 근사하고 있다.

이상으로 몇 번의 시뮬레이션을 통하여, 성공확률이 0.5에 근접하면 정규 근사를 위해 표본이 그렇게 클 필요가 없지만, 성공확률이 0이나 1에 근접하면 정규 근사를 위해 표본이 상당히 커야함을 살펴보았다. 그렇다면 모비율 추정을 위해 필요한 표본의 크기를 어떻게 결정할까? 거친 가이드라인이기는 하지만, 아래 조건을 충족하면 증심극한정리를 적용하는 정규 근사가 가능하다고 본다.

어떤 학자들은 기준이 되는 값을 15 대신 5 혹은 10을 사용하기도 하지만 15가 좀 더 신중해 보인다. 이 공식을 적용하면, 만약 성공확률 가 0.03이면, 15 나누기 0.03하여 표본의 크기가 500, 성공확률이 0.9이면, 15 나누기 0.1하여, 표본의 크기가 150 이상이면 표집분포의 근사치로 정규확률분포를 사용할 수 있음을 의미한다.

다음 포스팅에서는 모비율 추정의 사례를 몇 개 살펴보자. (2019-09-28)

확률변수와 확률분포(2)

앞 포스팅에서 확률변수가 무엇인지를 알아보았다. 이제 확률분포와 확률함수에 관해 살펴보자.

확률변수는 이산적 확률변수(discrete random variable)와 연속적 확률변수(continuous random variable)로 나눌 수 있다. 이산적 확률변수는 0, 1, 2, 3과 같은 정수의 값을 가지며, 연속적 확률변수는 소수점의 값을 포함하는 실수의 값을 가진다. 확률변수가 그 두 가지 중 어느 것에 속하는가에 따라 확률의 의미와 계산 방법이 크게 달라진다.

이산적 확률변수는 확률변수의 각 값이 발생 확률을 갖지만, 연속적 확률변수는 특정 값의 발생 확률은 0이다. 연속적 확률변수는 확률변수가 특정 구간에 속할 확률만을 계산할 수 있다.

예컨대 필자가 가르치는 사회통계 과목은 상대평가이다. 그 과목에서 어떤 학생이 A+를 받을 확률은 10%, A0를 받을 확률은 15%이다. 등급(letter grade)은 이산적 확률변수이다. 그러나 어떤 학생이 기말시험에서 90점을 받을 확률이나 80.5점을 받을 확률은 모두 0이다. 취득점수(score)는 연속적 확률변수이다. 만약 확률을 계산하고 싶으면,  90점 이상 받을 확률(), 80점 이상 90점 미만을 받을 확률() 처럼 확률변수의 구간을 정해주어야 한다.

이산확률변수은 확률변수의 확률과 확률분포를 생성하는 확률함수를 갖는다. 반면에 연속확률변수는 확률변수의 구간 확률과 확률분포를 생성하는 확률밀도함수(Probability Density Function, PDF)를 갖는다.

이산확률변수가 이루는 이산확률분포에는 이항확률분포(binomial probability distribution), 포아송 확률분포(Poission probability distribution), 초기하 확률분포(hypergeometric probability distribution), 기하확률분포(geometric probability distribution) 등이 있다. 

이항확률분포는 이항실험(binomial experiment)과 연관되어 있다. 이항실험은 네 가지의 특성을 갖고 있다. 

  1) 실험은 n개의 동일한 시행으로 구성된다.

  2) 각 실험은 두 가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.

  3) 성공 확률은 p이며 반복실험에서 변하지 않는다. 

  4) 각 실험은 독립적으로 행해진다.

위에서 1번을 제외한 세 가지 특성을 가진 실험을 베르누이 시행(Bernoulli Trial)이라고 한다. 베르누이 시행을 반복하면 이항실험이 된다. 이항확률함수는, 

    여기서  = n회 시행에서 성공의 횟수가 x일 확률; x = 성공횟수; n = 시행 횟수;  p = 각 시행에서 성공이 일어날 확률; 1-p = 각 시행에서 실패가 일어날 확률;

이항확률분포의 기대값과 분산

포아송분포는 이항분포와 성격이 비슷하나, 시행횟수 n이 크고, 사건의 발생(성공) 확률 p는 매우 작은 경우에 사용된다. 포아송 확률함수는,

여기서  = 구간에서 x회 발생할 확률; (람다) = 구간에서 발생횟수의 기대값 또는 평균(이다); 

포아송 분포의 기대값과 분산


초기하 확률분포도 이항분포와 관계가 있다. 성공할 확률이 매회 동일할 경우(상호 독립적인 사건)는 이항분포를 이용하고, 동일하지 않을 경우(상호 종속적인 사건)는 초기하분포를 이용한다. 즉, 같은 실험에서 복원추출을 하는 경우나, 표본추출을 하는 모집단의 크기가 무한한 경우는 이항분포를 사용하고, 비복원추출인 경우나 모집단의 크기가 작은 경우는 초기하분포를 사용하여 확률을 구한다.

기하확률분포는 단 한번의 성공을 위해 실패를 거듭해야 하는 경우에 사용한다. x-1번까지는 계속 실패를 하고, x번째에 비로소 성공할 확률은 다음과 같이 구할 수 있다.

몇 가지 사례를 보자.

(이항확률분포) 한 개의 동전을 4번 던졌을 때 앞면이 나오는 횟수가 2회일 확률은 얼마인가?

n = 4, x = 2, p = 0.5

실제 계산은 스마트폰 앱 Probability Distributions로 수행할 수 있다. 답은 0.37500 이다.

(포아송확률분포) 주중 아침 15분 동안 자동차를 탄 채로 은행 서비스를 받기 위해 창구에 도착하는 자동차 대수에 관심이 있다고 하자. 과거의 자료로 볼 때 15분 동안 도착하는 자동차는 평균 10대이라고 하자. 경영자가 15분 동안에 5대가 도착할 확률을 알고 싶어한다. 그 확률을 계산해 보자.

, x = 5.

(초기하 확률분포) 온타리오 전기는 전기 퓨즈를 생산한다. 한 박스에는 12개의 퓨즈를 넣는다. 검사자는 박스에 들어있는 12개의 퓨즈에서 무작위로 3개를 뽑는다. 박스에 5개의 불량품이 있을 경우 검사자가 3개의 퓨즈 중 불량품 1개를 뽑을 확률은 얼마인가?

N(모집단의 갯수) = 12, n(시행횟수) = 3, M(모집단에서 성공원소의 갯수) = 5, x(성공 횟수) = 1

(기하확률분포) 한 개의 동전을 던져서 앞면이 나올 확률은 1/2이다. 동전을 던질 때 다섯 번째 비로소 앞면이 나올 확률은 얼마인가?

(윤영민, 2018-06-18)