베이즈 통계(8): 우도와 퍼라미터 추정

앞 게시글에서 이항분포를 소개했다. 이번에는 그것을 퍼라미터와 우도(likelihood)의 관점에서 살펴보자. 이항분포는 두 개의 퍼라미터를 가진다고 했다. 동전을 3번 던졌을 때 윗면이 2번 나왔다. 그렇다면 성공확률()은 얼마일까? 성공확률은 이항분포의 퍼라미터 중 하나이다. 따라서 이 문제는 퍼라미터를 추정하라고 요구하고 있다. (시행횟수 n도 퍼라미터이지만 그것이 궁금할 일은 거의 없을 것이다.) 이 이항분포의 pdf는 다음과 같다.

이 pdf를 가지면 우리는 어떤 성공확률이든 우도를 계산할 수 있다. 위 식에서 성공확률을 넣으면 우도가 구해진다. 만약 성공확률이 0이라면(물론 실제로 그럴리는 없겠지만), 우도는 0이다. 조건부확률로 표현하면, 퍼라미터인 성공확률이 0일 때 동전을 3번 던져 2번 나오는 데이터를 관찰할 확률이 0이라는 말이다. 그렇다면, 성공확률이 0.1, 0.2, 0.3, 0.4,…1일 때의 각 성공확률을 같은 방식으로 추정할 수 있다. 아래는 그렇게해서 얻은 결과를 가지고 구성한 표이다.

성공확률() 우도(likelihood)
0 0
0.1 0.027
0.2 0.096
0.3 0.189
0.4 0.288
0.5 0.375
0.6 0.432
0.7 0.441
0.8 0.384
0.9 0.243
1 0

여기서는 11개의 경우만 제시했지만, 확률은 0부터 1 사이의 어떤 값도 가질 수 있으므로 사실 성공확률 값의 종류는 무한대이다. 퍼라미터가 무한대 존재한다는 말이다. 빈도주의 통계에서는 듣도보도 못한 현상이다.

편의상 두 가지 가설만 존재한다고 가정하자. 동전이 정직하다(p = 0.5이라고 두자)는 가설과 동전이 정직하지 못하다(p = 0.4이라고 두자)는 가설. 그리고 각 가설이 진실일 확률은 동일하다(각 0.5)고 가정하자. 각 가설의 사전확률(priors)이 각각 0.5라는 말이다. 그리고 동전던지기의 경우 우도함수가 이항확률함수이다.

그러면 베이즈 정리를 이용해서 먼저 동전이 정직하다는 가설부터 살펴보자. 동전을 3번 던져 2번 윗면이 나왔을 때 동전이 정직할 확률, 즉, 사후확률(posterior)을 구할 수 있는 사전확률(0.5)과 우도(0.375)가 구해진 것이다. 성공확률()이 0.5일 때 동전을 세번 던져서 두번 윗면이 나올 확률, 즉, 우도는 위 표에서 보듯이 0.375이다.

사전확률과 우도의 곱이 분자이니 쉽게 계산되고 이제 분모만 구하면 된다. 그런데 분모는 각 퍼라미터(가설)의 결합확률을 모두 합한 값이다. 그런데 계산을 간단히 하기 위해 동전이 정직하지 못한 경우 성공확률이 0.4라고 가정했다. 그러면 두 가지 경우만 있으니 분모 값은 아래와 같이 구해질 것이다. 퍼라미터가 0.5일 때 결합확률의 합이므로,

그렇다면, 동전이 정직하다는 가설의 사후확률은 다음과 같이 계산될 것이다.

사전확률은 0.5인데, 사후확률이 0.57이다. 동전던지기를 해서 세 번 중 두 번 윗면이나온다 라는 데이터를 얻고 나니 동전의 정직성에 대한 우리의 믿음이 0.5에서 0.57로 높아졌다.

반면에 동전이 정직하지 못하다는 가설의 경우, 분모는 퍼라미터가 0.5일 때 결합확률의 합이므로 앞의 경우와 동일하다. 따라서 사후확률은 아래와 같이 계산된다.

동전이 정직하지 못하다는 가설에 대한 우리의 믿음은 0.5에서 0.43으로 낮아졌다. 데이터가 수집되어 동전의 정직성에 관한 우리의 믿음이 갱신된 것이다.

다음 포스팅에서는 좀 더 복잡한 사례를 가지고 퍼라미터 추정을 보자. (2020-11-01)

확률분포(1): 이항확률분포

입문 수준의 베이즈 통계를 위해서 꼭 익혀 두어야 할 확률분포는, 이산분포에서 이항분포, 포아송분포, 초기하분포, 연속분포에서 균일분포, 정규분포, 지수분포, 감마분포, 베타분포 8개 정도가 아닌가 생각된다. 이 가운데 정규분포는 빈도주의 통계에서도 꼭 알아두어야 하는 확률분포이다. 빈도주의 통계에서는 추가로 t분포, F분포, 분포를 익혀야 할 것이니, 전체적으로 보면 입문 수준의 사회통계에서 11개 정도의 확률분포를 익혀두면 충분하지 않을까 생각된다.

빈도주의 통계에서 정규분포, t분포, F분포, 분포를 모르면, 모수를 통계적으로 추정할 수 없다. 비슷하게 베이즈 통계에서 위에서 언급한 8개를 모르면, 베이즈 정리를 다양한 예측에 적용하기 어렵다. 베이즈통계에서 예측은 관찰된 데이터를 가지고 사전분포를 업데이트하여 사후분포를 추정하는 것이기 때문이다.

통계를 이용한 추정과 예측에서 확률분포가 차지하는 비중이 워낙 크기 때문에 확률분포에 대해 충분히 시간을 갖고 공부할 필요가 있다. 그래서 전에 확률분포에 관해 몇 개의 글을 올렸지만, 너무 간략히 소개했던 것 같아 다시 베이즈통계에 필요한 10개의 분포를 하나 하나 좀 더 쉽고 자세하게 설명해 보도록 하겠다.

먼저 이산확률분포부터 시작하자. 이항확률분포(binomial probability distribution)는 가장 대표적 이산확률분포이며 정규분포에 버금가게 중요한 확률분포이다. 실제 이항분포가 적용될 수 있는 사회현상이 많기도 하다.

이항확률분포는 이항실험(binomial experiment)과 연관되어 있다. 이항실험은 네 가지의 특성을 갖고 있다. 

  1) 실험은 n개의 동일한 시행으로 구성된다.

  2) 각 시행은 두 가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.

  3) 각 시행에서 성공 확률은 p이며, 성공 확률은 반복 시행에서 변하지 않는다. (성공확률 불변 조건)

  4) 각 시행은 독립적으로 행해진다. (독립시행 조건)

위에서 1번을 제외한 세 가지 특성을 가진 실험을 베르누이 시행(Bernoulli Trial)이라고 한다. 베르누이 시행이 n회 반복된 실험이 이항실험이다. 

수업에서 가장 흔히 드는 이항실험의 사례는 동전 던지기이다. 동전을 던져서 특정한 면이 나오는 실험이다. 예컨대, 100원 주화를 다섯 번 던져서 앞면(이순신 장군 얼굴)이 나오는 횟수를 세는 실험은 이항실험이다. 실험은 5회의 동일한 시행으로 구성되며, 각 시행은 앞면과 뒷면의 두 가지 결과를 가지고, 각 시행에서 앞면이 나올 확률은, 정직한 동전이라면, 0.5이며, 그것은 반복 시행에서도 달라지지 않는다. 따라서 이항실험 조건을 충족한다. 그리고 동전 던지기 실험에서 앞면이 나오는 횟수는 이항확률분포를 갖는다.

이항실험의 예를 더 들어보자.

예제 1) 한 개의 주사위를 5회 던질 때 1의 눈이 2회 나올 확률은?

주사위는 육면체이고 여섯 개의 숫자로 되어 있지만, 이 실험에서 던질 때마다  1이 나오거나(성공) 1이 아닌 다른 수가 나오는(실패) 두 가지 결과밖에 없다. 주사위가 정직하게 만들어져 있다면, 1이 나올 확률(성공확률)은 1/6이고, 성공확률은 모든 시행에서 동일하게 1/6이다. 그리고 각 시행은 상호 독립적이며, 실험은 다섯 번의 시행으로 구성된다. 따라서 이 실험은 이항실험 조건을 충족하며, 일정 횟수만큼의  반복적인 주사위 던지기에서 1의 눈이 나오는 횟수는 이항확률분포를 갖는다.

예제 2) 어느 공장에서 생산되는 제품의 5%가 불량품이다. 이 제품 10개를 검사하였을 때 2개가 불량품일 확률은?

좀 이상하게 들리기도 하겠지만, 불량품이 나오는 결과는 기대하는 사건이 발생했다는 의미에서 확률적으로 성공이라고 간주될 수 있으며, 그 성공확률은 0.05이다. 각 제품의 생산은 하나의 시행이 되며, 매 시행에서 성공확률은 0.05이다. 각 제품의 생산은 독립 시행이며, 실험은 10번의 독립 시행으로 구성되어 있다. 따라서 이항실험 조건을 충족하며, 이 제품 검사에서 불량품의 갯수는 이항확률분포를 갖는다.

예제 3) 코로나 19로 인한 국가 위기에서 2차 긴급재난지원금을 지급해야 하는가에 대한 한 언론사의 성인 대상 여론조사(응답자 1,000명)에서  80%의 응답자가 찬성을, 20%의 응답자가 반대하는 것으로 나타났다. 만일 임의로 성인 10명을 선정했을 때 6명이 찬성할 확률은?

응답자에 관한 다른 정보가 없다면, 어떤 응답자가 찬성이라고 응답할 확률(성공 확률)은 0.8이며, 그것은 그 여론조사에 참여한 모든 응답자에게 동일하다고 가정될 수 있다.  그리고 각 응답자의 응답은 독립 시행으로 간주될 수 있으며, 임의로 10명을 뽑아서 동일한 질문을 물었을 때 찬성한 사람의 수를 구하는 것은 이항실험이며, 찬성한 사람의 수는 확률변수이다. 그리고 그 확률변수는 이항확률분포를 갖는다.

예제 4)  어떤 양궁 선수가 화살을 쏘았을 때 명중할 확률이 0.6이라고 한다. 이 선수가 7번 화살을 쏘았을 때 몇 번이나 명중할까?

현실에서 양궁 선수가 화살을 여러 차례 쏠 경우, 어떤 시행에서 화살의 명중확률은 이전에 쏜 화살이 명중했는가 아닌가에 따라 영향을 받게 될 것이다. 앞선 시행의 결과에 의해 대부분의 선수들이 심리적 영향을 받을 것이기 때문이다.

그런데 다소 비현실적이기는 하지만 앞선 시행 결과의 영향이 없다고 가정하면 독립시행으로 간주될 수 있다. 여기서는 그렇게 가정하자. 그럴 경우 명중(성공) 확률은 0.6으로 일정하다. 이 선수가 7번 화살을 쏜 것은 7번의 독립시행으로 간주될 수 있을 것이며, 명중(성공) 횟수는 확률변수이고, 그것은 이항확률분포를 이룰 것이다.

예제 5) 어느 회사원이 승용차로 출근하는 길에 신호등이 5개 있다고 한다. 각 신호등에서 빨간불에 의해 신호 대기할 확률은 0.2이고, 각 신호등에서 신호 대기 여부는 서로 독립적이라고 가정한다. 어느 날 이 회사원이 5개의 신호등 중 1개의 신호등에서만 신호대기에 걸리고 출근할 확률은?

각 신호등에서 빨간불에 의해 신호 대기할 확률(0.2)은 성공 확률로 간주될 수 있고, 신호등 통과는 독립시행이며, 여러 개의 신호등을 통과하는 데, 몇 번이나 빨간불에 걸리는가는 하나의 이항실험이 될 것이다. 그리고 빨간불에 걸리는 횟수는 확률변수이며, 일정한 갯수의 신호등을 통과하는데 있어 빨간불에 정지당하는 횟수는 이항확률분포를 이룰 것이다.

현실에서 이항분포는 공산품 제조에서 불량품 예측, 영업사원의 제품 판매 예측, 통신망에서 신호의 전달(혹은 실패) 예측, 도로의 분기점에서 자동차의 선회 방향 예측, 임직원의 통근 방법 예측 등 시행의 결과가 두 가지로 나오는 사회 현상에 광범위하게 적용될 수 있다. 이항실험 조건을 충족하는 사회 현상이 많기 때문이다. 더구나 주사위의 예에서 보듯이 시행의 결과가 두 가지 이상일 때도 관심을 갖는 하나의 결과를 중심으로 보면 시행 결과는 항상 두 가지로 나누어 질 수 있다. 따라서 독립시행 조건과 성공확률 불변 조건을 추가로 충족하면 사회현상은 이항확률분포를 적용할 수 있다.

이항실험은 베르누이 시행을 n회 반복한 것이고, 그렇게 해서 얻어진 것이 이항확률분포이다. 확률변수 X가 베르누이 분포를 따르면, 다음과 같이 표시된다.

여기서 B는 Bernoulli의 첫글자, p는 성공확률, 1-p는 실패확률이다. 이것을 일반화하는 함수로 표기하면,

여기서 . X =1은 성공, X=0은 실패.

기대값:

분산:

예컨대, 성공확률이 0.6인 베르누이 분포에서 성공할 확률은 PDF(Probability Density Function, 확률밀도함수: 이산분포의 경우 PMF, Probability Mass Function, 확률질량함수라고도 하지만 여기서는 그냥 PDF로 통일함)를 이용해 아래와 같이 구해진다.

실패할 확률은 아래와 같다.

확률변수 X의 기대값은 0.6, 분산은 0.24이다.

이항확률분포는 통상 로 표기한다. B는 Binomial(이항)의 첫글자이며, n은 베르누이 시행의 횟수, p는 성공확률이다. 확률변수 가 이항확률분포를 가지면 다음과 같이 표시된다.

이항확률분포는 다음과 같이 정의된다. 이항확률분포의 PDF는, 

여기서 는 n회 시행에서 성공의 횟수가 x일 확률; x = 성공횟수; n = 시행 횟수;  p = 각 시행에서 성공이 일어날 확률; 1-p = 각 시행에서 실패가 일어날 확률;

이항확률분포의 기대값과 분산은 다음과 같다.

이항확률분포의 기대값과 분산은 베르누이 분포의 기대값과 분산의 각 n배이다.

이항확률분포에 관한 정의를 가지고 위 예제들을 풀어보자.

예제 풀이

예제 1) 한 개의 주사위를 5회 던질 때 1의 눈이 2회 나올 확률은?

퍼라미터(parameter, 모수)가 n = 5, p = 1/6(0.17)인 이항분포에서 확률변수 X의 값이 2인, 즉, x = 2에 해당되는 확률을 구하는 문제이므로, 위에서 이항분포의 PDF인 식 (5)에 이 세 가지 값을 대입하면 된다.

문제에는 없지만, 한 개의 주사위를 5회 던질 때 1의 눈이 나오는 횟수를 확률변수 X라고 하고 X의 확률분포를 구해보자.

X는 0, 1, 2, 3, 4, 5를 값으로 가질 수 있을 것이다. 즉, 1의 눈이 한번도 나오지 않을 경우(X = 0), 1의 눈이 1회 나오는 경우(X = 1), 1의 눈이 2회 나오는 경우(X = 2), 1의 눈이 3회 나오는 경우(X = 3), 1의 눈이 4회 나오는 경우(X = 4), 그리고 1의 눈이 5회 나오는 경우(X = 5)가 있을 것이다. 확률변수의 각 값에 대한 확률은 다음과 같다.

기대되는 평균값(기대값)은 얼마일까?

이항분포의 기대값을 구하는 공식 (6)에 n = 5, p = 0.17을 대입하면 될 것이다.

이 기대값은 주사위를 5회 던졌을 때 1의 눈이 나오는 횟수가 평균 0.85회 정도라는 의미이다.

분산은?

공식 (7)에 n = 5, p = 0.17, 1-p = 0.83을 대입하면 구해진다.

아래는 MS 엑셀에서 확률분포, 기대값, 분산을 구하고, 확률분포를 그래프로 나타낸 것이다. 엑셀에서 이항확률분포를 구하는 함수는 BINOM.DIST이다. 공식을 이용해서 수작업으로 구한 결과와 엑셀 함수로 구한 결과가 일치한다. 그래프를 보면, 무게중심이 1의 약간 왼쪽에 있음을 알 수 있다. 그것이 기대값 0.85이다.

예제 2) 어느 공장에서 생산되는 제품의 5%가 불량품이다. 이 제품 10개를 검사하였을 때 2개가 불량품일 확률은?

퍼라미터: n = 10, X = 2, p = 0.05

확률변수 X : 10개 검사할 때 불량품의 갯수

엑셀을 이용해서 확률분포, 기대값, 분산을 구하면 다음과 같다.

예제 3) 코로나 19로 인한 국가 위기에서 2차 긴급재난지원금을 지급해야 하는가에 대한 한 언론사의 성인 대상 여론조사(응답자 1,000명)에서  80%의 응답자가 찬성을, 20%의 응답자가 반대하는 것으로 나타났다. 만일 임의로 성인 10명을 선정했을 때 6명이 찬성할 확률은?

이 문제에서 확률변수(X)는 찬성한 사람의 수이다. 퍼라미터는, n = 10, x = 6, p = 0.8. 이 값들을 PDF에 대입하면 답을 구할 수 있다.

엑셀을 이용해서 X의 확률분포, 기대값, 분산을 구하면 아래와 같다.

성공확률이 높으니 확률분포의 왼쪽 꼬리가 길다. 무게 중심은 X = 8에 있다.

예제 4)  어떤 양궁 선수가 화살을 쏘았을 때 명중할 확률이 0.6이라고 한다. 이 선수가 7번 화살을 쏘았을 때 몇 번이나 명중할까?

확률변수 X는 명중 횟수이다. 이항확률분포의 퍼라미터는, n = 7, p = 0.6 일 때 기대값(평균적인 명중 횟수)을 구하는 문제이다.

위에서 공식 (6)에 퍼라미터 값을 대입하면 된다.

즉, 예상되는 명중 횟수는 약 4번이다.

엑셀을 사용해서 확률분포, 기대값, 분산을 구해보자.

예제 5) 어느 회사원이 승용차로 출근하는 길에 신호등이 5개 있다고 한다. 각 신호등에서 빨간불에 의해 신호 대기할 확률은 0.2이고, 각 신호등에서 신호 대기 여부는 서로 독립적이라고 가정한다. 어느 날 이 회사원이 5개의 신호등 중 1개의 신호등에서만 신호대기에 걸리고 출근할 확률은?

이 문제에서는 빨간불 신호대기에 걸린 횟수가 확률변수 X이다. 이항확률분포의 퍼라미터는, n = 5, p = 0.2. 그리고 X = 1. 이 값들을 PDF에 대입하면 아래와 같다.

엑셀을 이용해 확률분포, 기대값, 분산을 구해보자.

빨간불 신호대기에 걸릴 평균적인 횟수(기대값)는 한 번이다. 그래프에서 무게중심도 1임을 알 수 있다.

이상으로 이항(확률)분포에 대한 설명을 마친다. 이항분포의 특성 중 두 가지를 첨언한다면, 이항분포에서 시행 횟수(n)이 크고, 성공확률(p)가 작으면 다음에 살펴 볼 포아송 분포가 되고, 이항분포의 시행 횟수가 많아지면 정규분포에 가까워진다. 그리고 성공확률이 0.5이면, 확률분포 그래프가 기대값을 중심으로 좌우대칭이 된다.

이항분포의 중요성은 아무리 강조해도 부족하다. 확률과 베이즈통계를 위해서는 꼭 기억해 둘 필요가 있다. (2020-08-28)