베이즈 통계(14): 파리의 여아출생률, 재추정

Pierre-Simon Laplace - Wikipedia

18세기 프랑스 수학자 라플라스(Pierre-Simon Laplace)는 베이즈 정리를 이용해서 당대 프랑스 파리의 여아출생률(female birth rate)을 0.4902913으로 추정하였다. 그것은 곧 여아가 출생할 확률이기도 했다. 라플라스에게 주어진 데이터는 1745년부터 1770년까지의 프랑스 파리의 인구 통계였다. 그 기간 동안 총 출생(live births)은 493,472명이었고, 출생한 여아는 241,945명이었다.

여아출생률에 대한 가장 손쉬운 추정치는 출생한 여아 수를 총 출생으로 나눈 비율일 것이다. 위 파리의 사례에서 여아출생비율은 241,945/493472 = 0.4902912이다. 그러나 라플라스는 손쉬운 추정치가 아니라 정확한 추정치를 희망했다. 그래서 베이즈 정리를 적용하였다.

인구 출생 데이터를 라고 표기하자. 그리고 파리의 여아출생률을 라고 하면, 이다. 그 비율이 0과 1사이라는 의미이다.

베이즈 정리에 따르면, 사후확률은 우도와 사전확률의 곱에 비례하니 먼저 우도와 사전확률을 추정해야 할 것이다. 우도(likelihood)는, 범주가 여아와 남아 둘 뿐이니 아래와 같이 이항분포(Binomial distribution)로 놓으면 되겠다.

라플라스는 사전확률을 아래와 같은 균일분포(uniform distribution)로 두었다.

베이즈 공식을 적용해서 사후확률, 을 구하면 다음과 같다.

라플라스는 정규화(normalization)에 필요한 적분(분모)을 우회하기 위해 레온하르트 오일러(Leonhard Euler)가 1730년에 발견한 베타함수(Beta function)를 이용했다.

그런데 Uniform(|0,1) = Beta(|1,1)이다.  베타분포는,

모수가 에 관하여,

오일러의 베타함수가 정규화를 위해서 다음과 같이 사용된다.

여기서 는 계승(factorial)의 연속적 일반화이다. 그렇게 전환한 다음 약간의 계산을 거쳐 베이즈 정리를 풀면 다음과 같은 사후확률이 구해진다.

파리의 여아출생비율로 돌아오면, 사후확률은 Beta(|1+241945, 1+251527)이다.

그리고 사후확률의 평균은,

위에서 여아출생비율로 추정한 값과 소숫점 7번째 자리의 값이 다르다.

그런데, 라플라스처럼 적분 계산을 하지 않고 MCMC(Markov Chain Monte Carlo)를 적용해 풀면 다음과 같다. STATA를 이용하여 얻은 결과이다.

다음 칸으로 한 줄이 넘어가 출력되어 그림이 깔끔하지 않다. 결과를 보면, 파리의 여야출생률이 0.4889319과  0.4917104 사이에 있을 확률이 95%이며, 점추정값은 0.4903248이다. 라플라스의 추정과는 소숫점 네 자리 이하가 다르다. 라플라스가 살아있다면 이 결과에 어떻게 반응했을까?

아마도 수학자인 라플라스는 흡족하지 않았을 것이다. 그러나 필자는 만족한다. 남여출생률을 비교하는데 있어 출생률이 소숫점 두 자리 수(0.49)면 충분하지 않는가.

STATA가 MCMC를 12,500번 반복시행하고, 처음 2,500번의 시행 결과는 버리고 10,000 반복시행한 결과만을 가지고 사후분포를 추정하였다. 아래는 그 과정에 대한 간략한 진단 그래프이다.

시률레이션이 시행 결과를 충분히 수용할 만큼 조건을 충족하고 있음을 볼 수 있다. (2020-12-02)

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.