(Bayes 학습)(12) 18세기 프랑스 파리의 여아출생비율

오래만에 다시 베이즈 공부로 돌아왔다. 예전에 공부한 것을 복습도 할겸 라플라스(Laplace)가 베이즈 정리를 이용해 구했던 18세기 프랑스 파리의 여아출생률(female birth rate) 계산을 생각해 보자.

라플라스에게 주어진 데이터는 1745년부터 1770년까지의 프랑스 파리의 출생 기록이었다. 그 기간 동안 총 출생(live births)은 493,472명이었고, 출생한 여아는 241,945명이었다. 물론 남아는 251,527명이었겠지.

이것을 라고 표기하자. 그리고 파리의 여아출생비율을 라고 하면, 이 되겠다. 비율이 0과 1사이라는 의미이다.

베이즈 정리에 따르면, 사후확률(posterior probability)은 우도(likelihood)와 사전확률(prior probability)의 곱에 비례하니 먼저 우도와 사전확률을 추정해야겠지.

우도(likelihood)는, 범주가 여아와 남아 둘 뿐인 비율이니 아래와 같이 이항분포(Binomial distribution)로 놓으면 되겠다.

그리고 사전확률은 라플라스의 예에 따라 아래와 같이 균일분포(uniform distribution)로 두자.

베이즈 공식을 적용해서 사후확률, 을 구하면 다음과 같다.

라플라스는 정규화(normalization)에 필요한 적분(분모)을 계산하기 위해 레온하르트 오일러(Leonhard Euler)가 1730년에 발견한 베타함수(Beta function)를 이용했다. 베이즈 목사는 하지 못했던 계산이지. 그렇게 하면 다음과 같은 사후확률이 구해진다.

간단하지? 그런데 사실은 그 뒷면에 아래와 같은 복잡한 계산이 있다.

위에서 Uniform(|0,1) = Beta(|1,1)임을 상기해라.  베타분포를 복습해 보면,

For parameters ,

오일러의 베타함수가 정규화를 위해서 다음과 같이 사용된다.

여기서 는 계승(factorial)의 연속적 일반화이다. 이 부분은 복잡하지만 네가 파이썬으로 처리할 수 있을 것이다.

파리의 여아출생비율로 돌아오면, 사후확률은 Beta(|1+241945, 1+251527)이다.

그리고 사후확률의 평균은,

즉, 여아출생비율은 49%로 추정된다. 남아출생비율은 당연히 51%가 될 것이다. 남아출생비율이 여아출생비율보다 다소 높다.

기존에 존재하던 증거나 믿음으로 추정되는 사전확률(prior distribution)이, 데이터와 모수의 관계를 이어주는 우도(likelihood)에 의해 업데이트되어 사후확률(posterior distribution)이 구해졌다. 이 사후확률 분포의 일차 모멘트가 평균이다. 하나의 모집단 비율을 베이즈 추론으로 구해보았다. 이는 가장 간단한 베이즈 추론의 경우가 되겠다. 이제 좀 더 복잡한 경우들을 다루어 보자.

참고문헌

Bob Carpenter. 2015. “Bayesian Inference and Markov Chain Monte Carlo.”

Surya Tapas Tokdar. 2013. “STA 250: Statistics Notes 7. Bayesian Approach to Statistics.” Book chapters: 7.2

 

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다