베이즈 통계(8): 우도와 퍼라미터 추정

앞 게시글에서 이항분포를 소개했다. 이번에는 그것을 퍼라미터와 우도(likelihood)의 관점에서 살펴보자. 이항분포는 두 개의 퍼라미터를 가진다고 했다. 동전을 3번 던졌을 때 윗면이 2번 나왔다. 그렇다면 성공확률()은 얼마일까? 성공확률은 이항분포의 퍼라미터 중 하나이다. 따라서 이 문제는 퍼라미터를 추정하라고 요구하고 있다. (시행횟수 n도 퍼라미터이지만 그것이 궁금할 일은 거의 없을 것이다.) 이 이항분포의 pdf는 다음과 같다.

이 pdf를 가지면 우리는 어떤 성공확률이든 우도를 계산할 수 있다. 위 식에서 성공확률을 넣으면 우도가 구해진다. 만약 성공확률이 0이라면(물론 실제로 그럴리는 없겠지만), 우도는 0이다. 조건부확률로 표현하면, 퍼라미터인 성공확률이 0일 때 동전을 3번 던져 2번 나오는 데이터를 관찰할 확률이 0이라는 말이다. 그렇다면, 성공확률이 0.1, 0.2, 0.3, 0.4,…1일 때의 각 성공확률을 같은 방식으로 추정할 수 있다. 아래는 그렇게해서 얻은 결과를 가지고 구성한 표이다.

성공확률() 우도(likelihood)
0 0
0.1 0.027
0.2 0.096
0.3 0.189
0.4 0.288
0.5 0.375
0.6 0.432
0.7 0.441
0.8 0.384
0.9 0.243
1 0

여기서는 11개의 경우만 제시했지만, 확률은 0부터 1 사이의 어떤 값도 가질 수 있으므로 사실 성공확률 값의 종류는 무한대이다. 퍼라미터가 무한대 존재한다는 말이다. 빈도주의 통계에서는 듣도보도 못한 현상이다.

편의상 두 가지 가설만 존재한다고 가정하자. 동전이 정직하다(p = 0.5이라고 두자)는 가설과 동전이 정직하지 못하다(p = 0.4이라고 두자)는 가설. 그리고 각 가설이 진실일 확률은 동일하다(각 0.5)고 가정하자. 각 가설의 사전확률(priors)이 각각 0.5라는 말이다. 그리고 동전던지기의 경우 우도함수가 이항확률함수이다.

그러면 베이즈 정리를 이용해서 먼저 동전이 정직하다는 가설부터 살펴보자. 동전을 3번 던져 2번 윗면이 나왔을 때 동전이 정직할 확률, 즉, 사후확률(posterior)을 구할 수 있는 사전확률(0.5)과 우도(0.375)가 구해진 것이다. 성공확률()이 0.5일 때 동전을 세번 던져서 두번 윗면이 나올 확률, 즉, 우도는 위 표에서 보듯이 0.375이다.

사전확률과 우도의 곱이 분자이니 쉽게 계산되고 이제 분모만 구하면 된다. 그런데 분모는 각 퍼라미터(가설)의 결합확률을 모두 합한 값이다. 그런데 계산을 간단히 하기 위해 동전이 정직하지 못한 경우 성공확률이 0.4라고 가정했다. 그러면 두 가지 경우만 있으니 분모 값은 아래와 같이 구해질 것이다. 퍼라미터가 0.5일 때 결합확률의 합이므로,

그렇다면, 동전이 정직하다는 가설의 사후확률은 다음과 같이 계산될 것이다.

사전확률은 0.5인데, 사후확률이 0.57이다. 동전던지기를 해서 세 번 중 두 번 윗면이나온다 라는 데이터를 얻고 나니 동전의 정직성에 대한 우리의 믿음이 0.5에서 0.57로 높아졌다.

반면에 동전이 정직하지 못하다는 가설의 경우, 분모는 퍼라미터가 0.5일 때 결합확률의 합이므로 앞의 경우와 동일하다. 따라서 사후확률은 아래와 같이 계산된다.

동전이 정직하지 못하다는 가설에 대한 우리의 믿음은 0.5에서 0.43으로 낮아졌다. 데이터가 수집되어 동전의 정직성에 관한 우리의 믿음이 갱신된 것이다.

다음 포스팅에서는 좀 더 복잡한 사례를 가지고 퍼라미터 추정을 보자. (2020-11-01)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.