베이즈 통계(5): 가설과 사전확률분포

베이즈 정리에 관한 빈도주의 통계의 개념에서 사전 확률(prior)이란 주변확률(marginal probabilities)에 불과하다. 그러나 베이즈 통계에서 사전 확률은 각 대안적 가설(alternative hypothesis)이 진실일 사전적(a priori) 확률이다. 사전적이라는 데이터 수집 전이라는 의미이다.

참고로 사전 확률이야말로 베이즈 통계를 빈도주의 통계와 구분짓는 가장 중요한 차이이다. 빈도주의 통계에는 단지 사전 확률이 없는 정도가 아니라 사전 확률이라는 개념적 접근을 강력히 부정한다.

앞에서 예로 든 유방암 사례에서는 두 개의 가설이 있었다. 유방암에 걸렸다는 가설과 유방암에 걸리지 않았다는 가설이다. 그런데 베이즈 통계에서는 2개 이상의 대안적 가설을 검증하는 경우가 흔하며, 각 가설에 대해서 사전 확률이 부여된다.

다수의 대안적 가설에 대해 확률이 부여되면 그것은 확률이 아니라 확률분포로 개념화되어야 한다. 대안적 가설이 하나의 확률변수가 되는 것이다. 확률이 부여된 대안적 가설이 구성하는 분포가 사전확률분포(prior distribution)이며, 사전확률분포 없이 베이즈 추론은 불가능하다.

만약 확률변수가 이산적(discrete)이라면 베이즈 정리는 다음과 같이 표기될 수 있을 것이다. 가설을 보다 일반적인 용례를 따라서 θ라고 표기한다.

말로 풀어보면, 구하고자 하는 사후확률 는 데이터가 주어졌을 때 특정한 가설 가 진실일 확률이다. 이 사후확률은 하나의 비율로 표시된다. 분자는, 특정한 가설 일 때 데이터를 관찰할 확률(우도) 에 사전확률 를 곱한 값이다. 분모는, 주어진 데이터의 주변확률, 즉, 모든 가설의 결합확률을 합한 값이다. 각 가설의 결합확률은 해당 가설의 우도 곱하기 해당 가설(분자에 결합확률들 중 하나가 있음)의 주변확률이다. 이는 각 가설에 대해 사전확률과 우도(likelihood)가 존재함을 함축한다.

표기 다소 혼란스럽게 느껴질 것이다. 의 아래 첨자가 도 있고, 도 있다. 그것들이 가리키는 의미를 분명히 하자면, i는 특정한 가설을 나타내고, j는 합산을 위한 인덱스이다.

예컨대 맞춤법 정정(spelling correction) 프로그램이 표기의 정확성이 분명치 않은 단어를 분류하는 문제를 생각해보자. 어떤 사람이 ‘radom’이라는 단어를 입력했다. 그것은 ‘random’의 잘못된 입력일 수도 있고, ‘radon’이나 어떤 다른 단어의 잘못된 입력일 수도 있으며, 의도적으로 ‘radom’이라고 입력한 것일 수도 있다. 문제를 간단히 하기 위해 가능성이 ‘radom’, ‘random’, ‘radon’ 세 가지 경우만 있다고 하자.

그렇다면, 데이터는 이고, 가설이 세 개(n = 3)이다:

먼저 원래 의도한 단어가 radom일(가설 1) 가능성을 계산하면 아래와 같을 것이다.

다음 의도한 단어가 random일(가설 2) 확률은 다음과 같다.

그리고 의도한 단어가 radon일(가설 3) 확률은 다음과 같다.

위 식들을 보면, 가 분자에서 특정한 가설을 가리키기 위해 사용되었음이 분명하고, 는 분자에서 합산을 위한 인덱스로 사용되었음이 분명하게 보인다. 로 역할을 구분하기는 했지만 일련번호는 동일하다. 의 아래 첨자 1은 도 되고 도 된다. 분자와 분모에서 역할을 구분하기 위해 다르게 표기했을 뿐이다. 분자에서는 관심을 갖는 가설이 바뀔 때마다 아래 첨자가 변했지만 분모에서는 아무런 변화가 없다. 가설 세 개의 결합확률을 모두 더 하기 때문이다. 분모는 좌변의 값을 0부터 1사이의 확률로 만들어 주기 위한 정규화 상수(normalizing constant)이기 때문에 관심을 갖는 가설이 바뀌어도 그 값이 일정하다.

다른 정보가 없다면, 사전 확률분포는 어떤 데이터베이스에서 이 세 단어의 상대 빈도를 가져오면 될 것이다. 구글(Google)의 연구자들이 제공한 위 세 단어의 상대 빈도(확률)은 다음과 같다.

radom이라는 단어가 폴란드에서 한 도시의 이름이기도 하고 어떤 권총의 비공식적인 이름이기도 하다.

이렇게 각 가설에 대해 사전확률을 부여할 수 있으면, 그러한 사전확률분포을 정보적 사전확률분포(informative prior distribution)라고 부른다.  ‘정보적’이란 사후확률분포의 결정에 영향을 미친다는 의미이다. 이 사전확률분포는 아래의 우도 함수와 함께 사후확률분포를 결정짓는다.

각 가설에 대한 우도는 아래와 같은 Google의 스펠링 체크 통계를 가져올 수 있다.

이 우도 함수(likelihood functions)는 하나의 확률분포가 아님을 기억해 두자. 그것은 세 개의 서로 다른 확률분포로부터 나온 조건부 확률이다.

이 우도 값들은 현실성이 있는 수치이다. radom이 올바로 타이핑했을 확률이 97.5%이고, random을 미스타이핑했을 확률이 0.2%이며, radon을 미스타이핑했을 확률은 0.01%이다.

사전확률분포와 우도함수를 구했으니 베이즈 정리를 이용해서 아래 표와 같이 사후확률분포를 계산할 수 있다.

조금 다른 예를 하나 더 보자. 어떤 여성이 몇 월에 태어났는 지를 알아맞추는 문제가 있다고 하자. 생일은 1월부터 12월까지 모두 가능하니 가설은 12개()이다. 그 가설은 각각 1월 가설(January hypothesis), 2월 가설,…12월 가설로 명명될 수 있을 것이다. 위의 식 (1)에서  , 가 된다.

만약 생일에 관해 아무런 힌트가 없다면, 사전확률분포는 어떻게 될까? 각 가설에 대해 동일한 확률을 부여하는 것이 사전 정보가 없다는 사실을 반영하는 하나의 방법이 될 수 있다. 그러면 각 달은 의 확률을 가질 것이다.  이 경우 확률분포는 다음과 같은 균일분포(uniform distribution)일 것이다.

이러한 사전확률분포를 비정보적 사전확률분포(non-informative prior distributions)라고 부르며, 그것은 모든 가설에 대해 동일한 확률을 갖게 한다. 즉, 각 달이 Mary의 생월이 될 사전확률이 동일하다. 비정보적 사전확률을 추정하는 것은 전적으로 우도에 의지해서 사후확률을 추정하겠다는 의지를 나타낸다. 비정보적 사전확률은 베이즈 추정에 있어 어떤 정보도 추가하지 않는다는 의미이다.

정보적 사전확률분포와 비정보적 사전확률분포 중 어느쪽을 택할 것인가? 이에 관한 원칙은 사전확률분포는 데이터를 보기 전에 당신이 확보할 수 있는 최고의 지식을 반영해야 한다는 것이다. 당신이 사후확률분포를 결정하는데 있어 상당히 중요한 정보를 알고 있음에도 불구하고 비정보적 사전확률분포를 사용하는 것은 정당화될 수 없다. (2020-10-26)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.