베이즈 통계(6): 데이터와 우도

베이즈 추론에서 사전확률분포와 더불어 꼭 필요한 요소가 우도(likelihood)이다. 우도는 베이즈 추론 과정에 데이터가 들어오는 방식이다. 빈도주의 통계에서 데이터는 무작위(random)를 원칙으로 수집된 표본의 순서쌍 데이터 혹은 그것으로부터 도출된  표본 통계(sample statistics)의 형식으로 추론 과정에 들어간다. 그런데 베이즈 통계에서는 데이터가 우도라는 특수한 형식을 취하면서 추론 과정에 들어가는 것이다. 앞 게시글에서 베이즈 추론을 다음 식으로 제시했다.

이 식에서 빨간 글씨로 표시된 부분이 우도이다. 주어진 가설이 진실일 때 데이터가 관찰될 확률이 우도이다. 우도는 데이터가 수집되기 전에 예측되는 확률이 아니라 이미 수집된 데이터를 가지고, 가설이 진실이라는 조건 아래에서 회고적으로(retrospectively) 바라보는 확률이다. 사전확률과 달리 우도는 데이터가 손에 들어와 있어야 상상 가능하다.

우도는 우리가 궁극적으로 구하고자 하는 사후확률이라는 조건부확률의 역조건부확률(inverse conditional probability)이다. 우도에서는 가설과 데이터의 위치가 사후확률의 그것과 반대이다. 사후확률은 데이터가 관찰되었을 때 가설이 참일 확률이다. 즉, 데이터가 조건에 해당된다. 그런데 우도는 가설이 참일 때 데이터가 관찰될 확률이다. 즉, 가설이 조건으로 제시된다.

앞에서 든 예들을 상기해 보면, 유방암 문제의 경우, 유방촬영검사 결과가 양성일 때 유방암에 걸렸을 확률을 구하는 것이었고, 그 추론을 위해서는 유방암 환자가 유방촬영검사에서 양성일 확률이라는 역조건부확률을 구해야 했다. 스펠 체크 예제는, radom이라는 타이핑이 진짜 radom을 의도했을 확률, random의 오타일 확률, radon의 오타일 확률을 구해서 비교하는 문제였고, 그 추론을 위해서는 의도가 radom일 때 radom이라고 타이핑할 확률, random일 때 radom이라고 타이핑할 확률, radon일 때 radom이라고 타이핑할 확률이라는 역조건부확률이 필요했다.

예제에서는 풀이를 단순화하기 위해 역조건부확률을 그냥 제시했지만, 사실 현실에서 그것을 구하기 쉽지 않다. 병원 데이터베이스에서 역조건부확률에 해당되는 통계를 찾아내기도 하고, 여론조사 결과에서 데이터를 가져오기도 한다. 그런데 결합확률표만 이용가능할 때도 있고, 빈도의 교차표만 이용 가능할 때도 있다. 그런 경우에는 곱셈법칙을 이용해서 역조건부확률을 구해야 한다. 그도 저도 아닌 경우에는 사후확률에 대한 역조건부확률이 무엇인지를 분명히 하고, 그에 적합한 데이터를 수집해야 할 것이다.

우도와 관련된 다른 한 가지 중요 포인트는 데이터로 포착되는 확률변수가 하나 이상일 때 어떻게 처리해야 하는가 하는 문제이다. 예컨대 베이즈 통계(2): 조건부 확률 가지고 놀기라는 포스팅에서 사용했던 경찰관 승진 사례에서 경찰관의 성별이 승진 여부에 미치는 영향이었다. 그런데 만약 인종(race)도 승진에 영향을 미친다면, 소위 독립변수가 두 개가 될 것이다. 빈도주의 통계의 다중회귀분석(multiple regression)에서처럼 독립변수가 2개 이상일 수도 있다. 그런 경우에는 우도함수를 어떻게 구할 수 있을까?

그 경우의 우도는 결합우도(joint likelihood)이라고 불리는데, 그것은 결합확률(joint probability)을 구할 때처럼 하면 된다. 즉, 두 확률변수(혹은 데이터 원천)가 상호독립적이면, 각 확률변수의 우도를 구한 다음 곱해주면 결합우도가 계산된다. 두 확률변수나 데이터 원천이 상호독립적이 아닐 때면 계산이 좀 복잡해 질 것이다.

예를 하나 보자(Donovan and Mickey, 2019). 다음은 베이즈 정리를 발견한 토마스 베이즈(Thomas Bayes)의 초상으로 널리 인정받는는 그림이다. 그런데 이 초상화의 인물이 정말로 토마스 베이즈인가에 대해서는 논란이 있다. 어떤 학자가 베이즈 추론을 사용해서 이 초상이 토마스 베이즈의 것인가에 대한 확률을 계산했다.

Thomas Bayes - Wikipedia

초상에 있는 남성이 토마스 베이즈일 우도를 직접 계산할 수는 없지만, 초상화 속의 중년 남자가 1750년대 가발(wig)을 쓰지 않은 목사(minister)일 우도는 계산할 수 있다. 초상화 속의 인물을 가발을 쓰지 않고 있다. 그런데 당시 목사들은 대부분 가발을 썼으며 일부 종파의 목사만 가발을 쓰지 않았다고 한다. 만약 당시 목사들이 가발을 얼마나 착용했는지에 대한 데이터가 있다면 초상화 속의 인물이 가발을 쓰지 않은 목사일 우도를 계산할 수 있을 것이다. 이것은 하나의 추론 근거이다.

다른 하나의 추론 근거는 초상화 속의 인물이 토마스 베이즈의 아버지인 조슈아 베이즈(Joshua Bayes)와 얼마나 닮았는가이다. 아래는 조슈아 베이즈의 초상이다.

Great Christian Library: Joshua Bayes 1671-1746

이 두 초상의 유사도(similarity index)가 55라고 하자. 그렇다면 우리가 손에 쥔 데이터는 가발 착용 여부부자 초상간 유사도 두 가지이며, 그것은 아래와 같이 요약된다. 이 두 가지 변수는 상호독립적이다.

가발 = 0,     유사도 = 55

우리에게는 두 가지 가설이 있다: 토마스 베이즈의 초상이다, 토마스 베이즈의 초상이 아니다.

토마스 베이즈의 초상이라는 가설이 참일 때 가발을 쓰지 않고 있을 우도를 구하고, 토마스 베이즈의 초상이라는 가설이 참일 때 유사도가 55(혹은 그 이상)일 우도를 구한 다음 그 둘을 곱하면 결합우도를 구할 수 있다. 먼저 1750년대의 초상화 속에서 중년 남성의 가발착용여부에 관한 데이터를 구해야 할 것이다. 100명에 관한 자료를 구했다고 가정하자. 아래는 그 데이터의 일부이다.

Person Minister wig
1 0 1
2 1 0
3 0 1
4 0 1
5 1 0
6 1 0
7 1 1
8 1 0
9 1 1
10 0 1

이 데이터를 가지고 다음과 같은 교차표를 만들 수 있을 것이다.

Wig No Wig Sum
Ministers 8 2 10
Non-ministers 15 75 90
Sum 23 77 100

토마스 베이즈의 초상이라는 가설이 참일 때, ‘가발을 착용하지 않은 목사’의 우도는 위 교차표를 참고하면  2/100 = 0.02로 추정될 수 있다.

다음은 부자간 닮은 정도(유사도)에 관한 우도이다. 영국에서 1천명의 부자인 경우 유사도 점수를 구했고, 1천명의 부자가 아닌 경우 유사도 점수를 구했다고 가정하자. 그중 10 개 사례의 데이터는 다음과 같다.

Pair Related Similarity
1 0 31
2 0 80
3 0 29
4 0 71
5 1 60
6 1 61
7 1 26
8 1 39
9 1 29
10 1 75

55점은 부자간 유사도의 최소 점수이니 우도를 계산할 때는 55점 이상을 기준으로 하자. 토마스 베이즈의 초상화라는 가설이 참일 때 유사도가 55점 이상일 우도는 0.69로 계산되었다. 반면에 토마스 베이즈의 초상이 아니라는 가설이 참일 때 유사도가 55점 이상일 우도는 0.01로 계산되었다.

이 두 가지 정보가 상호독립적이라는 가정 아래 그 둘을 곱하면 결합우도를 구할 수 있다. 토마스 베이즈의 초상이라는 가설은,

가발착용여부의 증거는 0.02이고, 유사도 점수의 증거는 0.69이므로,

토마스 베이즈의 초상이라는 가설이 참일 때 이 데이터를 관찰할 우도는

토마스 베이즈의 초상이 아니라는 가설이 참일 때, 각각의 증거(우도)는,

가발착용여부의 증거는 0.77, 유사도 점수의 증거는 0.01이므로,

토마스 베이즈의 초상이 아니라는 가설이 참일 때, 이 데이터를 관찰할 우도는

이렇게 해서 사후확률을 구하는데 필요한 우도를 계산했다.

데이터를 구하기 전에 토마스 베이즈의 초상이라는 가설과 토마스 베이즈의 초상이 아니라는 가설이 참일 가능성이 동일하다고 간주하여 사전확률을 각각 0.5, 0.5로 부여했다면 아래 표에서와 같이 사후확률이 계산될 수 있을 것이다.

Prior Likelihood Prior*Likelihood Posterior
Thomas Bayes 0.5 0.0138 0.0069 0.64
Not Thomas Bayes 0.5 0.0077 0.00385 0.36
1.0 0.01075 1.00

토마스 베이즈로 간주되는 초상화가 주어졌을 때, 그것이 진짜로 토마스 베이즈의 초상일 확률은 0.64이고, 토마스 베이즈의 초상이 아닐 확률은 0.36이다. 그 초상이 토마스 베이즈의 것이라고 100% 확신할 수는 없지만, 이상의 베이즈 추론은 다른 반증이 없는 한 그것을 토마스 베이즈의 초상으로 간주해도 무방하다 증거를 제공한다.

이러한 방식으로 두 개(혹은 그 이상의) 독립변수 혹은 두 개 이상의 데이터 원천이 제공하는 증거로부터 베이즈 추론에 필요한 우도를 계산할 수 있다. 이상의 논의에서 독자들은 베이즈 추론에 필요한 데이터가 우도라는 형식으로 확보되어야 하며, 두 개(혹은 그 이상)의 확률변수 데이터로부터 우도를 도출할 수 있음을 알 수 있었으리라 생각한다. (2020-10-29)

참고 문헌

Donovan, Therese M. and Ruth M. Mickey. 2019. Bayesian Statistics for Beginners. Oxford University Press.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.