베이즈 통계(3): 베이즈 정리의 확장

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다. –> 흔히 X는 데이터이고 Y는 모수(parameter)이다. 베이즈 정리는 데이터가 주어졌을 때 모수를 얻게 될 확률을 구하는 과정이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다. –> 역조건부 확률 는 우도(likelihood)라고 부른다. 흔히 그것은 경험적으로 주어진다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다. –> 여기서 를 데이터를 얻기 이전 확률이라는 의미에서 사전 확률(prior)이라고 부르고 를 데이터를 얻은 후 확률이라는 의미에서 사후확률(posterior)이라고부른다. 베이즈 정리에서 데이터를 포착해 주는 부분이 우도이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다. –> 를 정규화 상수(normalizing constant)라고 부른다.

예제 1) 미국에서 정기적으로 건강 검진을 받는 40대 여성의 1%가 유방암을 가지고 있다. 유방암에 걸린 여성의 80%가 유방촬영검사(mammogram test)에서 양성 반응을 보였으며, 유방암을 걸리지 않은 여성 중 9.6%도 유방촬영검사에서 양성 반응을 나타냈다. 어떤 40대 여성이 정기 검진 때 유방촬영검사에서 양성 반응이 나왔다면 그녀가 실제로 유방암에 걸려 있을 확률은 얼마인가?

해제) 먼저 사건의 정의, 주어진 정보, 그리고 문제를 확률기호로 표기한다.

사건의 정의:

X: 유방활영검사: x1: 양성, x2:음성  Y: 유방암 발병: y1: 발병, y1: 발병 않음

주어진 정보:

문제:

이렇게 번역해 놓고 보니 역 조건부 확률(유방암일 때 검사 양성반응일 확률)을 이용해서 조건부 확률(검사 양성반응일 때 유방암일 확률)을 구하는 베이즈 정리의 응용 문제임이 분명하다. 베이즈 정리를 적용하려면, 역조건부확률 뿐 아니라 확률변수들의 주변확률을 알아야 한다. 그런데 주변확률 P(Y)와 P(X)에 대한 정보가 주어져 있으니 조건부확률을 구하는데 필요한 모든 정보를 다 가지고 있다.

분모인 주변 확률 P(X=x1)는 X=x1 일 때 모든 Y 값의 결합확률의 합이다. 즉, P(X=x1) = P(X=x1∩Y=y1) + P(X=x1∩Y=y2)이다. 그런데 결합확률 P(X=x1∩Y=y1) 는 다름 아닌 분자이다. 조건부 확률결합확률 나누기 조건의 주변확률이기 때문에 결합확률은 조건부확률 곱하기 조건의 주변확률이다.

이제 식 (1)에 주어진 값들을 대입하면 된다.

이 예제를 음미해 보면, 40대 여성의 유방암 발병율은 사전확률(prior)이고, 유방암 환자의 유방촬영검사 양성 반응의 비율은 경험적으로 구할 수 있는 우도(likelihood)이다. X=x1은 유방촬영검사 결과로 얻은, 조건에 해당되는 데이터이다. 이 예제는 어떤 여성의 유방촬영검사 결과가 양성일 때 그녀가 실제 유방암에 걸려 있을 확률이라는 사후확률(posterior)을 묻고 있다.

유방암촬영검사의 결과가 양성으로 나왔는데도 그 사람이 실제로 유방암에 걸렸을 확률이 0.08밖에 되지 않는다. 검사 장비의 성능이 나쁘지 않는데도 말이다. 그것은 무엇보다 유방암 발병율 자체가 0.01로 낮기 때문이다. 이는 모든 희귀병 검사에 적용될 수 있다. 즉, 베이즈 통계는 희귀병의 경우 설령 그 질병에 대한 검사 결과가 양성일지라도 실제 그 병에 걸렸을 확률이 낮다는 사실을 드러내 준다.

예제 2) 이메일의 스팸을 걸러내는 소프트웨어에는 베이즈 이론이 적용된다. 영어로 된 스팸메일에서 가장 많이 나타나는 단어가 shipping!이다. 스팸 메일 중 shipping!을 포함하는 메일의 비율은 0.051이고, 스팸이 아닌 메일에서 shipping!을 포함하는 메일의 비율은 0.0015이다. 그리고 많은 메일 중에서 10%가 스팸 메일이다. 만일 메일이 shipping!을 포함하고 있다면 스팸일 확률은? 만일 메일이 shipping!을 포함하고 있음에도 불구하고 스팸이 아닐 확률은? 만일 메일이 shipping!을 포함하고 있다면 스팸이라고 판명해야할까?

해제)

사건의 정의

X: 이메일에 shipping!이 단어 출현 여부. x1=shipping!이 있음, x2=shipping!이 없음

Y: 스팸 메일 여부. y1 =스팸 메일, y2=스팸 메일이 아님

주어진 정보

문제

이 문제도 역시 역 조건부확률을 알고 있을 때 조건부확률을 구하는 베이즈 정리 응용 문제이다. 주변확률 P(Y=y1)는 주어져 있고, P(X=x1)는 주어진 정보로부터 구할 수 있다.

그런데,

이 값들을 식 (1)에 대입하면,

매번 조건의 주변확률을 구하기가 쉽지 않다. 사실 조건의 주변확률을 구하는데 부딪치는 어려움이 오랫동안 베이즈 통계의 아킬레스 건이었다.

이제 다음 베이즈 정리에서 우항의 분자, 분모의 값을 다 구했다.

분자는  결합확률 이다. 분자, 분모 값을 위 식에 대입하면 답을 구할 수 있다.

이메일에 shipping!이라는 단어가 들어가면 그 메일이 스팸일 확률이 약 80%이니 그 메일이 스팸이라고 분류해도 될 것이다.

이 문제에서 사전확률(prior)은 이메일 중 스팸 메일의 비율인 0.1이다. 우도(likelihood)는 스팸 메일일 때 shipping!이라는 단어가 들어가 있을 확률인 0.051이다. 정규화 상수(normalizing constant)는 조건의 주변확률(이메일에 shipping!이 들어있을 확률이다)인 0.00645이다.

이를 일반적인 용어를 사용해 풀어보면, 모든 메일 중 10%가 스팸 메일이니, 우리에게 다른 정보가 없다면, 어떤 메일이 스팸일 확률을 0.1이라고 추측하면 될 것이다. 그런데, 그 이메일이 shipping!이라는 단어를 담고 있다면, 우리의 추측은 크게 향상되어서 그 메일이 스팸일 확률이 0.79라고 추정하게 된다. shipping!이라는 단어가 들어 있다는 정보 하나로 어떤 이메일이 스팸일 확률이 비약적으로 올라갔다.

(예제 3) 서로 다른 두 납품업체(공급자 1과 공급자 2)로부터 원자재를 공급받는 제조회사가 있다. 현재 공급자 1로부터 65%의 원자재를 구매하고, 공급자 2로부터는 35%를 구매한다. 한편 그 동안 두 업체로부터 납품 받은 원자재의 품질은 아래와 같다.

편집
좋은 품질 비율(%) 나쁜 품질 비율(%)
공급자 1 98 2
공급자 2 95 5

그런데, 제품 생산 과정에서 어떤 원자재가 불량으로 나타났다. 그 원자재가 공급자 1로부터 왔을 확률은 얼마이고, 공급자 2로부터 왔을 확률은 얼마인가?

해제)

사건의 정의

X: 원자재의 품질 수준. x1=좋은 품질의 원자재, x2=나쁜 품질의 원자재

Y: 납품 공급자.  y1 = 공급자 1로부터 납품 받음, y2 = 공급자 2로부터 납품 받음

주어진 정보

이 문제 풀이의 첫 번째 관건은  표에 있는 데이터를 어떻게 해석할 것인가이다. 예컨대 공급자 1이 좋은 품질의 원자재를 납품할 확률은 98%이다. 이 진술은, 공급자가  1일 때(조건), 좋은 품질의 원자재일 확률, 즉, 조건부 확률이 0.98임을 말한다. [공급자가 1이면서 좋은 품질의 원자재를 납품할 확률(즉, 결합확률)을 의미하는 것이 아님에 유의할 것.]

이 문제 풀이의 두 번째 관건은 주변확률, 를 구할 수 있느냐이다. 역시 이 문제에서도 분모에 들어가는 조건 사건의 주변확률을 구하는 것이 관건이다.

문제를 베이즈 정리 형식으로 표현해 보자. 어떤 원자재가 불량(나쁜 품질)일 때, 그 원자재가 공급자 1로부터 왔을 확률은 다음과 같이 표시할 수 있다.

우변에서 먼저 분모에 있는 X=x2의 주변 확률을 구하자. 그것은 해당되는 결합확률을 모두 더한 값이다. 즉,

이다.

그런데 곱셈법칙(결합확률 = 주변확률 * 조건부 확률)에 의하면,

이 값들을 식 (3-2)에 대입하면,

우리는 식 (3-3)의 우변에 확률값을 모두 알고 있다. 그 값들을 대입해서 를 구하자.

다시 식 (3-1)로 돌아가서 확률값들을 대입한다.

즉, 원자재가 불량일 때, 그것이 공급자 1로부터 왔을 확률은 0.426이다. 그렇다면 공급자 2로부터 왔을 확률은 0.574(= 1-0.426)가 될 것이다.

공급자 1의 납품비율은 0.65이다. 이는, 추가 정보가 없는 상태에서 어떤 원자재를 지목했을 때 그것을 공급자 1이 납품했을 확률이 0.65라고 추정될 수 있음을 의미한다. 그런데 그 자재가 불량이라는 정보가 추가되니 그것을 공급자 1이 납품했을 확률이 0.426으로 떨어졌다. 사전정보(prior)은 0.65이고, 사후정보(posterior)는 0.426이다. 공급자 1이 납품한 원자재가 불량일 확률 0.02는 우도(likeihood)이다. 어떤 원자재가 불량일 확률(P(X = x2) 0.0305는 정규화 상수(normalizing constant)이다.

세 개의 예제를 가지고 베이즈 정리가 확장되어 어떻게 응용되는가를 알아보았다. 다음 포스팅에서는 베이즈 정리가 조건부 확률을 구하는 도구를 넘어서 과학 연구의 도구로 사용되는 논리적 근거를 살펴보자. (2020-10-20)

결합확률, 주변확률, 조건부 확률: 이산확률변수

교차표(cross-table)

두 개의 이산확률변수 X, Y가 결합하여 아래와 같은 교차표가 형성되었다고 하자.

각 칸(cell)에는 두 확률변수 값()을 충족하는 사상(事象, event)이 들어간다. 그것을 총 사상의 수효인 N에 대비하여  로 표시하자. 관행에 따라 확률변수는 대문자로, 확률변수의 값은 소문자로 표기한다.

결합확률(joint probability)

두 확률변수의 결합확률은 아래와 같이 표시된다. 두 확률변수의 결합확률은 두 확률변수의 교집합이 발생할 확률이다.

또한 확률은 항상 0과 1 사이의 값을 갖는다. 따라서 확률로 나타낸다는 것은 사상의 수를 0과 1 사이 값으로 정규화(normalization)한다고 말할 수 있다. 정규화를 하면 사상 값들의 총합은 1이다. 각 사상의 수( )를 총 사상의 수 N으로 나누면 사상의 수가 모두 0과 1 사이의 값으로 정규화된다. N은 정규화 상수(normalizing constant)라고 말할 수 있다. 결합확률은 사상의 수가 정규화된 값이다.

결합확률표(joint probability table)

주변확률(marginal probability)

주변확률은 결합확률이 있다는 조건에서 존재한다. 이산형 확률변수의 경우 두 개(혹은 그 이상)의 확률변수로 구성된 결합확률표에 존재한다. 위 결합확률표에서 한 확률변수의 확률만을 고려하는 것이 주변확률이다. 진한 파랑색으로 된 부분이 주변확률이다. 위 결합확률표에서 확률변수 X, Y 중 X 혹은 Y 하나만 고려하면 주변확률이 나온다. X의 주변확률은 특정한 X 값에 속하는 X, Y 결합확률 값을 모두 합한 것이다. 위 결합확률표에서 여섯 개의 주변확률은 다음과 같이 계산된다.

확률변수 X, Y의 결합확률을 일반화시켜서 나타내면 아래와 같다.

조건부 확률(conditional probability)

확률변수 두 개(혹은 그 이상)가 있다. 하나 확률변수의 특정 값(e.g. )이 주어졌을 때, 다른 하나 확률변수의 특정 값(e.g. )이 나타날 확률이 조건부 확률이다. 흔히 조건부 확률은 다음과 같이 표기된다.

하나의 확률변수 값()이 주어졌기 때문에, 전체 사상(N) 대신 오직 그 값의 사상()만 고려된다. 즉, 가 정규화 상수가 된다. 결합확률과 주변확률의 경우에는 N이 정규화 상수였다. 다시 말해 N이 1이 되는 것이 아니라 가 1이 된다.

위 결합확률표를 가지고 예를 들어보자. 확률변수 X가 3일 때 조건부 확률은 세 가지가 있을 것이다. Y가 1인 경우, Y가 2인 경우, Y가 3인 경우이다. 조건부 확률을 구하려면, X가 3인 열의 칸을 모두 P(X = 3)으로 나누어 주면 된다.

그러면 아래 결합확률표의 주황색 열처럼 될 것이다. 조건부 확률은 결합확률을 주변확률로 나눈 값이다.

조건부 확률을 합하면 1이다.

조건부 확률은 다음과 같이 일반화하여 표시될 수 있을 것이다.

개념적으로 설명했으니  이제 예제를 가지고 이해해 보자. 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀를 구분해 정리한 자료이다.

 X = x1X = x2
Y = y128836324
Y = y2672204876
9602401,200

사건의 정의:

확률변수 = 성별: = 남성, = 여성

확률변수 = 승진 여부: = 승진,  = 승진탈락

이 데이터를 가지고 결합확률표를 구해보자. 각 칸(사상)의 빈도수()를 총 빈도수(N)로 나누어 0과 1 사이로 정규화하면 그것이 결합확률이다. 그렇게 해서 구한 결합확률표는 아래와 같다.

 X = x1X = x2P(Y = yi)
Y = y10.240.030.27
Y = y20.560.170.73
P(X = xi)0.800.201.00

결합확률표에서 각 열의 결합확률을 더하면 성별의 주변확률이 구해지고, 각 행의 결합확률을 더하면 승진여부의 주변확률이 구해진다. 주변확률도 전체 사상수에 의해 정규화되어 있어 열의 주변확률을 모두 더한 값도 1이고 행의 주변확률을 모두 더한 값도 1이다.

그렇다면 어떤 경찰관이 여성일 때, 그 경찰관이 승진할 확률은 얼마이겠는가? 조건부 확률을 묻는 문제이다.

이 조건부 확률은, 여성이면서 승진한 경찰관일 확률이라는 결합확률(0.03)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.15이다.

어떤 경찰관이 여성일 때, 그 경찰관이 승진하지 못할 확률은? 이것도 조건부 확률 문제이다.

여성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.17)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.85이다.

이 두 개의 조건부 확률을 합하면 1이다. 조건부확률이란 주변확률을 1로 만든 것이니 당연한 결과이다.

남성 경찰관은 어떨까?

어떤 경찰관이 남성일 때, 그 경찰관이 승진할 확률은? 남성이면서 승진한 경찰관일 확률이라는 결합확률(0.24)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.3이다.

어떤 경찰관이 남성일 때, 그 경찰관이 승진하지 못할 확률은? 남성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.56)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.7이다.

이 두 조건부 확률을 더하면 1이다.

여성 경찰관이 승진할 확률은 0.15이고, 남성 경찰관이 승진할 확률은 0.3이니 남성 경찰관이 승진할 확률이 여성 경찰관이 승진할 확률의 두 배이다. 성차별 냄새가 나는 차이이다.