베이즈 통계(3): 베이즈 정리의 확장

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다. –> 흔히 X는 데이터이고 Y는 모수(parameter)이다. 베이즈 정리는 데이터가 주어졌을 때 모수를 얻게 될 확률을 구하는 과정이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다. –> 역조건부 확률 는 우도(likelihood)라고 부른다. 흔히 그것은 경험적으로 주어진다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다. –> 여기서 를 데이터를 얻기 이전 확률이라는 의미에서 사전 확률(prior)이라고 부르고 를 데이터를 얻은 후 확률이라는 의미에서 사후확률(posterior)이라고부른다. 베이즈 정리에서 데이터를 포착해 주는 부분이 우도이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다. –> 를 정규화 상수(normalizing constant)라고 부른다.

예제 1) 미국에서 정기적으로 건강 검진을 받는 40대 여성의 1%가 유방암을 가지고 있다. 유방암에 걸린 여성의 80%가 유방촬영검사(mammogram test)에서 양성 반응을 보였으며, 유방암을 걸리지 않은 여성 중 9.6%도 유방촬영검사에서 양성 반응을 나타냈다. 어떤 40대 여성이 정기 검진 때 유방촬영검사에서 양성 반응이 나왔다면 그녀가 실제로 유방암에 걸려 있을 확률은 얼마인가?

해제) 먼저 사건의 정의, 주어진 정보, 그리고 문제를 확률기호로 표기한다.

사건의 정의:

X: 유방활영검사: x1: 양성, x2:음성  Y: 유방암 발병: y1: 발병, y1: 발병 않음

주어진 정보:

문제:

이렇게 번역해 놓고 보니 역 조건부 확률(유방암일 때 검사 양성반응일 확률)을 이용해서 조건부 확률(검사 양성반응일 때 유방암일 확률)을 구하는 베이즈 정리의 응용 문제임이 분명하다. 베이즈 정리를 적용하려면, 역조건부확률 뿐 아니라 확률변수들의 주변확률을 알아야 한다. 그런데 주변확률 P(Y)와 P(X)에 대한 정보가 주어져 있으니 조건부확률을 구하는데 필요한 모든 정보를 다 가지고 있다.

분모인 주변 확률 P(X=x1)는 X=x1 일 때 모든 Y 값의 결합확률의 합이다. 즉, P(X=x1) = P(X=x1∩Y=y1) + P(X=x1∩Y=y2)이다. 그런데 결합확률 P(X=x1∩Y=y1) 는 다름 아닌 분자이다. 조건부 확률결합확률 나누기 조건의 주변확률이기 때문에 결합확률은 조건부확률 곱하기 조건의 주변확률이다.

이제 식 (1)에 주어진 값들을 대입하면 된다.

이 예제를 음미해 보면, 40대 여성의 유방암 발병율은 사전확률(prior)이고, 유방암 환자의 유방촬영검사 양성 반응의 비율은 경험적으로 구할 수 있는 우도(likelihood)이다. X=x1은 유방촬영검사 결과로 얻은, 조건에 해당되는 데이터이다. 이 예제는 어떤 여성의 유방촬영검사 결과가 양성일 때 그녀가 실제 유방암에 걸려 있을 확률이라는 사후확률(posterior)을 묻고 있다.

유방암촬영검사의 결과가 양성으로 나왔는데도 그 사람이 실제로 유방암에 걸렸을 확률이 0.08밖에 되지 않는다. 검사 장비의 성능이 나쁘지 않는데도 말이다. 그것은 무엇보다 유방암 발병율 자체가 0.01로 낮기 때문이다. 이는 모든 희귀병 검사에 적용될 수 있다. 즉, 베이즈 통계는 희귀병의 경우 설령 그 질병에 대한 검사 결과가 양성일지라도 실제 그 병에 걸렸을 확률이 낮다는 사실을 드러내 준다.

예제 2) 이메일의 스팸을 걸러내는 소프트웨어에는 베이즈 이론이 적용된다. 영어로 된 스팸메일에서 가장 많이 나타나는 단어가 shipping!이다. 스팸 메일 중 shipping!을 포함하는 메일의 비율은 0.051이고, 스팸이 아닌 메일에서 shipping!을 포함하는 메일의 비율은 0.0015이다. 그리고 많은 메일 중에서 10%가 스팸 메일이다. 만일 메일이 shipping!을 포함하고 있다면 스팸일 확률은? 만일 메일이 shipping!을 포함하고 있음에도 불구하고 스팸이 아닐 확률은? 만일 메일이 shipping!을 포함하고 있다면 스팸이라고 판명해야할까?

해제)

사건의 정의

X: 이메일에 shipping!이 단어 출현 여부. x1=shipping!이 있음, x2=shipping!이 없음

Y: 스팸 메일 여부. y1 =스팸 메일, y2=스팸 메일이 아님

주어진 정보

문제

이 문제도 역시 역 조건부확률을 알고 있을 때 조건부확률을 구하는 베이즈 정리 응용 문제이다. 주변확률 P(Y=y1)는 주어져 있고, P(X=x1)는 주어진 정보로부터 구할 수 있다.

그런데,

이 값들을 식 (1)에 대입하면,

매번 조건의 주변확률을 구하기가 쉽지 않다. 사실 조건의 주변확률을 구하는데 부딪치는 어려움이 오랫동안 베이즈 통계의 아킬레스 건이었다.

이제 다음 베이즈 정리에서 우항의 분자, 분모의 값을 다 구했다.

분자는  결합확률 이다. 분자, 분모 값을 위 식에 대입하면 답을 구할 수 있다.

이메일에 shipping!이라는 단어가 들어가면 그 메일이 스팸일 확률이 약 80%이니 그 메일이 스팸이라고 분류해도 될 것이다.

이 문제에서 사전확률(prior)은 이메일 중 스팸 메일의 비율인 0.1이다. 우도(likelihood)는 스팸 메일일 때 shipping!이라는 단어가 들어가 있을 확률인 0.051이다. 정규화 상수(normalizing constant)는 조건의 주변확률(이메일에 shipping!이 들어있을 확률이다)인 0.00645이다.

이를 일반적인 용어를 사용해 풀어보면, 모든 메일 중 10%가 스팸 메일이니, 우리에게 다른 정보가 없다면, 어떤 메일이 스팸일 확률을 0.1이라고 추측하면 될 것이다. 그런데, 그 이메일이 shipping!이라는 단어를 담고 있다면, 우리의 추측은 크게 향상되어서 그 메일이 스팸일 확률이 0.79라고 추정하게 된다. shipping!이라는 단어가 들어 있다는 정보 하나로 어떤 이메일이 스팸일 확률이 비약적으로 올라갔다.

(예제 3) 서로 다른 두 납품업체(공급자 1과 공급자 2)로부터 원자재를 공급받는 제조회사가 있다. 현재 공급자 1로부터 65%의 원자재를 구매하고, 공급자 2로부터는 35%를 구매한다. 한편 그 동안 두 업체로부터 납품 받은 원자재의 품질은 아래와 같다.

편집
좋은 품질 비율(%) 나쁜 품질 비율(%)
공급자 1 98 2
공급자 2 95 5

그런데, 제품 생산 과정에서 어떤 원자재가 불량으로 나타났다. 그 원자재가 공급자 1로부터 왔을 확률은 얼마이고, 공급자 2로부터 왔을 확률은 얼마인가?

해제)

사건의 정의

X: 원자재의 품질 수준. x1=좋은 품질의 원자재, x2=나쁜 품질의 원자재

Y: 납품 공급자.  y1 = 공급자 1로부터 납품 받음, y2 = 공급자 2로부터 납품 받음

주어진 정보

이 문제 풀이의 첫 번째 관건은  표에 있는 데이터를 어떻게 해석할 것인가이다. 예컨대 공급자 1이 좋은 품질의 원자재를 납품할 확률은 98%이다. 이 진술은, 공급자가  1일 때(조건), 좋은 품질의 원자재일 확률, 즉, 조건부 확률이 0.98임을 말한다. [공급자가 1이면서 좋은 품질의 원자재를 납품할 확률(즉, 결합확률)을 의미하는 것이 아님에 유의할 것.]

이 문제 풀이의 두 번째 관건은 주변확률, 를 구할 수 있느냐이다. 역시 이 문제에서도 분모에 들어가는 조건 사건의 주변확률을 구하는 것이 관건이다.

문제를 베이즈 정리 형식으로 표현해 보자. 어떤 원자재가 불량(나쁜 품질)일 때, 그 원자재가 공급자 1로부터 왔을 확률은 다음과 같이 표시할 수 있다.

우변에서 먼저 분모에 있는 X=x2의 주변 확률을 구하자. 그것은 해당되는 결합확률을 모두 더한 값이다. 즉,

이다.

그런데 곱셈법칙(결합확률 = 주변확률 * 조건부 확률)에 의하면,

이 값들을 식 (3-2)에 대입하면,

우리는 식 (3-3)의 우변에 확률값을 모두 알고 있다. 그 값들을 대입해서 를 구하자.

다시 식 (3-1)로 돌아가서 확률값들을 대입한다.

즉, 원자재가 불량일 때, 그것이 공급자 1로부터 왔을 확률은 0.426이다. 그렇다면 공급자 2로부터 왔을 확률은 0.574(= 1-0.426)가 될 것이다.

공급자 1의 납품비율은 0.65이다. 이는, 추가 정보가 없는 상태에서 어떤 원자재를 지목했을 때 그것을 공급자 1이 납품했을 확률이 0.65라고 추정될 수 있음을 의미한다. 그런데 그 자재가 불량이라는 정보가 추가되니 그것을 공급자 1이 납품했을 확률이 0.426으로 떨어졌다. 사전정보(prior)은 0.65이고, 사후정보(posterior)는 0.426이다. 공급자 1이 납품한 원자재가 불량일 확률 0.02는 우도(likeihood)이다. 어떤 원자재가 불량일 확률(P(X = x2) 0.0305는 정규화 상수(normalizing constant)이다.

세 개의 예제를 가지고 베이즈 정리가 확장되어 어떻게 응용되는가를 알아보았다. 다음 포스팅에서는 베이즈 정리가 조건부 확률을 구하는 도구를 넘어서 과학 연구의 도구로 사용되는 논리적 근거를 살펴보자. (2020-10-20)

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.