조건부 확률, 곱셈법칙, 베이즈 정리(4)

(예제 3) 사십 대 여성이 정기 건강 검진의 일환으로 유방 엑스레이를 찍었다. 일주일 뒤 그녀는 유방암 검사 결과가 양성으로 나왔다는 통보를 받았다. 유방암에 관한 가족력도 없고 또 징후도 없는 그녀가 진짜로 유방암에 걸렸을 확률은 얼마일까? 

미국에서 사십 대 여성 1만명 가운데 대략 40명이 유방암을 가지고 있다(유방암 발병 확률은 40/10,000이다). 그리고 유방암 환자가 유방 엑스레이 검사에서 양성 반응이 나올 확률은 80%이다. 그러면 그 40명 가운데 32명이 양성 판정을 받는다(그 확률은 32/40이다). 또한 유방 엑스레이 검사에서 양성 반응이 나올 확률은 10%이다(그 확률은 1,000/10,000이다).

(풀이)

사건의 정의: B = 유방암 발병, P = 유방암 엑스레이 양성 결과

주변 확률:

조건부 확률: 

문제는  로 표시할 수 있다.

식 (1)의 우변에 있는 확률들의 값이 모두 있으므로 식 (1)에 대입한다.

이 결과를 말로 풀어 보면, 유방암 엑스레이 검사 결과가 양성이 나온 40대 여성이 실제로 유방암에 걸렸을 확률은 0.032, 즉, 3.2%밖에 되지 않는다.

 

(예제 4) 이메일의 스팸을 걸러내는 소프트웨어에는 베이즈 이론이 적용된다. 영어로 된 스팸메일에서 가장 많이 나타나는 단어가 shipping!이다. 스팸 메일 중 shipping!을 포함하는 메일의 비율은 0.051이고, 스팸이 아닌 메일에서 shipping!을 포함하는 메일의 비율은 0.0015이다. 그리고 많은 메일 중에서 10%가 스팸 메일이다. 만일 메일이 shipping!을 포함하고 있다면 스팸일 확률은? 만일 메일이 shipping!을 포함하고 있음에도 불구하고 스팸이 아닐 확률은? 만일 메일이 shipping!을 포함하고 있다면 스팸이라고 판명해야할까?

(풀이)

사건의 정의: Shipping = 메일에 shipping!이라는 단어가 포함됨, Spam = 스팸 메일

이 문제를 푸는 데 있어 첫번째 관문은, 여기서 “스팸 메일 중 shipping!을 포함하는 메일의 비율”이라는 표현을 확률적으로 정확히 번역해 내는 일이다. “그것은 “어떤 메일이 스팸일 때, 그 메일이 shipping!을 포함할 확률”로 번역된다. 아래와 같은 조건부 확률인 것이다.

조건부 확률: 

주변확률: 

원래의 문제는 다음과 같이 표시될 수 있다.

문제 풀이의 두 번째 관건은, 분모가 되는 shipping의 주변확률을 구하는 것이다. 주변확률은 관련된 결합확률들의 합이다. P(shipping)과 관련된 결합확률은 아래처럼 두 가지이다.

우변의 결합확률 각각을 곱셈법칙을  이용해서 주변확률과 조건부 확률의 곱으로 바꾼다.

이제 주변확률 을 구할 준비가 되었다.

위 식 (1)의 좌변에 해당 확률 값을 대입한다.

이 결과를 말로 풀어보면, 어떤 메일에 shipping!이라는 단어가 들어 있을 때 그 메일이 스팸일 확률은 0.7907이고, 스팸이 아닐 확률은 0.2093이다. 따라서 만약 어떤 메일에 shipping!이라는 단어가 들어 있다면 스팸이라고 분류하는 것이 좋을 듯하다. 그런 메일 중 약 80%가 스팸이기 때문이다. (윤영민, 2018-05-25)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다