베이즈 통계(10): 가설 검정에 있어 빈도주의와 베이즈 접근의 차이

빈도주의 통계의 가설 검증은 다음과 같은 표준적인 절차를 거쳐서 이루어진다. 1) 연구에서의 작업 가설(working hypothesis)을 검증 대상의 대립 가설(alternative hypothesis)로 설정한다. 2) 대립 가설을 우회적으로 검증하기 위한 영가설(null hypothesis)을 설정한다. 3) 데이터를 수집한다. 4) 영가설을 검증한다. 영가설이 기각되면, 대립가설을 수용하고, 영가설 기각에 실패하면, 대립가설 대신에 영가설을 수용한다.

“가설(hypothesis)은 연구에서 검증될 기본 진술이다. 가설은 전형적으로 두 변수 간의 관계를 진술한다. 가설은 이런 두 변수 간의 관계를 예측하기 때문에 검증가능해야 하며, 또한 이런 예측이 옳은 것인지 그른 것인지는 검증한 결과를 토대로 결정할 수 있어야 한다. 가설은 반드시 명확하게 검증 가능해야 하며, 애매하지 않게 서술되어야 한다.” 그리고 인과적 가설의 경우 원인을 독립변수로, 결과를 종속변수로 정한다. 그리고 그 변수들 사이의 관계는 단순히 “관계가 있다”라고 진술하기 보다는 관계의 방향성(부적인가 정적인가)을 진술하는 편이 훨씬 풍부한 연구 결과를 낳을 수 있다고 본다(Babbie, 2007: 70).

빈도주의 통계에서는 가설은 통상 ‘독립변수(원인) –> 종속변수(결과)‘라는 구조를 갖고 있다. 예컨대 “교육을 많이 받을수록 소득 수준이 높을 것이다.” 여기서 독립변수는 교육 수준이고, 종속변수는 소득 수준이다.

가설은 변수의 특성에 따라서는 조금 다르게 표현될 수도 있다. 예를 들어 성별처럼 범주가 2개인 질적 변수의 경우, “여성이 남성보다 페미니즘을 지지할 가능성이 더 높을 것이다”와 같은 가설이 제시될 수 있다. 여성과 남성이라는 두 범주를 비교하여 예측하는 방식인 것이다.

빈도주의 접근에서 영가설은 독립변수가 종속변수에 영향을 미치지 않는다(관계가 없다)는 명제의 형식을 갖고 있다. 영가설은, 실제로 그러한 믿음이 존재해서 제시된 가설이라기보다는 연구자의 관심사인 대립가설을 검증하는 도구로서의 성격이 강하다.

항상 그런 것은 아니지만 이상이 빈도주의 통계에 있어 가설의 전형적인 모습이다. 기존의 통계학에 익숙한 연구자들은 ‘가설’이라고 하면, 누구나 그러한 모습의 가설을 떠올리게 마련이다. 베이즈 통계에서도 가설이라는 용어가 사용된다. 문제는 베이즈 통계와 빈도주의 통계에서 가설이 지닌 뉘앙스가 좀 다르다는 데 있다. 베이즈 통계에서는 빈도주의 통계에서 당연한 것으로 받아들이는 ‘전형적인’ 가설의 모습이 일반적이지 않다. 이것은 기존의 사회과학 연구에 익숙한 연구자가 베이즈 통계를 배우면서 부딪치게 되는 심각한 개념적 혼란을 초래한다.

베이즈 통계에서 가설은 ‘독립변수 = 특정한 값‘이라는 명제가 더 일반적이다. 독립변수가 어떤 특정한 값을 갖는다는 명제가 가설로 제시되는 경우가 흔하다는 말이다. 가설에 종속변수가 들어있지 않는 것이다!

사실 베이즈 추론에서는 독립변수나 종속변수라는 용어를 잘 사용하지 않는다. 베이즈 통계에서는 흔히 연구자가 어떤 사회 현상의 원인을 추정(예측)하고, 데이터를 사용해 검증한다. 그 추정된(혹은 예측된) 원인이 가설이다. 여기에도 기존 사회과학방법이나 통계학을 배운 사람들이 빠지기 쉬운 함정이 있다. 베이즈 통계에서는 빈도주의 통계와 예측이 반대로 이루어지는 경우가 많다. 종속변수를 예측하는 것이 아니라 독립변수를 예측하는 것이다.

예컨대 페미니즘에 대한 태도와 성별의 관계를 연구한다면, 원인(독립변수)이 되는 변수가 성별이므로 “성별이 여성이다” 혹은 “성별이 남성이다”가 가설이 된다. 데이터(여기서는 페미니즘에 대한 태도)가 수집되기 전에 연구자가 독립변수에 대해 가지고 있는 정보나 믿음(사전확률)이 수집된 데이터를 검토하고서 그 정보나 믿음을 수정한다면, 그것은 데이터에 사용된 확률변수(종속변수)와 가설에 사용된 확률변수(독립변수)가 상호 관계가 있음을 함축한다.

베이즈 통계에서는 인과적 관계나 상관 관계에 대한 진술 없이 그냥 어떤 현상을 예측(추정)하는 가설을 검증하기도 한다. 몇 가지 예를 보자.

어떤 동전이 공정한가 아니면 뒷면이 더 무거운 지를 조사한다면, 가설은 다음과 같이 설정될 수 있다.

H0: 동전이 공정하다(fair).          H1: 동전의 뒷면이 무겁다.

전자담배에 건강에 해롭다는 경고문을 부착하는 것이 건강에 대한 염려를 높이는가에 대해 연구한다면, 다음 세 가지 가설을 고려할 수 있을 것이다.

H0: 경고 부착이 염려에 영향을 미치지 않는다.    H1-1: 경고 부착이 염려를 높인다.     H1-2: 경고 부착이 염려를 낮춘다.

여기서는 내용적으로 볼 때 경고 부착 여부가 독립변수이지만, 가설에서 사용될 때는 변수로 쓰이지 않고 있다. 가설들을 보면 건강에 대한 염려라는 현상(종속변수)만을 세 가지로 예측하고 있다.

어떤 감시 시스템이 감시 대상 시설에 침입자가 있는 경우 경보를 울려야 한다면, 이 때 필요한 가설은 아래와 같다.

H0: 칩입자가 없다.          H1: 침입자가 있다

비슷한 경우가 되겠지만, 센서가 수집한 정보를 가지고 화재 경보를 울려야 하는 경보시스템이 있다면, 센서가 어떤 징후를 감지한 다음 화재 경보를 울리려면 그 시스템은 다음 가설들 중 하나를 선택을 하는 판단을 내려야 할 것이다.

H0: 불이 났다.          H1: 불이 나지 않았다

빈도주의 통계에서는 이와 같은 가설들이 그다지 자주 사용되지 않지만 베이즈 통계에서는 흔히 볼 수 있는 유형들이다. 평생 빈도주의 통계를 사용해 왔던 연구자들이 베이즈 통계에 입문하려면 가설에 대해 유연한 개념을 가질 필요가 있다.

교육이 소득에 미치는 영향을 베이즈 통계를 가지고 연구한다고 하자. 우선 교육수준과 소득수준은 확률변수이다. ‘어떤 사람이 대학 졸업자일 것이다’는 베이즈적 가설의 예가 된다. ‘어떤 사람이 고졸자일 것이다’, ‘어떤 사람이 무학일 것이다’는 베이즈 추론에서 모두 교육수준에 관해 타당한 가설이다.

베이즈 추론에서는 ‘어떤 사람의 소득이 월 500만원 이상이다’, ‘어떤 사람이 고급 외제 승용차를 갖고 있다’, ‘어떤 사람이 서울 강남에 30평대 아파트를 소유하고 있다’는 소득수준에 관한  타당한 데이터가 된다.

만약 어떤 사람의 교육수준에 대한 믿음(추측)이 그 사람의 소득수준을 보고 난 뒤에 바뀌었다면 교육수준이 소득수준과 관계가 있음을 함축한다고 해석하는 것이다. 어느 사회나 구성원들의 학력 통계가 있다. 성인 인구 중 학력별 인구비율이 공개되어 있다. 예를 들어, 전문대 졸업 이상이 50%, 고졸이 30%, 고졸 미만이 20%이다. 어떤 성인 남자의 학력에 대해 추측하는데 그 사람에 대한 정보가 아무것도 없다면, 그 사람이 전문대 이상의 학력을 가졌을 확률은 0.5라고 추정될 것이며, 고졸일 확률은 0.3, 고졸 미만일 확률은 0.2가 될 것이다. 그런데 어떤 경로로 그 사람의 월수입이 5백만원이 넘는다는 사실을 알게 되었다. 그 때 그사람이 전문대 졸업 이상의 학력을 가졌을 확률은 더 이상 0.5라고 추정될 수는 없고 그 확률을 0.7 정도로는 올려야 할 것이다. 만약 실제로 그렇다면 연구자는 소득수준이 학력수준에 상당히 달려있다고 추정할 것이다.

만약 그 사람이 고급 외제 승용차를 탄다는 사실을 알게 되도 마찬가지로 그가 전문대 졸업 이상을 학력을 가지고 있을 것이라는 확률을 0.6이나 0.7정도로 올려야 할 것이다. 마찬가지로 그 사람이 강남에 30평 이상의 아파트를 보유하고 있다는 사실을 알게 되도 마찬가지일 것이다. 어떤 사람의 소득수준 혹은 생활수준이 높으면 우리가 그 사람에 대한 정보가 전혀 없을 때보다 그 사람이 전문대졸 이상의 학력을 가졌을 확률을 훨씬 높게 볼 것이다. 한 사람의 소득 수준(생활 수준)을 결정하는데 있어 학력이 중요한 요인이라고 믿기 때문이다.

베이즈 추론은 이러한 논리를 따른다. 데이터를 보기 전에 가지고 있는 믿음(사전확률, prior)이 데이터를 보고나서 그 믿음이 달라졌는가(사후확률, posterior)를 따져서 사회에 존재하는 법칙을 발견하는 통계적 방법이다.

<신호와 소음>에서 네이트 실버(Nate Silver)는 베이즈 추론의 이러한 특성을 다음과 같이 표현한다.

“나는 예측을 가설검증의 한 형태, 또는 단순하게 말해 진리를 발견하는 수단이라고 생각한다. 베이즈 정리에 따르면 예측은 기본적으로 정보처리 활동의 한 유형, 즉, 새로 나타난 자료를 이용해서 세상에 대해 더 진리에 가깝고 더 정확한 개념을 찾아나가는 과정이다. (실버, 2014: 395, 강조는 원저자의 것).”

예제를 가지고 좀 더 체계적으로 베이즈 추론을 살펴보자. 사람들의 교육수준이 그들의 소득수준을 결정짓는 요인인가를 조사한다고 하자.   

베이즈 추론에서는 먼저 변수와 사건을 정의한다.

(변수의 정의)

확률변수 X: 교육수준(이산변수). , x1 : 중졸 이하, x2 : 고졸, x3 :  전문대졸, x4 :  대졸 이상

확률변수 Y: 소득 수준(이산변수). , y1 : 100만원 미만, y2 : 100~200만원 미만, y3 : 200~300만원 미만, y4 : 300~400만원 미만, y5 : 400~500만원 미만, y6 : 500만원 이상

(사건의 정의)

가설 사건(hypothesis): 학력이 대학 졸업 이상이다

조건 사건(data): 소득이 월 500만원 이상이다

(문제) 어떤 사람의 소득이 월 500만원 이상일 때, 그 사람이 대학을 졸업했을 확률은? 전문대학을 졸업했을 확률은? 고졸일 확률은? 중졸 이하일 확률은? 베이즈 추론에서는 어떤 사람의 소득이 월 500만원 이상이라는 데이터가 주어졌을 때 그 사람이 특정한 수준의 교육을 받았을 가능성을 사전확률과 사후확률의 형태로 구해서 비교하여 교육수준과 소득수준의 관계를 검증한다.

다음 표는 2016년 경기도 안산시청이 수행한 실제 사회조사 자료로부터 가져왔다. 학력과 소득의 교차표이다. 설문조사 표본의 크기는 2,842명이다. 이 중 대졸 이상이 679명, 전문대졸이 436명, 고졸이 1,242명, 중졸 이하가 124명이다. 무작위 표본이니 이 데이터는 안산시 성인 인구를 잘 대표하고 있다고 본다.

데이터: 학력과 소득의 교차표(안산시 사례)

중졸 이하 고졸 전문대졸 대졸 이상 합계
100만원 미만 121 58 18 20 217
100~200만원 미만 119 219 50 70 458
200~300만원 미만 124 366 114 144 748
300~400만원 미만 52 237 94 123 506
400~500만원 미만 40 220 91 138 489
500만원 이상 29 142 69 184 424
합계 485 1242 436 679 2842

(2016년 안산시 사회조사 자료)

이 교차표에서 각칸의 빈도를 총합계(2,842)로 나누면 아래와 같은 결합확률표가 생성된다. 각 칸의 빈도를 총합계로 나누는 것은 각 칸의 빈도에 대한 정규화(normalize) 값을 구한다고 표현할 수 있다. 합계를 정규화한 값들은 주변확률이고, 나머지 각 빈도를 정규화한 값들은 결합확률(혹은 동시확률이라고 부름)이다. 각 열의 결합확률을 모두 더하면 그 열의 주변확률이 나오고, 각 행의 결합확률을 모두 더 하면 그 행의 주변확률이 나온다. 주변확률은 고딕체로 표시되어 있다.

학력과 소득의 결합확률표

중졸 이하 고졸 전문대졸 대졸 이상 합계
100만원 미만 0.0426 0.0204 0.0063 0.0070 0.0764
100~200만원 미만 0.0419 0.0771 0.0176 0.0246 0.1612
200~300만원 미만 0.0436 0.1288 0.0401 0.0507 0.2632
300~400만원 미만 0.0183 0.0834 0.0331 0.0433 0.1780
400~500만원 미만 0.0141 0.0774 0.0320 0.0486 0.1721
500만원 이상 0.0102 0.0500 0.0243 0.0647 0.1492
합계 0.1707 0.4370 0.1534 0.2389 1.00

(2016년 안산시 사회조사 자료)

이 표에서 가장 왼쪽 상단의 확률 값 0.0426은 학력 확률변수의 중학교 이하와 소득 확률변수의 100만원 이하가 동시에 발생하는 확률, 즉, 결합확률이다. 부호로 다음과 같이 표시된다.

이 결합확률은 곱셈법칙에 의하면, 조건부확률과 주변확률의 곱이다.

이를 베이즈 통계의 용어로 표현하면, 우도(likelihood) 곱하기 사전확률이다. 앞 부분이 우도이고 뒷부분이 사전확률이다.

어떤 사람의 소득이 월 100만원 이하일 때 그의 학력이 중졸 이하일 확률을 구한다고 하자. 그것은 다음과 같이 표시되는 사후확률이다.

이 사후확률은 베이즈 정리에 의하면 다음과 같은 식으로 구해진다.

우도사전확률(가설의 주변확률)을 곱해서 구한 결합확률을 정규화 상수인 (데이터의) 주변확률로 나누면 사후확률이 구해진다. 그런데 베이즈 추론에서 그 주변확률이 이 표에서처럼 주어지는 경우는 드물다. 그래서 보통 해당 열(중졸 이하의 열)의 결합확률을 모두 더 해서 구한다. 부호로 표시하면 아래와 같다.

중졸 이하의 주변확률은 해당 열의 결합확률을 모두 더한 값인 0.1707이다. 그것이 여기서 정규화 상수이며, 베이즈 정리에서 분모에 해당된다.

따라서 식 (1)을 다음과 같이 말로 풀 수 있다. 어떤 사람의 소득이 100만원 이하일 때 그 사람이 중졸 이하의 학력을 가졌을 확률은, 소득이 100만원 이하라는 사건과 학력이 중졸이하라는 사건의 결합사건의 확률(결합확률)을 중졸 이하라는 열의 주변확률(혹은 결합확률의 합)로 나누어 준 값이다.

원래 문제로 돌아가자. 어떤 사람의 소득이 월 500만원 이상일 때 그 사람이 대학을 졸업했을 확률은? 문제를 조건부 확률로 표시하면 다음과 같다.

베이즈 정리에 의하면, 이 사후확률은 우도(사후확률의 역확률이다)와 사전확률(가설의 주변확률)의 곱을 데이터의 주변확률로 나누어 주면 구해진다. 식으로 표기하면 다음과 같다.

여기서 가설은 ‘학력이 대졸 이상이다’. 따라서 가설의 주변확률은 다음과 같다.

데이터는 ‘소득이 500만원 이상이다’. 따라서 데이터의 주변확률은 다음과 같다.

사후확률의 역확률인 우도는 ‘대졸 이상일 때 소득이 500만원 이상일 확률’이다. 그것은 다음과 같이 구해진다. ‘대졸 이상’과 ‘500만원 이상’의 결합확률을 ‘대졸 이상’의 주변확률로 나눈 값이다. 혹은 ‘대졸 이상’과 ‘500만원 이상’의 결합 빈도를 ‘대졸 이상’의 주변빈도로 나눈 값이다.

우도, 사전확률, 그리고 데이터의 주변확률 값을 모두 구했으니, 식 (2)에 대입하면 아래와 같다.

이를 확인하기 위해 빈도를 가지고 좌변의 사후확률을 바로 계산하면,

좌변과 우변의 값이 동일함을 알 수 있다.

대학졸업자의 경우 사전확률(0.2389)에 비해 500만원 이상의 비율이라는 조건(데이터)이 주어진 후 사후확률(0.4339)이 거의 두 배 가까이 높아졌다.

동일한 방식으로 500만원 이상의 소득을 올리는 사람이 전문대학을 졸업했을 확률, 500만원 이상의 소득을 올리는 사람이 고등학교를 졸업했을 확률, 그리고 500만원 이상의 소득을 올리는 사람이 중학교 졸업 이하일 확률을 구할 수 있을 것이다.

식 (1)에서 대신 차례로 을 넣어서 사후확률을 계산하면 된다.

전문대 졸업자의 경우는 사후확률(0.1629)이 사전확률(0.1534)에 비해 약간 높아졌랐다.

그런데 고졸자의 경우 사후확률(0.3351)이 사전확률(0.4370)에 비해 눈에 띄게 낮아졌으며,

중졸 이하의 경우 사후확률(0.0684)이 사전확률(0.1707)에 비해 절반 이하로 줄었다.

이상의 발견을 종합하면, 학력 수준이 소득 수준에 영향을 미치고 있음에 분명하다. 소득이 500만원 이상인 사람은 모집단의 학력 분포를 가지고 예측한 것보다 대졸 이상일 확률이 훨씬 높은 반면, 고졸이나 중졸 이하일 확률은 모집단의 학력 분포를 가지고 예측한 것보다 크게 낮다.

베이즈 접근을 이용하면, 동일한 데이터를 가지고도 빈도주의 접근과는 매우 다른 방식으로 학력 수준이 소득 수준에 미치는 영향을  발견할 수 있다. 빈도주의적으로 표현하면, 학력 수준이 올라갈수록 소득 수준이 올라간다는 가설을 검증할 수 있다. (교차표에서는 값을 구하고 그것의 값을 계산하면 영가설이 검증된다. 두 변수가 관계가 강하면 카이자승 값이 크고, 그것의 값은 0.05보다 훨씬 작을 것이다. 그러면 영가설이 기각된다.) 빈도주의 접근에서는 영가설이라는 테크닉을 사용해서 두 확률변수 사이의 관계를 발견하지만, 베이즈 접근에서는 자주 사전확률에 비해 사후확률이 얼마나 변화되는가를 보고서 두 확률변수의 관계를 추정하게 된다. 베이즈 추론의 결과인 사후확률은 사전확률과의 대비해서 해석되어야 한다.

물론 사전확률과 사후확률의 비교가 베이즈 추론에서 유일한 가설 검증 방법은 아니다. 데이터가 영가설 예측(지지)하는 정도와 대립가설을 예측(지지)하는 정도를 비교하는 방법으로도 가설 검증 혹은 가설 선택을 할 수 있다. (2020-11-10)

베이즈 통계(3): 베이즈 정리의 확장

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다. –> 흔히 X는 데이터이고 Y는 모수(parameter)이다. 베이즈 정리는 데이터가 주어졌을 때 모수를 얻게 될 확률을 구하는 과정이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다. –> 역조건부 확률 는 우도(likelihood)라고 부른다. 흔히 그것은 경험적으로 주어진다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다. –> 여기서 를 데이터를 얻기 이전 확률이라는 의미에서 사전 확률(prior)이라고 부르고 를 데이터를 얻은 후 확률이라는 의미에서 사후확률(posterior)이라고부른다. 베이즈 정리에서 데이터를 포착해 주는 부분이 우도이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다. –> 를 정규화 상수(normalizing constant)라고 부른다.

예제 1) 미국에서 정기적으로 건강 검진을 받는 40대 여성의 1%가 유방암을 가지고 있다. 유방암에 걸린 여성의 80%가 유방촬영검사(mammogram test)에서 양성 반응을 보였으며, 유방암을 걸리지 않은 여성 중 9.6%도 유방촬영검사에서 양성 반응을 나타냈다. 어떤 40대 여성이 정기 검진 때 유방촬영검사에서 양성 반응이 나왔다면 그녀가 실제로 유방암에 걸려 있을 확률은 얼마인가?

해제) 먼저 사건의 정의, 주어진 정보, 그리고 문제를 확률기호로 표기한다.

사건의 정의:

X: 유방활영검사: x1: 양성, x2:음성  Y: 유방암 발병: y1: 발병, y1: 발병 않음

주어진 정보:

문제:

이렇게 번역해 놓고 보니 역 조건부 확률(유방암일 때 검사 양성반응일 확률)을 이용해서 조건부 확률(검사 양성반응일 때 유방암일 확률)을 구하는 베이즈 정리의 응용 문제임이 분명하다. 베이즈 정리를 적용하려면, 역조건부확률 뿐 아니라 확률변수들의 주변확률을 알아야 한다. 그런데 주변확률 P(Y)와 P(X)에 대한 정보가 주어져 있으니 조건부확률을 구하는데 필요한 모든 정보를 다 가지고 있다.

분모인 주변 확률 P(X=x1)는 X=x1 일 때 모든 Y 값의 결합확률의 합이다. 즉, P(X=x1) = P(X=x1∩Y=y1) + P(X=x1∩Y=y2)이다. 그런데 결합확률 P(X=x1∩Y=y1) 는 다름 아닌 분자이다. 조건부 확률결합확률 나누기 조건의 주변확률이기 때문에 결합확률은 조건부확률 곱하기 조건의 주변확률이다.

이제 식 (1)에 주어진 값들을 대입하면 된다.

이 예제를 음미해 보면, 40대 여성의 유방암 발병율은 사전확률(prior)이고, 유방암 환자의 유방촬영검사 양성 반응의 비율은 경험적으로 구할 수 있는 우도(likelihood)이다. X=x1은 유방촬영검사 결과로 얻은, 조건에 해당되는 데이터이다. 이 예제는 어떤 여성의 유방촬영검사 결과가 양성일 때 그녀가 실제 유방암에 걸려 있을 확률이라는 사후확률(posterior)을 묻고 있다.

유방암촬영검사의 결과가 양성으로 나왔는데도 그 사람이 실제로 유방암에 걸렸을 확률이 0.08밖에 되지 않는다. 검사 장비의 성능이 나쁘지 않는데도 말이다. 그것은 무엇보다 유방암 발병율 자체가 0.01로 낮기 때문이다. 이는 모든 희귀병 검사에 적용될 수 있다. 즉, 베이즈 통계는 희귀병의 경우 설령 그 질병에 대한 검사 결과가 양성일지라도 실제 그 병에 걸렸을 확률이 낮다는 사실을 드러내 준다.

예제 2) 이메일의 스팸을 걸러내는 소프트웨어에는 베이즈 이론이 적용된다. 영어로 된 스팸메일에서 가장 많이 나타나는 단어가 shipping!이다. 스팸 메일 중 shipping!을 포함하는 메일의 비율은 0.051이고, 스팸이 아닌 메일에서 shipping!을 포함하는 메일의 비율은 0.0015이다. 그리고 많은 메일 중에서 10%가 스팸 메일이다. 만일 메일이 shipping!을 포함하고 있다면 스팸일 확률은? 만일 메일이 shipping!을 포함하고 있음에도 불구하고 스팸이 아닐 확률은? 만일 메일이 shipping!을 포함하고 있다면 스팸이라고 판명해야할까?

해제)

사건의 정의

X: 이메일에 shipping!이 단어 출현 여부. x1=shipping!이 있음, x2=shipping!이 없음

Y: 스팸 메일 여부. y1 =스팸 메일, y2=스팸 메일이 아님

주어진 정보

문제

이 문제도 역시 역 조건부확률을 알고 있을 때 조건부확률을 구하는 베이즈 정리 응용 문제이다. 주변확률 P(Y=y1)는 주어져 있고, P(X=x1)는 주어진 정보로부터 구할 수 있다.

그런데,

이 값들을 식 (1)에 대입하면,

매번 조건의 주변확률을 구하기가 쉽지 않다. 사실 조건의 주변확률을 구하는데 부딪치는 어려움이 오랫동안 베이즈 통계의 아킬레스 건이었다.

이제 다음 베이즈 정리에서 우항의 분자, 분모의 값을 다 구했다.

분자는  결합확률 이다. 분자, 분모 값을 위 식에 대입하면 답을 구할 수 있다.

이메일에 shipping!이라는 단어가 들어가면 그 메일이 스팸일 확률이 약 80%이니 그 메일이 스팸이라고 분류해도 될 것이다.

이 문제에서 사전확률(prior)은 이메일 중 스팸 메일의 비율인 0.1이다. 우도(likelihood)는 스팸 메일일 때 shipping!이라는 단어가 들어가 있을 확률인 0.051이다. 정규화 상수(normalizing constant)는 조건의 주변확률(이메일에 shipping!이 들어있을 확률이다)인 0.00645이다.

이를 일반적인 용어를 사용해 풀어보면, 모든 메일 중 10%가 스팸 메일이니, 우리에게 다른 정보가 없다면, 어떤 메일이 스팸일 확률을 0.1이라고 추측하면 될 것이다. 그런데, 그 이메일이 shipping!이라는 단어를 담고 있다면, 우리의 추측은 크게 향상되어서 그 메일이 스팸일 확률이 0.79라고 추정하게 된다. shipping!이라는 단어가 들어 있다는 정보 하나로 어떤 이메일이 스팸일 확률이 비약적으로 올라갔다.

(예제 3) 서로 다른 두 납품업체(공급자 1과 공급자 2)로부터 원자재를 공급받는 제조회사가 있다. 현재 공급자 1로부터 65%의 원자재를 구매하고, 공급자 2로부터는 35%를 구매한다. 한편 그 동안 두 업체로부터 납품 받은 원자재의 품질은 아래와 같다.

편집
좋은 품질 비율(%) 나쁜 품질 비율(%)
공급자 1 98 2
공급자 2 95 5

그런데, 제품 생산 과정에서 어떤 원자재가 불량으로 나타났다. 그 원자재가 공급자 1로부터 왔을 확률은 얼마이고, 공급자 2로부터 왔을 확률은 얼마인가?

해제)

사건의 정의

X: 원자재의 품질 수준. x1=좋은 품질의 원자재, x2=나쁜 품질의 원자재

Y: 납품 공급자.  y1 = 공급자 1로부터 납품 받음, y2 = 공급자 2로부터 납품 받음

주어진 정보

이 문제 풀이의 첫 번째 관건은  표에 있는 데이터를 어떻게 해석할 것인가이다. 예컨대 공급자 1이 좋은 품질의 원자재를 납품할 확률은 98%이다. 이 진술은, 공급자가  1일 때(조건), 좋은 품질의 원자재일 확률, 즉, 조건부 확률이 0.98임을 말한다. [공급자가 1이면서 좋은 품질의 원자재를 납품할 확률(즉, 결합확률)을 의미하는 것이 아님에 유의할 것.]

이 문제 풀이의 두 번째 관건은 주변확률, 를 구할 수 있느냐이다. 역시 이 문제에서도 분모에 들어가는 조건 사건의 주변확률을 구하는 것이 관건이다.

문제를 베이즈 정리 형식으로 표현해 보자. 어떤 원자재가 불량(나쁜 품질)일 때, 그 원자재가 공급자 1로부터 왔을 확률은 다음과 같이 표시할 수 있다.

우변에서 먼저 분모에 있는 X=x2의 주변 확률을 구하자. 그것은 해당되는 결합확률을 모두 더한 값이다. 즉,

이다.

그런데 곱셈법칙(결합확률 = 주변확률 * 조건부 확률)에 의하면,

이 값들을 식 (3-2)에 대입하면,

우리는 식 (3-3)의 우변에 확률값을 모두 알고 있다. 그 값들을 대입해서 를 구하자.

다시 식 (3-1)로 돌아가서 확률값들을 대입한다.

즉, 원자재가 불량일 때, 그것이 공급자 1로부터 왔을 확률은 0.426이다. 그렇다면 공급자 2로부터 왔을 확률은 0.574(= 1-0.426)가 될 것이다.

공급자 1의 납품비율은 0.65이다. 이는, 추가 정보가 없는 상태에서 어떤 원자재를 지목했을 때 그것을 공급자 1이 납품했을 확률이 0.65라고 추정될 수 있음을 의미한다. 그런데 그 자재가 불량이라는 정보가 추가되니 그것을 공급자 1이 납품했을 확률이 0.426으로 떨어졌다. 사전정보(prior)은 0.65이고, 사후정보(posterior)는 0.426이다. 공급자 1이 납품한 원자재가 불량일 확률 0.02는 우도(likeihood)이다. 어떤 원자재가 불량일 확률(P(X = x2) 0.0305는 정규화 상수(normalizing constant)이다.

세 개의 예제를 가지고 베이즈 정리가 확장되어 어떻게 응용되는가를 알아보았다. 다음 포스팅에서는 베이즈 정리가 조건부 확률을 구하는 도구를 넘어서 과학 연구의 도구로 사용되는 논리적 근거를 살펴보자. (2020-10-20)

베이즈 통계(2): 조건부 확률 가지고 놀기

베이즈 통계는 조건부 확률(conditional probability)에서 출발한다. 때문에 조건부 확률은 베이즈 통계의 기초 중의 기초이다. 조건부 확률에 익숙해질수록 베이즈 통계가 가깝게 다가온다. 그래서 이번 포스팅에서는 조건부 확률을 가지고 좀 놀아보자.

베이즈 통계의 입문을 조건부 확률과 함께 시작한다는 것은 중요한 의미가 있다. 무엇보다 조건부 확률은 두 확률변수의 결합(joint 혹은 conjoint)이 전제된다. 이는 베이즈 통계가 두 변수 이상의 관계를 다룬다는 점을 시사한다. 빈도주의 통계의 적지 않은 부분이 한 변수에 관한 것이라는 점을 상기한다면 이는 가벼운 특성이 아님을 알 수 있다.

조건부 확률은 두 확률변수(X, Y라고 하자)가 있을 때, 그중 하나(e.g. X)가 발생할 때 다른 하나가 발생할 확률을 말한다. 조건부 확률은 아래와 같이 여러가지 방식으로 표기된다.

이 중 가장 간단한 로 표기로 시작하자. X가 발생할 때, Y가 발생할 확률이라고 읽는다(영어로는, probability of Y, given X occurs 혹은 그냥 간단히 probability of Y, given X라고 한다). X가 발생한다는 말은 X가 특정값(x)을 갖는다는 의미이며, Y가 발생한다는 말은 Y가 특정값(y)를 갖는다는 의미이다.

X, Y의 조건부 확률은 X, Y의 결합확률을 조건에 해당되는 변수의 주변확률로 나누어 얻는다. 확률에서 조건이란 어떤 확률변수의 범위에서 특정한 조건을 충족하는 범위만을 보겠다 혹은 관심을 갖겠다는 것이다. 결합확률(joint probability or conjoint probability)이란 두 확률변수가 동시에 발생하는 경우의 확률을 의미하며, 주변확률이란 결합확률이 주어졌을 때 두 변수 중 한 변수의 확률만을 가리킨다. 예를 가지고 보자.

미국 어느 대도시 경찰의 성별에 따른 승진 현황이 있다고 하자. 한 확률변수는 성별, 다른 하나의 확률변수는 승진 여부이다. 승진 현황은 다음과 같은 교차표로 요약된다.

논의를 간략히 하기 위해 사건을 다음과 정의한다.

X: 경찰관의 성별. = 남자, = 여자

Y: 경찰관의 승진 여부. = 승진, = 승진 탈락

이 표를 기호로 일반화하여 표기하면 다음과 같다.

이 빈도 교차표를 확률로 변환하려면 전체 경찰관 수(N)으로 각 칸을 나누어 주면 된다. 그러면 전체 합이 1인 값들로 바뀐다. 그런 의미에서 확률은 전체의 합을 1로 만드는 정규화(normalize)라고 말할 수 있다. 그렇게 해서 아래와 같은 결합확률표(joint probability table)를 얻었다.

여기서 두 확률변수의 결합확률은, 남자이면서 승진할 확률 0.24, 여자이면서 승진할 확률 0.03, 남자이면서 승진하지 못할 확률 0.56, 여자이면서 승진하지 못할 확률 0.17 네 개이다. 주변확률은 남자가 승진할 확률 0.80, 여자가 승진할 확률 0.20, 승진할 확률 0.27, 승진하지 못할 확률 0.73 네 개이다.

일반화를 위해 이 결합확률표는 다음과 같이 기호로 표시될 수 있다.

남자일 주변확률 은 남자일 때 승진하거나 승진하지 못한 확률을 모두 합한 값이다.  여자일 주변확률 은 여자일 때 승진하거나 승진하지 못한 확률을 모두 합한 값이다. 승진할 주변확률 은 승진할 때 남자이거나 여자일 확률을 모두 합한 값이다. 승진탈락의 주변확률 은 승진 탈락할 때 남자이거나 여자일 확률을 모두 합한 값이다.

주변확률에 대해 이렇게 장황하게 설명하는 것은 한 변수가 특정값을 가질 때 그 사건의 주변확률은 다른 변수의 모든 발생 확률을 더한 값이라는 사실을 보여주기 위해서이다.

앞에서 조건부 확률이란 한 변수가 발생할 때(즉, 특정값을 가질 때), 다른 변수가 발생할(다른 변수가 특정값을 가질) 확률이라고 했다. 만약 성별이 조건으로 주어진다면, 조건부 확률은, 경찰관이 남성일 때(혹은 반대로 경찰관이 여성일 때)에 국한해서 확률값을 계산하겠다는 것이다. 그러면 주변확률값을 1로 만드는 정규화를 하면 된다. 예컨대 경찰관이 남성일 때 승진할 확률을 구한다면, 그것은 라는 조건부 확률을 계산하겠다는 말이다. 그 조건부 확률은 남성이면서 승진할 확률(결합확률)을 남성인 주변확률로 나눈 값이다. 그것은 아래와 같이 표시할 수 있다.

어떤 경찰관이 남성일 때 승진에 탈락할 확률 도 마찬가지 방식으로 구할 수 있다.

기억하기 쉽게 말하자면, 조건부 확률은 결합확률 나누기 주변확률이다.

이번에는 조건을 바꾸어보자. 어떤 경찰관이 승진했다. 그 경찰관이 남성일() 확률 은 아래와 같을 것이다.

그런데, 만약 우리가 결합확률표를 구성할 수 없어 결합확률을 알지 못하고 대신에  역 조건부 확률(inverse conditional probability)과 두 확률변수의 주변확률을 알고 있을 때 조건부 확률을 구하는 방법을 생각해보자. 즉, 을 구하는데, , 을 알고 있다는 것이다. 식(2)에서 양변에 을 곱하면 다음과 같이 될 것이다.

그리고 교환법칙에 의해,

이므로, 식(1)의 우변 분자에 식(3)을 대입할 수 있다. 그러면 아래 식을 얻게 된다.

식(4)는 아래와 같이 일반화하여 간략히 쓸 수 있다.

드디어 베이즈 정리(Bayes’ theorem)가 도출되었다. 베이즈 정리는 결합확률을 모를 때 역조건부확률과 두 확률변수의 주변확률을 가지고 조건부 확률을 구하는 공식에 다름 아니다. 그런데, 이 간단한 공식의 응용범위가 놀랍도록 넓다. 그래서 그것은 정리의 자리를 꿰어찼다.

베이즈 정리를 보면 몇 가지 성질이 읽힌다.

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다.

이 성질은 논리적으로 다음과 같이 확장될 수 있다.

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다. –> 흔히 X는 데이터이고 Y는 모수(parameter)이다. 베이즈 정리는 데이터가 주어졌을 때 모수를 얻게 될 확률을 구하는 과정이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다. –> 역조건부 확률 우도(likelihood)라고 부른다. 흔히 그것은 경험적으로 주어진다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다. –> 여기서 를 데이터를 얻기 이전 확률이라는 의미에서 사전 확률(prior)이라고 부르고 를 데이터를 얻은 후 확률이라는 의미에서 사후확률(posterior)이라고부른다. 베이즈 정리에서 데이터를 포착해 주는 부분이 우도이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다. –> 정규화 상수라고 부른다.

조건부 확률을 가지고 꽤 멀리 왔다. 다음 포스팅에서는 예제를 가지고 확장된 베이즈 정리의 함축성을 찾아보자.(2020-10-19)

베이즈 통계(1): 서론

베이즈 통계에 입문할 때 사회과학도는 몇 가지 난관을 마주하게 된다. 배우고자 하는 사람 자신이 그것을 인식할 수도 있고 그렇지 못할 수도 있다. 필자의 경험으로는 후자가 많을 것 같으니 이 점을 확실히 지적해 두고자 한다. 특히 통계를 제법 많이 알고 있다고 자신하는 사람일수록 그 난관이 심각할 수도 있다. 그것은 기존의 사회통계와 베이즈 통계의 차이에서 기인한다. 그래서 빈도주의 통계와 베이즈 통계의 중요한 차이 몇 가지를 지적해 두고자 한다.

시작하기 전에 빈도주의자(frequentist), 베이즈주의자(Bayesian)라는 용어를 소개하겠다. 그것은 편을 가르기 위해서 나누는 것이 아니라 베이즈 통계를 명쾌하게 이해하기 위해서 필요하다고 생각되어 나누는 구분이다. 우리가 통상 사회통계 수업에서 배운 통계를 빈도주의(frequentist) 통계라고 명명하고, 지금부터 배울 통계를 베이즈 통계라고 부르겠다.

첫째, 베이즈 통계에서는 확률(probability)이라는 동일한 용어를 사용하지만 빈도주의 통계에서 사용하던 것과는 크게 다른 의미로 사용한다. 빈도주의 통계에서 학률이란 수학적으로 정의될 수도 있지만 보통 경험적으로 도출된다. 경험적 확률은 표본공간(sample space, 가능한 모든 결과)에서 우리가 관심을 갖는 사상(event)이 발생하는 빈도(frequency)의 비율로 계산된다. (그래서 빈도주의 통계 혹은 빈도주의 접근이라고 불리는구나 라고 생각해도 좋다.)

그런데, 베이즈주의자는 확률을 그보다 훨씬 다양한 의미로 사용한다. 그중 가장 널리 사용되는 의미는 어떤 사상(an event)의 발생 가능성에 대한 주관적인 믿음의 정도(subjective degree of belief)이다. 확률 개념에 객관적으로 계산된 빈도의 비율이 아니라 주관적인 믿음의 정도라는 의미가 추가되는 것이다.

그래서 무엇보다 사회통계에서 배운 좁은 의미의 확률 개념에서 벗어나야 한다. 그렇지 않으면 선험적 확률(a priori pobability), 사전적 확률(prior), 사후적 확률(posterior) 등과 같은 용어가 선뜻 수용되기 어려울 것이다.

둘째, 사회통계에서 베이즈 정리(Bayes’ theorem)라고 1시간 혹은 기껏해야 1주일쯤 다루고 넘어갔던 확률 법칙이 갑자기 한 학기 내내 배워야 하는 엄청나게 중요한 규칙으로 부상한다. 그러면서 확률분포가 매우 중요한 개념적 도구로 등장한다.

사회통계에서는 추리통계에 정규분포, t 분포, F 분포, 분포가 적용되지만 모수 추정이나 가설 검정 과정의 배경 정도로 사용될 뿐이다. 그 확률분포들에 대해 깊이 있게 이해하지 못해도 그것이 모수 추정이나 가설 검증에서 심각한 걸림돌이 되지 않는다.

그런데 베이즈 추론은 확률분포로 시작해서 확률분포로 끝난다고 해도 과언이 아닐 정도로 확률분포의 비중이 크다. 그래서 베이즈 통계에 입문하려면 확률분포부터 진지하게 공부해야 한다.

셋째, 추론(inference)의 의미가 다르다. 사회통계에서는 추론이란 모수 추정과 가설 검정이다. 즉, 표본 통계치(sample statistics)를 가지고 모집단의 평균을 추정하거나, 모집단의 평균에 대한 가설을 검정하는 것이다. 그렇게 해서 사회과학자들은 사회구조나 사회현상을 이해하고 사회 법칙을 발견한다. 표본통계치로부터 모수를 추론하는데 이론적 근거가 표집분포(sampling distribution)이다. 때문에 사회통계에서는 표집(혹은 표본추출)이 대단히 중요하다.

베이즈 통계에서 추론은 모수 추정이나 가설 검정보다 수치화된 예측 혹은 믿음이라는 의미로 더 자주 사용된다. 한 현상에 대해 우리가 어떤 믿음을 가지고 있는데, 새로운 데이터(증거)가 나타났을 때 그 믿음이 어떻게 달라질까(혹은 달라져야 하는가)가 베이즈 통계의 주요 관심사이다.

때문에 베이즈 통계에서는 선험적 믿음과 데이터(증거)라는 두 가지가 있어야 한다. 빈도주의 통계에서는 표본(통계치)과 모집단(모수)를 연결해주는 것이 표집분포 이론인 것처럼 베이즈 통계에서 사전확률(선험적 믿음)과 사후확률, 데이터와 예측을 연결해주는 것은 베이즈 정리이다.

넷째, 베이즈 통계는 빈도주의 통계와 달리 사회구조, 사회현상, 사회법칙 뿐 아니라 개인에 대한 예측에 사용될 수 있다.  예컨대 베이즈 통계는 어떤 중년 여성이 유방암 검사에서 양성 반응이 나왔는데, 그녀가 실제로 유방암에 걸렸을 가능성은 얼마나 될까 같은 의문에 대한 해답을 구하는 도구로 쓰일 수 있다.

다섯째, 베이즈 통계에서 데이터란 빈도주의 통계에서 말하는 의미의 표본 데이터일 수도 있지만 체계적으로 수집된 표본 데이터가 아닐 수도 있다. 그것은 다수의 데이터가 아니라 소수, 심지어 한 개의 사례일 수도 있다. 한 마디로 베이즈 통계에서는 데이터의 과학적 표집(표본추출)에 빈도주의 통계만큼 크게 의존하지 않는다.

베이즈 통계를 빈도주의 통계에 대치시키는 경우가 적지 않다. 통계학의 역사를 보면 충분히 이해할만한 현상이지만, 필자는 베이즈 통계가 빈도주의 통계를 대체하기보다는 확장한다고 생각한다. 베이즈 통계가 사회과학에 있어 통계의 쓰임새를 넓혀준다는 말이다. 유연하고 열린 마음으로 베이즈 통계에 접근한다면 그것은 우리의 과학적 도구 창고를 보다 풍부하게 만들어 줄 것이다. (2020-10-18).

조건부 확률, 곱셈법칙, 베이즈 정리(4)

(예제 3) 사십 대 여성이 정기 건강 검진의 일환으로 유방 엑스레이를 찍었다. 일주일 뒤 그녀는 유방암 검사 결과가 양성으로 나왔다는 통보를 받았다. 유방암에 관한 가족력도 없고 또 징후도 없는 그녀가 진짜로 유방암에 걸렸을 확률은 얼마일까? 

미국에서 사십 대 여성 1만명 가운데 대략 40명이 유방암을 가지고 있다(유방암 발병 확률은 40/10,000이다). 그리고 유방암 환자가 유방 엑스레이 검사에서 양성 반응이 나올 확률은 80%이다. 그러면 그 40명 가운데 32명이 양성 판정을 받는다(그 확률은 32/40이다). 또한 유방 엑스레이 검사에서 양성 반응이 나올 확률은 10%이다(그 확률은 1,000/10,000이다).

(풀이)

사건의 정의: B = 유방암 발병, P = 유방암 엑스레이 양성 결과

주변 확률:

조건부 확률: 

문제는  로 표시할 수 있다.

식 (1)의 우변에 있는 확률들의 값이 모두 있으므로 식 (1)에 대입한다.

이 결과를 말로 풀어 보면, 유방암 엑스레이 검사 결과가 양성이 나온 40대 여성이 실제로 유방암에 걸렸을 확률은 0.032, 즉, 3.2%밖에 되지 않는다.

 

(예제 4) 이메일의 스팸을 걸러내는 소프트웨어에는 베이즈 이론이 적용된다. 영어로 된 스팸메일에서 가장 많이 나타나는 단어가 shipping!이다. 스팸 메일 중 shipping!을 포함하는 메일의 비율은 0.051이고, 스팸이 아닌 메일에서 shipping!을 포함하는 메일의 비율은 0.0015이다. 그리고 많은 메일 중에서 10%가 스팸 메일이다. 만일 메일이 shipping!을 포함하고 있다면 스팸일 확률은? 만일 메일이 shipping!을 포함하고 있음에도 불구하고 스팸이 아닐 확률은? 만일 메일이 shipping!을 포함하고 있다면 스팸이라고 판명해야할까?

(풀이)

사건의 정의: Shipping = 메일에 shipping!이라는 단어가 포함됨, Spam = 스팸 메일

이 문제를 푸는 데 있어 첫번째 관문은, 여기서 “스팸 메일 중 shipping!을 포함하는 메일의 비율”이라는 표현을 확률적으로 정확히 번역해 내는 일이다. “그것은 “어떤 메일이 스팸일 때, 그 메일이 shipping!을 포함할 확률”로 번역된다. 아래와 같은 조건부 확률인 것이다.

조건부 확률: 

주변확률: 

원래의 문제는 다음과 같이 표시될 수 있다.

문제 풀이의 두 번째 관건은, 분모가 되는 shipping의 주변확률을 구하는 것이다. 주변확률은 관련된 결합확률들의 합이다. P(shipping)과 관련된 결합확률은 아래처럼 두 가지이다.

우변의 결합확률 각각을 곱셈법칙을  이용해서 주변확률과 조건부 확률의 곱으로 바꾼다.

이제 주변확률 을 구할 준비가 되었다.

위 식 (1)의 우변에 해당 확률 값을 대입한다.

이 결과를 말로 풀어보면, 어떤 메일에 shipping!이라는 단어가 들어 있을 때 그 메일이 스팸일 확률은 0.7907이고, 스팸이 아닐 확률은 0.2093이다. 따라서 만약 어떤 메일에 shipping!이라는 단어가 들어 있다면 스팸이라고 분류하는 것이 좋을 듯하다. 그런 메일 중 약 80%가 스팸이기 때문이다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(3)

(예제 2) 서로 다른 두 납품업체(공급자 1과 공급자 2)로부터 원자재를 공급받는 제조회사가 있다. 현재 공급자 1로부터 65%의 원자재를 구매하고, 공급자 2로부터는 35%를 구매한다. 한편 그 동안 두 업체로부터 납품 받은 원자재의 품질은 아래와 같다.

 좋은 품질 비율(%)나쁜 품질 비율(%)
공급자 1982
공급자 2955

그런데, 제품 생산 과정에서 어떤 원자재가 불량으로 나타났다. 그 원자재가 공급자 1로부터 왔을 확률은 얼마이고, 공급자 2로부터 왔을 확률은 얼마인가?

(풀이)

사건의 정의: A1 = 공급자 1로부터 납품 받음, A2 = 공급자 2로부터 납품 받음, B = 나쁜 품질의 원자재, G = 좋은 품질의 원자재

이 문제는 데이터(정보)가 주변확률과 조건 사건의 조건부 확률(즉, 우도)로 제한되어 있기 때문에 결합확률표와 조건부 확률 공식을 사용하지 못하고 베이즈 정리를 이용해서 풀어야 한다.

이 문제 풀이의 첫 번째 관건은  표에 있는 데이터를 어떻게 해석할 것인가이다. 예컨대 공급자 1이 좋은 품질의 원자재를 납품할 확률은 98%이다. 이 진술은, 공급자가  1일 때(조건), 좋은 품질의 원자재일 확률(조건부 확률)이 0.98임을 말한다. [공급자가 1이면서 좋은 품질의 원자재를 납품할 확률(즉, 결합확률)을 의미하는 것이 아님에 유의. 실제로 결합확률이 그렇게 높이 나올 가능성은 거의 없음. 결합확률은 주변확률의 곱이기 때문이다.] 즉,

이 문제 풀이의 두 번째 관건은 주변확률, 를 구할 수 있느냐이다. 사실 베이즈 응용 문제에서, 분모에 들어가는 조건 사건의 주변확률을 구하는 것이 자주 풀이의 관건이 되곤 한다.

문제를 베이즈 정리 형식으로 표현해 보자. 어떤 원자재가 불량(나쁜 품질)일 때, 그 원자재가 공급자 1로부터 왔을 확률은 다음과 같이 표시할 수 있다.

우변에서 우리는, 임을 알고 있으니,  분모에 있는 B의 주변 확률을 구하면 된다. 주변 확률은 해당되는 결합확률을 모두 더한 값이다. 즉,

이다.

그런데 곱셈법칙에 의하면,

이 값을 식 (2)에 대입하면,

우리는 식 (2)의 우변에 확률값을 모두 알고 있다. 그 값들을 대입해서 를 구하자.

다시 식 (1)로 돌아가서 확률값들을 대입한다.

즉, 원자재가 불량일 때, 그것이 공급자 1로부터 왔을 확률은 0.426이다. 그렇다면 공급자 2로부터 왔을 확률은 1-0.426 = 0.574가 될 것이다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(2)

(예제 1) 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀를 구분해 정리한 자료이다.

 X = x1X = x2
Y = y128836324
Y = y2672204876
9602401,200

1. 임의로 뽑힌 어떤 경찰관이 여성이다. 그가 승진할 확률은? 만약 그가 남성이라면 승진할 확률은?

2. 경찰관의 성별이 경찰관의 승진에 영향을 미친다고 생각되는가? 근거를 제시하시오.

(풀이)

사건의 정의: 여성 = F, 남성 = M, 승진 = P,  승진탈락 = N

이 문제의 경우 확률을 추정하는 데 필요한 데이터가 풍부하다. 때문에 조건부 확률 정리를 이용하여 문제를 풀 수도 있고, 베이즈 정리를 이용하여 문제를 풀 수도 있다. 두 가지 방법을 이용해서 풀고 결과를 비교해 보자.

먼저 주어진 데이터를 가지고 결합확률표를 구해 놓으면 효율적으로 문제를 풀 수 있다. 각 칸의 빈도를 경찰관 총수인 1,200으로 나누어 주면 다음과 같은 결합확률표를 얻는다.

 X = x1X = x2P(Y = yi)
Y = y10.240.030.27
Y = y20.560.170.73
P(X = xi)0.800.201.00

결합확률

주변확률

이제 이 정보를 가지고 문제를 푸는 데 필요한 조건부 확률을 구할 수 있다.

1. 어떤 경찰관이 여성일 때 승진할 확률, 남성일 때 승진할 확률은 각각 아래와 같이 계산된다.

이 문제를 베이즈 정리를 이용해서 풀면 다음과 같다.

여기서 분자에 있는 를 모르기 때문에 조건부 확률 정리를 이용해서 그것을 먼저 계산한다.

이제 에 관해 풀 수 있다. (남성일 경우도 동일한 방법으로 계산할 수 있음)

(1)과 (2)를 보면 0.15로 같은 값임을 확인할 수 있다. 조건부 확률로 계산하면 간단한 것을, 베이즈 정리로 풀었더니 복잡하기만 하다. 만약 결합확률표를 구할 수 있으면, 이런 문제는 조건부 확률 공식만으로도 충분히 풀 수 있다. 그러나 만약 결합확률을 모르고 조건 사건의 조건부 확률[이것을 공산 혹은 우도(likelihood)라고 함]과 주변 확률을 아는 경우에는 베이즈 정리를 이용해서 계산한다.

2. 남성일 때 승진할 확률은 0.3이고, 여성일 때 승진할 확률은 0.15이니, 남성의 승진확률이 여성의 승진확률의 두 배이다. 경찰관의 성별이 승진에 영향을 주는 것으로 판단된다. 이 결론을 독립사건의 정리를 이용해서 도출할 수도 있다.

만약 경찰관의 성별이 승진에 영향을 미치지 않는다면, 승진의 주변확률(사전확률), 이 승진의 조건부 확률(사후확률),  혹은 과 같아야 한다. 즉,

그런데 곱셈법칙에 의하면,

여기서 이므로,

이다.

그리고 당연히 일 것이다.

두 사건이 상호 독립적일 때(mutually independent), 두 사건의 결합확률은 두 사건의 주변확률을 곱한 값이다. 경찰관 승진 자료를 가지고, 성별과 승진이 관련이 없다는 가정 아래 가상적인 결합확률표를 만들면 다음과 같다.

 남성여성주변확률
승진0.22(=0.8*0.27)0.05(=0.2*0.27)0.27
승진탈락0.58(=0.8*0.73)0.15(=0.2*0.73)0.73
주변확률0.800.201.00

표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.24이고, 표 3의 값은 0.22이다. 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 크다. 표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.03이고, 표 3의 값은 0.05이다. 즉, 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 작다.

남성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 높은 반면, 여성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 낮다. 따라서 데이터는 경찰관의 승진에 성차별이 존재함을 시사하고 있다고 결론지을 수 있다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(1)

상호 관련된(혹은 관련된 것으로 추정되는) 두 사건이 있을 때, 그 중 하나의 사건(사건 A라고 하자)이 발생하면 다른 하나의 사건(사건 B라고 하자)이 발생할 확률에 대해 이전(사건 A가 발생하기 전)보다 좀 더 잘 예측할 수 있을 것이다. 그러한 예측을 수학적으로 가능하게 해주는 지식이 조건부 확률, 곱셈법칙 그리고 베이즈 정리(Bayes’ Theorem)이다. 그 세 가지 법칙(혹은 정리)은 논리적으로 깊이 연관되어 있다.

다음과 같이 사건을 정의한다.

A: 사건 A의 발생, B: 사건 B의 발생

(조건부 확률) 사건 A의 발생 확률이 사건 B의 발생에 의해 영향을 받는다면, 두 사건의 발생확률 사이의 관계를 다음과 같이 나타낼 수 있을 것이다.

말로 풀어보면, 사건 B가 발생했을 때 사건 A가 발생할 확률–사건 A의 조건부 확률–은 사건 A와 사건 B가 동시에 발생할 확률–사건 A 와 사건 B의 결합확률 혹은 동시확률–을 사건 B의 발생 확률–조건이 되는 사건 B의 주변확률–로 나눈 값이다.

(곱셈 법칙) 정리(1)에서 양변에 를 곱하고, 좌변과 우변을 이항하면 다음 결과를 얻는다.

말로 풀어보면, 사건 A와 사건 B가 동시에 발생할 확률–사건 A와 사건 B의 결합 확률(혹은 동시확률)–은 조건이 되는 사건 B가 발생할 확률과 사건 A의 조건부 확률의 곱이다.

(베이즈 정리) 확률의 교환법칙에 따르면,

그리고 우변에 곱셈법칙을 적용하면,

결합확률을 조건부 확률과 조건의 주변확률로 표현하기 위해 식(2)와 식(4)를 식(3)에 대입하면,

이 식의 양변을 로 나누면,

이 식이 베이즈 정리(Bayes’ Theorem)이다. 말로 표현하면, 사건 A의 조건부 확률은 사건 A의 발생 확률에 사건 B의 조건부 확률을 곱한 값을 조건 사건 B의 주변확률로 나눈 값이다.

이 정리는, 조건이 되는 사건 B의 발생을 기준으로 다르게 해석될 수 있다. 즉, 는 사전 확률(prior probability 혹은 간단히 prior)이며, 는 사후 확률(posterior probability 혹은 간단히 posterior)이다. 그리고 와 는 예측을 위한 데이터(혹은 정보)이다.

베이즈 정리는, 어떤 사건(여기서는 사건 A)과 관련된 사건(여기서는 사건 B)에 관한 데이터(혹은 정보)를 얻었을 때 그 사건(사건 A)에 대한 향상된 예측을 할 수 있게 해준다. 그 과정은  로 표현할 수 있다.

논의가 추상적이니 몇 개의 응용 사례를 가지고 조건부 확률, 곱셈 법칙, 베이즈 정리를 보다 구체적으로 살펴보자. (윤영민, 2018-05-25)