베이즈 통계(2): 조건부 확률 가지고 놀기

베이즈 통계는 조건부 확률(conditional probability)에서 출발한다. 때문에 조건부 확률은 베이즈 통계의 기초 중의 기초이다. 조건부 확률에 익숙해질수록 베이즈 통계가 가깝게 다가온다. 그래서 이번 포스팅에서는 조건부 확률을 가지고 좀 놀아보자.

베이즈 통계의 입문을 조건부 확률과 함께 시작한다는 것은 중요한 의미가 있다. 무엇보다 조건부 확률은 두 확률변수의 결합(joint 혹은 conjoint)이 전제된다. 이는 베이즈 통계가 두 변수 이상의 관계를 다룬다는 점을 시사한다. 빈도주의 통계의 적지 않은 부분이 한 변수에 관한 것이라는 점을 상기한다면 이는 가벼운 특성이 아님을 알 수 있다.

조건부 확률은 두 확률변수(X, Y라고 하자)가 있을 때, 그중 하나(e.g. X)가 발생할 때 다른 하나가 발생할 확률을 말한다. 조건부 확률은 아래와 같이 여러가지 방식으로 표기된다.

이 중 가장 간단한 로 표기로 시작하자. X가 발생할 때, Y가 발생할 확률이라고 읽는다(영어로는, probability of Y, given X occurs 혹은 그냥 간단히 probability of Y, given X라고 한다). X가 발생한다는 말은 X가 특정값(x)을 갖는다는 의미이며, Y가 발생한다는 말은 Y가 특정값(y)를 갖는다는 의미이다.

X, Y의 조건부 확률은 X, Y의 결합확률을 조건에 해당되는 변수의 주변확률로 나누어 얻는다. 확률에서 조건이란 어떤 확률변수의 범위에서 특정한 조건을 충족하는 범위만을 보겠다 혹은 관심을 갖겠다는 것이다. 결합확률(joint probability or conjoint probability)이란 두 확률변수가 동시에 발생하는 경우의 확률을 의미하며, 주변확률이란 결합확률이 주어졌을 때 두 변수 중 한 변수의 확률만을 가리킨다. 예를 가지고 보자.

미국 어느 대도시 경찰의 성별에 따른 승진 현황이 있다고 하자. 한 확률변수는 성별, 다른 하나의 확률변수는 승진 여부이다. 승진 현황은 다음과 같은 교차표로 요약된다.

논의를 간략히 하기 위해 사건을 다음과 정의한다.

X: 경찰관의 성별. = 남자, = 여자

Y: 경찰관의 승진 여부. = 승진, = 승진 탈락

이 표를 기호로 일반화하여 표기하면 다음과 같다.

이 빈도 교차표를 확률로 변환하려면 전체 경찰관 수(N)으로 각 칸을 나누어 주면 된다. 그러면 전체 합이 1인 값들로 바뀐다. 그런 의미에서 확률은 전체의 합을 1로 만드는 정규화(normalize)라고 말할 수 있다. 그렇게 해서 아래와 같은 결합확률표(joint probability table)를 얻었다.

여기서 두 확률변수의 결합확률은, 남자이면서 승진할 확률 0.24, 여자이면서 승진할 확률 0.03, 남자이면서 승진하지 못할 확률 0.56, 여자이면서 승진하지 못할 확률 0.17 네 개이다. 주변확률은 남자가 승진할 확률 0.80, 여자가 승진할 확률 0.20, 승진할 확률 0.27, 승진하지 못할 확률 0.73 네 개이다.

일반화를 위해 이 결합확률표는 다음과 같이 기호로 표시될 수 있다.

남자일 주변확률 은 남자일 때 승진하거나 승진하지 못한 확률을 모두 합한 값이다.  여자일 주변확률 은 여자일 때 승진하거나 승진하지 못한 확률을 모두 합한 값이다. 승진할 주변확률 은 승진할 때 남자이거나 여자일 확률을 모두 합한 값이다. 승진탈락의 주변확률 은 승진 탈락할 때 남자이거나 여자일 확률을 모두 합한 값이다.

주변확률에 대해 이렇게 장황하게 설명하는 것은 한 변수가 특정값을 가질 때 그 사건의 주변확률은 다른 변수의 모든 발생 확률을 더한 값이라는 사실을 보여주기 위해서이다.

앞에서 조건부 확률이란 한 변수가 발생할 때(즉, 특정값을 가질 때), 다른 변수가 발생할(다른 변수가 특정값을 가질) 확률이라고 했다. 만약 성별이 조건으로 주어진다면, 조건부 확률은, 경찰관이 남성일 때(혹은 반대로 경찰관이 여성일 때)에 국한해서 확률값을 계산하겠다는 것이다. 그러면 주변확률값을 1로 만드는 정규화를 하면 된다. 예컨대 경찰관이 남성일 때 승진할 확률을 구한다면, 그것은 라는 조건부 확률을 계산하겠다는 말이다. 그 조건부 확률은 남성이면서 승진할 확률(결합확률)을 남성인 주변확률로 나눈 값이다. 그것은 아래와 같이 표시할 수 있다.

어떤 경찰관이 남성일 때 승진에 탈락할 확률 도 마찬가지 방식으로 구할 수 있다.

기억하기 쉽게 말하자면, 조건부 확률은 결합확률 나누기 주변확률이다.

이번에는 조건을 바꾸어보자. 어떤 경찰관이 승진했다. 그 경찰관이 남성일() 확률 은 아래와 같을 것이다.

그런데, 만약 우리가 결합확률표를 구성할 수 없어 결합확률을 알지 못하고 대신에  역 조건부 확률(inverse conditional probability)과 두 확률변수의 주변확률을 알고 있을 때 조건부 확률을 구하는 방법을 생각해보자. 즉, 을 구하는데, , 을 알고 있다는 것이다. 식(2)에서 양변에 을 곱하면 다음과 같이 될 것이다.

그리고 교환법칙에 의해,

이므로, 식(1)의 우변 분자에 식(3)을 대입할 수 있다. 그러면 아래 식을 얻게 된다.

식(4)는 아래와 같이 일반화하여 간략히 쓸 수 있다.

드디어 베이즈 정리(Bayes’ theorem)가 도출되었다. 베이즈 정리는 결합확률을 모를 때 역조건부확률과 두 확률변수의 주변확률을 가지고 조건부 확률을 구하는 공식에 다름 아니다. 그런데, 이 간단한 공식의 응용범위가 놀랍도록 넓다. 그래서 그것은 정리의 자리를 꿰어찼다.

베이즈 정리를 보면 몇 가지 성질이 읽힌다.

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다.

이 성질은 논리적으로 다음과 같이 확장될 수 있다.

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다. –> 흔히 X는 데이터이고 Y는 모수(parameter)이다. 베이즈 정리는 데이터가 주어졌을 때 모수를 얻게 될 확률을 구하는 과정이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다. –> 역조건부 확률 우도(likelihood)라고 부른다. 흔히 그것은 경험적으로 주어진다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다. –> 여기서 를 데이터를 얻기 이전 확률이라는 의미에서 사전 확률(prior)이라고 부르고 를 데이터를 얻은 후 확률이라는 의미에서 사후확률(posterior)이라고부른다. 베이즈 정리에서 데이터를 포착해 주는 부분이 우도이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다. –> 정규화 상수라고 부른다.

조건부 확률을 가지고 꽤 멀리 왔다. 다음 포스팅에서는 예제를 가지고 확장된 베이즈 정리의 함축성을 찾아보자.(2020-10-19)

결합확률, 주변확률, 조건부 확률: 이산확률변수

교차표(cross-table)

두 개의 이산확률변수 X, Y가 결합하여 아래와 같은 교차표가 형성되었다고 하자.

각 칸(cell)에는 두 확률변수 값()을 충족하는 사상(事象, event)이 들어간다. 그것을 총 사상의 수효인 N에 대비하여  로 표시하자. 관행에 따라 확률변수는 대문자로, 확률변수의 값은 소문자로 표기한다.

결합확률(joint probability)

두 확률변수의 결합확률은 아래와 같이 표시된다. 두 확률변수의 결합확률은 두 확률변수의 교집합이 발생할 확률이다.

또한 확률은 항상 0과 1 사이의 값을 갖는다. 따라서 확률로 나타낸다는 것은 사상의 수를 0과 1 사이 값으로 정규화(normalization)한다고 말할 수 있다. 정규화를 하면 사상 값들의 총합은 1이다. 각 사상의 수( )를 총 사상의 수 N으로 나누면 사상의 수가 모두 0과 1 사이의 값으로 정규화된다. N은 정규화 상수(normalizing constant)라고 말할 수 있다. 결합확률은 사상의 수가 정규화된 값이다.

결합확률표(joint probability table)

주변확률(marginal probability)

주변확률은 결합확률이 있다는 조건에서 존재한다. 이산형 확률변수의 경우 두 개(혹은 그 이상)의 확률변수로 구성된 결합확률표에 존재한다. 위 결합확률표에서 한 확률변수의 확률만을 고려하는 것이 주변확률이다. 진한 파랑색으로 된 부분이 주변확률이다. 위 결합확률표에서 확률변수 X, Y 중 X 혹은 Y 하나만 고려하면 주변확률이 나온다. X의 주변확률은 특정한 X 값에 속하는 X, Y 결합확률 값을 모두 합한 것이다. 위 결합확률표에서 여섯 개의 주변확률은 다음과 같이 계산된다.

확률변수 X, Y의 결합확률을 일반화시켜서 나타내면 아래와 같다.

조건부 확률(conditional probability)

확률변수 두 개(혹은 그 이상)가 있다. 하나 확률변수의 특정 값(e.g. )이 주어졌을 때, 다른 하나 확률변수의 특정 값(e.g. )이 나타날 확률이 조건부 확률이다. 흔히 조건부 확률은 다음과 같이 표기된다.

하나의 확률변수 값()이 주어졌기 때문에, 전체 사상(N) 대신 오직 그 값의 사상()만 고려된다. 즉, 가 정규화 상수가 된다. 결합확률과 주변확률의 경우에는 N이 정규화 상수였다. 다시 말해 N이 1이 되는 것이 아니라 가 1이 된다.

위 결합확률표를 가지고 예를 들어보자. 확률변수 X가 3일 때 조건부 확률은 세 가지가 있을 것이다. Y가 1인 경우, Y가 2인 경우, Y가 3인 경우이다. 조건부 확률을 구하려면, X가 3인 열의 칸을 모두 P(X = 3)으로 나누어 주면 된다.

그러면 아래 결합확률표의 주황색 열처럼 될 것이다. 조건부 확률은 결합확률을 주변확률로 나눈 값이다.

조건부 확률을 합하면 1이다.

조건부 확률은 다음과 같이 일반화하여 표시될 수 있을 것이다.

개념적으로 설명했으니  이제 예제를 가지고 이해해 보자. 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀를 구분해 정리한 자료이다.

 X = x1X = x2
Y = y128836324
Y = y2672204876
9602401,200

사건의 정의:

확률변수 = 성별: = 남성, = 여성

확률변수 = 승진 여부: = 승진,  = 승진탈락

이 데이터를 가지고 결합확률표를 구해보자. 각 칸(사상)의 빈도수()를 총 빈도수(N)로 나누어 0과 1 사이로 정규화하면 그것이 결합확률이다. 그렇게 해서 구한 결합확률표는 아래와 같다.

 X = x1X = x2P(Y = yi)
Y = y10.240.030.27
Y = y20.560.170.73
P(X = xi)0.800.201.00

결합확률표에서 각 열의 결합확률을 더하면 성별의 주변확률이 구해지고, 각 행의 결합확률을 더하면 승진여부의 주변확률이 구해진다. 주변확률도 전체 사상수에 의해 정규화되어 있어 열의 주변확률을 모두 더한 값도 1이고 행의 주변확률을 모두 더한 값도 1이다.

그렇다면 어떤 경찰관이 여성일 때, 그 경찰관이 승진할 확률은 얼마이겠는가? 조건부 확률을 묻는 문제이다.

이 조건부 확률은, 여성이면서 승진한 경찰관일 확률이라는 결합확률(0.03)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.15이다.

어떤 경찰관이 여성일 때, 그 경찰관이 승진하지 못할 확률은? 이것도 조건부 확률 문제이다.

여성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.17)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.85이다.

이 두 개의 조건부 확률을 합하면 1이다. 조건부확률이란 주변확률을 1로 만든 것이니 당연한 결과이다.

남성 경찰관은 어떨까?

어떤 경찰관이 남성일 때, 그 경찰관이 승진할 확률은? 남성이면서 승진한 경찰관일 확률이라는 결합확률(0.24)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.3이다.

어떤 경찰관이 남성일 때, 그 경찰관이 승진하지 못할 확률은? 남성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.56)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.7이다.

이 두 조건부 확률을 더하면 1이다.

여성 경찰관이 승진할 확률은 0.15이고, 남성 경찰관이 승진할 확률은 0.3이니 남성 경찰관이 승진할 확률이 여성 경찰관이 승진할 확률의 두 배이다. 성차별 냄새가 나는 차이이다.

조건부 확률과 결합확률, 어떻게 구분할 것인가

다음 교차표는 미국 어느 도시에서 경찰관들이 2년 동안 승진한 현황을 담고 있다.

다음 질문에 답해 보자.

  1. 남자 경찰관이 승진할 확률은?
  2. 여자 경찰관이 승진할 확률은?
  3. 승진한 남자 경찰관의 비율은?
  4. 승진한 여자 경찰관의 비율은?

먼저 사건을 정의하자. 남자 경찰관: M, 여자 경찰관: W, 승진: A, 승진탈락:

이 질문들에 답하기 위해서는 이 교차표로부터 결합확률표를 만들어야 한다. 승진한 남자 경찰관은 288명이며, 승진한 여자 경찰관은 36명이다. 승진한 남자 경찰관의 비율이 남자 경찰관 사건과 승진 사건의 결합확률이다. 즉,

여자 경찰관과 승진의 결합확률은,

이는 곧 승진한 여성 경찰관의 비율이다. 남자 경찰관과 승진탈락의 결합확률, 그리고 여자 경찰관과 승진탈락의 결합확률은 각각 아래와 같다.

결합확률표에 들어가는 주변확률은 각 사건의 비율이다. 즉, 남자 경찰관의 비율(0.80), 여자 경찰관의 비율(0.20), 승진의 비율(0.27), 승진탈락의 비율(0.73)이다. 이 확률들을 가지면 다음과 같은 결합확률표가 만들어진다.

남자 경찰관이 승진할 확률을 보다 확률적으로 표현하면, 만약 어떤 경찰관이 남자라면 그가 승진할 확률은 얼마인가가 될 것이다. 이는 조건부 확률, 이다. 선행 사건(혹은 조건 사건)이 남자 경찰관(M)이고, 후행 사건이 승진(A)이다. 두 사건이 시간적으로 순차적으로 발생한 것임을 알 수 있다. 이를 나무 그림으로 표현하면 다음과 같다.

이 나무 그림을 보고 확률을 생각하면 훨씬 직관적이다. 먼저 경찰관 1명을 무작위로 추출하였을 때 그가 남자 경찰관일 확률은 0.8이고, 여성 경찰관일 확률은 0.2이다. 이것이 남자 사건과 여자 사건의 주변확률이다. 또한 어떤 경찰관을 무작위로 추출하였을 때 그가 승진한 남자 경찰관일 확률은 0.24, 승진한 여자 경찰관일 확률은 0.03이다. 이것은 남자 사건과 승진 사건, 여자 사건과 승진 사건의 결합확률이다. 이는 위에서 제기한 질문 3과 4에 대한 답이다.

그리고 질문 1, 남자 경찰관이 승진할 확률은 0.3이고, 질문 2, 여자 경찰관이 승진할 확률은 0.15이다. 이것은 남자 사건이 주어졌을 때 승진 사건이 발생할 조건부 확률, 그리고 여자 사건이 주어졌을 때 승진 사건이 발생할 조건부 확률이다.

물론 어떤 경찰관이 승진하였을 때 그가 남자일 확률도 조건부 확률이다. 계산해 보면 다음과 같다.

사실 조건부 확률에서 선행 사건과 후행 사건은 시간적 순서이라기보다 논리적 순서라고 보는 편이 맞을 것이다. 여하튼 조건부 확률에는 순서가 있다. 반면에 결합확률은 동시적이다. 즉, 순서가 없다. (그래서 결합확률은 동시확률이라고 불리기도 한다.) 이점도 기억해두면, 어떤 명제(혹은 문제)가 결합확률을 가리키는지 아니면 조건부 확률을 가르키는 지를 구분하는 데 도움이 될 것이다.

문제가 주어졌을 때 그것이 조건부 확률에 대한 질문인지 아니면 결합확률에 대한 질문인 지를 학생들이 잘 혼동하는 것 같아 조금 자세히 설명해 보았다. (2019-09-10, 윤영민)

조건부 확률, 곱셈법칙, 베이즈 정리(4)

(예제 3) 사십 대 여성이 정기 건강 검진의 일환으로 유방 엑스레이를 찍었다. 일주일 뒤 그녀는 유방암 검사 결과가 양성으로 나왔다는 통보를 받았다. 유방암에 관한 가족력도 없고 또 징후도 없는 그녀가 진짜로 유방암에 걸렸을 확률은 얼마일까? 

미국에서 사십 대 여성 1만명 가운데 대략 40명이 유방암을 가지고 있다(유방암 발병 확률은 40/10,000이다). 그리고 유방암 환자가 유방 엑스레이 검사에서 양성 반응이 나올 확률은 80%이다. 그러면 그 40명 가운데 32명이 양성 판정을 받는다(그 확률은 32/40이다). 또한 유방 엑스레이 검사에서 양성 반응이 나올 확률은 10%이다(그 확률은 1,000/10,000이다).

(풀이)

사건의 정의: B = 유방암 발병, P = 유방암 엑스레이 양성 결과

주변 확률:

조건부 확률: 

문제는  로 표시할 수 있다.

식 (1)의 우변에 있는 확률들의 값이 모두 있으므로 식 (1)에 대입한다.

이 결과를 말로 풀어 보면, 유방암 엑스레이 검사 결과가 양성이 나온 40대 여성이 실제로 유방암에 걸렸을 확률은 0.032, 즉, 3.2%밖에 되지 않는다.

 

(예제 4) 이메일의 스팸을 걸러내는 소프트웨어에는 베이즈 이론이 적용된다. 영어로 된 스팸메일에서 가장 많이 나타나는 단어가 shipping!이다. 스팸 메일 중 shipping!을 포함하는 메일의 비율은 0.051이고, 스팸이 아닌 메일에서 shipping!을 포함하는 메일의 비율은 0.0015이다. 그리고 많은 메일 중에서 10%가 스팸 메일이다. 만일 메일이 shipping!을 포함하고 있다면 스팸일 확률은? 만일 메일이 shipping!을 포함하고 있음에도 불구하고 스팸이 아닐 확률은? 만일 메일이 shipping!을 포함하고 있다면 스팸이라고 판명해야할까?

(풀이)

사건의 정의: Shipping = 메일에 shipping!이라는 단어가 포함됨, Spam = 스팸 메일

이 문제를 푸는 데 있어 첫번째 관문은, 여기서 “스팸 메일 중 shipping!을 포함하는 메일의 비율”이라는 표현을 확률적으로 정확히 번역해 내는 일이다. “그것은 “어떤 메일이 스팸일 때, 그 메일이 shipping!을 포함할 확률”로 번역된다. 아래와 같은 조건부 확률인 것이다.

조건부 확률: 

주변확률: 

원래의 문제는 다음과 같이 표시될 수 있다.

문제 풀이의 두 번째 관건은, 분모가 되는 shipping의 주변확률을 구하는 것이다. 주변확률은 관련된 결합확률들의 합이다. P(shipping)과 관련된 결합확률은 아래처럼 두 가지이다.

우변의 결합확률 각각을 곱셈법칙을  이용해서 주변확률과 조건부 확률의 곱으로 바꾼다.

이제 주변확률 을 구할 준비가 되었다.

위 식 (1)의 우변에 해당 확률 값을 대입한다.

이 결과를 말로 풀어보면, 어떤 메일에 shipping!이라는 단어가 들어 있을 때 그 메일이 스팸일 확률은 0.7907이고, 스팸이 아닐 확률은 0.2093이다. 따라서 만약 어떤 메일에 shipping!이라는 단어가 들어 있다면 스팸이라고 분류하는 것이 좋을 듯하다. 그런 메일 중 약 80%가 스팸이기 때문이다. (윤영민, 2018-05-25)