베이즈 통계(2): 조건부 확률 가지고 놀기

베이즈 통계는 조건부 확률(conditional probability)에서 출발한다. 때문에 조건부 확률은 베이즈 통계의 기초 중의 기초이다. 조건부 확률에 익숙해질수록 베이즈 통계가 가깝게 다가온다. 그래서 이번 포스팅에서는 조건부 확률을 가지고 좀 놀아보자.

베이즈 통계의 입문을 조건부 확률과 함께 시작한다는 것은 중요한 의미가 있다. 무엇보다 조건부 확률은 두 확률변수의 결합(joint 혹은 conjoint)이 전제된다. 이는 베이즈 통계가 두 변수 이상의 관계를 다룬다는 점을 시사한다. 빈도주의 통계의 적지 않은 부분이 한 변수에 관한 것이라는 점을 상기한다면 이는 가벼운 특성이 아님을 알 수 있다.

조건부 확률은 두 확률변수(X, Y라고 하자)가 있을 때, 그중 하나(e.g. X)가 발생할 때 다른 하나가 발생할 확률을 말한다. 조건부 확률은 아래와 같이 여러가지 방식으로 표기된다.

이 중 가장 간단한 로 표기로 시작하자. X가 발생할 때, Y가 발생할 확률이라고 읽는다(영어로는, probability of Y, given X occurs 혹은 그냥 간단히 probability of Y, given X라고 한다). X가 발생한다는 말은 X가 특정값(x)을 갖는다는 의미이며, Y가 발생한다는 말은 Y가 특정값(y)를 갖는다는 의미이다.

X, Y의 조건부 확률은 X, Y의 결합확률을 조건에 해당되는 변수의 주변확률로 나누어 얻는다. 확률에서 조건이란 어떤 확률변수의 범위에서 특정한 조건을 충족하는 범위만을 보겠다 혹은 관심을 갖겠다는 것이다. 결합확률(joint probability or conjoint probability)이란 두 확률변수가 동시에 발생하는 경우의 확률을 의미하며, 주변확률이란 결합확률이 주어졌을 때 두 변수 중 한 변수의 확률만을 가리킨다. 예를 가지고 보자.

미국 어느 대도시 경찰의 성별에 따른 승진 현황이 있다고 하자. 한 확률변수는 성별, 다른 하나의 확률변수는 승진 여부이다. 승진 현황은 다음과 같은 교차표로 요약된다.

논의를 간략히 하기 위해 사건을 다음과 정의한다.

X: 경찰관의 성별. = 남자, = 여자

Y: 경찰관의 승진 여부. = 승진, = 승진 탈락

이 표를 기호로 일반화하여 표기하면 다음과 같다.

이 빈도 교차표를 확률로 변환하려면 전체 경찰관 수(N)으로 각 칸을 나누어 주면 된다. 그러면 전체 합이 1인 값들로 바뀐다. 그런 의미에서 확률은 전체의 합을 1로 만드는 정규화(normalize)라고 말할 수 있다. 그렇게 해서 아래와 같은 결합확률표(joint probability table)를 얻었다.

여기서 두 확률변수의 결합확률은, 남자이면서 승진할 확률 0.24, 여자이면서 승진할 확률 0.03, 남자이면서 승진하지 못할 확률 0.56, 여자이면서 승진하지 못할 확률 0.17 네 개이다. 주변확률은 남자가 승진할 확률 0.80, 여자가 승진할 확률 0.20, 승진할 확률 0.27, 승진하지 못할 확률 0.73 네 개이다.

일반화를 위해 이 결합확률표는 다음과 같이 기호로 표시될 수 있다.

남자일 주변확률 은 남자일 때 승진하거나 승진하지 못한 확률을 모두 합한 값이다.  여자일 주변확률 은 여자일 때 승진하거나 승진하지 못한 확률을 모두 합한 값이다. 승진할 주변확률 은 승진할 때 남자이거나 여자일 확률을 모두 합한 값이다. 승진탈락의 주변확률 은 승진 탈락할 때 남자이거나 여자일 확률을 모두 합한 값이다.

주변확률에 대해 이렇게 장황하게 설명하는 것은 한 변수가 특정값을 가질 때 그 사건의 주변확률은 다른 변수의 모든 발생 확률을 더한 값이라는 사실을 보여주기 위해서이다.

앞에서 조건부 확률이란 한 변수가 발생할 때(즉, 특정값을 가질 때), 다른 변수가 발생할(다른 변수가 특정값을 가질) 확률이라고 했다. 만약 성별이 조건으로 주어진다면, 조건부 확률은, 경찰관이 남성일 때(혹은 반대로 경찰관이 여성일 때)에 국한해서 확률값을 계산하겠다는 것이다. 그러면 주변확률값을 1로 만드는 정규화를 하면 된다. 예컨대 경찰관이 남성일 때 승진할 확률을 구한다면, 그것은 라는 조건부 확률을 계산하겠다는 말이다. 그 조건부 확률은 남성이면서 승진할 확률(결합확률)을 남성인 주변확률로 나눈 값이다. 그것은 아래와 같이 표시할 수 있다.

어떤 경찰관이 남성일 때 승진에 탈락할 확률 도 마찬가지 방식으로 구할 수 있다.

기억하기 쉽게 말하자면, 조건부 확률은 결합확률 나누기 주변확률이다.

이번에는 조건을 바꾸어보자. 어떤 경찰관이 승진했다. 그 경찰관이 남성일() 확률 은 아래와 같을 것이다.

그런데, 만약 우리가 결합확률표를 구성할 수 없어 결합확률을 알지 못하고 대신에  역 조건부 확률(inverse conditional probability)과 두 확률변수의 주변확률을 알고 있을 때 조건부 확률을 구하는 방법을 생각해보자. 즉, 을 구하는데, , 을 알고 있다는 것이다. 식(2)에서 양변에 을 곱하면 다음과 같이 될 것이다.

그리고 교환법칙에 의해,

이므로, 식(1)의 우변 분자에 식(3)을 대입할 수 있다. 그러면 아래 식을 얻게 된다.

식(4)는 아래와 같이 일반화하여 간략히 쓸 수 있다.

드디어 베이즈 정리(Bayes’ theorem)가 도출되었다. 베이즈 정리는 결합확률을 모를 때 역조건부확률과 두 확률변수의 주변확률을 가지고 조건부 확률을 구하는 공식에 다름 아니다. 그런데, 이 간단한 공식의 응용범위가 놀랍도록 넓다. 그래서 그것은 정리의 자리를 꿰어찼다.

베이즈 정리를 보면 몇 가지 성질이 읽힌다.

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다.

이 성질은 논리적으로 다음과 같이 확장될 수 있다.

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다. –> 흔히 X는 데이터이고 Y는 모수(parameter)이다. 베이즈 정리는 데이터가 주어졌을 때 모수를 얻게 될 확률을 구하는 과정이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다. –> 역조건부 확률 우도(likelihood)라고 부른다. 흔히 그것은 경험적으로 주어진다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다. –> 여기서 를 데이터를 얻기 이전 확률이라는 의미에서 사전 확률(prior)이라고 부르고 를 데이터를 얻은 후 확률이라는 의미에서 사후확률(posterior)이라고부른다. 베이즈 정리에서 데이터를 포착해 주는 부분이 우도이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다. –> 정규화 상수라고 부른다.

조건부 확률을 가지고 꽤 멀리 왔다. 다음 포스팅에서는 예제를 가지고 확장된 베이즈 정리의 함축성을 찾아보자.(2020-10-19)

“베이즈 통계(2): 조건부 확률 가지고 놀기”에 대한 한개의 댓글

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.