결합확률, 주변확률, 조건부 확률: 이산확률변수

교차표(cross-table)

두 개의 이산확률변수 X, Y가 결합하여 아래와 같은 교차표가 형성되었다고 하자.

각 칸(cell)에는 두 확률변수 값()을 충족하는 사상(事象, event)이 들어간다. 그것을 총 사상의 수효인 N에 대비하여  로 표시하자. 관행에 따라 확률변수는 대문자로, 확률변수의 값은 소문자로 표기한다.

결합확률(joint probability)

두 확률변수의 결합확률은 아래와 같이 표시된다. 두 확률변수의 결합확률은 두 확률변수의 교집합이 발생할 확률이다.

또한 확률은 항상 0과 1 사이의 값을 갖는다. 따라서 확률로 나타낸다는 것은 사상의 수를 0과 1 사이 값으로 정규화(normalization)한다고 말할 수 있다. 정규화를 하면 사상 값들의 총합은 1이다. 각 사상의 수( )를 총 사상의 수 N으로 나누면 사상의 수가 모두 0과 1 사이의 값으로 정규화된다. N은 정규화 상수(normalizing constant)라고 말할 수 있다. 결합확률은 사상의 수가 정규화된 값이다.

결합확률표(joint probability table)

주변확률(marginal probability)

주변확률은 결합확률이 있다는 조건에서 존재한다. 이산형 확률변수의 경우 두 개(혹은 그 이상)의 확률변수로 구성된 결합확률표에 존재한다. 위 결합확률표에서 한 확률변수의 확률만을 고려하는 것이 주변확률이다. 진한 파랑색으로 된 부분이 주변확률이다. 위 결합확률표에서 확률변수 X, Y 중 X 혹은 Y 하나만 고려하면 주변확률이 나온다. X의 주변확률은 특정한 X 값에 속하는 X, Y 결합확률 값을 모두 합한 것이다. 위 결합확률표에서 여섯 개의 주변확률은 다음과 같이 계산된다.

확률변수 X, Y의 결합확률을 일반화시켜서 나타내면 아래와 같다.

조건부 확률(conditional probability)

확률변수 두 개(혹은 그 이상)가 있다. 하나 확률변수의 특정 값(e.g. )이 주어졌을 때, 다른 하나 확률변수의 특정 값(e.g. )이 나타날 확률이 조건부 확률이다. 흔히 조건부 확률은 다음과 같이 표기된다.

하나의 확률변수 값()이 주어졌기 때문에, 전체 사상(N) 대신 오직 그 값의 사상()만 고려된다. 즉, 가 정규화 상수가 된다. 결합확률과 주변확률의 경우에는 N이 정규화 상수였다. 다시 말해 N이 1이 되는 것이 아니라 가 1이 된다.

위 결합확률표를 가지고 예를 들어보자. 확률변수 X가 3일 때 조건부 확률은 세 가지가 있을 것이다. Y가 1인 경우, Y가 2인 경우, Y가 3인 경우이다. 조건부 확률을 구하려면, X가 3인 열의 칸을 모두 P(X = 3)으로 나누어 주면 된다.

그러면 아래 결합확률표의 주황색 열처럼 될 것이다. 조건부 확률은 결합확률을 주변확률로 나눈 값이다.

조건부 확률을 합하면 1이다.

조건부 확률은 다음과 같이 일반화하여 표시될 수 있을 것이다.

개념적으로 설명했으니  이제 예제를 가지고 이해해 보자. 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀를 구분해 정리한 자료이다.

 X = x1X = x2
Y = y128836324
Y = y2672204876
9602401,200

사건의 정의:

확률변수 = 성별: = 남성, = 여성

확률변수 = 승진 여부: = 승진,  = 승진탈락

이 데이터를 가지고 결합확률표를 구해보자. 각 칸(사상)의 빈도수()를 총 빈도수(N)로 나누어 0과 1 사이로 정규화하면 그것이 결합확률이다. 그렇게 해서 구한 결합확률표는 아래와 같다.

 X = x1X = x2P(Y = yi)
Y = y10.240.030.27
Y = y20.560.170.73
P(X = xi)0.800.201.00

결합확률표에서 각 열의 결합확률을 더하면 성별의 주변확률이 구해지고, 각 행의 결합확률을 더하면 승진여부의 주변확률이 구해진다. 주변확률도 전체 사상수에 의해 정규화되어 있어 열의 주변확률을 모두 더한 값도 1이고 행의 주변확률을 모두 더한 값도 1이다.

그렇다면 어떤 경찰관이 여성일 때, 그 경찰관이 승진할 확률은 얼마이겠는가? 조건부 확률을 묻는 문제이다.

이 조건부 확률은, 여성이면서 승진한 경찰관일 확률이라는 결합확률(0.03)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.15이다.

어떤 경찰관이 여성일 때, 그 경찰관이 승진하지 못할 확률은? 이것도 조건부 확률 문제이다.

여성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.17)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.85이다.

이 두 개의 조건부 확률을 합하면 1이다. 조건부확률이란 주변확률을 1로 만든 것이니 당연한 결과이다.

남성 경찰관은 어떨까?

어떤 경찰관이 남성일 때, 그 경찰관이 승진할 확률은? 남성이면서 승진한 경찰관일 확률이라는 결합확률(0.24)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.3이다.

어떤 경찰관이 남성일 때, 그 경찰관이 승진하지 못할 확률은? 남성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.56)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.7이다.

이 두 조건부 확률을 더하면 1이다.

여성 경찰관이 승진할 확률은 0.15이고, 남성 경찰관이 승진할 확률은 0.3이니 남성 경찰관이 승진할 확률이 여성 경찰관이 승진할 확률의 두 배이다. 성차별 냄새가 나는 차이이다.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.