조건부 확률, 곱셈법칙, 베이즈 정리(2)

(예제 1) 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀 비율로 나타낸 자료이다.

 남자여자
승진28836324
승진 탈락672204876
9602401,200

1. 임의로 뽑힌 어떤 경찰관이 여성이다. 그가 승진할 확률은? 만약 그가 남성이라면 승진할 확률은?

2. 경찰관의 성별이 경찰관의 승진에 영향을 미친다고 생각되는가? 근거를 제시하시오.

(풀이)

사건의 정의: 여성 = F, 남성 = M, 승진 = P,  승진탈락 = N

이 문제의 경우 확률을 추정하는 데 필요한 데이터가 풍부하다. 때문에 조건부 확률 정리를 이용하여 문제를 풀 수도 있고, 베이즈 정리를 이용하여 문제를 풀 수도 있다. 두 가지 방법을 이용해서 풀고 결과를 비교해 보자.

먼저 주어진 데이터를 가지고 결합확률표를 구해 놓으면 효율적으로 문제를 풀 수 있다. 각 칸의 빈도를 경찰관 총수인 1,200으로 나누어 주면 다음과 같은 결합확률표를 얻는다.

 남자여자주변 확률
승진0.240.030.27
승진 탈락0.560.170.73
주변 확률0.800.201.00

결합확률

주변확률

이제 이 정보를 가지고 문제를 푸는 데 필요한 조건부 확률을 구할 수 있다.

1. 어떤 경찰관이 여성일 때 승진할 확률, 남성일 때 승진할 확률은 각각 아래와 같이 계산된다.

이 문제를 베이즈 정리를 이용해서 풀면 다음과 같다.

여기서 분자에 있는 를 모르기 때문에 조건부 확률 정리를 이용해서 그것을 먼저 계산한다.

이제 에 관해 풀 수 있다. (남성일 경우도 동일한 방법으로 계산할 수 있음)

(1)과 (2)를 보면 0.15로 같은 값임을 확인할 수 있다. 조건부 확률로 계산하면 간단한 것을, 베이즈 정리로 풀었더니 복잡하기만 하다. 만약 결합확률표를 구할 수 있으면, 이런 문제는 조건부 확률 공식만으로도 충분히 풀 수 있다. 그러나 만약 결합확률을 모르고 조건 사건의 조건부 확률[이것을 공산 혹은 우도(likelihood)라고 함]과 주변 확률을 아는 경우에는 베이즈 정리를 이용해서 계산한다.

2. 남성일 때 승진할 확률은 0.3이고, 여성일 때 승진할 확률은 0.15이니, 남성의 승진확률이 여성의 승진확률의 두 배이다. 경찰관의 성별이 승진에 영향을 주는 것으로 판단된다. 이 결론을 독립사건의 정리를 이용해서 도출할 수도 있다.

만약 경찰관의 성별이 승진에 영향을 미치지 않는다면, 승진의 주변확률(사전확률), 이 승진의 조건부 확률(사후확률),  혹은 과 같아야 한다. 즉,

그런데 곱셈법칙에 의하면,

여기서 이므로,

이다.

그리고 당연히 일 것이다.

두 사건이 상호 독립적일 때(mutually independent), 두 사건의 결합확률은 두 사건의 주변확률을 곱한 값이다. 경찰관 승진 자료를 가지고, 성별과 승진이 관련이 없다는 가정 아래 가상적인 결합확률표를 만들면 다음과 같다.

 남성여성주변확률
승진0.22(=0.8*0.27)0.05(=0.2*0.27)0.27
승진탈락0.58(=0.8*0.73)0.15(=0.2*0.73)0.73
주변확률0.800.201.00

표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.24이고, 표 3의 값은 0.22이다. 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 크다. 표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.03이고, 표 3의 값은 0.05이다. 즉, 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 작다.

남성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 높은 반면, 여성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 낮다. 따라서 데이터는 경찰관의 승진에 성차별이 존재함을 시사하고 있다고 결론지을 수 있다. (윤영민, 2018-05-25)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다