조건부 확률, 곱셈법칙, 베이즈 정리(3)

(예제 2) 서로 다른 두 납품업체(공급자 1과 공급자 2)로부터 원자재를 공급받는 제조회사가 있다. 현재 공급자 1로부터 65%의 원자재를 구매하고, 공급자 2로부터는 35%를 구매한다. 한편 그 동안 두 업체로부터 납품 받은 원자재의 품질은 아래와 같다.

 좋은 품질 비율(%)나쁜 품질 비율(%)
공급자 1982
공급자 2955

그런데, 제품 생산 과정에서 어떤 원자재가 불량으로 나타났다. 그 원자재가 공급자 1로부터 왔을 확률은 얼마이고, 공급자 2로부터 왔을 확률은 얼마인가?

(풀이)

사건의 정의: A1 = 공급자 1로부터 납품 받음, A2 = 공급자 2로부터 납품 받음, B = 나쁜 품질의 원자재, G = 좋은 품질의 원자재

이 문제는 데이터(정보)가 주변확률과 조건 사건의 조건부 확률(즉, 우도)로 제한되어 있기 때문에 결합확률표와 조건부 확률 공식을 사용하지 못하고 베이즈 정리를 이용해서 풀어야 한다.

이 문제 풀이의 첫 번째 관건은  표에 있는 데이터를 어떻게 해석할 것인가이다. 예컨대 공급자 1이 좋은 품질의 원자재를 납품할 확률은 98%이다. 이 진술은, 공급자가  1일 때(조건), 좋은 품질의 원자재일 확률(조건부 확률)이 0.98임을 말한다. [공급자가 1이면서 좋은 품질의 원자재를 납품할 확률(즉, 결합확률)을 의미하는 것이 아님에 유의. 실제로 결합확률이 그렇게 높이 나올 가능성은 거의 없음. 결합확률은 주변확률의 곱이기 때문이다.] 즉,

이 문제 풀이의 두 번째 관건은 주변확률, 를 구할 수 있느냐이다. 사실 베이즈 응용 문제에서, 분모에 들어가는 조건 사건의 주변확률을 구하는 것이 자주 풀이의 관건이 되곤 한다.

문제를 베이즈 정리 형식으로 표현해 보자. 어떤 원자재가 불량(나쁜 품질)일 때, 그 원자재가 공급자 1로부터 왔을 확률은 다음과 같이 표시할 수 있다.

우변에서 우리는, 임을 알고 있으니,  분모에 있는 B의 주변 확률을 구하면 된다. 주변 확률은 해당되는 결합확률을 모두 더한 값이다. 즉,

이다.

그런데 곱셈법칙에 의하면,

이 값을 식 (2)에 대입하면,

우리는 식 (2)의 우변에 확률값을 모두 알고 있다. 그 값들을 대입해서 를 구하자.

다시 식 (1)로 돌아가서 확률값들을 대입한다.

즉, 원자재가 불량일 때, 그것이 공급자 1로부터 왔을 확률은 0.426이다. 그렇다면 공급자 2로부터 왔을 확률은 1-0.426 = 0.574가 될 것이다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(2)

(예제 1) 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀 비율로 나타낸 자료이다.

 남자여자
승진28836324
승진 탈락672204876
9602401,200

1. 임의로 뽑힌 어떤 경찰관이 여성이다. 그가 승진할 확률은? 만약 그가 남성이라면 승진할 확률은?

2. 경찰관의 성별이 경찰관의 승진에 영향을 미친다고 생각되는가? 근거를 제시하시오.

(풀이)

사건의 정의: 여성 = F, 남성 = M, 승진 = P,  승진탈락 = N

이 문제의 경우 확률을 추정하는 데 필요한 데이터가 풍부하다. 때문에 조건부 확률 정리를 이용하여 문제를 풀 수도 있고, 베이즈 정리를 이용하여 문제를 풀 수도 있다. 두 가지 방법을 이용해서 풀고 결과를 비교해 보자.

먼저 주어진 데이터를 가지고 결합확률표를 구해 놓으면 효율적으로 문제를 풀 수 있다. 각 칸의 빈도를 경찰관 총수인 1,200으로 나누어 주면 다음과 같은 결합확률표를 얻는다.

 남자여자주변 확률
승진0.240.030.27
승진 탈락0.560.170.73
주변 확률0.800.201.00

결합확률

주변확률

이제 이 정보를 가지고 문제를 푸는 데 필요한 조건부 확률을 구할 수 있다.

1. 어떤 경찰관이 여성일 때 승진할 확률, 남성일 때 승진할 확률은 각각 아래와 같이 계산된다.

이 문제를 베이즈 정리를 이용해서 풀면 다음과 같다.

여기서 분자에 있는 를 모르기 때문에 조건부 확률 정리를 이용해서 그것을 먼저 계산한다.

이제 에 관해 풀 수 있다. (남성일 경우도 동일한 방법으로 계산할 수 있음)

(1)과 (2)를 보면 0.15로 같은 값임을 확인할 수 있다. 조건부 확률로 계산하면 간단한 것을, 베이즈 정리로 풀었더니 복잡하기만 하다. 만약 결합확률표를 구할 수 있으면, 이런 문제는 조건부 확률 공식만으로도 충분히 풀 수 있다. 그러나 만약 결합확률을 모르고 조건 사건의 조건부 확률[이것을 공산 혹은 우도(likelihood)라고 함]과 주변 확률을 아는 경우에는 베이즈 정리를 이용해서 계산한다.

2. 남성일 때 승진할 확률은 0.3이고, 여성일 때 승진할 확률은 0.15이니, 남성의 승진확률이 여성의 승진확률의 두 배이다. 경찰관의 성별이 승진에 영향을 주는 것으로 판단된다. 이 결론을 독립사건의 정리를 이용해서 도출할 수도 있다.

만약 경찰관의 성별이 승진에 영향을 미치지 않는다면, 승진의 주변확률(사전확률), 이 승진의 조건부 확률(사후확률),  혹은 과 같아야 한다. 즉,

그런데 곱셈법칙에 의하면,

여기서 이므로,

이다.

그리고 당연히 일 것이다.

두 사건이 상호 독립적일 때(mutually independent), 두 사건의 결합확률은 두 사건의 주변확률을 곱한 값이다. 경찰관 승진 자료를 가지고, 성별과 승진이 관련이 없다는 가정 아래 가상적인 결합확률표를 만들면 다음과 같다.

 남성여성주변확률
승진0.22(=0.8*0.27)0.05(=0.2*0.27)0.27
승진탈락0.58(=0.8*0.73)0.15(=0.2*0.73)0.73
주변확률0.800.201.00

표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.24이고, 표 3의 값은 0.22이다. 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 크다. 표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.03이고, 표 3의 값은 0.05이다. 즉, 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 작다.

남성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 높은 반면, 여성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 낮다. 따라서 데이터는 경찰관의 승진에 성차별이 존재함을 시사하고 있다고 결론지을 수 있다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(1)

상호 관련된(혹은 관련된 것으로 추정되는) 두 사건이 있을 때, 그 중 하나의 사건(사건 A라고 하자)이 발생하면 다른 하나의 사건(사건 B라고 하자)이 발생할 확률에 대해 이전(사건 A가 발생하기 전)보다 좀 더 잘 예측할 수 있을 것이다. 그러한 예측을 수학적으로 가능하게 해주는 지식이 조건부 확률, 곱셈법칙 그리고 베이즈 정리(Bayes’ Theorem)이다. 그 세 가지 법칙(혹은 정리)은 논리적으로 깊이 연관되어 있다.

다음과 같이 사건을 정의한다.

A: 사건 A의 발생, B: 사건 B의 발생

(조건부 확률) 사건 A의 발생 확률이 사건 B의 발생에 의해 영향을 받는다면, 두 사건의 발생확률 사이의 관계를 다음과 같이 나타낼 수 있을 것이다.

말로 풀어보면, 사건 B가 발생했을 때 사건 A가 발생할 확률–사건 A의 조건부 확률–은 사건 A와 사건 B가 동시에 발생할 확률–사건 A 와 사건 B의 결합확률–을 사건 B의 발생 확률–조건이 되는 사건 B의 주변확률–로 나눈 값이다.

(곱셈 법칙) 정리(1)에서 양변에 를 곱하고, 좌변과 우변을 이항하면 다음 결과를 얻는다.

말로 풀어보면, 사건 A와 사건 B가 동시에 발생할 확률–사건 A와 사건 B의 결합 확률–은 조건이 되는 사건 B가 발생할 확률과 사건 A의 조건부 확률의 곱이다.

(베이즈 정리) 확률의 교환법칙에 따르면,

그리고 우변에 곱셈법칙을 적용하면,

결합확률을 조건부 확률과 조건의 주변확률로 표현하기 위해 식(2)와 식(4)를 식(3)에 대입하면,

이 식의 양변을 로 나누면,

이 식이 베이즈 정리(Bayes’ Theorem)이다. 말로 표현하면, 사건 A의 조건부 확률은 사건 A의 발생 확률에 사건 B의 조건부 확률을 곱한 값을 조건 사건 B의 주변확률로 나눈 값이다.

이 정리는, 조건이 되는 사건 B의 발생을 기준으로 다르게 해석될 수 있다. 즉, 는 사전 확률(prior probability 혹은 간단히 prior)이며, 는 사후 확률(posterior probability 혹은 간단히 posterior)이다. 그리고 와 는 예측을 위한 데이터(혹은 정보)이다.

베이즈 정리는, 어떤 사건(여기서는 사건 A)과 관련된 사건(여기서는 사건 B)에 관한 데이터(혹은 정보)를 얻었을 때 그 사건(사건 A)에 대한 향상된 예측을 할 수 있게 해준다. 그 과정은  로 표현할 수 있다.

논의가 추상적이니 몇 개의 응용 사례를 가지고 조건부 확률, 곱셈 법칙, 베이즈 정리를 보다 구체적으로 살펴보자. (윤영민, 2018-05-25)