(Bayes 학습)(1) ‘확률’을 새롭게 인식하며

고등학교 수학 교과서에 따르면 어떤 “사건이 일어날 확실성을 수량적으로 나타낸 것”이 확률(probability)이다. 근원 사건이 같은 정도로 일어난다고 가정할 때, 어떤 사건의 확률 P(A)은 사건 A가 일어나는 경우의 수()를 일어날 수 있는 모든 경우의 수(N)로 나눈 값이다. 이것을 수학적 확률이라고 한다.  (참고로 근원 사건이란 더 이상 분해되지 않는 사건을 말한다.)

P(A) = {N_A \over N} .

두 개의 주사위를 동시에 던질 때, 눈의 합이 5로 되는 확률을 예로 들 수 있을 것이다. 전자의 경우를 보면, 표본공간(sample space) N은 6*6 = 36이고, 눈의 합이 5가 되는 사건(event)은 (1,4), (2,3), (3,2), (4,1)의 4 가지이므로 구하는 (수학적) 확률은 4/36 = 1/9이다.

그러나, 현실은 동전이나 주사위 던지기가 아니다. 근원 사건이 같은 정도로 일어난다는 가정이 성립되지 않을 수도 있고(예: 혈액형 유형별 발생 확률), 표본공간 N의 크기가 알 수 없거나 무제한 일 수도 있을 것이다. 그런 경우 수학적 확률을 구하기 어렵거나 심지어 불가능할 것이다. 그럴 때 우리는 통계적 확률로 수학적 확률을 대신한다.

시행의 횟수 n이 커짐에 따라 사건 A가 일어나는 상대빈도(relative frequency) 이 일정한 값 p와 거의 같다고 간주할 수 있을 때, 그 p를 통계적 확률이라고 말한다.

\lim_{n \to \infty}{n_a \over n}=p

상대빈도와 확률 사이에 이러한 관계를 성립시켜주는 것은 대수의 법칙(the law of large numbers)이다. 대수의 법칙에 따르면 통계적 확률과 수학적 확률이 일치한다. 따라서 수학적 확률을 알 수 없을 때 통계적 확률을 대신하고, 상대빈도로 통계적 확률을 근사할 수 있다.

예컨대 100원짜리 동전을 던져서 앞면이 나올 통계적 확률을 구하기 위해서는 실제로 동전을 한 1천번 정도 던져보아야 한다. 만약 정말로 1천번을 던져서 앞면의 수가 501번이 나왔다면 통계적 확률이 1/2이라고 말할 수 있다.

여기까지가 중고등학교에서 배운 확률의 정의이다. 이 확률의 정의를 가지면 현실의 문제를 다루는 데 충분할까?

사실 현실에서 상식적으로 확률을 그런 의미로 사용하는 경우는 드물다. “우리 아이가 A 대학에 붙을 확률이 얼마나 될까요?” “북한이 남한에 대해 미사일 공격을 가해 올 확률이 얼마나 될 거라고 생각하세요?” “내일 오전에 비가 내릴 확률이 얼마나 될까요?” “소풍 가는 날 맑은 날씨일 확률이 얼마나 될까요?” “더민주당이 총선 이후 다시 제1야당이 될 확률이 얼마나 될까요?” “안철수 의원이 새정치국민연합을 탈당할 확률이 얼마나 될까요?” “백혈병 환자의 5년 이상 생존율이 얼마나 되나요?” “말기 폐암 환자가 1년 이상 생존할 확률이 얼마나 되나요?” “저 백혈병 환자가 1년 이상 생존할 확률이 얼마나 될까요?” “에이즈 검사 결과가 양성으로 나온 저 남자가 실제로 에이즈에 감염되었을 확률은 얼마나 되나요?” “그녀가 사업에 성공할 확률이 얼마나 될까요?” 이 사례들은 모두 정당한 확률적 의문이다.

즉, 이 사례들에서 보듯이 현실에서 사람들은 확률을, 반복적이지 않은 사건의 객관적인 발생 가능성을 가리키는데 사용하기도 하고, 또 어떤 사건의 발생 가능성에 대한 주관적인 믿음의 정도(degree of belief)나 지식의 상태(state of knowledge)를 가리키는데 사용하기도 한다.

수학적 확률이나 상대빈도(relative frequency)은 반복적으로 많은 횟수 발생하는 사건의 객관적인 발생 가능성을 숫자로 나타내는 데 유용함이 분명하다. 그러나 희소한 사건의 발생 가능성, 혹은 반복적이지 않은 사건의 발생 가능성은 어떻게 숫자로 표현할까? 혹은 어떤 사건의 발생 가능성에 대한 전문가의 확신을 추정이나 예측에 반영할 수 있는 길은 없을까?

베이즈 추론(Bayesian inference)은 그러한 상상에 유용한 접근 방법이 될 수 있다. 관찰값이 주어졌을 때, 그것으로부터 관찰이 불가능한 모수(parameters)의 값을 추정하거나, 또는 관찰값이 주어졌을 때, 그것으로부터 미래에 혹은 다른 사례에서 동일한 현상이 나타날 가능성을 예측하는데 대단히 유용할 수 있다.

베이즈 추론은 “관찰값이 주어졌을 때”, 다시 말해 어떤 특정한 조건이 주어졌을 때, 모수를 추정하거나 미지의 수를 예측하기 때문에 근본적으로 조건부 확률(conditional probability)이다. 조건부 확률을 복습하면서 베이즈 정리를 도출해 보자.

사건 A가 일어났을 때의 사건 B의 조건부 확률 P(B|A)는

 , P(A) ≠ 0

으로 표시된다. 여기서 양변에 P(A)를 곱하면,

가 된다. 이것은 바로 확률의 곱셈정리이다.

그런데 집합의 교환법칙에 따르면,  이므로,

가 된다. 여기서 양변을 P(A)로 나누면,

   , P(A) ≠ 0

베이즈 정리(Bayes Theorem)가 도출되었다. 말로 풀어보면, 사건 A가 일어났을 때 사건 B가 일어날 조건부 확률 P(B|A)은 사건 B가 일어날 확률 P(B)에, 사건 B가 일어났을 때 사건 A가 일어날 조건부 확률 P(A|B)를 곱한 값을 사건 A가 일어날 확률 P(A)로 나눈 값과 같다. 베이즈 추론은 이 베이즈 정리에서 출발한다. 이 정리가 그렇게 중요할 줄은 고등학교 때는 물론이고, 대학 수학 시간이나 대학원 통계학 시간에도 상상하지 못했다. 다음에는 베이즈 정리를 좀 깊이 이해해 보자. (윤영민, 2016/02/29)

글쓴이: 만리거사

한양대학교 ERICA 캠퍼스 정보사회학과의 윤영민 교수입니다.

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.