(Bayes 학습)(11) 베이즈 추론의 역사

사십 대 여성이 정기 건강 검진의 일환으로 유방 엑스레이를 찍었다. 일주일 뒤 그녀는 유방암 검사 결과가 양성으로 나왔다는 통보를 받았다. 유방암에 관한 가족력도 없고 또 징후도 없는 그녀가 진짜로 유방암에 걸렸을 확률은 얼마일까?

나는 실제로 몇몇 의사, 간호사, 약사에게 물어 보았다. 80%, 60%, 30%, 10% 라고 대답했다. 모두 틀렸다. 그 확률은, 미국의 경우이기는 하지만, 3%에 불과하다!  그 확률은 아래의 베이즈 정리로 간단히 계산할 수 있다.

여기서 A는 유방 엑스레이 양성 반응이고, B는 유방암을 가지고 있음이다. 좌변의 P(B|A)는 유방 엑스레이 양성 반응이 나온 사람이 실제로 유방암을 가지고 있을 확률이다. 우변의 P(B)는 유방암을 가지고 있을 확률, P(A|B)는 유방암 환자가 유방 엑스레이 양성 반응이 나올 확률, 그리고 P(A)는 유방 엑스레이 양성 반응이 나올 확률이다.

미국에서 사십 대 여성 1만명 가운데 대략 40명이 유방암을 가지고 있다(유방암 발병 확률은 40/10,000이다). 그리고 유방암 환자가 유방 엑스레이 검사에서 양성 반응이 나올 확률은 80%이다. 그러면 그 40명 가운데 32명이 양성 판정을 받는다(그 확률은 32/40이다). 또한 유방 엑스레이 검사에서 양성 반응이 나올 확률은 10%이다(그 확률은 1,000/10,000이다).

이 수치를 위 공식에 대입해서 계산하면 다음과 같다.

3%이다. 간단하지만 매우 강력한 공식이다.

베이즈 정리라고 불리는 이 공식은 250여년 동안 역사적 퇴장과 등장을 반복하면서 살아남았다.  게다가 그 공식에 기반한 추론은 21세기에 다양한 분야에서 불확실성을 다루는 가장 강력한 도구가 되었다.

SAMSUNG CSC

이 책은 1740년대 영국의 토머스 베이즈 목사가 별로 자신없이 세상에 내놓았던 수학적 정리가 오늘날 온갖 학문과 현업 분야에서 불확실성을 다루는 강력한 도구로 떠오르기까지의 부침을 기록한 역사이다.

거기에는 숱한 영웅과 천재가 등장한다. 피에르 시몽 라플라스, 아서 베일리, 레너드 지미 새비지, 에드워드 몰리나, 앨버트 워츠 휘트니, 해럴드 제프리스, 데 피네티, 앨런 튜링, 잭 굿, 안드레이 콜모고로프, 존 튜키, 오스굿 쿠프먼, 제롬 콘필드, 앨버트 매단스키, 데니스 린들리, 로버트 오셔 슐라이퍼, 하워드 라이파, 프레더릭 모스텔러, 존 피냐 크레이븐, 에이드리언 래프터리, 저먼 형제, 에드리언 스미스, 앨런 겔팬드, 키스 헤이스팅스 등. 게다가 베이즈 추론을 없애버리려는 악당들(?)도 등장한다. 통계학을 공부한 사람이라면 누구나 그 이름을 기억할 로널드 피셔, 예지 네이만 등이 베이지언들의 공적으로 등장한다. 이 책에서 독자는 그 인물들을 딱딱한 수학자나 과학자가 아니라 생생한 인간으로 만나게 된다. 이 책의 첫번 째 뛰어난 점이다.

베이즈 접근은, 추론 과정에 연구자의 주관적 판단이 들어간다는 이유로 학계, 특히 통계학계에서는 철저하게 배제되었다. 베이즈 정리를 언급하면 대학에서 자리를 얻을 수 없을 정도였다.

반면에 실제 문제를 풀어야 하는 현업에서는 비교적 다양한 분야에서 수용되었다. 그러나 베이즈 접근이 본격적으로 대중화되기 위해서는 정적분 계산이라는 산을 넘어야 했다. 베이즈 정리의 분모에 적분이 들어가는데, 변수가 많아지면 그 계산은 종이와 연필, 계산자, 혹은 계산기를 사용해서는 거의 불가능했다.

다행히 1980년대 이후 한편으로 몇 명의 탁월한 학자들에 의해 그에 대한 해법이 발견되고, 다른 한편으로 컴퓨팅 환경이 급격히 향상하면서 비로소 대중화의 길이 열렸다. 1989년 발표된 마르코프 연쇄 몬테카를로(Markov Chain Monte Carlo, MCMC) 방법이 어려운 적분을 대체하게 되었다. 베이즈 추론이 계산의 악몽에서 벗어난 것이었다.

저자인 샤론 버치 맥그레인(Sharon Bertsch McGrayne)은 그러한 발전에 누가 어떻게 기여했는가를 어렵지 않게 기술하고 있다. 책에는 베이즈 추론을 위한 핵심적인 개념들과 절차들의 발견이 모두 망라되어 있다.

베이즈 추론과 관련된 수많은 사건들이 상세하게 기술된 점도 이 책이 흥미 진진하게 읽히는 이유이다. 드레퓌스 사건, 이차대전시 독일군 암호의 해독, 보험업계의 발전, 폐암 원인의 규명, 냉전시 소련 핵잠수함의 추적, 연방주의자 논고의 분석 등 신기한 스토리가 끝이 없는 듯이 이어진다. 이 책의 두번 째 매력이다.

6백쪽이 넘는 책이라 하루이틀 사이에 읽기는 힘들지만, 책을 한번 손에 잡으면 쉽게 놓을 수 없도록 이야기들이 박진감 넘치게 전개된다. 베이즈 추론에 관심을 가진 사람들, 베이즈 추론 자체에는 관심이 없더라도 학자의 삶에 대해 관심이 있는 사람들, 학문과 현업, 학문과 전쟁, 학문과 행정, 그리고 순수 학문과 응용 학문의 관계에 관심있는 사람들이라면 누구나 이 책으로부터 커다란 흥미와 교훈을 발견하게 될 것이다.

한 마디로 멋진 책이다. (2016/04/15/윤영민)

글쓴이: 만리거사

한양대학교 ERICA 캠퍼스 정보사회학과의 윤영민 교수입니다.

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.