(Bayes 학습)(3) 베이즈 정리의 응용성

<Bayes 학습> (1)에서 도출한 아래의 베이즈 정리(Bayes’s Theorem: 이하 Bayes Theorem)는 놀라운 응용성을 갖는다.

                              (1)

베이즈 정리를 보다 일반적으로 사용하기 위해 A를 로, B를 로 바꾸어 아래와 같이 다시 쓰자.

                                   (2)

  • 어떤 불확실한 현상도 가 될 수 있다. 그것은 미지의 모수(unknown parameters)일 수도 있고, 하나의 가설(hypothesis)이나 모형(model)일 수도 있고, 하나의 데이터 점(data point)일 수도 있다.  한 마디로 베이즈 정리는, 어떤 현상에 관하여 우리가 지니고 있는 믿음(prior beliefs)을, 수집된(관찰된) 데이터(data)에 비추어서 그것을 어떻게 갱신하여(update) 새로운 믿음(posterior beliefs)을 갖게 되는가를 말해준다. 즉, 하나의 귀납법적 사유 방식이다. 그것을 다음과 같이 도식화하여 표현할 수 있을 것이다.1  

믿음(prior beliefs)  –> 관찰된 데이터(data) –> 갱신된 믿음(posterior beliefs)

이 도식을 아래와 같이 표현할 수도 있다.

베이즈 정리가 응용될 수 있는 보다 구체적인 사례를 들어보자.

  • 두 그릇의 쿠키가 있다. 그릇 I에는 30개의 바닐라 쿠키와 10개의 초콜렛 쿠키가 들어있고, 그릇 II에는 바닐라 쿠키와 초콜렛 쿠키가 각각 20개씩 들어있다. 만약 당신이 그릇을 쳐다보지 않고  한 그릇으로부터 쿠키 하나를 집었는데 그것이 바닐라 쿠키였다. 그렇다면 그 쿠키가 그릇 I로부터 집었을 확률은 얼마인가?2
  • Let’s Make a Deal이라는 게임쇼는 다음과 같이 진행된다. 사회자 Monty Hall은 출연자에게 세 개의 닫힌 문을 보여주면서, 그중 하나의 문 안에는 자동차가 상품으로 들어있고, 다른 두 문 안에는 땅콩버터나 장식용 손톱 같은 훨씬 덜 값나가는 상품이 들어 있다고 설명한다. 게임은 출연자가 자동차가 들어 있는 문을 알아맞추는 것이다. 만약 출연자가 자동차가 들어 있는 문을 고르면 자동차를 상품으로 받게 된다. 상품은 무작위로 배치되어 있다. 출연자가 문 하나를 고르고 나면, 그 문을 열기 전에 Monty는 나머지 두 문 중 자동차가 들어있지 않은 문을 열어보이면서 출연자에게 기존의 선택을 바꿀 의사가 있는 지 물어본다. 과연 출연자는 자신의 선택을 그대로 유지하는 것이 유리할까요 아니면 다른 문을 선택하는 것이 유리할까요?3
  • 한 철도회사가 자사 소유의 기관차들에 일련번호를 붙였다. 그런데 어느 날 당신이 60이라는 번호가 붙은 기관차를 봤다면, 그 철도회사는 몇 대의 기관차를 갖고 있겠는가?4
  • “벨기에에서 제조된 1유로짜리 동전을 세워서 250회 돌렸더니 앞면이 140회가 나오고, 뒷면이 110회가 나왔다. 이 실험 결과는 그 동전이 한쪽으로 편향되게 만들어졌다는 증거가 될 수 있는가?5
  • 라플라스(Laplace, 1825)의 유명한 질문: “역사의 시작을 5천년 전으로 간주한다면, 인류는 24시간 마다 해가 뜨는 현상을 총 1,826,213번 관찰했다.  이 증거로 볼 때 내일 다시 해가 뜰 확률은 얼마나 되는가?”6
  • 어떤 사람이 word processor에 ‘radom’이라고 입력했다. word processor는 그 단어를 어떻게 읽어야 하나? 그것은 ‘random’이라는 단어의 오기일 수도 있고, ‘radon’이나 혹은 다른 단어의 오기일 수도 있으며, 아니면 사용자의 의도적인 표기이거나 조어일 수도 있다. ‘radom’이 실제 ‘random’의 오기일 확률은 얼마인가?7
  • 2000년 11월 미국 대통령 선거를 앞두고 3월초에 발표된 미국 플로리다주 유권자들의 투표 의사에 관한 한 여론조사에 의하면, 509명의 응답자 중 279명이 조지 부시를 찍겠다고 응답했으며, 230명이 엘 고어를 찍겠다고 응답했다. 이 조사결과에 의하면 적어도 플로리다 주에서는 부시가 고어보다 훨씬 많은 지지를 받는 것으로 보인다. 그런데 과연 그 조사결과를 믿을 수 있을까? 참고로 그 전에 발표된 한 조사기관의 예측에 의하면 2000년 대선에서 플로리다주에서 예상되는 공화당 후보의 지지율이 49.1%이며 표준오차가 2.2%이었다. 이 두 가지 조사결과를 결합하면, 실제 플로리다주에서 공화당 후보인 조지 부시의 지지율이 얼마라고 볼 수 있겠는가?8
  • 라틴 아메리카에서 외국의 위협과 사회혁명의 상관관계에 관한 한 연구에서 다음과 같은 자료가 제시되었다. 각 관찰은 한 국가에서 20년 동안에 발생한 사건이다. 아래 표에서 왼쪽 상단의 칸에 있는 1은 볼리비아의 사례이다. 볼리비아는 1935년에 군사적 패배를 했고, 1952년에 사회혁명을 겪었다. 왼쪽 하단의 칸의 2는 멕시코(1910년 사회혁명)와 니카라구아(1979년 사회혁명)이다. 이 자료를 보고, 라틴 아메리카에서는 군사적 패배를 경험하지 않은 나라보다 군사적 패배를 경험하는 나라가 사회혁명을 겪을 가능성이 더 높다고 결론을 내릴 수 있을까?9
revolution no revolution
Defeated and invaded or lost territory 1 7
Not defeated for 20 years 2 74
  • 임의의 노동자를 반도체 제조공정에 배치했을 때 이 노동자로부터 백혈병이 발생할 확률은 일반인의 백혈병 발병률에 비해 현저하게 높은가? 참고로 2008년 한국 산업안전공단의 조사에 의하면, 반도체 제조업 노동자  139,763명 중 백혈병 암 등록자는 총 16명이었다. 그리고 WHO의 2010년 자료에 의하면 우리 나라의 백혈병 발병률은 10만명 당 2.9명이었다.10

이상의 구체적인 사례들에서 보듯이 베이즈 정리는 온갖 종류의 추론이나 추정, 의사결정, 혹은 가설 검증에 응용될 수 있다. 빈도주의 통계학으로 분석할 수 있는 현상은 모두 베이즈 통계로 분석이 가능하며, 빈도주의 통계학으로 하기 어려운 현상들도 베이즈 통계에 의해 가능한 경우가 많다고 말 할 수 있을 것이다.

베이즈 추론은 세상을 이해하는 하나의 관점 혹은 하나의 인식 과정이라고 간주되어야 할 것으로 생각된다. (윤영민, 2016/03/04)

(주석)

  1. Simon Jackman. 2009. Bayesian Analysis for the Social Sciences. Wiley. p. 29
  2. Allen B. Downey. 2012. Think Bayes. Green Tea Press. p. 3
  3. Downey. p.8
  4. Downey. p.23
  5. Downey. p.33
  6. Jackman. p.57
  7. Andrew Gelman, John B. Carlin, Hal S. Stern, David B. Dunson, Aki Vehtari, and Donald B. Rubin. Bayesian Data Analysis, 3rd edition. CRC Press.  p.9
  8. Jackman. p.54
  9. Jackman. p.73
  10. 박종희. 2014. “베이지안 사회과학 방법론이란 무엇인가?” 평화연구 22(1). pp.490-492

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.