베이즈 통계(4): 과학으로서의 베이즈 과정

과학이란 미지의 현상에 대한 체계적인 탐구를 통해서 지식을 쌓아가는 노력이다. 과학에는 미지의 현상에 대한 주장(statement)이 있고, 그 주장을 뒷받침하는 증거(evidence)가 있다. 다만 주장-증거의 쌍이 과학적 지식으로 인정받으려면 그 증거가 ‘과학적’인 방법으로 발견한 것이라야 한다. 실험, 관찰, 설문조사, 시뮬레이션 등 증거 발견(데이터 수집)의 과학적 방법은 널리 알려져 있다.

베이즈 통계는 과학적 과정의 정당한 수단으로 활용된다. 그 두 가지가 어떻게 연관되는가를 살펴보자(Donovan and Mickey, 2019).

과학적 과정은 다음과 같이 도식화될 수 있다.

사회과학의 탐구 대상인 사회현상에 대해서는 두 가지 이상의 설명이 경합하기 마련이다(Lave and March, 1993). 그 설명은 가설(hypothesis)일 수도 있고 체계적인 이론(theory)일 수도 있다. 그런데 서로 경쟁하는 가설(혹은 이론, 이하에서는 가설로 통일한다)들은 사회현상에 대해 서로 다른 예측을 낳는다. 연구자는 그 가설들을 평가하기 위해 조사방법을 설계하고 그에 따라 데이터를 수집한다. 그 다음 수집된 데이터를 가지고 예측을 분석하여 가설(들)을 검증한다. 데이터가 가설을 지지하면 그 가설은 지식으로 추가되고,  데이터가 가설을 지지하지 않으면 가설이 수정된다. 그리고 수정된 가설을 가지고 다시 연구의 사이클을 시작한다.

앞에서 살펴본 유방암 예제를 가지고 베이즈 추론을 이 수레바퀴에 맞추어 되새겨 보자.

먼저 어떤 40대 여성이 유방암에 걸렸는가가 관심사이다. 따라서 우리에게는 두 가지 경합하는 가설이 주어진다. 하나의 가설은 그녀가 유방암에 걸렸다이고, 다른 하나의 가설은 그녀가 유방암에 걸리지 않았다는 것이다. 이 가설들은 상호 배타적(mutually exclusive)이고, 총망라적(exhaustive)이다. 우리는 각 가설이 진실이라는 명제에 확률을 부여할 수 있다. 그리고 그 확률의 합은 1이 될 것이다. 베이즈 추론에서는 데이터를 수집하기 전에 부여한 이 확률들을 사전 확률(prior probabilities or priors)이라고 부른다.

다음에는 유방촬영검사을 통해서 데이터를 수집해야 할 것이다. 하지만 그 전에 우리는 두 가설로부터 유방촬영검사 결과(데이터 수집 결과)를 예측한다. 각 가설이 주어졌을 때 특정한 결과(데이터)가 나올 확률을 예측하는 것이다. 베이즈 추론에서는 이 확률이 우도(likelihood)라고 불린다. 실제 우도를 계산하려면 검사 결과가 있어야 한다.

데이터를 수집했다. 유방촬영검사를 했더니 양성(positive)이다. 우리는 유방촬영검사에 있어 유방암 환자의 양성 반응 비율과 비유방암 환자의 양성 반응 비율을 구할 수 있다. 그리고 그 두 가지 비율을 합하면 유방촬영검사 피검자의 양성 반응 비율이다.

끝으로 베이즈 정리를 이용해서 각 가설에 대한 사후 확률(posterior probabilities or posteriors)을 구한다. 사후 확률은 새로운 데이터가 수집된 후 각 가설에 대한 우리의 갱신된 믿음을 나타낸다. 이는 과학의 수레바퀴에서 추론에 해당된다. 그렇게 해서 우리는 새로운 지식을 얻게 되는 것이다.

베이즈 추론에서는 어떤 확률 사건 혹은 불확실한 명제에 대한 사후 확률은 적합한 증거가 주어졌을 때 얻게 되는 조건부 확률이다.  그 조건부 확률을 구하는데 있어 베이즈 정리가 수행하는 역할은 핵심적이다.

정리하면, 베이즈 추론은 새로운 지식을 추가하게 해준다. 즉, 베이즈 추론은 어떤 현상에 대해 가설을 제기하고, 그 가설에 대해 우리가 지닌 현재의 믿음을 제시하며, 증거(데이터)를 수집해서 그 결과에 따라 우리의 믿음을 강화하거나 수정하여 지식을 추가하는 과정이다.  (2020-10-23)

참고 문헌

Donovan, Therese M. and Ruth M. Mickey. 2019. Bayesian Statistics for Beginners. Oxford University Press.

Lave, Charles A. and James G. March. 1993. An Introduction to Models in the Social Sciences. University Press of America, Inc.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.