베이즈 통계(1): 서론

베이즈 통계에 입문할 때 사회과학도는 몇 가지 난관을 마주하게 된다. 배우고자 하는 사람 자신이 그것을 인식할 수도 있고 그렇지 못할 수도 있다. 필자의 경험으로는 후자가 많을 것 같으니 이 점을 확실히 지적해 두고자 한다. 특히 통계를 제법 많이 알고 있다고 자신하는 사람일수록 그 난관이 심각할 수도 있다. 그것은 기존의 사회통계와 베이즈 통계의 차이에서 기인한다. 그래서 빈도주의 통계와 베이즈 통계의 중요한 차이 몇 가지를 지적해 두고자 한다.

시작하기 전에 빈도주의자(frequentist), 베이즈주의자(Bayesian)라는 용어를 소개하겠다. 그것은 편을 가르기 위해서 나누는 것이 아니라 베이즈 통계를 명쾌하게 이해하기 위해서 필요하다고 생각되어 나누는 구분이다. 우리가 통상 사회통계 수업에서 배운 통계를 빈도주의(frequentist) 통계라고 명명하고, 지금부터 배울 통계를 베이즈 통계라고 부르겠다.

첫째, 베이즈 통계에서는 확률(probability)이라는 동일한 용어를 사용하지만 빈도주의 통계에서 사용하던 것과는 크게 다른 의미로 사용한다. 빈도주의 통계에서 학률이란 수학적으로 정의될 수도 있지만 보통 경험적으로 도출된다. 경험적 확률은 표본공간(sample space, 가능한 모든 결과)에서 우리가 관심을 갖는 사상(event)이 발생하는 빈도(frequency)의 비율로 계산된다. (그래서 빈도주의 통계 혹은 빈도주의 접근이라고 불리는구나 라고 생각해도 좋다.)

그런데, 베이즈주의자는 확률을 그보다 훨씬 다양한 의미로 사용한다. 그중 가장 널리 사용되는 의미는 어떤 사상(an event)의 발생 가능성에 대한 주관적인 믿음의 정도(subjective degree of belief)이다. 확률 개념에 객관적으로 계산된 빈도의 비율이 아니라 주관적인 믿음의 정도라는 의미가 추가되는 것이다.

그래서 무엇보다 사회통계에서 배운 좁은 의미의 확률 개념에서 벗어나야 한다. 그렇지 않으면 선험적 확률(a priori pobability), 사전적 확률(prior), 사후적 확률(posterior) 등과 같은 용어가 선뜻 수용되기 어려울 것이다.

둘째, 사회통계에서 베이즈 정리(Bayes’ theorem)라고 1시간 혹은 기껏해야 1주일쯤 다루고 넘어갔던 확률 법칙이 갑자기 한 학기 내내 배워야 하는 엄청나게 중요한 규칙으로 부상한다. 그러면서 확률분포가 매우 중요한 개념적 도구로 등장한다.

사회통계에서는 추리통계에 정규분포, t 분포, F 분포, 분포가 적용되지만 모수 추정이나 가설 검정 과정의 배경 정도로 사용될 뿐이다. 그 확률분포들에 대해 깊이 있게 이해하지 못해도 그것이 모수 추정이나 가설 검증에서 심각한 걸림돌이 되지 않는다.

그런데 베이즈 추론은 확률분포로 시작해서 확률분포로 끝난다고 해도 과언이 아닐 정도로 확률분포의 비중이 크다. 그래서 베이즈 통계에 입문하려면 확률분포부터 진지하게 공부해야 한다.

셋째, 추론(inference)의 의미가 다르다. 사회통계에서는 추론이란 모수 추정과 가설 검정이다. 즉, 표본 통계치(sample statistics)를 가지고 모집단의 평균을 추정하거나, 모집단의 평균에 대한 가설을 검정하는 것이다. 그렇게 해서 사회과학자들은 사회구조나 사회현상을 이해하고 사회 법칙을 발견한다. 표본통계치로부터 모수를 추론하는데 이론적 근거가 표집분포(sampling distribution)이다. 때문에 사회통계에서는 표집(혹은 표본추출)이 대단히 중요하다.

베이즈 통계에서 추론은 모수 추정이나 가설 검정보다 수치화된 예측 혹은 믿음이라는 의미로 더 자주 사용된다. 한 현상에 대해 우리가 어떤 믿음을 가지고 있는데, 새로운 데이터(증거)가 나타났을 때 그 믿음이 어떻게 달라질까(혹은 달라져야 하는가)가 베이즈 통계의 주요 관심사이다.

때문에 베이즈 통계에서는 선험적 믿음과 데이터(증거)라는 두 가지가 있어야 한다. 빈도주의 통계에서는 표본(통계치)과 모집단(모수)를 연결해주는 것이 표집분포 이론인 것처럼 베이즈 통계에서 사전확률(선험적 믿음)과 사후확률, 데이터와 예측을 연결해주는 것은 베이즈 정리이다.

넷째, 베이즈 통계는 빈도주의 통계와 달리 사회구조, 사회현상, 사회법칙 뿐 아니라 개인에 대한 예측에 사용될 수 있다.  예컨대 베이즈 통계는 어떤 중년 여성이 유방암 검사에서 양성 반응이 나왔는데, 그녀가 실제로 유방암에 걸렸을 가능성은 얼마나 될까 같은 의문에 대한 해답을 구하는 도구로 쓰일 수 있다.

다섯째, 베이즈 통계에서 데이터란 빈도주의 통계에서 말하는 의미의 표본 데이터일 수도 있지만 체계적으로 수집된 표본 데이터가 아닐 수도 있다. 그것은 다수의 데이터가 아니라 소수, 심지어 한 개의 사례일 수도 있다. 한 마디로 베이즈 통계에서는 데이터의 과학적 표집(표본추출)에 빈도주의 통계만큼 크게 의존하지 않는다.

베이즈 통계를 빈도주의 통계에 대치시키는 경우가 적지 않다. 통계학의 역사를 보면 충분히 이해할만한 현상이지만, 필자는 베이즈 통계가 빈도주의 통계를 대체하기보다는 확장한다고 생각한다. 베이즈 통계가 사회과학에 있어 통계의 쓰임새를 넓혀준다는 말이다. 유연하고 열린 마음으로 베이즈 통계에 접근한다면 그것은 우리의 과학적 도구 창고를 보다 풍부하게 만들어 줄 것이다. (2020-10-18).

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.