베이즈 통계(11): 가설검정과 베이즈 인자

가설검정은 현대 과학에서 표준적인 연구 절차의 중요한 일부이며, 진리 발견의 주요한 방법 중 하나이다. 베이즈 통계에서는 그러한 가설검정을 어떻게 수행할까?

빈도주의적 가설검정에서는 영가설과 대립가설을 설정하고 영가설이 기각되면 대립가설을 취하고 영가설이 기각되지 않으면 영가설을 채택한다. 비록 영가설이 실제 의미를 갖기보다는 가설 검정의 도구라는 측면이 강하기는 하지만, 논리적으로 영가설과 대립가설은 상호배타적(exclusive)이어야 하며, 영가설과 대립가설의 구분은 포괄적(exhaustive)이어야 한다. 집합적으로 설명하자면, 가설의 집합은 오직 영가설과 대립가설이라는 두 가지 원소로 구성되어 있으며, 영가설과 대립가설의 교집합은 공집합이다.

빈도주의 통계에서는 z-값, t-값, -값과 같은 검정통계량(test statistics)을 계산하고, 그것을 가지고 p-값을 구한 다음, 설정한 p-값이 신뢰수준(통상 95%)의 유의수준(, 통상 0.05)보다 작으면 영가설을 기각하고 그보다 크면 영가설을 채택한다.

빈도주의 통계와 달리 베이즈 통계는 사전확률로 시작해서 사후확률로 끝난다. 영가설과 대립가설 각각의 사전확률, 우도, 사후확률을 구한 다음 그 크기를 비교하여 두 값의 크기에 따라서 두 가설 중 하나를 선택한다. 빈도주의 통계의 검정통계량과 유사한 역할을 하는 것이 베이즈 인자(베이즈 요인이라고도 부름, Bayes factor)이다. 베이즈 인자를 구한 다음 그 값의 크기에 따라 영가설과 대립가설 중 하나를 채택한다. 베이즈 요인은 약간 다른 세 가지 방식으로 정의될 수 있다. 어떤 방식으로 구하든 값은 동일하다.

1) 대립가설에 대한 영가설의 사후확률의 비–사후교차비(odds ratio)–를 계산하고, 대립가설에 대한 영가설의 사전확률의 비–사전교차비(odds ratio)–를 계산한 다음, 사후교차비를 사전교차비로 나눈 값이 영가설을 지지하는 베이즈 인자의 정의이다. 다음과 같이 기호로 표시할 수 있다.

영가설의 사후확률을 , 대립가설의 사후확률을 이라고 하고, 영가설의 사전확률을 , 대립가설의 사전확률을 이라고 하자.

사후교차비: ,    사전교차비:

그러면 베이즈 요인은,

2) 영가설에 대해 사전확률에 대한 사후확률의 비율(영가설에 대한 지지도)을 구하고, 대립가설에 대해 사전확률에 대한 사후확률의 비율(대립가설에 대한 지지도)을 구한 다음, 그 지지도의 비율이 베이즈 인자이기도 하다. 앞 포스팅, 베이즈 통계(10)에서 가설에 대한 지지도를 논리적으로 사용하였다.

3) 베이즈 인자는 대립가설에 대한 영가설의 우도비로도 정의된다.

Jeffreys(1961)는 영가설(H0)을 지지할 때의 베이즈 인자값들을 아래 표와 같이 제시하였다(정윤식 2018: 112에서 재인용).

H0 의 지지도 정도
   0 to 1/2   1 to 3.2 쉽게 판단하기 어려움
   1/2 to 1   3.2 to 10 조건부적으로 지지
   1 to 2   10 to 100 강하게 지지
   > 2   > 100 결정적으로 지지

이면, 데이터가 H0 을 지지하지 않으므로 H1을 채택한다.

앞 포스팅에서 사용한 사례를 가지고 가설 검정을 해보자.

(변수의 정의)

확률변수 X: 교육수준(이산변수). , x: 대졸 미만  x2 : 대졸 이상

영가설과 대립가설을 구성하기 위해 교육수준의 범주를 두 개로 축소하였다.

확률변수 Y: 소득 수준(이산변수). , y1 : 100만원 미만, y2 : 100~200만원 미만, y3 : 200~300만원 미만, y4 : 300~400만원 미만, y5 : 400~500만원 미만, y6 : 500만원 이상

(사건의 정의)

조건 사건(data): 소득이 월 500만원 이상이다

가설 사건(hypothesis):

만약 교육수준이 학력수준을 예측 가능하게 하는 확률변수라면, 어떤 사람이 가장 높은 소득계층에 속한다면, 그는 대졸 이상일 가능성이 높다. 반면에 그가 대졸 미만일 가능성이 낮다. 그렇다면 영가설(H0)과 대립가설(H1)은 다음과 같이 제시될 수 있을 것이다.

H0 : 그의 교육수준이 대졸 미만이다.    H1 : 그의 교육수준이 대졸 이상이다.

학력과 소득의 결합확률표

대졸 미만 대졸 이상 합계
100만원 미만 0.0693 0.0070 0.0763
100~200만원 미만 0.1366 0.0246 0.1612
200~300만원 미만 0.2125 0.0507 0.2632
300~400만원 미만 0.1347 0.0433 0.1780
400~500만원 미만 0.1235 0.0486 0.1721
500만원 이상 0.0845 0.0647 0.1492
합계 0.7611 0.2389 1.00

(2016년 안산시 사회조사 자료)

  • 영가설의 사전확률()과 대립가설의 사전확률():

  • 영가설의 우도()와 대립가설의 우도():

  • 분모(결합확률의 합)

  • 영가설의 사후확률()과 대립가설의 사후확률():

  • 사후교차비를 사전교차비로 나눈 값:

  • 영가설의 사후확률 대 사전확률 비(지지도)와 대립가설의 사후확률 대 사전확률 비(지지도):

  • 우도비(Likelihood ratio):

세 가지 다른 방식으로 베이즈 인자를 구했는데, 그 값이 모두 0.41로 동일하다. 영가설에 대한 베이즈 인자 값이 1보다 작으므로 대립가설을 채택한다.

베이즈 추론에서 베이즈 인자에 기초한 베이즈 모형 비교가 가설검정의 유일한 방법은 아니다. 신용구간을 사용하는 베이즈 모수 추정도 가설검정에 사용될 수 있으며 베이즈 인자 접근보다 풍부한 정보를 제공한다. 다만 신용구간은 베이즈 인자에 비해 계산이 복잡하다. (2020-11-13)