베이즈 통계(12): 모수추정과 신용구간

빈도주의 통계에서 표본 통계(sample statistics, 대개의 경우 표본평균)에 신뢰구간(confidence interval)을 붙여 수행하는 구간추정(interval estimate)이 있듯이 베이즈 통계에도 모수를 구간으로 추정하는 구간추정이 있다. 그런데 베이즈 추정에서는 모수의 점추정값(parameter point estimate)을 중심으로 신용구간(credible interval)을 잡아서 구간추정을 수행한다.

베이즈 추론을 통해서 추정된 퍼라미터를 얼마나 신뢰할 수 있을까? 베이즈 추론의 신용구간을 사용하면 95% 확신을 갖고 퍼라미터가 특정 구간 안에 있다고 주장할 수 있다.

예컨대 어떤 도시에 신생아의 몸무게 분포에 관해 실험을 실시하고 있다고 하자. 신생아의 몸무게 β가 2.8kg부터 3.5kg 사이 어딘가일 주관적 확률이 90%라고 한다면, 는 하나의 90% 신용구간이라고 말할 수 있다. 또한 어떤 사람의 통계학 기말 성적에 대한 95% 신용구간이 70~80점이라는 말은, 그 사람의 성적이 70~80점 사이에 있을 확률이 95%라는 의미이다.

빈도주의 통계에서는 신뢰구간(confidence interval)이 그 역할을 한다. 신뢰구간은, 우리가 100번 표집을 뽑아서 100개의 신뢰구간을 구하면, 그 중 95개가 그 안에 퍼라미터를 포함하고 있음을 의미한다. 퍼라미터는 고정되고 변하는 것은 신뢰구간이니 그런 결과가 나온다.

베이즈 추론에서 신용구간(credibile interval)은 빈도주의 통계의 신뢰구간과 달리 직접적으로 우리가 추정한 특정한 퍼라미터가 신용구간 내에 있을 가능성이 95%라고 주장할 수 있게 된다.

데이터 가 주어졌을 때,  관찰되지 않은 확률변수 의 값을 추정하려고 한다고 하자. 추정된 사후분포에서 다음 조건을 만족하는 구간 를 구할 수 있. 는 유의수준이다.

이 구간이 확률변수 X에 대한 신용구간(credible interval)이다.

베이즈 신용구간은 다음과 같이 정의된다. 관찰값 가 주어졌을 때, 만약 관찰되지 않은 확률변수 X의 사후확률이 구간  안에 존재할 확률이 이라면, 구간 을 확률변수 X에 대한 신용구간(credible interval)이라고 부른다.

그런데, 동일한 신뢰수준의 신용구간은 하나가 아니다. 그래서 최고사후밀도구간(Highest Posterior Density Interval, HPDI)–간략히 최고밀도구간(Highest Density Interval, HDI)라고도 함–을 사용한다.

가 확률변수 X의 밀도함수라고 하자. 그렇다면 HDI(다차원의 경우 HDR, Highest Density Region)는 다음을 만족하는 X의 표본공간의 부분집합 이다.

여기서 는 아래를 만족하는 최대의 상수이다.

예컨대 아래 그림의 각 분포는 95% HDI를 보여주고 있다. 이므로 인 수평선을, 양쪽 그래프의 아래와 위의 면적을 합한 값이 그래프 전체 면적의 95%가 될 때까지 끌어올리면 그 선이  이다. 분포곡선의 양쪽 경계에 해당되는 X 값의 범위, 아래 그림에서  (첫 번째 분포), (두 번째 분포), (세 번째 분포)가 각 분포의 95% HDI이고, 그 구간을 표시하는 양화살표선이 에 해당되는 선이다. 예컨대 첫 번째 그래프에서 양화살표선의 화살표 끝과 분포 곡선이 만나는 점이 이다.

HDI는 정의상 두 가지 특성을 갖는다.

첫째, 단봉분포(unimodal distribution)의 경우 HDI 구간 안에 있는 모든 점들의 사후분포함수 값들은 그 구간 밖에 있는 모든 점들의 사후분포함수값들보다 항상 크다.

둘째, HDI는 가장 짧은 길이의 신용구간이다.

신용구간은 모수 추정에 사용되지만 앞 포스팅에서 소개한 베이즈 인자(Bayes fractor)처럼 가설검정에도 적용된다. 어떤 학자는 베이즈 인자보다 신용구간이 모집단 혹은 모수에 관해 훨씬 풍부한 정보를 준다고 주장한다(Kruschke, 2013).

그런데 신용구간은 베이즈 인자보다 구하기가 어렵다. 베이즈 인자와 달리 사후분포가 구해져야 하기 때문이다. 사후분포가 특정됐다는 것은 사후분포의 퍼라미터들이 구해졌음을 함축한다. 신용구간은 사후분포에서, 주어진(혹은 선택한) 가능성(혹은 그럴듯함, plausibility: 빈도주의 통계에서 신뢰수준에 해당됨) 수준을 대표하는 값들의 범위이다. 주어진 가능성 수준은 모수가 그 범위 안에 들어갈 확률을 가리킨다.

예컨대 95% 가능성(plausibility)을 선택하면 95% 신용구간, 90% 가능성을 선택하면 90% 신용구간을 구한다. 신용구간은 사후분포를 구성하는 값들 중 가장 가능성이 높은(그럴듯한, plausible) 값들만 포함한다. 가능성이 높다는 말은 가장 높은 확률(혹은 확률밀도)을 갖는다는 의미이다. 예를 들어 90% 가능성이란 확률(혹은 확률밀도)가 확률이 높은 순으로 상위 90%에 해당되는 범위가 신용구간이다. 그리고 진짜 모수가 그 범위 안에 들어갈 확률은 90%이다.

신용구간을 좀 다르게 정의해 사용하기도 한다. 빈도주의 통계의 신뢰구간처럼 좌우 꼬리 부분이 동일 확률( equal probability) 를 갖게 하는 방법도 있다. 등꼬리 신용구간(equal-tailed credible interval)이다.

이 등꼬리 신용구간은 HDI에 비해 계산하기 쉽다는 장점을 가지고 있다. 그러나 좌우대칭의 단봉분포가 아닌 비대칭적 단봉분포나 쌍봉분포의 경우에는 신용구간을 가지고 한 분포에서 신뢰할만한 값들을 보여주겠다는 의도에 잘 맞지 않은 속성을 나타내는 약점이 있다(Kruschke, 2015).

신용구간이나 HDI는 먼저 사후분포를 특정해야 계산이 가능하기 때문에 컴퓨터 프로그램을 사용하지 않고는 추정이 거의 불가능하다. 예를 들어 우리나라에서 밤에 8시간 이상 자는 대학생들의 비율(θ)에 관심이 있다고 하자. 한양대학교로부터 27명의 학생을 무작위로 추출하여 물어보았더니 그 중 11명의 학생들이 밤에 8시간 이상 잔다고 응답했다. 이 확률변수는 다음과 같은 이항분포를 따른다.

θ에 대한 사전확률분포가 라면, 공액을 이용해서 사후분포를 구하면 다음과 같다.

이제 θ에 대한 90% 신용구간을 구해보자. 우리는 그것을 폐쇄 형식(closed form)으로 계산할 수 없다. Beta 분포에 대한 확률 계산은 아래와 같이 복잡한 적분을 포함하고 있기 때문이다.

그런데, Beta 함수의 확률밀도함수는 아래와 같으므로,

는 다음과 같은 함수이다.

대학생들의 야간 수면 시간에 관한 간단한 의문을 푸는데 이렇게 복잡한 함수를 계산해야 한다! 실질적으로 계산이 불가능한 것이다. 그래서 우리는 MCMC라는 방법을 가지고 신용구간을 근사적으로 추정한다(approximate). R을 사용하면 신용구간을 쉽게 구할 수 있다. 실제로 R을 사용하여 추정한 θ의 90% 신용구간은 (9.256, 0514)이다. 이제 MCMC와 R(혹은 Python)이 필요한 시간이다.

참고 문헌

Kruschke, John K. 2013. “Bayesian Estimation Supersedes the Test.” Journal of Experimental Psychology, General, vol.142, no.2: 573-603.

——. 2015. Doing Bayesian Data Analysis. Academic Press.