베이즈 통계(10): 가설 검정에 있어 빈도주의와 베이즈 접근의 차이

빈도주의 통계의 가설 검증은 다음과 같은 표준적인 절차를 거쳐서 이루어진다. 1) 연구에서의 작업 가설(working hypothesis)을 검증 대상의 대립 가설(alternative hypothesis)로 설정한다. 2) 대립 가설을 우회적으로 검증하기 위한 영가설(null hypothesis)을 설정한다. 3) 데이터를 수집한다. 4) 영가설을 검증한다. 영가설이 기각되면, 대립가설을 수용하고, 영가설 기각에 실패하면, 대립가설 대신에 영가설을 수용한다.

“가설(hypothesis)은 연구에서 검증될 기본 진술이다. 가설은 전형적으로 두 변수 간의 관계를 진술한다. 가설은 이런 두 변수 간의 관계를 예측하기 때문에 검증가능해야 하며, 또한 이런 예측이 옳은 것인지 그른 것인지는 검증한 결과를 토대로 결정할 수 있어야 한다. 가설은 반드시 명확하게 검증 가능해야 하며, 애매하지 않게 서술되어야 한다.” 그리고 인과적 가설의 경우 원인을 독립변수로, 결과를 종속변수로 정한다. 그리고 그 변수들 사이의 관계는 단순히 “관계가 있다”라고 진술하기 보다는 관계의 방향성(부적인가 정적인가)을 진술하는 편이 훨씬 풍부한 연구 결과를 낳을 수 있다고 본다(Babbie, 2007: 70).

빈도주의 통계에서는 가설은 통상 ‘독립변수(원인) –> 종속변수(결과)‘라는 구조를 갖고 있다. 예컨대 “교육을 많이 받을수록 소득 수준이 높을 것이다.” 여기서 독립변수는 교육 수준이고, 종속변수는 소득 수준이다.

가설은 변수의 특성에 따라서는 조금 다르게 표현될 수도 있다. 예를 들어 성별처럼 범주가 2개인 질적 변수의 경우, “여성이 남성보다 페미니즘을 지지할 가능성이 더 높을 것이다”와 같은 가설이 제시될 수 있다. 여성과 남성이라는 두 범주를 비교하여 예측하는 방식인 것이다.

빈도주의 접근에서 영가설은 독립변수가 종속변수에 영향을 미치지 않는다(관계가 없다)는 명제의 형식을 갖고 있다. 영가설은, 실제로 그러한 믿음이 존재해서 제시된 가설이라기보다는 연구자의 관심사인 대립가설을 검증하는 도구로서의 성격이 강하다.

항상 그런 것은 아니지만 이상이 빈도주의 통계에 있어 가설의 전형적인 모습이다. 기존의 통계학에 익숙한 연구자들은 ‘가설’이라고 하면, 누구나 그러한 모습의 가설을 떠올리게 마련이다. 베이즈 통계에서도 가설이라는 용어가 사용된다. 문제는 베이즈 통계와 빈도주의 통계에서 가설이 지닌 뉘앙스가 좀 다르다는 데 있다. 베이즈 통계에서는 빈도주의 통계에서 당연한 것으로 받아들이는 ‘전형적인’ 가설의 모습이 일반적이지 않다. 이것은 기존의 사회과학 연구에 익숙한 연구자가 베이즈 통계를 배우면서 부딪치게 되는 심각한 개념적 혼란을 초래한다.

베이즈 통계에서 가설은 ‘독립변수 = 특정한 값‘이라는 명제가 더 일반적이다. 독립변수가 어떤 특정한 값을 갖는다는 명제가 가설로 제시되는 경우가 흔하다는 말이다. 가설에 종속변수가 들어있지 않는 것이다!

사실 베이즈 추론에서는 독립변수나 종속변수라는 용어를 잘 사용하지 않는다. 베이즈 통계에서는 흔히 연구자가 어떤 사회 현상의 원인을 추정(예측)하고, 데이터를 사용해 검증한다. 그 추정된(혹은 예측된) 원인이 가설이다. 여기에도 기존 사회과학방법이나 통계학을 배운 사람들이 빠지기 쉬운 함정이 있다. 베이즈 통계에서는 빈도주의 통계와 예측이 반대로 이루어지는 경우가 많다. 종속변수를 예측하는 것이 아니라 독립변수를 예측하는 것이다.

예컨대 페미니즘에 대한 태도와 성별의 관계를 연구한다면, 원인(독립변수)이 되는 변수가 성별이므로 “성별이 여성이다” 혹은 “성별이 남성이다”가 가설이 된다. 데이터(여기서는 페미니즘에 대한 태도)가 수집되기 전에 연구자가 독립변수에 대해 가지고 있는 정보나 믿음(사전확률)이 수집된 데이터를 검토하고서 그 정보나 믿음을 수정한다면, 그것은 데이터에 사용된 확률변수(종속변수)와 가설에 사용된 확률변수(독립변수)가 상호 관계가 있음을 함축한다.

베이즈 통계에서는 인과적 관계나 상관 관계에 대한 진술 없이 그냥 어떤 현상을 예측(추정)하는 가설을 검증하기도 한다. 몇 가지 예를 보자.

어떤 동전이 공정한가 아니면 뒷면이 더 무거운 지를 조사한다면, 가설은 다음과 같이 설정될 수 있다.

H0: 동전이 공정하다(fair).          H1: 동전의 뒷면이 무겁다.

전자담배에 건강에 해롭다는 경고문을 부착하는 것이 건강에 대한 염려를 높이는가에 대해 연구한다면, 다음 세 가지 가설을 고려할 수 있을 것이다.

H0: 경고 부착이 염려에 영향을 미치지 않는다.    H1-1: 경고 부착이 염려를 높인다.     H1-2: 경고 부착이 염려를 낮춘다.

여기서는 내용적으로 볼 때 경고 부착 여부가 독립변수이지만, 가설에서 사용될 때는 변수로 쓰이지 않고 있다. 가설들을 보면 건강에 대한 염려라는 현상(종속변수)만을 세 가지로 예측하고 있다.

어떤 감시 시스템이 감시 대상 시설에 침입자가 있는 경우 경보를 울려야 한다면, 이 때 필요한 가설은 아래와 같다.

H0: 칩입자가 없다.          H1: 침입자가 있다

비슷한 경우가 되겠지만, 센서가 수집한 정보를 가지고 화재 경보를 울려야 하는 경보시스템이 있다면, 센서가 어떤 징후를 감지한 다음 화재 경보를 울리려면 그 시스템은 다음 가설들 중 하나를 선택을 하는 판단을 내려야 할 것이다.

H0: 불이 났다.          H1: 불이 나지 않았다

빈도주의 통계에서는 이와 같은 가설들이 그다지 자주 사용되지 않지만 베이즈 통계에서는 흔히 볼 수 있는 유형들이다. 평생 빈도주의 통계를 사용해 왔던 연구자들이 베이즈 통계에 입문하려면 가설에 대해 유연한 개념을 가질 필요가 있다.

교육이 소득에 미치는 영향을 베이즈 통계를 가지고 연구한다고 하자. 우선 교육수준과 소득수준은 확률변수이다. ‘어떤 사람이 대학 졸업자일 것이다’는 베이즈적 가설의 예가 된다. ‘어떤 사람이 고졸자일 것이다’, ‘어떤 사람이 무학일 것이다’는 베이즈 추론에서 모두 교육수준에 관해 타당한 가설이다.

베이즈 추론에서는 ‘어떤 사람의 소득이 월 500만원 이상이다’, ‘어떤 사람이 고급 외제 승용차를 갖고 있다’, ‘어떤 사람이 서울 강남에 30평대 아파트를 소유하고 있다’는 소득수준에 관한  타당한 데이터가 된다.

만약 어떤 사람의 교육수준에 대한 믿음(추측)이 그 사람의 소득수준을 보고 난 뒤에 바뀌었다면 교육수준이 소득수준과 관계가 있음을 함축한다고 해석하는 것이다. 어느 사회나 구성원들의 학력 통계가 있다. 성인 인구 중 학력별 인구비율이 공개되어 있다. 예를 들어, 전문대 졸업 이상이 50%, 고졸이 30%, 고졸 미만이 20%이다. 어떤 성인 남자의 학력에 대해 추측하는데 그 사람에 대한 정보가 아무것도 없다면, 그 사람이 전문대 이상의 학력을 가졌을 확률은 0.5라고 추정될 것이며, 고졸일 확률은 0.3, 고졸 미만일 확률은 0.2가 될 것이다. 그런데 어떤 경로로 그 사람의 월수입이 5백만원이 넘는다는 사실을 알게 되었다. 그 때 그사람이 전문대 졸업 이상의 학력을 가졌을 확률은 더 이상 0.5라고 추정될 수는 없고 그 확률을 0.7 정도로는 올려야 할 것이다. 만약 실제로 그렇다면 연구자는 소득수준이 학력수준에 상당히 달려있다고 추정할 것이다.

만약 그 사람이 고급 외제 승용차를 탄다는 사실을 알게 되도 마찬가지로 그가 전문대 졸업 이상을 학력을 가지고 있을 것이라는 확률을 0.6이나 0.7정도로 올려야 할 것이다. 마찬가지로 그 사람이 강남에 30평 이상의 아파트를 보유하고 있다는 사실을 알게 되도 마찬가지일 것이다. 어떤 사람의 소득수준 혹은 생활수준이 높으면 우리가 그 사람에 대한 정보가 전혀 없을 때보다 그 사람이 전문대졸 이상의 학력을 가졌을 확률을 훨씬 높게 볼 것이다. 한 사람의 소득 수준(생활 수준)을 결정하는데 있어 학력이 중요한 요인이라고 믿기 때문이다.

베이즈 추론은 이러한 논리를 따른다. 데이터를 보기 전에 가지고 있는 믿음(사전확률, prior)이 데이터를 보고나서 그 믿음이 달라졌는가(사후확률, posterior)를 따져서 사회에 존재하는 법칙을 발견하는 통계적 방법이다.

<신호와 소음>에서 네이트 실버(Nate Silver)는 베이즈 추론의 이러한 특성을 다음과 같이 표현한다.

“나는 예측을 가설검증의 한 형태, 또는 단순하게 말해 진리를 발견하는 수단이라고 생각한다. 베이즈 정리에 따르면 예측은 기본적으로 정보처리 활동의 한 유형, 즉, 새로 나타난 자료를 이용해서 세상에 대해 더 진리에 가깝고 더 정확한 개념을 찾아나가는 과정이다. (실버, 2014: 395, 강조는 원저자의 것).”

예제를 가지고 좀 더 체계적으로 베이즈 추론을 살펴보자. 사람들의 교육수준이 그들의 소득수준을 결정짓는 요인인가를 조사한다고 하자.   

베이즈 추론에서는 먼저 변수와 사건을 정의한다.

(변수의 정의)

확률변수 X: 교육수준(이산변수). , x1 : 중졸 이하, x2 : 고졸, x3 :  전문대졸, x4 :  대졸 이상

확률변수 Y: 소득 수준(이산변수). , y1 : 100만원 미만, y2 : 100~200만원 미만, y3 : 200~300만원 미만, y4 : 300~400만원 미만, y5 : 400~500만원 미만, y6 : 500만원 이상

(사건의 정의)

가설 사건(hypothesis): 학력이 대학 졸업 이상이다

조건 사건(data): 소득이 월 500만원 이상이다

(문제) 어떤 사람의 소득이 월 500만원 이상일 때, 그 사람이 대학을 졸업했을 확률은? 전문대학을 졸업했을 확률은? 고졸일 확률은? 중졸 이하일 확률은? 베이즈 추론에서는 어떤 사람의 소득이 월 500만원 이상이라는 데이터가 주어졌을 때 그 사람이 특정한 수준의 교육을 받았을 가능성을 사전확률과 사후확률의 형태로 구해서 비교하여 교육수준과 소득수준의 관계를 검증한다.

다음 표는 2016년 경기도 안산시청이 수행한 실제 사회조사 자료로부터 가져왔다. 학력과 소득의 교차표이다. 설문조사 표본의 크기는 2,842명이다. 이 중 대졸 이상이 679명, 전문대졸이 436명, 고졸이 1,242명, 중졸 이하가 124명이다. 무작위 표본이니 이 데이터는 안산시 성인 인구를 잘 대표하고 있다고 본다.

데이터: 학력과 소득의 교차표(안산시 사례)

중졸 이하 고졸 전문대졸 대졸 이상 합계
100만원 미만 121 58 18 20 217
100~200만원 미만 119 219 50 70 458
200~300만원 미만 124 366 114 144 748
300~400만원 미만 52 237 94 123 506
400~500만원 미만 40 220 91 138 489
500만원 이상 29 142 69 184 424
합계 485 1242 436 679 2842

(2016년 안산시 사회조사 자료)

이 교차표에서 각칸의 빈도를 총합계(2,842)로 나누면 아래와 같은 결합확률표가 생성된다. 각 칸의 빈도를 총합계로 나누는 것은 각 칸의 빈도에 대한 정규화(normalize) 값을 구한다고 표현할 수 있다. 합계를 정규화한 값들은 주변확률이고, 나머지 각 빈도를 정규화한 값들은 결합확률(혹은 동시확률이라고 부름)이다. 각 열의 결합확률을 모두 더하면 그 열의 주변확률이 나오고, 각 행의 결합확률을 모두 더 하면 그 행의 주변확률이 나온다. 주변확률은 고딕체로 표시되어 있다.

학력과 소득의 결합확률표

중졸 이하 고졸 전문대졸 대졸 이상 합계
100만원 미만 0.0426 0.0204 0.0063 0.0070 0.0764
100~200만원 미만 0.0419 0.0771 0.0176 0.0246 0.1612
200~300만원 미만 0.0436 0.1288 0.0401 0.0507 0.2632
300~400만원 미만 0.0183 0.0834 0.0331 0.0433 0.1780
400~500만원 미만 0.0141 0.0774 0.0320 0.0486 0.1721
500만원 이상 0.0102 0.0500 0.0243 0.0647 0.1492
합계 0.1707 0.4370 0.1534 0.2389 1.00

(2016년 안산시 사회조사 자료)

이 표에서 가장 왼쪽 상단의 확률 값 0.0426은 학력 확률변수의 중학교 이하와 소득 확률변수의 100만원 이하가 동시에 발생하는 확률, 즉, 결합확률이다. 부호로 다음과 같이 표시된다.

이 결합확률은 곱셈법칙에 의하면, 조건부확률과 주변확률의 곱이다.

이를 베이즈 통계의 용어로 표현하면, 우도(likelihood) 곱하기 사전확률이다. 앞 부분이 우도이고 뒷부분이 사전확률이다.

어떤 사람의 소득이 월 100만원 이하일 때 그의 학력이 중졸 이하일 확률을 구한다고 하자. 그것은 다음과 같이 표시되는 사후확률이다.

이 사후확률은 베이즈 정리에 의하면 다음과 같은 식으로 구해진다.

우도사전확률(가설의 주변확률)을 곱해서 구한 결합확률을 정규화 상수인 (데이터의) 주변확률로 나누면 사후확률이 구해진다. 그런데 베이즈 추론에서 그 주변확률이 이 표에서처럼 주어지는 경우는 드물다. 그래서 보통 해당 열(중졸 이하의 열)의 결합확률을 모두 더 해서 구한다. 부호로 표시하면 아래와 같다.

중졸 이하의 주변확률은 해당 열의 결합확률을 모두 더한 값인 0.1707이다. 그것이 여기서 정규화 상수이며, 베이즈 정리에서 분모에 해당된다.

따라서 식 (1)을 다음과 같이 말로 풀 수 있다. 어떤 사람의 소득이 100만원 이하일 때 그 사람이 중졸 이하의 학력을 가졌을 확률은, 소득이 100만원 이하라는 사건과 학력이 중졸이하라는 사건의 결합사건의 확률(결합확률)을 중졸 이하라는 열의 주변확률(혹은 결합확률의 합)로 나누어 준 값이다.

원래 문제로 돌아가자. 어떤 사람의 소득이 월 500만원 이상일 때 그 사람이 대학을 졸업했을 확률은? 문제를 조건부 확률로 표시하면 다음과 같다.

베이즈 정리에 의하면, 이 사후확률은 우도(사후확률의 역확률이다)와 사전확률(가설의 주변확률)의 곱을 데이터의 주변확률로 나누어 주면 구해진다. 식으로 표기하면 다음과 같다.

여기서 가설은 ‘학력이 대졸 이상이다’. 따라서 가설의 주변확률은 다음과 같다.

데이터는 ‘소득이 500만원 이상이다’. 따라서 데이터의 주변확률은 다음과 같다.

사후확률의 역확률인 우도는 ‘대졸 이상일 때 소득이 500만원 이상일 확률’이다. 그것은 다음과 같이 구해진다. ‘대졸 이상’과 ‘500만원 이상’의 결합확률을 ‘대졸 이상’의 주변확률로 나눈 값이다. 혹은 ‘대졸 이상’과 ‘500만원 이상’의 결합 빈도를 ‘대졸 이상’의 주변빈도로 나눈 값이다.

우도, 사전확률, 그리고 데이터의 주변확률 값을 모두 구했으니, 식 (2)에 대입하면 아래와 같다.

이를 확인하기 위해 빈도를 가지고 좌변의 사후확률을 바로 계산하면,

좌변과 우변의 값이 동일함을 알 수 있다.

대학졸업자의 경우 사전확률(0.2389)에 비해 500만원 이상의 비율이라는 조건(데이터)이 주어진 후 사후확률(0.4339)이 거의 두 배 가까이 높아졌다.

동일한 방식으로 500만원 이상의 소득을 올리는 사람이 전문대학을 졸업했을 확률, 500만원 이상의 소득을 올리는 사람이 고등학교를 졸업했을 확률, 그리고 500만원 이상의 소득을 올리는 사람이 중학교 졸업 이하일 확률을 구할 수 있을 것이다.

식 (1)에서 대신 차례로 을 넣어서 사후확률을 계산하면 된다.

전문대 졸업자의 경우는 사후확률(0.1629)이 사전확률(0.1534)에 비해 약간 높아졌랐다.

그런데 고졸자의 경우 사후확률(0.3351)이 사전확률(0.4370)에 비해 눈에 띄게 낮아졌으며,

중졸 이하의 경우 사후확률(0.0684)이 사전확률(0.1707)에 비해 절반 이하로 줄었다.

이상의 발견을 종합하면, 학력 수준이 소득 수준에 영향을 미치고 있음에 분명하다. 소득이 500만원 이상인 사람은 모집단의 학력 분포를 가지고 예측한 것보다 대졸 이상일 확률이 훨씬 높은 반면, 고졸이나 중졸 이하일 확률은 모집단의 학력 분포를 가지고 예측한 것보다 크게 낮다.

베이즈 접근을 이용하면, 동일한 데이터를 가지고도 빈도주의 접근과는 매우 다른 방식으로 학력 수준이 소득 수준에 미치는 영향을  발견할 수 있다. 빈도주의적으로 표현하면, 학력 수준이 올라갈수록 소득 수준이 올라간다는 가설을 검증할 수 있다. (교차표에서는 값을 구하고 그것의 값을 계산하면 영가설이 검증된다. 두 변수가 관계가 강하면 카이자승 값이 크고, 그것의 값은 0.05보다 훨씬 작을 것이다. 그러면 영가설이 기각된다.) 빈도주의 접근에서는 영가설이라는 테크닉을 사용해서 두 확률변수 사이의 관계를 발견하지만, 베이즈 접근에서는 자주 사전확률에 비해 사후확률이 얼마나 변화되는가를 보고서 두 확률변수의 관계를 추정하게 된다. 베이즈 추론의 결과인 사후확률은 사전확률과의 대비해서 해석되어야 한다.

물론 사전확률과 사후확률의 비교가 베이즈 추론에서 유일한 가설 검증 방법은 아니다. 데이터가 영가설 예측(지지)하는 정도와 대립가설을 예측(지지)하는 정도를 비교하는 방법으로도 가설 검증 혹은 가설 선택을 할 수 있다. (2020-11-10)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.