베이즈 통계(10): 가설 검정에 있어 빈도주의와 베이즈 접근의 차이

빈도주의 통계의 가설 검증은 다음과 같은 표준적인 절차를 거쳐서 이루어진다. 1) 연구에서의 작업 가설(working hypothesis)을 검증 대상의 대립 가설(alternative hypothesis)로 설정한다. 2) 대립 가설을 우회적으로 검증하기 위한 영가설(null hypothesis)을 설정한다. 3) 데이터를 수집한다. 4) 영가설을 검증한다. 영가설이 기각되면, 대립가설을 수용하고, 영가설 기각에 실패하면, 대립가설 대신에 영가설을 수용한다.

“가설(hypothesis)은 연구에서 검증될 기본 진술이다. 가설은 전형적으로 두 변수 간의 관계를 진술한다. 가설은 이런 두 변수 간의 관계를 예측하기 때문에 검증가능해야 하며, 또한 이런 예측이 옳은 것인지 그른 것인지는 검증한 결과를 토대로 결정할 수 있어야 한다. 가설은 반드시 명확하게 검증 가능해야 하며, 애매하지 않게 서술되어야 한다.” 그리고 인과적 가설의 경우 원인을 독립변수로, 결과를 종속변수로 정한다. 그리고 그 변수들 사이의 관계는 단순히 “관계가 있다”라고 진술하기 보다는 관계의 방향성(부적인가 정적인가)을 진술하는 편이 훨씬 풍부한 연구 결과를 낳을 수 있다고 본다(Babbie, 2007: 70).

빈도주의 통계에서는 가설은 통상 ‘독립변수(원인) –> 종속변수(결과)‘라는 구조를 갖고 있다. 예컨대 “교육을 많이 받을수록 소득 수준이 높을 것이다.” 여기서 독립변수는 교육 수준이고, 종속변수는 소득 수준이다.

가설은 변수의 특성에 따라서는 조금 다르게 표현될 수도 있다. 예를 들어 성별처럼 범주가 2개인 질적 변수의 경우, “여성이 남성보다 페미니즘을 지지할 가능성이 더 높을 것이다”와 같은 가설이 제시될 수 있다. 여성과 남성이라는 두 범주를 비교하여 예측하는 방식인 것이다.

빈도주의 접근에서 영가설은 독립변수가 종속변수에 영향을 미치지 않는다(관계가 없다)는 명제의 형식을 갖고 있다. 영가설은, 실제로 그러한 믿음이 존재해서 제시된 가설이라기보다는 연구자의 관심사인 대립가설을 검증하는 도구로서의 성격이 강하다.

항상 그런 것은 아니지만 이상이 빈도주의 통계에 있어 가설의 전형적인 모습이다. 기존의 통계학에 익숙한 연구자들은 ‘가설’이라고 하면, 누구나 그러한 모습의 가설을 떠올리게 마련이다. 베이즈 통계에서도 가설이라는 용어가 사용된다. 문제는 베이즈 통계와 빈도주의 통계에서 가설이 지닌 뉘앙스가 좀 다르다는 데 있다. 베이즈 통계에서는 빈도주의 통계에서 당연한 것으로 받아들이는 ‘전형적인’ 가설의 모습이 일반적이지 않다. 이것은 기존의 사회과학 연구에 익숙한 연구자가 베이즈 통계를 배우면서 부딪치게 되는 심각한 개념적 혼란을 초래한다.

베이즈 통계에서 가설은 ‘독립변수 = 특정한 값‘이라는 명제가 더 일반적이다. 독립변수가 어떤 특정한 값을 갖는다는 명제가 가설로 제시되는 경우가 흔하다는 말이다. 가설에 종속변수가 들어있지 않는 것이다!

사실 베이즈 추론에서는 독립변수나 종속변수라는 용어를 잘 사용하지 않는다. 베이즈 통계에서는 흔히 연구자가 어떤 사회 현상의 원인을 추정(예측)하고, 데이터를 사용해 검증한다. 그 추정된(혹은 예측된) 원인이 가설이다. 여기에도 기존 사회과학방법이나 통계학을 배운 사람들이 빠지기 쉬운 함정이 있다. 베이즈 통계에서는 빈도주의 통계와 예측이 반대로 이루어지는 경우가 많다. 종속변수를 예측하는 것이 아니라 독립변수를 예측하는 것이다.

예컨대 페미니즘에 대한 태도와 성별의 관계를 연구한다면, 원인(독립변수)이 되는 변수가 성별이므로 “성별이 여성이다” 혹은 “성별이 남성이다”가 가설이 된다. 데이터(여기서는 페미니즘에 대한 태도)가 수집되기 전에 연구자가 독립변수에 대해 가지고 있는 정보나 믿음(사전확률)이 수집된 데이터를 검토하고서 그 정보나 믿음을 수정한다면, 그것은 데이터에 사용된 확률변수(종속변수)와 가설에 사용된 확률변수(독립변수)가 상호 관계가 있음을 함축한다.

베이즈 통계에서는 인과적 관계나 상관 관계에 대한 진술 없이 그냥 어떤 현상을 예측(추정)하는 가설을 검증하기도 한다. 몇 가지 예를 보자.

어떤 동전이 공정한가 아니면 뒷면이 더 무거운 지를 조사한다면, 가설은 다음과 같이 설정될 수 있다.

H0: 동전이 공정하다(fair).          H1: 동전의 뒷면이 무겁다.

전자담배에 건강에 해롭다는 경고문을 부착하는 것이 건강에 대한 염려를 높이는가에 대해 연구한다면, 다음 세 가지 가설을 고려할 수 있을 것이다.

H0: 경고 부착이 염려에 영향을 미치지 않는다.    H1-1: 경고 부착이 염려를 높인다.     H1-2: 경고 부착이 염려를 낮춘다.

여기서는 내용적으로 볼 때 경고 부착 여부가 독립변수이지만, 가설에서 사용될 때는 변수로 쓰이지 않고 있다. 가설들을 보면 건강에 대한 염려라는 현상(종속변수)만을 세 가지로 예측하고 있다.

어떤 감시 시스템이 감시 대상 시설에 침입자가 있는 경우 경보를 울려야 한다면, 이 때 필요한 가설은 아래와 같다.

H0: 칩입자가 없다.          H1: 침입자가 있다

비슷한 경우가 되겠지만, 센서가 수집한 정보를 가지고 화재 경보를 울려야 하는 경보시스템이 있다면, 센서가 어떤 징후를 감지한 다음 화재 경보를 울리려면 그 시스템은 다음 가설들 중 하나를 선택을 하는 판단을 내려야 할 것이다.

H0: 불이 났다.          H1: 불이 나지 않았다

빈도주의 통계에서는 이와 같은 가설들이 그다지 자주 사용되지 않지만 베이즈 통계에서는 흔히 볼 수 있는 유형들이다. 평생 빈도주의 통계를 사용해 왔던 연구자들이 베이즈 통계에 입문하려면 가설에 대해 유연한 개념을 가질 필요가 있다.

교육이 소득에 미치는 영향을 베이즈 통계를 가지고 연구한다고 하자. 우선 교육수준과 소득수준은 확률변수이다. ‘어떤 사람이 대학 졸업자일 것이다’는 베이즈적 가설의 예가 된다. ‘어떤 사람이 고졸자일 것이다’, ‘어떤 사람이 무학일 것이다’는 베이즈 추론에서 모두 교육수준에 관해 타당한 가설이다.

베이즈 추론에서는 ‘어떤 사람의 소득이 월 500만원 이상이다’, ‘어떤 사람이 고급 외제 승용차를 갖고 있다’, ‘어떤 사람이 서울 강남에 30평대 아파트를 소유하고 있다’는 소득수준에 관한  타당한 데이터가 된다.

만약 어떤 사람의 교육수준에 대한 믿음(추측)이 그 사람의 소득수준을 보고 난 뒤에 바뀌었다면 교육수준이 소득수준과 관계가 있음을 함축한다고 해석하는 것이다. 어느 사회나 구성원들의 학력 통계가 있다. 성인 인구 중 학력별 인구비율이 공개되어 있다. 예를 들어, 전문대 졸업 이상이 50%, 고졸이 30%, 고졸 미만이 20%이다. 어떤 성인 남자의 학력에 대해 추측하는데 그 사람에 대한 정보가 아무것도 없다면, 그 사람이 전문대 이상의 학력을 가졌을 확률은 0.5라고 추정될 것이며, 고졸일 확률은 0.3, 고졸 미만일 확률은 0.2가 될 것이다. 그런데 어떤 경로로 그 사람의 월수입이 5백만원이 넘는다는 사실을 알게 되었다. 그 때 그사람이 전문대 졸업 이상의 학력을 가졌을 확률은 더 이상 0.5라고 추정될 수는 없고 그 확률을 0.7 정도로는 올려야 할 것이다. 만약 실제로 그렇다면 연구자는 소득수준이 학력수준에 상당히 달려있다고 추정할 것이다.

만약 그 사람이 고급 외제 승용차를 탄다는 사실을 알게 되도 마찬가지로 그가 전문대 졸업 이상을 학력을 가지고 있을 것이라는 확률을 0.6이나 0.7정도로 올려야 할 것이다. 마찬가지로 그 사람이 강남에 30평 이상의 아파트를 보유하고 있다는 사실을 알게 되도 마찬가지일 것이다. 어떤 사람의 소득수준 혹은 생활수준이 높으면 우리가 그 사람에 대한 정보가 전혀 없을 때보다 그 사람이 전문대졸 이상의 학력을 가졌을 확률을 훨씬 높게 볼 것이다. 한 사람의 소득 수준(생활 수준)을 결정하는데 있어 학력이 중요한 요인이라고 믿기 때문이다.

베이즈 추론은 이러한 논리를 따른다. 데이터를 보기 전에 가지고 있는 믿음(사전확률, prior)이 데이터를 보고나서 그 믿음이 달라졌는가(사후확률, posterior)를 따져서 사회에 존재하는 법칙을 발견하는 통계적 방법이다.

<신호와 소음>에서 네이트 실버(Nate Silver)는 베이즈 추론의 이러한 특성을 다음과 같이 표현한다.

“나는 예측을 가설검증의 한 형태, 또는 단순하게 말해 진리를 발견하는 수단이라고 생각한다. 베이즈 정리에 따르면 예측은 기본적으로 정보처리 활동의 한 유형, 즉, 새로 나타난 자료를 이용해서 세상에 대해 더 진리에 가깝고 더 정확한 개념을 찾아나가는 과정이다. (실버, 2014: 395, 강조는 원저자의 것).”

예제를 가지고 좀 더 체계적으로 베이즈 추론을 살펴보자. 사람들의 교육수준이 그들의 소득수준을 결정짓는 요인인가를 조사한다고 하자.   

베이즈 추론에서는 먼저 변수와 사건을 정의한다.

(변수의 정의)

확률변수 X: 교육수준(이산변수). , x1 : 중졸 이하, x2 : 고졸, x3 :  전문대졸, x4 :  대졸 이상

확률변수 Y: 소득 수준(이산변수). , y1 : 100만원 미만, y2 : 100~200만원 미만, y3 : 200~300만원 미만, y4 : 300~400만원 미만, y5 : 400~500만원 미만, y6 : 500만원 이상

(사건의 정의)

가설 사건(hypothesis): 학력이 대학 졸업 이상이다

조건 사건(data): 소득이 월 500만원 이상이다

(문제) 어떤 사람의 소득이 월 500만원 이상일 때, 그 사람이 대학을 졸업했을 확률은? 전문대학을 졸업했을 확률은? 고졸일 확률은? 중졸 이하일 확률은? 베이즈 추론에서는 어떤 사람의 소득이 월 500만원 이상이라는 데이터가 주어졌을 때 그 사람이 특정한 수준의 교육을 받았을 가능성을 사전확률과 사후확률의 형태로 구해서 비교하여 교육수준과 소득수준의 관계를 검증한다.

다음 표는 2016년 경기도 안산시청이 수행한 실제 사회조사 자료로부터 가져왔다. 학력과 소득의 교차표이다. 설문조사 표본의 크기는 2,842명이다. 이 중 대졸 이상이 679명, 전문대졸이 436명, 고졸이 1,242명, 중졸 이하가 124명이다. 무작위 표본이니 이 데이터는 안산시 성인 인구를 잘 대표하고 있다고 본다.

데이터: 학력과 소득의 교차표(안산시 사례)

중졸 이하 고졸 전문대졸 대졸 이상 합계
100만원 미만 121 58 18 20 217
100~200만원 미만 119 219 50 70 458
200~300만원 미만 124 366 114 144 748
300~400만원 미만 52 237 94 123 506
400~500만원 미만 40 220 91 138 489
500만원 이상 29 142 69 184 424
합계 485 1242 436 679 2842

(2016년 안산시 사회조사 자료)

이 교차표에서 각칸의 빈도를 총합계(2,842)로 나누면 아래와 같은 결합확률표가 생성된다. 각 칸의 빈도를 총합계로 나누는 것은 각 칸의 빈도에 대한 정규화(normalize) 값을 구한다고 표현할 수 있다. 합계를 정규화한 값들은 주변확률이고, 나머지 각 빈도를 정규화한 값들은 결합확률(혹은 동시확률이라고 부름)이다. 각 열의 결합확률을 모두 더하면 그 열의 주변확률이 나오고, 각 행의 결합확률을 모두 더 하면 그 행의 주변확률이 나온다. 주변확률은 고딕체로 표시되어 있다.

학력과 소득의 결합확률표

중졸 이하 고졸 전문대졸 대졸 이상 합계
100만원 미만 0.0426 0.0204 0.0063 0.0070 0.0764
100~200만원 미만 0.0419 0.0771 0.0176 0.0246 0.1612
200~300만원 미만 0.0436 0.1288 0.0401 0.0507 0.2632
300~400만원 미만 0.0183 0.0834 0.0331 0.0433 0.1780
400~500만원 미만 0.0141 0.0774 0.0320 0.0486 0.1721
500만원 이상 0.0102 0.0500 0.0243 0.0647 0.1492
합계 0.1707 0.4370 0.1534 0.2389 1.00

(2016년 안산시 사회조사 자료)

이 표에서 가장 왼쪽 상단의 확률 값 0.0426은 학력 확률변수의 중학교 이하와 소득 확률변수의 100만원 이하가 동시에 발생하는 확률, 즉, 결합확률이다. 부호로 다음과 같이 표시된다.

이 결합확률은 곱셈법칙에 의하면, 조건부확률과 주변확률의 곱이다.

이를 베이즈 통계의 용어로 표현하면, 우도(likelihood) 곱하기 사전확률이다. 앞 부분이 우도이고 뒷부분이 사전확률이다.

어떤 사람의 소득이 월 100만원 이하일 때 그의 학력이 중졸 이하일 확률을 구한다고 하자. 그것은 다음과 같이 표시되는 사후확률이다.

이 사후확률은 베이즈 정리에 의하면 다음과 같은 식으로 구해진다.

우도사전확률(가설의 주변확률)을 곱해서 구한 결합확률을 정규화 상수인 (데이터의) 주변확률로 나누면 사후확률이 구해진다. 그런데 베이즈 추론에서 그 주변확률이 이 표에서처럼 주어지는 경우는 드물다. 그래서 보통 해당 열(중졸 이하의 열)의 결합확률을 모두 더 해서 구한다. 부호로 표시하면 아래와 같다.

중졸 이하의 주변확률은 해당 열의 결합확률을 모두 더한 값인 0.1707이다. 그것이 여기서 정규화 상수이며, 베이즈 정리에서 분모에 해당된다.

따라서 식 (1)을 다음과 같이 말로 풀 수 있다. 어떤 사람의 소득이 100만원 이하일 때 그 사람이 중졸 이하의 학력을 가졌을 확률은, 소득이 100만원 이하라는 사건과 학력이 중졸이하라는 사건의 결합사건의 확률(결합확률)을 중졸 이하라는 열의 주변확률(혹은 결합확률의 합)로 나누어 준 값이다.

원래 문제로 돌아가자. 어떤 사람의 소득이 월 500만원 이상일 때 그 사람이 대학을 졸업했을 확률은? 문제를 조건부 확률로 표시하면 다음과 같다.

베이즈 정리에 의하면, 이 사후확률은 우도(사후확률의 역확률이다)와 사전확률(가설의 주변확률)의 곱을 데이터의 주변확률로 나누어 주면 구해진다. 식으로 표기하면 다음과 같다.

여기서 가설은 ‘학력이 대졸 이상이다’. 따라서 가설의 주변확률은 다음과 같다.

데이터는 ‘소득이 500만원 이상이다’. 따라서 데이터의 주변확률은 다음과 같다.

사후확률의 역확률인 우도는 ‘대졸 이상일 때 소득이 500만원 이상일 확률’이다. 그것은 다음과 같이 구해진다. ‘대졸 이상’과 ‘500만원 이상’의 결합확률을 ‘대졸 이상’의 주변확률로 나눈 값이다. 혹은 ‘대졸 이상’과 ‘500만원 이상’의 결합 빈도를 ‘대졸 이상’의 주변빈도로 나눈 값이다.

우도, 사전확률, 그리고 데이터의 주변확률 값을 모두 구했으니, 식 (2)에 대입하면 아래와 같다.

이를 확인하기 위해 빈도를 가지고 좌변의 사후확률을 바로 계산하면,

좌변과 우변의 값이 동일함을 알 수 있다.

대학졸업자의 경우 사전확률(0.2389)에 비해 500만원 이상의 비율이라는 조건(데이터)이 주어진 후 사후확률(0.4339)이 거의 두 배 가까이 높아졌다.

동일한 방식으로 500만원 이상의 소득을 올리는 사람이 전문대학을 졸업했을 확률, 500만원 이상의 소득을 올리는 사람이 고등학교를 졸업했을 확률, 그리고 500만원 이상의 소득을 올리는 사람이 중학교 졸업 이하일 확률을 구할 수 있을 것이다.

식 (1)에서 대신 차례로 을 넣어서 사후확률을 계산하면 된다.

전문대 졸업자의 경우는 사후확률(0.1629)이 사전확률(0.1534)에 비해 약간 높아졌랐다.

그런데 고졸자의 경우 사후확률(0.3351)이 사전확률(0.4370)에 비해 눈에 띄게 낮아졌으며,

중졸 이하의 경우 사후확률(0.0684)이 사전확률(0.1707)에 비해 절반 이하로 줄었다.

이상의 발견을 종합하면, 학력 수준이 소득 수준에 영향을 미치고 있음에 분명하다. 소득이 500만원 이상인 사람은 모집단의 학력 분포를 가지고 예측한 것보다 대졸 이상일 확률이 훨씬 높은 반면, 고졸이나 중졸 이하일 확률은 모집단의 학력 분포를 가지고 예측한 것보다 크게 낮다.

베이즈 접근을 이용하면, 동일한 데이터를 가지고도 빈도주의 접근과는 매우 다른 방식으로 학력 수준이 소득 수준에 미치는 영향을  발견할 수 있다. 빈도주의적으로 표현하면, 학력 수준이 올라갈수록 소득 수준이 올라간다는 가설을 검증할 수 있다. (교차표에서는 값을 구하고 그것의 값을 계산하면 영가설이 검증된다. 두 변수가 관계가 강하면 카이자승 값이 크고, 그것의 값은 0.05보다 훨씬 작을 것이다. 그러면 영가설이 기각된다.) 빈도주의 접근에서는 영가설이라는 테크닉을 사용해서 두 확률변수 사이의 관계를 발견하지만, 베이즈 접근에서는 자주 사전확률에 비해 사후확률이 얼마나 변화되는가를 보고서 두 확률변수의 관계를 추정하게 된다. 베이즈 추론의 결과인 사후확률은 사전확률과의 대비해서 해석되어야 한다.

물론 사전확률과 사후확률의 비교가 베이즈 추론에서 유일한 가설 검증 방법은 아니다. 데이터가 영가설 예측(지지)하는 정도와 대립가설을 예측(지지)하는 정도를 비교하는 방법으로도 가설 검증 혹은 가설 선택을 할 수 있다. (2020-11-10)

베이즈 통계(1): 서론

베이즈 통계에 입문할 때 사회과학도는 몇 가지 난관을 마주하게 된다. 배우고자 하는 사람 자신이 그것을 인식할 수도 있고 그렇지 못할 수도 있다. 필자의 경험으로는 후자가 많을 것 같으니 이 점을 확실히 지적해 두고자 한다. 특히 통계를 제법 많이 알고 있다고 자신하는 사람일수록 그 난관이 심각할 수도 있다. 그것은 기존의 사회통계와 베이즈 통계의 차이에서 기인한다. 그래서 빈도주의 통계와 베이즈 통계의 중요한 차이 몇 가지를 지적해 두고자 한다.

시작하기 전에 빈도주의자(frequentist), 베이즈주의자(Bayesian)라는 용어를 소개하겠다. 그것은 편을 가르기 위해서 나누는 것이 아니라 베이즈 통계를 명쾌하게 이해하기 위해서 필요하다고 생각되어 나누는 구분이다. 우리가 통상 사회통계 수업에서 배운 통계를 빈도주의(frequentist) 통계라고 명명하고, 지금부터 배울 통계를 베이즈 통계라고 부르겠다.

첫째, 베이즈 통계에서는 확률(probability)이라는 동일한 용어를 사용하지만 빈도주의 통계에서 사용하던 것과는 크게 다른 의미로 사용한다. 빈도주의 통계에서 학률이란 수학적으로 정의될 수도 있지만 보통 경험적으로 도출된다. 경험적 확률은 표본공간(sample space, 가능한 모든 결과)에서 우리가 관심을 갖는 사상(event)이 발생하는 빈도(frequency)의 비율로 계산된다. (그래서 빈도주의 통계 혹은 빈도주의 접근이라고 불리는구나 라고 생각해도 좋다.)

그런데, 베이즈주의자는 확률을 그보다 훨씬 다양한 의미로 사용한다. 그중 가장 널리 사용되는 의미는 어떤 사상(an event)의 발생 가능성에 대한 주관적인 믿음의 정도(subjective degree of belief)이다. 확률 개념에 객관적으로 계산된 빈도의 비율이 아니라 주관적인 믿음의 정도라는 의미가 추가되는 것이다.

그래서 무엇보다 사회통계에서 배운 좁은 의미의 확률 개념에서 벗어나야 한다. 그렇지 않으면 선험적 확률(a priori pobability), 사전적 확률(prior), 사후적 확률(posterior) 등과 같은 용어가 선뜻 수용되기 어려울 것이다.

둘째, 사회통계에서 베이즈 정리(Bayes’ theorem)라고 1시간 혹은 기껏해야 1주일쯤 다루고 넘어갔던 확률 법칙이 갑자기 한 학기 내내 배워야 하는 엄청나게 중요한 규칙으로 부상한다. 그러면서 확률분포가 매우 중요한 개념적 도구로 등장한다.

사회통계에서는 추리통계에 정규분포, t 분포, F 분포, 분포가 적용되지만 모수 추정이나 가설 검정 과정의 배경 정도로 사용될 뿐이다. 그 확률분포들에 대해 깊이 있게 이해하지 못해도 그것이 모수 추정이나 가설 검증에서 심각한 걸림돌이 되지 않는다.

그런데 베이즈 추론은 확률분포로 시작해서 확률분포로 끝난다고 해도 과언이 아닐 정도로 확률분포의 비중이 크다. 그래서 베이즈 통계에 입문하려면 확률분포부터 진지하게 공부해야 한다.

셋째, 추론(inference)의 의미가 다르다. 사회통계에서는 추론이란 모수 추정과 가설 검정이다. 즉, 표본 통계치(sample statistics)를 가지고 모집단의 평균을 추정하거나, 모집단의 평균에 대한 가설을 검정하는 것이다. 그렇게 해서 사회과학자들은 사회구조나 사회현상을 이해하고 사회 법칙을 발견한다. 표본통계치로부터 모수를 추론하는데 이론적 근거가 표집분포(sampling distribution)이다. 때문에 사회통계에서는 표집(혹은 표본추출)이 대단히 중요하다.

베이즈 통계에서 추론은 모수 추정이나 가설 검정보다 수치화된 예측 혹은 믿음이라는 의미로 더 자주 사용된다. 한 현상에 대해 우리가 어떤 믿음을 가지고 있는데, 새로운 데이터(증거)가 나타났을 때 그 믿음이 어떻게 달라질까(혹은 달라져야 하는가)가 베이즈 통계의 주요 관심사이다.

때문에 베이즈 통계에서는 선험적 믿음과 데이터(증거)라는 두 가지가 있어야 한다. 빈도주의 통계에서는 표본(통계치)과 모집단(모수)를 연결해주는 것이 표집분포 이론인 것처럼 베이즈 통계에서 사전확률(선험적 믿음)과 사후확률, 데이터와 예측을 연결해주는 것은 베이즈 정리이다.

넷째, 베이즈 통계는 빈도주의 통계와 달리 사회구조, 사회현상, 사회법칙 뿐 아니라 개인에 대한 예측에 사용될 수 있다.  예컨대 베이즈 통계는 어떤 중년 여성이 유방암 검사에서 양성 반응이 나왔는데, 그녀가 실제로 유방암에 걸렸을 가능성은 얼마나 될까 같은 의문에 대한 해답을 구하는 도구로 쓰일 수 있다.

다섯째, 베이즈 통계에서 데이터란 빈도주의 통계에서 말하는 의미의 표본 데이터일 수도 있지만 체계적으로 수집된 표본 데이터가 아닐 수도 있다. 그것은 다수의 데이터가 아니라 소수, 심지어 한 개의 사례일 수도 있다. 한 마디로 베이즈 통계에서는 데이터의 과학적 표집(표본추출)에 빈도주의 통계만큼 크게 의존하지 않는다.

베이즈 통계를 빈도주의 통계에 대치시키는 경우가 적지 않다. 통계학의 역사를 보면 충분히 이해할만한 현상이지만, 필자는 베이즈 통계가 빈도주의 통계를 대체하기보다는 확장한다고 생각한다. 베이즈 통계가 사회과학에 있어 통계의 쓰임새를 넓혀준다는 말이다. 유연하고 열린 마음으로 베이즈 통계에 접근한다면 그것은 우리의 과학적 도구 창고를 보다 풍부하게 만들어 줄 것이다. (2020-10-18).