‘태극기 부대’, 어떻게 볼 것인가

자기가 보고싶은 것만 보고 자기 입맛에 맞지 않은 정보는 회피해 버리는 확증편향, 자신의 생각이나 입장과 다르면 엉터리라고 폄하하고 같으면 훌륭하다고 인정하면서 자신의 생각을 강화하는 편향동화, 요즈음 둘 다 모두 심각한 사회문제임에 분명하다. 그리고 가짜뉴스는 확증편향이나 편향동화의 중요한 원인이며 결과로 제시된다. 나아가 가짜뉴스가 양산되고 유통되는 인터넷과 소셜미디어가 그 문제의 근원으로 진단된다. 언뜻 보기에 별로 잘못되지 않은 추론이라고 생각된다.

그러나, 혹시 그 논리에 헛점은 없는 것일까? 과연 인터넷과 소셜미디어 때문에 사회갈등과 반목이 더 심각해진 것일까? 혹시 진짜 원인은 딴 것인데 너무 가볍게 현상적인 것만 바라보고 있는 것은 아닐까?

확증편향이라는 심리적 현상이나 태도가  왜 사회적 문제가 될 정도로 심각해진 것일까? 혹시 어떤 심각한 위기감 때문은 아닐까? 혹시 깊은 좌절감 때문은 아닐까? 할아버지가 극우 유튜브 채널을 구독하고 나아가 ‘태극기 부대’가 되는 것은 유튜브 방송의 설득력 때문이 아니라 할아버지가 느끼는 좌절과 위기감 때문은 아닐까?

인터넷과 소셜미디어의 ‘죄’는 확성기 역할 정도에 그치는 것이 아닐까? 인터넷과 소셜미디어가 편을 가르는 것이 아니라 이미 존재하는 사회 분열을 좀 더 극적으로 드러나게 해주는 것이 아닐까? 그렇다면 우리는 사회 갈등과 분열에 대한 해법을 인터넷이나 소셜미디어에서 찾을 것이 아니라 갈등이 원천적으로 발생하는 사회구조 속에서 찾아야 할 것이다. 확증편향과 편향동화가 중요한 사회심리적 현상임에 분명하지만, 그것에는 깊은 구조적 원인이 존재할 것이라는 추정이다.

좌절과 방황은 사회심리적 측면에서 확증편향과 편향동화의 원인이라고 추정할 수 있다. 그러나 좌절과 방황 또한 설명되어야할 현상이다. 우리 사회의 노인은 왜 좌절하고 방황하는가? 우리 사회의 청년은 왜 좌절하고 방황하는가? 거기에는 같은 이유도 있고 다른 이유도 있을 것이다. 여기서는 노인에 관해서만 생각해보자.

노인의 좌절과 방황의 가장 심각한 요인이라고 생각되는 것은 평생 살아온 자신의 삶이 인정받지 못하고 심지어 부정당하는 일이다. 그렇지 않아도 거의 모든 노인은 무의미하게 느껴지는 현실, 버려졌다고 느껴지는 현실과 씨름하며 살아야 한다.

현실에서 존재를 부정당하며 자신을 투명인간처럼 느끼는 노인에게 가장 확실한 것은 자신의 과거이다. 그런데 노인에게, 누구에게라도 그렇겠지만 과거는 돌이킬 수도 바꿀 수도 없는 고정된 것이다. 이미 막이 내려진 공연처럼 자신이 어떻게 살아왔던 남은 생애 동안 부둥켜 안고 가야할 과거이다. 잘했던 못했던 이미 끝난 공연인 것이다. 피리어드!

노인은 자신의 과거를 자랑스럽게 여기며 살거나, 그런대로 조화하면서 살거나, 그것도 아니면 최소한 타협하고 살 수 있어야 한다. 노인에게 있어 우리가 상상할 수 있는 최악의 상황은 자신의 과거가 송두리째 부정당하는 것이다. 그것은 가장 심각한 인지부조화 상황이다.

현재는 투명인간 대접을 받고 과거는 평생 헛살았다고 부정당하는 노인의 심정을 상상해보라. 극단적인 선택을 하지 않고 살아있는 것이 신기할 정도의 상황이다. 그 상황을 인정의 위기(recognition crisis)라고 부를 수 있을 것이다. 노인의 현재와 과거가 모두 부정당하고 있기 때문이다.

그렇다면 노인이 그 극도의 상황에서 벗어날 길은 없는가?  가짜뉴스, 확증편향, 그리고 편향동화가 그 절망적 상황에 돌파구가 되어주는 것은 아닐까?

‘태극기 부대’에 참여한 노인들은 ‘국가의 장래’가 걱정되어 나왔다고 말한다:

“나라가 빨갱이한테 넘어가 공산화되기 직전이다, 나라가 풍전등화에 처해 있어 내가 나서지 않을 수 없다. 우리가 어떻게 지키고 만들어온 나라인데….문재인이 나라를 통채로 김정은이한테 갖다 바치려 하고 있다.”

그 노인들은 정말 그 근거없는 주장을 믿고 있는 것일까? 나는 그럴 것이라고 생각한다. 왜 그 노인들은 황당하기 짝이 없는 그런 주장을 그대로 믿고 있을까? 극우 유투버들의 설득력이 좋아서? 그것은 아니라고 생각된다.

나는 ‘태극기 부대’ 현상는 인정 투쟁으로 해석되어야 한다고 생각한다. 노인들은 극우 유투버들의 주장에서 자신들의 과거에 대한 적극적인 인정을 발견하고, 광화문에서 자신의 현재를 유의미하게 느낀다. 그들은 광화문에서 목소리를 높이면서 오랜만에 인지부조화에서 벗어날 뿐 아니라 자신이 살아있음을, 인정받고 있음을 느끼는 것이다. 자신들의 목소리에 사회가 귀를 기울인다 혹은 기울일 것이라고 느끼는 것이다. 그것은 홀로 있을 때 느껴보지 못한 희열이다. 이 못마땅한 사회는 물론이고 자식조차도 주지 못한 즐거움이다.

그렇게 해석될 때 그 노인들이 지닌 ‘황당한’ 믿음이 합리적으로 설명된다. 그들은 말도 안되는 황당한 행동을 하고 있는 것이 아니라 대단히 합리적인 행동을 하고 있다고 해석될 수 있다.

다시 처음으로 돌아가면, ‘태극기 부대’의 시위를 확증편향의 결과를 해석하는 것은 우리에게 그 현상에 대한 설명을 주기보다 의문을 더 많이 낳는다. 이는 ‘태극기부대 시위’가 확증편향 현상임을 부정하려는 것은 아니고 그 문제를 확증편향의 관점에서 접근하면 잘못된 해석과 해법에 도달하게 된다는 사실을 지적하고 대안적 접근을 제시하려는 것이다.

가짜뉴스, 확증편향, 그리고 편향동화은 현재 우리 사회의 심각한 문제이다. 그러나 그것을 현재 우리가 안고 있는 사회갈등의 원인이라고 생각하기 보다는 설명이 필요한 사회현상으로 보아야 한다는 것이 나의 생각이다. (2021-08-20)

<참고 문헌>

최현숙. 2017. “모든 밀려난 존재들의 악다구니는 아름답다”, <문학동네> 제24권 제1호. 1~16쪽.

섹스와 결혼에 대한 미국인의 의식변화

오늘 날아온 갤럽 소식에 지난 20년 동안 섹스와 결혼에 관한 미국인들의 의식이 어떻게 바뀌었는지를 보여주는 내용이 담겨 있었다. 여섯 가지 행위가 언급되었는데 그 중 한 가지만 8년 동안의 변화이고 나머지는 20년 동안의 변화이다. 간략히 요약한다. 자세한 내용은 링크된 “Continuing Change in U.S. Views on Sex and Marriage”을 참고하기 바란다. 갤럽의 2021년 5월 업데이트에 포함된 사항이다.

한 마디로 미국인들은 기준이 되는 년도의 갤럽 조사 결과와 비교할 때 섹스와 결혼에 관해 미국인들은 도덕적으로 더 관대해졌다.

  1. 동성애(gay and lesbian relations)를 도덕적으로 용인하는 비율은 40%에서 69%로 증가했음
  2. 싱글맘(혹은 싱글파)에 대한 용인 비율은 45%에서 67%로 증가했음
  3. 부부가 아닌 남녀간의 섹스에 대한 용인 비율은 53%에서 73%로 증가했음
  4. 이혼에 대한 용인 비율은 59%에서 79%로 증가했음
  5. 일부다처제에 대한 용인 비율은 7%에서 20%로 증가했음
  6. 틴에이저들의 섹스에 대한 용인 비율은 32%에서 43%로 증가했음(이 항목은 2013년과 2021년의 조사결과를 비교한 것임)

이 조사결과는 동성애, 혼외 임신, 싱글모(혹은 부), 비혼 남녀의 성관계, 그리고 이혼, 이 다섯 가지는 미국사회에서 더 이상 주목받는 탈규범적 행위가 아니라 하나의 규범으로 정착하고 있음을 시사한다. 그 항목들에 대해서 응답자의 압도적 다수인 70% 정도가 용인하고 있기 때문이다.

우리 사회는 어떨까? 정도의 차이는 있겠지만 우리 국민들의 의식도 유사한 방향으로 이동하고 있지 않을까? (2021-06-20)

인터넷과 민주주의의 연결 고리: 집단 극단화

정치과정의 측면에서 민주주의가 다른 정치체제, 예컨대 독재주의나 권위주의와 다른 점은 무엇일까? 어떤 사람은 다수결의 원칙을 지적할 것이고, 어떤 사람은 자유로운 투표를 지적할 것이다. 이러한 지적이 틀렸다고 말할 수는 없으나 단순히 다수결의 원칙에 따라 의사결정을 하거나 다수결의 원칙을 투표를 통해 구현한다는 주장에는 무언가 빠져있다는 느낌을 지울 수 없다. 그것은, 만약 의사결정 전에 자유로운 대화와 토론이 없다면, 투표를 통한 의사결정은 구성원이 지닌 선입견을 기계적으로 취합한 결과를 따르는 것에 지나지 않기 때문일 것이다.

다양하고 충분한 정보와 지식을 얻을 수 있는 대화(dialogue)와 토론(discussion)이 전제되지 않는다면, 설령 비밀 투표가 보장된 의사결정이 이루어진다고 해도 민주주의가 형식에 그칠 가능성이 높다. 그 때문에 언론의 자유와 표현의 자유가 민주적 과정의 핵심적인 요소가 된다. 투표를 통한 민주주의에 회의적인 일부 정치학자들은 대화와 토론을 이념화한 ‘숙의민주주의(deliberative democracy)’를 주창하기도 한다.

그런데, 대화와 토론의 이상화에 이의를 제기하는 학술적 연구도 적지 않다. 특히 집단 토의(group discussion)가 극단적인 의사결정을 초래하는 경향이 있다는 연구 결과가 그렇다. 그중에서도 그것은 집단 극단화에 관한 사회심리학 연구에서 반복적으로 밝혀졌다. 집단 극단화는 인터넷 기반의 현대사회를 이해하는데도 중요하고 나아가 인터넷과 민주주의에 관계를 이해하는데도 중요하다.

한 마디로 집단극단화(group polarization)는 유사한 성향을 지닌 구성원들로 이루어진 집단에서 어떤 문제에 관해 토론을 하면, 토론 전에 구성원들이 가지고 있던 평균적인 입장보다 그 집단은 더 극단적인 입장을 갖게 되며, 구성원 개개인도 더 극단적인 입장을 보이게 되는 현상을 말한다. 아래 그림을 보면, 토론 전에 집단의 평균적인 관점이 부정적인 경우 토론 후에 구성원들은 토론 전보다 더 부정적인 관점을 갖게 되며(example 1), 토론 전에 집단의 평균적인 관점이 긍정적인 경우 토론 후에 구성원들은 토론 전보다 더 긍정적인 관점을 갖게 된다(example 2).

AP Psychology on Twitter: &quot;Group Polarization - Tendency of group members to move to an extreme position after discussing an issue as a group. #APpsych… https://t.co/fN5mSJeHS8&quot;

당연한 말이겠지만 모든 집단토의가 집단극단화를 초래하는 것은 아니다. 만약 그렇다면 정치적 민주주의와 민주적 의사결정이 근본적으로 부정된다. 무력 충돌 대신 대화–그것이 설령 종국에 투표를 통해서 종다수 원칙을 적용하게 된다고 하더라도–를 통해서 평화적으로 집단내 갈등을 해결한다는 정치 이념은 약자나 소수자의 입장에서는 속임수에 지나지 않기 때문이다. 집단토의가 항상 집단극단화로 귀결된다면 결국 강한 자 혹은 다수가 항상 배타적으로 지배하는데 약자나 소수자에게 대화나 토론이 무슨 의미가 있겠는가.

집단극단화가 관찰되는 것은 토의가 발생하는 집단이 무엇보다 동질적(homogeneous)인 경우이다. 동질적이란 구성원들이 유사한 정치성향을 갖고 있거나 동일한 가치와 규범을 공유하고 있음을 의미한다. 예컨대 집단의 구성원들이 정치적으로 보수적이거나, 같은 학교에 다니는 학생이거나, 같은 직장에 다닌다거나 같은 직업을 가지고 있는 경우, 혹은 동일한 상황에 처해 있는 경우를 말한다.

근본적으로는 위와 같은 이유가 되겠지만, 다른 몇 가지 상황에서도 그럴 수 있다. 첫째, 쉽게 가입과 탈퇴가 가능한 집단에서의 집단토의도 집단극단화를 초래할 가능성이 높다. 어떤 집단의 구성원들이 동질적은 아니지만, 구성원들이 그 집단을 쉽게 떠날 수 있는 경우 그 집단의 구성원들은 점차 혹은 빠르게 동질적이 될 수 있다. 그 집단의 다수 구성원들과 생각이 다른 구성원들은 불편한 입장이 되어 그 집단을 탈퇴하게 되면 그 집단에는 비슷한 생각이나 입장을 지닌 사람들만 남게 될 것이기 때문이다.

둘째, 집단토의에 다양하고 충분한 정보와 의견이 주어지지 않는 경우이다. 그런 경우 특정한(대부분 검증되지 않고 편향된) 정보나 의견에 휘둘려 구성원들은 극단적 입장으로 쏠리기 쉽다. 이는 민주주의에서 언론의 자유와 표현의 자유가 중요한 이유 중의 하나이다.

셋째, 어떤 집단이 지리적으로 혹은 심리적으로 고립되어 있는 경우이다. 심리적으로 고립되어 있다는 말은 마음의 벽을 갖고 있다는 의미이다. 그것은 집단의 구성원들이 다른 집단에 속한 사람들의 어떤 말도 곧이 곧대로 듣지 않고 자기 집단의 입장에서 해석하는 현상을 말한다. 이 경우에는 확증편향과 편향동화가 발생하여 집단토의가 집단극단화에 귀결될 가능성이 높다. (확증편향과 편향동화에 관해서는 이 블로그의 다른 글 ‘편향된 세상의 정치와 언론’을 참조할 것)

문제는 인터넷에 동질적인 집단이 차고 넘친다는데 있다. 무엇보다 인터넷같은 정보과잉의 환경에서 사람들은 자신의 입맛에 맛는 정보를 선택하는 경향을 보인다. 그것은 자기보호본능이라는 측면에서 충분히 예상되는 현상이다. 다양한 정보나 의견을 구하려다가는 헤어나오기 어려운 엄청난 정보와 의견의 늪에 빠지게 된다면 자신의 구미에 맞는 정보와 의견을 찾는 것은 자연스러운 현상이다. 또한 인터넷에서 형성되는 온라인 집단은 가입과 탈퇴가 쉽기 때문에 집단의 동질화가 발생할 가능성이 높다. 한 마디로 인터넷은 집단극단화를 부추기는 환경이다.

인터넷은 분명 사람들이 다양한 정보와 의견을 손쉽게 구할 수 있게 해준다. 또한 인터넷은 어떤 사회문제에 관해 유사한 입장과 의견을 가진 시민들이 손쉽게 집단을 이룰 수 있게 해준다. 그러나 바로 동일한 이유 때문에 인터넷은 집단극단화의 온상이 된다.

지난 20여년 동안 우리사회에서 진행된 상황을 보면, 인터넷과 소셜미디어가 우리의 민주주의 발전에 기여했는지 아니면 우리 민주주의를 위협하고 있는지 쉽게 속단할 수 없다. 한편으로 이전에는 주장이 분명치 않았던 소외 대중이나 소수집단이 자신의 목소리를 낼 수 있게 되었다는 점에서 분명 민주주의는 발전했다고 말할 수 있지만, 다른 한편으로 극단적 주장이 넘쳐나고 사회갈등을 대화로 풀어내기가 더욱 어렵게 되었다는 점에서 민주주의에 어두운 그림자가 드리워졌다고도 말할 수 있다.

인터넷과 민주주의의 관계에 대해서는 판단이 참으로 어려운 상황이다. 그 문제의 핵심에 인터넷으로 인한 집단극단화 현상이 있다. (2021-06-15)

베이즈 통계(14): 파리의 여아출생률, 재추정

Pierre-Simon Laplace - Wikipedia

18세기 프랑스 수학자 라플라스(Pierre-Simon Laplace)는 베이즈 정리를 이용해서 당대 프랑스 파리의 여아출생률(female birth rate)을 0.4902913으로 추정하였다. 그것은 곧 여아가 출생할 확률이기도 했다. 라플라스에게 주어진 데이터는 1745년부터 1770년까지의 프랑스 파리의 인구 통계였다. 그 기간 동안 총 출생(live births)은 493,472명이었고, 출생한 여아는 241,945명이었다.

여아출생률에 대한 가장 손쉬운 추정치는 출생한 여아 수를 총 출생으로 나눈 비율일 것이다. 위 파리의 사례에서 여아출생비율은 241,945/493472 = 0.4902912이다. 그러나 라플라스는 손쉬운 추정치가 아니라 정확한 추정치를 희망했다. 그래서 베이즈 정리를 적용하였다.

인구 출생 데이터를 라고 표기하자. 그리고 파리의 여아출생률을 라고 하면, 이다. 그 비율이 0과 1사이라는 의미이다.

베이즈 정리에 따르면, 사후확률은 우도와 사전확률의 곱에 비례하니 먼저 우도와 사전확률을 추정해야 할 것이다. 우도(likelihood)는, 범주가 여아와 남아 둘 뿐이니 아래와 같이 이항분포(Binomial distribution)로 놓으면 되겠다.

라플라스는 사전확률을 아래와 같은 균일분포(uniform distribution)로 두었다.

베이즈 공식을 적용해서 사후확률, 을 구하면 다음과 같다.

라플라스는 정규화(normalization)에 필요한 적분(분모)을 우회하기 위해 레온하르트 오일러(Leonhard Euler)가 1730년에 발견한 베타함수(Beta function)를 이용했다.

그런데 Uniform(|0,1) = Beta(|1,1)이다.  베타분포는,

모수가 에 관하여,

오일러의 베타함수가 정규화를 위해서 다음과 같이 사용된다.

여기서 는 계승(factorial)의 연속적 일반화이다. 그렇게 전환한 다음 약간의 계산을 거쳐 베이즈 정리를 풀면 다음과 같은 사후확률이 구해진다.

파리의 여아출생비율로 돌아오면, 사후확률은 Beta(|1+241945, 1+251527)이다.

그리고 사후확률의 평균은,

위에서 여아출생비율로 추정한 값과 소숫점 7번째 자리의 값이 다르다.

그런데, 라플라스처럼 적분 계산을 하지 않고 MCMC(Markov Chain Monte Carlo)를 적용해 풀면 다음과 같다. STATA를 이용하여 얻은 결과이다.

다음 칸으로 한 줄이 넘어가 출력되어 그림이 깔끔하지 않다. 결과를 보면, 파리의 여야출생률이 0.4889319과  0.4917104 사이에 있을 확률이 95%이며, 점추정값은 0.4903248이다. 라플라스의 추정과는 소숫점 네 자리 이하가 다르다. 라플라스가 살아있다면 이 결과에 어떻게 반응했을까?

아마도 수학자인 라플라스는 흡족하지 않았을 것이다. 그러나 필자는 만족한다. 남여출생률을 비교하는데 있어 출생률이 소숫점 두 자리 수(0.49)면 충분하지 않는가.

STATA가 MCMC를 12,500번 반복시행하고, 처음 2,500번의 시행 결과는 버리고 10,000 반복시행한 결과만을 가지고 사후분포를 추정하였다. 아래는 그 과정에 대한 간략한 진단 그래프이다.

시률레이션이 시행 결과를 충분히 수용할 만큼 조건을 충족하고 있음을 볼 수 있다. (2020-12-02)

베이즈주의 대 빈도주의: 다툴 상대인가?

베이즈주의자들은 빈도주의 통계학의 가치를 폄하하고, 빈도주의자들은 베이즈 통계학의 가치를 부정한다. 베이즈주의와 빈도주의의 그러한 대립은 과연 타당한가?

베이즈 통계를 익히기 위해 적지 않은 시간과 노력을 쏟아붓고 나서 돌아보니 순전히 실용적 관점에서 볼 때 그 갈등은 현실 문제에 통계 지식을 적용하려는 사람들을 혼란스럽게 할 뿐이다.

베이즈 통계가 빈도주의 통계의 한계 혹은 약점을 보완해 줄 수 있다는 점은 분명하다. 그러나 현실에서 그점이 다소 과대포장되고 있지 않나 생각된다.

빈도주의 통계 중 현실에서 가장 널리 적용되는 부분은 아마도 회귀분석일 것이다. 그리고 회귀분석에는 대체로 규모가 큰 표본이 사용된다. 아마도 대표적인 것은 1천명 남짓의 설문조사 자료이리라.

그런데 우리가 비교적 품질이 좋고 규모도 큰 표본 데이터를 갖고 있다–사회조사나 여론조사에서는 대체로 그렇다–면, 빈도주의적 회귀분석 모형만으로 충분하다. 설령 베이즈적 회귀분석 모형을 적용한다고 해도, 그렇게 큰 표본 데이터가 이용가능하다면 베이즈적 회귀분석을 통해서 얻게 되는 결과는 빈도주의적 회귀분석 결과와 의미있는 차이가 없다.

예를 하나 가지고 살펴보자. 통계청 사이트에서 2016년 안산시 사회조사 자료를 다운로드 받아서 그 중 1280명의 데이터를 확보했다. 그 데이터를 가지고 “현재도 나이에 따라 학교 교육 수준이 다를까” 라는 의문에 대해 답한다고 하자. 그 데이터셋에 ‘만나이’를 독립변수로, ‘교육정도’를 종속변수로 놓고 단순회귀분석을 실시하였다. 빈도주의 회귀분석은 MS 엑셀의 데이터 분석이라는 애드인을 사용해서 다음과 같은 결과를 얻었다.

위 그림에서 맨 아래 행을 보면, 만나이의 회귀계수가 -0.04396이고, p값이 0.05보다 훨씬 작다. 회귀계수가 통계적으로 유의미하다. 회귀계수의 95% 신뢰구간은 (-0.04866, -0.03927)이다. 하위 90.0%, 상위 90.0%라고 되어 있는 부분은 90% 신뢰구간으로 그 값이 (-0.04790, -0.04003)이다.

베이즈적 회귀분석은 STATA를 사용해서 실행하였다. 아래는 분석결과이다.

위 그림의 맨 아래 쪽 표에서 고딕으로 표시한 부분을 보자. 만나이의 회귀계수의 평균이 -0.04392이고, 90% 등꼬리 신용구간 (-0.04790, -0.04011)이다. 회귀계수가 -0.04790과 -0.04011 사이에 있을 확률이 90%이다.

위의 빈도주의 회귀분석과 베이즈 회귀분석의 결과를 비교하면, 빈도주의 회귀계수 값이 베이즈 회귀계수 평균 값과 거의 동일하고, 빈도주의 90% 신뢰구간의 값이 베이즈 90% 등꼬리 신용구간의 값과 거의 동일하다.

이것은 우연의 일치가 아니다. 그것은 무엇보다도 데이터의 크기가 크면, 사전확률(분포)이 사후확률에 미치는 영향은 미미한 반면 데이터의 영향이 막대하기 때문이다. 사전확률분포의 영향이 미미해지면, 베이즈 추론의 결과는 사실상 빈도주의 통계의 최우도 추정(Maximum Likelihood Estimation)의 결과와 같아진다.

그렇다고 베이즈 통계가 하는 역할을 과소평가하는 것은 아니다. 반복적이 아닌 현상에 대한 예측은 빈도주의 통계가 가장 취약한 부분인 반면 베이즈 통계가 가장 잘하는 부분이다. 또한 데이터의 크기가 작은 경우 빈도주의 통계가 해줄 수 있는 것이 많지 않지만 베이즈 통계는 열일을 한다.

확률분포를 배우고, 베이즈적 사고에 익숙해지며, 또한 베이즈 추론을 수행하는 기술적 원리를 이해하기 위해 추가적인 땀을 흘려야 하지만, 베이즈 통계 지식은 사회과학도의 인식 지평을 넓혀주고 분석과 예측 능력을 높여주는데 크게 도움이 된다고 생각된다.

빈도주의와 베이즈주의 사이에 경쟁하는 측면이 있다는 사실을 부정할 수는 없지만 그것이 둘 사이에 존재하는 보완적 측면의 가치를 덮지는 못할 것이다. (2020-11-30)

베이즈 통계(13): 사례와 말로 설명하는 MCMC

베이즈 추론은 매력적이다. 하지만 아무리 매력적이라도 실제로 사용할 수 없다면 그림의 떡이 아니겠는가? 아래 베이즈 정리를 보자.

베이즈 추론에 있어 우리의 목표는 좌변에 있는 조건부 확률(분포) 를 구하는 것이다. 즉, 데이터 를 관찰했을 때 퍼라미터 가 참일 확률을 구하는 것이 미션이다. 그런데 가 무수하게 존재하면 그것은 분포로 나타내야 하고 그 분포를 목표 분포(target distribution)라고 부르는데, 그 목표분포를 구하는 것이 미션이 될 것이다. 베이즈 정리인 식(1)은 우리가 알고 있는 정보로부터 우리가 모르는 정보를 추정하게 해준다. 우변의 분자와 분모에 있는 를 모두 특정하면 좌변의 미지 정보 가 추정되는 것이다.

앞 포스팅들에서 사전확률(분포) 는 통계 자료나 선행 연구에서 구할 수 있고, 공액(conjugation)을 통해 우도 함수로부터 추정될 수도 있으며, 심지어 추측으로라도 추정될 수 있다고 했다. 그리고 우도(함수) 도 관찰된 자료가 있고, 그 자료의 분포를 추측할 수 있으면 추정될 수 있음을 보았다.

문제는 분모에 들어 있는 정규화 요인(주변확률) 이다. 때로 그것은 통계 자료로부터 구할 수 있고, 이산확률변수인 경우 해당 결합확률들을 합해서 도출될 수도 있다. 그러나 연속확률변수인 경우 적분 계산을 해야하는데, 적분해야 할 분포함수가 고차원이거나 복잡한 경우에는 계산이 불가능하거나 너무 어렵다.

그래서 베이즈 통계학자들은 우변의 분모 없이 사후확률(분포)을 추정하는 방법을 찾아냈다.

식(1)의 우변에서 비정규화 상수인 분모를 빼면 식(2)와 같이 된다. 이는 사후확률이 사전확률과 우도의 곱에 비례한다는 식이다. 그렇게 해서 구한 사후확률은 정규화되지 않은 값이다. 그것은 합해서 0이 나오지 않는 값들이기 때문에 정확히 말하자면 우리가 구하고자 하는 확률이 아니다. 그러나 추정 과정에서, 만약 식(1)의 우변이 두 개가 있고 그것을 나누어 비례를 구하는 계산이 들어간다면 그 골치아픈 분모는 자연히 소거되어 버릴 것이다.

자, 식(2)의 우변에서 관찰 데이터는 고정되어 있고, 사전확률는 손 댈 수 없으니 무슨 방법이 있을까? 사후확률분포로 눈을 돌릴 수밖에 없다. 거기에서도 데이터 는 고정되어 있으니 무언가 손을 쓸 수 있는 것은 퍼라미터 밖에 없다. 다행히 베이즈 통계에서 는 불변 상수가 아니라 확률변수이다. 무수한 가 존재할 수 있다는 말이다.

만약 로 구성된 목표분포로부터 표본을 추출할 수 있다면 몬테카를로 접근을 이용해서 목표분포를 근사해 낼 수 있을 것이다. 그런데 목표분포를 특정할 수 없다–당연히 그렇겠지만–면, 그것으로부터 직접 표본을 추출할 수 없다. 그렇다면 간접적으로 표본을 추출할 수 있는 방법은 없을까? 그러한 고민 끝에 어렵사리 도달한 방법이 MCMC이다.

MCMC 과정

사실 우리가 베이즈 추론을 응용하는데 굳이 MCMC 과정을 이해하지 않아도 별로 문제가 되지 않는다. MCMC를 적용할 수 있는 컴퓨터 소프트웨어는 손쉽게 구할 수 있고 그것을 사용하면 별로 힘들지 않게 모수나 사후확률분포를 추정할 수 있기 때문이다. 하지만 모든 알고리즘이 그렇듯이 그 과정을 이해한다면 단순한 기계적 적용을 넘어서 보다 풍부하고 정확한 적용이 가능하고 그것이 지닌 함축성도 발견할 수 있을 것이다. 그리고 무엇보다 우리가 사용하는 컴퓨터 프로그램을 블랙박스로 놔눌 수는 없지 않는가.

MCMC를 한 마디로 표현하면, 시뮬레이션을 통해서 마치 실제로 사후확률분포로부터 추출한 것과 같은 많은 수의 모수(값)를 구하고, 그 값들로 이루어진 확률분포를 구성하는 작업이다. 그 분포가 우리가 궁극적으로 구하고자 하는 목표분포이다.

  • MCMC 시뮬레이션의 핵심은 무작위 추출(random sampling)이다. 일정한 절차를 거쳐 무작위로 표본을 추출하는 작업을 수없이 반복한다.
  • 여기서 무작위로 간주될 수 있는 일정한 절차란 무엇일까? 그 절차를 간략히 제시하면 다음과 같다.
    1. 사후확률분포를 상정한다. 공액을 이용하면 사전확률분포에 대한 정보로부터 사후확률분포의 유형이 추정될 수 있다. 물론 그 분포의 퍼라미터(값)은 모르지만 말이다. 사실 그 분포를 특정하는 것이 MCMC 시뮬레이션의 미션이다.
    2. 사후확률분포로부터 두 개의 모수(값)를 추출한다. 먼저 뽑은 모수를 현재 모수()라고 부르고, 두 번째 뽑은 모수를 제안된 모수()라고 부른다.
    3. 현재 모수제안된 모수 중 중 하나를 선택하여 저장한다.
    4. 매 반복시행(iteration)이 끝날 때마다 그렇게 선택된 모수가 다음 반복시행에서 뽑게 되는 두 개의 모수 중 하나가 된다.
  • 위 반복시행을 어느 상태에 도달할 때까지 계속 한다. 그것이 수 만번이 될 수도 있다.
  • 그렇게 해서 저장된 수많은 모수들을 가지고 확률분포를 작성한다. 그것이 우리가 궁극적으로 구하려고 하는 목표분포(사후확률분포)이다.
  • 그 확률분포를 요약한다.

이상이 최대한 간략히 묘사된 MCMC 시뮬레이션이다. 다시 정리해 보면 매 반복시행마다 사후확률분포로부터 무작위로 두 개의 모수 값을 뽑은 다음 그 중 하나를 선택하여 남기는 방식을 수없이 반복해서 엄청나게 큰 표본을 만든다. 그런데 가장 단순한 무작위 추출은 사후확률분포로부터 한꺼번에 두 개의 모수 값을 뽑아서 그 중 하나를 저장하는 방법일 것이다. MCMC는 조금 더 정교한 방법으로 두 개의 모수 값을 추출하고 약간 복잡한 방법으로 그 중 하나를 선택, 저장한다.

그 무작위 절차의 각 단계를 좀 더 구체적으로 살펴보자.

  • 사후확률분포를 무엇을 근거로 상정하는가? 이는 초기값, 즉, 최초의 추측(initial guess)에 관한 문제이다. MCMC 시뮬레이션이 시작되기 위해서는 시작점(starting point)이 있어야 한다. 그 시작점은 단순한 추측일 수도 있고, 정보에 근거한 추측일 수도 있다. 처음부터 사후확률분포의 유형을 알고 거기에서 초기값을 추출하면 목표분포에 빨리 도달할 수 있겠지만, 처음에 사후확률분포에 대한 정보가 없는 경우도 많다. 그러나 사후확률분포에 대한 정보가 없어도 목표분포에 도달할 수 있다. 한 동안의 반복시행 결과는 초기값의 영향을 받을 것–이 기간을 burn-in period라고한다–이다. 그러나 그 기간을 지나고 나면 목표분포를 따르는(즉, 목표분포에서 추출된 것과 같은) 표본이 형성된다.
  • 현재 모수는 어떻게 추정되는가? MCMC 알고리즘이 작동하는 첫 번째 시행(iteration)에서는 한 개의 모수를 임의로 정한다(대개의 경우 관찰된 데이터나 데이터 분포, 그리고 공액 사전분포를 참고해서 추측된다). 두 번째 반복시행부터는 이전 반복시행에서 선택해 저장한 모수가 그 반복시행의 현재 모수가 된다.
  • 제안된 모수는 어떻게 추정되는가? 현재 모수를 중심(중앙값 혹은 평균)으로 갖는 대칭적인 분포(symetric distribution)를 상정하고, 그 대칭분포로부터 무작위로 어떤 모수(값)를 추출하면 그것이 제안된 모수이다.
  • 현재 모수와 제안된 모수 중 하나를 선택하는 방법은 무엇인가? 이 부분이 조금 복잡하다. 먼저 알려져 있거나 우리가 믿고 있는 사전확률분포를 가지고 현재 모수와 제안된 모수 각각에 대한 사전밀도(prior density)를 구한다. 또한 현재 모수와 제안된 모수가 진실이라는 전제로 우리 손에 쥔 데이터를 관찰할 확률, 즉, 각각의 우도(likelihood)를 구한다. 이 사전확률밀도와 우도를 곱하면, 공식 (2) 버전의 베이즈 정리에 따라 비정규화된 사후밀도(unnormalized posterior density)가 추정된다. 현재 모수에 대한 비정규화된 사후밀도에 대한 제안된 모수에 대한 비정규화된 사후밀도의 비율을 구한다. 이렇게 하면 골치 아픈 정규화 상수가 소거된다. 그렇게 해서 이동확률()을 구한다. 제안된 모수의 사후밀도가 현재 모수의 사후밀도보다 크면, 즉, 이동확률이 1보다 크면 제안된 모수를 선택하여 저장한다(제안된 모수로 이동한다). 만약 제안된 모수의 사후밀도가 현재 모수의 사후밀도와 같거나 작으면 둘 중 하나를 확률적으로(probabilistically) 선택하여 저장한다(제안된 모수로 이동할 것인지가 확률적으로 결정된다). 여기서 ‘확률적으로’를 실제로 구현하는 방법은, 0과 1 사이의 균일분포에서 하나의 값을 무작위로 추출한 다음, 그 값과 이동확률을 비교한다. 만약 이동확률이 그 무작위 값보다 크면 이동한다(즉, 제안된 모수를 선택, 저장한다). 만약 이동확률이 그 무작위 값보다 작으면 이동하지 않는다(즉, 현재 모수를 선택, 저장한다).
  • 모수의 어떤 값에 수렴되면 시뮬레이션이 끝난다. MCMC는 우리가 표본을 얻고자 하는 목표분포(target distribution)를 정상분포(Stationary Distribution)로 가지는 마르코프 연쇄를 만드는 것이다. 매 반복시행에서 저장해 놓았던 모수들 중 burn-in 기간의 모수를 버리면 나머지 모수들은 목표분포에서 추출된 것으로 간주될 수 있다. 그것들로 분포를 그리면, 그것이 바로 우리가 구하고자 하는 추정된 사후확률분포이다. 그리고 그 분포를 요약하면 모든 과정을 마치게 된다.

이 과정을 보면, 무작위 추출(random sampling)이 결정적인 요소이다. 그래서 알고리즘의 이름에 몬테카를로(Monte Carlo)가 들어가 있다.

이 과정에는 두 가지 속성이 필요하다. 하나는 각 반복실행의 모수 선택에는 바로 이 전 반복실행에서 구한 모수만이 영향을 미친다는 점이다. 그보다 이전 단계에서 어떤 모수들이 구해졌는가는 전혀 고려되지 않는다는 말이다.

다른 하나는 시뮬레이션이 한없이 계속되거나 어느 단계에서 인위적으로 끝내서는 안되며, 각 반복실행에서 구해진 값이 어느 모수(진실한 모수, true parameter라고 추정된다)에 수렴될 때 시뮬레이션이 멈추어야 한다.

이 두 가지 속성을 가진 수학 모형이 마르코프 연쇄(Markov Chain)이다. 마르코프 연쇄는, 확률변수(random variable)가 어떤 상태(state)에 도달할 확률이 오직 바로 이전 시점의 상태(state)에 달려 있으며, 정칙 마르코프 연쇄(regular Markov chain)는 변화가 멈추는 정상상태(stationary state)를 갖고 있다.

그래서 이 알고리즘의 이름이 Markov Chain Monte Carlo (MCMC)로 붙여졌다. MCMC를 구현하는데는 현재 여러가지 알고리즘이 나와 있다. 위에 제시한 설명은 그 중 메트로폴리스 알고리즘(Metropolis algorithm)을 기준으로 한 것이다.

상어공격 문제 사례를 가지고 살펴보자. 이 사례는 Donovan & Michey (2019)에서 인용하였다. 대양에 인접한  한 지역에 상어가 출현하여 사람을 공격하는 문제이다.

연간 상어공격의 평균빈도를 구한다고 하자. 이는 포아송 분포의 퍼라미터를 추정하는 문제이다. 는 연간 상어공격의 평균 빈도이다. 이론적으로 는 0에서 무한대까지의 값을 가질 수 있다.

사전확률분포로 감마 분포를 채택한다. 그것은 가설들에 대한 확률밀도를 나타낸다. 어떤 가설에 대한 확률밀도 값이 클수록 그 가설에 대한 우리의 확신도 크다. 이전의 조사를 토대로 다음과 같은 사전확률분포를 설정하였다고 하자.

그리고 금년에는 5회의 상어공격이 목격되었다.

1 단계: 사후확률분포로부터 임의 값 하나를 뽑아 첫 번째 값을 제안한다. 그 값을 라고 하자. 3.100은 그냥 임의의 값이다.

2 단계:

  • 그 가설이 진실일 때 5회의 상어공격을 관찰할 우도(likelihood)를 계산한다. 아래와 같이 포아송 분포의 pdf를 적용하면 될 것이다.

  • 다음, 사전확률분포에서 3.100과 결합된 확률밀도를 구한다. 감마확률밀도함수를 적용한다.

여기서 x 대신 를 집어넣는다.

위에서 식(2)에 각 값을 대입해서 비정규화된 확률밀도를 구한다.

이제 이 값을 라고 부른다.

3단계:

두 번째 값을 제안한다. 의 현재값(, 3.100)을 중심으로 하는 대칭적 분포를 상정하고 그 분포로부터 무작위로 숫자 하나를 뽑는다. 이 사례에서는 대칭적 분포로 이고, 인 정규분포를 적용한다. 여기서 미세조정 퍼라미터(tuning parameter)라고 부른다. 무작위로 뽑아서 제안한 값이 이라고하자.

4단계:

에 대한 사후밀도를 구한다. 2단계와 동일한 방식을 적용하면 된다. 먼저 우도를 구하고, 사전확률밀도를 구한 다음, 두 값을 곱하면 된다.

이 사후확률밀도를 라고 부르자.

우리의 두 가설에 대한 사후확률밀도는 다음과 같다:

다음은 이 둘 중 하나를 버려야 한다. 어느 값을 가질까? 첫 번째 값인 에 남을까 아니면 두 번째 값인 으로 옮겨갈까?

메트포폴리스(Metropolis) 알고리즘은 두 값 중 두 번째 값으로 옮겨갈 확률을 계산하는 공식을 다음과 같이 규정한다.

6단계:

균일분포, 로부터 무작위수 하나를 뽑는다. 그렇게 뽑은 수가 위의 옮겨갈 확률 값보다 작으면, 로 갈아탄다. 0.8204이 뽑혔다고 하자. 그 수가 0.7019보다 크니 를 수용한다.

7단계: 3.100을 두 번째 시행의 로 받아서 위의 절차를 수천 혹은 수만 번 반복한다. 매 시행 때마다 수용된 값을 기록한다.

8단계: 각 시행에서 수용된 값들을 분포의 형태로 나타내고, 그 분포를 요약한다.

아래 표는 Donovan & Michey(2019)의 202쪽에서 전재하였다. MCMC를 10회 시행한 결과를 정리한 것이다.

데이터(data)와 사전확률(prior)은 매번 같지만, 사후확률(posterior)은 매번 바뀌고 있다. 사후확률에서 가 무작위성(randomness)이 들어가는 부분이다. 알고리즘을 시작할 때 를 사후확률분포에서 무작위로 뽑았으며(혹은 임의로 정했으며), 를 중심()으로 하는 대칭분포(여기서는 , 인 정규분포)에서 무작위로 추출한 수이다. 때문에 사후확률 는 베이즈정리(위에서 식 (2))를 이용하여 계산되었지만 무작위성을 지닐 수밖에 없다.

의사결정 과정에서도 무작위성이 한 번 들어간다. 모수(가설)를 람다를 선택할 때 기준으로 작용하는 요소가 균일분포 에서 무작위로 추출한 수이다. 결국 MCMC 수행과정에서 조건부 무작위 추출이 세 번 들어갔다.

이렇게 다소 복잡한 시뮬레이션을 통해서 통계학자들은 사후확률분포를 모르면서 사후확률분포로부터 수많은 모수를 추출하여 사후확률분포를 특정하는 모순(?)을 해결했다. 사후확률분포로부터 모수를 추출한다는 말은 배우는 학생들을 혼란스럽게 만들기 충분하다. 사후확률분포를 모르는데 어떻게 그것으로부터 모수를 추출한다는 말인가? 더구나 베이즈 추론을 통해서 궁극적으로 구하려고 하는 것이 사후확률분포가 아니던가. 베이즈 통계학자들은 몬테카를로 시뮬레이션마르코프 연쇄라는 열쇠를 가지고 베이즈 추론이라는 마법의 문을 열었다.

이 포스팅에서는 수학 사용을 최소화하면서 MCMC를 최대한 말로 쉽게 설명하려고 시도하였다. 필자는 베이즈 통계에 입문하는 인문사회과학도가 이 정도만 MCMC를 이해하면 충분하지 않을까 생각한다. 샘플링하는 방법이나 의사결정하는 방법에 적용하는데 있어 메트로폴리스 외에도 여러가지 알고리즘이 있지만 그것들은 베이즈 추론에 좀 더 익숙해진 후에 천천히 익혀도 늦지 않을 것이다. (2020-11-21)

베이즈 통계(번외): Markov Chains

(이 글은 몇 년 전에 포스팅한 (Bayes 학습)(6)마르코프 연쇄-(1)와 (Bayes 학습)(7)마르코프 연쇄-(2)을 합쳐서 재포스팅한 것임. 마르코프 연쇄에 관해서는 (Bayes 학습)(8) 마르코프 연쇄-(3)라는 글이 하나 더 있음)

학부나 대학원 수업에서 나는 마르코프 연쇄(Markov chains)에 관해 배운 적이 없다. 다만 대학원 재학시절 범주형 데이터 분석(categorical data analysis)을 혼자 공부하면서 책에서 스쳐 지나가듯이 읽었을 뿐이다.

그것은 나와는 전혀 관계가 없을 지식이고, 그것을 몰라도 내가 평생 동안 사회학자로서 사는 데 문제가 되리라 예상되지 않았다. 사회학에서는 횡단적 데이터(cross-sectional data)를 다루지 종단적 데이터(longitudinal data)는 거의 다루지 않는다. 그래서 경제학과는 달리 수업에서 시계열 데이터 분석(time-series data analysis)을 별로 가르치지 않는다. 그러니 마르코프 연쇄가 나의 관심에서 벗어나 있었던 것은 전혀 놀랍지 않다.

그러나 세월이 변했다. 지난 수십 년 동안 마르코프 연쇄는 온갖 분야에서 그것의 유용성을 드러냈다. 예컨대 구글의 검색 알고리즘인 페이지 랭크(PageRank)가 마르코프 모형을 사용하고 있고, 데이터 과학에서 마르코프 연쇄는 빼놓을 수 없는 부분이다. 오늘날 마르코프 연쇄 몬테카를로(Markov Chain Monte-Carlo, MCMC) 방법 없는 베이즈 추론은 상상하기 어렵다. 그것은 인공지능(Artificial Intelligence)의 원리인 기계학습(machine learning)에도 응용되고 있다. 이 정도면 데이터과학을 공부하는 학도가 마르코프 연쇄를 제대로 이해해야 함은 이론의 여지가 없어 보인다.

마르코프 연쇄는, 확률변수(random variable)가 어떤 상태(state)에 도달할 확률이 오직 바로 이전 시점의 상태(state)에 달려 있는 경우를 가리킨다. 만약 한 인터넷 사용자가 어떤 웹페이지에 있을 확률이 그 사람이 바로 직전에 어떤 웹페이지에 있었는가에 달려 있다면 인터넷 사용자의 웹페이지 방문은 마르코프 연쇄 모형을 따르고 있다고 말할 수 있다. 또 어떤 시점에서 한 청소년이 부모와 어떤 관계를 갖고 있는가가 그 바로 직전 시점에서 그 청소년이 부모와 어떤 관계를 갖고 있는가에 달려 있다면(더 이전에 그 청소년이 부모와 어떤 관계를 갖고 있었는가는 무시해도 될 정도라면), 청소년과 부모와의 관계는 마르코프 연쇄 모형을 따른다고 말할 수 있다.

마르코프 연쇄를 이해하는 가장 기본적인 개념은 상태(state), 추이(transition), 추이행렬(transition matrix), 추이도형(transition diagram), 의사결정 나무(decision tree), 정상 마르코프 연쇄(stationary Markov chain) 등이다. 그리고 행렬대수(Matrix algebra)에 관한 지식이 다소 필요하다.

마르코프 연쇄는 확률변수의 상태 변화(혹은 추이)에 대한 모형이다. 상태(state)는 물리적 위치, 심리적 상태, 재정적 상태, 경제적 상태, 정치적 상황, 시장 점유율, 사회적 관계 등 어떤 것이든 가리킬 수 있다. 그리고 특정 변수가 가질 수 있는 모든 상태를 상태 공간(state space), 변화가 멈춘 상태를 정상 상태(steady state 혹은 stationary state)라고 한다.

유튜브에 올라온 강의(Patrick JMT)의 사례를 가지고 살펴보자. 오렌지 쥬스(Brand A)를 생산하는 어떤 기업이 광고 캠페인을 전개해서 시장 점유율을 높이고자 한다. 광고를 시작하기 전 Brand A의 시장 점유율이 20%이고, Brand A에 관한 광고를 보고 어떤 사람이 계속 Brand A를 구입할 수도 있고, 다른 Brand 제품(Brand A’라고 하자)을 구입할 수도 있을 것이다. 어떤 사람은 다른 브랜드 제품을 사용하다가 광고를 보고 브랜드 A로 전환할 수도 있고, 그냥 그 브랜드 제품을 계속 사용할 수도 있을 것이다. 광고를 보고 브랜드 A를 마시던 사람이 계속 브랜드 A를 마실 확률이 0.9이고, 다른 브랜드 제품으로 갈아탈 확률이 0.1이며, 다른 브랜드 제품을 마시던 사람이 브랜드 A를 마시게 될 확률이 0.7이고, 그냥 기존의 브랜드 제품을 마실 확률이 0.3이라고 하자.  바로 그것이 소위 추이 확률(transition probability)로 표현된 광고의 효과이다. 이를 행렬로 표시하면,

이  행렬은 광고를 시작하기 전 오렌지 쥬스 시장에서의 Brand A(A)와 여타 제품(A’)의 시장 점유율을 나타낸다. (참고: 행렬 안에는 숫자만 들어가지만, .2와 .8이 무엇을 나타내는가를 보여주기 위해 A와 A’을 넣어서 표시했다. 다음에는 이라고만 표시하겠다.)

이 를 추이 행렬(transition matrix)라고 부른다. 그것은 광고의 효과를 나타내는 확률이기 때문에 광고 기간 동안 동일하다고 가정할 수 있을 것이다. (참고: 이 행렬에도 행(row)과 열(column)이 무엇을 나타내는가를 보여주기 위해 행렬 안에 A, A’를 넣었다. 행은 시작하는 상태를, 열은 도달하는 상태를 나타낸다. .9는 A가 A로 바뀌는(사실 A가 그대로 남는 경우) 확률, .1은 A가 A’으로 바뀌는 확률, .7은 A’가 A로 바뀌는 확률, 그리고 .3은 A’가 A’로 바뀌는 확률을 가리킨다. 이제 간단히 로만 표시하겠다.)

만약 매주 광고 효과를 시장점유율로 측정한다면, 광고가 나간 1주 후 Brand A의 시장점유율은 어떻게 될까? 그것은 아래와 같이 계산할 수 있다.

일주일 후 Brand A의 시장 점유율은 74%이다! 광고를 하고 일주일만에 시장점유율이 20%에서 74%로 오른 것이다. 그 다음 일주일 후에는 시장 점유율이 어떻게 될까?

84.8%가 되었다! 광고 효과가 여전히 놀랍다. 그렇다면 머지않아 Brand A는 오렌지 쥬스 시장을 싹쓸이 할 수 있을까?

광고 후 3주일째 Brand A의 오렌지 쥬스 시장의 점유율은 어떻게 될까? 아래 식에서 보는 것처럼 86.96%이다.

시장 점유율이 여전히 증가하고 있으나 첫 두 주만큼 인상적이지는 않다. 광고효과가 동일하다고 가정하면 광고 후 4주부터 10주째까지 Brand A의 오렌지 쥬스 시장의 점유율은 각각 아래와 같이 예상된다.

Brand A의 시장점유율은 광고 후 5주차에 87.50%(반올림한 결과)에 도달한 이후 10주차까지 미세한 증가가 있으나 반올림하면 여전히 87.50%이다! 즉, Brand A의 시장점유율은 광고 후 5주차에 거의 불변상태에 도달할 것으로 예상된다(이는 대단히 흥미 있는 현상이다). 따라서 Brand A의 시장점유율은 광고 후 초반의 급속한 증가에도 불구하고 그 증가 속도가 빠르게 감소되되기 때문에 결코 100%에 도달하지 못할 것으로 판단된다.

이 사례는 마르코프 연쇄에 있어 정상 상태(steady state, stationary state, invariant state)가 존재함을 보여준다. 마르코프 연쇄에서 정상 상태에 도달하는 과정을 정상 상태에 수렴한다(convergence)고 표현한다.

그렇다면 모든 마르코프 연쇄가 정상 상태의 특성을 갖고 있는가? 그것은 아니다. 추이행렬(transition matrix)이 정칙(regular)인 마르코프 연쇄(그것을 정칙 마르코프 연쇄, regular Markov chains라고 부른다) 같이 특정한 유형의 마르코프 연쇄만이 그러한 속성을 갖고 있다. 어떤 추이행렬의 거듭제곱한 결과가 오직 양의 원소(only positive entries)만을 지닌 행렬일 때 그 추이행렬은 정칙이다.

정칙 마르코프 연쇄는 다음과 같은 속성을 갖는다.

(1)   (는 정상 행렬, 는 추이행렬)   이 공식으로 정상 행렬(stationary matrix)을 구할 수 있다.

(2) 초기 행렬  에 어떤 값이 주어지든 상태 행렬들(state matrices) 는 정상 행렬 에 수렴된다.

(3)추이행렬의 거듭제곱  는 하나의 극한 행렬(limiting matrix) 에 수렴한다. 의 각 행(row)은 정상 행렬 와 같다.

 공식을 이용해서 위 광고의 정상 행렬을 구해보자.

이 식을 과 에 관해서 풀면 다음 두 식을 얻는다.

 —–(1)

 —–(2)

그리고  —–(3)

(1)식과 (2)식 중 하나와 (3)식을 가지면 과 를 구할 수 있다. (1)과 (3)을 가지고 풀자.

(3)의 양변에서 를 빼면, 

이 것을 (1)에 대입하면,

양변에서 를 더하고 0.9를 우변으로 옮기면,

양변을 0.8로 나누면,

 이 된다. 이 값을 (3)에 대입하면, 이 구해진다. 이 값들로 행렬을 구하면,  이다. 이를 소수로 전환하면 이다.

위에서 일일히 행렬 계산을 통해서 구했던 정상 행렬이 공식을 사용해서 훨씬 쉽게 구해졌다. 정상 행렬(stationary matrix). 정상 상태(stationary state), 정상 분포(stationary distribution)라는 개념들은 MCMC에 응용된다. (2020-11-19)

베이즈 통계(번외): Monte Carlo simulation

SAMSUNG CSC

마르코프 체인(Markov Chains)과 몬테카를로 시뮬레이션(Monte Carlo simulation)의 원리를 알면 MCMC 알고리즘에 대한 접근이 보다 수월하다. 이 두 가지 중 몬테카를로 시뮬레이션이 더 근본적인 측면이라고 생각되니 그것부터 먼저 소개한다.

몬테카를로 시뮬레이션을 공부하기 위해 30년 전 대학원에서 사회통계학을 배울 때 쓰던 교과서를 펼쳤다. 섹션 제목이 빨간 색연필로 둘러져 있다. “몬테카를로 방법은 크게 유용할 것입니다.”라는 Miller McPherson 교수의 목소리가 생생하게 들리는 듯하다.

빈도주의 통계학에서 몬테카를로 시뮬레이션은 무엇보다 우리가 구하려고 하는 확률변수의 표집분포(sampling distributions)를 특정하는데 사용된다. 즉, 확률변수의 표집분포가 지닌 평균과 표준오차를 구하는데 사용된다.

베이즈 통계까지 아울러서 말한다면 , 몬테카를로 시뮬레이션은 추리 통계의 원리들을 사용하여 미지의 양(unknown quantity)를 추정하는 하나의 방법이다. 여기서 추리 통계의 원리란 모집단으로부터 무작위로 표본을 추출하는 과정을 말한다. 몬테카를로 시뮬레이션의 핵심은 무작위 표본추출(random sampling)이다. 무작위 표본은 모집단을 잘 대표하고 있기 때문에 그 표본의 통계값(statistics)은 모수(parameters)에 대한 좋은 추정값이 된다. 특히 실제로 표본조사를 반복하지 않고 컴퓨터 시뮬레이션만으로 모수 추정이 가능하기 때문에 아주 편리한 방법이다. 이 때문에 몬테카를로 시뮬레이션은 수학적 계산을 통해서 구하기 어렵거나 구하기 불가능한 어떤 값(모수)을 추정하는데 널리 사용되고 있다.

구체적으로 몬테카를로 시뮬레이션을 살펴보자. 우리가 구하려고 하는 양(quantity)을 확률변수 의 기대값, 즉, 으로 놓자. 그리고 의 분포로부터, 독립적이며 무작위로,  (표본의 크기가 )을 생성하여, 다음 식처럼 그 값들의 평균을 취하여  의 추정치로 삼는다.

통상 는 확률변수 의 함수이다.  평균을 계산할 수 있는 양이면 몬테 카를로를 적용할 수 있다. 몬테 카를로 시뮬레이션의 핵심적인 논리적 기반은 대수의 법칙(the law of large numbers)이다. 수학적으로 아래와 같이 표현할 수 있다.

즉, 이 무한대가 될 때(표본 추출을 무한히 반복할 때) 오차의 절대값이 0일 확률이 1이다. IID(independent and identically distributed: 동일한 분포라는 말은 표본의 각 개별적인 관찰이 동일한 평균과 분산의 모집단을 갖는다 의미. 복원추출을 하면 그 조건을 만족하게 됨) 표집에서  은 확률변수이며, 그 자체가 평균과 분산을 가지고 있다.

의 평균은  이고, 의 분산(variance)은  이다(여기서 은 표본의 크기이다).  중심 극한 정리(CLT)로부터, 우리는 오차 가 평균이 0이고, 분산이  인 정규분포에 근사함을 안다. 오차의 크기는 표본의 갯수가 아니라 표본의 크기에 달려 있다. 표본의 크기가 5()인 표본을 100번 뽑는 대신 표본의 크기가 20()인 표본을 100번을 뽑으면 오차가 줄어들고 추정이 더욱 정교해진다. 동일한 크기의 표본()을 100번이 아니라 1,000번을 뽑으면 표집분포가 더욱 매끄러워질 뿐, 추정이 더욱 정교해지지는 않는다. 오차와 분산은 추정의 정교함(precision)을 알려준다. 몬테카를로 표집에서 오차 제곱의 평균은 인데, 를 아는 경우가 거의 없으므로 표본값들로부터 추정한다. 아래 둘 중 어느 것으로 추정해도 된다.

혹은,

(이상은 Stanford 대학교 통계학과의 Art Owen 교수가 인터넷에 올려놓은 책 원고의 제2장(Simple Monte Carlo)을 크게 인용하였다.)

Wonnacott & Wonnacott(1985)의 Introductory Statistics(4th ed.)에 나온 사례를 가지고 직접 몬테 카를로 시뮬레이션을 수행해서 모집단의 평균()과 분산()을 추정해보자.

미국의 미들타운(Middletown)이라는 도시에 살고 있는 18세부터 24세까지의 젊은이 100명에 대해 그들이 희망하는 가족의 크기를 추정해보자. 다음 표는 실제 조사 결과를 보여준다.

                                         모집단 분포
                                                                                        상대빈도
x 빈도 p(x) 일련번호
0

1

2

3

4

5

6

7

2

6

49

22

15

3

2

1

.02

.06

.49

.22

.15

.03

.02

.01

01-02

03-08

09-57

58-79

80-94

95-97

98-99

100

N = 100 1.00

이산확률분포의 평균과 분산을 추정하는 공식은

이 공식을 이용하여 모집단의 평균과 분산을 추정하면 평균은 2.64명, 분산은 1.2명이다. 이렇게 공식을 사용하여 구할 수 있으면 몬테카를로 시뮬레이션을 통한 추정이 불필요할 것이다. 여기서는 몬테카를로 시뮬레이션이 모수를 어떻게 추정하는지 그리고 얼마나 잘 추정하는가를 보기 위해 공식을 이용해 모수를 계산해 두었다.

크기가 5명인 표본을 뽑아서 이 모수들을 추정해보자. 난수표(table of random digits)를 이용해서 100 이하의 수를 무작위로 뽑았더니, 77, 94, 30, 05, 39이다. 그것을 일련번호로 삼아서 그에 해당되는 희망 자녀수를 위의 표에서 찾아보면, 3, 4, 2, 1, 2이다.

일련번호 희망 자녀수 X
77

94

30

05

39

3

4

2

1

2

모수가 2.64인데, 표본평균이 2.4이니 그다지 나쁘지 않은 추정값이다.

이제 동일한 방법으로 5명의 표본()을 반복해서 뽑는다. 표본을 뽑을 때마다 평균()을 계산한다. 예컨대 이렇게 1천번을 반복하면 우리는 1,000개()의 를 얻게된다. 여기서 의 의미가 이중적이 됨에 유의할 필요가 있다. 은 개별 표본(5)의 크기가 아니라 표본의 갯수(1,000)이면서 동시에 평균()들로 구성된 표본(그것이 바로 표집분포를 구성한다)의 크기(1,000)이다. 아래 공식처럼 1,000개 의 평균을 계산하면 의 추정치()를 얻는다.

그런 다음 분산 은 아래 식을 가지고 추정할 수 있다.

이렇게 얻은 추정치는 위에서 공식으로 추정한 모평균 2.64명, 모분산 1.12에 근사할 것이다.

오늘날 난수표와 손을 사용해서 난수를 구하는 경우는 없을 것이다. Random.org에 가면 손쉽게 원하는 난수(random digits)를 얻을 수 있고, MS Excel[함수 RAND()]을 이용해도 손쉽게 난수를 구할 수 있다. 조건이나 함수를 부여하면 다양한 모습의 난수가 발생된다. MCMC도 몇 가지 조건 아래에서 난수를 발생시켜서 사용한다. 몬테카를로에 대한 설명은 이 정도로 마치겠다. 몬테카를로 하면 조건부 난수 발생(random number generation)을 통한 시뮬레이션을 떠올리면 되겠다. (2020-11-19)

참고문헌

Owen, Art. 2009-2013. Chapter 1-2. 책 초고.

Wonnacott, Ronald J. & Thomas H. Wonnacott. 1985. Introductory Statistics, 4th ed. John Wiley & Sons. Chapt 6.

베이즈 통계(12): 모수추정과 신용구간

빈도주의 통계에서 표본 통계(sample statistics, 대개의 경우 표본평균)에 신뢰구간(confidence interval)을 붙여 수행하는 구간추정(interval estimate)이 있듯이 베이즈 통계에도 모수를 구간으로 추정하는 구간추정이 있다. 그런데 베이즈 추정에서는 모수의 점추정값(parameter point estimate)을 중심으로 신용구간(credible interval)을 잡아서 구간추정을 수행한다.

베이즈 추론을 통해서 추정된 퍼라미터를 얼마나 신뢰할 수 있을까? 베이즈 추론의 신용구간을 사용하면 95% 확신을 갖고 퍼라미터가 특정 구간 안에 있다고 주장할 수 있다.

예컨대 어떤 도시에 신생아의 몸무게 분포에 관해 실험을 실시하고 있다고 하자. 신생아의 몸무게 β가 2.8kg부터 3.5kg 사이 어딘가일 주관적 확률이 90%라고 한다면, 는 하나의 90% 신용구간이라고 말할 수 있다. 또한 어떤 사람의 통계학 기말 성적에 대한 95% 신용구간이 70~80점이라는 말은, 그 사람의 성적이 70~80점 사이에 있을 확률이 95%라는 의미이다.

빈도주의 통계에서는 신뢰구간(confidence interval)이 그 역할을 한다. 신뢰구간은, 우리가 100번 표집을 뽑아서 100개의 신뢰구간을 구하면, 그 중 95개가 그 안에 퍼라미터를 포함하고 있음을 의미한다. 퍼라미터는 고정되고 변하는 것은 신뢰구간이니 그런 결과가 나온다.

베이즈 추론에서 신용구간(credibile interval)은 빈도주의 통계의 신뢰구간과 달리 직접적으로 우리가 추정한 특정한 퍼라미터가 신용구간 내에 있을 가능성이 95%라고 주장할 수 있게 된다.

데이터 가 주어졌을 때,  관찰되지 않은 확률변수 의 값을 추정하려고 한다고 하자. 추정된 사후분포에서 다음 조건을 만족하는 구간 를 구할 수 있. 는 유의수준이다.

이 구간이 확률변수 X에 대한 신용구간(credible interval)이다.

베이즈 신용구간은 다음과 같이 정의된다. 관찰값 가 주어졌을 때, 만약 관찰되지 않은 확률변수 X의 사후확률이 구간  안에 존재할 확률이 이라면, 구간 을 확률변수 X에 대한 신용구간(credible interval)이라고 부른다.

그런데, 한 유의수준에서 신용구간은 하나가 아니다. 그래서 최고사후밀도구간(Highest Posterior Density Interval, HPDI)–간략히 최고밀도구간(Highest Density Interval, HDI)라고도 함–을 사용한다.

가 확률변수 X의 밀도함수라고 하자. 그렇다면 HDI(다차원의 경우 HDR, Highest Density Region)는 다음을 만족하는 X의 표본공간의 부분집합 이다.

여기서 는 아래를 만족하는 최대의 상수이다.

예컨대 아래 그림의 각 분포는 95% HDI를 보여주고 있다. 이므로 인 수평선을, 그래프 양편의 아래와 위의 면적을 합한 값이 그래프 전체 면적의 95%가 될 때까지 끌어올리면 그 선이  이다. 분포곡선의 양쪽 경계에 해당되는 X 값의 범위, 아래 그림에서  (첫 번째 분포), (두 번째 분포), (세 번째 분포)가 각 분포의 95% HDI이고, 그 구간을 표시하는 양방향화살표선이 에 해당되는 선이다. 예컨대 첫 번째 그래프에서 양방향화살표선의 화살표 끝과 분포 곡선이 만나는 점이 이다.

HDI는 정의상 두 가지 특성을 갖는다.

첫째, 단봉분포(unimodal distribution)의 경우 HDI 구간 안에 있는 모든 점들의 사후분포함수 값들은 그 구간 밖에 있는 모든 점들의 사후분포함수값들보다 항상 크다.

둘째, HDI는 가장 짧은 길이의 신용구간이다.

신용구간은 모수 추정에 사용되지만 앞 포스팅에서 소개한 베이즈 인자(Bayes fractor)처럼 가설검정에도 적용된다. 어떤 학자는 베이즈 인자보다 신용구간이 모집단 혹은 모수에 관해 훨씬 풍부한 정보를 준다고 주장한다(Kruschke, 2013).

그런데 신용구간은 베이즈 인자보다 구하기가 어렵다. 베이즈 인자와 달리 사후분포가 구해져야 하기 때문이다. 사후분포가 특정됐다는 것은 사후분포의 퍼라미터들이 구해졌음을 함축한다. 신용구간은 사후분포에서, 주어진(혹은 선택한) 가능성(혹은 그럴듯함, plausibility: 빈도주의 통계에서 신뢰수준에 해당됨) 수준을 대표하는 값들의 범위이다. 주어진 가능성 수준은 모수가 그 범위 안에 들어갈 확률을 가리킨다.

예컨대 95% 가능성(plausibility)을 선택하면 95% 신용구간, 90% 가능성을 선택하면 90% 신용구간을 구한다. 신용구간은 사후분포를 구성하는 값들 중 가장 가능성이 높은(그럴듯한, plausible) 값들만 포함한다. 가능성이 높다는 말은 가장 높은 확률(혹은 확률밀도)을 갖는다는 의미이다. 예를 들어 90% 가능성이란 확률(혹은 확률밀도)이 높은 순으로 상위 90%에 해당되는 범위가 신용구간임을 말한다. 그리고 진짜 모수가 그 범위 안에 들어갈 확률은 90%이다.

신용구간을 좀 다르게 정의해 사용하기도 한다. 빈도주의 통계의 신뢰구간처럼 좌우 꼬리 부분이 동일 확률( equal probability) 를 갖게 하는 방법도 있다. 등꼬리 신용구간(equal-tailed credible interval)이 그것이다.

이 등꼬리 신용구간은 HDI에 비해 계산하기 쉽다는 장점을 가지고 있다. 그러나 좌우대칭의 단봉분포가 아닌 비대칭적 단봉분포나 쌍봉분포의 경우에는 신용구간을 가지고 한 분포에서 신뢰할만한 값들을 보여주겠다는 의도에 잘 맞지 않은 속성을 나타내는 약점이 있다(Kruschke, 2015).

신용구간이나 HDI는 먼저 사후분포를 특정해야 계산이 가능하기 때문에 컴퓨터 프로그램을 사용하지 않고는 추정이 거의 불가능하다. 예를 들어 우리나라에서 밤에 8시간 이상 자는 대학생들의 비율(θ)에 관심이 있다고 하자. 한양대학교로부터 27명의 학생을 무작위로 추출하여 물어보았더니 그 중 11명의 학생들이 밤에 8시간 이상 잔다고 응답했다. 이 확률변수는 다음과 같은 이항분포를 따른다.

θ에 대한 사전확률분포가 라면, 공액을 이용해서 사후분포를 구하면 다음과 같다.

이제 θ에 대한 90% 신용구간을 구해보자. 우리는 그것을 폐쇄 형식(closed form)으로 계산할 수 없다. Beta 분포에 대한 확률 계산은 아래와 같이 복잡한 적분을 포함하고 있기 때문이다.

그런데, Beta 함수의 확률밀도함수는 아래와 같으므로,

는 다음과 같은 함수이다.

대학생들의 야간 수면 시간에 관한 간단한 의문을 푸는데 이렇게 복잡한 함수를 계산해야 한다! 실질적으로 계산이 불가능한 것이다. 그래서 우리는 MCMC라는 방법을 가지고 신용구간을 근사적으로 추정한다(approximate). 소프트웨어를 사용하면 신용구간을 쉽게 구할 수 있다. 통계패키지인 STATA를 이용해서 추정한 θ의 90% 신용구간 HDI는 (0.249, 0.503)이다. 아래 그림은 STATA로 위 사례를 분석한 결과이다. 이제 MCMC를 소프트웨어로 구현할 시간이다.

참고 문헌

Kruschke, John K. 2013. “Bayesian Estimation Supersedes the Test.” Journal of Experimental Psychology, General, vol.142, no.2: 573-603.

——. 2015. Doing Bayesian Data Analysis. Academic Press.

베이즈 통계(11): 가설검정과 베이즈 인자

가설검정은 현대 과학에서 표준적인 연구 절차의 중요한 일부이며, 진리 발견의 주요한 방법 중 하나이다. 베이즈 통계에서는 그러한 가설검정을 어떻게 수행할까?

빈도주의적 가설검정에서는 영가설과 대립가설을 설정하고 영가설이 기각되면 대립가설을 취하고 영가설이 기각되지 않으면 영가설을 채택한다. 비록 영가설이 실제 의미를 갖기보다는 가설 검정의 도구라는 측면이 강하기는 하지만, 논리적으로 영가설과 대립가설은 상호배타적(exclusive)이어야 하며, 영가설과 대립가설의 구분은 포괄적(exhaustive)이어야 한다. 집합적으로 설명하자면, 가설의 집합은 오직 영가설과 대립가설이라는 두 가지 원소로 구성되어 있으며, 영가설과 대립가설의 교집합은 공집합이다.

빈도주의 통계에서는 z-값, t-값, -값과 같은 검정통계량(test statistics)을 계산하고, 그것을 가지고 p-값을 구한 다음, 설정한 p-값이 신뢰수준(통상 95%)의 유의수준(, 통상 0.05)보다 작으면 영가설을 기각하고 그보다 크면 영가설을 채택한다.

빈도주의 통계와 달리 베이즈 통계는 사전확률로 시작해서 사후확률로 끝난다. 영가설과 대립가설 각각의 사전확률, 우도, 사후확률을 구한 다음 그 크기를 비교하여 두 값의 크기에 따라서 두 가설 중 하나를 선택한다. 빈도주의 통계의 검정통계량과 유사한 역할을 하는 것이 베이즈 인자(베이즈 요인이라고도 부름, Bayes factor)이다. 베이즈 인자를 구한 다음 그 값의 크기에 따라 영가설과 대립가설 중 하나를 채택한다. 베이즈 요인은 약간 다른 세 가지 방식으로 정의될 수 있다. 어떤 방식으로 구하든 값은 동일하다.

1) 대립가설에 대한 영가설의 사후확률의 비–사후교차비(odds ratio)–를 계산하고, 대립가설에 대한 영가설의 사전확률의 비–사전교차비(odds ratio)–를 계산한 다음, 사후교차비를 사전교차비로 나눈 값이 영가설을 지지하는 베이즈 인자의 정의이다. 다음과 같이 기호로 표시할 수 있다.

영가설의 사후확률을 , 대립가설의 사후확률을 이라고 하고, 영가설의 사전확률을 , 대립가설의 사전확률을 이라고 하자.

사후교차비: ,    사전교차비:

그러면 베이즈 요인은,

2) 영가설에 대해 사전확률에 대한 사후확률의 비율(영가설에 대한 지지도)을 구하고, 대립가설에 대해 사전확률에 대한 사후확률의 비율(대립가설에 대한 지지도)을 구한 다음, 그 지지도의 비율이 베이즈 인자이기도 하다. 앞 포스팅, 베이즈 통계(10)에서 가설에 대한 지지도를 논리적으로 사용하였다.

3) 베이즈 인자는 대립가설에 대한 영가설의 우도비로도 정의된다.

Jeffreys(1961)는 영가설(H0)을 지지할 때의 베이즈 인자값들을 아래 표와 같이 제시하였다(정윤식 2018: 112에서 재인용).

H0 의 지지도 정도
   0 to 1/2   1 to 3.2 쉽게 판단하기 어려움
   1/2 to 1   3.2 to 10 조건부적으로 지지
   1 to 2   10 to 100 강하게 지지
   > 2   > 100 결정적으로 지지

이면, 데이터가 H0 을 지지하지 않으므로 H1을 채택한다.

앞 포스팅에서 사용한 사례를 가지고 가설 검정을 해보자.

(변수의 정의)

확률변수 X: 교육수준(이산변수). , x: 대졸 미만  x2 : 대졸 이상

영가설과 대립가설을 구성하기 위해 교육수준의 범주를 두 개로 축소하였다.

확률변수 Y: 소득 수준(이산변수). , y1 : 100만원 미만, y2 : 100~200만원 미만, y3 : 200~300만원 미만, y4 : 300~400만원 미만, y5 : 400~500만원 미만, y6 : 500만원 이상

(사건의 정의)

조건 사건(data): 소득이 월 500만원 이상이다

가설 사건(hypothesis):

만약 소득 수준이 학력 수준을 예측 가능하게 하는 확률변수라면, 어떤 사람이 가장 높은 소득계층에 속한다면, 그는 대졸 이상일 가능성이 높다. 반면에 그가 대졸 미만일 가능성은 낮다. 그렇다면 영가설(H0)과 대립가설(H1)은 다음과 같이 제시될 수 있을 것이다.

H0 : 그의 교육수준이 대졸 미만이다.    H1 : 그의 교육수준이 대졸 이상이다.

학력과 소득의 결합확률표

대졸 미만 대졸 이상 합계
100만원 미만 0.0693 0.0070 0.0763
100~200만원 미만 0.1366 0.0246 0.1612
200~300만원 미만 0.2125 0.0507 0.2632
300~400만원 미만 0.1347 0.0433 0.1780
400~500만원 미만 0.1235 0.0486 0.1721
500만원 이상 0.0845 0.0647 0.1492
합계 0.7611 0.2389 1.00

(2016년 안산시 사회조사 자료)

  • 영가설의 사전확률()과 대립가설의 사전확률():

  • 영가설의 우도()와 대립가설의 우도():

  • 분모(결합확률의 합)

  • 영가설의 사후확률()과 대립가설의 사후확률():

  • 사후교차비를 사전교차비로 나눈 값:

  • 영가설의 사후확률 대 사전확률 비(지지도)와 대립가설의 사후확률 대 사전확률 비(지지도):

  • 우도비(Likelihood ratio):

세 가지 다른 방식으로 베이즈 인자를 구했는데, 그 값이 모두 0.41로 동일하다. 영가설에 대한 베이즈 인자 값이 1보다 작으므로 대립가설을 채택한다. 즉, 소득이 500만원 이상인 사람은 학력이 대졸 이상일 가능성이 높으며, 교육 수준은 소득 수준에 영향을 미친다고 결론을 낼 수 있다. 참고로 우도비는 사후확률을 계산하지 않아도 되기 때문에 베이즈 인자를 구하는 가장 손쉬운 방법이다.

베이즈 추론에서 베이즈 인자에 기초한 베이즈 모형 비교가 가설검정의 유일한 방법은 아니다. 신용구간을 사용하는 베이즈 모수 추정도 가설검정에 사용될 수 있으며 베이즈 인자 접근보다 풍부한 정보를 제공한다. 다만 신용구간은 베이즈 인자에 비해 계산이 복잡하다. (2020-11-13)