디지털 시대의 사회조사 전문가

skopos_tmimatos

신입생들을 면담했더니 몇몇이 ‘사회조사분석사’라는 자격증에 관심을 보였다. 우리 학과 졸업생 중 사회조사분석사 자격증을 딴 학생들이 심심치 않게 눈에 띄는 걸 보면 그 자격증에 대한 학생들의 관심이 어제오늘이 아니었던 것 같다.

그런데 사실 나는 그 자격증의 실효성은 물론이고 시대적 적합성에 대해 무척 회의적이다. 사회조사방법과 사회통계학에 대한 지식을 테스트하는데 그 내용이 많이 낡았다. 기존에 개설된 관련 과목들을 제대로 수강했으면 누구나 합격할 수 있는 내용과 수준이다. 문제는 그것이 현장에서 사회조사자(social researcher)가 수행해야 하는 역할과의 불일치가 너무 심하다는 사실이다. (통계청 사이트의 사회조사분석사 검정자격기준을 참고하기 바람)

사회조사분석사가 1급과 2급으로 나누어 있듯이 사회조사자에도 다양한 수준이 있을 것이다. 하지만 오늘날과 같은 디지털 시대에 사회조사자가 갖춰야할 전문적 지식과 능력은 다음과 같지 않을까?

사회조사자는 (1) 무엇보다 주어진 과제를 연구문제(research question)로 번역할 수 있어야 할 것이다. 사회조사는 규칙적인 사회 현상(social regularities)에 관련된 의문이나 쟁점에 대한 해답을 얻는데 필요한 실증적 근거를 만들거나 찾는 작업이다. 규칙적인 사회현상에는 사회문제(social problems), 사회적 쟁점(social issues), 사회적 의문들(social questions), 혹은 사회학적 의문이나 쟁점(sociological questions or issues)이 포함될 수 있다. 사회현상에 대해, 왜 그럴까, 어떤 상태인가, 앞으로 어떻게 될까, 누구의 주장이 옳은가, 어떤 해법들이 있을까, 어떤 해법이 상대적으로 더 바람직한가 등에 대한 답을 제시하는데 있어 실증적 근거를 확보하는 것이 사회조사라고 할 수 있다.

최근 예측분석학(predictive analytics)에서 다루는 것 같은 개인의 행동에 대한 예측이 사회조사의 연구에 포함되어야 하는가는 논란이 될 수 있다. 전통적으로는 분명 아니다. 그러나 빅데이터 환경의 등장과 더불어 사회조사자가 ‘예측분석’ 능력을 갖추는 것은 거부할 수 없는 트렌드가 될 것으로 예상된다.

사회조사자는 (2) 주어진 의문과 여건 아래에서 무엇이 가장 효과적이고 효율적인 연구방법인지를 판단할 수 있어야 한다. 설문조사, 실험, 심층면접, 참여관찰, FGI, 델파이, 예측(forecasting), 이차분석(secondary analysis), 시나리오 플래닝(scenario planning) 등과 같은 전통적인 연구방법은 물론이고, 구글링(Googling), 모델링(modelling), 컴퓨터 모의실험(computer simulation), 집단지성, 데이터과학(data science), 사회연결망 분석(social network analysis) 등과 같은 새로운 연구방법이 고려되어야 한다.

사회조사자는 (3) 자신이 그러한 방법을 혼자서 수행하거나 타인이나 기관(혹은 기업)과 협업을 통해서 수행할 수 있는 능력이 있어야 한다. 모든 연구방법을 구사할 수 있는 사람은 없을 것이다. 중요한 점은 어떤 방식으로든 최선의 답을 얻어낼 수 있어야 한다는 것이다. 사실 오늘날 그것은 대부분의 경우 협업을 통해서 가능하다. 특히 해당분야 전문가, 통계학자, 수학자, 혹은 컴퓨터 프로그래머와의 협업이 필요하다.

흔히 제도는 변화를 따라오지 못한다. 제도의 장점이면서 동시에 단점은 쉽게 변하지 않는다는 사실이다. 안정적인 시대에는 제도가 힘을 발휘하지만 급변하는 시대에 제도는 시대착오적이 되곤 한다.

현재 사회조사분석사라는 제도가 후자에 해당되지 않나 싶다. 사회조사분석사가 디지털 시대에 있어 사회조사 능력을 보증하는 자격증이 되지 못하고 있다.

 

미래 예측의 세계

A businessman is consulting a crystal ball to foretell the future.

한 동안 나는 대학과 기업체에서 시나리오 기법을 강의했다. 시나리오 기법은 강력한 미래예측 방법 중 하나이다. 대학의 학부에서는 <미래학입문>이라는 타이틀로 시나리오 플래닝을 강의하다가 중단한 지가 4~5년 되었고, 일반인을 대상으로 한 온라인 강의 <미래고객 발굴을 위한 시나리오 플래닝>은 아직 서비스되고 있다.

미래학 수업을 중단한 이유는 세 가지이다.  첫째는 내 관심이 다른 분야로 이동했다. 소셜미디어, 집단지성, 데이터 사이언스와 같은 새로운 분야를 공부하는데도 시간이 넉넉하지 않았다. 둘째는 미래학 강의가 너무 부담스러웠다. 다루어야 할 내용은 많은데 학생들은 한 학기 동안에 시나리오 방법 하나 소화시키기도 힘겨워 했다. 셋째는 미래학의 이름으로 자신의 지적 불성실함을 감추려는 자들이 너무 많다. 그 분야에는 제사보다는 젯밥에 관심이 많은 자들이 넘친다.

그럼에도 불구하고 미래를 읽는 일은 참으로 흥미있다. ‘미래학’은 좀 엉터리일지 몰라도 말이다. 그런데 미래 전망은 과거에도 점성술이나 사주처럼 특별한 능력이 요구되었듯이 지금도 범상치 않은 능력을 요구한다. 그것이 함정이다. 일반인들에게도 그런 능력을 나누어 줄 수는 없을까.

사실 미래예측에 있어 중요한 것은 기술이나 기법이 아니다. 핵심은 문제의식이다. 문제의식은 네 가지 점에 대한 첨예한 인식으로 구성된다. 1) 예측하고자 하는 문제(questioning)에 대한 분명한 규정, 2) 예측하려는 문제의 불확실성(uncertainties)의 정도와 성격에 대한 정확한 인식, 3) 예측에 가용한 자원(available resources)에 대한 파악, 그리고 4) 얼마나 신속하게, 그리고 얼마나 정확하게 예측해야 하는가 하는 요구 조건(demanding conditions)의 인식이 필요하다. 이 네 가지에 대한 대답에 따라 미래전망의 효과적인 접근방법이 달라진다.

예컨대 시나리오(scenario) 방법은, 거시적 전망에 사용되는데, 전체적으로 불확실성이 상당히 크고,  연구자(혹은 연구의 클라이언트)가 관여하여 결과에 영향을 미칠 수 있는 가능성이 거의 없을 때 사용된다. 이 방법은 최적의(optimal) 해법 대신에 강고한(robust) 해법을 찾는다. 즉, 미래가 어느쪽으로 전개되더라도 잘 살아남을 수 있는 방법을 찾는다.

그런데 미래 읽기에 시나리오 방법만 있는 것이 아니다. 사실 미래 예측이나 전망에 가장 널리 사용되는 것은 이론(theory)이다. 각 영역(domain)에는 학자와 전문가들이 오랜 세월에 걸쳐서 개발해 놓은 이론들이 적지 않다. 이론은 보편적이거나 일반적인 인과관계(causal relations)를 담고 있기 때문에 미래 읽기의 강력한 도구가 된다. 이론의 가장 큰 장점은 미래 예측에 비용이 적게 들고 신속한 판단이 가능하다는 것이다.

수학도 이론에 못지 않게 유용할 수 있다. 자주 비현실적인 전제(assumptions)가 문제가 되기는 하지만 수학적 전개는 결정적(deterministic) 예측을 가능하게 해준다. 마르코프 연쇄(Markov chains)나 베이즈 추론(Bayesian inference)은 수학적 전망의 예가 될 수 있을 것이다. 수학적 해답이 불가능할 경우 통계적 근사(statistical approximation)가 유용한 대안이 된다.

아마도 미래 전망에 가장 애용되는 방법 중 하나가 바로 통계학일 것이다. 여론조사를 통한 선거 예측, 전문가 델파이 기법 등의 예를 들 수 있다. 최근 네이트 실버(Nate Silver)는 베이즈 추론을 이용해서 운동 경기와 선거 예측에 놀라운 혁신을 가져오기도 했다(참고로 FiveThirtyEight을 볼 것).

경제 예측(economic forecasting)에는 시계열 분석(time-series analysis)이 자주 사용된다. 그것은 기본적으로 현재까지의 추세(trend)를 연장시켜서 전망하는 외삽법(extrapolation)이다. 이 방법은 불확실성이 비교적 작을 때 유용하다.

컴퓨터와 인터넷이 발달한 후에는, 조건부 모의실험(what-if simulation)(사례: 기후변화 정책 결정을 위한 시뮬레이션)이나 집단지성(사례: Hollywood Stock Exchange)이 널리 사용되고 있으며, 빅데이터가 이용가능하게 되면서 예측 분석(predictive analytics)(사례: 수술 환자의 위험 예측)이 크게 확산되고 있다. 예측분석은 미시적 전망(개인에 관한 전망)에 촛점이 맞춰져 있다.

불확실성이 너무 커지면 백약이 무효하다. 그저 열심히 기도하는 게 상책이다. 그리고 자신이나 자신의 클라이언트가 개입해서 미래의 전개에 영향을 줄 수 있다면 객관적인 미래를 물을 것이 아니라 자신이나 자신의 클라이언트가 원하는 미래를 규명하는 것이 가장 중요할 것이다.

위에 언급된 방법들 중 쉽게 터득될 수 있는 것은 없다. 상당히 깊은 지식과 실전 경험이 필요하다. 그러나 그렇다고 무지가 양해되지는 않는다.

창조주를 제외하고 불확실성을 완벽하게 다룰 수 있는 자는 없다. 그래도 다행인 것은, 우리가 항상 세상에 애정을 갖고, 부지런히 자신이 지닌 지식과 도구를 갈고 닦으며, 그리고 무엇보다 욕심을 버리면 세상과 사람의 미래가 비교적 잘 읽힌다는 사실이다.

 

(Bayes 학습)(8) 마르코프 연쇄-(3)

이전에 올린 마르코프 연쇄에 관한 글에서 ‘정칙 마르코프 연쇄(regular Markov chains)’에 대해 언급했다. 널리 사용되는 마르코프 연쇄 유형에는 세 가지가 있다. 그 중 하나가 정칙 마르코프 연쇄이고, 다른 두 가지는 ‘에르고딕(ergodic) 마르코프 연쇄’‘흡수(absorbing) 마르코프 연쇄’이다.

알기 쉽게 설명하면, 시간의 흐름에 따라 어떤 객체(물체, 사람, 정신, 기체, 동물, 국가, 기업 등)가 한 상태(state)에서 다른 상태(state)로 이전할 때, 새로운 상태가 바로 직전의 상태에만 의존하면, 우리는 그러한 현상이 마르코프 연쇄의 모형을 따른다고 규정할 수 있다.

그런데 마르코프 연쇄 방식의 상태 이전(state transition)에 대해 흥미 있는 두 가지 가능성을 상상해 볼 수 있다. 하나는 가능한 모든 상태들의 공간(즉, 상태 공간, state space)에서 어느 상태로부터 다른 모든 상태로의 이전이 가능한(단 한 번의 이전에 그렇게 되지는 않더라도) 경우가 있을 것이고, 다른 하나는 일단 어느 상태에 들어가면 그 상태에서 다시는 빠져나오지 못하는 경우가 있을 것이다. 전자가 에르고딕 마르코프 연쇄(ergodic Markov chains)이고, 후자가 흡수 마르코프 연쇄(absorbing Markov chains)이다.

이전 글에서 소개한 정칙 마르코프 연쇄는 에르고딕 마르코프 연쇄의 부분집합이다. 추이행렬(transition matrix)의 거듭제곱이 오직 양의 원소들(positive elements)만 가질 때 그러한 마르코프 연쇄를 정칙 마르코프 연쇄라고 부른다.

상태의 수가 유한할(finite) 때, 다음 두 가지 조건을 충족하면 마르코프 연쇄는 에르고딕(ergodic)하다.

  1. 마르코프 연쇄가 기약적(irreducible)이어야 한다. 마르코프 연쇄가 기약적이려면 상태 공간에 흡수 상태(absorbing state)가 없어야 한다. 흡수 상태란 그 상태에 들어가면 빠져나올 수 없는 상태를 말한다. 흡수 상태가 없으면 더 이상 줄일 수 없다(irreducible)고 표현한다. 한 상태에서 어떤 다른 상태로 언젠가 갈 수 있으며, 그 경우 그 상태들이 하나의 집단을 이루고 있는 것으로 간주될 수 있기 때문이다.  기약적(irreducible) 마르코프 연쇄는 수학 기호를 사용하여 다음과 같이 표현할 수 있을 것이다.

즉, 모든  쌍(pair)에 대하여 마르코프 연쇄가, 초기상태(에서 궁극적으로() 어떤 상태(에 도달할 확률이 양이 되는 경우 이를 기약적(irreducible)이라고 말한다. 상태 공간에 흡수 상태가 하나라도 있으면 당연히 기약적이 될 수 없을 것이다.

  1. 기약적인 마르코프 연쇄(irreducible Markov chain)가 비주기적(aperiodic)이어야 한다. 어느 상태에서 일정한 주기(period)로 그 상태로 돌아가면 주기적(periodic)이라고 부르고, 같은 상태로 돌아오는 모든 시간(주기)들의 최대공약수(gcd)가 1뿐이면 공약수가 없으니 비주기적(aperiodic)이라고 부른다. 이를 아래와 같이 수학적으로 표현할 수 있을 것이다.

즉, 만약 모든 에 대하여, 초기 상태가 일 때 다시 에 도달할 확률이 양수이고, 거기에 해당되는 모든 시간의 최대공약수(gcd)가 1이면(즉, 그 시간들의 배열이 1의 배수, 2의 배수, 3의 배수….중 1의 배수에만 모두 포함되면) , 마르코프 연쇄가 비주기적(aperiodic)이라고 한다.

에르고딕 (마르코프 연쇄) 정리(Ergodic Markov Chains Theorem)는 다음과 같다. 에르고딕 마르코프 연쇄에 대해서 가 성립하는 유일한 확률 벡터 가 존재하며, 는 엄격하게 양수이다(정칙 마르코프 연쇄에서 보았던 정상상태의 공식이다). 를 충족하는 어떤 행 벡터(row vector)도 의 배수이다. 를 충족하는 어느 열 벡터(column vector) 도 상수 벡터(constant vector)이다.

에르고딕성(ergodicity)은 여러 학문 분야에서 분석적 잠재력이 크게 평가되고 있다. 년 전에는 일군의 통계물리학자들이 이 개념을 원용해서 우리나라에서 주요 성씨들의 분포를 에르고딕 분포와 비에르고딕 분포로 분류하기도 했다. 그들은 김해 김씨처럼 전국에 퍼져 있는 성씨는 에르고딕 분포라고 분류하였으며, 학성(울산) 김씨처럼 특정 지역에 집중되어 있는 성씨는 비에르고딕 분포로 분류하였다(참고: Matchmaker, Matchmaker, Make Me a Match, 2014)

흡수 마르코프 연쇄도 에르고딕 마르코프 연쇄 못지 않게 널리 응용된다. 한번 들어가면 빠져 나오지 못하는 상태를 흡수 상태(absorbing state)라고 하며, 마르코프 연쇄가 하나 이상의 흡수 상태를 포함하고, 유한한 수의 단계를 거쳐 비흡수 상태에서 흡수상태로 갈 수 있으면 흡수 마르코프 연쇄(absorbing Markov chains)이다. 마르코프 연쇄의 흡수 상태를 행렬로 표현하면, 그 상태에 대응하는 행이 주대각선(main diagonal)의 값이 1이고, 다른 모든 값이 0이다.

그런데 흡수상태(absorbing state)와 정상상태(stationary state)를 혼동하지 않아야 할 것이다. 흡수상태란 빠져나올 수 없는 상태를 말하는 것이지, 정상상태처럼 추이행렬의 거듭제곱이 극한 행렬(limiting matrix)에 근사함(approach)을 함축하지는 않는다.

그렇다고 흡수 마르코프 연쇄에 극한 행렬이 없는 것은 아니다. 만약 가 흡수 마르코프 연쇄의 추이행렬이고, 가 표준적인 형식을 갖추고 있다면(in standard form), 다음과 같은 조건을 만족하는 극한 행렬  가 존재한다. 수식으로 표현하면,

흡수 마르코프 연쇄의 추이행렬은 다음과 같은 표준형(standard form)으로 표시된다.

standard_form

Abs.는 흡수 상태, NA는 비흡수 상태를 나타낸다. 모든 흡수 상태를 모든 비흡수 상태들보다 앞에 위치시킨다. 행렬을 4분하면, 좌상의 제1사분면이 단위행렬(Identity Matrix)이고 우상의 제2사분면은 모두 0으로 채워지며, 좌하의 제3사분면의 sub-matrix를 R, 우하의 제4사분면의 sub-matrix를 Q로 표시한다.  예컨대,

여기서 좌상의 제1사분면은 단위행렬 이며, 제2사분면은 에서 보듯이 모두 0으로 채워지고, 제3사분면의 은 R, 제4사분면의 은 Q이다.

이 R과 Q가 중요하다. 그것들로부터 극한행렬 을 구할 수 있다. 위에서 보듯이

standard_form

이다. 위의 사례를 가지고 극한행렬을 계산해 보면, 다음과 같이 나올 것이다.

공식을 적용하지 않고도 표준형의 추이행렬

를 거듭제곱해가면, 아마도  혹은  정도에서는 동일한 극한행렬을 얻을 것이다.

1986년 사회연결망 이론가인 John Skvoretz는 Thomas Fararo와 함께 사회연결망에서 지배 위계(dominance hierarchies)의 형성을 모델링했다. (1986년 나는 University of South Carolina 대학원 사회학과에서 Skvoretz 교수로부터 사회이론 수업을 들었다. 그는 저명한 수리사회학자였다.) 그들의 주장은 다음과 같다.

i가 k를 공격했는데, j가 옆에서 그것을 목격했다. 처음에는 세 사람 사이에 지배 관계가 없었다. i가 k를 지배할 확률이 이고, i가 j를 지배할 확률이 이며, j가 k를 지배할 확률도 라면, 장기적으로 세 사람 사이에는 지배적인 관계가 되던지, 아니면 상호 견제하는 관계라는 두 가지의 흡수 상태에 도달하게 될 것이다. 그리고 각각의 흡수 상태에 도달할 확률은 와 에 달려 있다. (자세한 내용은 Fararo, T.J. and J. Skvoretz. 1986. “E-State Structuralism: A Theoretical Method.” American Sociological Review 51: 591-602을 참조).

이제 베이즈 추론에 사용되는 MCMC (Markov Chain Monte Carlo) 시뮬레이션을 이해하는데 필요한 마르코프 연쇄에 관한 기초 지식을 충분히 얻었다고 판단된다. 다음에는 몬테 카를로 방법(Monte Carlo Methods)에 관해 알아봐야겠다.

<참고 문헌>

Grinstead, Charles M. & J. Laurie Snell. 1997. Introduction to Probability, 2nd revised ed. American Mathematical Society. Chapter 11. (마르코프 연쇄에 관해 체계적인 이해를 도와주는 아주 좋은 문헌임. 책 전체가 pdf 파일로 공개되어 있음)

Fararo, T.J. and J. Skvoretz. 1986. “E-State Structuralism: A Theoretical Method.” American Sociological Review 51: 591-602

마르코프 연쇄에 관해 두 사람의 유튜브 강의가 아주 유용했다.

PatrickJMT   Markov Cahins (Part 1~9)

Brandon Foltz의 Finite Math의 마르코프 연쇄에 관한 강의 여러 편. 

(Bayes 학습)(8)대학에서 성공적으로 공부하려면….

앞 포스팅에서 학습한 마르코프 연쇄의 정상 상태를 현실 문제에 적용해 보자.

대학 신입생들은 대체로 두 가지 이유로 전공을 선택한다. 평소의 관심 혹은 수능 성적이다.

대학 입학 후 첫 학기가 끝났을 때 신입생들의 전공 관심 정도는 어떻게 될까? 어떤 요인이 주로 영향을 미칠까?

먼저 대학에 들어올 때의 전공 관심 정도와 처음 듣는 전공 과목 담당 교수의 교수 능력의 영향을 살펴보자. 학원 배치표에 따라 전공을 선택하는 학생들이 많은 우리 나라의 현실을 볼 때 학과 신입생들이 지닌 전공 관심의 비율은   정도가 되지 않을까? 전공에 관심을 가진 학생이 20%, 그렇지 않은 학생이 80%.

그런데 첫 전공 수업에서 교수 능력이 뛰어난 교수를 만났을 경우 전공수업의 효과는 다음과 같은 행렬로 나타낼 수 있을 것이다.

즉, 전공에 대해 관심 있는 학생이 수업을 듣고 전공에 대해 더욱 관심을 갖게 될 학률이 0.8, 전공에 대해 관심 있는 학생이 실망하여 전공에 대한 관심을 잃을 확률이 0.2, 그리고 전공에 대해 관심이 없는 학생이 전공에 관심을 가질 확률이 0.6, 전공에 대해 관심이 없는 학생이 계속 전공에 관심이 없을 확률이 0.4. 그 정도면 아주 잘 가르치는 교수(교수 1이라고 하자)가 아닐까?

반면에  수업을 잘 지도하지 못하는 교수(교수 2라고 하자)가 첫 전공 수업을 가르쳤을 경우, 그 추이행렬은,

 정도가 되지 않을까?

교수 1과 교수 2가 첫 전공 수업을 가르친 후 얼마 지나면 정상 상태(steady state)에 도달할 것이다. 지난 포스팅에서 나온 공식 를 이용해서 정상 행렬을 구해보면, 교수 1의 정상 행렬은 가 될 것이고, 교수 2의 정상 행렬은 이 될 것이다. 교수 1의 수업을 들은 학생들의 경우 75%가 전공에 대해 관심을 갖게 되고, 교수 2의 수업을 들은 학생들은  33%가 전공에 대해 관심을 갖게 될 것으로 예상된다. 교수의 영향이 무척 크다. 그리고 흥미 있게도 대학에 들어오면서 신입생들이 얼마나 전공에 관심에 가지고 있는가는 정상 상태에 영향을 미치지 못한다.

학생들 자신의 태도도 중요한 결정요인일 수 있을 것이다. 어떤 연유로 학과를 선택했든, 개방적인 자세를 가진 학생들은 첫 전공 수업을 듣고 전공에 관심을 갖게 될 것이고, 비개방적인 자세를 가진 학생들은 첫 전공 수업을 듣고도 전공에 관심을 갖지 않을 것이다. 그러한 학생들의 자세는 전공에 대한 관심 수준을 결정하는데 얼마나 영향을 미칠까?

전공에 대한 학생들의 개방적 태도를 추이행렬로 다음과 같이 표현해 볼 수 있지 않을까?

, , ,

첫번째 추이행렬은 아주 비개방적인 태도를 지닌 학생의 경우로, 수업을 듣고 전공에 대해 무관심에서 관심으로 전환될 확률이 10%밖에 되지 않는다. 두번째 추이행렬은 그 전환 가능성이 20%, 세번째 추이행렬은 40%, 그 다음은 60%, 마지막은 전환 가능성이 80%이다. 아래 행(row)의 숫자가 커질수록 점점 개방적이 됨을 의미한다. 마지막 두 추이행렬은 아주 개방적인 학생들일 것이다.

그런데 이 추이행렬을 가진 학생들이 동일한 교수의 전공수업을 수강했다고 가정하고 그들의 정상행렬을 계산해 보면 각각 다음과 같다.

,

입학 초기에 전공에 대한 관심이 어떤 상태인가에 관계없이, 전공에 대해 개방적인 태도를 지닌 학생의 전공에 대한 관심 비율(학문에 대한 관심 중 전공에 대한 관심이 차지하는 비율: 전공 대 비전공으로만 단순화시켜서 표현함)이 최대 80%나 되며, 전공에 대해 비개방적인 태도를 지닌 학생의 전공에 대해 관심 비율은 33%에 불과하다.

전공에 대한 관심은 전공 성적과 높은 상관관계를 갖고 있다. 다시 말해 신입생이 전공에 대해 얼마나 개방적인 태도를 갖고 있는가가 결국 전공에서의 학업성취에 커다란 영향을 미칠 것으로 추정된다.

물론 앞에서 살펴본 것처럼 전공 첫 수업을 어떤 교수가 가르치는가도 중요한 결정요인일 것이다. 여기서 교수 사례는 분석단위가 학과이고, 학생 사례는 분석단위가 개별 학생이다. 이점 때문에 다소 혼란스러울 수 있을 것이다.

이 예상들은 실증적인 조사 자료 없이 마르코프 연쇄 모형을 이용하여 수학적으로 도출되었다. 실제 조사를 해보면 예상과 많이 다를까? 사회과학적 추론에 있어 마르코프 연쇄의 잠재성이 아주 커보인다.

(Bayes 학습)(7)마르코프 연쇄-(2)

광고 후 3주일째 Brand A의 오렌지 쥬스 시장의 점유율은 어떻게 될까? 아래 식에서 보는 것처럼 86.96%이다.

시장 점유율이 여전히 증가하고 있으나 첫 두 주만큼 인상적이지는 않다. 광고효과가 동일하다고 가정하면 광고 후 4주부터 10주째까지 Brand A의 오렌지 쥬스 시장의 점유율은 각각 아래와 같이 예상된다.

Brand A의 시장점유율은 광고 후 5주차에 87.50%(반올림한 결과)에 도달한 이후 10주차까지 미세한 증가가 있으나 반올림하면 여전히 87.50%이다! 즉, Brand A의 시장점유율은 광고 후 5주차에 거의 불변상태에 도달할 것으로 예상된다(이는 대단히 흥미 있는 현상이다). 따라서 Brand A의 시장점유율은 광고 후 초반의 급속한 증가에도 불구하고 그 증가 속도가 빠르게 감소되되기 때문에 결코 100%에 도달하지 못할 것으로 판단된다.

이 사례는 마르코프 연쇄에 있어 정상 상태(steady state, stationary state, invariant state)가 존재함을 보여준다. 마르코프 연쇄에서 정상 상태에 도달하는 과정을 정상 상태에 수렴한다(convergence)고 표현한다.

그렇다면 모든 마르코프 연쇄가 정상 상태의 특성을 갖고 있는가? 그것은 아니다. 추이행렬(transition matrix)이 정칙(regular)인 마르코프 연쇄(그것을 정칙 마르코프 연쇄, regular Markov chains라고 부른다) 같이 특정한 유형의 마르코프 연쇄만이 그러한 속성을 갖고 있다. 어떤 추이행렬의 거듭제곱한 결과가 오직 양의 원소(only positive entries)만을 지닌 행렬일 때 그 추이행렬은 정칙이다.

정칙 마르코프 연쇄는 다음과 같은 속성을 갖는다.

(1)   (는 정상 행렬, 는 추이행렬)   이 공식으로 정상 행렬(stationary matrix)을 구할 수 있다.

(2) 초기 행렬  에 어떤 값이 주어지든 상태 행렬들(state matrices) 는 정상 행렬 에 수렴된다.

(3)추이행렬의 거듭제곱  는 하나의 극한 행렬(limiting matrix) 에 수렴한다. 의 각 행(row)은 정상 행렬 와 같다.

 공식을 이용해서 위 광고의 정상 행렬을 구해보자.

이 식을 과 에 관해서 풀면 다음 두 식을 얻는다.

 —–(1)

 —–(2)

그리고  —–(3)

(1)식과 (2)식 중 하나와 (3)식을 가지면 과 를 구할 수 있다. (1)과 (3)을 가지고 풀자.

(3)의 양변에서 를 빼면, 

이 것을 (1)에 대입하면,

양변에서 를 더하고 0.9를 우변으로 옮기면,

양변을 0.8로 나누면,

 이 된다. 이 값을 (3)에 대입하면, 이 구해진다. 이 값들로 행렬을 구하면,  이다. 이를 소수로 전환하면 이다.

위에서 일일히 행렬 계산을 통해서 구했던 정상 행렬이 공식을 사용해서 훨씬 쉽게 구해졌다.

정상 행렬(stationary matrix). 정상 상태(stationary state), 정상 분포(stationary distribution)은 베이즈 추론 과정의 MCMC (Markov Chain Monte Carlo) 시뮬레이션에 적용된다. 다음 글에서 마르코프 연쇄에 대해 조금만 더 알아보자.

황금측백, 그리고 개념….

SAMSUNG CSC
황금측백

지난 주에는 정원의 꽃나무들에 퇴비를 듬뿍 주었다. 그러고나니 비가 많이 내렸다. 꽃나무들이 오랜만에 포식을 했으리라. 대문부터 현관까지 도열한 황금측백 나무들이 옷을 갈아 입는다. 잎의 끝부분을 제외하고 모두 연초록빛으로 바뀌고 있다. 봄이 온 것이다.

틈만 나면 막내에게 강의(?)를 해준다. 그렇게 학구적이 아닌 녀석인데 내 말에 귀를 기울여 주니 고맙다.

어제 밤에는 개념, 모형, 이론, 그리고 지식에 대해 이야기 했다. 아래는 내 이야기에 관한 간략한 요약이다.

  • 인간은 생각하는 존재이다. 그런데 인간이 생각하는 데 사용하는 도구가 무엇일까? 무엇보다도 개념(concepts)이다.
  • 개념이란 무엇일까? 개념은 공통적인 특질을 지닌 대상들을 하나로 묶어주는 단어이다. 책상, 걸상, 사람, 여자, 남자, 책, 연필, 컴퓨터, 스마트폰, 볼펜 등등.
  • 개념은 인간으로 하여금 어떤 대상을 다른 대상과 구분할 수 있게 도와준다. 남자라는 개념은 남성을 여성으로부터 구분시켜주고, 사람이라는 개념은 신이나 짐승처럼 사람이 아닌 존재로부터 사람을 구분할 수 있게 해준다.
  • 개념의 저수지(reservoir)가 풍부한 사람은 세상을 정밀하게 파악할 수 있다. 반면에 개념의 저수지가 빈약한 사람은 대상들이나 현상들을 구분해내는 능력이 떨어진다. 그래서 흔히 사용되는 “개념 없는 사람”이란 대상의 구분 능력이 떨어지는 사람을 가리키고, 반면에 “개념녀”라는 말은 무엇이 중요한 것인지를 잘 인식해서 말하고 행동하는 여성을 가리킨다.
  • 책을 읽고 공부를 하는 것은 개념의 저수지를 채우는 일이다. 대학을 다니는 것도 동일한 이유이다.
  • 개념들이 논리적으로 연결되면 주장이나 설명이 된다. 이론이란 세상에 대한 간략한 설명(혹은 주장)이다. 무엇보다도 어떤 설명이나 주장이 없으면 이론이 아니다. 설명이나 주장은 반드시 인과관계(causality)를 포함한다. 인과관계란 원인과 결과에 대한 서술이다. 그래서 이론은 세상을 이해하게 해준다. 또한 이론은 간략해야 한다. 세상 자체가 복잡해서 머리가 아픈데 세상을 설명하는 이론까지 복잡하면 그것은 세상에 대한 인식에는 별로 도움이 되지 않고 머리만 더 아프게 할 뿐이다. 그리고 무슨 현상이든 ‘세상’이 될 수 있다. ‘화학적 현상’이 ‘세상’이 되면 화학이론이 되고, ‘생물학적 현상’이 ‘세상’이 되면 생물학 이론이, ‘물리학적 현상’이 ‘세상’이 되면 물리학 이론이 된다.
  • 복잡한 세상을 간략하게 묘사해서 이해를 도와준다는 의미에서, 그리고 개념들이 결합되 있다는 점에서 모형(model)은 이론과 닮았다. 지구 모형, 자동차 모형, 확률 모형, 회귀 모형 등등. 그러나 모형은 그 안에 꼭 인과관계(causality)를 포함할 필요가 없다. 통계학에서는 모형을 많이 사용하는데, 그 중 회귀 모형(regression model)과 같은 이론적인 모형(theoretical model)은 인과관계를 포함하지만, 정규분포, 멱함수 분포, t 분포, 베타분포, 균일 분포 등과 같은 확률 모형(probability models)은 인과관계를 포함하지 않는다.
  • 지식(knowledge)은 정보(information)와 구분될 수 있다. 물론 넓은 의미로 정보는 지식을 포함하지만 말이다. 지식은 반드시 체계적인 내용을 갖추어야 한다. 그래서 이론이나 모형은 지식의 중요한 부분이 되곤 한다. 지식과 달리 파편적이거나 단편적인 내용도 정보가 될 수 있다. 대한민국의 수도는 서울이다는 정보이지만 지식이 아니다. 공무원 시험에 사용되는 두꺼운 “일반 상식” 책에는 단편적인 정보만 가득 담겨있지 체계적인 정보인 지식은 거의 없다.
  • MIT 교수였던 Machlup은 다음과 같이 말했다.

“정보는 그냥 듣기만 해도 얻을 수 있지만, 지식은 오직 생각을 통해서만 얻을 수 있다(Information is acquired just by being told, whereas knowledge is acquired only by thinking).”

지식은 오직 생각이라는 과정(흔히 그것은 수고스럽다)을 거쳐서 얻어진다. 예컨대 대학 수업에서 교수는 지식을 강의하지만, 학생들에게 교수의 강의는 정보에 지나지 않곤 한다. 학생들이 교수의 강의를 자신의 지식으로 만드는 유일한 길은 그 강의를 곰씹어 생각하는 것이다.

막내에게 내 이야기가 단순히 정보에 그치지 않고 지식이 되었으면 좋겠다. (윤영민, 2016/03/07)

 

 

(Bayes 학습)(3) 베이즈 정리의 응용성

<Bayes 학습> (1)에서 도출한 아래의 베이즈 정리(Bayes’s Theorem: 이하 Bayes Theorem)는 놀라운 응용성을 갖는다.

                              (1)

베이즈 정리를 보다 일반적으로 사용하기 위해 A를 로, B를 로 바꾸어 아래와 같이 다시 쓰자.

                                   (2)

  • 어떤 불확실한 현상도 가 될 수 있다. 그것은 미지의 모수(unknown parameters)일 수도 있고, 하나의 가설(hypothesis)이나 모형(model)일 수도 있고, 하나의 데이터 점(data point)일 수도 있다.  한 마디로 베이즈 정리는, 어떤 현상에 관하여 우리가 지니고 있는 믿음(prior beliefs)을, 수집된(관찰된) 데이터(data)에 비추어서 그것을 어떻게 갱신하여(update) 새로운 믿음(posterior beliefs)을 갖게 되는가를 말해준다. 즉, 하나의 귀납법적 사유 방식이다. 그것을 다음과 같이 도식화하여 표현할 수 있을 것이다.1  

믿음(prior beliefs)  –> 관찰된 데이터(data) –> 갱신된 믿음(posterior beliefs)

이 도식을 아래와 같이 표현할 수도 있다.

베이즈 정리가 응용될 수 있는 보다 구체적인 사례를 들어보자.

  • 두 그릇의 쿠키가 있다. 그릇 I에는 30개의 바닐라 쿠키와 10개의 초콜렛 쿠키가 들어있고, 그릇 II에는 바닐라 쿠키와 초콜렛 쿠키가 각각 20개씩 들어있다. 만약 당신이 그릇을 쳐다보지 않고  한 그릇으로부터 쿠키 하나를 집었는데 그것이 바닐라 쿠키였다. 그렇다면 그 쿠키가 그릇 I로부터 집었을 확률은 얼마인가?2
  • Let’s Make a Deal이라는 게임쇼는 다음과 같이 진행된다. 사회자 Monty Hall은 출연자에게 세 개의 닫힌 문을 보여주면서, 그중 하나의 문 안에는 자동차가 상품으로 들어있고, 다른 두 문 안에는 땅콩버터나 장식용 손톱 같은 훨씬 덜 값나가는 상품이 들어 있다고 설명한다. 게임은 출연자가 자동차가 들어 있는 문을 알아맞추는 것이다. 만약 출연자가 자동차가 들어 있는 문을 고르면 자동차를 상품으로 받게 된다. 상품은 무작위로 배치되어 있다. 출연자가 문 하나를 고르고 나면, 그 문을 열기 전에 Monty는 나머지 두 문 중 자동차가 들어있지 않은 문을 열어보이면서 출연자에게 기존의 선택을 바꿀 의사가 있는 지 물어본다. 과연 출연자는 자신의 선택을 그대로 유지하는 것이 유리할까요 아니면 다른 문을 선택하는 것이 유리할까요?3
  • 한 철도회사가 자사 소유의 기관차들에 일련번호를 붙였다. 그런데 어느 날 당신이 60이라는 번호가 붙은 기관차를 봤다면, 그 철도회사는 몇 대의 기관차를 갖고 있겠는가?4
  • “벨기에에서 제조된 1유로짜리 동전을 세워서 250회 돌렸더니 앞면이 140회가 나오고, 뒷면이 110회가 나왔다. 이 실험 결과는 그 동전이 한쪽으로 편향되게 만들어졌다는 증거가 될 수 있는가?5
  • 라플라스(Laplace, 1825)의 유명한 질문: “역사의 시작을 5천년 전으로 간주한다면, 인류는 24시간 마다 해가 뜨는 현상을 총 1,826,213번 관찰했다.  이 증거로 볼 때 내일 다시 해가 뜰 확률은 얼마나 되는가?”6
  • 어떤 사람이 word processor에 ‘radom’이라고 입력했다. word processor는 그 단어를 어떻게 읽어야 하나? 그것은 ‘random’이라는 단어의 오기일 수도 있고, ‘radon’이나 혹은 다른 단어의 오기일 수도 있으며, 아니면 사용자의 의도적인 표기이거나 조어일 수도 있다. ‘radom’이 실제 ‘random’의 오기일 확률은 얼마인가?7
  • 2000년 11월 미국 대통령 선거를 앞두고 3월초에 발표된 미국 플로리다주 유권자들의 투표 의사에 관한 한 여론조사에 의하면, 509명의 응답자 중 279명이 조지 부시를 찍겠다고 응답했으며, 230명이 엘 고어를 찍겠다고 응답했다. 이 조사결과에 의하면 적어도 플로리다 주에서는 부시가 고어보다 훨씬 많은 지지를 받는 것으로 보인다. 그런데 과연 그 조사결과를 믿을 수 있을까? 참고로 그 전에 발표된 한 조사기관의 예측에 의하면 2000년 대선에서 플로리다주에서 예상되는 공화당 후보의 지지율이 49.1%이며 표준오차가 2.2%이었다. 이 두 가지 조사결과를 결합하면, 실제 플로리다주에서 공화당 후보인 조지 부시의 지지율이 얼마라고 볼 수 있겠는가?8
  • 라틴 아메리카에서 외국의 위협과 사회혁명의 상관관계에 관한 한 연구에서 다음과 같은 자료가 제시되었다. 각 관찰은 한 국가에서 20년 동안에 발생한 사건이다. 아래 표에서 왼쪽 상단의 칸에 있는 1은 볼리비아의 사례이다. 볼리비아는 1935년에 군사적 패배를 했고, 1952년에 사회혁명을 겪었다. 왼쪽 하단의 칸의 2는 멕시코(1910년 사회혁명)와 니카라구아(1979년 사회혁명)이다. 이 자료를 보고, 라틴 아메리카에서는 군사적 패배를 경험하지 않은 나라보다 군사적 패배를 경험하는 나라가 사회혁명을 겪을 가능성이 더 높다고 결론을 내릴 수 있을까?9
revolution no revolution
Defeated and invaded or lost territory 1 7
Not defeated for 20 years 2 74
  • 임의의 노동자를 반도체 제조공정에 배치했을 때 이 노동자로부터 백혈병이 발생할 확률은 일반인의 백혈병 발병률에 비해 현저하게 높은가? 참고로 2008년 한국 산업안전공단의 조사에 의하면, 반도체 제조업 노동자  139,763명 중 백혈병 암 등록자는 총 16명이었다. 그리고 WHO의 2010년 자료에 의하면 우리 나라의 백혈병 발병률은 10만명 당 2.9명이었다.10

이상의 구체적인 사례들에서 보듯이 베이즈 정리는 온갖 종류의 추론이나 추정, 의사결정, 혹은 가설 검증에 응용될 수 있다. 빈도주의 통계학으로 분석할 수 있는 현상은 모두 베이즈 통계로 분석이 가능하며, 빈도주의 통계학으로 하기 어려운 현상들도 베이즈 통계에 의해 가능한 경우가 많다고 말 할 수 있을 것이다.

베이즈 추론은 세상을 이해하는 하나의 관점 혹은 하나의 인식 과정이라고 간주되어야 할 것으로 생각된다. (윤영민, 2016/03/04)

(주석)

  1. Simon Jackman. 2009. Bayesian Analysis for the Social Sciences. Wiley. p. 29
  2. Allen B. Downey. 2012. Think Bayes. Green Tea Press. p. 3
  3. Downey. p.8
  4. Downey. p.23
  5. Downey. p.33
  6. Jackman. p.57
  7. Andrew Gelman, John B. Carlin, Hal S. Stern, David B. Dunson, Aki Vehtari, and Donald B. Rubin. Bayesian Data Analysis, 3rd edition. CRC Press.  p.9
  8. Jackman. p.54
  9. Jackman. p.73
  10. 박종희. 2014. “베이지안 사회과학 방법론이란 무엇인가?” 평화연구 22(1). pp.490-492

(Bayes 학습)(2) ‘확률변수’의 확장

베이즈 정리에 대해 논의하기 전에 확률변수(random variable)에 대해 생각해보자. 베이즈 추론에서 관찰 데이터뿐 아니라 모수(population parameter)도 확률변수로 간주될 수 있다는 말이 기존 (빈도주의) 통계학의 관점에서는 잘 납득이 가지 않는다. 모수는 우리가 알고싶고, 그래서 추론하려고 하는 진리값(예컨대 )인데, 그것이 어떻게 확률변수로 간주될 수 있다는 말인가?

통계학을 배운 지 오래 된 사람들은 아마도 수학적인 변수(mathematical variables)확률변수가 잘 구분되지 않을 것이다. 수학적인 변수는 흔히 로 표현되며, 값이 특정되어 있지 않아 여러 가지 값을 가질 수 있는 문자이다. 그것은 방정식에서는 미지수를 가리키며, 사회과학 이론에서는 변할 수 있는(즉, 여러 개의 값을 가질 수 있는) 개념(혹은 그것이 가리키는 사회현상)을 가리킨다.  그런 의미에서 변수 상수(constant)의 반대 개념이다.

확률변수는 어떤 (통계적) 실험(experiment) 혹은 확률과정(random process)의 결과에 숫자가 부여되는 함수(function)이다. 그리고 이산 확률변수(discrete random variable)는 각 값(value)에 대응하는 확률(probability)을 가지며, 연속 확률변수(continuous random variable)는 확률밀도(probability function)를 갖는다. 고등학교 수학교과서에는 확률변수가 아래와 같이 정의되어 있다.

“한 시행에서 표본공간을 정의구역으로 하는 실수함수(즉 공변역이 실수의 집합인 함수)를 확률변수라 한다.”

예를 들어, 한 동전을 2회 던져서 나오는 앞면의 수(혹은 뒷면의 수)는 확률변수이다. 앞면을 H, 뒷면을 T라고 하면, 표본공간 는,

이다. 앞면의 수를 라고 하면, 의 값은 원소 TT, TH, HT, HH에 대해 0, 1, 1, 2와 같이 대응한다. 그리고가 0일 확률 은 1/4이며, 은 2/4이고, 는 1/4이다. 여기서 앞면의 수 는 확률변수이며, 그 확률변수는 동전 던지기라는 확률 과정에 의해 생성된다. 통상 수학적 변수는 소문자 로 표시되지만 확률변수는 대문자 로 표시된다.

확률변수도 변수의 한 유형이다. 그러나 수학적 변수와는 두 가지 점에서 구분된다. 하나는 확률변수가 어떤 실험이나 확률과정의 결과라는 점이고, 다른 하나는 확률변수의 각 값은 확률 혹은 확률밀도를 갖는다는 사실이다. 확률변수의 각 값과 그에 대응하는 확률을 표나 그래프로 나타내는 것이 확률분포(probability distribution)이다. 확률변수와 달리 수학적 변수는 확률분포를 갖지 않는다.

따라서 확률변수와 확률분포에 관해 생각할 때는, 첫째, 우리가 관심을 갖는 확률변수가 무엇인가, 둘째, 그 확률변수의 값을 생성시키는 확률과정(혹은 통계적 실험)은 무엇인가, 셋째, 그 확률과정의 표본공간(sample space)은 무엇인가, 넷째, 생성된 확률변수는 어떤 값들을 갖는가, 그리고 다섯째, 각각의 확률변수 값에는 어떤 확률(혹은 확률밀도)이 대응하는가(즉, 확률분포는 어떤 모습인가)를 분명히 파악하고 시작해야 한다.

베이즈 추론은 바로 그러한 확률변수와 확률분포의 파악에서부터 출발해야 한다. 왜냐하면, 베이즈 추론은 사전정보(prior)라고 불리는 확률분포를 상정하고, 관찰한 데이터에서 얻은 정보(우도함수, likelihood function)를 가지고 그 확률분포를 갱신하여(update) 사후 (확률) 분포(posterior distribution)를 추정하는 과정이며, 베이즈 추론의 시작과 끝은 (확률) 분포라고 할 수 있기 때문이다. (윤영민, 2016/03/02)

(Bayes 학습)(1) ‘확률’을 새롭게 인식하며

고등학교 수학 교과서에 따르면 어떤 “사건이 일어날 확실성을 수량적으로 나타낸 것”이 확률(probability)이다. 근원 사건이 같은 정도로 일어난다고 가정할 때, 어떤 사건의 확률 P(A)은 사건 A가 일어나는 경우의 수()를 일어날 수 있는 모든 경우의 수(N)로 나눈 값이다. 이것을 수학적 확률이라고 한다.  (참고로 근원 사건이란 더 이상 분해되지 않는 사건을 말한다.)

P(A) = {N_A \over N} .

두 개의 주사위를 동시에 던질 때, 눈의 합이 5로 되는 확률을 예로 들 수 있을 것이다. 전자의 경우를 보면, 표본공간(sample space) N은 6*6 = 36이고, 눈의 합이 5가 되는 사건(event)은 (1,4), (2,3), (3,2), (4,1)의 4 가지이므로 구하는 (수학적) 확률은 4/36 = 1/9이다.

그러나, 현실은 동전이나 주사위 던지기가 아니다. 근원 사건이 같은 정도로 일어난다는 가정이 성립되지 않을 수도 있고(예: 혈액형 유형별 발생 확률), 표본공간 N의 크기가 알 수 없거나 무제한 일 수도 있을 것이다. 그런 경우 수학적 확률을 구하기 어렵거나 심지어 불가능할 것이다. 그럴 때 우리는 통계적 확률로 수학적 확률을 대신한다.

시행의 횟수 n이 커짐에 따라 사건 A가 일어나는 상대빈도(relative frequency) 이 일정한 값 p와 거의 같다고 간주할 수 있을 때, 그 p를 통계적 확률이라고 말한다.

\lim_{n \to \infty}{n_a \over n}=p

상대빈도와 확률 사이에 이러한 관계를 성립시켜주는 것은 대수의 법칙(the law of large numbers)이다. 대수의 법칙에 따르면 통계적 확률과 수학적 확률이 일치한다. 따라서 수학적 확률을 알 수 없을 때 통계적 확률을 대신하고, 상대빈도로 통계적 확률을 근사할 수 있다.

예컨대 100원짜리 동전을 던져서 앞면이 나올 통계적 확률을 구하기 위해서는 실제로 동전을 한 1천번 정도 던져보아야 한다. 만약 정말로 1천번을 던져서 앞면의 수가 501번이 나왔다면 통계적 확률이 1/2이라고 말할 수 있다.

여기까지가 중고등학교에서 배운 확률의 정의이다. 이 확률의 정의를 가지면 현실의 문제를 다루는 데 충분할까?

사실 현실에서 상식적으로 확률을 그런 의미로 사용하는 경우는 드물다. “우리 아이가 A 대학에 붙을 확률이 얼마나 될까요?” “북한이 남한에 대해 미사일 공격을 가해 올 확률이 얼마나 될 거라고 생각하세요?” “내일 오전에 비가 내릴 확률이 얼마나 될까요?” “소풍 가는 날 맑은 날씨일 확률이 얼마나 될까요?” “더민주당이 총선 이후 다시 제1야당이 될 확률이 얼마나 될까요?” “안철수 의원이 새정치국민연합을 탈당할 확률이 얼마나 될까요?” “백혈병 환자의 5년 이상 생존율이 얼마나 되나요?” “말기 폐암 환자가 1년 이상 생존할 확률이 얼마나 되나요?” “저 백혈병 환자가 1년 이상 생존할 확률이 얼마나 될까요?” “에이즈 검사 결과가 양성으로 나온 저 남자가 실제로 에이즈에 감염되었을 확률은 얼마나 되나요?” “그녀가 사업에 성공할 확률이 얼마나 될까요?” 이 사례들은 모두 정당한 확률적 의문이다.

즉, 이 사례들에서 보듯이 현실에서 사람들은 확률을, 반복적이지 않은 사건의 객관적인 발생 가능성을 가리키는데 사용하기도 하고, 또 어떤 사건의 발생 가능성에 대한 주관적인 믿음의 정도(degree of belief)나 지식의 상태(state of knowledge)를 가리키는데 사용하기도 한다.

수학적 확률이나 상대빈도(relative frequency)은 반복적으로 많은 횟수 발생하는 사건의 객관적인 발생 가능성을 숫자로 나타내는 데 유용함이 분명하다. 그러나 희소한 사건의 발생 가능성, 혹은 반복적이지 않은 사건의 발생 가능성은 어떻게 숫자로 표현할까? 혹은 어떤 사건의 발생 가능성에 대한 전문가의 확신을 추정이나 예측에 반영할 수 있는 길은 없을까?

베이즈 추론(Bayesian inference)은 그러한 상상에 유용한 접근 방법이 될 수 있다. 관찰값이 주어졌을 때, 그것으로부터 관찰이 불가능한 모수(parameters)의 값을 추정하거나, 또는 관찰값이 주어졌을 때, 그것으로부터 미래에 혹은 다른 사례에서 동일한 현상이 나타날 가능성을 예측하는데 대단히 유용할 수 있다.

베이즈 추론은 “관찰값이 주어졌을 때”, 다시 말해 어떤 특정한 조건이 주어졌을 때, 모수를 추정하거나 미지의 수를 예측하기 때문에 근본적으로 조건부 확률(conditional probability)이다. 조건부 확률을 복습하면서 베이즈 정리를 도출해 보자.

사건 A가 일어났을 때의 사건 B의 조건부 확률 P(B|A)는

 , P(A) ≠ 0

으로 표시된다. 여기서 양변에 P(A)를 곱하면,

가 된다. 이것은 바로 확률의 곱셈정리이다.

그런데 집합의 교환법칙에 따르면,  이므로,

가 된다. 여기서 양변을 P(A)로 나누면,

   , P(A) ≠ 0

베이즈 정리(Bayes Theorem)가 도출되었다. 말로 풀어보면, 사건 A가 일어났을 때 사건 B가 일어날 조건부 확률 P(B|A)은 사건 B가 일어날 확률 P(B)에, 사건 B가 일어났을 때 사건 A가 일어날 조건부 확률 P(A|B)를 곱한 값을 사건 A가 일어날 확률 P(A)로 나눈 값과 같다. 베이즈 추론은 이 베이즈 정리에서 출발한다. 이 정리가 그렇게 중요할 줄은 고등학교 때는 물론이고, 대학 수학 시간이나 대학원 통계학 시간에도 상상하지 못했다. 다음에는 베이즈 정리를 좀 깊이 이해해 보자. (윤영민, 2016/02/29)

끝낼 수 없는 도전

SAMSUNG CSC
데이터사이언스 워크숍

필암문화원에서 어제(토요일) 오후 4시부터 오늘 오후 2시까지 마라톤 워크숍을 가졌다. 대구에서 온 전채남 박사와 김희대 박사, 서울에서 온 나의 대학원 학생들(유자현, 정성호, 구경모), 그리고 막내와 내가 참여했다. 나는 베이즈 통계 부분을 리드하고 막내는 파이썬 프로그래밍 파트를 리드했다.

두 명씩 서로 도와가면서 학습하는 페어 프로그래밍(pair programming) 방식으로 진행했다. 참가자들이 준비를 잘 해온 덕분에 상당히 많은 내용을 소화할 수 있었다.

워크숍의 목표는 지난 겨울방학 동안에 공부한 베이지안 통계(Bayesian statistics)와 파이썬(Python)(프로그래밍 언어)을 총복습하는 것이었다. 빈도주의(frequentism)라고 불리는 기존의 확률과 통계 분석에만 익숙한 사람들이 베이즈주의(Bayesianism)에 입문하기가 쉽지 않다. 확률에 대한 개념이 다르고, 분석 과정도 다르며, 수학과 컴퓨터 지식도 더 많이 요구된다. 또한 SAS와 같은 통계패키지를 사용하면 굳이 프로그래밍 언어를 배우는 수고를 하지 않아도 베이지안 통계분석을 실행할 수 있지만. 프로그래밍을 하면서 배우는 것이 베이지안 통계를 더욱 철저히 배울 수 있고, 나아가 인공지능(artificial intelligence)과 기계학습(machine learning)을 공부하는데도 도움이 되리라 생각되어 어려운 길을 택했다.

베이즈 통계를 사용하려면 몇 가지 핵심적 개념과 원리, 분석과정, 분석도구를 제대로 이해해야 한다. 간략히 제시하면 다음과 같다.

  • 베이즈 통계에서는 확률(probability)이란 특정 상황의 불확실성을 평가하는 데 있어 개인이 갖는 믿음의 정도(degree of belief)(혹은 확신의 정도(degree of confidence))를 말한다.
  • 베이즈 통계에서는 모든 표본값(sampling statistics)과 모수(parameters)가 확률변수(random variable)이다(일 수 있다).
  • 따라서 베이즈 통계의 알파와 오메가는 확률분포(probability distribution)이다.
  • 베이즈 통계의 출발은 조건부 확률(conditional probability)이다.
  • 베이즈 통계의 핵심은 베이즈 정리(Bayes Theorem)이다.
  • 베이즈 통계를 이해하고 실행하려면 수학에서 순열과 조합, 미적분, 집합, 그리고 특히 행렬대수(matrix algebra)를 알아야 한다.
  • 베이즈 추론에는 수학적 해 대신에 통계적 근사치를 사용한다.
  • 베이즈 추론에는 컴퓨터 시뮬레이션이 적용된다.
  • 컴퓨터 시뮬레이션을 하는 데는 MCMC(Markov Chain Monte Carlo) 방법이 사용된다. MCMC를 이해하려면 특히 마르코프 연쇄랜덤 워크(random walk) 이론을 잘 파악해야 한다.
  • MCMC 방법을 사용하여 사전 분포(prior distribution)로부터 수만 개 혹은 수십만 개의 수를 생성하여 모수를 근사(approximate)한다.
  • 베이즈 추론 과정은 크게 네 부분으로 구성된다. (1) 사전정보(prior)(사전 분포) 추정(편의상 우도함수와 같은 계열의 함수를 채택하는 방법을 쓴다 <– 공액함수(conjugate prior)라고 불린다),  (2) 데이터의 우도 함수(likelihood function) 추정. (3) 우도함수를 가지고 사전분포를 갱신(update)하여 사후 함수를 구한다. (4) 절차의 적절성을 평가한다. 특히 시뮬레이션의 수렴(convergence)에 대해 평가해야 한다.
  • 평가 결과가 만족스럽지 않을 경우 확률모형을 수정하거나 절차를 개선하여 다시 추론 과정을 밟는다.

두 달 후에 가질 2차 워크숍에서는 MCMC와 평가를 보다 깊이 있게 이해하고, 파이썬을 사용해서 모수 추정 뿐 아니라 예측이나 가설 검증도 해 보아야 겠다.

정년도 몇 년 남지 않았는데, 과연 이렇게 낯선 공부를 해야할까 하는 생각이 들기도 한다. 하지만 이 시대에 인공지능을 이해하지 못하면서 사회적 불평등, 일, 직업, 그리고 인간의 행복에 대해 사회학적으로 발언하고 개입할 수 있겠는가. 사회학자이기를 그만 두지 않은 한 도전을 멈출 수 없을 것이다. (윤영민, 2016/02/29)