(Bayes 학습)(11) 베이즈 추론의 역사

사십 대 여성이 정기 건강 검진의 일환으로 유방 엑스레이를 찍었다. 일주일 뒤 그녀는 유방암 검사 결과가 양성으로 나왔다는 통보를 받았다. 유방암에 관한 가족력도 없고 또 징후도 없는 그녀가 진짜로 유방암에 걸렸을 확률은 얼마일까?

나는 실제로 몇몇 의사, 간호사, 약사에게 물어 보았다. 80%, 60%, 30%, 10% 라고 대답했다. 모두 틀렸다. 그 확률은, 미국의 경우이기는 하지만, 3%에 불과하다!  그 확률은 아래의 베이즈 정리로 간단히 계산할 수 있다.

여기서 A는 유방 엑스레이 양성 반응이고, B는 유방암을 가지고 있음이다. 좌변의 P(B|A)는 유방 엑스레이 양성 반응이 나온 사람이 실제로 유방암을 가지고 있을 확률이다. 우변의 P(B)는 유방암을 가지고 있을 확률, P(A|B)는 유방암 환자가 유방 엑스레이 양성 반응이 나올 확률, 그리고 P(A)는 유방 엑스레이 양성 반응이 나올 확률이다.

미국에서 사십 대 여성 1만명 가운데 대략 40명이 유방암을 가지고 있다(유방암 발병 확률은 40/10,000이다). 그리고 유방암 환자가 유방 엑스레이 검사에서 양성 반응이 나올 확률은 80%이다. 그러면 그 40명 가운데 32명이 양성 판정을 받는다(그 확률은 32/40이다). 또한 유방 엑스레이 검사에서 양성 반응이 나올 확률은 10%이다(그 확률은 1,000/10,000이다).

이 수치를 위 공식에 대입해서 계산하면 다음과 같다.

3%이다. 간단하지만 매우 강력한 공식이다.

베이즈 정리라고 불리는 이 공식은 250여년 동안 역사적 퇴장과 등장을 반복하면서 살아남았다.  게다가 그 공식에 기반한 추론은 21세기에 다양한 분야에서 불확실성을 다루는 가장 강력한 도구가 되었다.

SAMSUNG CSC

이 책은 1740년대 영국의 토머스 베이즈 목사가 별로 자신없이 세상에 내놓았던 수학적 정리가 오늘날 온갖 학문과 현업 분야에서 불확실성을 다루는 강력한 도구로 떠오르기까지의 부침을 기록한 역사이다.

거기에는 숱한 영웅과 천재가 등장한다. 피에르 시몽 라플라스, 아서 베일리, 레너드 지미 새비지, 에드워드 몰리나, 앨버트 워츠 휘트니, 해럴드 제프리스, 데 피네티, 앨런 튜링, 잭 굿, 안드레이 콜모고로프, 존 튜키, 오스굿 쿠프먼, 제롬 콘필드, 앨버트 매단스키, 데니스 린들리, 로버트 오셔 슐라이퍼, 하워드 라이파, 프레더릭 모스텔러, 존 피냐 크레이븐, 에이드리언 래프터리, 저먼 형제, 에드리언 스미스, 앨런 겔팬드, 키스 헤이스팅스 등. 게다가 베이즈 추론을 없애버리려는 악당들(?)도 등장한다. 통계학을 공부한 사람이라면 누구나 그 이름을 기억할 로널드 피셔, 예지 네이만 등이 베이지언들의 공적으로 등장한다. 이 책에서 독자는 그 인물들을 딱딱한 수학자나 과학자가 아니라 생생한 인간으로 만나게 된다. 이 책의 첫번 째 뛰어난 점이다.

베이즈 접근은, 추론 과정에 연구자의 주관적 판단이 들어간다는 이유로 학계, 특히 통계학계에서는 철저하게 배제되었다. 베이즈 정리를 언급하면 대학에서 자리를 얻을 수 없을 정도였다.

반면에 실제 문제를 풀어야 하는 현업에서는 비교적 다양한 분야에서 수용되었다. 그러나 베이즈 접근이 본격적으로 대중화되기 위해서는 정적분 계산이라는 산을 넘어야 했다. 베이즈 정리의 분모에 적분이 들어가는데, 변수가 많아지면 그 계산은 종이와 연필, 계산자, 혹은 계산기를 사용해서는 거의 불가능했다.

다행히 1980년대 이후 한편으로 몇 명의 탁월한 학자들에 의해 그에 대한 해법이 발견되고, 다른 한편으로 컴퓨팅 환경이 급격히 향상하면서 비로소 대중화의 길이 열렸다. 1989년 발표된 마르코프 연쇄 몬테카를로(Markov Chain Monte Carlo, MCMC) 방법이 어려운 적분을 대체하게 되었다. 베이즈 추론이 계산의 악몽에서 벗어난 것이었다.

저자인 샤론 버치 맥그레인(Sharon Bertsch McGrayne)은 그러한 발전에 누가 어떻게 기여했는가를 어렵지 않게 기술하고 있다. 책에는 베이즈 추론을 위한 핵심적인 개념들과 절차들의 발견이 모두 망라되어 있다.

베이즈 추론과 관련된 수많은 사건들이 상세하게 기술된 점도 이 책이 흥미 진진하게 읽히는 이유이다. 드레퓌스 사건, 이차대전시 독일군 암호의 해독, 보험업계의 발전, 폐암 원인의 규명, 냉전시 소련 핵잠수함의 추적, 연방주의자 논고의 분석 등 신기한 스토리가 끝이 없는 듯이 이어진다. 이 책의 두번 째 매력이다.

6백쪽이 넘는 책이라 하루이틀 사이에 읽기는 힘들지만, 책을 한번 손에 잡으면 쉽게 놓을 수 없도록 이야기들이 박진감 넘치게 전개된다. 베이즈 추론에 관심을 가진 사람들, 베이즈 추론 자체에는 관심이 없더라도 학자의 삶에 대해 관심이 있는 사람들, 학문과 현업, 학문과 전쟁, 학문과 행정, 그리고 순수 학문과 응용 학문의 관계에 관심있는 사람들이라면 누구나 이 책으로부터 커다란 흥미와 교훈을 발견하게 될 것이다.

한 마디로 멋진 책이다. (2016/04/15/윤영민)

개울의 길이는?

“아빠, 깨끗한 개울을 따라 걸으니 기분이 정말 좋아요.”

함께 산책하던 막내가 즐거워한다. 2주일 전만 해도 상상할 수 없던 변화가 개울에 일어나고 있는 것이다.

“그런데, 호영아. 지금 우리가 걷는 이 개울의 길이가 얼마나 될 것 같으냐?”

“모르겠는데요. 재보지도 않고 그걸 어떻게 알아요.”

“내가 보기에 3km에서 약간 부족할 것 같다. 2.6km에서 2.8km 정도 될 것이다.”

“어떻게 알아요?”

“집 앞  빨랫터에서 이 개울이 끌나는 문화센터까지의 직선 거리가 900m 정도 된다. 거기에 (3.14)를 곱하면 개울의 길이를 구할 수 있다. 농수로로 쓰기 위해 직선으로 만든 부분을 감안해서 100m정도 빼주면 더 정확할 것이다.”

“그런데 왜 를 곱해요?”

“수학자들의 발견에 의하면 완만한 경사를 흐르는 강의 길이는 직선 거리의 이다. 몽골 초원의 구불구불한 강들을 상상하면 될 것이다.”

“오, 재밌네요.”

“그렇지? 수학자들은 세상에 존재하는 온갖 법칙을 찾아서 공식으로 표현하려고 한단다. 우주가 수학적 법칙으로 움직인다고 믿는 것이지.”

“이제 포크래인을 가지고 개울 바닥에 깊이 묻힌 무거운 쓰레기만 치우고 나면 우리 개울은 세상의 어느 나라의 개울 못지 않게 깨끗해질 것이다. 그런 다음에는 우리가 산책할 때 집게와 쓰레기 봉투를 들고 새로 버려진 쓰레기를 수시로 치우면 된다. 그러면 “깨진 유리창의 법칙”에 따라 개울이 아주 말끔하게 유지될 것이다.” 

개울청소1
가장 멋진 곳일수록 쓰레기가 많았다. 쓰레기를 치워놓으니 개울의 정겨움이 되살아난다. 4월 11일 오전의 모습이다.
개울청소2
개울에서 건져낸 쓰레기가 다양하다. 전국 도시주변 농촌의 개울이 비슷한 상태이지 않을까?
개울청소3
면사무소가 노인일자리 제도를 이용해서 10명 이상의 어르신들을 보냈다. 한 남자 어르신이 전신 장화를 신고 쓰레기를 건져내고 아주머니들이 건져낸 쓰레기를 마댓자루에 담았다. 이제 포크래인이 개울 바닥에 박힌 대형 쓰레기를 치우면 청소가 마무리될 것이다.
개울청소4
개울에서 가장 쓰레기가 많았던 곳이 깨끗해졌다. ‘국민성’이란 독재자들이 만들어 낸 신화일 뿐이다. 우리도 일본이나 네덜란드만큼 깨끗한 환경을 충분히 가질 수 있다. “안된다”고 해버리면 결코 변할 수 없다. “된다고”고 믿으면 가능성이 열린다. 이웃과 자신을 믿고 실천에 나서면 면사무소도 군청도 움직인다.

라플라스, 수학이 자유를 주다

laplace-transform-2-638

피에르 시몽 라플라스(Pierre-Simon Laplace). 나의 새로운 역할 모형(role model)이다. 역할 모형을 갖기에는 너무 늦은 나이인가. 그는 1749년 3월 23일에 태어나 1827년 3월 5일 서거했다. 78세.

프랑스 혁명, 나폴레옹 전쟁 등 혁명과 반혁명, 그리고 전쟁이 번갈아 일어나던, 인류 역사상 가장 극심한 격변과 혼란의 시대에 그는 오래 살았다. 그런데 가장 부러운 부분은 그가 그렇게 오래 살았다는 점이 아니라(장수가 부럽지 않다는 말은 아니다), 그가 말년에도 학문적 성과를 계속 내고 있었다는 사실이다. 우리에게 익숙한 아래와 같은 베이즈 정리의 일반 공식을 발표한 것도 60세가 넘어서였다.

이 방정식을 말로 설명하면, 사건 가 발생했을 때 그것의 원인이 일 확률 는, 원인 가 주어졌을 때 사건 가 발생할 확률 에, 이것이 일어날 확률에 대한 최초의 추정치인 를 곱한 수를 가능한 모든 원인에서 사건 가 발생할 확률(사건 의 전체 확률)로 나눈 값과 같다.

뿐만이 아니다. 확률이론의 꽃이라고 할 수 있는 중심극한정리(Central Limit Theorem)을 발표한 것도 61세 때이다.

그리스 신화에서는 마이다스(Midas)가 손을 대는 것마다 모두 황금으로 바뀐다. 마찬가지로 라플라스가 손을 대는 것마다 모두 수학으로 바뀌었다. 수학 자체는 물론이고, 천체 역학, 물리학, 생물학, 지구과학, 통계학, 군사학, 인구학, 법학, 사회과학 그리고 신의 존재까지 그의 손을 거치면 모두 수학적 탐구 대상으로 바뀌었다.

오늘날의 관점에서 그의 전공이 무엇이었나고 묻는 것은 부적절하다. 그의 영혼은 결코 어느 한 학문 분야에 갇힐 수 없었다. 그의 호기심은 지칠 줄 몰랐고, 그는 수학이라는 도구를 가지면 세상의 어떤 문제에 대해서도 해답을 찾을 수 있으리라 확신했던 것 같다.

계량 사회과학의 발전에 가장 크게 기여한 사회학자로 간주되는 던컨(Odis Dudley Duncan)은 회고록에서, 자신이 평생 방법론을 공부했던 이유가 자유를 얻기 위해서였다고 밝혔다.

라플라스는 바로 그러한 자유인이 아니었을까. 전공이 무어냐는 물음이 모욕이 되는 학문적 유목민 말이다. 오늘날이라고 그런 유목민이 존재할 수 없을까.

디지털 시대의 사회조사 전문가

skopos_tmimatos

신입생들을 면담했더니 몇몇이 ‘사회조사분석사’라는 자격증에 관심을 보였다. 우리 학과 졸업생 중 사회조사분석사 자격증을 딴 학생들이 심심치 않게 눈에 띄는 걸 보면 그 자격증에 대한 학생들의 관심이 어제오늘이 아니었던 것 같다.

그런데 사실 나는 그 자격증의 실효성은 물론이고 시대적 적합성에 대해 무척 회의적이다. 사회조사방법과 사회통계학에 대한 지식을 테스트하는데 그 내용이 많이 낡았다. 기존에 개설된 관련 과목들을 제대로 수강했으면 누구나 합격할 수 있는 내용과 수준이다. 문제는 그것이 현장에서 사회조사자(social researcher)가 수행해야 하는 역할과의 불일치가 너무 심하다는 사실이다. (통계청 사이트의 사회조사분석사 검정자격기준을 참고하기 바람)

사회조사분석사가 1급과 2급으로 나누어 있듯이 사회조사자에도 다양한 수준이 있을 것이다. 하지만 오늘날과 같은 디지털 시대에 사회조사자가 갖춰야할 전문적 지식과 능력은 다음과 같지 않을까?

사회조사자는 (1) 무엇보다 주어진 과제를 연구문제(research question)로 번역할 수 있어야 할 것이다. 사회조사는 규칙적인 사회 현상(social regularities)에 관련된 의문이나 쟁점에 대한 해답을 얻는데 필요한 실증적 근거를 만들거나 찾는 작업이다. 규칙적인 사회현상에는 사회문제(social problems), 사회적 쟁점(social issues), 사회적 의문들(social questions), 혹은 사회학적 의문이나 쟁점(sociological questions or issues)이 포함될 수 있다. 사회현상에 대해, 왜 그럴까, 어떤 상태인가, 앞으로 어떻게 될까, 누구의 주장이 옳은가, 어떤 해법들이 있을까, 어떤 해법이 상대적으로 더 바람직한가 등에 대한 답을 제시하는데 있어 실증적 근거를 확보하는 것이 사회조사라고 할 수 있다.

최근 예측분석학(predictive analytics)에서 다루는 것 같은 개인의 행동에 대한 예측이 사회조사의 연구에 포함되어야 하는가는 논란이 될 수 있다. 전통적으로는 분명 아니다. 그러나 빅데이터 환경의 등장과 더불어 사회조사자가 ‘예측분석’ 능력을 갖추는 것은 거부할 수 없는 트렌드가 될 것으로 예상된다.

사회조사자는 (2) 주어진 의문과 여건 아래에서 무엇이 가장 효과적이고 효율적인 연구방법인지를 판단할 수 있어야 한다. 설문조사, 실험, 심층면접, 참여관찰, FGI, 델파이, 예측(forecasting), 이차분석(secondary analysis), 시나리오 플래닝(scenario planning) 등과 같은 전통적인 연구방법은 물론이고, 구글링(Googling), 모델링(modelling), 컴퓨터 모의실험(computer simulation), 집단지성, 데이터과학(data science), 사회연결망 분석(social network analysis) 등과 같은 새로운 연구방법이 고려되어야 한다.

사회조사자는 (3) 자신이 그러한 방법을 혼자서 수행하거나 타인이나 기관(혹은 기업)과 협업을 통해서 수행할 수 있는 능력이 있어야 한다. 모든 연구방법을 구사할 수 있는 사람은 없을 것이다. 중요한 점은 어떤 방식으로든 최선의 답을 얻어낼 수 있어야 한다는 것이다. 사실 오늘날 그것은 대부분의 경우 협업을 통해서 가능하다. 특히 해당분야 전문가, 통계학자, 수학자, 혹은 컴퓨터 프로그래머와의 협업이 필요하다.

흔히 제도는 변화를 따라오지 못한다. 제도의 장점이면서 동시에 단점은 쉽게 변하지 않는다는 사실이다. 안정적인 시대에는 제도가 힘을 발휘하지만 급변하는 시대에 제도는 시대착오적이 되곤 한다.

현재 사회조사분석사라는 제도가 후자에 해당되지 않나 싶다. 사회조사분석사가 디지털 시대에 있어 사회조사 능력을 보증하는 자격증이 되지 못하고 있다.

 

(Bayes 학습)(10) Monte Carlo simulation-사례

몬테카를로 방법을 좀 더 확실히 파악하기 위해 막내와 사례를 만들어 보았다. 한국청소년 정책연구원에 2003년부터 2008년까지 수행한 한국청소년패널조사(KYPS)(중2패널) 데이터를 다운로드 받아서 사용했다.

설문조사 중 다음 문항에 대한 응답자의 반응(2003년 것만 사용)을 선택해서 시뮬레이션에 사용했다. 이 시뮬레이션은 표집분포(sampling distribution)의 학습을 위한 것이다. 시뮬레이션으로 표집분포를 구해서 그것의 분포 모양이 표본의 크기에 따라서 그리고 표본의 갯수에 따라서 어떻게 변하는가를 확인해 보는 것이다. 물론 모수()도 근사해(approximate) 보았다. 몬테카를로 시뮬레이션은 파이썬(Python)으로 했고, 그림은 SPSS를 이용해서 그렸다.

33-1) 부모님과 나는 많은 시간을 함께 보내려고 노력하는 편이다.

1. 전혀 그렇지 않다   2. 그렇지 않은 편이다  3. 보통이다   4. 그런 편이다   5. 매우 그렇다

이 조사에 참여한 학생은 3,449명이다. 시뮬레이션 공부를 위해 그것을 표본(sample)이  아니라 모집단(population)이라고 가정한다.

그 가상 모집단의 응답을 보면, 평균()이 3.24, 표준편차()가 0.950이며, 그것의 분포를 그래프로 나타내면 아래와 같다.

population

다음에는 그 가상 모집단에서 크기가 5()인 무작위 표본을  뽑아서 평균()을 구하고, 그것을 1천번 반복하였다. 그 1천개의 를 가지고 표집분포를 그리고 거기에 정규분포 곡선을 적합해 보았다. 이 표집분포의 평균은 3.2466이고 표준편차는 .43589이다. 이 표집분포는 그런대로 정규분포에 근접하고 있다.

sample5

이번에는 동일한 크기의 표본을 3천개를 뽑았다. 평균은 3.2381이고, 표준편차는 .43484이다. 즉, 평균보다 표준편차에 좀 더 큰 변화가 보인다.

sample5_3000

다시 동일한 크기의 표본을 5천개 뽑았다. 그 표집분포의 평균이 3.234이고, 표준편차는 .42823이다. 표준편차에는 별로 차이가 없는데, 평균은 또 좀 달라졌다. 한 눈에도 전체적으로 정규분포 곡선에 더욱 잘 적합하고 있음을 알 수 있다.

sample5_5000

다음에는 크기가 10인 표본을 1천개 무작위로 뽑아서 동일한 방식으로 표집분포를 구했다. 이 표집분포의 평균은 3.2492이고, 표준편차는 .30629이다. 평균은 거의 차이가 없는데 표준편차가 줄었다. 분포의 모양은 위의 것과 육안으로 구분이 잘 가지 않으나 아래 축을 자세히 보면 의 변동폭이 많이 좁아졌음을 알 수 있다. 범위가 1.00-5.00에서 2.00-4.50으로 좁아졌다.

sample10

동일한 크기의 표본을 3천개를 뽑았다. 그 표집분포의 평균은 3.2361이고, 표준편차는 .28998이다. 표집분포의 모양이 더욱 정규분포 곡선에 잘 적합한다.

sample10_3000

다시 동일한 표본을 5천개 뽑았다. 그 표집분포의 평균은 3.2364이고, 표준편차는 .29644이다. 평균은 거의 변화가 없고, 표준편차가 다소 변했다. 표집분포의 모양은 더욱 종 모양의 정규분포 곡선에 근접한다.

sample10_5000

그래서 이번에는 크기가 20인 무작위 표본을 1천개 뽑아서 동일한 방식으로 표집분포를 구했다. 이 표집분포의 평균은 3.2363이고, 표준편차는 .20441이다. 역시 평균은 그다지 차이가 없으나 표준편차가 현저하게 줄어들었다. 의 변동폭이 2.75-3.75로 일 때보다  좁아졌다.

sample20

동일한 크기의 표본을 3천개 뽑았다. 그 표집분포의 평균은 3.2383이고, 표준편차는 .21841이다. 평균은 변화가 없고, 표준편차는 미세하게 변했다. 종 모양에 더욱 가까워졌다.

sample20_3000

다시 동일한 크기의 표본을 5천개 뽑았다. 그 표집분포의 평균은 3.2376이고, 표준편차는 .21286이다. 평균과 표준편차가 3천개의 경우와 거의 다르지 않다. 그런데 표집분포의 모양은 지금까지 살펴본 것들 중 정규분포 곡선에 가장 잘 적합하다.

sample20_5000

마지막으로 이번에는 동일한 크기()의 표본을 1만개를 뽑았다. 그 표집의 평균은 3.2371이고, 표준편차는 0.21196이다. 아주 예쁜 종 모양의 분포이다.

sample20_10000

이상의 몬테카를로 시뮬레이션을 통해서 얻은 결과를 종합해보면, 1) 모집단 평균의 근사에 영향을 미치는 요소는 표본의 갯수이다. 그러나, 그 갯수가 어느 정도를 넘어가면 표본의 갯수를 증가시켜도 별로 차이가 없다. 2) 표집분포의 표준편차를 결정하는 중요한 요소는 표본의 크기이다. 표본의 크기가 20 정도 되니 상당히 정밀한 표집분포를 얻을 수 있다. 3) 표본의 갯수가 크게 늘어나면(1,000개에서 10,000개까지 늘려 보았다), 평균과 표준편차에는 별로 변화가 없고, 표집분포가 점점 매끄러운 모양으로 정규분포 곡선에 근사한다.

이 마지막 사례를 갖고 조금 놀아보자. 이것은 20명 크기의 표본()을 10,000개 뽑아서 그것들의 평균()으로 만든 표집분포(sampling distribution)이다. 사실 이 표집분포도 하나의 표본이라고 생각할 수도 있다. 실제로 동일한 크기의 표집분포를 몇 개 구해보면 표집분포의 평균과 표준편차가 조금씩 달라지는 것을 볼 수 있다. 평균()도 하나의 확률변수이고 평균들의 평균()도 하나의 확률변수인 것이다. 그러한 표집분포를 1천개를 뽑아서 그것들의 평균()으로 만든 표집분포를 만들어 볼 수도 있을 것이다. 그러면 그것은 평균들의 평균들로 이루어진 표집분포가 될 것이다. 그러면 그 표집분포의 평균은 , 즉, 평균들의 평균들의 평균이 될 것이다.

이러한 몬테카를로 시뮬레이션은 잠깐 동안에 시행할 수 있다. 컴퓨터 환경이 열악했던 30년 전에는 상상하기 어려웠던 일이다. 지금은 프로그래밍만 좀 해주면 PC만 가지고도 그러한 시뮬레이션 놀이가 가능하다. 무한대()라는 개념을 감각적으로 느낄 수 있는 시대가 온 것이다!

그나저나 이 자료에 따르면 부모님과 함께 가급적 시간을 보내려는 청소년들이 그렇지 않은 청소년들보다 많은 것 같아 다행스럽다. 부모와 자식이 자리를 함께 해야 대화를 하게 되고, 대화를 해야 서로에 대한 이해가 깊어질 것이기 때문이다.

(막내가 아빠의 집요한 프로그래밍 요구에 응하느라 수고한다. 덕분에 공부는 좀 되겠지만.)

소통 언어로서의 수학

SAMSUNG CSC

<수학의 정석>의 초판이 발행된 지 딱 50년이 되었다고 한다. 그 동안 그 책은 4천5백만부가 팔려서 우리나라에서 성경 다음으로 인기 있는 책이라는 명성을 얻었다. 심지어 어떤 비평가는 모 중앙 일간지의 ‘내 인생의 책’이라는 컬럼에 그 책을 올리기도 했다.

나는 스무살 때 어느 작은 학원의 단과반에서 <수학 1정석>을 가르친 인연도 있다. 그러나 나는 <수학의 정석>에 그렇게 후한 점수를 줄 수 없다. ‘정석’이라는 걸맞지 않은 이름으로 우리나라 수학 교육의 방향을 오도하는데 일조했다고 생각하기 때문이다.

<정석>은 우리나라의 문화에 수학이 계산을 하는 도구라는 인식을 뿌리박게 하는데 기여했다(심지어 수학을 암기 과목으로 만들었다는 의심도 있다). 그것은 수많은 개인들에게는 물론이고 국가적으로도 불행한 일이었다.

수학은 다른 더 중요한 얼굴을 가지고 있기 때문이다. 소통의 도구 혹은 하나의 언어로서의 수학이다. 수학은 신(god)의 언어라는 갈릴레오의 믿음까지는 아니더라도 동서양을 막론하고 뛰어난 인류의 스승들은 수학이 우주의 질서를 이해하는데 훌륭한 도구라는 사실을 의심하지 않았다.

<정석>으로 대변되는 우리나라의 수학 교육은 학생들로 하여금 그 점을 깨닫게 하는 데 완전히 실패했다. 사람들의 일상에서, 그리고 일상적 대화에서 수학이 얼마나 사용되지 않는가가 그 사실을 웅변적으로 증명한다. 수학은 영어, 한문, 일본어는 물론이고 프랑스어나 독일어만큼도 사용되지 않는다.

내가 재직하는 학과와 단과대학 졸업생 중 상당수가 광고업계로 진출한다. 광고업계에서는 “어떤 사용자가 내 클라이언트의 광고를 클릭할 가능성이 얼마나 될까?”는 매우 중요한 질문이 된다. 예를 들어 내가 수업시간에 어떤 학생으로부터, “교수님, 어떤 인터넷 사용자가 특정 광고를 클릭할 가능성을 어떻게 예측할 수 있을까요?”라고 질문을 받았다. 과연 내가 수학을 사용하지 않고 그 질문에 명쾌하게 답할 수 있을까?

이렇게 답할 수 있을 것이다.

“광고를 클릭할 확률의 로짓(logit)을 예측하는 로지스틱 회귀모형을 구성하고, 훈련데이터세트로 그 모형의 모수(parameters)를 구하면 가능하다.”

그러면 학생들이 고개를 끄덕거릴까? 결코 아니다. 학부는 물론이고 대학원 수업에서도 그런 대답은 학생들을 혼란에 빠트릴 것이다.

우리가 궁금한 것은 어떤 사용자가 우리의 광고를 클릭할 것인가 말것인가이기 때문에 그것은 범주적 변수(categorical variable)이고, 그 변수는 1(클릭함)과 0(클릭하지 않음)이라는 값(범주)를 가질 것이다. 그러면 수학적으로 이렇게 표현될 수 있다.

광고를 클릭할 확률()은 라는, 독립변수들()의 좀 복잡한 선형함수로 나타낼 수 있다.  여기서 는 지수함수를 가리킨다. 승산(odds)이라는 개념을 이용하면 이 식을 좀 더 간략히 나타낼 수 있다.

좌변은 광고를 클릭할 확률광고를 클릭하지 않을 확률로 나눈 승산(odds)이다. 광고를 클릭할 승산은 독립변수들의 영향을 선형으로 더한 지수함수이다. 여기서 양변에 log를 취하면 아래와 같다.

좌변을 로짓(logit)(혹은 승산의 자연로그, natural logarithm of the odds, 간단히 log-odds라고 부른다)이라고 부른다. 종속변수로 로짓으로 바꾸니 우리에게 익숙한 회귀 방정식(regression)이다. 만약 우리에게 이 광고에 관해 축적된 데이터가 있다면 와 를 어렵지 않게 추정할 수 있을 것이다. (참고로, 로지스틱 회귀(logistic regression)은 역로짓 함수(inverse-logit function)을 사용한다.)

좀 복잡해 보이지만 이 전개에는 고등학교 수준의 수학밖에 사용하지 않았다. 사실 나의 수학 실력도 고등학교 수준을 별로 벗어나지 않는다. 그나마도 40년 전에 배운 수학이다.

우리 사회에 매스포비아(math-phobia: 수를 두려워하는 사람)가 너무 많다. 우리 교육이 매스포비아를 양산하고 있는 것이다.

우리 사회는 빠른 속도로 수학과 통계학을 이용하는 기술 기반으로 바뀌어 간다. 그런데 우리의 학교 교육은 수학 ‘문맹자’를 양산하고 있다.

(Bayes 학습)(9) Monte Carlo simulation

SAMSUNG CSC

몬테카를로(Monte Carlo) 시뮬레이션을 공부하기 위해 30년 전 대학원에서 사회통계학을 배울 때 쓰던 교과서를 펼쳤다. 섹션 제목이 빨간 색연필로 둘러져 있다. “몬테카를로 방법은 크게 유용할 것입니다.”라는 Miller McPherson 교수의 목소리가 생생하게 들리는 듯하다.

통계학에서 몬테카를로 시뮬레이션은 무엇보다 우리가 구하려고 하는 확률변수의 표집분포(sampling distributions)를 특정하는데 사용된다. 즉, 확률변수의 표집분포가 지닌 평균과 표준오차를 구하는데 사용된다.

우리가 구하려고 하는 양(quantity)을 확률변수 의 기대값, 즉, 으로 놓자. 그리고 의 분포로부터, 독립적이고 무작위로,  (표본의 크기가 )을 생성하여, 다음 식처럼 그 값들의 평균을 취하여  의 추정치로 삼는다.

통상 는 확률변수 의 함수이다.  이 평균을 계산할 수 있는 양이면 몬테 카를로를 적용할 수 있다. 몬테 카를로 시뮬레이션의 핵심적인 논리적 기반은 대수의 법칙(the law of large numbers)이다. 수학적으로 아래와 같이 표현할 수 있다.

즉, 이 무한대가 될 때(표본 추출을 무한히 반복할 때) 오차의 절대값이 0일 확률이 1이다. IID(independent and identically distributed: 동일한 분포라는 말은 표본의 각 개별적인 관찰이 동일한 평균과 분산의 모집단을 갖는다 의미. 복원추출을 하면 그 조건을 만족하게 됨) 표집에서  은 확률변수이며, 그 자체가 평균과 분산을 가지고 있다.

의 평균은  이고, 의 분산(variance)은  이다(여기서 은 표본의 크기이다).  중심 극한 정리(CLT)로부터, 우리는 오차 가 평균이 0이고, 분산이  인 정규분포에 근사함을 안다. 오차의 크기는 표본의 갯수가 아니라 표본의 크기에 달려 있다. 표본의 크기가 5()인 표본을 100번 뽑는 대신 표본의 크기가 20()인 표본을 100번을 뽑으면 오차가 줄어들고 추정이 더욱 정교해진다. 동일한 크기의 표본()을 100번이 아니라 1,000번을 뽑으면 표집분포가 더욱 매끄러워질 뿐, 추정이 더욱 정교해지지는 않는다. 오차와 분산은 추정의 정교함(precision)을 알려준다. 몬테카를로 표집에서 오차 제곱의 평균은 인데, 를 아는 경우가 거의 없으므로 표본값들로부터 추정한다. 아래 둘 중 어느 것으로 추정해도 된다.

혹은,

(이상은 Stanford 대학교 통계학과의 Art Owen 교수가 인터넷에 올려놓은 책 원고의 제2장(Simple Monte Carlo)을 크게 인용하였다.)

Wonnacott & Wonnacott(1985)의 Introductory Statistics(4th ed.)에 나온 사례를 가지고 직접 몬테 카를로 시뮬레이션을 수행해서 모집단의 평균()과 분산()을 추정해보자.

미국의 미들타운(Middletown)이라는 도시에 살고 있는 18세부터 24세까지의 젊은이 100명에 대해 그들이 희망하는 가족의 크기를 추정해보자. 다음 표는 실제 조사 결과를 보여준다.

                                         모집단 분포
                                                                                        상대빈도
x 빈도 p(x) 일련번호
0

1

2

3

4

5

6

7

2

6

49

22

15

3

2

1

.02

.06

.49

.22

.15

.03

.02

.01

01-02

03-08

09-57

58-79

80-94

95-97

98-99

100

N = 100 1.00

크기가 5명인 표본을 뽑아서 모수를 추정해보자. 난수표(table of random digits)를 이용해서 100 이하의 수를 무작위로 뽑았더니, 77, 94, 30, 05, 39이다. 그것을 일련번호로 삼아서 그에 해당되는 희망 자녀수를 위의 표에서 찾아보면, 3, 4, 2, 1, 2이다.

일련번호 희망 자녀수 X
77

94

30

05

39

3

4

2

1

2

이제 동일한 방법으로 5명의 표본()을 반복해서 뽑는다. 표본을 뽑을 때마다 평균()을 계산한다. 예컨대 이렇게 1천번을 반복하면 우리는 1,000개()의 를 얻게된다. 여기서 의 의미가 이중적이 됨에 유의할 필요가 있다. 은 개별 표본(5)의 크기가 아니라 표본의 갯수(1,000)이면서 동시에 평균()들로 구성된 표본(그것이 바로 표집분포를 구성한다)의 크기(1,000)이다. 아래 공식처럼 1,000개 의 평균을 계산하면 의 추정치()를 얻는다.

그런 다음 분산 은 아래 식을 가지고 추정할 수 있다.

오늘날 난수표와 손을 사용해서 몬테카를로 시뮬레이션을 하는 경우는 없을 것이다. Random.org에 가면 손쉽게 원하는 난수(random digits)를 얻을 수 있고, SPSS와 같은 통계 패키지도 몬테카를로 시뮬레이션 기능을 제공하고 있다. 자, 몬테카를로에 대해서는 이 정도로 학습하고 다음에는 MCMC(Markov Chain Monte Carlo)에 대해 알아봐야겠다.

참고문헌

Owen, Art. 2009-2013. Chapter 1-2. 책 초고.

Wonnacott, Ronald J. & Thomas H. Wonnacott. 1985. Introductory Statistics, 4th ed. John Wiley & Sons.

수학 공부의 즐거움

intro_math_sociology

1974년 대학교 1학년 2학기에 대학 수학 과목을 수강했다. 행렬과 벡터, 미적분을 배워야 한다는 학과장 교수님의 강제적 요구에 따라 정치외교학과 학생임에도 어쩔 수 없이 그 과목을 들어야 했다. 나중에 국제정치 이론 과목을 수강하면서 보니 게임이론을 이해하는데 행렬(matrix)에 관한 지식이 반드시 필요했다.

그리고 40년이 넘게 흘렀다. 다시 수학 공부를 한다. 남이 시켜서 하는 것이 아니고 새로운 세상의 문법을 이해하겠다는 순전히 자발적인 동기에 의해서이다.

조금 어렵고 낯설기는 하지만 그런대로 할만 하다. 새로운 분야를 시작하면 누구나 어려움을 겪기 마련이다. 다행히 어렵다는 느낌보다는 재밌다는 느낌이 더욱 강하다.

공부하는 데 세상이 참으로 편리해 졌다. 웹사이트와 유튜브를 뒤지면 온갖 학습 자료가 나오니 못할 공부가 없다.

미국에서 사용되는 수리 사회학(mathematical sociology) 교재를 보니(사진 참조) 내가 재직 중인 학과에도 수리 사회학 과목을 개설하면 어떨까 하는 생각이 든다. 우리 학생들이 배우기에도 별로 어렵지 않을 것 같다. 3학년 과목으로 개설하면 어떨까.

수학이나 통계학 과목은 특히 담당 교수의 역할이 큰 것 같다. 배우는 데 있어 어차피 다소간의 고통은 피할 수 없겠지만 좋은 선생을 만나면 고통이 최소화되고 즐거움이 커진다. 결국 누가 그 과목을 담당하는가가 문제이겠다. (2016/03/17)

(Bayes 학습)(8) 마르코프 연쇄-(3)

이전에 올린 마르코프 연쇄에 관한 글에서 ‘정칙 마르코프 연쇄(regular Markov chains)’에 대해 언급했다. 널리 사용되는 마르코프 연쇄 유형에는 세 가지가 있다. 그 중 하나가 정칙 마르코프 연쇄이고, 다른 두 가지는 ‘에르고딕(ergodic) 마르코프 연쇄’‘흡수(absorbing) 마르코프 연쇄’이다.

알기 쉽게 설명하면, 시간의 흐름에 따라 어떤 객체(물체, 사람, 정신, 기체, 동물, 국가, 기업 등)가 한 상태(state)에서 다른 상태(state)로 이전할 때, 새로운 상태가 바로 직전의 상태에만 의존하면, 우리는 그러한 현상이 마르코프 연쇄의 모형을 따른다고 규정할 수 있다.

그런데 마르코프 연쇄 방식의 상태 이전(state transition)에 대해 흥미 있는 두 가지 가능성을 상상해 볼 수 있다. 하나는 가능한 모든 상태들의 공간(즉, 상태 공간, state space)에서 어느 상태로부터 다른 모든 상태로의 이전이 가능한(단 한 번의 이전에 그렇게 되지는 않더라도) 경우가 있을 것이고, 다른 하나는 일단 어느 상태에 들어가면 그 상태에서 다시는 빠져나오지 못하는 경우가 있을 것이다. 전자가 에르고딕 마르코프 연쇄(ergodic Markov chains)이고, 후자가 흡수 마르코프 연쇄(absorbing Markov chains)이다.

이전 글에서 소개한 정칙 마르코프 연쇄는 에르고딕 마르코프 연쇄의 부분집합이다. 추이행렬(transition matrix)의 거듭제곱이 오직 양의 원소들(positive elements)만 가질 때 그러한 마르코프 연쇄를 정칙 마르코프 연쇄라고 부른다.

상태의 수가 유한할(finite) 때, 다음 두 가지 조건을 충족하면 마르코프 연쇄는 에르고딕(ergodic)하다.

  1. 마르코프 연쇄가 기약적(irreducible)이어야 한다. 마르코프 연쇄가 기약적이려면 상태 공간에 흡수 상태(absorbing state)가 없어야 한다. 흡수 상태란 그 상태에 들어가면 빠져나올 수 없는 상태를 말한다. 흡수 상태가 없으면 더 이상 줄일 수 없다(irreducible)고 표현한다. 한 상태에서 어떤 다른 상태로 언젠가 갈 수 있으며, 그 경우 그 상태들이 하나의 집단을 이루고 있는 것으로 간주될 수 있기 때문이다.  기약적(irreducible) 마르코프 연쇄는 수학 기호를 사용하여 다음과 같이 표현할 수 있을 것이다.

즉, 모든  쌍(pair)에 대하여 마르코프 연쇄가, 초기상태(에서 궁극적으로() 어떤 상태(에 도달할 확률이 양이 되는 경우 이를 기약적(irreducible)이라고 말한다. 상태 공간에 흡수 상태가 하나라도 있으면 당연히 기약적이 될 수 없을 것이다.

  1. 기약적인 마르코프 연쇄(irreducible Markov chain)가 비주기적(aperiodic)이어야 한다. 어느 상태에서 일정한 주기(period)로 그 상태로 돌아가면 주기적(periodic)이라고 부르고, 같은 상태로 돌아오는 모든 시간(주기)들의 최대공약수(gcd)가 1뿐이면 공약수가 없으니 비주기적(aperiodic)이라고 부른다. 이를 아래와 같이 수학적으로 표현할 수 있을 것이다.

즉, 만약 모든 에 대하여, 초기 상태가 일 때 다시 에 도달할 확률이 양수이고, 거기에 해당되는 모든 시간의 최대공약수(gcd)가 1이면(즉, 그 시간들의 배열이 1의 배수, 2의 배수, 3의 배수….중 1의 배수에만 모두 포함되면) , 마르코프 연쇄가 비주기적(aperiodic)이라고 한다.

에르고딕 (마르코프 연쇄) 정리(Ergodic Markov Chains Theorem)는 다음과 같다. 에르고딕 마르코프 연쇄에 대해서 가 성립하는 유일한 확률 벡터 가 존재하며, 는 엄격하게 양수이다(정칙 마르코프 연쇄에서 보았던 정상상태의 공식이다). 를 충족하는 어떤 행 벡터(row vector)도 의 배수이다. 를 충족하는 어느 열 벡터(column vector) 도 상수 벡터(constant vector)이다.

에르고딕성(ergodicity)은 여러 학문 분야에서 분석적 잠재력이 크게 평가되고 있다. 년 전에는 일군의 통계물리학자들이 이 개념을 원용해서 우리나라에서 주요 성씨들의 분포를 에르고딕 분포와 비에르고딕 분포로 분류하기도 했다. 그들은 김해 김씨처럼 전국에 퍼져 있는 성씨는 에르고딕 분포라고 분류하였으며, 학성(울산) 김씨처럼 특정 지역에 집중되어 있는 성씨는 비에르고딕 분포로 분류하였다(참고: Matchmaker, Matchmaker, Make Me a Match, 2014)

흡수 마르코프 연쇄도 에르고딕 마르코프 연쇄 못지 않게 널리 응용된다. 한번 들어가면 빠져 나오지 못하는 상태를 흡수 상태(absorbing state)라고 하며, 마르코프 연쇄가 하나 이상의 흡수 상태를 포함하고, 유한한 수의 단계를 거쳐 비흡수 상태에서 흡수상태로 갈 수 있으면 흡수 마르코프 연쇄(absorbing Markov chains)이다. 마르코프 연쇄의 흡수 상태를 행렬로 표현하면, 그 상태에 대응하는 행이 주대각선(main diagonal)의 값이 1이고, 다른 모든 값이 0이다.

그런데 흡수상태(absorbing state)와 정상상태(stationary state)를 혼동하지 않아야 할 것이다. 흡수상태란 빠져나올 수 없는 상태를 말하는 것이지, 정상상태처럼 추이행렬의 거듭제곱이 극한 행렬(limiting matrix)에 근사함(approach)을 함축하지는 않는다.

그렇다고 흡수 마르코프 연쇄에 극한 행렬이 없는 것은 아니다. 만약 가 흡수 마르코프 연쇄의 추이행렬이고, 가 표준적인 형식을 갖추고 있다면(in standard form), 다음과 같은 조건을 만족하는 극한 행렬  가 존재한다. 수식으로 표현하면,

흡수 마르코프 연쇄의 추이행렬은 다음과 같은 표준형(standard form)으로 표시된다.

standard_form

Abs.는 흡수 상태, NA는 비흡수 상태를 나타낸다. 모든 흡수 상태를 모든 비흡수 상태들보다 앞에 위치시킨다. 행렬을 4분하면, 좌상의 제1사분면이 단위행렬(Identity Matrix)이고 우상의 제2사분면은 모두 0으로 채워지며, 좌하의 제3사분면의 sub-matrix를 R, 우하의 제4사분면의 sub-matrix를 Q로 표시한다.  예컨대,

여기서 좌상의 제1사분면은 단위행렬 이며, 제2사분면은 에서 보듯이 모두 0으로 채워지고, 제3사분면의 은 R, 제4사분면의 은 Q이다.

이 R과 Q가 중요하다. 그것들로부터 극한행렬 을 구할 수 있다. 위에서 보듯이

standard_form

이다. 위의 사례를 가지고 극한행렬을 계산해 보면, 다음과 같이 나올 것이다.

공식을 적용하지 않고도 표준형의 추이행렬

를 거듭제곱해가면, 아마도  혹은  정도에서는 동일한 극한행렬을 얻을 것이다.

1986년 사회연결망 이론가인 John Skvoretz는 Thomas Fararo와 함께 사회연결망에서 지배 위계(dominance hierarchies)의 형성을 모델링했다. (1986년 나는 University of South Carolina 대학원 사회학과에서 Skvoretz 교수로부터 사회이론 수업을 들었다. 그는 저명한 수리사회학자였다.) 그들의 주장은 다음과 같다.

i가 k를 공격했는데, j가 옆에서 그것을 목격했다. 처음에는 세 사람 사이에 지배 관계가 없었다. i가 k를 지배할 확률이 이고, i가 j를 지배할 확률이 이며, j가 k를 지배할 확률도 라면, 장기적으로 세 사람 사이에는 지배적인 관계가 되던지, 아니면 상호 견제하는 관계라는 두 가지의 흡수 상태에 도달하게 될 것이다. 그리고 각각의 흡수 상태에 도달할 확률은 와 에 달려 있다. (자세한 내용은 Fararo, T.J. and J. Skvoretz. 1986. “E-State Structuralism: A Theoretical Method.” American Sociological Review 51: 591-602을 참조).

이제 베이즈 추론에 사용되는 MCMC (Markov Chain Monte Carlo) 시뮬레이션을 이해하는데 필요한 마르코프 연쇄에 관한 기초 지식을 충분히 얻었다고 판단된다. 다음에는 몬테 카를로 방법(Monte Carlo Methods)에 관해 알아봐야겠다.

<참고 문헌>

Grinstead, Charles M. & J. Laurie Snell. 1997. Introduction to Probability, 2nd revised ed. American Mathematical Society. Chapter 11. (마르코프 연쇄에 관해 체계적인 이해를 도와주는 아주 좋은 문헌임. 책 전체가 pdf 파일로 공개되어 있음)

Fararo, T.J. and J. Skvoretz. 1986. “E-State Structuralism: A Theoretical Method.” American Sociological Review 51: 591-602

마르코프 연쇄에 관해 두 사람의 유튜브 강의가 아주 유용했다.

PatrickJMT   Markov Cahins (Part 1~9)

Brandon Foltz의 Finite Math의 마르코프 연쇄에 관한 강의 여러 편. 

(Bayes 학습)(8)대학에서 성공적으로 공부하려면….

앞 포스팅에서 학습한 마르코프 연쇄의 정상 상태를 현실 문제에 적용해 보자.

대학 신입생들은 대체로 두 가지 이유로 전공을 선택한다. 평소의 관심 혹은 수능 성적이다.

대학 입학 후 첫 학기가 끝났을 때 신입생들의 전공 관심 정도는 어떻게 될까? 어떤 요인이 주로 영향을 미칠까?

먼저 대학에 들어올 때의 전공 관심 정도와 처음 듣는 전공 과목 담당 교수의 교수 능력의 영향을 살펴보자. 학원 배치표에 따라 전공을 선택하는 학생들이 많은 우리 나라의 현실을 볼 때 학과 신입생들이 지닌 전공 관심의 비율은   정도가 되지 않을까? 전공에 관심을 가진 학생이 20%, 그렇지 않은 학생이 80%.

그런데 첫 전공 수업에서 교수 능력이 뛰어난 교수를 만났을 경우 전공수업의 효과는 다음과 같은 행렬로 나타낼 수 있을 것이다.

즉, 전공에 대해 관심 있는 학생이 수업을 듣고 전공에 대해 더욱 관심을 갖게 될 학률이 0.8, 전공에 대해 관심 있는 학생이 실망하여 전공에 대한 관심을 잃을 확률이 0.2, 그리고 전공에 대해 관심이 없는 학생이 전공에 관심을 가질 확률이 0.6, 전공에 대해 관심이 없는 학생이 계속 전공에 관심이 없을 확률이 0.4. 그 정도면 아주 잘 가르치는 교수(교수 1이라고 하자)가 아닐까?

반면에  수업을 잘 지도하지 못하는 교수(교수 2라고 하자)가 첫 전공 수업을 가르쳤을 경우, 그 추이행렬은,

 정도가 되지 않을까?

교수 1과 교수 2가 첫 전공 수업을 가르친 후 얼마 지나면 정상 상태(steady state)에 도달할 것이다. 지난 포스팅에서 나온 공식 를 이용해서 정상 행렬을 구해보면, 교수 1의 정상 행렬은 가 될 것이고, 교수 2의 정상 행렬은 이 될 것이다. 교수 1의 수업을 들은 학생들의 경우 75%가 전공에 대해 관심을 갖게 되고, 교수 2의 수업을 들은 학생들은  33%가 전공에 대해 관심을 갖게 될 것으로 예상된다. 교수의 영향이 무척 크다. 그리고 흥미 있게도 대학에 들어오면서 신입생들이 얼마나 전공에 관심에 가지고 있는가는 정상 상태에 영향을 미치지 못한다.

학생들 자신의 태도도 중요한 결정요인일 수 있을 것이다. 어떤 연유로 학과를 선택했든, 개방적인 자세를 가진 학생들은 첫 전공 수업을 듣고 전공에 관심을 갖게 될 것이고, 비개방적인 자세를 가진 학생들은 첫 전공 수업을 듣고도 전공에 관심을 갖지 않을 것이다. 그러한 학생들의 자세는 전공에 대한 관심 수준을 결정하는데 얼마나 영향을 미칠까?

전공에 대한 학생들의 개방적 태도를 추이행렬로 다음과 같이 표현해 볼 수 있지 않을까?

, , ,

첫번째 추이행렬은 아주 비개방적인 태도를 지닌 학생의 경우로, 수업을 듣고 전공에 대해 무관심에서 관심으로 전환될 확률이 10%밖에 되지 않는다. 두번째 추이행렬은 그 전환 가능성이 20%, 세번째 추이행렬은 40%, 그 다음은 60%, 마지막은 전환 가능성이 80%이다. 아래 행(row)의 숫자가 커질수록 점점 개방적이 됨을 의미한다. 마지막 두 추이행렬은 아주 개방적인 학생들일 것이다.

그런데 이 추이행렬을 가진 학생들이 동일한 교수의 전공수업을 수강했다고 가정하고 그들의 정상행렬을 계산해 보면 각각 다음과 같다.

,

입학 초기에 전공에 대한 관심이 어떤 상태인가에 관계없이, 전공에 대해 개방적인 태도를 지닌 학생의 전공에 대한 관심 비율(학문에 대한 관심 중 전공에 대한 관심이 차지하는 비율: 전공 대 비전공으로만 단순화시켜서 표현함)이 최대 80%나 되며, 전공에 대해 비개방적인 태도를 지닌 학생의 전공에 대해 관심 비율은 33%에 불과하다.

전공에 대한 관심은 전공 성적과 높은 상관관계를 갖고 있다. 다시 말해 신입생이 전공에 대해 얼마나 개방적인 태도를 갖고 있는가가 결국 전공에서의 학업성취에 커다란 영향을 미칠 것으로 추정된다.

물론 앞에서 살펴본 것처럼 전공 첫 수업을 어떤 교수가 가르치는가도 중요한 결정요인일 것이다. 여기서 교수 사례는 분석단위가 학과이고, 학생 사례는 분석단위가 개별 학생이다. 이점 때문에 다소 혼란스러울 수 있을 것이다.

이 예상들은 실증적인 조사 자료 없이 마르코프 연쇄 모형을 이용하여 수학적으로 도출되었다. 실제 조사를 해보면 예상과 많이 다를까? 사회과학적 추론에 있어 마르코프 연쇄의 잠재성이 아주 커보인다.