황금측백, 그리고 개념….

SAMSUNG CSC
황금측백

지난 주에는 정원의 꽃나무들에 퇴비를 듬뿍 주었다. 그러고나니 비가 많이 내렸다. 꽃나무들이 오랜만에 포식을 했으리라. 대문부터 현관까지 도열한 황금측백 나무들이 옷을 갈아 입는다. 잎의 끝부분을 제외하고 모두 연초록빛으로 바뀌고 있다. 봄이 온 것이다.

틈만 나면 막내에게 강의(?)를 해준다. 그렇게 학구적이 아닌 녀석인데 내 말에 귀를 기울여 주니 고맙다.

어제 밤에는 개념, 모형, 이론, 그리고 지식에 대해 이야기 했다. 아래는 내 이야기에 관한 간략한 요약이다.

  • 인간은 생각하는 존재이다. 그런데 인간이 생각하는 데 사용하는 도구가 무엇일까? 무엇보다도 개념(concepts)이다.
  • 개념이란 무엇일까? 개념은 공통적인 특질을 지닌 대상들을 하나로 묶어주는 단어이다. 책상, 걸상, 사람, 여자, 남자, 책, 연필, 컴퓨터, 스마트폰, 볼펜 등등.
  • 개념은 인간으로 하여금 어떤 대상을 다른 대상과 구분할 수 있게 도와준다. 남자라는 개념은 남성을 여성으로부터 구분시켜주고, 사람이라는 개념은 신이나 짐승처럼 사람이 아닌 존재로부터 사람을 구분할 수 있게 해준다.
  • 개념의 저수지(reservoir)가 풍부한 사람은 세상을 정밀하게 파악할 수 있다. 반면에 개념의 저수지가 빈약한 사람은 대상들이나 현상들을 구분해내는 능력이 떨어진다. 그래서 흔히 사용되는 “개념 없는 사람”이란 대상의 구분 능력이 떨어지는 사람을 가리키고, 반면에 “개념녀”라는 말은 무엇이 중요한 것인지를 잘 인식해서 말하고 행동하는 여성을 가리킨다.
  • 책을 읽고 공부를 하는 것은 개념의 저수지를 채우는 일이다. 대학을 다니는 것도 동일한 이유이다.
  • 개념들이 논리적으로 연결되면 주장이나 설명이 된다. 이론이란 세상에 대한 간략한 설명(혹은 주장)이다. 무엇보다도 어떤 설명이나 주장이 없으면 이론이 아니다. 설명이나 주장은 반드시 인과관계(causality)를 포함한다. 인과관계란 원인과 결과에 대한 서술이다. 그래서 이론은 세상을 이해하게 해준다. 또한 이론은 간략해야 한다. 세상 자체가 복잡해서 머리가 아픈데 세상을 설명하는 이론까지 복잡하면 그것은 세상에 대한 인식에는 별로 도움이 되지 않고 머리만 더 아프게 할 뿐이다. 그리고 무슨 현상이든 ‘세상’이 될 수 있다. ‘화학적 현상’이 ‘세상’이 되면 화학이론이 되고, ‘생물학적 현상’이 ‘세상’이 되면 생물학 이론이, ‘물리학적 현상’이 ‘세상’이 되면 물리학 이론이 된다.
  • 복잡한 세상을 간략하게 묘사해서 이해를 도와준다는 의미에서, 그리고 개념들이 결합되 있다는 점에서 모형(model)은 이론과 닮았다. 지구 모형, 자동차 모형, 확률 모형, 회귀 모형 등등. 그러나 모형은 그 안에 꼭 인과관계(causality)를 포함할 필요가 없다. 통계학에서는 모형을 많이 사용하는데, 그 중 회귀 모형(regression model)과 같은 이론적인 모형(theoretical model)은 인과관계를 포함하지만, 정규분포, 멱함수 분포, t 분포, 베타분포, 균일 분포 등과 같은 확률 모형(probability models)은 인과관계를 포함하지 않는다.
  • 지식(knowledge)은 정보(information)와 구분될 수 있다. 물론 넓은 의미로 정보는 지식을 포함하지만 말이다. 지식은 반드시 체계적인 내용을 갖추어야 한다. 그래서 이론이나 모형은 지식의 중요한 부분이 되곤 한다. 지식과 달리 파편적이거나 단편적인 내용도 정보가 될 수 있다. 대한민국의 수도는 서울이다는 정보이지만 지식이 아니다. 공무원 시험에 사용되는 두꺼운 “일반 상식” 책에는 단편적인 정보만 가득 담겨있지 체계적인 정보인 지식은 거의 없다.
  • MIT 교수였던 Machlup은 다음과 같이 말했다.

“정보는 그냥 듣기만 해도 얻을 수 있지만, 지식은 오직 생각을 통해서만 얻을 수 있다(Information is acquired just by being told, whereas knowledge is acquired only by thinking).”

지식은 오직 생각이라는 과정(흔히 그것은 수고스럽다)을 거쳐서 얻어진다. 예컨대 대학 수업에서 교수는 지식을 강의하지만, 학생들에게 교수의 강의는 정보에 지나지 않곤 한다. 학생들이 교수의 강의를 자신의 지식으로 만드는 유일한 길은 그 강의를 곰씹어 생각하는 것이다.

막내에게 내 이야기가 단순히 정보에 그치지 않고 지식이 되었으면 좋겠다. (윤영민, 2016/03/07)

 

 

(Bayes 학습)(3) 베이즈 정리의 응용성

<Bayes 학습> (1)에서 도출한 아래의 베이즈 정리(Bayes’s Theorem: 이하 Bayes Theorem)는 놀라운 응용성을 갖는다.

                              (1)

베이즈 정리를 보다 일반적으로 사용하기 위해 A를 로, B를 로 바꾸어 아래와 같이 다시 쓰자.

                                   (2)

  • 어떤 불확실한 현상도 가 될 수 있다. 그것은 미지의 모수(unknown parameters)일 수도 있고, 하나의 가설(hypothesis)이나 모형(model)일 수도 있고, 하나의 데이터 점(data point)일 수도 있다.  한 마디로 베이즈 정리는, 어떤 현상에 관하여 우리가 지니고 있는 믿음(prior beliefs)을, 수집된(관찰된) 데이터(data)에 비추어서 그것을 어떻게 갱신하여(update) 새로운 믿음(posterior beliefs)을 갖게 되는가를 말해준다. 즉, 하나의 귀납법적 사유 방식이다. 그것을 다음과 같이 도식화하여 표현할 수 있을 것이다.1  

믿음(prior beliefs)  –> 관찰된 데이터(data) –> 갱신된 믿음(posterior beliefs)

이 도식을 아래와 같이 표현할 수도 있다.

베이즈 정리가 응용될 수 있는 보다 구체적인 사례를 들어보자.

  • 두 그릇의 쿠키가 있다. 그릇 I에는 30개의 바닐라 쿠키와 10개의 초콜렛 쿠키가 들어있고, 그릇 II에는 바닐라 쿠키와 초콜렛 쿠키가 각각 20개씩 들어있다. 만약 당신이 그릇을 쳐다보지 않고  한 그릇으로부터 쿠키 하나를 집었는데 그것이 바닐라 쿠키였다. 그렇다면 그 쿠키가 그릇 I로부터 집었을 확률은 얼마인가?2
  • Let’s Make a Deal이라는 게임쇼는 다음과 같이 진행된다. 사회자 Monty Hall은 출연자에게 세 개의 닫힌 문을 보여주면서, 그중 하나의 문 안에는 자동차가 상품으로 들어있고, 다른 두 문 안에는 땅콩버터나 장식용 손톱 같은 훨씬 덜 값나가는 상품이 들어 있다고 설명한다. 게임은 출연자가 자동차가 들어 있는 문을 알아맞추는 것이다. 만약 출연자가 자동차가 들어 있는 문을 고르면 자동차를 상품으로 받게 된다. 상품은 무작위로 배치되어 있다. 출연자가 문 하나를 고르고 나면, 그 문을 열기 전에 Monty는 나머지 두 문 중 자동차가 들어있지 않은 문을 열어보이면서 출연자에게 기존의 선택을 바꿀 의사가 있는 지 물어본다. 과연 출연자는 자신의 선택을 그대로 유지하는 것이 유리할까요 아니면 다른 문을 선택하는 것이 유리할까요?3
  • 한 철도회사가 자사 소유의 기관차들에 일련번호를 붙였다. 그런데 어느 날 당신이 60이라는 번호가 붙은 기관차를 봤다면, 그 철도회사는 몇 대의 기관차를 갖고 있겠는가?4
  • “벨기에에서 제조된 1유로짜리 동전을 세워서 250회 돌렸더니 앞면이 140회가 나오고, 뒷면이 110회가 나왔다. 이 실험 결과는 그 동전이 한쪽으로 편향되게 만들어졌다는 증거가 될 수 있는가?5
  • 라플라스(Laplace, 1825)의 유명한 질문: “역사의 시작을 5천년 전으로 간주한다면, 인류는 24시간 마다 해가 뜨는 현상을 총 1,826,213번 관찰했다.  이 증거로 볼 때 내일 다시 해가 뜰 확률은 얼마나 되는가?”6
  • 어떤 사람이 word processor에 ‘radom’이라고 입력했다. word processor는 그 단어를 어떻게 읽어야 하나? 그것은 ‘random’이라는 단어의 오기일 수도 있고, ‘radon’이나 혹은 다른 단어의 오기일 수도 있으며, 아니면 사용자의 의도적인 표기이거나 조어일 수도 있다. ‘radom’이 실제 ‘random’의 오기일 확률은 얼마인가?7
  • 2000년 11월 미국 대통령 선거를 앞두고 3월초에 발표된 미국 플로리다주 유권자들의 투표 의사에 관한 한 여론조사에 의하면, 509명의 응답자 중 279명이 조지 부시를 찍겠다고 응답했으며, 230명이 엘 고어를 찍겠다고 응답했다. 이 조사결과에 의하면 적어도 플로리다 주에서는 부시가 고어보다 훨씬 많은 지지를 받는 것으로 보인다. 그런데 과연 그 조사결과를 믿을 수 있을까? 참고로 그 전에 발표된 한 조사기관의 예측에 의하면 2000년 대선에서 플로리다주에서 예상되는 공화당 후보의 지지율이 49.1%이며 표준오차가 2.2%이었다. 이 두 가지 조사결과를 결합하면, 실제 플로리다주에서 공화당 후보인 조지 부시의 지지율이 얼마라고 볼 수 있겠는가?8
  • 라틴 아메리카에서 외국의 위협과 사회혁명의 상관관계에 관한 한 연구에서 다음과 같은 자료가 제시되었다. 각 관찰은 한 국가에서 20년 동안에 발생한 사건이다. 아래 표에서 왼쪽 상단의 칸에 있는 1은 볼리비아의 사례이다. 볼리비아는 1935년에 군사적 패배를 했고, 1952년에 사회혁명을 겪었다. 왼쪽 하단의 칸의 2는 멕시코(1910년 사회혁명)와 니카라구아(1979년 사회혁명)이다. 이 자료를 보고, 라틴 아메리카에서는 군사적 패배를 경험하지 않은 나라보다 군사적 패배를 경험하는 나라가 사회혁명을 겪을 가능성이 더 높다고 결론을 내릴 수 있을까?9
revolution no revolution
Defeated and invaded or lost territory 1 7
Not defeated for 20 years 2 74
  • 임의의 노동자를 반도체 제조공정에 배치했을 때 이 노동자로부터 백혈병이 발생할 확률은 일반인의 백혈병 발병률에 비해 현저하게 높은가? 참고로 2008년 한국 산업안전공단의 조사에 의하면, 반도체 제조업 노동자  139,763명 중 백혈병 암 등록자는 총 16명이었다. 그리고 WHO의 2010년 자료에 의하면 우리 나라의 백혈병 발병률은 10만명 당 2.9명이었다.10

이상의 구체적인 사례들에서 보듯이 베이즈 정리는 온갖 종류의 추론이나 추정, 의사결정, 혹은 가설 검증에 응용될 수 있다. 빈도주의 통계학으로 분석할 수 있는 현상은 모두 베이즈 통계로 분석이 가능하며, 빈도주의 통계학으로 하기 어려운 현상들도 베이즈 통계에 의해 가능한 경우가 많다고 말 할 수 있을 것이다.

베이즈 추론은 세상을 이해하는 하나의 관점 혹은 하나의 인식 과정이라고 간주되어야 할 것으로 생각된다. (윤영민, 2016/03/04)

(주석)

  1. Simon Jackman. 2009. Bayesian Analysis for the Social Sciences. Wiley. p. 29
  2. Allen B. Downey. 2012. Think Bayes. Green Tea Press. p. 3
  3. Downey. p.8
  4. Downey. p.23
  5. Downey. p.33
  6. Jackman. p.57
  7. Andrew Gelman, John B. Carlin, Hal S. Stern, David B. Dunson, Aki Vehtari, and Donald B. Rubin. Bayesian Data Analysis, 3rd edition. CRC Press.  p.9
  8. Jackman. p.54
  9. Jackman. p.73
  10. 박종희. 2014. “베이지안 사회과학 방법론이란 무엇인가?” 평화연구 22(1). pp.490-492

(Bayes 학습)(2) ‘확률변수’의 확장

베이즈 정리에 대해 논의하기 전에 확률변수(random variable)에 대해 생각해보자. 베이즈 추론에서 관찰 데이터뿐 아니라 모수(population parameter)도 확률변수로 간주될 수 있다는 말이 기존 (빈도주의) 통계학의 관점에서는 잘 납득이 가지 않는다. 모수는 우리가 알고싶고, 그래서 추론하려고 하는 진리값(예컨대 )인데, 그것이 어떻게 확률변수로 간주될 수 있다는 말인가?

통계학을 배운 지 오래 된 사람들은 아마도 수학적인 변수(mathematical variables)확률변수가 잘 구분되지 않을 것이다. 수학적인 변수는 흔히 로 표현되며, 값이 특정되어 있지 않아 여러 가지 값을 가질 수 있는 문자이다. 그것은 방정식에서는 미지수를 가리키며, 사회과학 이론에서는 변할 수 있는(즉, 여러 개의 값을 가질 수 있는) 개념(혹은 그것이 가리키는 사회현상)을 가리킨다.  그런 의미에서 변수 상수(constant)의 반대 개념이다.

확률변수는 어떤 (통계적) 실험(experiment) 혹은 확률과정(random process)의 결과에 숫자가 부여되는 함수(function)이다. 그리고 이산 확률변수(discrete random variable)는 각 값(value)에 대응하는 확률(probability)을 가지며, 연속 확률변수(continuous random variable)는 확률밀도(probability function)를 갖는다. 고등학교 수학교과서에는 확률변수가 아래와 같이 정의되어 있다.

“한 시행에서 표본공간을 정의구역으로 하는 실수함수(즉 공변역이 실수의 집합인 함수)를 확률변수라 한다.”

예를 들어, 한 동전을 2회 던져서 나오는 앞면의 수(혹은 뒷면의 수)는 확률변수이다. 앞면을 H, 뒷면을 T라고 하면, 표본공간 는,

이다. 앞면의 수를 라고 하면, 의 값은 원소 TT, TH, HT, HH에 대해 0, 1, 1, 2와 같이 대응한다. 그리고가 0일 확률 은 1/4이며, 은 2/4이고, 는 1/4이다. 여기서 앞면의 수 는 확률변수이며, 그 확률변수는 동전 던지기라는 확률 과정에 의해 생성된다. 통상 수학적 변수는 소문자 로 표시되지만 확률변수는 대문자 로 표시된다.

확률변수도 변수의 한 유형이다. 그러나 수학적 변수와는 두 가지 점에서 구분된다. 하나는 확률변수가 어떤 실험이나 확률과정의 결과라는 점이고, 다른 하나는 확률변수의 각 값은 확률 혹은 확률밀도를 갖는다는 사실이다. 확률변수의 각 값과 그에 대응하는 확률을 표나 그래프로 나타내는 것이 확률분포(probability distribution)이다. 확률변수와 달리 수학적 변수는 확률분포를 갖지 않는다.

따라서 확률변수와 확률분포에 관해 생각할 때는, 첫째, 우리가 관심을 갖는 확률변수가 무엇인가, 둘째, 그 확률변수의 값을 생성시키는 확률과정(혹은 통계적 실험)은 무엇인가, 셋째, 그 확률과정의 표본공간(sample space)은 무엇인가, 넷째, 생성된 확률변수는 어떤 값들을 갖는가, 그리고 다섯째, 각각의 확률변수 값에는 어떤 확률(혹은 확률밀도)이 대응하는가(즉, 확률분포는 어떤 모습인가)를 분명히 파악하고 시작해야 한다.

베이즈 추론은 바로 그러한 확률변수와 확률분포의 파악에서부터 출발해야 한다. 왜냐하면, 베이즈 추론은 사전정보(prior)라고 불리는 확률분포를 상정하고, 관찰한 데이터에서 얻은 정보(우도함수, likelihood function)를 가지고 그 확률분포를 갱신하여(update) 사후 (확률) 분포(posterior distribution)를 추정하는 과정이며, 베이즈 추론의 시작과 끝은 (확률) 분포라고 할 수 있기 때문이다. (윤영민, 2016/03/02)

(Bayes 학습)(1) ‘확률’을 새롭게 인식하며

고등학교 수학 교과서에 따르면 어떤 “사건이 일어날 확실성을 수량적으로 나타낸 것”이 확률(probability)이다. 근원 사건이 같은 정도로 일어난다고 가정할 때, 어떤 사건의 확률 P(A)은 사건 A가 일어나는 경우의 수()를 일어날 수 있는 모든 경우의 수(N)로 나눈 값이다. 이것을 수학적 확률이라고 한다.  (참고로 근원 사건이란 더 이상 분해되지 않는 사건을 말한다.)

P(A) = {N_A \over N} .

두 개의 주사위를 동시에 던질 때, 눈의 합이 5로 되는 확률을 예로 들 수 있을 것이다. 전자의 경우를 보면, 표본공간(sample space) N은 6*6 = 36이고, 눈의 합이 5가 되는 사건(event)은 (1,4), (2,3), (3,2), (4,1)의 4 가지이므로 구하는 (수학적) 확률은 4/36 = 1/9이다.

그러나, 현실은 동전이나 주사위 던지기가 아니다. 근원 사건이 같은 정도로 일어난다는 가정이 성립되지 않을 수도 있고(예: 혈액형 유형별 발생 확률), 표본공간 N의 크기가 알 수 없거나 무제한 일 수도 있을 것이다. 그런 경우 수학적 확률을 구하기 어렵거나 심지어 불가능할 것이다. 그럴 때 우리는 통계적 확률로 수학적 확률을 대신한다.

시행의 횟수 n이 커짐에 따라 사건 A가 일어나는 상대빈도(relative frequency) 이 일정한 값 p와 거의 같다고 간주할 수 있을 때, 그 p를 통계적 확률이라고 말한다.

\lim_{n \to \infty}{n_a \over n}=p

상대빈도와 확률 사이에 이러한 관계를 성립시켜주는 것은 대수의 법칙(the law of large numbers)이다. 대수의 법칙에 따르면 통계적 확률과 수학적 확률이 일치한다. 따라서 수학적 확률을 알 수 없을 때 통계적 확률을 대신하고, 상대빈도로 통계적 확률을 근사할 수 있다.

예컨대 100원짜리 동전을 던져서 앞면이 나올 통계적 확률을 구하기 위해서는 실제로 동전을 한 1천번 정도 던져보아야 한다. 만약 정말로 1천번을 던져서 앞면의 수가 501번이 나왔다면 통계적 확률이 1/2이라고 말할 수 있다.

여기까지가 중고등학교에서 배운 확률의 정의이다. 이 확률의 정의를 가지면 현실의 문제를 다루는 데 충분할까?

사실 현실에서 상식적으로 확률을 그런 의미로 사용하는 경우는 드물다. “우리 아이가 A 대학에 붙을 확률이 얼마나 될까요?” “북한이 남한에 대해 미사일 공격을 가해 올 확률이 얼마나 될 거라고 생각하세요?” “내일 오전에 비가 내릴 확률이 얼마나 될까요?” “소풍 가는 날 맑은 날씨일 확률이 얼마나 될까요?” “더민주당이 총선 이후 다시 제1야당이 될 확률이 얼마나 될까요?” “안철수 의원이 새정치국민연합을 탈당할 확률이 얼마나 될까요?” “백혈병 환자의 5년 이상 생존율이 얼마나 되나요?” “말기 폐암 환자가 1년 이상 생존할 확률이 얼마나 되나요?” “저 백혈병 환자가 1년 이상 생존할 확률이 얼마나 될까요?” “에이즈 검사 결과가 양성으로 나온 저 남자가 실제로 에이즈에 감염되었을 확률은 얼마나 되나요?” “그녀가 사업에 성공할 확률이 얼마나 될까요?” 이 사례들은 모두 정당한 확률적 의문이다.

즉, 이 사례들에서 보듯이 현실에서 사람들은 확률을, 반복적이지 않은 사건의 객관적인 발생 가능성을 가리키는데 사용하기도 하고, 또 어떤 사건의 발생 가능성에 대한 주관적인 믿음의 정도(degree of belief)나 지식의 상태(state of knowledge)를 가리키는데 사용하기도 한다.

수학적 확률이나 상대빈도(relative frequency)는 반복적으로 많은 횟수가 발생하는 사건의 객관적인 발생 가능성을 숫자로 나타내는 데 유용함이 분명하다. 그러나 희소한 사건의 발생 가능성, 혹은 반복적이지 않은 사건의 발생 가능성은 어떻게 숫자로 표현할까? 혹은 어떤 사건의 발생 가능성에 대한 전문가의 확신을 추정이나 예측에 반영할 수 있는 길은 없을까?

베이즈 추론(Bayesian inference)은 그러한 상상에 유용한 접근 방법이 될 수 있다. 관찰값이 주어졌을 때, 그것으로부터 관찰이 불가능한 모수(parameters)의 값을 추정하거나, 또는 관찰값이 주어졌을 때, 그것으로부터 미래에 혹은 다른 사례에서 동일한 현상이 나타날 가능성을 예측하는데 대단히 유용할 수 있다.

베이즈 추론은 “관찰값이 주어졌을 때”, 다시 말해 어떤 특정한 조건이 주어졌을 때, 모수를 추정하거나 미지의 수를 예측하기 때문에 근본적으로 조건부 확률(conditional probability)이다. 조건부 확률을 복습하면서 베이즈 정리를 도출해 보자.

사건 A가 일어났을 때의 사건 B의 조건부 확률 P(B|A)는

 , P(A) ≠ 0

으로 표시된다. 여기서 양변에 P(A)를 곱하면,

가 된다. 이것은 바로 확률의 곱셈정리이다.

그런데 집합의 교환법칙에 따르면,  이므로,

가 된다. 여기서 양변을 P(A)로 나누면,

   , P(A) ≠ 0

베이즈 정리(Bayes Theorem)가 도출되었다. 말로 풀어보면, 사건 A가 일어났을 때 사건 B가 일어날 조건부 확률 P(B|A)은 사건 B가 일어날 확률 P(B)에, 사건 B가 일어났을 때 사건 A가 일어날 조건부 확률 P(A|B)를 곱한 값을 사건 A가 일어날 확률 P(A)로 나눈 값과 같다. 베이즈 추론은 이 베이즈 정리에서 출발한다. 이 정리가 그렇게 중요할 줄은 고등학교 때는 물론이고, 대학 수학 시간이나 대학원 통계학 시간에도 상상하지 못했다. 다음에는 베이즈 정리를 좀 깊이 이해해 보자. (윤영민, 2016/02/29)

끝낼 수 없는 도전

SAMSUNG CSC
데이터사이언스 워크숍

필암문화원에서 어제(토요일) 오후 4시부터 오늘 오후 2시까지 마라톤 워크숍을 가졌다. 대구에서 온 전채남 박사와 김희대 박사, 서울에서 온 나의 대학원 학생들(유자현, 정성호, 구경모), 그리고 막내와 내가 참여했다. 나는 베이즈 통계 부분을 리드하고 막내는 파이썬 프로그래밍 파트를 리드했다.

두 명씩 서로 도와가면서 학습하는 페어 프로그래밍(pair programming) 방식으로 진행했다. 참가자들이 준비를 잘 해온 덕분에 상당히 많은 내용을 소화할 수 있었다.

워크숍의 목표는 지난 겨울방학 동안에 공부한 베이지안 통계(Bayesian statistics)와 파이썬(Python)(프로그래밍 언어)을 총복습하는 것이었다. 빈도주의(frequentism)라고 불리는 기존의 확률과 통계 분석에만 익숙한 사람들이 베이즈주의(Bayesianism)에 입문하기가 쉽지 않다. 확률에 대한 개념이 다르고, 분석 과정도 다르며, 수학과 컴퓨터 지식도 더 많이 요구된다. 또한 SAS와 같은 통계패키지를 사용하면 굳이 프로그래밍 언어를 배우는 수고를 하지 않아도 베이지안 통계분석을 실행할 수 있지만. 프로그래밍을 하면서 배우는 것이 베이지안 통계를 더욱 철저히 배울 수 있고, 나아가 인공지능(artificial intelligence)과 기계학습(machine learning)을 공부하는데도 도움이 되리라 생각되어 어려운 길을 택했다.

베이즈 통계를 사용하려면 몇 가지 핵심적 개념과 원리, 분석과정, 분석도구를 제대로 이해해야 한다. 간략히 제시하면 다음과 같다.

  • 베이즈 통계에서는 확률(probability)이란 특정 상황의 불확실성을 평가하는 데 있어 개인이 갖는 믿음의 정도(degree of belief)(혹은 확신의 정도(degree of confidence))를 말한다.
  • 베이즈 통계에서는 모든 표본값(sampling statistics)과 모수(parameters)가 확률변수(random variable)이다(일 수 있다).
  • 따라서 베이즈 통계의 알파와 오메가는 확률분포(probability distribution)이다.
  • 베이즈 통계의 출발은 조건부 확률(conditional probability)이다.
  • 베이즈 통계의 핵심은 베이즈 정리(Bayes Theorem)이다.
  • 베이즈 통계를 이해하고 실행하려면 수학에서 순열과 조합, 미적분, 집합, 그리고 특히 행렬대수(matrix algebra)를 알아야 한다.
  • 베이즈 추론에는 수학적 해 대신에 통계적 근사치를 사용한다.
  • 베이즈 추론에는 컴퓨터 시뮬레이션이 적용된다.
  • 컴퓨터 시뮬레이션을 하는 데는 MCMC(Markov Chain Monte Carlo) 방법이 사용된다. MCMC를 이해하려면 특히 마르코프 연쇄랜덤 워크(random walk) 이론을 잘 파악해야 한다.
  • MCMC 방법을 사용하여 사전 분포(prior distribution)로부터 수만 개 혹은 수십만 개의 수를 생성하여 모수를 근사(approximate)한다.
  • 베이즈 추론 과정은 크게 네 부분으로 구성된다. (1) 사전정보(prior)(사전 분포) 추정(편의상 우도함수와 같은 계열의 함수를 채택하는 방법을 쓴다 <– 공액함수(conjugate prior)라고 불린다),  (2) 데이터의 우도 함수(likelihood function) 추정. (3) 우도함수를 가지고 사전분포를 갱신(update)하여 사후 함수를 구한다. (4) 절차의 적절성을 평가한다. 특히 시뮬레이션의 수렴(convergence)에 대해 평가해야 한다.
  • 평가 결과가 만족스럽지 않을 경우 확률모형을 수정하거나 절차를 개선하여 다시 추론 과정을 밟는다.

두 달 후에 가질 2차 워크숍에서는 MCMC와 평가를 보다 깊이 있게 이해하고, 파이썬을 사용해서 모수 추정 뿐 아니라 예측이나 가설 검증도 해 보아야 겠다.

정년도 몇 년 남지 않았는데, 과연 이렇게 낯선 공부를 해야할까 하는 생각이 들기도 한다. 하지만 이 시대에 인공지능을 이해하지 못하면서 사회적 불평등, 일, 직업, 그리고 인간의 행복에 대해 사회학적으로 발언하고 개입할 수 있겠는가. 사회학자이기를 그만 두지 않은 한 도전을 멈출 수 없을 것이다. (윤영민, 2016/02/29)

베이즈(Bayes)의 귀환

SAMSUNG CSC
Ronald J. Wonnacott & Thomas H. Wonnacott. 1985. Introductory Statistics, 4th ed.

1986년 가을 미국 University of South Carolina(Columbia)에서 사회학 석사 과정을 시작했다. 첫 학기에 전공 필수 과목 중 하나로 ‘사회통계학 입문’을 수강했다.  그 과목을 강의했던 밀러 맥퍼슨(J. Miller McPherson) 교수는 학기 초반에 조건부 확률을 가르치면서 베이즈 공리(Bayes Theorem)를 잠깐 소개했다. 나는 그가 수업 시간에 이렇게 말했던 것으로 기억한다.

“아마도 여러분이 미래에 베이즈 분석을 사용할 가능성은 거의 없을 겁니다. 그래서 여기서 잠시 그 원리를 설명하고 교재의 마지막 부분, 제19장과 제20장에 있는 베이즈 추론과 베이즈 의사결정이론은 수업에서 다루지 않겠습니다.”

맥퍼슨 교수와 그의 부인인 Lynn Smith-Lovin 교수는 상당히 우수한 사회학자였다. 그는 나중에 코넬대학교와 아리조나 대학교 교수를 거쳐서 듀크대학교 사회학과에서 부인과 함께 오랫동안 교수로 재직했다. 요즈음 인기가 좋은 분야인 사회연결망(social network) 분석 전문가인 그는 특히 계량적 방법에 뛰어났다. 그런 그가 30년 전 베이즈 접근과 분석이 지닌 시대적 잠재성을 깨닫지 못했고, 덕분에 베이즈 공리와 분석은 나의 시야에서 영원히 사라졌다.

그런데 나는 환갑 나이에 베이즈를 다시 공부하고 있다. 지금이라도 베이즈를 공부하지 않는다면 나는 새로운 시대의 수많은 학문적 연구를 이해하지 못하는 반쪽짜리 사회과학도로 남을 것이다.

다행히 금년 한 해 연구년을 보내는 덕분에 차분하게 베이즈를 공부하고 있다. 더구나 베이즈 분석을 컴퓨터로 실행하기 위해 파이썬(Python)이라는 컴퓨터 언어를 함께 배우고 있다. 어느 하나를 새로 시작해도 익히기 쉽지 않겠지만 다행히 전산과학을 전공하는 막내가 파이썬 학습을 거들어 주니 그럭저럭 공부할 만하다.

베이즈 분석은 내가 젊은 시절 배우고 평생 동안 사용한 통계학 접근과 참으로 다르다. 무엇보다 사고의 전환이 요구되는데 그 점에 적응이 어려웠다. 이제 베이즈적 사고가 점점 자연스럽게 느껴지고 파이썬의 구조에 대한 이해도 어느 정도 가능하다. 어느덧 한 고비를 넘은 것 같다. 좀 더 박차를 가하자(2016/02/14).

미래를 얘기할 때

시나리오
연말이 되니 여느 때처럼 미래 전망이 쏟아져 나온다. 거기에는 사려깊은 분석과 예측도 있지만, 단순한 짐작, 억측, 과장, 소망, 부정직한 선언, 정치적 수사, 자기 과신, 신비주의 등도 전문가의 이름으로 제시되곤 한다.

비록 미래예측이 대부분 틀리기는 하지만, 어느 개인이나 조직도 미래를 고려하지 않고 존재할 수 없다. 많이 추상적이기는 하지만, 연말에 여러분들에게 혹시 도움이 될 지 몰라서 한 마디 올려본다.

몇년 전 CEO를 대상으로 했던 강의 자료인데, 미래전망과 대안선택의 프로세스이다.

1) 무엇에 관해 전망할 것인지를 선택한다.
2) 해당 사안에 영향을 미치는 주요 요인들을 모두 찾아내고, 그 요인들 사이의 인과관계를 파악한다.
3) 그중, '중요하나 불확실한 요인(important & uncertain)'들에 주목한다.
4) 그 변수들이 지닌 불확실성의 수준에 따라 전망 방식을 선택한다.
5) 불확실성이 낮다고 판단되면 '예측(forecasting)'을 수행하고, 불확실성이 너무 높다고 판단되면 기도를 열심히 하거나 점쟁이를 찾는다. 그도저도 아니라고 판단되면, 미래전망 '시나리오'를 작성한다. 네 개 정도의 시나리오가 적당하다.
6) 만약 귀하가 CEO라면, 위험부담의 수준을 선택하고, 그에 맞는 해법을 선정한다. 최적 해법(optimal solution)을 택하면, 기대치가 큰 반면 리스크도 크다. 전천후 해법(robust solution)을 택하면, 기대치는 낮지만 리스크가 작다. 상황이 어려울 때는 전천후 해법이 최선의 선택일 수 있다.

가장 신뢰할 수 없는 전문가는 불확실성이 높은 사안에 대해 확신을 갖고 말하는 사람들이다. 최소한 세 가지 수준의 화법을 적절히 분별해서 사용할 수 없는 사람들은 전문가로 간주하기 어렵다.

미래를 다루는 전문가의 가장 중요한 소양은 겸손과 정직이다. 신의 영역에 접근하고 있기 때문이다.(윤영민, FB 2013/12/16)