끝낼 수 없는 도전

SAMSUNG CSC
데이터사이언스 워크숍

필암문화원에서 어제(토요일) 오후 4시부터 오늘 오후 2시까지 마라톤 워크숍을 가졌다. 대구에서 온 전채남 박사와 김희대 박사, 서울에서 온 나의 대학원 학생들(유자현, 정성호, 구경모), 그리고 막내와 내가 참여했다. 나는 베이즈 통계 부분을 리드하고 막내는 파이썬 프로그래밍 파트를 리드했다.

두 명씩 서로 도와가면서 학습하는 페어 프로그래밍(pair programming) 방식으로 진행했다. 참가자들이 준비를 잘 해온 덕분에 상당히 많은 내용을 소화할 수 있었다.

워크숍의 목표는 지난 겨울방학 동안에 공부한 베이지안 통계(Bayesian statistics)와 파이썬(Python)(프로그래밍 언어)을 총복습하는 것이었다. 빈도주의(frequentism)라고 불리는 기존의 확률과 통계 분석에만 익숙한 사람들이 베이즈주의(Bayesianism)에 입문하기가 쉽지 않다. 확률에 대한 개념이 다르고, 분석 과정도 다르며, 수학과 컴퓨터 지식도 더 많이 요구된다. 또한 SAS와 같은 통계패키지를 사용하면 굳이 프로그래밍 언어를 배우는 수고를 하지 않아도 베이지안 통계분석을 실행할 수 있지만. 프로그래밍을 하면서 배우는 것이 베이지안 통계를 더욱 철저히 배울 수 있고, 나아가 인공지능(artificial intelligence)과 기계학습(machine learning)을 공부하는데도 도움이 되리라 생각되어 어려운 길을 택했다.

베이즈 통계를 사용하려면 몇 가지 핵심적 개념과 원리, 분석과정, 분석도구를 제대로 이해해야 한다. 간략히 제시하면 다음과 같다.

  • 베이즈 통계에서는 확률(probability)이란 특정 상황의 불확실성을 평가하는 데 있어 개인이 갖는 믿음의 정도(degree of belief)(혹은 확신의 정도(degree of confidence))를 말한다.
  • 베이즈 통계에서는 모든 표본값(sampling statistics)과 모수(parameters)가 확률변수(random variable)이다(일 수 있다).
  • 따라서 베이즈 통계의 알파와 오메가는 확률분포(probability distribution)이다.
  • 베이즈 통계의 출발은 조건부 확률(conditional probability)이다.
  • 베이즈 통계의 핵심은 베이즈 정리(Bayes Theorem)이다.
  • 베이즈 통계를 이해하고 실행하려면 수학에서 순열과 조합, 미적분, 집합, 그리고 특히 행렬대수(matrix algebra)를 알아야 한다.
  • 베이즈 추론에는 수학적 해 대신에 통계적 근사치를 사용한다.
  • 베이즈 추론에는 컴퓨터 시뮬레이션이 적용된다.
  • 컴퓨터 시뮬레이션을 하는 데는 MCMC(Markov Chain Monte Carlo) 방법이 사용된다. MCMC를 이해하려면 특히 마르코프 연쇄랜덤 워크(random walk) 이론을 잘 파악해야 한다.
  • MCMC 방법을 사용하여 사전 분포(prior distribution)로부터 수만 개 혹은 수십만 개의 수를 생성하여 모수를 근사(approximate)한다.
  • 베이즈 추론 과정은 크게 네 부분으로 구성된다. (1) 사전정보(prior)(사전 분포) 추정(편의상 우도함수와 같은 계열의 함수를 채택하는 방법을 쓴다 <– 공액함수(conjugate prior)라고 불린다),  (2) 데이터의 우도 함수(likelihood function) 추정. (3) 우도함수를 가지고 사전분포를 갱신(update)하여 사후 함수를 구한다. (4) 절차의 적절성을 평가한다. 특히 시뮬레이션의 수렴(convergence)에 대해 평가해야 한다.
  • 평가 결과가 만족스럽지 않을 경우 확률모형을 수정하거나 절차를 개선하여 다시 추론 과정을 밟는다.

두 달 후에 가질 2차 워크숍에서는 MCMC와 평가를 보다 깊이 있게 이해하고, 파이썬을 사용해서 모수 추정 뿐 아니라 예측이나 가설 검증도 해 보아야 겠다.

정년도 몇 년 남지 않았는데, 과연 이렇게 낯선 공부를 해야할까 하는 생각이 들기도 한다. 하지만 이 시대에 인공지능을 이해하지 못하면서 사회적 불평등, 일, 직업, 그리고 인간의 행복에 대해 사회학적으로 발언하고 개입할 수 있겠는가. 사회학자이기를 그만 두지 않은 한 도전을 멈출 수 없을 것이다. (윤영민, 2016/02/29)

베이즈(Bayes)의 귀환

SAMSUNG CSC
Ronald J. Wonnacott & Thomas H. Wonnacott. 1985. Introductory Statistics, 4th ed.

1986년 가을 미국 University of South Carolina(Columbia)에서 사회학 석사 과정을 시작했다. 첫 학기에 전공 필수 과목 중 하나로 ‘사회통계학 입문’을 수강했다.  그 과목을 강의했던 밀러 맥퍼슨(J. Miller McPherson) 교수는 학기 초반에 조건부 확률을 가르치면서 베이즈 공리(Bayes Theorem)를 잠깐 소개했다. 나는 그가 수업 시간에 이렇게 말했던 것으로 기억한다.

“아마도 여러분이 미래에 베이즈 분석을 사용할 가능성은 거의 없을 겁니다. 그래서 여기서 잠시 그 원리를 설명하고 교재의 마지막 부분, 제19장과 제20장에 있는 베이즈 추론과 베이즈 의사결정이론은 수업에서 다루지 않겠습니다.”

맥퍼슨 교수와 그의 부인인 Lynn Smith-Lovin 교수는 상당히 우수한 사회학자였다. 그는 나중에 코넬대학교와 아리조나 대학교 교수를 거쳐서 듀크대학교 사회학과에서 부인과 함께 오랫동안 교수로 재직했다. 요즈음 인기가 좋은 분야인 사회연결망(social network) 분석 전문가인 그는 특히 계량적 방법에 뛰어났다. 그런 그가 30년 전 베이즈 접근과 분석이 지닌 시대적 잠재성을 깨닫지 못했고, 덕분에 베이즈 공리와 분석은 나의 시야에서 영원히 사라졌다.

그런데 나는 환갑 나이에 베이즈를 다시 공부하고 있다. 지금이라도 베이즈를 공부하지 않는다면 나는 새로운 시대의 수많은 학문적 연구를 이해하지 못하는 반쪽짜리 사회과학도로 남을 것이다.

다행히 금년 한 해 연구년을 보내는 덕분에 차분하게 베이즈를 공부하고 있다. 더구나 베이즈 분석을 컴퓨터로 실행하기 위해 파이썬(Python)이라는 컴퓨터 언어를 함께 배우고 있다. 어느 하나를 새로 시작해도 익히기 쉽지 않겠지만 다행히 전산과학을 전공하는 막내가 파이썬 학습을 거들어 주니 그럭저럭 공부할 만하다.

베이즈 분석은 내가 젊은 시절 배우고 평생 동안 사용한 통계학 접근과 참으로 다르다. 무엇보다 사고의 전환이 요구되는데 그 점에 적응이 어려웠다. 이제 베이즈적 사고가 점점 자연스럽게 느껴지고 파이썬의 구조에 대한 이해도 어느 정도 가능하다. 어느덧 한 고비를 넘은 것 같다. 좀 더 박차를 가하자(2016/02/14).

미래를 얘기할 때

시나리오
연말이 되니 여느 때처럼 미래 전망이 쏟아져 나온다. 거기에는 사려깊은 분석과 예측도 있지만, 단순한 짐작, 억측, 과장, 소망, 부정직한 선언, 정치적 수사, 자기 과신, 신비주의 등도 전문가의 이름으로 제시되곤 한다.

비록 미래예측이 대부분 틀리기는 하지만, 어느 개인이나 조직도 미래를 고려하지 않고 존재할 수 없다. 많이 추상적이기는 하지만, 연말에 여러분들에게 혹시 도움이 될 지 몰라서 한 마디 올려본다.

몇년 전 CEO를 대상으로 했던 강의 자료인데, 미래전망과 대안선택의 프로세스이다.

1) 무엇에 관해 전망할 것인지를 선택한다.
2) 해당 사안에 영향을 미치는 주요 요인들을 모두 찾아내고, 그 요인들 사이의 인과관계를 파악한다.
3) 그중, '중요하나 불확실한 요인(important & uncertain)'들에 주목한다.
4) 그 변수들이 지닌 불확실성의 수준에 따라 전망 방식을 선택한다.
5) 불확실성이 낮다고 판단되면 '예측(forecasting)'을 수행하고, 불확실성이 너무 높다고 판단되면 기도를 열심히 하거나 점쟁이를 찾는다. 그도저도 아니라고 판단되면, 미래전망 '시나리오'를 작성한다. 네 개 정도의 시나리오가 적당하다.
6) 만약 귀하가 CEO라면, 위험부담의 수준을 선택하고, 그에 맞는 해법을 선정한다. 최적 해법(optimal solution)을 택하면, 기대치가 큰 반면 리스크도 크다. 전천후 해법(robust solution)을 택하면, 기대치는 낮지만 리스크가 작다. 상황이 어려울 때는 전천후 해법이 최선의 선택일 수 있다.

가장 신뢰할 수 없는 전문가는 불확실성이 높은 사안에 대해 확신을 갖고 말하는 사람들이다. 최소한 세 가지 수준의 화법을 적절히 분별해서 사용할 수 없는 사람들은 전문가로 간주하기 어렵다.

미래를 다루는 전문가의 가장 중요한 소양은 겸손과 정직이다. 신의 영역에 접근하고 있기 때문이다.(윤영민, FB 2013/12/16)