끝낼 수 없는 도전

SAMSUNG CSC
데이터사이언스 워크숍

필암문화원에서 어제(토요일) 오후 4시부터 오늘 오후 2시까지 마라톤 워크숍을 가졌다. 대구에서 온 전채남 박사와 김희대 박사, 서울에서 온 나의 대학원 학생들(유자현, 정성호, 구경모), 그리고 막내와 내가 참여했다. 나는 베이즈 통계 부분을 리드하고 막내는 파이썬 프로그래밍 파트를 리드했다.

두 명씩 서로 도와가면서 학습하는 페어 프로그래밍(pair programming) 방식으로 진행했다. 참가자들이 준비를 잘 해온 덕분에 상당히 많은 내용을 소화할 수 있었다.

워크숍의 목표는 지난 겨울방학 동안에 공부한 베이지안 통계(Bayesian statistics)와 파이썬(Python)(프로그래밍 언어)을 총복습하는 것이었다. 빈도주의(frequentism)라고 불리는 기존의 확률과 통계 분석에만 익숙한 사람들이 베이즈주의(Bayesianism)에 입문하기가 쉽지 않다. 확률에 대한 개념이 다르고, 분석 과정도 다르며, 수학과 컴퓨터 지식도 더 많이 요구된다. 또한 SAS와 같은 통계패키지를 사용하면 굳이 프로그래밍 언어를 배우는 수고를 하지 않아도 베이지안 통계분석을 실행할 수 있지만. 프로그래밍을 하면서 배우는 것이 베이지안 통계를 더욱 철저히 배울 수 있고, 나아가 인공지능(artificial intelligence)과 기계학습(machine learning)을 공부하는데도 도움이 되리라 생각되어 어려운 길을 택했다.

베이즈 통계를 사용하려면 몇 가지 핵심적 개념과 원리, 분석과정, 분석도구를 제대로 이해해야 한다. 간략히 제시하면 다음과 같다.

  • 베이즈 통계에서는 확률(probability)이란 특정 상황의 불확실성을 평가하는 데 있어 개인이 갖는 믿음의 정도(degree of belief)(혹은 확신의 정도(degree of confidence))를 말한다.
  • 베이즈 통계에서는 모든 표본값(sampling statistics)과 모수(parameters)가 확률변수(random variable)이다(일 수 있다).
  • 따라서 베이즈 통계의 알파와 오메가는 확률분포(probability distribution)이다.
  • 베이즈 통계의 출발은 조건부 확률(conditional probability)이다.
  • 베이즈 통계의 핵심은 베이즈 정리(Bayes Theorem)이다.
  • 베이즈 통계를 이해하고 실행하려면 수학에서 순열과 조합, 미적분, 집합, 그리고 특히 행렬대수(matrix algebra)를 알아야 한다.
  • 베이즈 추론에는 수학적 해 대신에 통계적 근사치를 사용한다.
  • 베이즈 추론에는 컴퓨터 시뮬레이션이 적용된다.
  • 컴퓨터 시뮬레이션을 하는 데는 MCMC(Markov Chain Monte Carlo) 방법이 사용된다. MCMC를 이해하려면 특히 마르코프 연쇄랜덤 워크(random walk) 이론을 잘 파악해야 한다.
  • MCMC 방법을 사용하여 사전 분포(prior distribution)로부터 수만 개 혹은 수십만 개의 수를 생성하여 모수를 근사(approximate)한다.
  • 베이즈 추론 과정은 크게 네 부분으로 구성된다. (1) 사전정보(prior)(사전 분포) 추정(편의상 우도함수와 같은 계열의 함수를 채택하는 방법을 쓴다 <– 공액함수(conjugate prior)라고 불린다),  (2) 데이터의 우도 함수(likelihood function) 추정. (3) 우도함수를 가지고 사전분포를 갱신(update)하여 사후 함수를 구한다. (4) 절차의 적절성을 평가한다. 특히 시뮬레이션의 수렴(convergence)에 대해 평가해야 한다.
  • 평가 결과가 만족스럽지 않을 경우 확률모형을 수정하거나 절차를 개선하여 다시 추론 과정을 밟는다.

두 달 후에 가질 2차 워크숍에서는 MCMC와 평가를 보다 깊이 있게 이해하고, 파이썬을 사용해서 모수 추정 뿐 아니라 예측이나 가설 검증도 해 보아야 겠다.

정년도 몇 년 남지 않았는데, 과연 이렇게 낯선 공부를 해야할까 하는 생각이 들기도 한다. 하지만 이 시대에 인공지능을 이해하지 못하면서 사회적 불평등, 일, 직업, 그리고 인간의 행복에 대해 사회학적으로 발언하고 개입할 수 있겠는가. 사회학자이기를 그만 두지 않은 한 도전을 멈출 수 없을 것이다. (윤영민, 2016/02/29)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.