(Bayes 학습)(2) ‘확률변수’의 확장

베이즈 정리에 대해 논의하기 전에 확률변수(random variable)에 대해 생각해보자. 베이즈 추론에서 관찰 데이터뿐 아니라 모수(population parameter)도 확률변수로 간주될 수 있다는 말이 기존 (빈도주의) 통계학의 관점에서는 잘 납득이 가지 않는다. 모수는 우리가 알고싶고, 그래서 추론하려고 하는 진리값(예컨대 )인데, 그것이 어떻게 확률변수로 간주될 수 있다는 말인가?

통계학을 배운 지 오래 된 사람들은 아마도 수학적인 변수(mathematical variables)확률변수가 잘 구분되지 않을 것이다. 수학적인 변수는 흔히 로 표현되며, 값이 특정되어 있지 않아 여러 가지 값을 가질 수 있는 문자이다. 그것은 방정식에서는 미지수를 가리키며, 사회과학 이론에서는 변할 수 있는(즉, 여러 개의 값을 가질 수 있는) 개념(혹은 그것이 가리키는 사회현상)을 가리킨다.  그런 의미에서 변수 상수(constant)의 반대 개념이다.

확률변수는 어떤 (통계적) 실험(experiment) 혹은 확률과정(random process)의 결과에 숫자가 부여되는 함수(function)이다. 그리고 이산 확률변수(discrete random variable)는 각 값(value)에 대응하는 확률(probability)을 가지며, 연속 확률변수(continuous random variable)는 확률밀도(probability density)를 갖는다. 고등학교 수학교과서에는 확률변수가 아래와 같이 정의되어 있다.

“한 시행에서 표본공간을 정의구역으로 하는 실수함수(즉 공변역이 실수의 집합인 함수)를 확률변수라 한다.”

예를 들어, 한 동전을 2회 던져서 나오는 앞면의 수(혹은 뒷면의 수)는 확률변수이다. 앞면을 H, 뒷면을 T라고 하면, 표본공간 는,

이다. 앞면의 수를 라고 하면, 의 값은 원소 TT, TH, HT, HH에 대해 0, 1, 1, 2와 같이 대응한다. 그리고가 0일 확률 은 1/4이며, 은 2/4이고, 는 1/4이다. 여기서 앞면의 수 는 확률변수이며, 그 확률변수는 동전 던지기라는 확률 과정에 의해 생성된다. 통상 수학적 변수는 소문자 로 표시되지만 확률변수는 대문자 로 표시된다.

확률변수도 변수의 한 유형이다. 그러나 수학적 변수와는 두 가지 점에서 구분된다. 하나는 확률변수가 어떤 실험이나 확률과정의 결과라는 점이고, 다른 하나는 확률변수의 각 값은 확률 혹은 확률밀도를 갖는다는 사실이다. 확률변수의 각 값과 그에 대응하는 확률을 표나 그래프로 나타내는 것이 확률분포(probability distribution)이다. 확률변수와 달리 수학적 변수는 확률분포를 갖지 않는다.

따라서 확률변수와 확률분포에 관해 생각할 때는, 첫째, 우리가 관심을 갖는 확률변수가 무엇인가, 둘째, 그 확률변수의 값을 생성시키는 확률과정(혹은 통계적 실험)은 무엇인가, 셋째, 그 확률과정의 표본공간(sample space)은 무엇인가, 넷째, 생성된 확률변수는 어떤 값들을 갖는가, 그리고 다섯째, 각각의 확률변수 값에는 어떤 확률(혹은 확률밀도)이 대응하는가(즉, 확률분포는 어떤 모습인가)를 분명히 파악하고 시작해야 한다.

베이즈 추론은 바로 그러한 확률변수와 확률분포의 파악에서부터 출발해야 한다. 왜냐하면, 베이즈 추론은 사전정보(prior)라고 불리는 확률분포를 상정하고, 관찰한 데이터에서 얻은 정보(우도함수, likelihood function)를 가지고 그 확률분포를 갱신하여(update) 사후 (확률) 분포(posterior distribution)를 추정하는 과정이며, 베이즈 추론의 시작과 끝은 (확률) 분포라고 할 수 있기 때문이다. (윤영민, 2016/03/02)

(Bayes 학습)(1) ‘확률’을 새롭게 인식하며

고등학교 수학 교과서에 따르면 어떤 “사건이 일어날 확실성을 수량적으로 나타낸 것”이 확률(probability)이다. 근원 사건이 같은 정도로 일어난다고 가정할 때, 어떤 사건의 확률 P(A)은 사건 A가 일어나는 경우의 수()를 일어날 수 있는 모든 경우의 수(N)로 나눈 값이다. 이것을 수학적 확률이라고 한다.  (참고로 근원 사건이란 더 이상 분해되지 않는 사건을 말한다.)

P(A) = {N_A \over N} .

두 개의 주사위를 동시에 던질 때, 눈의 합이 5로 되는 확률을 예로 들 수 있을 것이다. 전자의 경우를 보면, 표본공간(sample space) N은 6*6 = 36이고, 눈의 합이 5가 되는 사건(event)은 (1,4), (2,3), (3,2), (4,1)의 4 가지이므로 구하는 (수학적) 확률은 4/36 = 1/9이다.

그러나, 현실은 동전이나 주사위 던지기가 아니다. 근원 사건이 같은 정도로 일어난다는 가정이 성립되지 않을 수도 있고(예: 혈액형 유형별 발생 확률), 표본공간 N의 크기가 알 수 없거나 무제한 일 수도 있을 것이다. 그런 경우 수학적 확률을 구하기 어렵거나 심지어 불가능할 것이다. 그럴 때 우리는 통계적 확률로 수학적 확률을 대신한다.

시행의 횟수 n이 커짐에 따라 사건 A가 일어나는 상대빈도(relative frequency) 이 일정한 값 p와 거의 같다고 간주할 수 있을 때, 그 p를 통계적 확률이라고 말한다.

\lim_{n \to \infty}{n_a \over n}=p

상대빈도와 확률 사이에 이러한 관계를 성립시켜주는 것은 대수의 법칙(the law of large numbers)이다. 대수의 법칙에 따르면 통계적 확률과 수학적 확률이 일치한다. 따라서 수학적 확률을 알 수 없을 때 통계적 확률을 대신하고, 상대빈도로 통계적 확률을 근사할 수 있다.

예컨대 100원짜리 동전을 던져서 앞면이 나올 통계적 확률을 구하기 위해서는 실제로 동전을 한 1천번 정도 던져보아야 한다. 만약 정말로 1천번을 던져서 앞면의 수가 501번이 나왔다면 통계적 확률이 1/2이라고 말할 수 있다.

여기까지가 중고등학교에서 배운 확률의 정의이다. 이 확률의 정의를 가지면 현실의 문제를 다루는 데 충분할까?

사실 현실에서 상식적으로 확률을 그런 의미로 사용하는 경우는 드물다. “우리 아이가 A 대학에 붙을 확률이 얼마나 될까요?” “북한이 남한에 대해 미사일 공격을 가해 올 확률이 얼마나 될 거라고 생각하세요?” “내일 오전에 비가 내릴 확률이 얼마나 될까요?” “소풍 가는 날 맑은 날씨일 확률이 얼마나 될까요?” “더민주당이 총선 이후 다시 제1야당이 될 확률이 얼마나 될까요?” “안철수 의원이 새정치국민연합을 탈당할 확률이 얼마나 될까요?” “백혈병 환자의 5년 이상 생존율이 얼마나 되나요?” “말기 폐암 환자가 1년 이상 생존할 확률이 얼마나 되나요?” “저 백혈병 환자가 1년 이상 생존할 확률이 얼마나 될까요?” “에이즈 검사 결과가 양성으로 나온 저 남자가 실제로 에이즈에 감염되었을 확률은 얼마나 되나요?” “그녀가 사업에 성공할 확률이 얼마나 될까요?” 이 사례들은 모두 정당한 확률적 의문이다.

즉, 이 사례들에서 보듯이 현실에서 사람들은 확률을, 반복적이지 않은 사건의 객관적인 발생 가능성을 가리키는데 사용하기도 하고, 또 어떤 사건의 발생 가능성에 대한 주관적인 믿음의 정도(degree of belief)나 지식의 상태(state of knowledge)를 가리키는데 사용하기도 한다.

수학적 확률이나 상대빈도(relative frequency)는 반복적으로 많은 횟수가 발생하는 사건의 객관적인 발생 가능성을 숫자로 나타내는 데 유용함이 분명하다. 그러나 희소한 사건의 발생 가능성, 혹은 반복적이지 않은 사건의 발생 가능성은 어떻게 숫자로 표현할까? 혹은 어떤 사건의 발생 가능성에 대한 전문가의 확신을 추정이나 예측에 반영할 수 있는 길은 없을까?

베이즈 추론(Bayesian inference)은 그러한 상상에 유용한 접근 방법이 될 수 있다. 관찰값이 주어졌을 때, 그것으로부터 관찰이 불가능한 모수(parameters)의 값을 추정하거나, 또는 관찰값이 주어졌을 때, 그것으로부터 미래에 혹은 다른 사례에서 동일한 현상이 나타날 가능성을 예측하는데 대단히 유용할 수 있다.

베이즈 추론은 “관찰값이 주어졌을 때”, 다시 말해 어떤 특정한 조건이 주어졌을 때, 모수를 추정하거나 미지의 수를 예측하기 때문에 근본적으로 조건부 확률(conditional probability)이다. 조건부 확률을 복습하면서 베이즈 정리를 도출해 보자.

사건 A가 일어났을 때의 사건 B의 조건부 확률 P(B|A)는

 , P(A) ≠ 0

으로 표시된다. 여기서 양변에 P(A)를 곱하면,

가 된다. 이것은 바로 확률의 곱셈정리이다.

그런데 집합의 교환법칙에 따르면,  이므로,

가 된다. 여기서 양변을 P(A)로 나누면,

   , P(A) ≠ 0

베이즈 정리(Bayes Theorem)가 도출되었다. 말로 풀어보면, 사건 A가 일어났을 때 사건 B가 일어날 조건부 확률 P(B|A)은 사건 B가 일어날 확률 P(B)에, 사건 B가 일어났을 때 사건 A가 일어날 조건부 확률 P(A|B)를 곱한 값을 사건 A가 일어날 확률 P(A)로 나눈 값과 같다. 베이즈 추론은 이 베이즈 정리에서 출발한다. 이 정리가 그렇게 중요할 줄은 고등학교 때는 물론이고, 대학 수학 시간이나 대학원 통계학 시간에도 상상하지 못했다. 다음에는 베이즈 정리를 좀 깊이 이해해 보자. (윤영민, 2016/02/29)

베이즈(Bayes)의 귀환

SAMSUNG CSC
Ronald J. Wonnacott & Thomas H. Wonnacott. 1985. Introductory Statistics, 4th ed.

1986년 가을 미국 University of South Carolina(Columbia)에서 사회학 석사 과정을 시작했다. 첫 학기에 전공 필수 과목 중 하나로 ‘사회통계학 입문’을 수강했다.  그 과목을 강의했던 밀러 맥퍼슨(J. Miller McPherson) 교수는 학기 초반에 조건부 확률을 가르치면서 베이즈 공리(Bayes Theorem)를 잠깐 소개했다. 나는 그가 수업 시간에 이렇게 말했던 것으로 기억한다.

“아마도 여러분이 미래에 베이즈 분석을 사용할 가능성은 거의 없을 겁니다. 그래서 여기서 잠시 그 원리를 설명하고 교재의 마지막 부분, 제19장과 제20장에 있는 베이즈 추론과 베이즈 의사결정이론은 수업에서 다루지 않겠습니다.”

맥퍼슨 교수와 그의 부인인 Lynn Smith-Lovin 교수는 상당히 우수한 사회학자였다. 그는 나중에 코넬대학교와 아리조나 대학교 교수를 거쳐서 듀크대학교 사회학과에서 부인과 함께 오랫동안 교수로 재직했다. 요즈음 인기가 좋은 분야인 사회연결망(social network) 분석 전문가인 그는 특히 계량적 방법에 뛰어났다. 그런 그가 30년 전 베이즈 접근과 분석이 지닌 시대적 잠재성을 깨닫지 못했고, 덕분에 베이즈 공리와 분석은 나의 시야에서 영원히 사라졌다.

그런데 나는 환갑 나이에 베이즈를 다시 공부하고 있다. 지금이라도 베이즈를 공부하지 않는다면 나는 새로운 시대의 수많은 학문적 연구를 이해하지 못하는 반쪽짜리 사회과학도로 남을 것이다.

다행히 금년 한 해 연구년을 보내는 덕분에 차분하게 베이즈를 공부하고 있다. 더구나 베이즈 분석을 컴퓨터로 실행하기 위해 파이썬(Python)이라는 컴퓨터 언어를 함께 배우고 있다. 어느 하나를 새로 시작해도 익히기 쉽지 않겠지만 다행히 전산과학을 전공하는 막내가 파이썬 학습을 거들어 주니 그럭저럭 공부할 만하다.

베이즈 분석은 내가 젊은 시절 배우고 평생 동안 사용한 통계학 접근과 참으로 다르다. 무엇보다 사고의 전환이 요구되는데 그 점에 적응이 어려웠다. 이제 베이즈적 사고가 점점 자연스럽게 느껴지고 파이썬의 구조에 대한 이해도 어느 정도 가능하다. 어느덧 한 고비를 넘은 것 같다. 좀 더 박차를 가하자(2016/02/14).

미래를 얘기할 때

시나리오
연말이 되니 여느 때처럼 미래 전망이 쏟아져 나온다. 거기에는 사려깊은 분석과 예측도 있지만, 단순한 짐작, 억측, 과장, 소망, 부정직한 선언, 정치적 수사, 자기 과신, 신비주의 등도 전문가의 이름으로 제시되곤 한다.

비록 미래예측이 대부분 틀리기는 하지만, 어느 개인이나 조직도 미래를 고려하지 않고 존재할 수 없다. 많이 추상적이기는 하지만, 연말에 여러분들에게 혹시 도움이 될 지 몰라서 한 마디 올려본다.

몇년 전 CEO를 대상으로 했던 강의 자료인데, 미래전망과 대안선택의 프로세스이다.

1) 무엇에 관해 전망할 것인지를 선택한다.
2) 해당 사안에 영향을 미치는 주요 요인들을 모두 찾아내고, 그 요인들 사이의 인과관계를 파악한다.
3) 그중, '중요하나 불확실한 요인(important & uncertain)'들에 주목한다.
4) 그 변수들이 지닌 불확실성의 수준에 따라 전망 방식을 선택한다.
5) 불확실성이 낮다고 판단되면 '예측(forecasting)'을 수행하고, 불확실성이 너무 높다고 판단되면 기도를 열심히 하거나 점쟁이를 찾는다. 그도저도 아니라고 판단되면, 미래전망 '시나리오'를 작성한다. 네 개 정도의 시나리오가 적당하다.
6) 만약 귀하가 CEO라면, 위험부담의 수준을 선택하고, 그에 맞는 해법을 선정한다. 최적 해법(optimal solution)을 택하면, 기대치가 큰 반면 리스크도 크다. 전천후 해법(robust solution)을 택하면, 기대치는 낮지만 리스크가 작다. 상황이 어려울 때는 전천후 해법이 최선의 선택일 수 있다.

가장 신뢰할 수 없는 전문가는 불확실성이 높은 사안에 대해 확신을 갖고 말하는 사람들이다. 최소한 세 가지 수준의 화법을 적절히 분별해서 사용할 수 없는 사람들은 전문가로 간주하기 어렵다.

미래를 다루는 전문가의 가장 중요한 소양은 겸손과 정직이다. 신의 영역에 접근하고 있기 때문이다.(윤영민, FB 2013/12/16)