상상력은 어디에서 오는가?

Pythagorean-Theorem

직각삼각형에서 빗변의 길이를 제곱한 값과 나머지 두 변의 길이를 각각 제곱하여 더한 값이 일치한다.

중학교 수학 시간에 학생들이 배우는 수학적 경이 중 하나는 피타고라스 정리이다. 그런데 과연 몇 명의 학생이나 그것이 얼마나 위대한 수학적, 과학적, 역사적, 문화적, 그리고 철학적 발견인가를 들으면서 그 정리를 배울까?

내 기억에 따르면, 선생님의 간략한 설명과 함께 우리는 증명을 따라하고, 연습문제와 응용문제를 풀고 또 풀었다. 그래서 우리는 모두 피타고라스 정리를 기억한다. 그 정도면 입시 대비로서 충분하고, 언젠가 간단한 계산에 써먹을 수도 있을 것이었다(물론 나는 지난 40년이 넘은 세월 동안 실생활에서 그 정리를 사용한 기억이 없다). 우리에게 피타고라스 정리는 도형의 면적이나 길이를 구하는 공식에 불과했다(당연한 일인가?). 그리고 온갖 시험에서 우리에게 주어진 경쟁은 그 정리를 이용해서 몇 번이나 ‘꼬인’ 문제를 풀 수 있느냐는 것이었다. 어려운 응용문제를 풀수록 ‘수재’도 되고 ‘천재’도 되었다. 우리는 피타고라스 정리가 피타고라스를 포함한 천재 수학자들이 밝혀낸 ‘우주의 법칙’, ‘자연의 법칙’, ‘진리’, 심지어 ‘신의 섭리’의 일부라는 말을 들은 적이 없다. 그 위대한 진리를 배우면서 우리는 어떤 감동도 느낄 수 없었다.  그냥 그것은 우리가 잘 외우고 써먹어야 할 수많은 수학 공식 중 하나일 뿐이었다.

어디 피타고라스 정리만 그랬겠는가? 누구도 그 정리를 건드려보거나 뒤집어보지 않았다. 피타고라스와 그 정리에 대한 경외심 때문이 아니라 무관심과 무감각 때문이었다. ‘시험’, ‘입시’ 대비 말고 우리가 수학에 관심을 가질 동기가 없었다. 놀랍지 않다. 우리는 중학교 이후 진리 접근으로서의 수학, 논리로서의 수학, 그리고 놀이로서의 수학을 배우지 못했다.

그러니 우리 중 누구도 다음을 묻지 않았다. 만약 가 성립한다면, 도 성립하지 않을까? 는? 는? 그리고 는? 피타고라스 정리를 면적과 길이를 구하는 공식으로 외우는 학생들, 시험 대비용 지식으로만 받아들이는 학생들, 그리고 그 위대한 정리를 아무런 감흥없이 기계적으로 전달하는 선생님으로 채워진 교실에서 그러한 상상은 나오지 않는다.  그리고 그러한 문화에서 페르마(Fermat)나 오일러(Euler)나, 그리고 와일즈(Wiles)가 나올 가능성은 희박하다.

페르마의 정리를 증명하는 일은 300년이 넘는 세월을 기다려야 할 정도로 어렵지만, 을 가지고 로 바꿔보는 시도는 초등학생에게도 어렵지 않게 가능할 것이다. 그리고 그것은 아이들에게 새로운 세계에 들어서는 순간이 될 수도 있을 것이다.

우리 사회에는 유연하고 창의적인 사람들이 절실히 필요하다. 그런데 우리 사회의 학교와 가정은 아이들을 그러한 발상이 가능한 자유롭고 여유로운 환경에 버려두지 않는다. 선생님과 부모에게 주어진 가장 중요한 미션, 그리고 학생들이 내면화한 최고의 목표는 일단 ‘명문’ 대학교에 들어가는 것이기 때문이다.

“쓸데 없는 상상하지 말고 문제 하나라도 더 풀어!” 학습에서 가장 소중한 지적 호기심이 선생님의 그 한 마디에 철없는 태도, 비현실적인 행동으로 전락해 버리고 만다. 학생들의 호기심을 불러일으켜야할 선생님이 학생들의 호기심을 억누르는 반지성적 현장이 되는 것이다.

고등학교 때까지는 입시와 진도의 강박이, 그리고 대학에서는 취업의 강박지적 자극이 없는 학교, 반지성적인 학교를 만들고 있다. 그 때문에 상상은 우리에게 낯선 문화가 되었다. 수학적 상상력, 과학적 상상력, 사회적 상상력, 그리고 문학적 상상력이 낯선 사회가 된 것이다. 이는 대학에서 상상력을 길러주기 위한 과목을 몇 개 개설한다고 해결될 문제가 아니다. 우리 교육 문화에 깊이 내재한 지적 자극의 부재반지성적 경향을 극복해야 한다.  그것들이야말로 우리 아이들의, 그리고 우리 사회 전체의 상상력을 앗아가고 있는 진정한 원인이기 때문이다. <페르마의 마지막 정리>(1998, 사이먼 싱 지금/박경철 역)를 읽고.

(Bayes 학습)(2) ‘확률변수’의 확장

베이즈 정리에 대해 논의하기 전에 확률변수(random variable)에 대해 생각해보자. 베이즈 추론에서 관찰 데이터뿐 아니라 모수(population parameter)도 확률변수로 간주될 수 있다는 말이 기존 (빈도주의) 통계학의 관점에서는 잘 납득이 가지 않는다. 모수는 우리가 알고싶고, 그래서 추론하려고 하는 진리값(예컨대 )인데, 그것이 어떻게 확률변수로 간주될 수 있다는 말인가?

통계학을 배운 지 오래 된 사람들은 아마도 수학적인 변수(mathematical variables)확률변수가 잘 구분되지 않을 것이다. 수학적인 변수는 흔히 로 표현되며, 값이 특정되어 있지 않아 여러 가지 값을 가질 수 있는 문자이다. 그것은 방정식에서는 미지수를 가리키며, 사회과학 이론에서는 변할 수 있는(즉, 여러 개의 값을 가질 수 있는) 개념(혹은 그것이 가리키는 사회현상)을 가리킨다.  그런 의미에서 변수 상수(constant)의 반대 개념이다.

확률변수는 어떤 (통계적) 실험(experiment) 혹은 확률과정(random process)의 결과에 숫자가 부여되는 함수(function)이다. 그리고 이산 확률변수(discrete random variable)는 각 값(value)에 대응하는 확률(probability)을 가지며, 연속 확률변수(continuous random variable)는 확률밀도(probability function)를 갖는다. 고등학교 수학교과서에는 확률변수가 아래와 같이 정의되어 있다.

“한 시행에서 표본공간을 정의구역으로 하는 실수함수(즉 공변역이 실수의 집합인 함수)를 확률변수라 한다.”

예를 들어, 한 동전을 2회 던져서 나오는 앞면의 수(혹은 뒷면의 수)는 확률변수이다. 앞면을 H, 뒷면을 T라고 하면, 표본공간 는,

이다. 앞면의 수를 라고 하면, 의 값은 원소 TT, TH, HT, HH에 대해 0, 1, 1, 2와 같이 대응한다. 그리고가 0일 확률 은 1/4이며, 은 2/4이고, 는 1/4이다. 여기서 앞면의 수 는 확률변수이며, 그 확률변수는 동전 던지기라는 확률 과정에 의해 생성된다. 통상 수학적 변수는 소문자 로 표시되지만 확률변수는 대문자 로 표시된다.

확률변수도 변수의 한 유형이다. 그러나 수학적 변수와는 두 가지 점에서 구분된다. 하나는 확률변수가 어떤 실험이나 확률과정의 결과라는 점이고, 다른 하나는 확률변수의 각 값은 확률 혹은 확률밀도를 갖는다는 사실이다. 확률변수의 각 값과 그에 대응하는 확률을 표나 그래프로 나타내는 것이 확률분포(probability distribution)이다. 확률변수와 달리 수학적 변수는 확률분포를 갖지 않는다.

따라서 확률변수와 확률분포에 관해 생각할 때는, 첫째, 우리가 관심을 갖는 확률변수가 무엇인가, 둘째, 그 확률변수의 값을 생성시키는 확률과정(혹은 통계적 실험)은 무엇인가, 셋째, 그 확률과정의 표본공간(sample space)은 무엇인가, 넷째, 생성된 확률변수는 어떤 값들을 갖는가, 그리고 다섯째, 각각의 확률변수 값에는 어떤 확률(혹은 확률밀도)이 대응하는가(즉, 확률분포는 어떤 모습인가)를 분명히 파악하고 시작해야 한다.

베이즈 추론은 바로 그러한 확률변수와 확률분포의 파악에서부터 출발해야 한다. 왜냐하면, 베이즈 추론은 사전정보(prior)라고 불리는 확률분포를 상정하고, 관찰한 데이터에서 얻은 정보(우도함수, likelihood function)를 가지고 그 확률분포를 갱신하여(update) 사후 (확률) 분포(posterior distribution)를 추정하는 과정이며, 베이즈 추론의 시작과 끝은 (확률) 분포라고 할 수 있기 때문이다. (윤영민, 2016/03/02)

(Bayes 학습)(1) ‘확률’을 새롭게 인식하며

고등학교 수학 교과서에 따르면 어떤 “사건이 일어날 확실성을 수량적으로 나타낸 것”이 확률(probability)이다. 근원 사건이 같은 정도로 일어난다고 가정할 때, 어떤 사건의 확률 P(A)은 사건 A가 일어나는 경우의 수()를 일어날 수 있는 모든 경우의 수(N)로 나눈 값이다. 이것을 수학적 확률이라고 한다.  (참고로 근원 사건이란 더 이상 분해되지 않는 사건을 말한다.)

P(A) = {N_A \over N} .

두 개의 주사위를 동시에 던질 때, 눈의 합이 5로 되는 확률을 예로 들 수 있을 것이다. 전자의 경우를 보면, 표본공간(sample space) N은 6*6 = 36이고, 눈의 합이 5가 되는 사건(event)은 (1,4), (2,3), (3,2), (4,1)의 4 가지이므로 구하는 (수학적) 확률은 4/36 = 1/9이다.

그러나, 현실은 동전이나 주사위 던지기가 아니다. 근원 사건이 같은 정도로 일어난다는 가정이 성립되지 않을 수도 있고(예: 혈액형 유형별 발생 확률), 표본공간 N의 크기가 알 수 없거나 무제한 일 수도 있을 것이다. 그런 경우 수학적 확률을 구하기 어렵거나 심지어 불가능할 것이다. 그럴 때 우리는 통계적 확률로 수학적 확률을 대신한다.

시행의 횟수 n이 커짐에 따라 사건 A가 일어나는 상대빈도(relative frequency) 이 일정한 값 p와 거의 같다고 간주할 수 있을 때, 그 p를 통계적 확률이라고 말한다.

\lim_{n \to \infty}{n_a \over n}=p

상대빈도와 확률 사이에 이러한 관계를 성립시켜주는 것은 대수의 법칙(the law of large numbers)이다. 대수의 법칙에 따르면 통계적 확률과 수학적 확률이 일치한다. 따라서 수학적 확률을 알 수 없을 때 통계적 확률을 대신하고, 상대빈도로 통계적 확률을 근사할 수 있다.

예컨대 100원짜리 동전을 던져서 앞면이 나올 통계적 확률을 구하기 위해서는 실제로 동전을 한 1천번 정도 던져보아야 한다. 만약 정말로 1천번을 던져서 앞면의 수가 501번이 나왔다면 통계적 확률이 1/2이라고 말할 수 있다.

여기까지가 중고등학교에서 배운 확률의 정의이다. 이 확률의 정의를 가지면 현실의 문제를 다루는 데 충분할까?

사실 현실에서 상식적으로 확률을 그런 의미로 사용하는 경우는 드물다. “우리 아이가 A 대학에 붙을 확률이 얼마나 될까요?” “북한이 남한에 대해 미사일 공격을 가해 올 확률이 얼마나 될 거라고 생각하세요?” “내일 오전에 비가 내릴 확률이 얼마나 될까요?” “소풍 가는 날 맑은 날씨일 확률이 얼마나 될까요?” “더민주당이 총선 이후 다시 제1야당이 될 확률이 얼마나 될까요?” “안철수 의원이 새정치국민연합을 탈당할 확률이 얼마나 될까요?” “백혈병 환자의 5년 이상 생존율이 얼마나 되나요?” “말기 폐암 환자가 1년 이상 생존할 확률이 얼마나 되나요?” “저 백혈병 환자가 1년 이상 생존할 확률이 얼마나 될까요?” “에이즈 검사 결과가 양성으로 나온 저 남자가 실제로 에이즈에 감염되었을 확률은 얼마나 되나요?” “그녀가 사업에 성공할 확률이 얼마나 될까요?” 이 사례들은 모두 정당한 확률적 의문이다.

즉, 이 사례들에서 보듯이 현실에서 사람들은 확률을, 반복적이지 않은 사건의 객관적인 발생 가능성을 가리키는데 사용하기도 하고, 또 어떤 사건의 발생 가능성에 대한 주관적인 믿음의 정도(degree of belief)나 지식의 상태(state of knowledge)를 가리키는데 사용하기도 한다.

수학적 확률이나 상대빈도(relative frequency)는 반복적으로 많은 횟수가 발생하는 사건의 객관적인 발생 가능성을 숫자로 나타내는 데 유용함이 분명하다. 그러나 희소한 사건의 발생 가능성, 혹은 반복적이지 않은 사건의 발생 가능성은 어떻게 숫자로 표현할까? 혹은 어떤 사건의 발생 가능성에 대한 전문가의 확신을 추정이나 예측에 반영할 수 있는 길은 없을까?

베이즈 추론(Bayesian inference)은 그러한 상상에 유용한 접근 방법이 될 수 있다. 관찰값이 주어졌을 때, 그것으로부터 관찰이 불가능한 모수(parameters)의 값을 추정하거나, 또는 관찰값이 주어졌을 때, 그것으로부터 미래에 혹은 다른 사례에서 동일한 현상이 나타날 가능성을 예측하는데 대단히 유용할 수 있다.

베이즈 추론은 “관찰값이 주어졌을 때”, 다시 말해 어떤 특정한 조건이 주어졌을 때, 모수를 추정하거나 미지의 수를 예측하기 때문에 근본적으로 조건부 확률(conditional probability)이다. 조건부 확률을 복습하면서 베이즈 정리를 도출해 보자.

사건 A가 일어났을 때의 사건 B의 조건부 확률 P(B|A)는

 , P(A) ≠ 0

으로 표시된다. 여기서 양변에 P(A)를 곱하면,

가 된다. 이것은 바로 확률의 곱셈정리이다.

그런데 집합의 교환법칙에 따르면,  이므로,

가 된다. 여기서 양변을 P(A)로 나누면,

   , P(A) ≠ 0

베이즈 정리(Bayes Theorem)가 도출되었다. 말로 풀어보면, 사건 A가 일어났을 때 사건 B가 일어날 조건부 확률 P(B|A)은 사건 B가 일어날 확률 P(B)에, 사건 B가 일어났을 때 사건 A가 일어날 조건부 확률 P(A|B)를 곱한 값을 사건 A가 일어날 확률 P(A)로 나눈 값과 같다. 베이즈 추론은 이 베이즈 정리에서 출발한다. 이 정리가 그렇게 중요할 줄은 고등학교 때는 물론이고, 대학 수학 시간이나 대학원 통계학 시간에도 상상하지 못했다. 다음에는 베이즈 정리를 좀 깊이 이해해 보자. (윤영민, 2016/02/29)

수학의 두 얼굴

SAMSUNG CSC
1986년 발행된 고등학교 수학교과서 중 하나

대학원 유학 시절 5년차인 1990년 어느 날인가 학위논문 지도교수였던 Michael Hout(현재 New York University 사회학과 석좌교수)이 갑자기 나를 불렀다. 나는 당시 학과에서 대학원 조교를 하고 있었는데, 새로 입학한 한 대학원생에게 수학을 가르쳐주라는 것이었다.

무엇을 가르쳐야 하나 막막하던 나는 한국에 있던 아내에게 고등학교 수학교과서를 구입해서 보내달라고 부탁했다. 그 교과서를 가지고 집합, 미적분, 행렬, 확률을 가르치는 것이 좋겠다는 생각이 들어서였다.

그 일은 내게 정말 어려운 도전이었다! 그 학생은 중학교 3학년 이후에 수학을 배운 적이 없었다. 게다가 나는 영어로 수학을 배운 적이 없었기 때문에 수학 용어의 영어 표현을 찾아가면서 가르쳐야 했다.

어찌어찌해서 악몽같은 개인 지도가 두 달만에 끝났다. 아마도 그 (여)학생의 머리가 워낙 좋았기 때문에 내 엉터리 강의를 알아들었으리라. 그 여학생은 Harvard University Law School에서 법학박사 학위를 받은 후 사회학을 공부하기 위해 University of California, Berkeley 대학원에 다시 입학했다.

아마도 지금 그 일을 한다면 훨씬 수월할 것이다. 공부를 업으로 한참을 보낸 후에야 나는 수학이 두 얼굴을 가지고 있다는 사실을 깨달았다! 나는 학교에서 수학의 한 가지 얼굴만을 배웠다. 바로 셈법으로서의 수학, 계산 원리와 과정으로서의 수학이다.

그런데 수학에는 또 다른 얼굴이 있었다. 수학 교과서에도, 수학 ‘정석’에도 없는 얼굴이다. 그것은 다름 아닌 논리 전개를 위한 도구로서의 수학이다. 나는 학교에서 그 수학을 배우지 못했다.

나는 그 때문에 나보다 학교(고등학교와 대학)에서 수학을 덜 배운 지도교수가 정작 연구에서 나보다 수학을 훨씬 잘 사용하는 것을 보면서 무한한 열등감을 느낄 수밖에 없었다. 돌이켜보면 사실 그가 사용한 수학이 대단한 수준은 아니었다. 문제는 자신의 주장을 수학적으로 표현할 수 있느냐는 것이었다. 그는 할 수 있었고, 나는 할 수 없었다!

새벽에 일어나 수학적 표현과 씨름하면서 논리 전개를 위한 수학을 뒤늦게 공부하고 있다. 이제라도 균형잡힌 수학 능력을 갖추었으면 좋겠다. 다행스럽게도 예상했던 것보다 수학 공부가 재미 있다! (윤영민, 2016/02/17)