눈과 아이들

SAMSUNG CSC
필암뜰에서 눈사람 만드는 아이들

필암에는 겨울에 눈이 많이 내린다. 하지만 날이 포근하기 때문에 금방 녹아버린다. 그래서 필암에서 눈을 즐기려면 제법 운이 좋아야 한다. 어제 마을에 학생들이 행운과 함께 체험학습을 왔다. 아침에 눈이 많이 내려 필암뜰에서 하늘이 주는 혜택을 마음껏 누릴 수 있었다. 눈싸움을 하고, 눈사람도 만들고, 눈위를 걷기도 하면서. 농촌에 사는 아이들에게 주어지는 최고의 혜택은 자연과 더불어 실컷 지낼 수 있다는 점일 게다. 사실 어느 지역의 아이들에게도 자연은 가까이에 있어야 하겠지만 말이다. 필암뜰이 더 많은 아이들에게 자연과 교감을 나눌 수 있는 공간이 되었으면 좋겠다.

컴퓨터 프로그래밍을 익혀야 하는 이유

python스크린샷 몇 년 전부터 내가 일하는 학과의 커리큘럼에 컴퓨터 프로그래밍 과목을 넣고 학생들이 의무적으로 그 과목을 수강하도록 조치했다. 동료 교수들 중 어떤 분은 그러한 조치에 반대했다. 사회과학 전공 학생들이 프로그래밍까지 배워야할 이유가 없고, 더구나 프로그래밍을 할 줄 몰라도 컴퓨터를 사용하는 데 전혀 지장이 없는 시대에 컴퓨터 과학 전공자가 아닌 사람이 프로그래밍을 배울 필요가 없다는 이유에서였다.

그러나 내 생각은 달랐다. 학생들이 살아갈 세상에서 프로그래밍 언어는 영어 이상으로 중요한 언어이다. 인문사회과학 전공자들이 거의 모든 분야에서 개발자, 공학자, 프로그래머들과 함께 일해야 하기 때문이다.

컴퓨터 기술기반의 사회에서 프로그래밍 언어는 공용어이다. 프로그래밍 문맹자가 가질 수 있는 직업은 많지 않을 것이다. 내 학생들을 프로그래밍 문맹자로 만들 수는 없지 않는가.

학과의 모든 학생들이 2학년 1학기 때 파이썬(Python)이라는 언어를 배운다. 그런데 프로그래밍 수업 담당 교수의 말이 한 학기 수업으로는 학생들이 기초 정도밖에 배우지 못한다고 해서 올해부터는 수업 기간을 1년으로 늘렸다. 그래서 한 학기는 기초, 한 학기는 응용 수준을 배울 수 있도록 했다.

요즘 막내와 함께 통계학과 프로그래밍(파이썬)을 공부하면서 우리 학생들에게 프로그래밍 언어를 배우게 한 것이 예상하지 못했던 다른 의미에서 잘한 조치였음을 확인하고 있다. 프로그래밍을 하려면 프로그래밍하려는 문제나 지식이 논리적으로 아주 정확하게 표현되어야 한다. 문제나 지식이 명쾌하게 정의되어 있지 않으면 그것을 컴퓨터 언어로 번역할(즉, 코딩할) 수 없는 것이다.

사회학은 소프트(soft)한 과학이다. 사회적 불평등, 범죄, 사회적 갈등, 협력 등 사회학이 다루는 사회 문제에 하나의 정답만이 존재하는 경우는 거의 없다. 그렇다고 불명료한 문제의식이나 엉성한 논리가 허용되는 것은 아니다. 그런데 현실적으로 사회학 전공 학생은 물론이고 전공 학자가 지닌 사회학 지식이 명료하지 않은 경우가 적지 않다. 사회학 주제를 가지고 하는 컴퓨터 프로그래밍 훈련은 학생들로 하여금 사회학 전공 지식은 물론이고 지식 자체를 명료하게 갖는 습관을 가져다 주지 않을까 기대된다.

(Bayes 학습)(8)대학에서 성공적으로 공부하려면….

앞 포스팅에서 학습한 마르코프 연쇄의 정상 상태를 현실 문제에 적용해 보자.

대학 신입생들은 대체로 두 가지 이유로 전공을 선택한다. 평소의 관심 혹은 수능 성적이다.

대학 입학 후 첫 학기가 끝났을 때 신입생들의 전공 관심 정도는 어떻게 될까? 어떤 요인이 주로 영향을 미칠까?

먼저 대학에 들어올 때의 전공 관심 정도와 처음 듣는 전공 과목 담당 교수의 교수 능력의 영향을 살펴보자. 학원 배치표에 따라 전공을 선택하는 학생들이 많은 우리 나라의 현실을 볼 때 학과 신입생들이 지닌 전공 관심의 비율은   정도가 되지 않을까? 전공에 관심을 가진 학생이 20%, 그렇지 않은 학생이 80%.

그런데 첫 전공 수업에서 교수 능력이 뛰어난 교수를 만났을 경우 전공수업의 효과는 다음과 같은 행렬로 나타낼 수 있을 것이다.

즉, 전공에 대해 관심 있는 학생이 수업을 듣고 전공에 대해 더욱 관심을 갖게 될 학률이 0.8, 전공에 대해 관심 있는 학생이 실망하여 전공에 대한 관심을 잃을 확률이 0.2, 그리고 전공에 대해 관심이 없는 학생이 전공에 관심을 가질 확률이 0.6, 전공에 대해 관심이 없는 학생이 계속 전공에 관심이 없을 확률이 0.4. 그 정도면 아주 잘 가르치는 교수(교수 1이라고 하자)가 아닐까?

반면에  수업을 잘 지도하지 못하는 교수(교수 2라고 하자)가 첫 전공 수업을 가르쳤을 경우, 그 추이행렬은,

 정도가 되지 않을까?

교수 1과 교수 2가 첫 전공 수업을 가르친 후 얼마 지나면 정상 상태(steady state)에 도달할 것이다. 지난 포스팅에서 나온 공식 를 이용해서 정상 행렬을 구해보면, 교수 1의 정상 행렬은 가 될 것이고, 교수 2의 정상 행렬은 이 될 것이다. 교수 1의 수업을 들은 학생들의 경우 75%가 전공에 대해 관심을 갖게 되고, 교수 2의 수업을 들은 학생들은  33%가 전공에 대해 관심을 갖게 될 것으로 예상된다. 교수의 영향이 무척 크다. 그리고 흥미 있게도 대학에 들어오면서 신입생들이 얼마나 전공에 관심에 가지고 있는가는 정상 상태에 영향을 미치지 못한다.

학생들 자신의 태도도 중요한 결정요인일 수 있을 것이다. 어떤 연유로 학과를 선택했든, 개방적인 자세를 가진 학생들은 첫 전공 수업을 듣고 전공에 관심을 갖게 될 것이고, 비개방적인 자세를 가진 학생들은 첫 전공 수업을 듣고도 전공에 관심을 갖지 않을 것이다. 그러한 학생들의 자세는 전공에 대한 관심 수준을 결정하는데 얼마나 영향을 미칠까?

전공에 대한 학생들의 개방적 태도를 추이행렬로 다음과 같이 표현해 볼 수 있지 않을까?

, , ,

첫번째 추이행렬은 아주 비개방적인 태도를 지닌 학생의 경우로, 수업을 듣고 전공에 대해 무관심에서 관심으로 전환될 확률이 10%밖에 되지 않는다. 두번째 추이행렬은 그 전환 가능성이 20%, 세번째 추이행렬은 40%, 그 다음은 60%, 마지막은 전환 가능성이 80%이다. 아래 행(row)의 숫자가 커질수록 점점 개방적이 됨을 의미한다. 마지막 두 추이행렬은 아주 개방적인 학생들일 것이다.

그런데 이 추이행렬을 가진 학생들이 동일한 교수의 전공수업을 수강했다고 가정하고 그들의 정상행렬을 계산해 보면 각각 다음과 같다.

,

입학 초기에 전공에 대한 관심이 어떤 상태인가에 관계없이, 전공에 대해 개방적인 태도를 지닌 학생의 전공에 대한 관심 비율(학문에 대한 관심 중 전공에 대한 관심이 차지하는 비율: 전공 대 비전공으로만 단순화시켜서 표현함)이 최대 80%나 되며, 전공에 대해 비개방적인 태도를 지닌 학생의 전공에 대해 관심 비율은 33%에 불과하다.

전공에 대한 관심은 전공 성적과 높은 상관관계를 갖고 있다. 다시 말해 신입생이 전공에 대해 얼마나 개방적인 태도를 갖고 있는가가 결국 전공에서의 학업성취에 커다란 영향을 미칠 것으로 추정된다.

물론 앞에서 살펴본 것처럼 전공 첫 수업을 어떤 교수가 가르치는가도 중요한 결정요인일 것이다. 여기서 교수 사례는 분석단위가 학과이고, 학생 사례는 분석단위가 개별 학생이다. 이점 때문에 다소 혼란스러울 수 있을 것이다.

이 예상들은 실증적인 조사 자료 없이 마르코프 연쇄 모형을 이용하여 수학적으로 도출되었다. 실제 조사를 해보면 예상과 많이 다를까? 사회과학적 추론에 있어 마르코프 연쇄의 잠재성이 아주 커보인다.

봄이 오는 뜰

SAMSUNG CSC
장미 잎 순

산책하는데 바람이 차갑다. 그래도 영낙없이 봄이 온다.

뜰의 꽃나무 가지에서 봄의 영웅적인 귀환을 느낀다. 미세한 눈으로 세상을 바라보는 사람에게 주어지는 혜택이다. 그 미세함을 담아내는데 카메라마저도 힘겨워한다.

행복이란 무엇일까요? 만족감이나 기쁨은 삶의 어떤 부분에서 나오는 것일까요? 가난해도 행복할 수 있을까요? 부자가 되면 행복할 가능성이 높아질까요? 의미있는 삶, 보람있는 삶이란 어떤 삶을 말하는 걸까요? 어려운 이웃 돕기, 공동체 봉사, 예술적 성취, 학문적 성취….또 무엇이 있을까요? 가족과 화목하고, 친구나 이웃과 잘 지내고….부부가 서로에게 화내지 않고….

참, 아파도 행복할 수 있을까요? 일이나 직장이 없어도 행복할 수 있을까요? 대부분의 사람이 일자리를 구할 수 없는 세상이 온다면 어떻게 될까요? 대다수의 사람들이 직업이 없다면 기업은 어떻게 되지요? 인공지능이 고도로 발달하면 기업은 시장에서 무엇을 가지고 다른 기업들과 경쟁하게 될까요? 아이디어, 품질, 서비스에서 기업들 사이에 차별화가 가능할까요? 소비자는 어떤 기준으로 제품을 선택하게 될까요?….

1시간 남짓 산책하는 동안 아내에게 너무 많은 질문을 퍼부었나보다. 머리가 아프단다.

내가 커피 원두를 갈고 정성들여서 내린 커피를 마시는 아내의 얼굴에 만족감이 읽혀진다. 아내에게는 그것이 행복한 순간이가보다. 물론 내게도 그렇다.

그렇게 보면 행복이란 분명히 특별한 게 아니다. (2016/03/13)

(Bayes 학습)(7)마르코프 연쇄-(2)

광고 후 3주일째 Brand A의 오렌지 쥬스 시장의 점유율은 어떻게 될까? 아래 식에서 보는 것처럼 86.96%이다.

시장 점유율이 여전히 증가하고 있으나 첫 두 주만큼 인상적이지는 않다. 광고효과가 동일하다고 가정하면 광고 후 4주부터 10주째까지 Brand A의 오렌지 쥬스 시장의 점유율은 각각 아래와 같이 예상된다.

Brand A의 시장점유율은 광고 후 5주차에 87.50%(반올림한 결과)에 도달한 이후 10주차까지 미세한 증가가 있으나 반올림하면 여전히 87.50%이다! 즉, Brand A의 시장점유율은 광고 후 5주차에 거의 불변상태에 도달할 것으로 예상된다(이는 대단히 흥미 있는 현상이다). 따라서 Brand A의 시장점유율은 광고 후 초반의 급속한 증가에도 불구하고 그 증가 속도가 빠르게 감소되되기 때문에 결코 100%에 도달하지 못할 것으로 판단된다.

이 사례는 마르코프 연쇄에 있어 정상 상태(steady state, stationary state, invariant state)가 존재함을 보여준다. 마르코프 연쇄에서 정상 상태에 도달하는 과정을 정상 상태에 수렴한다(convergence)고 표현한다.

그렇다면 모든 마르코프 연쇄가 정상 상태의 특성을 갖고 있는가? 그것은 아니다. 추이행렬(transition matrix)이 정칙(regular)인 마르코프 연쇄(그것을 정칙 마르코프 연쇄, regular Markov chains라고 부른다) 같이 특정한 유형의 마르코프 연쇄만이 그러한 속성을 갖고 있다. 어떤 추이행렬의 거듭제곱한 결과가 오직 양의 원소(only positive entries)만을 지닌 행렬일 때 그 추이행렬은 정칙이다.

정칙 마르코프 연쇄는 다음과 같은 속성을 갖는다.

(1)   (는 정상 행렬, 는 추이행렬)   이 공식으로 정상 행렬(stationary matrix)을 구할 수 있다.

(2) 초기 행렬  에 어떤 값이 주어지든 상태 행렬들(state matrices) 는 정상 행렬 에 수렴된다.

(3)추이행렬의 거듭제곱  는 하나의 극한 행렬(limiting matrix) 에 수렴한다. 의 각 행(row)은 정상 행렬 와 같다.

 공식을 이용해서 위 광고의 정상 행렬을 구해보자.

이 식을 과 에 관해서 풀면 다음 두 식을 얻는다.

 —–(1)

 —–(2)

그리고  —–(3)

(1)식과 (2)식 중 하나와 (3)식을 가지면 과 를 구할 수 있다. (1)과 (3)을 가지고 풀자.

(3)의 양변에서 를 빼면, 

이 것을 (1)에 대입하면,

양변에서 를 더하고 0.9를 우변으로 옮기면,

양변을 0.8로 나누면,

 이 된다. 이 값을 (3)에 대입하면, 이 구해진다. 이 값들로 행렬을 구하면,  이다. 이를 소수로 전환하면 이다.

위에서 일일히 행렬 계산을 통해서 구했던 정상 행렬이 공식을 사용해서 훨씬 쉽게 구해졌다.

정상 행렬(stationary matrix). 정상 상태(stationary state), 정상 분포(stationary distribution)은 베이즈 추론 과정의 MCMC (Markov Chain Monte Carlo) 시뮬레이션에 적용된다. 다음 글에서 마르코프 연쇄에 대해 조금만 더 알아보자.

책에 관한 열 가지 지혜: 아이들에게

library-100616524-primary.idge
University of California, Berkeley, DOE Library 서가. 수백만 권의 책이 꽂힌 서가에 앉아 있다보면 무엇보다 겸손해진다.

아이들에게 책에 관한 지혜를 들려주고 싶다. 그 지혜를 실천에 옮기는가는 온전히 그들 자신에게 달려 있다.

첫째, 세상의 진리는 오직 책에 담겨 있다. 인류 최고의 스승, 최고의 지혜는 오직 책을 통해서 만날 수 있다. 노자, 석가모니, 예수, 무함마드, 소크라테스, 피타고라스….이순신, 아인쉬타인 등등. 책을 통하지 않고 만날 수 있는 현자를 한 명이라도 말해 보거라. 현자의 지혜는 스스로 글을 써서 남겼거나, 누군가가 책에 남겨 놓았다. 그렇지 않은 지혜는 모두 잊혀졌다. 책에 대해서 다른 소리를 하는 사람을 상대하지 말라. 그는 둘 중의 하나이다. 세상을 모르는 자거나 너를 속이려는 자이다. 진리를 영화나, 게임, 강연, 혹은 인터넷으로 얻을 수 있다는 주장은 엉터리이거나 거짓말이다.

둘째, 책의 형식에 구애받지 말라. 그것이 양피지든, 대나무든, 종이든, e-book이든 무슨 상관이냐? 시대적 기술 여건에 맞는 형식이 있을 뿐이다. 형식은 책을 읽지 않을 핑계가 될 수 없다.

셋째, 어떤 저자도 완전히 믿지 말고 어떤 저자에게도 기죽지 말라. 저자들, 특히 뛰어난 천재들은 친절하지도 착하지도 않다. 재미삼아 독자를 희롱하기도 하고 속이기도 한다. 항상 숲 전체를 보면서 나무를 대하라. 그러면 길을 잃지(속지) 않을 것이다. 세상의 모든 것을 아는 사람은 없다. 천재는 뽐내기를 좋아한다. 자신의 천재성을 인정받고 싶어하는 것이다. 그리고 천재라고 반드시 전달력이 뛰어난 것도 아니다. 게다가 자신이 무슨 말을 하고 있는 지 모르는 저자들도 수두룩하다. 비평가나 해설자에게 의지하려고 하지도 말라. 비평이나 해설은 책 좋아하는 사람들이 밥먹고 살기 위해서 하는 직업적 활동일 뿐이다. 저자가 책을 통해서 무슨 말을 하려고 했는가를 판단하는 유일한 사람은 바로 너 자신임을 잊지 말라.

넷째, 환경을 고르지 말라. 시간과 장소를 가리지 말고 책을 읽어라. 책에 몰입하면 주위에 무슨 일이 벌어져도 알 수 없게 된다. 훈련하면 그것이 가능하다. 얘들아, 이점에 대해서는 나를 믿어라.

ph_doe
University of California, Berkeley DOE library reference 열람실. 이런 환경에서 책 읽기를 기대하지 말라.

다섯째, 어떤 책이든 하루에 읽는 것을 목표로 하라. 대부분의 책은 하루에 읽을 수 없다. 그러나 하루에 다 읽기를 목표로 삼으라. 그러면 놀라운 집중력이 생길 것이다. 인류 최고의 현자를 만나 대화를 나누는데 그 정도의 자세를 갖추지 않고는 결코 지혜를 얻을 수 없다. 현실에도 그렇지 않겠는가? 아인쉬타인, 달라이 라마, 혹은 프란치스코 교황을 실제로 만났다고 생각해 보거라. 책을 하루에 다 읽지 못하는 사람은 일주일을 줘도 다 읽지 못하고, 한 달, 아니 일년을 줘도 다 읽지 못한다. 잘못된 책 읽기를 하기 때문이다. 반대로 독서 방법이 올바르면 헐거운 책은 몇 시간에도 다 읽을 수 있다.

여섯째, 책 읽는 프로가 되어라. 손에 쥔 책을 어떻게 요리할 것인가를 기획하라. 인류 최고의 스승을 만나는데 그 정도 준비없이 되겠는가? 시간 계획, 대화 기획(읽는 순서), 정리 계획이 기본이다.

일곱째, 맘에 드는 책만을 읽지 말라. 편식하면 육신처럼 영혼도 영양실조에 걸린다. 맘에 들지 않은 책일수록 더 정성껏 읽어라.

여덟째, 지식을 자랑하기 위해 책을 읽지 말라. 우리가 평생 읽어봐야 도서관의 한 귀퉁이에 꽂힌 책들도 다 읽지 못한다. 내가 다니던 대학원 도서관의 본관은 책장의 길이만 84km였다. 아마도 300만권의 책은 그곳에 있었으리라. 그런데 더 놀라운 점은 그곳에는 32개의 도서관이 있고 책은 1천만권에 달한다는 사실이다. 미국 의회도서관과 하버드에는 그보다 더 많은 책이 있다. 책 몇 권 읽고 아는 척하지 말라. 그것은 바보나 하는 짓이다.

UCB-University-Library
University of California, Berkeley Main Library인 DOE Library의 정면. 저 문을 들어갈 때마다 마치 교회 문을 들어가듯이 경건해졌다. 인류의 스승들이 모두 저기에 모여 있지 않는가.

아홉째, 독서는 네 인생에 있어 어떤 보장도 해주지 않는다. 하지만 책을 읽지 않고는 어느 분야의 리더도 될 수 없다. 독서가 행복을 가져다 주지도 않고, 출세를 보장해 주지도 않는다. 그러나 책을 읽지 않고는 행복하거나 존경받는 리더가 될 수는 없다. 때로 천한 영혼이 지배자가 되기도 하지만, 그것은 그가 운이 좋았을 뿐이다. 운을 믿지 말라. 운이란 우연이다. 우연을 믿고 세상을 사는 사람처럼 어리석은 자는 없다.

열째, 밥은 굶어도 책 읽기를 건너 뛰지는 말라. 육신의 배고픔이야 밥 한 숟갈로 간단히 달래지지만 영혼의 갈증은 쉽게 해소되지 않는다. 영혼은 오직 진리를 먹고 살기 때문이다. 진리는 쉽게 섭취할 수 없다. 그런데 매일 진리를 먹지 않으면 영혼이 메마른다. 육신이 음식으로 영양분을 섭취하듯이 영혼은 책을 통해서 영양분을 섭취한다. 결코 손에서 책을 놓지 마라.

(Bayes 학습)(6)마르코프 연쇄-(1)

학부나 대학원 수업에서 나는 마르코프 연쇄(Markov chains)에 관해 배운 적이 없다. 다만 대학원 재학시절 범주형 데이터 분석(categorical data analysis)을 혼자 공부하면서 책에서 스쳐 지나가듯이 읽었을 뿐이다.

그것은 나와는 전혀 관계가 없을 지식이고, 그것을 몰라도 내가 평생 동안 사회학자로서 사는 데 문제가 되리라 예상되지 않았다. 사회학에서는 횡단적 데이터(cross-sectional data)를 다루지 종단적 데이터(longitudinal data)는 거의 다루지 않는다. 그래서 경제학과는 달리 수업에서 시계열 데이터 분석(time-series data analysis)을 별로 가르치지 않는다. 그러니 마르코프 연쇄가 나의 관심에서 벗어나 있었던 것은 전혀 놀랍지 않다.

그러나 세월이 변했다. 지난 수십 년 동안 마르코프 연쇄는 온갖 분야에서 그것의 유용성을 드러냈다. 예컨대 구글의 검색 알고리즘인 페이지 랭크(PageRank)가 마르코프 모형을 사용하고 있고, 데이터 과학에서 마르코프 연쇄는 빼놓을 수 없는 부분이다. 오늘날 마르코프 연쇄 몬테카를로(Markov Chain Monte-Carlo, MCMC) 방법 없는 베이즈 추론은 상상하기 어렵다. 그것은 인공지능(Artificial Intelligence)의 원리인 기계학습(machine learning)에도 응용되고 있다. 이 정도면 데이터과학을 공부하는 학도가 마르코프 연쇄를 제대로 이해해야 함은 이론의 여지가 없어 보인다.

마르코프 연쇄는, 확률변수(random variable)가 어떤 상태(state)에 도달할 확률이 오직 바로 이전 시점의 상태(state)에 달려 있는 경우를 가리킨다. 만약 한 인터넷 사용자가 어떤 웹페이지에 있을 확률이 그 사람이 바로 직전에 어떤 웹페이지에 있었는가에 달려 있다면 인터넷 사용자의 웹페이지 방문은 마르코프 연쇄 모형을 따르고 있다고 말할 수 있다. 또 어떤 시점에서 한 청소년이 부모와 어떤 관계를 갖고 있는가가 그 바로 직전 시점에서 그 청소년이 부모와 어떤 관계를 갖고 있는가에 달려 있다면(더 이전에 그 청소년이 부모와 어떤 관계를 갖고 있었는가는 무시해도 될 정도라면), 청소년과 부모와의 관계는 마르코프 연쇄 모형을 따른다고 말할 수 있다.

마르코프 연쇄를 이해하는 가장 기본적인 개념은 상태(state), 추이(transition), 추이행렬(transition matrix), 추이도형(transition diagram), 의사결정 나무(decision tree), 정상 마르코프 연쇄(stationary Markov chain) 등이다. 그리고 행렬대수(Matrix algebra)에 관한 지식이 다소 필요하다.

마르코프 연쇄는 확률변수의 상태 변화(혹은 추이)에 대한 모형이다. 상태(state)는 물리적 위치, 심리적 상태, 재정적 상태, 경제적 상태, 정치적 상황, 시장 점유율, 사회적 관계 등 어떤 것이든 가리킬 수 있다. 그리고 특정 변수가 가질 수 있는 모든 상태를 상태 공간(state space), 변화가 멈춘 상태를 정상 상태(steady state 혹은 stationary state)라고 한다.

유튜브에 올라온 강의(Patrick JMT)의 사례를 가지고 살펴보자. 오렌지 쥬스(Brand A)를 생산하는 어떤 기업이 광고 캠페인을 전개해서 시장 점유율을 높이고자 한다. 광고를 시작하기 전 Brand A의 시장 점유율이 20%이고, Brand A에 관한 광고를 보고 어떤 사람이 계속 Brand A를 구입할 수도 있고, 다른 Brand 제품(Brand A’라고 하자)을 구입할 수도 있을 것이다. 어떤 사람은 다른 브랜드 제품을 사용하다가 광고를 보고 브랜드 A로 전환할 수도 있고, 그냥 그 브랜드 제품을 계속 사용할 수도 있을 것이다. 광고를 보고 브랜드 A를 마시던 사람이 계속 브랜드 A를 마실 확률이 0.9이고, 다른 브랜드 제품으로 갈아탈 확률이 0.1이며, 다른 브랜드 제품을 마시던 사람이 브랜드 A를 마시게 될 확률이 0.7이고, 그냥 기존의 브랜드 제품을 마실 확률이 0.3이라고 하자.  바로 그것이 소위 추이 확률(transition probability)로 표현된 광고의 효과이다. 이를 행렬로 표시하면,

 행렬은 광고를 시작하기 전 오렌지 쥬스 시장에서의 Brand A(A)와 여타 제품(A’)의 시장 점유율을 나타낸다. (참고: 행렬 안에는 숫자만 들어가지만, .2와 .8이 무엇을 나타내는가를 보여주기 위해 A와 A’을 넣어서 표시했다. 다음에는 이라고만 표시하겠다.)

이 를 추이 행렬(transition matrix)라고 부른다. 그것은 광고의 효과를 나타내는 확률이기 때문에 광고 기간 동안 동일하다고 가정할 수 있을 것이다. (참고: 이 행렬에도 행(row)과 열(column)이 무엇을 나타내는가를 보여주기 위해 행렬 안에 A, A’를 넣었다. 행은 시작하는 상태를, 열은 도달하는 상태를 나타낸다. .9는 A가 A로 바뀌는(사실 A가 그대로 남는 경우) 확률, .1은 A가 A’으로 바뀌는 확률, .7은 A’가 A로 바뀌는 확률, 그리고 .3은 A’가 A’로 바뀌는 확률을 가리킨다. 이제 간단히 로만 표시하겠다.)

만약 매주 광고 효과를 시장점유율로 측정한다면, 광고가 나간 1주 후 Brand A의 시장점유율은 어떻게 될까? 그것은 아래와 같이 계산할 수 있다.

일주일 후 Brand A의 시장 점유율은 74%이다! 광고를 하고 일주일만에 시장점유율이 20%에서 74%로 오른 것이다. 그 다음 일주일 후에는 시장 점유율이 어떻게 될까?

84.8%가 되었다! 광고 효과가 여전히 놀랍다. 그렇다면 머지않아 Brand A는 오렌지 쥬스 시장을 싹쓸이 할 수 있을까? 다음 포스팅에서 살펴보자.

(Bayes 학습)(5) 카이자승과 자유도

베이즈 추론을 학습하다가 멀리까지 왔다. 베이즈 추론을 제대로 배우려면 확률과 통계, 그리고 미적분과 행렬대수(matrix algebra)를 알아야 한다. 기초없이 가다보면 결국 벽에 부딪치고 다시 기초로 돌아가게 된다.

이번에는 카이자승() 검증과 자유도(degree of freedom)에 관해 알아보자. 아래의 교차표는 고등학교 학생 30명에게 “TV를 많이 보는가?”와 “공부를 열심히 하는가?”라고 물어본 결과이다. 이 표에 제시된 데이터는 고등학생들의 열공 여부와 TV 시청 사이에 상관관계가 있음을 지지하는가?

TV를 많이 보는가?
공부를

열심히

하는가?

아니오
5(6.7) 5(3.3) 10
아니오 15(13.3) 5(6.7) 20
20 10 30

교차표의 자료를 가지고 두 변수 사이의 관계를 검증하는 대표적인 통계 척도가 이다. 은 교차표의 각 칸(cell)의 관찰빈도(observed counts)와 두 변수 사이에 아무런 관계가 없다는 영가설이 진실일 때 기대되는 각 칸의 빈도(expected counts)와의 비교에 기초를 둔 통계척도이다.

위의 교차표에서 만약 열공 여부와 TV 시청 정도 사이에 아무런 관계가 없다는 가정 아래 각 칸에 들어갈 빈도를 계산해 보자. 영가설의 기대빈도는 행과 열의 각 범주의 주변빈도를 곱한 다음 표본의 크기()으로 나누어주면 될 것이다. 예컨대, 양쪽 질문에 모두 ‘예’라고 답한 칸의 기대빈도는 20*10/30=20/3=6.7이 될 것이고, 열공여부에 ‘예’라고 답하고, TV 시청 정도에 ‘아니오’라고 대답한 칸의 기대빈도는 10*10/30=3.3이 될 것이다. 나머지 두 칸의 기대빈도도 같은 방식으로 계산하면 될 것이다. 각 칸의 괄호 안에 기대빈도를 표시했다.    값을 구하기 위해서는 각 칸의 관찰빈도와 기대빈도의 차이를 자승하고, 그 다음 그 값을 그 칸의 기대빈도로 나눈다. 그리고 그 값을 모두 더하면  값이 구해진다.

=1.96인데, 그 수치를 어떻게 해석해야 하는가? 그 통계치에 대해 판단을 내리려면  의 표집분포를 상정해야 한다. 그것은 앞 글에서 평균의 표집분포를 상정해서 표본 평균에 대해 판단을 내린 것이나 마찬가지 원리이다. 그런데 의 표집분포(간단히    분포)는 자유도(degree of freedom)라는 것의 값에 따라 모습이 다르다. 아래 그림을 참고하라.

ch-_square_dist

그렇다면 자유도가 무엇인가? 이것은 통계학을 배우는 학생들에게 가장 난해한 개념 중 하나이다.

자유도어떤 통계값을 구하는데 있어 자유롭게 변할 수 있는 값의 수효이다. 이게 도대체 무슨 말인가?

예컨대, 세 개의 수가 있는데, 그 세 수의 평균()이 주어져 있다면, 그 세 수 중 두 개가 정해지면 나머지 하나는 자유롭게 변할 수 없다. 만약 평균이 2이고, 이 1이고, 가 1이면, 는 반드시 4가 되어야 한다. 이 경우 자유도(통상 df라고 표기한다)는 2이다. 분산()을 보자. 분산이란 한 표본이 얼마나 퍼져있는지를 보여주는 통계척도이다. 분산을 구하려면 표본의 각 값에서 평균을 뺀 값을 제곱하여 더하고 표본의 크기()로 나누어주면 될 것이다. 그런데, 평균이 먼저 구해져야 분산을 구할 수 있다. 그런데 위에서 보듯이 평균이 정해지면 자유도 하나를 잃는다. 따라서 분산의 자유도는 이다. 만약 편차의 제곱을 으로 나누면 분산을 과소추정하게 된다. 따라서 분산을 정확히 계산하기 위해서는  대신 로 나누어야 한다. 즉, 정확성을 확보하기 위해 자유도로 보정해 주는 것이다.

교차표에서 자유도는 누계가 고정된 상태에서 값이 자유롭게 변할 수 있는 칸의 수이다. 어느 두 변수간의 교차표에서든  통계치의 자유도는 행(row)에서 1을 뺀 숫자와 열(column)에서 1을 뺀 숫자를 곱하면 된다. 공식은 아래와 같다.

위 표의 자유도는 1이다((2-1)*(2-1)=1). 우리가 신뢰수준을 95%(0.05)으로 설정한다면, 의 임계치(critical value)는 자유도가 1일 때 3.84이다. 만약 자유도가 2라면 임계치가 5.99, 자유도가 3이라면 임계치가 7.81이다(통계학 책 부록으로 있는의 임계치 표를 참조하라). 위에서 우리가 계산한 표본의   값이 1.96이므로 임계치인 3.84보다 작다. 관찰빈도와 영가설 아래서 추정한 기대빈도의 차이가 신뢰수준의 기준치보다 작다는 말이다. 그러므로 우리는 영가설을 기각하는데 실패했다. 따라서 이 자료로 볼 때 열공 여부와 TV시청 정도는 서로 관계가 있다고 보기 어렵다고 결론을 내릴 수 있을 것이다.

이렇게 자유도는 통계값을 보정하기 위해 사용되기 때문에 자유도에 의해 분포의 모습이 크게 달라지는 검증에서 자유도는 대단히 중요한 역할을 수행한다. 우리가 앞에서 언급했던  검증에서도 그렇다.

이 글에서는  검증을 가지고 자유도를 설명했다. 통계적 추론을 위해서는 자유도의 개념을 잘 이해하고 기억해 두어야 할 것이다.

(Bayes 학습)(4) P-value, 표집분포, 가설 검증

“아빠, (카이 자승)은 어떻게 계산하고, 어디다 쓰는 거야?” 자동차를 타고 가면서 막내가 물었다. 카이 자승을 한참 설명하고 났더니, 다음에는 p-value가 무어냐고 물었다. 막내의 통계학 공부가 드디어 기술통계(descriptive statistics)에서 추론통계(inferential statistics)로 넘어가는 단계인 모양이다. 사실 그 때가 통계학을 배우면서 가장 혼란스런 순간이기도 하고 가장 중요한 순간이기도 하다. 그래서 추리통계의 기초를 좀 정리해 보았다.

우리가 통계학을 배우는 근본적인 이유는 불확실성의 세계 혹은 미지의 세계를 체계적으로 탐색하기 위해서이다. 평균적으로 우리 나라 고등학생들의 키는 얼마나 될까 라는 의문을 생각해보자. 우리 나라 고등학생들의 키를 모두 재서 평균을 내면 될 것이다. 문제는 그것이 현실적으로 불가능하다는 데 있다. 고등학생 전체 숫자가 한 1백50만명은 될텐데, 그들의 키를 무슨 수로 다 잴 것인가? 전체 학생수가 많기도 하지만 학교에 결석하는 학생들도 적지 않을 테니 말이다. 고등학생들의 평균 신장은 근본적으로 미지의 모수(unknown parameter)이다. 그것을 라고 하자.

미지의 모수인 는 결코 정확히 알 수 없다. 다만 그것의 근사값이 추정될(inferred) 수 있을 뿐이다. 가장 좋은 추정 방법은 고등학생들을 몇 백명 정도 무작위 표집해서 그들의 키를 재고 그 통계치(sample statistics)를 가지고 를 추정하면 될 것이다. (참고로 무작위 표집(random sampling)이란 모든 고등학생들이 뽑힐 확률이 동일하다는 조건을 만족시키면서 추출해야 한다는 의미이다. 사실 이것도 쉽지 않은 작업이다.) 예컨대 무작위로 4백명()을 뽑아서 그들 키의 평균()과 표준편차()를 계산했더니, 각각 168cm, 13cm였다고 하자. 우리는   라는 알고 있는 표본정보(known sample statistics)를 가지고 미지의 모수(unknown population parameter) 를 추정할 수 있다. 추리 통계(inferential statistics)란 바로 그러한 추정을 가능하게 해주는 학문적 지식이다.

통계적 추론을 위해서는 몇 가지 기본 지식이 필요하다. 그 중 첫째가 중앙집중한계정리(central limit theorem)이다. 중앙집중한계정리란 아래와 같다.

표본의 크기()가 충분히 크면,  평균()의  확률분포[표집분포(sampling distribution)라고 부른다]는 모집단 분포의 모양과 상관없이 정규분포(normal distribution)를 이룬다. 그 분포의 평균은 이고, 분산은  이다.

중앙집중한계정리를 그림으로 표시하면 아래와 같다.

centrl_limit_theorem  이 그림에서 파란색으로 된 그래프가 모집단의 분포이고, 붉은색으로 된 그래프가 표집분포이다. 그런데 표집분포(sampling distribution)가 무엇인가? 적지 않은 학생들이 표집분포에서 좌절하고 만다. 일종의 가상적 상황이 도입되기 때문이다. 표집분포란 반복해서 표본을 추출한다(표본추출은 실험으로 간주될 수 있다)고 가정했을 때 우리가 얻게 되는 평균()의 확률분포이다. 표본을 반복해서 추출하다니….한 번 뽑는데도 얼마나 비용이 많이 드는데….그러니 가상적인 상황이다. 표본추출이 실험이니 그 ‘실험’의 결과인 평균은 확률변수이고 그것의 확률분포가 정규분포라는 것이다(아래 그림 참조). 전통적인 통계학에서 이 가상적인 분포를 가지고 추론(혹은 추정)을 한다. 표집분포중앙집중한계정리의 힘을 빌리지 않으면 추론이 불가능하다.

img_samp_dist

정규분포의 모양은 잘 알려져 있다. 를 중심으로 1 (표준편차의 1배)까지의 면적은 전체 면적의 34.1%이고, 2(표준편차의 2배)까지의 면적은 47.7%, 3(표준편차의 3배)까지의 면적은 49.8%이다. 를 중심으로 양쪽을 모두 고려한다면, 좌우대칭이기 때문에 의 면적은 전체 면적의 68.2%, 의 면적은 95.4%, 의 면적은 전체 면적의 99.6%이다. 기억하겠지만 정규분포에서 표준편차의 배수를 나타내는 도구는  값(z-value) 혹은  값(t-value)이다. 모집단의 분산()을 모르면  값을 사용한다.  값이 2이면 양쪽 면적이 95.4%이다. 양쪽 면적이 전체 면적의 95%가 되는  값은 1.96이다.

 

Standard_deviation_diagram.svg

z 값이나 t 값의 확률(밀도)은 정규분포의 확률밀도함수를 적분해서 구해야 하기 때문에, 복잡한 수학적 계산을 피할 수 있게 해주기 위해 자주 사용되는 z 값이나 t값에 관한 확률(Pr (Z  z))이 표로 만들어져 통계학 책의 부록으로 실려 있다.

요즘에는 표 대신 스마트폰 어플을 이용해서도 쉽게 구할 수 있다.  미국 아이오아대학교 통계학과 Mattew Bognar 교수가 Probability Distributions라는 어플을 무료로 제공하고 있다. (그가 운영하는 웹사이트에서 애플릿을 이용해서도 계산할 수 있다. http://homepage.divms.uiowa.edu/~mbognar/applets/normal.html)

distribution

통계적 추론을 위해서는 몇 가지 개념이 더 필요하다. 신뢰수준(confidence level), 영가설(null hypothesis), p-value, 자유도(degree of freedom),  검증 정도는 정확히 이해해야 한다. 그래야 상관관계분석, ANOVA, 교차표(cross-table) 분석, 회귀분석 등을 기초적인 수준에서나마 수행할 수 있다.

신뢰수준이란 연구자가 어느 정도의 확신을 가지고 추정(혹은 검정)을 할 것인가에 대한 기준이다. 확신의 기준이 높을수록 실수할 가능성도 높아질 것이다. 예컨대 불확실한 현상에 대해 다른 조건이 동일하다면, 100% 확신을 가지고 추정하면, 90% 확신을 가지고 추정할 때보다 실수할 가능성이 높다. 실수할 가능성을 낮추려면 확신의 기준을 낮춰서(다시 말해, 좀 넉넉하게) 추정해야 한다.

우리가 95% 신뢰수준(confidence level)에서 모집단의 평균 를 추정하면,

 …….(1)

이 될 것이다. 이 식에서 는 우리가 가진 표본의 평균이고,  가 0.025(양쪽을 합치면 0.05이다)이 되는 값으로 1.96이다 (는 유의수준(significance level)인데, 그것은 영가설이 진실인데도 기각할 확률을 의미한다.   =1-신뢰계수이다. 95% 신뢰수준은 신뢰계수가 0.95이다). SE (Standard Error)는 표본의 표준편차와 표본의 크기를 가지고, 즉, 으로 추정할 수 있다. 식 (1)을 다시 쓰면,

 …….(2)(* 이 식이 어디에서 왔는가를 이해하려면 z-value와 t-value를 복습할 것)

이 된다. 이 공식을 우리의 평균키 사례에 적용해 보자.  를 대입하면,

이다. 식을 정리하면,

즉, 우리나라 고등학생들의 평균키()는 95% 신뢰수준에서 166.7cm와 169.3cm 사이라고 추정된다.

통계학은 가설(hypothesis)을 검증하기 위해 자주 사용된다. 가설이란 어떤 연구문제에 대한 잠정적인 답변이다. 잠정적이라는 표현은 그것의 검증이 요구된다는 의미이다. 검증을 위해서는 영가설(null hypothesis)대립가설(alternative hypothesis)를 세운다. 영가설이란 문자 그대로 변수들 사이에 서로 관계가 없다든가 어떤 실험 처지(treatment)의 효과가 없다는 의미로 사용된다. 영가설은 흔히 이라고 표기된다. 대립가설은 변수들 사이에 관계가 있다 혹은 실험 처지의 효과가 있다는 의미로 사용되며, 흔히 로 표기된다.

왜 영가설 따위가 필요한가? 다소 복잡한 철학적 이유까지 있기는 하지만 단순화시켜서 말하자면 경험과학이 지닌 검증의 한계 때문이다. 경험과학은 귀납법을 사용해서 자신의 주장(가설로 표현된다)을 입증한다. 그런데 아무리 데이터를 많이 제시해도 단 한 개의 예외만 발견되면(그리고 현실에서는 그런 경우가 아주 많다) 검증 결과는 바로 공격받게 된다. 즉, 경험과학에서는 가설(그것이 대립가설이든 영가설이든)이 참일 확률을 계산할 수 없다. 오직 가능한 것은, 영가설이 참일 때 우리가 손에 든 데이터를 얻을 확률을 계산할 수 있을 뿐이다. 그것이 곧 p value (p 값)이다.

이렇게 경험과학에서는  자기의 주장을 직접 검증하지 못하고 우회적으로 검증할 밖에 없다. 영가설 검증을 통해서 대립가설을 우회적으로(어떻게 말하면 겸손하게) 검증하는 것이다. 영가설은 기각하거나(reject) 기각에 실패한다고(fail to reject) 표현한다. 만약 영가설을 기각하면, 데이터가 대립가설, 즉, 자신의 주장을 지지한다(support)고 결론을 내리고, 영가설을 기각하는데 실패하면, 데이터가 대립가설, 즉, 자신의 주장을 지지하지 않는다(not support)고 결론을 내리게 된다.

P-value는 통계학에서 매우 중요한 개념이다. 그것은 바로 영가설이 진실일때 우리가 통계치(sample statistics)나 그보다 더 극단적인 값(extreme value)을 얻을 확률()을 가리킨다. 그림으로 나타내면 아래와 같다.

P_Value

위 그림은 확률분포인데 진한 회색으로 된 부분이 p-value이다. P-value가 아주 작으면 영가설이 진실일 때 통계치나 그 이상의 극단적인 값을 얻을 확률이 아주 작다. 다시 말해 영가설이 진실일 가능성이 아주 낮다. 만약 p-value가 연구자가 설정한 신뢰수준, 예컨대 95%(0.05)보다 작으면 영가설이 기각된다. 반대로 p-value가 신뢰수준의 값, 0.05보다 크면 영가설을 기각하는데 실패한다.

글이 너무 길어졌다. 다음 글에서 자유도(degree of freedom)와  검증에 관해 알아보자.

뜰 스케치

SAMSUNG CSC
감나무의 숨쉬기를 돕기 위해 나무 둘레의 복토와 잔디를 제거했으며, 벽돌을 둘러서 잔디의 접근을 차단했다. 나무야, 그 동안 미안했다.
SAMSUNG CSC
루드베키아
SAMSUNG CSC
매일 나리꽃의 수가 늘고 있다. 
SAMSUNG CSC
병 치료후 핀 첫 긴세카이(Ginsekai)
SAMSUNG CSC
프로이트(Fruite)
SAMSUNG CSC
마리안델(Mariandel)
SAMSUNG CSC
심식을 피하기 위해 며칠 전 이식한 장미의 복토를 제거했다.