데이터과학: 데이터 마이너와 사회학자의 동상이몽

데이터 마이닝(data mining)은 많은 양의 데이터를 분석한다. 사회학(sociology)도  데이터 마이닝 못지 않게 데이터를 많이 다룬다. 두 분야 모두 경험 과학(empirical science)이다. 그런데 조금만 진지하게 들여다보면 두 학문이 세상을 보는 관점, 접근방법, 그리고 추구하는 가치가 크게 다름을 알 수 있다.

데이터 마이닝은 데이터 속에서 유용한 패턴(patterns)을 찾는다. 그것이 인과적 관계이냐 단순한 상관관계이냐는 중요하지 않다. 데이터 마이너는 데이터를 이용해 모형(혹은 알고리즘)을 만들어 예측(prediction)을 수행하며, 모형을 검증하고 개선한다. 데이터 마이닝에서 가장 중요한 가치는 유용성(usefulness)이다. 연구가 기업이나 기관을 운영하는데 도움이 되어야 한다.

text_data_mining

사회학은 데이터 속에서 유용한 증거(evidence)를 찾는다. 데이터를 이용해 이론(가설 혹은 인과관계)을 검증하고 이론을 향상시킴으로써 현실에 대한 이해를 깊게 한다. 사회학에서 가장 중요한 가치는 이해(understanding) 혹은 실천(practice)이다. 궁극적으로 사회학 연구는 사회 질서를 유지하거나 변화시키는데 도움이 되어야 한다고 믿는다.

이런 점에서 데이터 마이닝은 데이터중심 접근(data-centered approach)이고, 사회학은 이론지도 접근(theory-guided approach)이라고 말할 수 있다. 두 학문 분야를 넘나들고 있는 학자나 학생이라면 이 차이를 명쾌하게 인식할 필요가 있다. 특히 사회학도는 ‘빅데이터’의 파도 속에서 자칫 자신의 정체성을 잃을 수도 있다.

데이터 마이닝은 세 가지 특징을 갖는다.

1) 상관성(correlation) 기반의 모형이면 족하다. 풍부한 데이터 환경에서 엄밀한 인과모형에 의존하지 않고도 얼마든지 탁월한 예측을 할 수 있다. 인터넷 서점 아마존이나 검색 기업 구글이 성공한 요인을 상기하면 이 점이 이해 될 것이다.

2) 알고리즘(algorithm)의 효율성(efficiency)과 예측력(predictability)을 높이는 것이 핵심이다. 획기적인 발상이든 시행착오를 통한 재설계이든 보다 우수한 알고리즘을 적용해 누가 얼마나 정확히, 그리고 신속하게 해답을 제시하는가가 관건이다. 검색엔진들의 경쟁을 상기해 보라. 사용자들의 입맛에 맞는 정보를 얼마나 신속하게 제공하는가가 경쟁 포인트이다.

3) 데이터 마이닝의 가장 큰 함정은 과적합(over-fitting)이다. 최대한 많은 설명 요인을 모형에 집어넣다보면 모형의 설명력은 높아지지만 모형의 일반성이 떨어지게 된다. 이 때문에 데이터 마이닝에서는 사회학에서 거의 사용하지 않는 표본 분할이 애용된다. 데이터를 훈련 표본(training sample)과 검증 표본(testing sample)으로 나누어 과적합의 함정에서 벗어나고자 한다.

사회학도 세  가지 특징을 갖는다고 말할 수 있다.

social research

1) 인과성(causality) 기반의 모형을 추구한다. 분석모형에 설명 요인이 여러 개 들어가면 이론화가 아직 덜 되었다고 간주한다. 모형이 얼마나 많은 설명력을 갖는가가 중요한 것이 아니라 하나라도 제대로 원인을 발견하는 것이 중요하다.

2) 모형의 정확성(correctness), 단순성(simplicity), 그리고 정의(justice)를 둘러싼 게임이다. 진리를 발견하고, 세상을 움직이는 핵심적인 요소를 파악하고, 보다 나은 세상을 만들어 가는데 이론과 모형이 도움이 되어야 한다. 아마도 가장 단순한 사회학 모형은 칼 마르크스의 이론일 것이다. 계급투쟁이라는 창으로 세상을 바라본다.

3) 사회학의 가장 큰 함정은 과소적합(under-fitting)(혹은 모형 구성오류(misspecification)이다. 모형을 최대한 단순하게 만들려고 하거나 연구자가 관심을 갖는 요인에만 집착하다보면 분석모형이 중요한 요인을 빠트리게 되어서 생기는 문제이다. 한 마디로 모형이 잘못되어 있는 것이다. 모형이 잘못되어 있으면 아무리 많은 데이터를 사용해도 오차를 줄일 수 없다.

데이터 마이너(data miner)사회학자(sociologist)는 모두 데이터과학자일 수 있다. 그러나 데이터 마이너와 사회학자는 추구하는 목표가 크게 다르다. (2016/9/22)

인터넷 조사의 기초(강의 노트)

우리는 수시로 인터넷에서 무언가를 찾는다. 심심풀이로 하면 검색(search)이고, 과제나 업무로 하면 조사(research)이다. 인터넷 검색과 조사는 우리의 일상이 되었다.

search-vsresearch-pptx-1-638

검색을 할 줄 모르는 인터넷 사용자는 없다. 그러나 조사를 제대로 하는 인터넷 사용자는 생각보다 드물다. 인터넷이 지닌 영향력을 고려할 때 초등학교 고학년이면 마땅히 인터넷 조사 능력을 갖추어야 한다. 그런데 우리나라에 인터넷 조사를 제대로 할 줄 아는 대학생이 얼마나 될까? 그 동안 대학생들을 가르친 경험으로 미루어 볼 때 아주 소수만이 ‘네트워크 리터리시(network literacy)’를 갖추고 있다. 인터넷 조사에서 기초적이면서 중요하다고 생각되는 몇 가지 지혜를 공유한다.

1. 조사 문제의 정의(definition)

무엇보다 먼저 무엇을 찾을 것인지를 잘 정해야 한다. 무턱대고 검색창부터 들어가지 말자.

bigstockphoto_Finding_Information_3385641

검색 엔진은 답을 주지 않는다. 오직 사용자 자신만이 답을 발견할 수 있다. 검색 엔진은 정보찾기 도우미일 뿐이다. 검색 결과를 답으로 오인하면 안된다.

검색 엔진은 사용자의 능력을 넘어서지 못한다. 검색 엔진은 미숙한 사용자가 찾으면 엉터리 정보를 내놓고, 능숙한 사용자가 찾으면 알짜 정보를 내놓는다. 미숙한 사용자와 능숙한 사용자의 차이는 조사 문제(research question)의 규정에 있다. 현명한 사람은 자기가 말하고자 하는 것이 무엇인지를 분명하게 알고 있다. 그래서 자신이 구하고자 하는 것이 무엇인지를 정확히 규정한다.

인터넷에서 무엇을 얻고 싶은가? 이에 관해 한 가지만 언급한다. 아이디어, 의견, 이론, 데이터 중 무엇을 원하는지 우선 그 점을 분명히 해야한다. 데이터가 필요한데 의견을 찾아서 인용하면 재앙이 된다. 이점에 관해서는 아래에서 다시 언급하겠다.

잊지 말자. 인터넷 시대에 현자(賢者, wise person)는 잘 대답하는 사람이 아니라 잘 묻는 사람이다.

2. 의심(doubt)

의심하고, 의심하고, 또 의심한다. 개인적으로 필자는 사람을 쉽게 믿는다(덕분에 자주 속고 산다). 그렇지만 인터넷 정보는 결코 믿지 않는다. 인터넷이, 아는 사람들 사이의 통신에서 다수의 모르는 사람들을 포함한 통신으로 바뀌면서 신뢰(trust)의 기초가 사라졌다.

Multiple question marks on paper

인터넷의 정신은 개방(openness)과 공유(sharing)이다. 인터넷은 누구나 자유롭게 말하고 정보를 공유하는 세상이다. 그러나 그 개방과 공유는 공짜로 얻어지지 않는다. 그것을 위해 신뢰(trust)–진실(truth)이라고 불러도 좋다–가 댓가로 지불되었다. 인터넷에서 인류는 국지적인 신뢰(parochial trust) 대신에 지구적인 개방과 공유(global openness and sharing)를 선택했다.

검색엔진을 통해서든 지인의 추천을 통해서든 인터넷에서 얻은 정보에 대해서는 무조건 의문을 제기하자. 통신공학적으로 표현하면, 걸러지지 않은 인터넷 정보는 잡음(noise)이다. 직설적으로 말하자면 쓰레기이다. 아무리 보물이 섞여 있어도 쓰레기는 쓰레기이다. 인터넷은 홍보(publicity), 선전(propaganda), 과장(overstatement), 오보(misinformation), 허위정보(false information), 역정보(disinformation), 농담, 헛소리 등으로 가득하다. 조사를 위해 인터넷 정보를 사용하려면 그러한 쓰레기 속에서 진실을 찾아내야 한다.

손에 쥔 정보가 누구에 의해, 어떤 목적으로, 어떻게 생성된 것인지, 누구의 손을 거쳐서 온건지, 그 과정에서 왜곡은 없었는지, 정보의 생산자는 신뢰할만한 사람(혹은 기업이나 기관)인지, 정보의 전달자는 신뢰할만한 사람(혹은 기관, 기업)인지, 어떤 의도가 숨어있는 자료는 아닌지, 데이터는 충분히 신뢰할만한 과정을 통해서 생성된 것인지 등을 따져야 한다. 인터넷에서 무료로 얻을 수 있는 정보는 많지만 비용없이 생성된 정보는 없다. 개인이든, 기업이든, 기관이든 비용을 투입할 때는 반드시 목적이나 이유가 있다. 목적이나 이유가 좋은 경우도 많지만 그 때문에 진실이 비틀릴 가능성이 있음에 유념해야 한다.

2. 거르기(Filter)

인터넷 조사에서는 효과적인 filtering이 핵심이다. 인터넷에서 진실을 찾고 싶은가? 그러면 걸러야 한다(filter). 우리가 찾는 진실–정보와 지식–은 신호(signal)라고 표현할 수 있인데, 그 신호는 반드시 수많은 잡음이 filtering이라는 절차를 거치고 난 후에야 정체를 드러낸다. 예외가 없다.

8431542191_cffc5fba27_z

정보를 거르는 방법이 많다. 정성적인 방법도 있고, 정량적인 방법도 있으며, 사회적인 방법도 있다.

정성적인 방법을 사용하기 위해서는 정보를 판별해야 한다. 정보 하나 하나에 대해 꼼꼼하게 진위를 따져야 한다는 말이다. 여기에 정도는 없다. 필자는 구글 검색 결과를 얻으면 적어도 상위 두 페이지의 목록에 든 웹사이트나 문건을 하나씩 신중하게 검토한다. 특정 검색엔진을 거론해서 그렇기는 하지만 필자는 네이버 검색을 사회 조사 용도로는 거의 사용하지 않는다. 유용한 신호가 적을 뿐 아니라 잡음 대 신호비가 너무 낮다.

정보를 엄선하는 또 하나의 방법은 관계를 통해서이다. 신뢰할 수 있는 사람, 기관, 단체 혹은 기업과 관계를 맺고 그들의 선택에 도움을 받는다. 신뢰할만한 개인 혹은 집단과 정보를 나눌 수 있으면 filtering이 우수하고 빨라진다.

관계 중 최상위에는 대학도서관이 있다. 대학도서관의 교외접속을 이용해서 온라인 데이터베이스를 검색한다(국가전자도서관을 통해서도 유사한 서비스를 받을 수 있다). 대학이 유료로 구독하는 전문 저널, 잡지, 책, 웹사이트는 1차로 전문가들에 의해 걸러진 자료이다.

스크린샷 2016-05-23 15.41.35

유용하며 신뢰할 수 있는 정보를 제공해주는 블로그도 적지 않다. 다만 블로그는 워낙 그 수준과 목적이 다양하니 잘 선별해서 활용해야 한다. 다행히 각 분야에는 신뢰할만한 블로그들의 널리 알려져 있어 비교적 쉽게 찾을 수 있다. 개인 뿐 아니라 기관, 단체, 혹은 기업의 블로그에서도 유용한 정보를 얻을 수 있다. Filtering의 부담이 크다는 것이 약점이다.

빅데이터 시대가 되면서 정량적인 방법도 filtering에서 효과적이다. 다만 아직까지 비전문적인 개인이 빅데이터 분석 방법을 사용하기는 쉽지 않다. 빅데이터 분석 서비스를 제공하는 웹사이트를 이용하면 트렌드를 파악하는 정도의 정보는 간편하게 얻을 수 있다.

대학생들에게 조사를 시켜보면 가장 흔히 활용하는 것이 언론 보도이다. 때문에 그에 대해 특별한 언급이 필요하다. 학생들이 검색 사이트의 ‘지식인’에 의존하지 않는 것만 해도 어찌보면 다행이다. 그런데 인터넷상에서 얻어지는 언론 보도는 그야말로 지뢰밭이다.

종이신문 시대에는 언론사가 filtering의 수고를 대신해주었다. 그것이 종종 세상이 왜곡되어 비쳐지는 과정이기도 했지만 일반인들이 효율적으로 정보를 얻는 방법이었다. 그 때는 한 마디로 언론사를 선택하면 되었다. 그런데 안타깝게도 오늘날 그러한 방법은 더 이상 통하지 않는다. 과연 우리가 믿을 수 있는 언론사가 몇 개나 될런지 모르겠다.

언론 보도는 홍보자료(press release), 보도 기사(news article), 피처 기사(feature article), 심층 기사(investigative report), 광고, 홍보성 기획기사(special feature article), 의견 기고(opinion column), 사설(editorial) 등 매우 다양한 유형의 기사를 포함하고 있다. 이 중 사회조사에 활용될만한 가치가 있는 것은 보도 기사와 심층 기사 정도이다. 사실 그것마저도 근래에는 기업이나 기관의 홍보와 섭외를 통해서 작성되거나 왜곡되는 일이 빈번하기 때문에 부주의하게 인용해서는 안된다.

홍보성 기사를 판별할 때 필자가 쓰는 체크 리스트는 아래와 같다. 참고하기 바란다.

1) 신뢰할만한 언론사의 보도인가? 그것은 아직 유효한 판단 기준이다. 그러나 그것은 하나의 기준일 뿐이다.

2) 한 기업이나 기관에 관해서만 작성된 기사인가? 그런 경우 정말 대단한 뉴스 가치가 있는 내용이 아니라면 홍보성 기사로 간주한다.

3) 기업이나 기관이 내놓은 보도자료를 찾아보거나 2-3개의 언론사의 보도를 비교해 보면 홍보성 기사 여부를 판단할 수 있다. 보도자료에 의존한 기사인 경우 작성자는 달라도 기사의 내용과 형식이 거의 일치한다.

4) 동일한 주제에 관해 전문 저널 검색을 한다. 그 검색 결과와 해당 신문 기사를 비교해 보면 홍보성이 드러난다.

필자가 가르치는 수업의 보고서나 발제에는 언론 보도의 인용을 전혀 허용하고 싶지 않다. 하지만 몇 가지 현실적인 이유 때문에 언론보도의 인용을 눈감아 주고 있다. 조사 자료로 사용하려면 학생들이 최소한 홍보성 기사는 걸러내야 할 것이다.

기관이나 기업의 홍보 자체가 잘못된 것은 아니다. 다만 홍보를 위해서 진실을 희생시키는 경우가 아주 많기 때문에 세심한 filtering이 요구된다. 조사의 실마리를 얻는 정도에서는 홍보성 기사를 써도 무방할 것이다. 그러나 그 경우 그것은 조사의 출발점이어야 하지 조사의 종착점이어서는 결코 안된다.

언론에서 흔히 사용되는 전문가 인터뷰는 매체에서는 기사의 주장을 뒷받침하는 방법으로 인정받지만, 학문의 세계에서는 과학적으로 수집된 자료에 의해 뒷받침되지 않은 전문가의 발언은 검증되지 않은 가설에 지나지 않는다. 보고서 작성이나 발제에 있어 신문 사설이나 전문가의 컬럼 혹은 인터뷰의 인용을 삼가하자. 그것들은 대체로 주장만을 담고 있지 과학적 근거를 제시하지 않는다. 대개의 경우 증거라고 해봐야 자의적으로 선정된 사례 몇 개일 뿐이다. 가설(자신의 주장)을 가설(전문가의 주장)로 입증할 수는 없다.

how-to-keep-up-with-almost-everything-13-728

몇몇 학생들은 보고서나 발제에 저널 논문을 인용하고 있다. 아주 고무적이고 칭찬할만한 행동이다. 사실 대학도서관의 온라인 저널 데이터베이스를 검색하는 것은 인터넷에서 언론보도를 filtering할 때의 수고를 없애준다. 그런데 저널 논문이라고 할 지라도 인용하기 위해서는 언론 기사 못지 않게 꼼꼼하고 정확하게 읽어야 한다. 학생들의 인용 내용을 보면 인용한 논문을 진짜 읽었는지 의심스러울 때가 많다. 논문의 내용을 잘못 인용하는 경우가 적지 않고 심지어 원저자의 주장에 반하는 방향으로 인용하는 경우도 있다.

저널 논문에 포함된 자료(data)에는 가공 자료, 분석  결과, 그리고 인용 자료가 있다. 원시 자료(raw data)가 논문에 제시되는 경우는 아주 드물다. 논문의 표나 그림은 가공 자료인데, 그것을 인용할 때는 원 연구의 맥락을 충분히 존중해야 한다. 그리고 논문에 인용된 자료를 재인용할 때는 더욱 주의해야 한다. 재인용은 하지 않는 것이 바람직하지만 꼭 재인용해야 한다면 반드시 원 자료를 찾아서 확인하고 해야 한다.

학생들이 늘 시간에 쫓긴다는 점은 이해하지만 그렇다고 대충 얼기설기 메꾸는 식의 보고서 작성이나 발제가 결코 용인될 수 없다. 그것은 대학에 와서 자신을 성장시킬 기회를 스스로 포기하는 행위이다. 교육에 있어 컨텐츠의 전달보다 중요한 측면은 학생의 정신적 성장이다. 대학을 다니거나 졸업했는데 자신의 주장 하나 변변하게 못하는 사람이 어떤 일을 할 수 있겠는가? 전공을 불문하고 말이다.

대학에서든 일상에서든 좋은 주장은 발상이 신선하고 관점이 좋아야 하지만 그 이상으로 그것은 논리적이고 실증적이어야 한다. 즉, 주장이 논리적으로 앞뒤가 맞아야 하고, 객관적인 자료(data)에 의해 잘 뒷받침되어야 한다는 의미이다.

바쁜데 꼭 그렇게까지 꼼꼼하게 조사를 해야하나 라는 의구심을 갖는 사람이 있을 것이다. 그러나 인터넷 덕분에 사회조사가 얼마나 편해졌는지를 생각하기 바란다. 만약 인터넷이 없었다면, 엄청난 발품을 팔아야 자료를 얻을 수 있었을 것이다. 자료를 찾기 위해서는 도서관을 전전하고, 기관, 단체, 기업, 심지어는 개인을 찾아가서 사정해야 했을 것이다. 인터넷 시대 이전에는 간단한 자료를 얻기 위해서 다른 도시는 말할 것도 없고, 외국에 출장을 가야하는 경우도 흔했다.

지금은 기껏해야 클릭 몇 번이면 원하는 자료를 손에 넣지 않는가. 그러니 불평말고 filtering을 꼼꼼하게 하자. 그것은 인터넷으로 사회조사를 할 때 우리가 반드시 지불해야 하는 일종의 자료수집 비용이다. 그렇지 않으면 우리는 결코 ‘자료’를 구할 수 없다. ‘쓰레기’만 손에 넣을 뿐이다.

신의 언어, 선지자의 언어

이 세상을 창조하는데 왜 6일이나 걸렸을까? 전지전능한 신인데 한 순간이면 충분하지 않았을까?

그에 대해 성 아우구스티누스(St. Augustine)는 이렇게 생각했다. ‘6’이 완전한 숫자였기 때문이다. “하느님은 우주의 완전함을 계시하기 위해 일부러 6일이나 시간을 끌었다”(사이먼 싱, 1998에서 재인용).

완전수(complete number)란 약수들의 합이 본래의 수와 정확하게 일치하는 수를 말한다. 6의 약수는 1, 2, 3이고 그 셋을 더하면 6이다. 6 다음의 완전수는 28이다.

완전수의 존재를 발견한 것은 피타고라스(Pitagoras de Samos)였다. 피타고라스는 수학을 통해서 우주의 비밀을 밝힐 수 있다고 믿었다. 이 세상이 수학적 법칙에 따라 움직이기 때문이라는 것이었다. 유명한 피타고라스 정리는 그가 찾아낸 법칙 중 하나였다. 그로부터 2천년 후 갈릴레오(Galilo Galilei)는 같은 의미에서 “신이 우주를 창조할 때 사용한 언어가 수학이다”라고 주장했다.

수학자나 과학자가 아니고는 그러한 주장에 공감할 사람들이 얼마나 될 지 모르겠다. 그러나 아직도 그러한 믿음을 버리지 않은 수학자나 과학자들이 많다.

나는 그러한 믿음이 잘못되었다고 생각하지 않는다. 세상에 대한 수학적 해석을 이해할 수 있는 사람이 별로 많지 않다는 점이 좀 걸릴 뿐이다.

수학자들만 신의 의도를 읽으려 했던 것은 아니다. 선지자들(prophets)도 그러했다. 그러나 그들은 수학자들과 달랐다. 수학자들이 신의 기획을 이해하려고 했다면, 선지자들은 신의 뜻을 대중에게 전달하려고 했다.

대중과의 커뮤니케이션을 위해서 선지자들이 선택한 표현 형식은 메타포(metaphor, 은유 혹은 비유)였다. 예수, 공자, 석가모니와 같은 인류의 스승들은 예외 없이 메타포를 즐겨 사용했다.

메타포는 수학에 못지 않게 강력한 표현 도구이다. 그것은 청중의 수준에 맞추어 메시지가 전달될 수 있게 해주고, 선지자가 권력의 탄압을 피해갈 수 있게도 해준다. 게다가 두고두고 시대에 따라서 다르게 해석될 수 있는 여지를 남겨준다.

메타포의 구조는 단순하다. 한편에는 중대하거나 난해한 메시지가 있고 다른 한편에 일상적인 개념이 있다. 추상적인 메시지를 직관적 언어로 풀어주는 방법이다. “인생은 여행이다”, “TV는 바보상자”, “삶은 한편의 연극”, “인터넷은 정보의 바다”….

때로는 한 문장이나 한 문단이 아니라 책, 그림, 조각, 건물, 영화 등이 통째로 메타포일 수도 있다. 예컨대 성경 중 가장 난해하다는 요한 계시록이 그러하다.

나는 뛰어난 S.F. 소설이나 영화도 하나의 메타포로 간주한다. 조지 오웰의 <1984>, 리들리 스콧의 영화 ‘블레이드 러너’, 그리고 이번 주 학교 수업에서 다루었으며, 오늘 고전 문학 동아리에서 토론할 올더스 헉슬리의 <멋진 신세계(Brave New World)>도 그렇다.

역사는 단순히 과거의 기록이 아니다. 거기에는 오늘의 관점에서 재발견해야 하는 역사서의, 그리고 역사가의 메시지가 담겨 있다.  S.F.도 그러하다. 그것은 단순히 미래에 관한 상상의 산물이 아니다. 거기에는 오늘의 관점에서  재해석되어야 하는 작품의, 작가의 메시지가 담겨 있다.

탁월한 S.F.는 현대 사회에 대한 철학이며 윤리학이고 사회학이다. 거기에는 인간과 사회의 본질, 인간과 사회가 지향해야 할 가치와 규범에 대한 작가의 고뇌가 녹아있다. 청중은 거기에서 오늘날에 우리가 직면한 문제들에 대해 해답을 찾을 수는 없더라도 최소한 깊은 성찰의 기회를 갖게 된다.

수학으로부터, 그리고 뛰어난 메타포와 S.F.로부터 우리가 더욱 많은 지혜를 얻을 수 있었으면 좋겠다.

bravenewworld.covfin

 

 

(Bayes 학습)(13) 회귀분석에 대한 베이지언 접근(1)

아마도 가장 널리 사용되는 통계모형은 단연 회귀 모형(regression model)일 것이다. 독립변수가 하나 뿐인 단순회귀식(simple regression)을 가지고 간략히 복습해 보자. 고전적 회귀분석에 대한 기초가 확실하지 않으면 베이즈 회귀분석을 이해하기 어렵다. 문헌들이 고전적 회귀분석에 대한 지식을 전제하고 베이즈 회귀분석을 설명하기 때문이다.

회귀분석이 적용되려면 몇 가지 요건이 갖추져야 한다.

(1) 동질적 분산(Homogeneous variance): X의 모든 값에서 Y는 동일한 퍼짐(spread)의 정규분포를 갖는다. 다시 말하면, 조건부 확률분포 , , ..은 모두 동일한 분산 을 가진다(아래 그림을 참조). 이를 등분산성(homoscedasticity)이라고도 한다.

shafer-fig10_005

(2) 선형(Linearity):  각 Y 분포의 평균은 직선상에 위치한다(lies on a straight line).

모수(population parameters) 은 그 선을 규정하며(위 그림을 참조), 표본 정보로부터 추정된다.

(3) 독립(independence): 확률변수 는 통계적으로 독립적이다(statistically independent).

이 요건은 아래와 같이 오차항(error term, )를 가지고 표현할 수도 있다.

위 식은 관찰값 를 기대값()과 오차(e)의 합으로 표시하고 있다. 여기서 오차 는 독립적인 오차(independent errors)이며, 오차들의 평균(E(e))은 0이고, 분산은 이다(아래 그림 참조).

  그리고  은 모수로서 직접 측정될 수 없으며, 표본에서 얻은 정보()로 추정된다. 회귀모형의 추정에는 흔히 최소자승법(least squares method)이 적용된다.  최소자승법을 가지고 회귀 계수를 추정하기 위해서는 독립변수 X와 오차항(error term)이 통계적으로 상호 독립적이어야 한다(statistically independent).

SAMSUNG CSC

b0,, b는 다음과 방식으로 구할 수 있다.

이상과 같이 단순회귀모형의 예에서 보듯이 회귀분석은 모수나 예측에 대한 점추정값(point estimates)과 그것의 분산을 구하는데 초점이 맞춰져 있다. 반면에 베이즈 회귀분석(Bayesian regression analysis)은, 모수들을 위한 조건부 사후 확률분포(conditional posterior distribution)나, 모형을 위한 예측적 분포(predictive distribution)를 구하는데 초점이 맞춰져 있다. 물론 고전적 회귀분석이 추정하는 모수와 분산을 베이즈 회귀분석에서도 구할 수 있다.

더구나 베이즈 회귀분석은 고전적 회귀분석이 할 수 없는 분석도 수행할 수 있다. 그것은 하나의 분석모형에 여러 개의 다른 조사 결과를 투입해서 모수 추정이나 예측을 할 수 있다는 점이다. 어쩌면 그 점이야말로 베이즈 분석의 가장 큰 매력일지도 모르겠다. 이제 베이즈 회귀분석을 차근 차근 살펴보자.

(Bayes 학습)(12) 18세기 프랑스 파리의 여아출생비율

오래만에 다시 베이즈 공부로 돌아왔다. 예전에 공부한 것을 복습도 할겸 라플라스(Laplace)가 베이즈 정리를 이용해 구했던 18세기 프랑스 파리의 여아출생률(female birth rate) 계산을 생각해 보자.

라플라스에게 주어진 데이터는 1745년부터 1770년까지의 프랑스 파리의 출생 기록이었다. 그 기간 동안 총 출생(live births)은 493,472명이었고, 출생한 여아는 241,945명이었다. 물론 남아는 251,527명이었겠지.

이것을 라고 표기하자. 그리고 파리의 여아출생비율을 라고 하면, 이 되겠다. 비율이 0과 1사이라는 의미이다.

베이즈 정리에 따르면, 사후확률(posterior probability)은 우도(likelihood)와 사전확률(prior probability)의 곱에 비례하니 먼저 우도와 사전확률을 추정해야겠지.

우도(likelihood)는, 범주가 여아와 남아 둘 뿐인 비율이니 아래와 같이 이항분포(Binomial distribution)로 놓으면 되겠다.

그리고 사전확률은 라플라스의 예에 따라 아래와 같이 균일분포(uniform distribution)로 두자.

베이즈 공식을 적용해서 사후확률, 을 구하면 다음과 같다.

라플라스는 정규화(normalization)에 필요한 적분(분모)을 계산하기 위해 레온하르트 오일러(Leonhard Euler)가 1730년에 발견한 베타함수(Beta function)를 이용했다. 베이즈 목사는 하지 못했던 계산이지. 그렇게 하면 다음과 같은 사후확률이 구해진다.

간단하지? 그런데 사실은 그 뒷면에 아래와 같은 복잡한 계산이 있다.

위에서 Uniform(|0,1) = Beta(|1,1)임을 상기해라.  베타분포를 복습해 보면,

For parameters ,

오일러의 베타함수가 정규화를 위해서 다음과 같이 사용된다.

여기서 는 계승(factorial)의 연속적 일반화이다. 이 부분은 복잡하지만 네가 파이썬으로 처리할 수 있을 것이다.

파리의 여아출생비율로 돌아오면, 사후확률은 Beta(|1+241945, 1+251527)이다.

그리고 사후확률의 평균은,

즉, 여아출생비율은 49%로 추정된다. 남아출생비율은 당연히 51%가 될 것이다. 남아출생비율이 여아출생비율보다 다소 높다.

기존에 존재하던 증거나 믿음으로 추정되는 사전확률(prior distribution)이, 데이터와 모수의 관계를 이어주는 우도(likelihood)에 의해 업데이트되어 사후확률(posterior distribution)이 구해졌다. 이 사후확률 분포의 일차 모멘트가 평균이다. 하나의 모집단 비율을 베이즈 추론으로 구해보았다. 이는 가장 간단한 베이즈 추론의 경우가 되겠다. 이제 좀 더 복잡한 경우들을 다루어 보자.

참고문헌

Bob Carpenter. 2015. “Bayesian Inference and Markov Chain Monte Carlo.”

Surya Tapas Tokdar. 2013. “STA 250: Statistics Notes 7. Bayesian Approach to Statistics.” Book chapters: 7.2

 

(Bayes 학습)(11) 베이즈 추론의 역사

사십 대 여성이 정기 건강 검진의 일환으로 유방 엑스레이를 찍었다. 일주일 뒤 그녀는 유방암 검사 결과가 양성으로 나왔다는 통보를 받았다. 유방암에 관한 가족력도 없고 또 징후도 없는 그녀가 진짜로 유방암에 걸렸을 확률은 얼마일까?

나는 실제로 몇몇 의사, 간호사, 약사에게 물어 보았다. 80%, 60%, 30%, 10% 라고 대답했다. 모두 틀렸다. 그 확률은, 미국의 경우이기는 하지만, 3%에 불과하다!  그 확률은 아래의 베이즈 정리로 간단히 계산할 수 있다.

여기서 A는 유방 엑스레이 양성 반응이고, B는 유방암을 가지고 있음이다. 좌변의 P(B|A)는 유방 엑스레이 양성 반응이 나온 사람이 실제로 유방암을 가지고 있을 확률이다. 우변의 P(B)는 유방암을 가지고 있을 확률, P(A|B)는 유방암 환자가 유방 엑스레이 양성 반응이 나올 확률, 그리고 P(A)는 유방 엑스레이 양성 반응이 나올 확률이다.

미국에서 사십 대 여성 1만명 가운데 대략 40명이 유방암을 가지고 있다(유방암 발병 확률은 40/10,000이다). 그리고 유방암 환자가 유방 엑스레이 검사에서 양성 반응이 나올 확률은 80%이다. 그러면 그 40명 가운데 32명이 양성 판정을 받는다(그 확률은 32/40이다). 또한 유방 엑스레이 검사에서 양성 반응이 나올 확률은 10%이다(그 확률은 1,000/10,000이다).

이 수치를 위 공식에 대입해서 계산하면 다음과 같다.

3%이다. 간단하지만 매우 강력한 공식이다.

베이즈 정리라고 불리는 이 공식은 250여년 동안 역사적 퇴장과 등장을 반복하면서 살아남았다.  게다가 그 공식에 기반한 추론은 21세기에 다양한 분야에서 불확실성을 다루는 가장 강력한 도구가 되었다.

SAMSUNG CSC

이 책은 1740년대 영국의 토머스 베이즈 목사가 별로 자신없이 세상에 내놓았던 수학적 정리가 오늘날 온갖 학문과 현업 분야에서 불확실성을 다루는 강력한 도구로 떠오르기까지의 부침을 기록한 역사이다.

거기에는 숱한 영웅과 천재가 등장한다. 피에르 시몽 라플라스, 아서 베일리, 레너드 지미 새비지, 에드워드 몰리나, 앨버트 워츠 휘트니, 해럴드 제프리스, 데 피네티, 앨런 튜링, 잭 굿, 안드레이 콜모고로프, 존 튜키, 오스굿 쿠프먼, 제롬 콘필드, 앨버트 매단스키, 데니스 린들리, 로버트 오셔 슐라이퍼, 하워드 라이파, 프레더릭 모스텔러, 존 피냐 크레이븐, 에이드리언 래프터리, 저먼 형제, 에드리언 스미스, 앨런 겔팬드, 키스 헤이스팅스 등. 게다가 베이즈 추론을 없애버리려는 악당들(?)도 등장한다. 통계학을 공부한 사람이라면 누구나 그 이름을 기억할 로널드 피셔, 예지 네이만 등이 베이지언들의 공적으로 등장한다. 이 책에서 독자는 그 인물들을 딱딱한 수학자나 과학자가 아니라 생생한 인간으로 만나게 된다. 이 책의 첫번 째 뛰어난 점이다.

베이즈 접근은, 추론 과정에 연구자의 주관적 판단이 들어간다는 이유로 학계, 특히 통계학계에서는 철저하게 배제되었다. 베이즈 정리를 언급하면 대학에서 자리를 얻을 수 없을 정도였다.

반면에 실제 문제를 풀어야 하는 현업에서는 비교적 다양한 분야에서 수용되었다. 그러나 베이즈 접근이 본격적으로 대중화되기 위해서는 정적분 계산이라는 산을 넘어야 했다. 베이즈 정리의 분모에 적분이 들어가는데, 변수가 많아지면 그 계산은 종이와 연필, 계산자, 혹은 계산기를 사용해서는 거의 불가능했다.

다행히 1980년대 이후 한편으로 몇 명의 탁월한 학자들에 의해 그에 대한 해법이 발견되고, 다른 한편으로 컴퓨팅 환경이 급격히 향상하면서 비로소 대중화의 길이 열렸다. 1989년 발표된 마르코프 연쇄 몬테카를로(Markov Chain Monte Carlo, MCMC) 방법이 어려운 적분을 대체하게 되었다. 베이즈 추론이 계산의 악몽에서 벗어난 것이었다.

저자인 샤론 버치 맥그레인(Sharon Bertsch McGrayne)은 그러한 발전에 누가 어떻게 기여했는가를 어렵지 않게 기술하고 있다. 책에는 베이즈 추론을 위한 핵심적인 개념들과 절차들의 발견이 모두 망라되어 있다.

베이즈 추론과 관련된 수많은 사건들이 상세하게 기술된 점도 이 책이 흥미 진진하게 읽히는 이유이다. 드레퓌스 사건, 이차대전시 독일군 암호의 해독, 보험업계의 발전, 폐암 원인의 규명, 냉전시 소련 핵잠수함의 추적, 연방주의자 논고의 분석 등 신기한 스토리가 끝이 없는 듯이 이어진다. 이 책의 두번 째 매력이다.

6백쪽이 넘는 책이라 하루이틀 사이에 읽기는 힘들지만, 책을 한번 손에 잡으면 쉽게 놓을 수 없도록 이야기들이 박진감 넘치게 전개된다. 베이즈 추론에 관심을 가진 사람들, 베이즈 추론 자체에는 관심이 없더라도 학자의 삶에 대해 관심이 있는 사람들, 학문과 현업, 학문과 전쟁, 학문과 행정, 그리고 순수 학문과 응용 학문의 관계에 관심있는 사람들이라면 누구나 이 책으로부터 커다란 흥미와 교훈을 발견하게 될 것이다.

한 마디로 멋진 책이다. (2016/04/15/윤영민)

개울의 길이는?

“아빠, 깨끗한 개울을 따라 걸으니 기분이 정말 좋아요.”

함께 산책하던 막내가 즐거워한다. 2주일 전만 해도 상상할 수 없던 변화가 개울에 일어나고 있는 것이다.

“그런데, 호영아. 지금 우리가 걷는 이 개울의 길이가 얼마나 될 것 같으냐?”

“모르겠는데요. 재보지도 않고 그걸 어떻게 알아요.”

“내가 보기에 3km에서 약간 부족할 것 같다. 2.6km에서 2.8km 정도 될 것이다.”

“어떻게 알아요?”

“집 앞  빨랫터에서 이 개울이 끌나는 문화센터까지의 직선 거리가 900m 정도 된다. 거기에 (3.14)를 곱하면 개울의 길이를 구할 수 있다. 농수로로 쓰기 위해 직선으로 만든 부분을 감안해서 100m정도 빼주면 더 정확할 것이다.”

“그런데 왜 를 곱해요?”

“수학자들의 발견에 의하면 완만한 경사를 흐르는 강의 길이는 직선 거리의 이다. 몽골 초원의 구불구불한 강들을 상상하면 될 것이다.”

“오, 재밌네요.”

“그렇지? 수학자들은 세상에 존재하는 온갖 법칙을 찾아서 공식으로 표현하려고 한단다. 우주가 수학적 법칙으로 움직인다고 믿는 것이지.”

“이제 포크래인을 가지고 개울 바닥에 깊이 묻힌 무거운 쓰레기만 치우고 나면 우리 개울은 세상의 어느 나라의 개울 못지 않게 깨끗해질 것이다. 그런 다음에는 우리가 산책할 때 집게와 쓰레기 봉투를 들고 새로 버려진 쓰레기를 수시로 치우면 된다. 그러면 “깨진 유리창의 법칙”에 따라 개울이 아주 말끔하게 유지될 것이다.” 

개울청소1
가장 멋진 곳일수록 쓰레기가 많았다. 쓰레기를 치워놓으니 개울의 정겨움이 되살아난다. 4월 11일 오전의 모습이다.
개울청소2
개울에서 건져낸 쓰레기가 다양하다. 전국 도시주변 농촌의 개울이 비슷한 상태이지 않을까?
개울청소3
면사무소가 노인일자리 제도를 이용해서 10명 이상의 어르신들을 보냈다. 한 남자 어르신이 전신 장화를 신고 쓰레기를 건져내고 아주머니들이 건져낸 쓰레기를 마댓자루에 담았다. 이제 포크래인이 개울 바닥에 박힌 대형 쓰레기를 치우면 청소가 마무리될 것이다.
개울청소4
개울에서 가장 쓰레기가 많았던 곳이 깨끗해졌다. ‘국민성’이란 독재자들이 만들어 낸 신화일 뿐이다. 우리도 일본이나 네덜란드만큼 깨끗한 환경을 충분히 가질 수 있다. “안된다”고 해버리면 결코 변할 수 없다. “된다고”고 믿으면 가능성이 열린다. 이웃과 자신을 믿고 실천에 나서면 면사무소도 군청도 움직인다.

라플라스, 수학이 자유를 주다

laplace-transform-2-638

피에르 시몽 라플라스(Pierre-Simon Laplace). 나의 새로운 역할 모형(role model)이다. 역할 모형을 갖기에는 너무 늦은 나이인가. 그는 1749년 3월 23일에 태어나 1827년 3월 5일 서거했다. 78세.

프랑스 혁명, 나폴레옹 전쟁 등 혁명과 반혁명, 그리고 전쟁이 번갈아 일어나던, 인류 역사상 가장 극심한 격변과 혼란의 시대에 그는 오래 살았다. 그런데 가장 부러운 부분은 그가 그렇게 오래 살았다는 점이 아니라(장수가 부럽지 않다는 말은 아니다), 그가 말년에도 학문적 성과를 계속 내고 있었다는 사실이다. 우리에게 익숙한 아래와 같은 베이즈 정리의 일반 공식을 발표한 것도 60세가 넘어서였다.

이 방정식을 말로 설명하면, 사건 가 발생했을 때 그것의 원인이 일 확률 는, 원인 가 주어졌을 때 사건 가 발생할 확률 에, 이것이 일어날 확률에 대한 최초의 추정치인 를 곱한 수를 가능한 모든 원인에서 사건 가 발생할 확률(사건 의 전체 확률)로 나눈 값과 같다.

뿐만이 아니다. 확률이론의 꽃이라고 할 수 있는 중심극한정리(Central Limit Theorem)을 발표한 것도 61세 때이다.

그리스 신화에서는 마이다스(Midas)가 손을 대는 것마다 모두 황금으로 바뀐다. 마찬가지로 라플라스가 손을 대는 것마다 모두 수학으로 바뀌었다. 수학 자체는 물론이고, 천체 역학, 물리학, 생물학, 지구과학, 통계학, 군사학, 인구학, 법학, 사회과학 그리고 신의 존재까지 그의 손을 거치면 모두 수학적 탐구 대상으로 바뀌었다.

오늘날의 관점에서 그의 전공이 무엇이었나고 묻는 것은 부적절하다. 그의 영혼은 결코 어느 한 학문 분야에 갇힐 수 없었다. 그의 호기심은 지칠 줄 몰랐고, 그는 수학이라는 도구를 가지면 세상의 어떤 문제에 대해서도 해답을 찾을 수 있으리라 확신했던 것 같다.

계량 사회과학의 발전에 가장 크게 기여한 사회학자로 간주되는 던컨(Odis Dudley Duncan)은 회고록에서, 자신이 평생 방법론을 공부했던 이유가 자유를 얻기 위해서였다고 밝혔다.

라플라스는 바로 그러한 자유인이 아니었을까. 전공이 무어냐는 물음이 모욕이 되는 학문적 유목민 말이다. 오늘날이라고 그런 유목민이 존재할 수 없을까.

디지털 시대의 사회조사 전문가

skopos_tmimatos

신입생들을 면담했더니 몇몇이 ‘사회조사분석사’라는 자격증에 관심을 보였다. 우리 학과 졸업생 중 사회조사분석사 자격증을 딴 학생들이 심심치 않게 눈에 띄는 걸 보면 그 자격증에 대한 학생들의 관심이 어제오늘이 아니었던 것 같다.

그런데 사실 나는 그 자격증의 실효성은 물론이고 시대적 적합성에 대해 무척 회의적이다. 사회조사방법과 사회통계학에 대한 지식을 테스트하는데 그 내용이 많이 낡았다. 기존에 개설된 관련 과목들을 제대로 수강했으면 누구나 합격할 수 있는 내용과 수준이다. 문제는 그것이 현장에서 사회조사자(social researcher)가 수행해야 하는 역할과의 불일치가 너무 심하다는 사실이다. (통계청 사이트의 사회조사분석사 검정자격기준을 참고하기 바람)

사회조사분석사가 1급과 2급으로 나누어 있듯이 사회조사자에도 다양한 수준이 있을 것이다. 하지만 오늘날과 같은 디지털 시대에 사회조사자가 갖춰야할 전문적 지식과 능력은 다음과 같지 않을까?

사회조사자는 (1) 무엇보다 주어진 과제를 연구문제(research question)로 번역할 수 있어야 할 것이다. 사회조사는 규칙적인 사회 현상(social regularities)에 관련된 의문이나 쟁점에 대한 해답을 얻는데 필요한 실증적 근거를 만들거나 찾는 작업이다. 규칙적인 사회현상에는 사회문제(social problems), 사회적 쟁점(social issues), 사회적 의문들(social questions), 혹은 사회학적 의문이나 쟁점(sociological questions or issues)이 포함될 수 있다. 사회현상에 대해, 왜 그럴까, 어떤 상태인가, 앞으로 어떻게 될까, 누구의 주장이 옳은가, 어떤 해법들이 있을까, 어떤 해법이 상대적으로 더 바람직한가 등에 대한 답을 제시하는데 있어 실증적 근거를 확보하는 것이 사회조사라고 할 수 있다.

최근 예측분석학(predictive analytics)에서 다루는 것 같은 개인의 행동에 대한 예측이 사회조사의 연구에 포함되어야 하는가는 논란이 될 수 있다. 전통적으로는 분명 아니다. 그러나 빅데이터 환경의 등장과 더불어 사회조사자가 ‘예측분석’ 능력을 갖추는 것은 거부할 수 없는 트렌드가 될 것으로 예상된다.

사회조사자는 (2) 주어진 의문과 여건 아래에서 무엇이 가장 효과적이고 효율적인 연구방법인지를 판단할 수 있어야 한다. 설문조사, 실험, 심층면접, 참여관찰, FGI, 델파이, 예측(forecasting), 이차분석(secondary analysis), 시나리오 플래닝(scenario planning) 등과 같은 전통적인 연구방법은 물론이고, 구글링(Googling), 모델링(modelling), 컴퓨터 모의실험(computer simulation), 집단지성, 데이터과학(data science), 사회연결망 분석(social network analysis) 등과 같은 새로운 연구방법이 고려되어야 한다.

사회조사자는 (3) 자신이 그러한 방법을 혼자서 수행하거나 타인이나 기관(혹은 기업)과 협업을 통해서 수행할 수 있는 능력이 있어야 한다. 모든 연구방법을 구사할 수 있는 사람은 없을 것이다. 중요한 점은 어떤 방식으로든 최선의 답을 얻어낼 수 있어야 한다는 것이다. 사실 오늘날 그것은 대부분의 경우 협업을 통해서 가능하다. 특히 해당분야 전문가, 통계학자, 수학자, 혹은 컴퓨터 프로그래머와의 협업이 필요하다.

흔히 제도는 변화를 따라오지 못한다. 제도의 장점이면서 동시에 단점은 쉽게 변하지 않는다는 사실이다. 안정적인 시대에는 제도가 힘을 발휘하지만 급변하는 시대에 제도는 시대착오적이 되곤 한다.

현재 사회조사분석사라는 제도가 후자에 해당되지 않나 싶다. 사회조사분석사가 디지털 시대에 있어 사회조사 능력을 보증하는 자격증이 되지 못하고 있다.

 

(Bayes 학습)(10) Monte Carlo simulation-사례

몬테카를로 방법을 좀 더 확실히 파악하기 위해 막내와 사례를 만들어 보았다. 한국청소년 정책연구원에 2003년부터 2008년까지 수행한 한국청소년패널조사(KYPS)(중2패널) 데이터를 다운로드 받아서 사용했다.

설문조사 중 다음 문항에 대한 응답자의 반응(2003년 것만 사용)을 선택해서 시뮬레이션에 사용했다. 이 시뮬레이션은 표집분포(sampling distribution)의 학습을 위한 것이다. 시뮬레이션으로 표집분포를 구해서 그것의 분포 모양이 표본의 크기에 따라서 그리고 표본의 갯수에 따라서 어떻게 변하는가를 확인해 보는 것이다. 물론 모수()도 근사해(approximate) 보았다. 몬테카를로 시뮬레이션은 파이썬(Python)으로 했고, 그림은 SPSS를 이용해서 그렸다.

33-1) 부모님과 나는 많은 시간을 함께 보내려고 노력하는 편이다.

1. 전혀 그렇지 않다   2. 그렇지 않은 편이다  3. 보통이다   4. 그런 편이다   5. 매우 그렇다

이 조사에 참여한 학생은 3,449명이다. 시뮬레이션 공부를 위해 그것을 표본(sample)이  아니라 모집단(population)이라고 가정한다.

그 가상 모집단의 응답을 보면, 평균()이 3.24, 표준편차()가 0.950이며, 그것의 분포를 그래프로 나타내면 아래와 같다.

population

다음에는 그 가상 모집단에서 크기가 5()인 무작위 표본을  뽑아서 평균()을 구하고, 그것을 1천번 반복하였다. 그 1천개의 를 가지고 표집분포를 그리고 거기에 정규분포 곡선을 적합해 보았다. 이 표집분포의 평균은 3.2466이고 표준편차는 .43589이다. 이 표집분포는 그런대로 정규분포에 근접하고 있다.

sample5

이번에는 동일한 크기의 표본을 3천개를 뽑았다. 평균은 3.2381이고, 표준편차는 .43484이다. 즉, 평균보다 표준편차에 좀 더 큰 변화가 보인다.

sample5_3000

다시 동일한 크기의 표본을 5천개 뽑았다. 그 표집분포의 평균이 3.234이고, 표준편차는 .42823이다. 표준편차에는 별로 차이가 없는데, 평균은 또 좀 달라졌다. 한 눈에도 전체적으로 정규분포 곡선에 더욱 잘 적합하고 있음을 알 수 있다.

sample5_5000

다음에는 크기가 10인 표본을 1천개 무작위로 뽑아서 동일한 방식으로 표집분포를 구했다. 이 표집분포의 평균은 3.2492이고, 표준편차는 .30629이다. 평균은 거의 차이가 없는데 표준편차가 줄었다. 분포의 모양은 위의 것과 육안으로 구분이 잘 가지 않으나 아래 축을 자세히 보면 의 변동폭이 많이 좁아졌음을 알 수 있다. 범위가 1.00-5.00에서 2.00-4.50으로 좁아졌다.

sample10

동일한 크기의 표본을 3천개를 뽑았다. 그 표집분포의 평균은 3.2361이고, 표준편차는 .28998이다. 표집분포의 모양이 더욱 정규분포 곡선에 잘 적합한다.

sample10_3000

다시 동일한 표본을 5천개 뽑았다. 그 표집분포의 평균은 3.2364이고, 표준편차는 .29644이다. 평균은 거의 변화가 없고, 표준편차가 다소 변했다. 표집분포의 모양은 더욱 종 모양의 정규분포 곡선에 근접한다.

sample10_5000

그래서 이번에는 크기가 20인 무작위 표본을 1천개 뽑아서 동일한 방식으로 표집분포를 구했다. 이 표집분포의 평균은 3.2363이고, 표준편차는 .20441이다. 역시 평균은 그다지 차이가 없으나 표준편차가 현저하게 줄어들었다. 의 변동폭이 2.75-3.75로 일 때보다  좁아졌다.

sample20

동일한 크기의 표본을 3천개 뽑았다. 그 표집분포의 평균은 3.2383이고, 표준편차는 .21841이다. 평균은 변화가 없고, 표준편차는 미세하게 변했다. 종 모양에 더욱 가까워졌다.

sample20_3000

다시 동일한 크기의 표본을 5천개 뽑았다. 그 표집분포의 평균은 3.2376이고, 표준편차는 .21286이다. 평균과 표준편차가 3천개의 경우와 거의 다르지 않다. 그런데 표집분포의 모양은 지금까지 살펴본 것들 중 정규분포 곡선에 가장 잘 적합하다.

sample20_5000

마지막으로 이번에는 동일한 크기()의 표본을 1만개를 뽑았다. 그 표집의 평균은 3.2371이고, 표준편차는 0.21196이다. 아주 예쁜 종 모양의 분포이다.

sample20_10000

이상의 몬테카를로 시뮬레이션을 통해서 얻은 결과를 종합해보면, 1) 모집단 평균의 근사에 영향을 미치는 요소는 표본의 갯수이다. 그러나, 그 갯수가 어느 정도를 넘어가면 표본의 갯수를 증가시켜도 별로 차이가 없다. 2) 표집분포의 표준편차를 결정하는 중요한 요소는 표본의 크기이다. 표본의 크기가 20 정도 되니 상당히 정밀한 표집분포를 얻을 수 있다. 3) 표본의 갯수가 크게 늘어나면(1,000개에서 10,000개까지 늘려 보았다), 평균과 표준편차에는 별로 변화가 없고, 표집분포가 점점 매끄러운 모양으로 정규분포 곡선에 근사한다.

이 마지막 사례를 갖고 조금 놀아보자. 이것은 20명 크기의 표본()을 10,000개 뽑아서 그것들의 평균()으로 만든 표집분포(sampling distribution)이다. 사실 이 표집분포도 하나의 표본이라고 생각할 수도 있다. 실제로 동일한 크기의 표집분포를 몇 개 구해보면 표집분포의 평균과 표준편차가 조금씩 달라지는 것을 볼 수 있다. 평균()도 하나의 확률변수이고 평균들의 평균()도 하나의 확률변수인 것이다. 그러한 표집분포를 1천개를 뽑아서 그것들의 평균()으로 만든 표집분포를 만들어 볼 수도 있을 것이다. 그러면 그것은 평균들의 평균들로 이루어진 표집분포가 될 것이다. 그러면 그 표집분포의 평균은 , 즉, 평균들의 평균들의 평균이 될 것이다.

이러한 몬테카를로 시뮬레이션은 잠깐 동안에 시행할 수 있다. 컴퓨터 환경이 열악했던 30년 전에는 상상하기 어려웠던 일이다. 지금은 프로그래밍만 좀 해주면 PC만 가지고도 그러한 시뮬레이션 놀이가 가능하다. 무한대()라는 개념을 감각적으로 느낄 수 있는 시대가 온 것이다!

그나저나 이 자료에 따르면 부모님과 함께 가급적 시간을 보내려는 청소년들이 그렇지 않은 청소년들보다 많은 것 같아 다행스럽다. 부모와 자식이 자리를 함께 해야 대화를 하게 되고, 대화를 해야 서로에 대한 이해가 깊어질 것이기 때문이다.

(막내가 아빠의 집요한 프로그래밍 요구에 응하느라 수고한다. 덕분에 공부는 좀 되겠지만.)