대학 사회통계 입문, 무엇을, 어떻게 가르칠 것인가?

introductory social statistics에 대한 이미지 검색결과

1) 가장 중요한 점은 학생들에게 “나도 통계를 할 수 있다”는 자신감을 심어주는 일이다. 사회과학 전공자들 중 수포자가 많다. 그들도 통계학이 중요하다는 사실은 안다. 도전할 자신이 없을 뿐이다.

대학 수업이 그들에게 새로 출발할 기회를 주어야 한다. 중고등학교에서 배운 지식을 전제로 가르치기보다는 필요한 부분은 중고등학교 수준부터 더 쉽고 자상하게 가르치는 게 바람직하다. 단, 한 명이라도 더 통계에 흥미를 느끼게 해야 한다.

기초통계 정도는 4년제 대학 학생이면 누구나 충분히  잘 배울 수 있고 사용할 수 있다. 통계를 포기하면 학생들이 좋은 직장의 절반을 포기해야 함을 명심하자. 

2) 초급 통계에서 가설 검증이나 회귀분석까지 다루지 않아도 될 것이다. 학생들 다수를 수업에 따라오게 하면서 한 학기에 그것까지 하기는 무리이다. 그래야 진도에 여유가 있다. 그리고 사실 현업에서 가설 검증나 회귀분석까지 하지 않아도 기술통계만으로도 업무를 충분히 멋지게 처리할 수 있다. 빅데이터 시대에는 특히 그렇다.

3) 매주 퀴즈를 시행한다. 퀴즈는 학생들이 꾸준히 공부하게 하는 방법이며, 또한 교수자가 학생들이 지난 주 수업을 잘 이해했는 지를 파악하는 효과적인 방법이기도 하다. 만약 다수의 학생이 전주의 수업을 이해하지 못했다고 판단되면 보충 수업을 해서 학생들의 이해를 끌어올려야 할 것이다.

수강생의 10%가 퀴즈에 실패하면 학생들 자신의 책임이 클 지 몰라도 수강생의 30% 이상이 퀴즈를 맞추지 못하면 교수자의 잘못이라고 판단하는 게 옳다. 철저히 준비해서 다시 가르쳐야 한다.

교수자 자신의 지식을 전달하는 것이 교육은 아니다. 교육은 학습자가 목표로 하는 지식과 능력을 습득했을 때 완성된다.  다수의 학생들이 교수자의 강의를 알아듣지 못하면 그것은 전적으로 교수자의 실패이다. 인터넷을 뒤져보면 통계를 쉽게 가르치는 데 보탬이 되는 자료가 수두룩하다. 선진국의 학교들에서 한 명의 학생이라도 더 알아듣게 하기 위해서 얼마나 다양한 자료를 사용하는 지 모른다.

통계 교육에서는 특히 시뮬레이션 방법이 효과적이다. 웹사이트나 유튜브에서 시뮬레이션 자료를 찾든 지 아니면 스스로 개발해야 할 것이다.

4) 테크니컬한 부분의 설명에만 그쳐서는 안된다. 학생들이 현실의 맥락에서 그것의 쓰임새를 인식하면서 수업에 임하도록 유도해야 한다. 학생들은 지식의 현실 적용가능성을 절실히 느낄수록 더 열심히 공부한다. 통계 수업에서 학생들의 학습 동기와 몰입은 크게 두 가지에 의해 좌우된다. 그것은 해당 지식의 필요성에 대한 인식지식 습득에 대한 자신감이다.

5) 기술통계를 제대로 활용하는 능력을 기르는데 정성을 기울여야 한다. 간단한 통계라도 정확히, 능숙하게 사용할 수 있게 해주어야 한다. 이상치(outlier)를 발견하는 박스플롯, 분포의 모양을 추정하는 히스토그램, 두 변수의 관계를 보여주는 산포도, 이동평균이나 기하평균, IQR, 사분위수, 백분위수, 확률변수, 확률분포, 조건부 확률, 베이즈 정리, 이산확률분포, 연속확률분포, 이항분포, 정규분포, 표준정규분포, z-값, 상관계수 등을 제대로 이해하고 현실 문제를 해결하는 데 사용할 수 있게 훈련시켜야 할 것이다.

6) SPSS나 SAS 같은 통계전용 프로그램 대신에 MS 엑셀을 사용하는 편이 다수의 학생들에게 도움이 될 것이다. 그리고 학생들이 엑셀 사용에 흥미 있어 한다는 사실도 중요하다. 교수에게 편한 도구가 아니라 학생들에게 유익한 도구를 채택해야 한다.

엑셀은 편리하고 유용할 뿐 아니라 SPSS로 할 수 있는 어떤 통계 분석도 가능하다. 마치 SPSS를 써야 전문적인 통계 분석을 할 수 있는 것처럼 행동하지 말자. 그것은 진실이 아니다. 엑셀에 추가 프로그램을 덧붙이면 모든 기초 통계 기법을 구현할 수 있다.

7) 학생들이 스마트폰 앱을 사용하는 방법에도 익숙하게 해주면 좋다. 엑셀, Probability Distributions 앱은 아주 유용하다. 학생들이 훗날 직장에서 바로 바로 통계 지식을 사용할 수 있으면 주위 동료나 상급자들에게 깊은 인상을 심어줄 수 있을 것이다.

클라우드 컴퓨팅 서비스와 스마트폰 앱만 잘 사용하면 즉시 업무에 관련된 공공 데이터를 불러와서 스마트폰으로 분석할 수 있다. 스마트폰에 모니터나 빔프로젝터를 연결하면 금상첨화이다.

8) 한편으로는 학생들이 초급 통계를 실제로 적용할 수 있게 훈련하고, 다른 한편으로는 학생들이 중급 과목을 잘 따라갈 수 있도록 기초를 다져주어야 한다. 조건부 확률과 베이즈 정리는 중급 이상에서 예측분석(predictive analytics)을 하는 데 필수적인 기초이다. 베이즈 정리에 확률분포만 결합하면 훌륭한 예측분석이 가능하다. 학률변수와 확률분포는 학생들에게 다소 어려운 주제이지만 좋은 사례들과 시뮬레이션 기법을 적절히 사용하면 효과적인 교육이 될 수 있다.

9) 끝으로 현실에서 가져온 연습 문제를 최대한 많이 풀어야 한다. 교수자에게 쉽지 않은 일이지만 학생들을 위해서는 생생한 실제 사례를 하나라도 더 소개해야 한다.  (윤영민, 2018-06-28)

확률변수와 확률분포(3)

이제 연속확률분포를 살펴보자. 확률변수가 실수이기 때문에 연속확률분포는 유형도 많고 적용 범위도 다양하다. 자주 사용되는 연속확률분포로는 균일확률분포(uniform probability distribution), 정규확률분포(normal probability distribution), 지수확률분포(exponential probability distribution),  분포( distribution),  분포(chi-squared distribution),  분포( distribution), 베타 분포(Beta distribution), 감마 분포(Gamma distribution), 멱함수 분포(power law distribution, Pareto distribution) 등이 있다.

균일확률분포는 단위 구간당 발생확률이 동일한 경우이다. 얼핏 보기에 그런 확률이 무슨 소용이 있을까 싶지만, 사실 아주 유용한 경우가 있다. 어떤 현상에 대한 정보가 매우 제한되어 있다면 그 현상을 균일확률분포로 가정할 수 있다. 어떤 현상에 대한 우리의 무지를 확률적으로 표현하면, 확률변수의 단위 구간당 발생 확률이 동일하다가 될 수 있다는 말이다. 균일확률분포는 베이지안 통계에서 매력적인 사전 확률분포(prior probability distribution) 후보이다. 지금까지 학교에서 주로 가르쳤던 빈도주의 통계학(frequentist statistics)에서는 별로 대우받지 못했던 균일확률분포의 위상이 베이지안 통계의 부상과  함께 달라지게 된 것이다.

표본값에서 모수를 추정하는 추리 통계학(inferential statistics)에서 정규확률분포가 차지하는 중요성이야 말할 나위도 없다. 표집분포(sampling distribution)가 정규분포를 이룬다는 점은 모수 추정을 가능하게 하는 핵심적인 이론적 근거 중 하나이다.

정규확률분포에서 확률변수를 표준화하면 표준정규확률분포가 된다. 아래는 정규확률밀도함수이다.

이 정규확률함수를  를 통해 를 로 정규화하면 평균이 0, 표준편차가 1인 표준정규확률밀도함수를 얻는다.

표준정규확률분포는 “bell curve”라고 불리며, 그것의 데이터 분포가 알려져 있다. 아래 그림에서처럼 어떤 현상이 표준정규확률분포를 이룰 경우 전체 데이터의 68.2%가 평균을 중심으로 1 표준편차 범위 내에 있으며, 전체 데이터의 95.4%는 2 표준편차의 범위 내에, 전체 데이터의 99.7%는 3 표준편차의 범위 내에 있다.

 

standard normal distribution에 대한 이미지 검색결과

이 밖에 통계적 추론에는 카이자승분포, t분포, F분포가 자주 사용되고, 베이즈 추론에는 베타와 감마 분포가 자주 사용된다. 그 분포들에 대한 설명은 생략한다.

예제를 하나 보자. 국내 대기업의 주식형 펀드에 대한 평균 수익률은 2009-2011년 3년간 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자. 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은?

해제:   (Probability Distributions app. 이용)

(윤영민, 2018-06-19)

확률변수와 확률분포(2)

앞 포스팅에서 확률변수가 무엇인지를 알아보았다. 이제 확률분포와 확률함수에 관해 살펴보자.

확률변수는 이산적 확률변수(discrete random variable)와 연속적 확률변수(continuous random variable)로 나눌 수 있다. 이산적 확률변수는 0, 1, 2, 3과 같은 정수의 값을 가지며, 연속적 확률변수는 소수점의 값을 포함하는 실수의 값을 가진다. 확률변수가 그 두 가지 중 어느 것에 속하는가에 따라 확률의 의미와 계산 방법이 크게 달라진다.

이산적 확률변수는 확률변수의 각 값이 발생 확률을 갖지만, 연속적 확률변수는 특정 값의 발생 확률은 0이다. 연속적 확률변수는 확률변수가 특정 구간에 속할 확률만을 계산할 수 있다.

예컨대 필자가 가르치는 사회통계 과목은 상대평가이다. 그 과목에서 어떤 학생이 A+를 받을 확률은 10%, A0를 받을 확률은 15%이다. 등급(letter grade)은 이산적 확률변수이다. 그러나 그 학생이 기말시험에서 90점을 받을 확률이나 80.5점을 받을 확률은 모두 0이다. 취득점수(score)는 연속적 확률변수이다. 만약 확률을 계산하고 싶으면,  90점 이상 받을 확률(), 80점 이상 90점 미만을 받을 확률() 처럼 확률변수의 구간을 정해주어야 한다.

이산확률변수은 확률변수의 확률과 확률분포를 생성하는 확률함수를 갖는다. 반면에 연속확률변수는 확률변수의 구간 확률과 확률분포를 생성하는 확률밀도함수(Probability Density Function, PDF)를 갖는다.

이산확률변수가 이루는 이산확률분포에는 이항확률분포(binomial probability distribution), 포아송 확률분포(Poission probability distribution), 초기하 확률분포(hypergeometric probability distribution), 기하확률분포(geometric probability distribution) 등이 있다. 

이항확률분포는 이항실험(binomial experiment)과 연관되어 있다. 이항실험은 네 가지의 특성을 갖고 있다. 

  1) 실험은 n개의 동일한 시행으로 구성된다.

  2) 각 실험은 두 가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.

  3) 성공 확률은 p이며 반복실험에서 변하지 않는다. 

  4) 각 실험은 독립적으로 행해진다.

위에서 1번을 제외한 세 가지 특성을 가진 실험을 베르누이 시행(Bernoulli Trial)이라고 한다. 베르누이 시행을 반복하면 이항실험이 된다. 이항확률함수는, 

    여기서  = n회 시행에서 성공의 횟수가 x일 확률; x = 성공횟수; n = 시행 횟수;  p = 각 시행에서 성공이 일어날 확률; 1-p = 각 시행에서 실패가 일어날 확률;

이항확률분포의 기대값과 분산

포아송분포는 이항분포와 성격이 비슷하나, 시행횟수 n이 크고, 사건의 발생(성공) 확률 p는 매우 작은 경우에 사용된다. 포아송 확률함수는,

여기서  = 구간에서 x회 발생할 확률; (람다) = 구간에서 발생횟수의 기대값 또는 평균(이다); 

포아송 분포의 기대값과 분산


초기하 확률분포도 이항분포와 관계가 있다. 성공할 확률이 매회 동일할 경우(상호 독립적인 사건)는 이항분포를 이용하고, 동일하지 않을 경우(상호 종속적인 사건)는 초기하분포를 이용한다. 즉, 같은 실험에서 복원추출을 하는 경우나, 표본추출을 하는 모집단의 크기가 무한한 경우는 이항분포를 사용하고, 비복원추출인 경우나 모집단의 크기가 작은 경우는 초기하분포를 사용하여 확률을 구한다.

기하확률분포는 단 한번의 성공을 위해 실패를 거듭해야 하는 경우에 사용한다. x-1번까지는 계속 실패를 하고, x번째에 비로소 성공할 확률은 다음과 같이 구할 수 있다.

몇 가지 사례를 보자.

(이항확률분포) 한 개의 동전을 4번 던졌을 때 앞면이 나오는 횟수가 2회일 확률은 얼마인가?

n = 4, x = 2, p = 0.5

실제 계산은 스마트폰 앱 Probability Distributions로 수행할 수 있다. 답은 0.37500 이다.

(포아송확률분포) 주중 아침 15분 동안 자동차를 탄 채로 은행 서비스를 받기 위해 창구에 도착하는 자동차 대수에 관심이 있다고 하자. 과거의 자료로 볼 때 15분 동안 도착하는 자동차는 평균 10대이라고 하자. 경영자가 15분 동안에 5대가 도착할 확률을 알고 싶어한다. 그 확률을 계산해 보자.

, x = 5.

(초기하 확률분포) 온타리오 전기는 전기 퓨즈를 생산한다. 한 박스에는 12개의 퓨즈를 넣는다. 검사자는 박스에 들어있는 12개의 퓨즈에서 무작위로 3개를 뽑는다. 박스에 5개의 불량품이 있을 경우 검사자가 3개의 퓨즈 중 불량품 1개를 뽑을 확률은 얼마인가?

N(모집단의 갯수) = 12, n(시행횟수) = 3, M(모집단에서 성공원소의 갯수) = 5, x(성공 횟수) = 1

(기하확률분포) 한 개의 동전을 던져서 앞면이 나올 확률은 1/2이다. 동전을 던질 때 다섯 번째 비로소 앞면이 나올 확률은 얼마인가?

(윤영민, 2018-06-18)

확률변수와 확률분포(1)

학생들에게는 ‘확률’이라는 표현이 다소 혼란스럽다.  사실 그것은 배우는 학생들이 아니라 통계학자들 때문이다.

확률은 때로 probability를 의미하고, 때로 random을 의미한다. 그 두 단어가 서로 밀접하게 관련되어 있지만 동의어는 아니다. 확률(probability), 확률 분포(probability distribution), 확률 함수(probability function)의 경우는 확률이  probability를 의미하고, 확률적(stochastic) 혹은 확률 변수(random variable)의 경우는 확률이 randomness(무작위)를 의미한다. 전자인 probability는 어떤 현상이 발생할 가능성을 표현한 수치이고, 후자인 random 혹은 stochastic은 우연적 혹은 무작위적이라는 뜻이다. 이러니 학습자들이 충분히 혼란스러워할만 하다.

우리가 어떤 현상을 확률적이라고 말하면, 그 현상이 우연적으로 결정되는 현상, 다시 말해, 인위적으로 결정될 수 없는 현상임을 의미한다. 동전 던지기나 주사위 던지기가 확률적 현상의 가장 흔한 사례가 될 것이다. 동전 던지기의 결과는 누군가의 의지나 기분 혹은 음모에 의해 결정되지 않는다. 주사위 던지기의 결과도 마찬가지이다.

확률 변수(random variable)에서 확률은 그런 의미이다. 수학에서 변수(variable)란 2개 이상의 값을 가질 수 있는 문자를 말한다. 변수는 흔히  등으로 표현된다. 변수의 반댓말은 상수(constant)이다. 상수는 하나의 고정된 값만 갖는 문자이다. 흔히 로 표시된다.

random variable에 대한 이미지 검색결과

그런데, 확률 변수는 특별한 속성을 지닌 변수이다. 즉, 확률 변수의 값은, 어떤 결과가 나올 지 정해져 있지 않은 어떤 과정–그것을 확률 과정(random process) 혹은 통계적 실험이라고 한다–을 통해 결정된다. 동전 던지기를 상상하면 된다. 때문에 확률 변수의 각 값은 특정한 확률을 갖고 있다. 예컨대 하나의 동전을 던졌는데, 앞면이 나올 확률(그것은 0.5이다), 혹은 두 개의 동전을 던졌는데, 두 개 모두 앞면이 나올 확률(그것은 0.25(0.5*0.5)이다)처럼 말이다.

여기서 두 개의 동전을 던지는 경우만 생각해 보자. 동전 던지기는 바로 확률 과정이고, 그 결과인 앞면의 갯수는 확률변수이다. 동전 던지기의 결과는 정해져 있지 않으면 누군가의 의지나 기분에 따라 결정되지 않는다. 그리고 앞면의 갯수(라고 하자), 즉, 확률변수의 값은 이다. 그리고 각 값은 특정한 확률을 갖고 있다.  앞면이 두 개가 나올 확률 는 0.25, 한 개가 나올 확률 은 0.5, 하나도 나오지 않을 확률은 은 0.25이다. 그리고 그 세 값의 확률을 더하면 1.0이다.

‘어떤 학생이 기말시험에 대비해 공부할 시간’은 변수이지만 확률변수는 아니다. 그것은 그 학생의 의지나 기분에 의해 좌우될 수 있기 때문이다. 어떤 자동차 세일즈맨이 하루에 파는 자동차 댓수는 확률변수일 것이다. 자동차의 판매 결과가 본인의 의지로 결정되지 않기 때문이다.

세상사에는 확률변수가 많다. 다시 말해 결과가 우연에 의해 결정되는 사회 현상이 많다. 그리고 사람들은 때로 우연에 희망을 걸기도 한다. 복권이 잘 팔리는 이유가 그 때문 아니겠는가. (윤영민, 2018-06-13).

트럼프, 문재인 그리고 김정은의 자아 표현 전략(2)

북한의 핵무기와 미사일 도전에 대한 트럼프 대통령의 초기 반응은 한 마디로 “죽을래? 끝장을 내버릴거야. 짜식, 까불고 있어” 였다. 전문가들은 북한의 ‘과격한’ 행동이 “미국과 대화를 하고싶다”, “자신들에게 관심을 가져달라는 신호”라고 해석했지만, 트럼프 대통령은 북한의 무력 따위는 안중에도 없다는 듯 자극적인 트윗을 쏘아올렸다. 그리고 북한에 대한 제재의 강도를 높여가도록 국제사회를 휘몰아갔다.

북한은 미국의 그러한 ‘협박’에 조금도 물러서지 않았다. 한편으로 트럼프 대통령의 위협적발언에 대해 모욕적 발언으로 대응하면서 다른 한편으로는 미국쪽 공해상을 향해 장거리 미사일을 쏘았다. 마치 이판사판 한판 붙어보자는 듯한 자세였다.

두 사람의 불놀이에 한반도는 한치 앞을 내다보기 어려운 위기 속으로 치달았다. 마치 누군가 금방이라도 핵단추를 누를 것만 같은 일촉즉발의 상황이었다. 그 가운데에서도 한반도 전문가들은 북한과 미국이 대화를 개시할 시점이 가까워지고 있다는 해석을 내놓았다.

정치는 명분과 실리를 두고 벌이는 게임이다. 특히 국가들 사이에 벌어지는 국제정치에서는 더욱 그러하다. 한 국가의 대표 선수(정상)의 한 마디 한 마디, 일거수 일투족이 그냥 나오는 법은 없다. 모두 관련국과 그 나라들의 대표 선수의 반응을 염두에 둔 계산적이고 전략적이라고 보면 된다. 게임의 목표는 승리일 때도 있지만 대부분의 경우 경쟁자를 압도하는 승리보다는 최대한의 명분과 실리를 챙기는 것이다. 정상들은 게임에서 명분과 실리를 거두기 위해 전략적으로 발언하고 행동한다.

대표 선수가 아무리 뛰어나도 팀 전체의 전력이 약하다면 게임을 이길 수 없다. 국제정치에서도 국력이 약하면 정상이 아무리 뛰어나도 마이너 리거를 벗어나기 어렵다. 그러나 운동 경기에서 대표 선수의 능력이 팀 성적의 중요한 요소이듯이 국제정치에서도 정상 요인(leader factor)은 대단히 중요하다. 동일한 국력이라도 뛰어난 지도자가 등장하면 국제정치라는 게임에서 훨씬 좋은 성과를 낼 수도 있다. 그래서 첨예하게 대립하는 국제정치 국면에서 정상의 전략적 자아표현(strategic self-presentation)이 주목받지 않을 수 없다.

오래 전에 발표된 Edward Jones와 Thane Pittman(1982)의 논문, “Toward a general theory of strategic self-presentation”은 현재 긴박하게 전개되는 트럼프, 문재인, 김정은 세 사람의 국가 지도자들 사이의 상호 관계를 바라보는데 유용한 시각을 준다. 조운스와 피트먼에 의하면, 전략적 자아표현이란, 사람들이 목표 인물(target person)로 하여금 자신에 대해 특정한 인상을 갖게 만듦으로써 그에 대한 자신의 영향력(power)을 강화하려고 하는 언행을 말한다. 세 정상이 내놓는 발언이나 취하는 행동이 딱 그런 전략적 자아표현에 해당된다.

그들에 의하면, 전략적 자아표현에는 크게 다섯 가지 유형이 있다. 환심사기(ingratiation), 겁주기(intimidation), 자기 PR(self-promotion), 모범화(exemplification), 간구(supplication)가 그것이다. 여러 가지 말, 표정, 행동이 환심사기에 속하지만, 특히 아부(flattery)가 대표적이다. 환심을 사려는 사람은 사랑받기를 원한다. 그들에 의하면, 어떤 구체적인 방법으로 환심을 사는가는 세 가지 요인에 의해 결정된다. 첫째, 목표 인물의 환심을 사는 것이 얼마나 중요한가, 둘째, 환심을 사는 데 성공할 가능성이 얼마나 높은가, 셋째, 환심을 사는데 사용되는 방법이 사회적으로 용인되는 것인가이다.

겁주기는 리스크가 큰 전략이다. 겁주기의 중심은 위협(threat)인데, 잘못 사용하면 상대를 굴복시키지 못한 채 상호 관계의 파국만 초래할 수도 있다.

자기 PR은 자신을 능력자로 보이려는 전략이다. 자기 PR이 성공하려면 정말로 자신이 주장하는 능력을 가지고 있음을 증명해야 한다.

모범화는 상대에게 자신을 성실한 사람, 훌륭한 사람이라고 인식시키려는 전략이다. 그것은 상대에게 자신을 보고 따라하게 하려는 시도이다.

끝으로 간구는, 자신이 도움이 절실한 사람이라는 인상을 주려는 전략이다. 흔히 아이들이 부모나 어른들로부터 관심이나 도움을 받고자 할 때 그 전략을 사용한다.

트럼프와 김정은의 상호 관계는 겁주기로 시작했다. 지난 1년 동안 북한이 내보낸 메시지를 종합해 보면, 현재 김정은이 절실히 희망하는 것은 자신과 북한의 안전 그리고 경제발전이다. 그런데 그 관건을 미국–현재로서는 트럼프 대통령–이 쥐고 있으며, 김정은은 그 점을 대단히 잘 알고 있음이 분명하다.

북한과 미국의 오랜 적대 관계를 생각할 때 트럼프의 관심을 끌기 위해 김정은이 선택할 수 있는 자아표현은 겁주기 외에 없었을 것이다. ICBM에 핵탄두를 실어서 미 본토를 공격할 수 있을 정도가 아니고 북한이 트럼프의 주요 관심 대상이 될 수 있었겠는가. 트럼프가 김정은과 햄버거를 먹으며 대화할 수 있다고 트윗을 날리고 김정은이 트럼프와 대화할 수 있음을 시사했을 때 과연 어느 언론사가 진지하게 그 말을 받았었던가.

미국과 북한이 험악한 말은 물론이고 미사일 실험과 제제 강화로 전쟁 분위기가 끝없이 상승하고 있을 때 한국의 국민과 대통령은 얼마나 공포에 떨어야 했던가. 미국과 북한이 전쟁에 들어가면 일차적, 그리고 최대의 피해자가 남한이 아니던가. 그 상황에서 국민의 생명과 재산을 보호해야 하는 남한의 대통령이라면 어떤 조치를 취해야 할까? 미국 ‘큰 형님’이 알아서 잘 해주길 넋놓고 기다리고 있을까?

지난 해 7월 미국 방문을 기점으로 문재인 대통령이 부지런히 움직이기 시작했다. 트럼프를 만나서 긴 회담을 하고, 베를린에서 평화를 지향하는 ‘신 베를린 선언’을 발표했으며, 중국에서는 ‘굴욕적인’ 대우를 받으면서도 시진핑 국가주석을 만났다. 필자는 이 과정에서 문 대통령이 모범화 전략을 취했던 것으로 해석한다. “신뢰할만한 지도자 나아가 자국민을 위해 간절하게 평화를 원하는 지도자”라는 인식을 트럼프, 시진핑 같은 주요 당사국 지도자들은 물론이고 심지어 김정은에게도 굳게 각인시켰던 것은 아닌가 생각된다.

문재인 대통령의 ‘눈물겨운’ 노력은 평창 올림픽을 통해서 효과가 나타나기 시작했다. 사실 그 지점에서는 미국과 북한도 대화 국면에 들어서야 하는 상황이었던 것으로 보인다. 전쟁을 일으키겠다는 입장이 아니라면 말이다. 그리고 미국도 북한도 그렇지는 않았고 그럴 수도 없었다.

사실 대화를 통한 북핵 문제 해결을 김정은 못지 않게 트럼프에게도 절실히 필요했다. 여러 가지 스캔들로 국내 정치에서 코너에 몰려 있는 트럼프 대통령으로서는 북핵 해결이 가을에 있을 중간 선거에서 승기를 잡게 해줄 묘약이 될 수 있는 것이다.

김정은은 신년사에서 평창 올림픽에 대표팀을 보내겠다는 의지로 남한에게 대화의 제스처를 보냈고, 핵무기 완성을 선언하면서 역설적으로 미국과의 대화 의사를 내보냈다. 평창올림픽은 미국과 북한, 즉, 트럼프와 김정은에게 대화를 시작할 명분을 주기에 충분했던 것으로 보인다.

이 때부터 문재인 대통령의 언사에 미묘한 변화가 생겼다. 자아표현 전략이 모범화에서 환심 사기로 전환되었던 것으로 판단된다. 한반도 대화국면 전환에 관해 트럼프 대통령에게 모든 공을 돌리는 모습, 그리고 김정은 위원장을 정중하게 대하는 모습은 때로 국민들이 “저렇게까지 해야하나”하는 측은지심이 느껴질 정도였다.

그 때 즈음해서 1년 전만 해도 누구도 예상치 못했던 파격적인 방식으로 트럼프 대통령과 김정은 위원장이 북핵 문제 해결에 적극 나서기 시작했다. 남북 정상이 만나고 북미 회담이 약속되고, 중국, 일본, 러시아 등 한반도를 둘러싼 나라들이 대화 국면에 하나 둘 동참하기 시작했다. 심지어 북한에 대해 가장 호전적이었던 아베 수상마저도.

모범화와 환심 사기를 결합한 자아표현 전략–의도적으로 그렇게 행동했는지 아니면 원래 그런 성격을 가졌는지는 알 수 없지만–으로 문  대통령은, 트럼프 대통령으로부터는 자신의 의사를 정직하게 김정은 위원장에게 전달할 수 있는 지도자로, 그리고 김정은 위원장으로부터는 트럼프 대통령에게 자신의 뜻을 가감없이 전달해 줄 수 있는 민족 지도자로 인정받았다고 생각된다.

문 대통령은 1년도 채 되지 않은 사이에 미국과 북한으로부터는 물론이고 세계 정치 지도자들, 그리고 언론인들에게, 평화를 사랑하는 지도자, 겸손한 지도자, 현명한 지도자, 그리고 집요한 지도자라는 놀라운 인식을 심는 데 성공했다. 로버트 라이시(클린턴 행정부 노동부 장관을 역임한 UC Berkeley 교수)는 자신의 페이스북에 문 대통령을 이렇게 극찬했다.

“Over the years, I have come across many presidents and prime ministers, and have worked with many of their governments. But rarely if ever have I witnessed someone as talented, intelligent, humble, and progressive as President Moon.”

한반도에서 평화를 향한 게임은 아직, 그리고 앞으로도 한참 동안 진행될 것이다. 그리고 그 과정에서 예상치 못한 우여곡절을 겪을 수도 있다. 70여 년 동안 지속되어온 적대와 불신이 어찌 단 시간내에 사라지겠는가. 부디 정치 지도자들이 현명한 말과 행동으로 한반도에 평화와 안정을 가져다 주길 기원한다. (윤영민, 2018-05-28)

조건부 확률, 곱셈법칙, 베이즈 정리(4)

(예제 3) 사십 대 여성이 정기 건강 검진의 일환으로 유방 엑스레이를 찍었다. 일주일 뒤 그녀는 유방암 검사 결과가 양성으로 나왔다는 통보를 받았다. 유방암에 관한 가족력도 없고 또 징후도 없는 그녀가 진짜로 유방암에 걸렸을 확률은 얼마일까? 

미국에서 사십 대 여성 1만명 가운데 대략 40명이 유방암을 가지고 있다(유방암 발병 확률은 40/10,000이다). 그리고 유방암 환자가 유방 엑스레이 검사에서 양성 반응이 나올 확률은 80%이다. 그러면 그 40명 가운데 32명이 양성 판정을 받는다(그 확률은 32/40이다). 또한 유방 엑스레이 검사에서 양성 반응이 나올 확률은 10%이다(그 확률은 1,000/10,000이다).

(풀이)

사건의 정의: B = 유방암 발병, P = 유방암 엑스레이 양성 결과

주변 확률:

조건부 확률: 

문제는  로 표시할 수 있다.

식 (1)의 우변에 있는 확률들의 값이 모두 있으므로 식 (1)에 대입한다.

이 결과를 말로 풀어 보면, 유방암 엑스레이 검사 결과가 양성이 나온 40대 여성이 실제로 유방암에 걸렸을 확률은 0.032, 즉, 3.2%밖에 되지 않는다.

 

(예제 4) 이메일의 스팸을 걸러내는 소프트웨어에는 베이즈 이론이 적용된다. 영어로 된 스팸메일에서 가장 많이 나타나는 단어가 shipping!이다. 스팸 메일 중 shipping!을 포함하는 메일의 비율은 0.051이고, 스팸이 아닌 메일에서 shipping!을 포함하는 메일의 비율은 0.0015이다. 그리고 많은 메일 중에서 10%가 스팸 메일이다. 만일 메일이 shipping!을 포함하고 있다면 스팸일 확률은? 만일 메일이 shipping!을 포함하고 있음에도 불구하고 스팸이 아닐 확률은? 만일 메일이 shipping!을 포함하고 있다면 스팸이라고 판명해야할까?

(풀이)

사건의 정의: Shipping = 메일에 shipping!이라는 단어가 포함됨, Spam = 스팸 메일

이 문제를 푸는 데 있어 첫번째 관문은, 여기서 “스팸 메일 중 shipping!을 포함하는 메일의 비율”이라는 표현을 확률적으로 정확히 번역해 내는 일이다. “그것은 “어떤 메일이 스팸일 때, 그 메일이 shipping!을 포함할 확률”로 번역된다. 아래와 같은 조건부 확률인 것이다.

조건부 확률: 

주변확률: 

원래의 문제는 다음과 같이 표시될 수 있다.

문제 풀이의 두 번째 관건은, 분모가 되는 shipping의 주변확률을 구하는 것이다. 주변확률은 관련된 결합확률들의 합이다. P(shipping)과 관련된 결합확률은 아래처럼 두 가지이다.

우변의 결합확률 각각을 곱셈법칙을  이용해서 주변확률과 조건부 확률의 곱으로 바꾼다.

이제 주변확률 을 구할 준비가 되었다.

위 식 (1)의 좌변에 해당 확률 값을 대입한다.

이 결과를 말로 풀어보면, 어떤 메일에 shipping!이라는 단어가 들어 있을 때 그 메일이 스팸일 확률은 0.7907이고, 스팸이 아닐 확률은 0.2093이다. 따라서 만약 어떤 메일에 shipping!이라는 단어가 들어 있다면 스팸이라고 분류하는 것이 좋을 듯하다. 그런 메일 중 약 80%가 스팸이기 때문이다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(3)

(예제 2) 서로 다른 두 납품업체(공급자 1과 공급자 2)로부터 원자재를 공급받는 제조회사가 있다. 현재 공급자 1로부터 65%의 원자재를 구매하고, 공급자 2로부터는 35%를 구매한다. 한편 그 동안 두 업체로부터 납품 받은 원자재의 품질은 아래와 같다.

 좋은 품질 비율(%)나쁜 품질 비율(%)
공급자 1982
공급자 2955

그런데, 제품 생산 과정에서 어떤 원자재가 불량으로 나타났다. 그 원자재가 공급자 1로부터 왔을 확률은 얼마이고, 공급자 2로부터 왔을 확률은 얼마인가?

(풀이)

사건의 정의: A1 = 공급자 1로부터 납품 받음, A2 = 공급자 2로부터 납품 받음, B = 나쁜 품질의 원자재, G = 좋은 품질의 원자재

이 문제는 데이터(정보)가 주변확률과 조건 사건의 조건부 확률(즉, 우도)로 제한되어 있기 때문에 결합확률표와 조건부 확률 공식을 사용하지 못하고 베이즈 정리를 이용해서 풀어야 한다.

이 문제 풀이의 첫 번째 관건은  표에 있는 데이터를 어떻게 해석할 것인가이다. 예컨대 공급자 1이 좋은 품질의 원자재를 납품할 확률은 98%이다. 이 진술은, 공급자가  1일 때(조건), 좋은 품질의 원자재일 확률(조건부 확률)이 0.98임을 말한다. [공급자가 1이면서 좋은 품질의 원자재를 납품할 확률(즉, 결합확률)을 의미하는 것이 아님에 유의. 실제로 결합확률이 그렇게 높이 나올 가능성은 거의 없음. 결합확률은 주변확률의 곱이기 때문이다.] 즉,

이 문제 풀이의 두 번째 관건은 주변확률, 를 구할 수 있느냐이다. 사실 베이즈 응용 문제에서, 분모에 들어가는 조건 사건의 주변확률을 구하는 것이 자주 풀이의 관건이 되곤 한다.

문제를 베이즈 정리 형식으로 표현해 보자. 어떤 원자재가 불량(나쁜 품질)일 때, 그 원자재가 공급자 1로부터 왔을 확률은 다음과 같이 표시할 수 있다.

우변에서 우리는, 임을 알고 있으니,  분모에 있는 B의 주변 확률을 구하면 된다. 주변 확률은 해당되는 결합확률을 모두 더한 값이다. 즉,

이다.

그런데 곱셈법칙에 의하면,

이 값을 식 (2)에 대입하면,

우리는 식 (2)의 우변에 확률값을 모두 알고 있다. 그 값들을 대입해서 를 구하자.

다시 식 (1)로 돌아가서 확률값들을 대입한다.

즉, 원자재가 불량일 때, 그것이 공급자 1로부터 왔을 확률은 0.426이다. 그렇다면 공급자 2로부터 왔을 확률은 1-0.426 = 0.574가 될 것이다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(2)

(예제 1) 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀 비율로 나타낸 자료이다.

 남자여자
승진28836324
승진 탈락672204876
9602401,200

1. 임의로 뽑힌 어떤 경찰관이 여성이다. 그가 승진할 확률은? 만약 그가 남성이라면 승진할 확률은?

2. 경찰관의 성별이 경찰관의 승진에 영향을 미친다고 생각되는가? 근거를 제시하시오.

(풀이)

사건의 정의: 여성 = F, 남성 = M, 승진 = P,  승진탈락 = N

이 문제의 경우 확률을 추정하는 데 필요한 데이터가 풍부하다. 때문에 조건부 확률 정리를 이용하여 문제를 풀 수도 있고, 베이즈 정리를 이용하여 문제를 풀 수도 있다. 두 가지 방법을 이용해서 풀고 결과를 비교해 보자.

먼저 주어진 데이터를 가지고 결합확률표를 구해 놓으면 효율적으로 문제를 풀 수 있다. 각 칸의 빈도를 경찰관 총수인 1,200으로 나누어 주면 다음과 같은 결합확률표를 얻는다.

 남자여자주변 확률
승진0.240.030.27
승진 탈락0.560.170.73
주변 확률0.800.201.00

결합확률

주변확률

이제 이 정보를 가지고 문제를 푸는 데 필요한 조건부 확률을 구할 수 있다.

1. 어떤 경찰관이 여성일 때 승진할 확률, 남성일 때 승진할 확률은 각각 아래와 같이 계산된다.

이 문제를 베이즈 정리를 이용해서 풀면 다음과 같다.

여기서 분자에 있는 를 모르기 때문에 조건부 확률 정리를 이용해서 그것을 먼저 계산한다.

이제 에 관해 풀 수 있다. (남성일 경우도 동일한 방법으로 계산할 수 있음)

(1)과 (2)를 보면 0.15로 같은 값임을 확인할 수 있다. 조건부 확률로 계산하면 간단한 것을, 베이즈 정리로 풀었더니 복잡하기만 하다. 만약 결합확률표를 구할 수 있으면, 이런 문제는 조건부 확률 공식만으로도 충분히 풀 수 있다. 그러나 만약 결합확률을 모르고 조건 사건의 조건부 확률[이것을 공산 혹은 우도(likelihood)라고 함]과 주변 확률을 아는 경우에는 베이즈 정리를 이용해서 계산한다.

2. 남성일 때 승진할 확률은 0.3이고, 여성일 때 승진할 확률은 0.15이니, 남성의 승진확률이 여성의 승진확률의 두 배이다. 경찰관의 성별이 승진에 영향을 주는 것으로 판단된다. 이 결론을 독립사건의 정리를 이용해서 도출할 수도 있다.

만약 경찰관의 성별이 승진에 영향을 미치지 않는다면, 승진의 주변확률(사전확률), 이 승진의 조건부 확률(사후확률),  혹은 과 같아야 한다. 즉,

그런데 곱셈법칙에 의하면,

여기서 이므로,

이다.

그리고 당연히 일 것이다.

두 사건이 상호 독립적일 때(mutually independent), 두 사건의 결합확률은 두 사건의 주변확률을 곱한 값이다. 경찰관 승진 자료를 가지고, 성별과 승진이 관련이 없다는 가정 아래 가상적인 결합확률표를 만들면 다음과 같다.

 남성여성주변확률
승진0.22(=0.8*0.27)0.05(=0.2*0.27)0.27
승진탈락0.58(=0.8*0.73)0.15(=0.2*0.73)0.73
주변확률0.800.201.00

표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.24이고, 표 3의 값은 0.22이다. 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 크다. 표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.03이고, 표 3의 값은 0.05이다. 즉, 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 작다.

남성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 높은 반면, 여성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 낮다. 따라서 데이터는 경찰관의 승진에 성차별이 존재함을 시사하고 있다고 결론지을 수 있다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(1)

상호 관련된(혹은 관련된 것으로 추정되는) 두 사건이 있을 때, 그 중 하나의 사건(사건 A라고 하자)이 발생하면 다른 하나의 사건(사건 B라고 하자)이 발생할 확률에 대해 이전(사건 A가 발생하기 전)보다 좀 더 잘 예측할 수 있을 것이다. 그러한 예측을 수학적으로 가능하게 해주는 지식이 조건부 확률, 곱셈법칙 그리고 베이즈 정리(Bayes’ Theorem)이다. 그 세 가지 법칙(혹은 정리)은 논리적으로 깊이 연관되어 있다.

다음과 같이 사건을 정의한다.

A: 사건 A의 발생, B: 사건 B의 발생

(조건부 확률) 사건 A의 발생 확률이 사건 B의 발생에 의해 영향을 받는다면, 두 사건의 발생확률 사이의 관계를 다음과 같이 나타낼 수 있을 것이다.

말로 풀어보면, 사건 B가 발생했을 때 사건 A가 발생할 확률–사건 A의 조건부 확률–은 사건 A와 사건 B가 동시에 발생할 확률–사건 A 와 사건 B의 결합확률–을 사건 B의 발생 확률–조건이 되는 사건 B의 주변확률–로 나눈 값이다.

(곱셈 법칙) 정리(1)에서 양변에 를 곱하고, 좌변과 우변을 이항하면 다음 결과를 얻는다.

말로 풀어보면, 사건 A와 사건 B가 동시에 발생할 확률–사건 A와 사건 B의 결합 확률–은 조건이 되는 사건 B가 발생할 확률과 사건 A의 조건부 확률의 곱이다.

(베이즈 정리) 확률의 교환법칙에 따르면,

그리고 우변에 곱셈법칙을 적용하면,

결합확률을 조건부 확률과 조건의 주변확률로 표현하기 위해 식(2)와 식(4)를 식(3)에 대입하면,

이 식의 양변을 로 나누면,

이 식이 베이즈 정리(Bayes’ Theorem)이다. 말로 표현하면, 사건 A의 조건부 확률은 사건 A의 발생 확률에 사건 B의 조건부 확률을 곱한 값을 조건 사건 B의 주변확률로 나눈 값이다.

이 정리는, 조건이 되는 사건 B의 발생을 기준으로 다르게 해석될 수 있다. 즉, 는 사전 확률(prior probability 혹은 간단히 prior)이며, 는 사후 확률(posterior probability 혹은 간단히 posterior)이다. 그리고 와 는 예측을 위한 데이터(혹은 정보)이다.

베이즈 정리는, 어떤 사건(여기서는 사건 A)과 관련된 사건(여기서는 사건 B)에 관한 데이터(혹은 정보)를 얻었을 때 그 사건(사건 A)에 대한 향상된 예측을 할 수 있게 해준다. 그 과정은  로 표현할 수 있다.

논의가 추상적이니 몇 개의 응용 사례를 가지고 조건부 확률, 곱셈 법칙, 베이즈 정리를 보다 구체적으로 살펴보자. (윤영민, 2018-05-25)

Marshall McLuhan과의 가상적 대화(4)

만리거사: 이제 선생님과의 대화가 종착역에 가까워졌습니다. 선생님과 저와의 대화에서 다른 분들은 무엇을 느꼈는지 잘 모르겠습니다만, 저는 큰 깨달음을 얻었습니다. 선생님과 제가 공감한 점은 새로운 시대가 대화의 시대, 참여의 시대라는 인식입니다. 선생님을 그것을 쿨미디어의 시대라고 규정하셨고, 저는 인간메시지의 시대라고 규정하였습니다. 다시 말해, 선생님은 참여를 강조하였고, 저는 의미를 강조했습니다. 그러나, 참여와 의미의 공통점이 바로 인간이라는 점에서 선생님과 제가 도달한 지점이 같다고 봅니다.

많은 사람들은 social media의 네트워크성에 주목합니다. 그래서 SNS라는 용어가 뜨고, 인맥이라는 말이 유행하고 있습니다. 그러나 네트워크는 손가락일 뿐입니다. 정작 그 손가락이 가리키는 것은 인간과 의미입니다. 네트워크를 쫓는 것은 잘해야 꽁무니를 쫓는 일이고 대개는 헛다리를 짚는 일입니다. 네트워킹은 수단일 뿐이지요.

아무튼 이 점이 이번 선생님과의 대화에서 제가 얻은 가장 큰 성과입니다. 이번 대화 덕분에 최근 Mark Zuckerberg의 행보에서 network에서 meaning으로의 이동이라는 변화를 읽어냈습니다. 지적 돌파구를 열 때는 항상 선생님 같은 대가와 붙는 것이 최곱니다. 바로 아이디어를 얻든 지, 아니면 비판 속에서 아이디어가 파생적으로 얻어질 수도 있거든요. 죄송합니다. 선생님의 지적 세계를 너무 거칠게 다루어서요. 이해해 주시길 부탁 드립니다. 제가 워낙 훈고학을 싫어해서요.

끝으로 한 가지만 더 말씀을 나누지요. 문화적 갈등에 관한 것입니다. 선생님은 문화적 갈등을 어떤 뜻으로 사용하셨나요?

McLuhan: 세상의 변화는 그냥 오지 않습니다. 항상 치열한 갈등을 수반하지요. 문화적 변화도 마찬가지입니다. 시각 문화(visual culture)에서 구두 문화(oral culture)로의 변화도 그렇습니다. 예컨대 학교는 죽어가는 인쇄문화인 선형적 사고와 시각적 가치에 포박되어 새로운 사고방식과 가치를 핍박하고, 새로운 세대들에게 “담벼락 없는 감옥”이 됩니다. 탈중앙화, 분산화 경향은 기존의 관료제도와 충돌합니다. 1960~70년대 저항문화와 지배문화의 충돌은 바로 그러한 문화적 갈등의 표출이지요.

만리거사: 좋은 말씀이십니다. 요즈음 저는 우리 사회에서 비슷한 문화적 갈등을 많이 봅니다. 참여적, 수평적 대화가 핵심인 새로운 문화와, 일방적, 수직적 커뮤니케이션이 근간이 된 기존 문화 사이에 치열한 갈등이 시작되었습니다. 아직도 우리 사회에는 일방적, 수직적 커뮤니케이션이 지배적입니다. 참여적, 수평적 대화가 차츰 확산되고는 있지만 아직 걸음마에 불과합니다. 지난 몇 년간 과거의 권위주의 문화가 다시 회귀하는 듯한 느낌입니다. 선생님이 말씀하신 “과거 문화의 복수”일 수도 있지요.
제가 마지막에 문화적 갈등을 들고나온 이유는, 기업이나 기관 조직 내부에서도 그렇고, 사회 전체적으로 보아도 문화적 전환이 심각한 갈등을 수반하지 않고 일어나지 않는다는 사실을 강조하기 위해서입니다.

이제 선생님과의 대화를 마치려고 합니다. 선생님께 충분한 발언 기회를 드리지 않고 거의 일방적으로 공격만 한 점, 진심으로 죄송하단 말씀 드립니다. 제 능력이 거기까지입니다. 선생님이 저의 무례를 기꺼이 용서해 주시리라 믿습니다. 선생님께서 이렇게 말씀하신 적이 있지요.

“내 책들은 발견의 완성된 산물이 아니라 발견의 과정을 구성한다”. 언제든 까 부셔도 좋다고요.

다시 영면하시길 빌면서 이만 줄입니다. <끝> (윤영민, 2018-05-17)