확률변수와 확률분포(3)

이제 연속확률분포를 살펴보자. 확률변수가 실수이기 때문에 연속확률분포는 유형도 많고 적용 범위도 다양하다. 자주 사용되는 연속확률분포로는 균일확률분포(uniform probability distribution), 정규확률분포(normal probability distribution), 지수확률분포(exponential probability distribution),  분포( distribution),  분포(chi-squared distribution),  분포( distribution), 베타 분포(Beta distribution), 감마 분포(Gamma distribution), 멱함수 분포(power law distribution, Pareto distribution) 등이 있다.

균일확률분포는 단위 구간당 발생확률이 동일한 경우이다. 얼핏 보기에 그런 확률이 무슨 소용이 있을까 싶지만, 사실 아주 유용한 경우가 있다. 어떤 현상에 대한 정보가 매우 제한되어 있다면 그 현상을 균일확률분포로 가정할 수 있다. 어떤 현상에 대한 우리의 무지를 확률적으로 표현하면, 확률변수의 단위 구간당 발생 확률이 동일하다가 될 수 있다는 말이다. 균일확률분포는 베이지안 통계에서 매력적인 사전 확률분포(prior probability distribution) 후보이다. 지금까지 학교에서 주로 가르쳤던 빈도주의 통계학(frequentist statistics)에서는 별로 대우받지 못했던 균일확률분포의 위상이 베이지안 통계의 부상과  함께 달라지게 된 것이다.

표본값에서 모수를 추정하는 추리 통계학(inferential statistics)에서 정규확률분포가 차지하는 중요성이야 말할 나위도 없다. 표집분포(sampling distribution)가 정규분포를 이룬다는 점은 모수 추정을 가능하게 하는 핵심적인 이론적 근거 중 하나이다.

정규확률분포에서 확률변수를 표준화하면 표준정규확률분포가 된다. 아래는 정규확률밀도함수이다.

이 정규확률함수를  를 통해 를 로 정규화하면 평균이 0, 표준편차가 1인 표준정규확률밀도함수를 얻는다.

표준정규확률분포는 “bell curve”라고 불리며, 그것의 데이터 분포가 알려져 있다. 아래 그림에서처럼 어떤 현상이 표준정규확률분포를 이룰 경우 전체 데이터의 68.2%가 평균을 중심으로 1 표준편차 범위 내에 있으며, 전체 데이터의 95.4%는 2 표준편차의 범위 내에, 전체 데이터의 99.7%는 3 표준편차의 범위 내에 있다.

 

standard normal distribution에 대한 이미지 검색결과

이 밖에 통계적 추론에는 카이자승분포, t분포, F분포가 자주 사용되고, 베이즈 추론에는 베타와 감마 분포가 자주 사용된다. 그 분포들에 대한 설명은 생략한다.

예제를 하나 보자. 국내 대기업의 주식형 펀드에 대한 평균 수익률은 2009-2011년 3년간 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자. 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은?

해제:   (Probability Distributions app. 이용)

(윤영민, 2018-06-19)

확률변수와 확률분포(2)

앞 포스팅에서 확률변수가 무엇인지를 알아보았다. 이제 확률분포와 확률함수에 관해 살펴보자.

확률변수는 이산적 확률변수(discrete random variable)와 연속적 확률변수(continuous random variable)로 나눌 수 있다. 이산적 확률변수는 0, 1, 2, 3과 같은 정수의 값을 가지며, 연속적 확률변수는 소수점의 값을 포함하는 실수의 값을 가진다. 확률변수가 그 두 가지 중 어느 것에 속하는가에 따라 확률의 의미와 계산 방법이 크게 달라진다.

이산적 확률변수는 확률변수의 각 값이 발생 확률을 갖지만, 연속적 확률변수는 특정 값의 발생 확률은 0이다. 연속적 확률변수는 확률변수가 특정 구간에 속할 확률만을 계산할 수 있다.

예컨대 필자가 가르치는 사회통계 과목은 상대평가이다. 그 과목에서 어떤 학생이 A+를 받을 확률은 10%, A0를 받을 확률은 15%이다. 등급(letter grade)은 이산적 확률변수이다. 그러나 그 학생이 기말시험에서 90점을 받을 확률이나 80.5점을 받을 확률은 모두 0이다. 취득점수(score)는 연속적 확률변수이다. 만약 확률을 계산하고 싶으면,  90점 이상 받을 확률(), 80점 이상 90점 미만을 받을 확률() 처럼 확률변수의 구간을 정해주어야 한다.

이산확률변수은 확률변수의 확률과 확률분포를 생성하는 확률함수를 갖는다. 반면에 연속확률변수는 확률변수의 구간 확률과 확률분포를 생성하는 확률밀도함수(Probability Density Function, PDF)를 갖는다.

이산확률변수가 이루는 이산확률분포에는 이항확률분포(binomial probability distribution), 포아송 확률분포(Poission probability distribution), 초기하 확률분포(hypergeometric probability distribution), 기하확률분포(geometric probability distribution) 등이 있다. 

이항확률분포는 이항실험(binomial experiment)과 연관되어 있다. 이항실험은 네 가지의 특성을 갖고 있다. 

  1) 실험은 n개의 동일한 시행으로 구성된다.

  2) 각 실험은 두 가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.

  3) 성공 확률은 p이며 반복실험에서 변하지 않는다. 

  4) 각 실험은 독립적으로 행해진다.

위에서 1번을 제외한 세 가지 특성을 가진 실험을 베르누이 시행(Bernoulli Trial)이라고 한다. 베르누이 시행을 반복하면 이항실험이 된다. 이항확률함수는, 

    여기서  = n회 시행에서 성공의 횟수가 x일 확률; x = 성공횟수; n = 시행 횟수;  p = 각 시행에서 성공이 일어날 확률; 1-p = 각 시행에서 실패가 일어날 확률;

이항확률분포의 기대값과 분산

포아송분포는 이항분포와 성격이 비슷하나, 시행횟수 n이 크고, 사건의 발생(성공) 확률 p는 매우 작은 경우에 사용된다. 포아송 확률함수는,

여기서  = 구간에서 x회 발생할 확률; (람다) = 구간에서 발생횟수의 기대값 또는 평균(이다); 

포아송 분포의 기대값과 분산


초기하 확률분포도 이항분포와 관계가 있다. 성공할 확률이 매회 동일할 경우(상호 독립적인 사건)는 이항분포를 이용하고, 동일하지 않을 경우(상호 종속적인 사건)는 초기하분포를 이용한다. 즉, 같은 실험에서 복원추출을 하는 경우나, 표본추출을 하는 모집단의 크기가 무한한 경우는 이항분포를 사용하고, 비복원추출인 경우나 모집단의 크기가 작은 경우는 초기하분포를 사용하여 확률을 구한다.

기하확률분포는 단 한번의 성공을 위해 실패를 거듭해야 하는 경우에 사용한다. x-1번까지는 계속 실패를 하고, x번째에 비로소 성공할 확률은 다음과 같이 구할 수 있다.

몇 가지 사례를 보자.

(이항확률분포) 한 개의 동전을 4번 던졌을 때 앞면이 나오는 횟수가 2회일 확률은 얼마인가?

n = 4, x = 2, p = 0.5

실제 계산은 스마트폰 앱 Probability Distributions로 수행할 수 있다. 답은 0.37500 이다.

(포아송확률분포) 주중 아침 15분 동안 자동차를 탄 채로 은행 서비스를 받기 위해 창구에 도착하는 자동차 대수에 관심이 있다고 하자. 과거의 자료로 볼 때 15분 동안 도착하는 자동차는 평균 10대이라고 하자. 경영자가 15분 동안에 5대가 도착할 확률을 알고 싶어한다. 그 확률을 계산해 보자.

, x = 5.

(초기하 확률분포) 온타리오 전기는 전기 퓨즈를 생산한다. 한 박스에는 12개의 퓨즈를 넣는다. 검사자는 박스에 들어있는 12개의 퓨즈에서 무작위로 3개를 뽑는다. 박스에 5개의 불량품이 있을 경우 검사자가 3개의 퓨즈 중 불량품 1개를 뽑을 확률은 얼마인가?

N(모집단의 갯수) = 12, n(시행횟수) = 3, M(모집단에서 성공원소의 갯수) = 5, x(성공 횟수) = 1

(기하확률분포) 한 개의 동전을 던져서 앞면이 나올 확률은 1/2이다. 동전을 던질 때 다섯 번째 비로소 앞면이 나올 확률은 얼마인가?

(윤영민, 2018-06-18)

트럼프 대통령에 대한 오해와 진실

에피소드 1) 오늘 아침 동아일보에 “트럼프, 무식이 화근이다”라는 컬럼이 실렸다. 그 글에서 그 신문의 논설위원은 “잘 모르는 상태에서 북핵 협상 열차에 덜렁 올라탄 트럼프“가 북미회담 이후 자신이 저지른 난감한 실수를 수습하느라 급급하고 있다고 진단한다.

에피소드 2) 오늘 아침 중앙일보에 실린 6.13 지방선거 결과에 관한 인터뷰에서 최장집 고려대 명예교수는 이런 언급을 했다.

“문 대통령이 용기 있게 새로운 대북 정책을 추구한 공이 있다. 문제는 불과 몇 달 전만 해도 보수·진보 모두 전쟁 위협을 느낄 정도로 걱정을 하는 상황이었다가 극적으로 반전됐다는 점이다. 도널드 트럼프 대통령이 이런 식으로 풀어나갈 거라곤 아무도 예상하지 못했다. 그런 점은 문재인 정부엔 행운이었다. 그러나 계획된 것이라기보다는 트럼프 대통령의 즉흥적인 결정의 결과물이다.”

과연 트럼프 대통령은 정말로 북핵문제에 관해 무지하고, 트럼프 행정부의 한반도 정책이 트럼프 대통령의 즉흥적 판단이 빚어낸 결과일까? 필자는, 이 두 개의 에피소드가 진보와 보수를 막론하고 우리 나라의 소위 오피니언 리더나 정치인들이 트럼프 대통령을 이해하지 못하고 있거나 아니면 그 미국 대통령의 언행에서 보고싶은 것만을 보는 오류에 빠져있음을 잘 보여준다고 생각한다. 정말 한심하기 짝이 없는 현상이다.

한 마디로 트럼프 대통령은 북핵 문제에 대해 ‘무지’하지도 않고, ‘즉흥적’으로 북핵 문제를 다루지도 않고 있다. 트럼프가 천재인지는 잘 모르겠지만 미국과 한국을 포함해서 대부분의 언론인, 정치인, 심지어 지식인보다 머리가 좋을 뿐 아니라, 여러가지 정황으로 볼 때 북핵에 관해 정보와 지식을 많이 갖고 있다고 추정하는 것이 그렇지 않다고 단정하는 것보다 훨씬 타당해 보인다. 트럼프 대통령을 조롱하는 것은 사실 그를 대통령으로 선출한 미국 국민과 미국 선거 제도에 대한 몰이해이고 모독이며, 세계 최고 수준이라는 미국 정보기관에 대한 모욕이기도 하다. 나는 개인적으로 트럼프를 옹호해야 할 이유가 전혀 없지만 적어도 민주국가에서 정당한 선거를 통해서 선출된 정상에 대해서는, 그것이 어느 나라이건, 존중해야 한다고 믿는다.

트럼프에 관한 여러 가지 정보와 정황을 종합해 볼 때 그의 언행에는 세 가지 입장이 투영되어 있다고 판단된다. 전통적 고립주의, 사업가적 실용주의, 새로운 방식의 정치 커뮤니케이션이 그것이다.

그는 공화당의 고립주의적 전통을 충실히 따르고 있다. 미국(혹은 미국인)의 사활이 걸린 경우를 제외하고는 대외 문제에 개입하지 말자는 입장이다. 그가 외치는 ‘미국 제일주의(America First)’는 그러한 전통을 표현하는 구호이다. 미국 기업들의 이익과 미국민들의 일자리와 번영이 정책의 지상 목표라는 말이다.

isolationism에 대한 이미지 검색결과

그러한 관점에서 트럼프 대통령에게 있어 미국 본토에 핵공격을 가할 수 있는 국가인 북한이 미국의 통제 밖에 있는 상황은 결코 용납될 수 없는 것이다. 그리고 만약 정치적인 방법으로 북핵 문제가 해결된다면 남한에 대규모의 미군을 주둔해야 할 이유가 없으며, 비용이 많이 드는 한미 군사 훈련도 계속할 이유도 없다.

그는 평생동안 부동산 개발업자로 살았다. 부동산 분야에서 비즈니스는 반드시 승패로 귀결되는 게임이 아니다. 피아가 분명하고 적을 죽여야 내가 사는 극단적인 제로섬 게임이 아니다. 내가 충분히 이익을 남길 수 있다면 경쟁자에게 이익이 돌아가도 무방하다. 그것은, 얻는 게 있으면 주기도 해야하는 하나의 거래이다. 또한 거래에서 최대한의 수익을 내기 위해서라면 위협, 허세, 속임수, 친근함, 칭찬이나 아부 같은 립서비스, 밀당, 정직 등 어떤 언행이나 태도도 구사할 수 있다. 이는 사업가적 실용주의라고 말할 수 있을 것이다. 그의 행동을 보면 다양한 전략적 언행이 읽힌다.

트럼프 대통령은 이미 대선 때 한반도 정책의 방향을 강력히 시사했다. 그는 김정은과 나란히 햄버거를 먹으면서라도 더 나은 비핵화정책을 모색하겠다고 말했다. (어제 보도에 따르면, 그는 이미 1999년 한 언론과의 인터뷰에서 만약 자신이 대통령이 되면 북핵 문제를 해결하기 위해 북한 지도자와의 대화에 맹렬히 나서겠다고 말했다!) 그런데 그가 대통령 취임 후 북한과 대화에 나서기 전까지 그는 북한과 김정은을 향해 거친 언설을 쏟아부었다. 대통령이 되기 전과 되고 난 후 트럼프가 극적으로 변했던 것일까? 아마도 트럼프의 정책적 입장에 관해 그보다 더 잘못된 해석은 없을 것이다.

그가 내뱉는 말만 가지고 판단하면 트럼프 대통령은 때로는 무식하고 때로는 막무가내이거나 즉흥적이며 변덕이 죽끓은 듯한 인사로 보인다. 그러나 그의 언행을 거래와 협상 전략이라는 관점에서 바라보면 그의 언행에는 놀라운 일관성이 발견된다.

끝으로 트럼프 대통령은 이전의 어떤 미국 대통령도 하지 않았던 커뮤케이션 방식을 구사하고 있다. 그는 선거 때부터 주류의 대중매체와는 척을 지고 트위터라는 소셜미디어를 통해서 대중과 소통한다. 미국 대통령의 공식적 발화가 도날드 트럼프라는 개인의 사적 대화의 틀 속에서 터져나온다.

trump and twitter에 대한 이미지 검색결과

제러미 리프킨(Jeremy Rifkin)의 지적처럼, 21세기에는 인터넷, 스마트폰, 소셜미디어 등 정보기술 덕분에 연극의 시대가 되었다. 어빙 고프먼(Erving Goffman)이 말하는 일상적 연극공연이 수많은 사람들에 의해 수시로 벌어지고 있는 것이다.

트럼프는 21세기적 연극공연의 탁월한 기획자이며 연기자이다. 무대, 소구 관객(target audience), 배역(character), 출연진을 잘 이해하고 있으며, 자신이 주도하는 공연에 대한 팀웍, 공감 획득, 그리고 공연의 궁극적 성공을 위해 각종 연극 기법을 거침없이 구사한다. 기존의 정치 커뮤니케이션에 포획되어 있는 정치인, 언론인, 지식인들은 그러한 정치 커뮤니케이션의 본질도, 또 그것을 구사하는 트럼프도 전혀 이해하지 못하고 있다. 사실 우리에게는 그것이 결코 낯설지 않는 것임에도 말이다.

‘말에 품위가 없다’, ‘주류 언론과 싸우려고만 한다’, 이 말들은 트럼프 대통령에 대한 평가이다. 그런데 그 말들, 언젠가 들어본 익숙한 언급들이 아닌가? 맞다. 16, 17년 전 노무현 대통령에 대해 귀에 따갑도록 듣던 표현이다. 그 때 우리는 노무현을 이해하지 못했다. 그리고 거의 동일한 이유로 지금 우리는 트럼프를 이해하지 못하고 있다.

노무현 대통령은 소셜미디어 기반 정치 커뮤니케이션의 선구자였다. 당시는 SNS가 아니라 블로그가 겨우 시작되던 시절이었고, 아직 웹사이트의 게시판이 지배적이었다. 노 대통령은 당시 그 어느 정치인보다 일찍 쌍방향적 소셜미디어를 이해하고 자유자재로 사용했다. 그리고 그 덕분에 국가의 정상에 오르는 데 성공했다.

또한 노 대통령은 기존의 사고 프레임–냉전주의, 지역주의, 보수주의–과 기득권에 격렬하게 도전했다. 당시 노 대통령의 발화나 행동 방식에 적응하지 못하는 정치인이나 유권자가 부지기수였다. 주류언론인 조중동은 노 대통령의 모든 것을 공격했다. 당연히 그의 탈인습적인 언행은 집중적인 비판을 면치 못했다. 노 대통령을 상기하면서 트럼프를 봐보라. 놀랍도록 유사한 행보를 읽을 수 있다.

트럼프는 언행에 있어 일관성이 뛰어난 사람이다. 그의 행동이나 정책이 좌충우돌하는 것은 사실이다. 그러나 그것은 그의 일관성이 낳은 결과일 뿐이다. 그는 미국의 국익을 미국민의 생명과 재산, 그리고 경제적 번영이라는 좁은 의미로 해석하고 그것을 철저하게 추구하고 있다. 그에게 예외란 없다. 그래서 소위 전통적인 우방국들이 아우성이다. 피아의 구분이 불분명해졌다. 정확히는 지금까지의 피아 구분이 먹히지 않는다. 그리고 적과 싸우려 하지도 않는다. 적을 굳이 패배시키려하지도 않는다. 설령 ‘적’과 윈윈하더라도 미국의 이익을 얻어내면 그만이라는 입장이다.

필자의 눈에는 고 노무현 대통령의 데자뷰를 넘어서 트럼프에게 노무현 대통령이 빙의한 게 아닌가 하는 착각이 들곤 한다. 진실은 우리 사회의 주류 언론인 조중동이 노무현을 공격하고 배격했듯이 지금 미국사회의 주류 언론인 뉴욕타임즈와 워싱턴포스트가 트럼프를 공격하고 배격하고 있다는 것이다. 트럼프의 기자회견을 봐보라. 그것은 거의 전쟁터이다. 미국 주류 언론의 기자들이 질문을 통해서 트럼프 대통령을 거의 죽이겠다고 작정하고 덤벼드는 양상을 쉽게 목격할 수 있다. 그들은 인정사정없다. 조중동 기자들이 노무현 대통령에게 그렇게 하지 않았던가.

필자가 볼 때는 노무현 대통령이나 트럼프 대통령이 구사하는 말은 ‘직설적’이기는 하지만 ‘막말’은 결코 아니다. 막말이라는 표현은 주류 언론인들이나 정치인들이 노 대통령이나 트럼프 대통령을 공격하기 위해서 사용된 언어 폭탄이다. 고도로 계산된 발화가 어찌 부주의하게 내뱉는 막말일 수 있겠는가. 거칠게 보이는 표현은 상대의 위선을 드러내는 수단이기도 하고 엄포를 놓는 방식이기도 하다.

트럼프 대통령이 미국의 기득권 사회가 추구하는 모든 가치를 부정하는 것은 아니다. 사실 그도 미국 기득권의 일부가 아니던가. 그러나 그는, 적어도 개입주의 이념을 중심으로 형성된 정치인, 정부관리, 무기 제조업체와 무기상, 주류 언론으로 이루어진 일종의 이익 카르텔을 해체하려고 시도하고 있는 것으로 생각된다. 그는 그렇게 해야만 미국 군인들을 고향으로 돌아가게, 나아가 미국을 제자리로 돌려놓을 수 있다고 믿고 있는 지도 모르겠다. 그의 ‘줄타기’를 보면서 그의 안위가 걱정될 정도이다.

북한의 김정은 위원장은, 불태울 마녀이거나 최소한 사형을 언도받아야할 악당이어야 한다. 그것은 남한의 극우보수만이 아니라 미국의 개입주의 카르텔에게도 마찬가지이다. ‘네오콘’에는 이념이 없다. 공존과 평화 대신 대립과 전쟁을 통해서 추구되는 이익만 있을 뿐이다. 그런데 북미회담을 마친 트럼프 대통령은  김정은 위원장을 신뢰할만한 지도자로 인정했다. 김정은에게는 뿔이 있어야 하는데, 미국 대통령이 김정은에게는 뿔이 없다고 폭로해 버렸다. 그러니 위태위태한 것이다.

지금 싯점에서는 어지간한 필부도 트럼프 대통령의 전략적 언행을 이해할 수 있을만큼 시간이 흘렀건만 우리 나라의 정치인과 오피니언 리더들에게는 아직도 그의 정체가 분명히 보이지 않는 모양이다. 아마도 미국 대통령에 대한 역할 기대에 눈이 멀어서 진실을 보지 못하고 있거나 그의 자유분방해 보이는 수사에 현혹되어 진실을 놓치고 있는 것 같다.

우리에게는, 한반도 문제에 관해 최소한 트럼프 씨가 합리적인 판단이 가능하고, 충분한 정보와 지식을 가지고 있으며, 그리고 머리 회전이 비상한 미국 대통령이라는 사실을 분명히 인정하고 그의 행보를 예측하려는 자세가 필요하지 않을까. 그리고 내친 김에 트럼프 대통령이 흔쾌히 인정하는 파트너인 문재인 대통령과 시진핑 주석, 그리고 그의 카운터파트인 김정은 위원장에 대해서도 일국의 지도자로서의 능력과 태도를 인정해야 비로소 현재의 한반도 문제가 투명하게 보이기 시작하지 않을까 생각된다. (윤영민, 2018-06-15)

확률변수와 확률분포(1)

학생들에게는 ‘확률’이라는 표현이 다소 혼란스럽다.  사실 그것은 배우는 학생들이 아니라 통계학자들 때문이다.

확률은 때로 probability를 의미하고, 때로 random을 의미한다. 그 두 단어가 서로 밀접하게 관련되어 있지만 동의어는 아니다. 확률(probability), 확률 분포(probability distribution), 확률 함수(probability function)의 경우는 확률이  probability를 의미하고, 확률적(stochastic) 혹은 확률 변수(random variable)의 경우는 확률이 randomness(무작위)를 의미한다. 전자인 probability는 어떤 현상이 발생할 가능성을 표현한 수치이고, 후자인 random 혹은 stochastic은 우연적 혹은 무작위적이라는 뜻이다. 이러니 학습자들이 충분히 혼란스러워할만 하다.

우리가 어떤 현상을 확률적이라고 말하면, 그 현상이 우연적으로 결정되는 현상, 다시 말해, 인위적으로 결정될 수 없는 현상임을 의미한다. 동전 던지기나 주사위 던지기가 확률적 현상의 가장 흔한 사례가 될 것이다. 동전 던지기의 결과는 누군가의 의지나 기분 혹은 음모에 의해 결정되지 않는다. 주사위 던지기의 결과도 마찬가지이다.

확률 변수(random variable)에서 확률은 그런 의미이다. 수학에서 변수(variable)란 2개 이상의 값을 가질 수 있는 문자를 말한다. 변수는 흔히  등으로 표현된다. 변수의 반댓말은 상수(constant)이다. 상수는 하나의 고정된 값만 갖는 문자이다. 흔히 로 표시된다.

random variable에 대한 이미지 검색결과

그런데, 확률 변수는 특별한 속성을 지닌 변수이다. 즉, 확률 변수의 값은, 어떤 결과가 나올 지 정해져 있지 않은 어떤 과정–그것을 확률 과정(random process) 혹은 통계적 실험이라고 한다–을 통해 결정된다. 동전 던지기를 상상하면 된다. 때문에 확률 변수의 각 값은 특정한 확률을 갖고 있다. 예컨대 하나의 동전을 던졌는데, 앞면이 나올 확률(그것은 0.5이다), 혹은 두 개의 동전을 던졌는데, 두 개 모두 앞면이 나올 확률(그것은 0.25(0.5*0.5)이다)처럼 말이다.

여기서 두 개의 동전을 던지는 경우만 생각해 보자. 동전 던지기는 바로 확률 과정이고, 그 결과인 앞면의 갯수는 확률변수이다. 동전 던지기의 결과는 정해져 있지 않으면 누군가의 의지나 기분에 따라 결정되지 않는다. 그리고 앞면의 갯수(라고 하자), 즉, 확률변수의 값은 이다. 그리고 각 값은 특정한 확률을 갖고 있다.  앞면이 두 개가 나올 확률 는 0.25, 한 개가 나올 확률 은 0.5, 하나도 나오지 않을 확률은 은 0.25이다. 그리고 그 세 값의 확률을 더하면 1.0이다.

‘어떤 학생이 기말시험에 대비해 공부할 시간’은 변수이지만 확률변수는 아니다. 그것은 그 학생의 의지나 기분에 의해 좌우될 수 있기 때문이다. 어떤 자동차 세일즈맨이 하루에 파는 자동차 댓수는 확률변수일 것이다. 자동차의 판매 결과가 본인의 의지로 결정되지 않기 때문이다.

세상사에는 확률변수가 많다. 다시 말해 결과가 우연에 의해 결정되는 사회 현상이 많다. 그리고 사람들은 때로 우연에 희망을 걸기도 한다. 복권이 잘 팔리는 이유가 그 때문 아니겠는가. (윤영민, 2018-06-13).

트럼프, 문재인 그리고 김정은의 자아 표현 전략(2)

북한의 핵무기와 미사일 도전에 대한 트럼프 대통령의 초기 반응은 한 마디로 “죽을래? 끝장을 내버릴거야. 짜식, 까불고 있어” 였다. 전문가들은 북한의 ‘과격한’ 행동이 “미국과 대화를 하고싶다”, “자신들에게 관심을 가져달라는 신호”라고 해석했지만, 트럼프 대통령은 북한의 무력 따위는 안중에도 없다는 듯 자극적인 트윗을 쏘아올렸다. 그리고 북한에 대한 제재의 강도를 높여가도록 국제사회를 휘몰아갔다.

북한은 미국의 그러한 ‘협박’에 조금도 물러서지 않았다. 한편으로 트럼프 대통령의 위협적발언에 대해 모욕적 발언으로 대응하면서 다른 한편으로는 미국쪽 공해상을 향해 장거리 미사일을 쏘았다. 마치 이판사판 한판 붙어보자는 듯한 자세였다.

두 사람의 불놀이에 한반도는 한치 앞을 내다보기 어려운 위기 속으로 치달았다. 마치 누군가 금방이라도 핵단추를 누를 것만 같은 일촉즉발의 상황이었다. 그 가운데에서도 한반도 전문가들은 북한과 미국이 대화를 개시할 시점이 가까워지고 있다는 해석을 내놓았다.

정치는 명분과 실리를 두고 벌이는 게임이다. 특히 국가들 사이에 벌어지는 국제정치에서는 더욱 그러하다. 한 국가의 대표 선수(정상)의 한 마디 한 마디, 일거수 일투족이 그냥 나오는 법은 없다. 모두 관련국과 그 나라들의 대표 선수의 반응을 염두에 둔 계산적이고 전략적이라고 보면 된다. 게임의 목표는 승리일 때도 있지만 대부분의 경우 경쟁자를 압도하는 승리보다는 최대한의 명분과 실리를 챙기는 것이다. 정상들은 게임에서 명분과 실리를 거두기 위해 전략적으로 발언하고 행동한다.

대표 선수가 아무리 뛰어나도 팀 전체의 전력이 약하다면 게임을 이길 수 없다. 국제정치에서도 국력이 약하면 정상이 아무리 뛰어나도 마이너 리거를 벗어나기 어렵다. 그러나 운동 경기에서 대표 선수의 능력이 팀 성적의 중요한 요소이듯이 국제정치에서도 정상 요인(leader factor)은 대단히 중요하다. 동일한 국력이라도 뛰어난 지도자가 등장하면 국제정치라는 게임에서 훨씬 좋은 성과를 낼 수도 있다. 그래서 첨예하게 대립하는 국제정치 국면에서 정상의 전략적 자아표현(strategic self-presentation)이 주목받지 않을 수 없다.

오래 전에 발표된 Edward Jones와 Thane Pittman(1982)의 논문, “Toward a general theory of strategic self-presentation”은 현재 긴박하게 전개되는 트럼프, 문재인, 김정은 세 사람의 국가 지도자들 사이의 상호 관계를 바라보는데 유용한 시각을 준다. 조운스와 피트먼에 의하면, 전략적 자아표현이란, 사람들이 목표 인물(target person)로 하여금 자신에 대해 특정한 인상을 갖게 만듦으로써 그에 대한 자신의 영향력(power)을 강화하려고 하는 언행을 말한다. 세 정상이 내놓는 발언이나 취하는 행동이 딱 그런 전략적 자아표현에 해당된다.

그들에 의하면, 전략적 자아표현에는 크게 다섯 가지 유형이 있다. 환심사기(ingratiation), 겁주기(intimidation), 자기 PR(self-promotion), 모범화(exemplification), 간구(supplication)가 그것이다. 여러 가지 말, 표정, 행동이 환심사기에 속하지만, 특히 아부(flattery)가 대표적이다. 환심을 사려는 사람은 사랑받기를 원한다. 그들에 의하면, 어떤 구체적인 방법으로 환심을 사는가는 세 가지 요인에 의해 결정된다. 첫째, 목표 인물의 환심을 사는 것이 얼마나 중요한가, 둘째, 환심을 사는 데 성공할 가능성이 얼마나 높은가, 셋째, 환심을 사는데 사용되는 방법이 사회적으로 용인되는 것인가이다.

겁주기는 리스크가 큰 전략이다. 겁주기의 중심은 위협(threat)인데, 잘못 사용하면 상대를 굴복시키지 못한 채 상호 관계의 파국만 초래할 수도 있다.

자기 PR은 자신을 능력자로 보이려는 전략이다. 자기 PR이 성공하려면 정말로 자신이 주장하는 능력을 가지고 있음을 증명해야 한다.

모범화는 상대에게 자신을 성실한 사람, 훌륭한 사람이라고 인식시키려는 전략이다. 그것은 상대에게 자신을 보고 따라하게 하려는 시도이다.

끝으로 간구는, 자신이 도움이 절실한 사람이라는 인상을 주려는 전략이다. 흔히 아이들이 부모나 어른들로부터 관심이나 도움을 받고자 할 때 그 전략을 사용한다.

트럼프와 김정은의 상호 관계는 겁주기로 시작했다. 지난 1년 동안 북한이 내보낸 메시지를 종합해 보면, 현재 김정은이 절실히 희망하는 것은 자신과 북한의 안전 그리고 경제발전이다. 그런데 그 관건을 미국–현재로서는 트럼프 대통령–이 쥐고 있으며, 김정은은 그 점을 대단히 잘 알고 있음이 분명하다.

북한과 미국의 오랜 적대 관계를 생각할 때 트럼프의 관심을 끌기 위해 김정은이 선택할 수 있는 자아표현은 겁주기 외에 없었을 것이다. ICBM에 핵탄두를 실어서 미 본토를 공격할 수 있을 정도가 아니고 북한이 트럼프의 주요 관심 대상이 될 수 있었겠는가. 트럼프가 김정은과 햄버거를 먹으며 대화할 수 있다고 트윗을 날리고 김정은이 트럼프와 대화할 수 있음을 시사했을 때 과연 어느 언론사가 진지하게 그 말을 받았었던가.

미국과 북한이 험악한 말은 물론이고 미사일 실험과 제제 강화로 전쟁 분위기가 끝없이 상승하고 있을 때 한국의 국민과 대통령은 얼마나 공포에 떨어야 했던가. 미국과 북한이 전쟁에 들어가면 일차적, 그리고 최대의 피해자가 남한이 아니던가. 그 상황에서 국민의 생명과 재산을 보호해야 하는 남한의 대통령이라면 어떤 조치를 취해야 할까? 미국 ‘큰 형님’이 알아서 잘 해주길 넋놓고 기다리고 있을까?

지난 해 7월 미국 방문을 기점으로 문재인 대통령이 부지런히 움직이기 시작했다. 트럼프를 만나서 긴 회담을 하고, 베를린에서 평화를 지향하는 ‘신 베를린 선언’을 발표했으며, 중국에서는 ‘굴욕적인’ 대우를 받으면서도 시진핑 국가주석을 만났다. 필자는 이 과정에서 문 대통령이 모범화 전략을 취했던 것으로 해석한다. “신뢰할만한 지도자 나아가 자국민을 위해 간절하게 평화를 원하는 지도자”라는 인식을 트럼프, 시진핑 같은 주요 당사국 지도자들은 물론이고 심지어 김정은에게도 굳게 각인시켰던 것은 아닌가 생각된다.

문재인 대통령의 ‘눈물겨운’ 노력은 평창 올림픽을 통해서 효과가 나타나기 시작했다. 사실 그 지점에서는 미국과 북한도 대화 국면에 들어서야 하는 상황이었던 것으로 보인다. 전쟁을 일으키겠다는 입장이 아니라면 말이다. 그리고 미국도 북한도 그렇지는 않았고 그럴 수도 없었다.

사실 대화를 통한 북핵 문제 해결을 김정은 못지 않게 트럼프에게도 절실히 필요했다. 여러 가지 스캔들로 국내 정치에서 코너에 몰려 있는 트럼프 대통령으로서는 북핵 해결이 가을에 있을 중간 선거에서 승기를 잡게 해줄 묘약이 될 수 있는 것이다.

김정은은 신년사에서 평창 올림픽에 대표팀을 보내겠다는 의지로 남한에게 대화의 제스처를 보냈고, 핵무기 완성을 선언하면서 역설적으로 미국과의 대화 의사를 내보냈다. 평창올림픽은 미국과 북한, 즉, 트럼프와 김정은에게 대화를 시작할 명분을 주기에 충분했던 것으로 보인다.

이 때부터 문재인 대통령의 언사에 미묘한 변화가 생겼다. 자아표현 전략이 모범화에서 환심 사기로 전환되었던 것으로 판단된다. 한반도 대화국면 전환에 관해 트럼프 대통령에게 모든 공을 돌리는 모습, 그리고 김정은 위원장을 정중하게 대하는 모습은 때로 국민들이 “저렇게까지 해야하나”하는 측은지심이 느껴질 정도였다.

그 때 즈음해서 1년 전만 해도 누구도 예상치 못했던 파격적인 방식으로 트럼프 대통령과 김정은 위원장이 북핵 문제 해결에 적극 나서기 시작했다. 남북 정상이 만나고 북미 회담이 약속되고, 중국, 일본, 러시아 등 한반도를 둘러싼 나라들이 대화 국면에 하나 둘 동참하기 시작했다. 심지어 북한에 대해 가장 호전적이었던 아베 수상마저도.

모범화와 환심 사기를 결합한 자아표현 전략–의도적으로 그렇게 행동했는지 아니면 원래 그런 성격을 가졌는지는 알 수 없지만–으로 문  대통령은, 트럼프 대통령으로부터는 자신의 의사를 정직하게 김정은 위원장에게 전달할 수 있는 지도자로, 그리고 김정은 위원장으로부터는 트럼프 대통령에게 자신의 뜻을 가감없이 전달해 줄 수 있는 민족 지도자로 인정받았다고 생각된다.

문 대통령은 1년도 채 되지 않은 사이에 미국과 북한으로부터는 물론이고 세계 정치 지도자들, 그리고 언론인들에게, 평화를 사랑하는 지도자, 겸손한 지도자, 현명한 지도자, 그리고 집요한 지도자라는 놀라운 인식을 심는 데 성공했다. 로버트 라이시(클린턴 행정부 노동부 장관을 역임한 UC Berkeley 교수)는 자신의 페이스북에 문 대통령을 이렇게 극찬했다.

“Over the years, I have come across many presidents and prime ministers, and have worked with many of their governments. But rarely if ever have I witnessed someone as talented, intelligent, humble, and progressive as President Moon.”

한반도에서 평화를 향한 게임은 아직, 그리고 앞으로도 한참 동안 진행될 것이다. 그리고 그 과정에서 예상치 못한 우여곡절을 겪을 수도 있다. 70여 년 동안 지속되어온 적대와 불신이 어찌 단 시간내에 사라지겠는가. 부디 정치 지도자들이 현명한 말과 행동으로 한반도에 평화와 안정을 가져다 주길 기원한다. (윤영민, 2018-05-28)

트럼프, 문재인 그리고 김정은의 자아 표현 전략(1)

2016년 미국 대통령 선거에서 내가 아는 어떤 여론 조사기관도 도널드 트럼프의 대통령 당선을 예측하지 못했다. 뉴욕타임스, 워싱턴포스트 등 미국의 주요 매체들은 트럼프 후보에 대해 결코 호의적이지 않았다. 상대적으로 영향력도 떨어지고 극보수 성향인 폭스 TV 정도가 예외일 뿐이었다.

그럼에도 불구하고 2017년 1월 미국의 제45대 대통령으로 당당히 백악관에 입성한 트럼프는 미국 우선주의(America First)를 내세우며 전례없는 방식의 정치를 시작했다. 그를 정치적 이단아쯤으로 조롱하듯 묘사하는 미국의 주류 매체들의 보도를 한 수 접고 보더라도 그는 ‘정치적인 것(political)’과는 거리가 먼 태도와 행동을 서슴치 않았다. 트럼프 대통령은 워싱턴의 정치 코드를 따르지 않을 뿐 아니라 동맹국이나 이웃 국가와의 전통적인 외교 관계도 존중하지 않았다. 게다가 후보 때는 물론이고 대통령이 되고나서도 그가 세계와 소통하는 데 있어 가장 중요하게 사용하는 채널은 트위터(Twitter)였다. 그는 거의 매일 온갖 문제에 대해 트윗을 날렸다.

Trump twitter에 대한 이미지 검색결과

전대미문의 트위터 정치를 선보인 것이었다. 그것은 공식적인 채널을 통해서 자신의 의견을 공개하는 미국 대통령–다른 나라의 국가수반도 그렇다–의 전통적인 소통방식과는 크게 다른 모습이다. 그것은 홍보, 의전, 혹은 외교 팀에 의해 사전에 걸러지고 조정되는 소통과는 크게 다른 방식이다. 한 국가 정상의 발언이 트위터라는 소셜미디어를 통해서 대단히 개인화된 메시지의 형태로 거의 매일 터져나오는 것이다.

트럼프의 트위터 정치는 미국인은 말할 것도 없고 세계인들까지도 당황하게 만들곤 한다. 미국 정부 관리는 물론이고 미국의 언론인, 유권자, 기업인, 그리고 외국의 정상, 관리, 외교관, 언론인, 기업가, 심지어 국민들마저도 시도 때도 없이 올라오는 그의 트위터에 주목해야 한다. 그는 백악관 보좌관의 임명과 해임, 국무장관의 임명 등과 같은 주요 인사의 통보에 트위터를 사용하고, 외국의 정상들에게 보내는 메시지도 트위터에 올리기 때문이다. 미국의 대통령이 내놓는 공적 메시지와 도날드 트럼프라는 개인의 사적 메시지가 뒤섞이면서 대통령직의 수행이 트럼프 개인의 매우 개인적인 선호, 의사결정, 그리고 능력에 의해 좌우되는 상황이 되어버렸다.

대통령 취임 후 미국의 경제를 부흥시키고 일자리를 늘이겠다는 공약을 실천에 나선 트럼프는 그 자신이 정의한 미국의 국익–미국내 투자 확대, 일자리 증가, 무역 역조 개선–이라는 오직 하나의, 그것도 매우 단기적 관점에서 대외 관계를 원점에서 다시 검토하겠다는 듯이 무섭게 달려 들었다. ‘설마’ 하면서 눈치를 살피던 국가들과 기업들이 트럼프가 허풍쟁이가 아님을 깨닫는 데는 오랜 시간이 걸리지 않았다.

중국, 멕시코, 일본, 독일, 영국, 대한민국  등의 국가들, 그리고 미국 내외의 대기업들이 앞다투어 트럼프의 신호에 반응하기 시작했다. 미국에 투자를 늘리겠다는 약속과 행동, 무역 역조를 개선하겠다는 약속과 조치가 줄을 이었다. 그들은 트럼프가 그들이 아직 겪어보지 못한 ‘사업가’ 대통령을 상대하고 있음을 인식했고, 아직은 미국도, 그 미국의 힘을 휘두르는 트럼프 대통령이 결코 종이 호랑이가 아님도 실감했다.

그런데 어느날 동북아시아의 한반도 북쪽에서 강펀치가 날아오기 시작했다. 공식적으로 아직 미국과 적대적 관계에 있는(그런 나라가 별로 없다) 북한의 핵무기와 미사일 발사 실험이  미국 본토를 위협하는 수준으로 급 진전되는 것이었다. (윤영민, 2018-05-27)

조건부 확률, 곱셈법칙, 베이즈 정리(4)

(예제 3) 사십 대 여성이 정기 건강 검진의 일환으로 유방 엑스레이를 찍었다. 일주일 뒤 그녀는 유방암 검사 결과가 양성으로 나왔다는 통보를 받았다. 유방암에 관한 가족력도 없고 또 징후도 없는 그녀가 진짜로 유방암에 걸렸을 확률은 얼마일까? 

미국에서 사십 대 여성 1만명 가운데 대략 40명이 유방암을 가지고 있다(유방암 발병 확률은 40/10,000이다). 그리고 유방암 환자가 유방 엑스레이 검사에서 양성 반응이 나올 확률은 80%이다. 그러면 그 40명 가운데 32명이 양성 판정을 받는다(그 확률은 32/40이다). 또한 유방 엑스레이 검사에서 양성 반응이 나올 확률은 10%이다(그 확률은 1,000/10,000이다).

(풀이)

사건의 정의: B = 유방암 발병, P = 유방암 엑스레이 양성 결과

주변 확률:

조건부 확률: 

문제는  로 표시할 수 있다.

식 (1)의 우변에 있는 확률들의 값이 모두 있으므로 식 (1)에 대입한다.

이 결과를 말로 풀어 보면, 유방암 엑스레이 검사 결과가 양성이 나온 40대 여성이 실제로 유방암에 걸렸을 확률은 0.032, 즉, 3.2%밖에 되지 않는다.

 

(예제 4) 이메일의 스팸을 걸러내는 소프트웨어에는 베이즈 이론이 적용된다. 영어로 된 스팸메일에서 가장 많이 나타나는 단어가 shipping!이다. 스팸 메일 중 shipping!을 포함하는 메일의 비율은 0.051이고, 스팸이 아닌 메일에서 shipping!을 포함하는 메일의 비율은 0.0015이다. 그리고 많은 메일 중에서 10%가 스팸 메일이다. 만일 메일이 shipping!을 포함하고 있다면 스팸일 확률은? 만일 메일이 shipping!을 포함하고 있음에도 불구하고 스팸이 아닐 확률은? 만일 메일이 shipping!을 포함하고 있다면 스팸이라고 판명해야할까?

(풀이)

사건의 정의: Shipping = 메일에 shipping!이라는 단어가 포함됨, Spam = 스팸 메일

이 문제를 푸는 데 있어 첫번째 관문은, 여기서 “스팸 메일 중 shipping!을 포함하는 메일의 비율”이라는 표현을 확률적으로 정확히 번역해 내는 일이다. “그것은 “어떤 메일이 스팸일 때, 그 메일이 shipping!을 포함할 확률”로 번역된다. 아래와 같은 조건부 확률인 것이다.

조건부 확률: 

주변확률: 

원래의 문제는 다음과 같이 표시될 수 있다.

문제 풀이의 두 번째 관건은, 분모가 되는 shipping의 주변확률을 구하는 것이다. 주변확률은 관련된 결합확률들의 합이다. P(shipping)과 관련된 결합확률은 아래처럼 두 가지이다.

우변의 결합확률 각각을 곱셈법칙을  이용해서 주변확률과 조건부 확률의 곱으로 바꾼다.

이제 주변확률 을 구할 준비가 되었다.

위 식 (1)의 좌변에 해당 확률 값을 대입한다.

이 결과를 말로 풀어보면, 어떤 메일에 shipping!이라는 단어가 들어 있을 때 그 메일이 스팸일 확률은 0.7907이고, 스팸이 아닐 확률은 0.2093이다. 따라서 만약 어떤 메일에 shipping!이라는 단어가 들어 있다면 스팸이라고 분류하는 것이 좋을 듯하다. 그런 메일 중 약 80%가 스팸이기 때문이다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(3)

(예제 2) 서로 다른 두 납품업체(공급자 1과 공급자 2)로부터 원자재를 공급받는 제조회사가 있다. 현재 공급자 1로부터 65%의 원자재를 구매하고, 공급자 2로부터는 35%를 구매한다. 한편 그 동안 두 업체로부터 납품 받은 원자재의 품질은 아래와 같다.

 좋은 품질 비율(%)나쁜 품질 비율(%)
공급자 1982
공급자 2955

그런데, 제품 생산 과정에서 어떤 원자재가 불량으로 나타났다. 그 원자재가 공급자 1로부터 왔을 확률은 얼마이고, 공급자 2로부터 왔을 확률은 얼마인가?

(풀이)

사건의 정의: A1 = 공급자 1로부터 납품 받음, A2 = 공급자 2로부터 납품 받음, B = 나쁜 품질의 원자재, G = 좋은 품질의 원자재

이 문제는 데이터(정보)가 주변확률과 조건 사건의 조건부 확률(즉, 우도)로 제한되어 있기 때문에 결합확률표와 조건부 확률 공식을 사용하지 못하고 베이즈 정리를 이용해서 풀어야 한다.

이 문제 풀이의 첫 번째 관건은  표에 있는 데이터를 어떻게 해석할 것인가이다. 예컨대 공급자 1이 좋은 품질의 원자재를 납품할 확률은 98%이다. 이 진술은, 공급자가  1일 때(조건), 좋은 품질의 원자재일 확률(조건부 확률)이 0.98임을 말한다. [공급자가 1이면서 좋은 품질의 원자재를 납품할 확률(즉, 결합확률)을 의미하는 것이 아님에 유의. 실제로 결합확률이 그렇게 높이 나올 가능성은 거의 없음. 결합확률은 주변확률의 곱이기 때문이다.] 즉,

이 문제 풀이의 두 번째 관건은 주변확률, 를 구할 수 있느냐이다. 사실 베이즈 응용 문제에서, 분모에 들어가는 조건 사건의 주변확률을 구하는 것이 자주 풀이의 관건이 되곤 한다.

문제를 베이즈 정리 형식으로 표현해 보자. 어떤 원자재가 불량(나쁜 품질)일 때, 그 원자재가 공급자 1로부터 왔을 확률은 다음과 같이 표시할 수 있다.

우변에서 우리는, 임을 알고 있으니,  분모에 있는 B의 주변 확률을 구하면 된다. 주변 확률은 해당되는 결합확률을 모두 더한 값이다. 즉,

이다.

그런데 곱셈법칙에 의하면,

이 값을 식 (2)에 대입하면,

우리는 식 (2)의 우변에 확률값을 모두 알고 있다. 그 값들을 대입해서 를 구하자.

다시 식 (1)로 돌아가서 확률값들을 대입한다.

즉, 원자재가 불량일 때, 그것이 공급자 1로부터 왔을 확률은 0.426이다. 그렇다면 공급자 2로부터 왔을 확률은 1-0.426 = 0.574가 될 것이다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(2)

(예제 1) 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀 비율로 나타낸 자료이다.

 남자여자
승진28836324
승진 탈락672204876
9602401,200

1. 임의로 뽑힌 어떤 경찰관이 여성이다. 그가 승진할 확률은? 만약 그가 남성이라면 승진할 확률은?

2. 경찰관의 성별이 경찰관의 승진에 영향을 미친다고 생각되는가? 근거를 제시하시오.

(풀이)

사건의 정의: 여성 = F, 남성 = M, 승진 = P,  승진탈락 = N

이 문제의 경우 확률을 추정하는 데 필요한 데이터가 풍부하다. 때문에 조건부 확률 정리를 이용하여 문제를 풀 수도 있고, 베이즈 정리를 이용하여 문제를 풀 수도 있다. 두 가지 방법을 이용해서 풀고 결과를 비교해 보자.

먼저 주어진 데이터를 가지고 결합확률표를 구해 놓으면 효율적으로 문제를 풀 수 있다. 각 칸의 빈도를 경찰관 총수인 1,200으로 나누어 주면 다음과 같은 결합확률표를 얻는다.

 남자여자주변 확률
승진0.240.030.27
승진 탈락0.560.170.73
주변 확률0.800.201.00

결합확률

주변확률

이제 이 정보를 가지고 문제를 푸는 데 필요한 조건부 확률을 구할 수 있다.

1. 어떤 경찰관이 여성일 때 승진할 확률, 남성일 때 승진할 확률은 각각 아래와 같이 계산된다.

이 문제를 베이즈 정리를 이용해서 풀면 다음과 같다.

여기서 분자에 있는 를 모르기 때문에 조건부 확률 정리를 이용해서 그것을 먼저 계산한다.

이제 에 관해 풀 수 있다. (남성일 경우도 동일한 방법으로 계산할 수 있음)

(1)과 (2)를 보면 0.15로 같은 값임을 확인할 수 있다. 조건부 확률로 계산하면 간단한 것을, 베이즈 정리로 풀었더니 복잡하기만 하다. 만약 결합확률표를 구할 수 있으면, 이런 문제는 조건부 확률 공식만으로도 충분히 풀 수 있다. 그러나 만약 결합확률을 모르고 조건 사건의 조건부 확률[이것을 공산 혹은 우도(likelihood)라고 함]과 주변 확률을 아는 경우에는 베이즈 정리를 이용해서 계산한다.

2. 남성일 때 승진할 확률은 0.3이고, 여성일 때 승진할 확률은 0.15이니, 남성의 승진확률이 여성의 승진확률의 두 배이다. 경찰관의 성별이 승진에 영향을 주는 것으로 판단된다. 이 결론을 독립사건의 정리를 이용해서 도출할 수도 있다.

만약 경찰관의 성별이 승진에 영향을 미치지 않는다면, 승진의 주변확률(사전확률), 이 승진의 조건부 확률(사후확률),  혹은 과 같아야 한다. 즉,

그런데 곱셈법칙에 의하면,

여기서 이므로,

이다.

그리고 당연히 일 것이다.

두 사건이 상호 독립적일 때(mutually independent), 두 사건의 결합확률은 두 사건의 주변확률을 곱한 값이다. 경찰관 승진 자료를 가지고, 성별과 승진이 관련이 없다는 가정 아래 가상적인 결합확률표를 만들면 다음과 같다.

 남성여성주변확률
승진0.22(=0.8*0.27)0.05(=0.2*0.27)0.27
승진탈락0.58(=0.8*0.73)0.15(=0.2*0.73)0.73
주변확률0.800.201.00

표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.24이고, 표 3의 값은 0.22이다. 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 크다. 표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.03이고, 표 3의 값은 0.05이다. 즉, 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 작다.

남성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 높은 반면, 여성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 낮다. 따라서 데이터는 경찰관의 승진에 성차별이 존재함을 시사하고 있다고 결론지을 수 있다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(1)

상호 관련된(혹은 관련된 것으로 추정되는) 두 사건이 있을 때, 그 중 하나의 사건(사건 A라고 하자)이 발생하면 다른 하나의 사건(사건 B라고 하자)이 발생할 확률에 대해 이전(사건 A가 발생하기 전)보다 좀 더 잘 예측할 수 있을 것이다. 그러한 예측을 수학적으로 가능하게 해주는 지식이 조건부 확률, 곱셈법칙 그리고 베이즈 정리(Bayes’ Theorem)이다. 그 세 가지 법칙(혹은 정리)은 논리적으로 깊이 연관되어 있다.

다음과 같이 사건을 정의한다.

A: 사건 A의 발생, B: 사건 B의 발생

(조건부 확률) 사건 A의 발생 확률이 사건 B의 발생에 의해 영향을 받는다면, 두 사건의 발생확률 사이의 관계를 다음과 같이 나타낼 수 있을 것이다.

말로 풀어보면, 사건 B가 발생했을 때 사건 A가 발생할 확률–사건 A의 조건부 확률–은 사건 A와 사건 B가 동시에 발생할 확률–사건 A 와 사건 B의 결합확률–을 사건 B의 발생 확률–조건이 되는 사건 B의 주변확률–로 나눈 값이다.

(곱셈 법칙) 정리(1)에서 양변에 를 곱하고, 좌변과 우변을 이항하면 다음 결과를 얻는다.

말로 풀어보면, 사건 A와 사건 B가 동시에 발생할 확률–사건 A와 사건 B의 결합 확률–은 조건이 되는 사건 B가 발생할 확률과 사건 A의 조건부 확률의 곱이다.

(베이즈 정리) 확률의 교환법칙에 따르면,

그리고 우변에 곱셈법칙을 적용하면,

결합확률을 조건부 확률과 조건의 주변확률로 표현하기 위해 식(2)와 식(4)를 식(3)에 대입하면,

이 식의 양변을 로 나누면,

이 식이 베이즈 정리(Bayes’ Theorem)이다. 말로 표현하면, 사건 A의 조건부 확률은 사건 A의 발생 확률에 사건 B의 조건부 확률을 곱한 값을 조건 사건 B의 주변확률로 나눈 값이다.

이 정리는, 조건이 되는 사건 B의 발생을 기준으로 다르게 해석될 수 있다. 즉, 는 사전 확률(prior probability 혹은 간단히 prior)이며, 는 사후 확률(posterior probability 혹은 간단히 posterior)이다. 그리고 와 는 예측을 위한 데이터(혹은 정보)이다.

베이즈 정리는, 어떤 사건(여기서는 사건 A)과 관련된 사건(여기서는 사건 B)에 관한 데이터(혹은 정보)를 얻었을 때 그 사건(사건 A)에 대한 향상된 예측을 할 수 있게 해준다. 그 과정은  로 표현할 수 있다.

논의가 추상적이니 몇 개의 응용 사례를 가지고 조건부 확률, 곱셈 법칙, 베이즈 정리를 보다 구체적으로 살펴보자. (윤영민, 2018-05-25)