목포에서

거의 한 달만에 목포에 갔다. 집안에 일이 생겨서 여유가 없었다.

오늘은 점심식사부터 저녁식사 후 산책까지 제법 긴 시간을 목포에서 지냈다. 둘째가 워낙 중화루 음식을 좋아하기 때문에 점심식사는 늘 거기서 하게 된다. 식사 후에는 수문당에 들려서 후식을 먹고 쿠키를 한 보따리 샀다. 여기까지가 기본 코스이다.

둘째는 수문당에 남아서 학교 일을 하고 아내와 나는 유달산에 올랐다. 새로 산 등산화를 신고 등산스틱을 짚고 하는 등산이라서 그런지 아내의 표정이 아주 밝았다. 신발이 미끄럽지 않고 발목을 잘 잡아주어 계단을 오르내르기에 아주 좋았다고 한다.

등산 후에는 둘째를 픽업해서 함께 바닷가에 갔다. 밝은 태양빛에 찬란하게 비치는 목포 앞바다가 눈부셨다. 쑥굴레집에서 저녁식사를 간단히 하고 나의 모교인 유달초등학교에 가서 산책을 한 다음 돌아왔다.

사실 우리 식구에게 목포만큼 ‘가성비’ 좋은 여행지가 또 있을까 싶다. 오후 한 나절만에 그렇게 다양한 즐거움을 줄 수 있는 다른 곳을 찾기는 어려울 것이다.

목포가 갈 때마다 달라진다. 내 마음에 드는 변화도 있고 좀 아쉽게 느껴지는 변화도 있다. 그래도 변화되고 있다는 사실이 좋다. 더불어 방문객들이 늘어나는 모습도 고무적이다. 1-2년 전만해도 밤이 되면 죽은 도시처럼 느껴졌는데, 지금은 도시가 밝고 다소 활기가 느껴진다. 얼마나 고마운 일인가.

“그렇게 좋아하는 도시가 있는 아빠가 부러워.”

둘째의 지적처럼 나는 목포를 유난스럽게 좋아한다. 그리고 목포를 언제든 그다지 힘들지 않게 다녀올 수 있어 무척 행복하다. 언제까지 그렇게 다닐 수 있을 지는 모르겠지만….(2020-10-25).

베이즈 통계(4): 과학으로서의 베이즈 과정

과학이란 미지의 현상에 대한 체계적인 탐구를 통해서 지식을 쌓아가는 노력이다. 과학에는 미지의 현상에 대한 주장(statement)이 있고, 그 주장을 뒷받침하는 증거(evidence)가 있다. 다만 주장-증거의 쌍이 과학적 지식으로 인정받으려면 그 증거가 ‘과학적’인 방법으로 발견한 것이라야 한다. 실험, 관찰, 설문조사, 시뮬레이션 등 증거 발견(데이터 수집)의 과학적 방법은 널리 알려져 있다.

베이즈 통계는 과학적 과정의 정당한 수단으로 활용된다. 그 두 가지가 어떻게 연관되는가를 살펴보자(Donovan and Mickey, 2019).

과학적 과정은 다음과 같이 도식화될 수 있다.

사회과학의 탐구 대상인 사회현상에 대해서는 두 가지 이상의 설명이 경합하기 마련이다(Lave and March, 1993). 그 설명은 가설(hypothesis)일 수도 있고 체계적인 이론(theory)일 수도 있다. 그런데 서로 경쟁하는 가설(혹은 이론, 이하에서는 가설로 통일한다)들은 사회현상에 대해 서로 다른 예측을 낳는다. 연구자는 그 가설들을 평가하기 위해 조사방법을 설계하고 그에 따라 데이터를 수집한다. 그 다음 수집된 데이터를 가지고 예측을 분석하여 가설(들)을 검증한다. 데이터가 가설을 지지하면 그 가설은 지식으로 추가되고,  데이터가 가설을 지지하지 않으면 가설이 수정된다. 그리고 수정된 가설을 가지고 다시 연구의 사이클을 시작한다.

앞에서 살펴본 유방암 예제를 가지고 베이즈 추론을 이 수레바퀴에 맞추어 되새겨 보자.

먼저 어떤 40대 여성이 유방암에 걸렸는가가 관심사이다. 따라서 우리에게는 두 가지 경합하는 가설이 주어진다. 하나의 가설은 그녀가 유방암에 걸렸다이고, 다른 하나의 가설은 그녀가 유방암에 걸리지 않았다는 것이다. 이 가설들은 상호 배타적(mutually exclusive)이고, 총망라적(exhaustive)이다. 우리는 각 가설이 진실이라는 명제에 확률을 부여할 수 있다. 그리고 그 확률의 합은 1이 될 것이다. 베이즈 추론에서는 데이터를 수집하기 전에 부여한 이 확률들을 사전 확률(prior probabilities or priors)이라고 부른다.

다음에는 유방촬영검사을 통해서 데이터를 수집해야 할 것이다. 하지만 그 전에 우리는 두 가설로부터 유방촬영검사 결과(데이터 수집 결과)를 예측한다. 각 가설이 주어졌을 때 특정한 결과(데이터)가 나올 확률을 예측하는 것이다. 베이즈 추론에서는 이 확률이 우도(likelihood)라고 불린다. 실제 우도를 계산하려면 검사 결과가 있어야 한다.

데이터를 수집했다. 유방촬영검사를 했더니 양성(positive)이다. 우리는 유방촬영검사에 있어 유방암 환자의 양성 반응 비율과 비유방암 환자의 양성 반응 비율을 구할 수 있다. 그리고 그 두 가지 비율을 합하면 유방촬영검사 피검자의 양성 반응 비율이다.

끝으로 베이즈 정리를 이용해서 각 가설에 대한 사후 확률(posterior probabilities or posteriors)을 구한다. 사후 확률은 새로운 데이터가 수집된 후 각 가설에 대한 우리의 갱신된 믿음을 나타낸다. 이는 과학의 수레바퀴에서 추론에 해당된다. 그렇게 해서 우리는 새로운 지식을 얻게 되는 것이다.

베이즈 추론에서는 어떤 확률 사건 혹은 불확실한 명제에 대한 사후 확률은 적합한 증거가 주어졌을 때 얻게 되는 조건부 확률이다.  그 조건부 확률을 구하는데 있어 베이즈 정리가 수행하는 역할은 핵심적이다.

정리하면, 베이즈 추론은 새로운 지식을 추가하게 해준다. 즉, 베이즈 추론은 어떤 현상에 대해 가설을 제기하고, 그 가설에 대해 우리가 지닌 현재의 믿음을 제시하며, 증거(데이터)를 수집해서 그 결과에 따라 우리의 믿음을 강화하거나 수정하여 지식을 추가하는 과정이다.  (2020-10-23)

참고 문헌

Donovan, Therese M. and Ruth M. Mickey. 2019. Bayesian Statistics for Beginners. Oxford University Press.

Lave, Charles A. and James G. March. 1993. An Introduction to Models in the Social Sciences. University Press of America, Inc.

고구마 수확

텃밭의 고구마를 수확했다. 봄에 2천원어치 모종을 사다가 심어 여름 내내 줄기를 따서 먹고 가을이 되어 두 버킷이나 되는 뿌리를 선물로 받았다. 이웃이 가져다 준 것들까지 합하면 한 겨울 먹을 만큼의 양이다.

고구마를 온전히 캐기가 쉽지 않다. 특히 수직으로 깊이 박혀 있는 것은 끝까지 조심스럽게 파주지 않으면 끝이 부러져 버린다. 끝이 잘린다고 먹는데 지장이 있는 건 아니지만 왠지 모르게 아쉬운 생각이 든다. 그래도 고구마 캐는 기술이 늘어서 그런 건지 아니면 서두르지 않고 꼼꼼이 작업을 해서 그런 건지 작년에 비하면 온전한 것들이 훨씬 많다.

옆에서 함께 작업하던 아내가 무척 좋아한다. 물론 나도 충만된 기분이다. 금액으로 따지면 몇 천원 어치에 불과하지만 우리 스스로 키웠다는 사실 때문일 게다. 10여 년 전에 처음 고구마를 심었을 때는 완전히 실패했다.

세종 때인가 고구마를 대마도에서 처음 들여와 재배를 시작했는데 아마도 나처럼 실패했었던 같다. 임금께서 대마도주에게 고구마 재배 전문가를 보내달라고 요청했다고 한다. 키우기 쉬운 작물이 아니라는 말이다.

작년에 비해 고구마 알이 굵다. 둔덕을 크게 만들었기 때문인가. 이웃이 충고를 해줘서 금년에는 둔덕을 큼지막하게 만들었다. 뿌리가 자랄 수 있는 공간이 충분해야 한다는 이웃의 말이 맞다고 생각했다.

친정에 갔던 아내가 열흘만에 돌아왔다. 더 머물 것이라 예상했는데 갑자기 돌아온 것이었다. 정읍역까지 마중을 나갔다. 100일만에 본 것처럼 반가웠다.

아내가 오니 집에 활기가 넘친다. 혼자 있어도 그래야 하는데. 아무래도 아직은 혼자보다 둘이 있는 게 나은가보다. (2020-10-23)

학문에서 전공이란…

학문의 길에 들어서면 오래지 않아 전공(攻)을 선택해야 하는 문제에 부딪치게 된다. 현대의 학문은 제도화되어 있고 세분화되어 있기 때문에 자신이 원하든 않든 전공을 선택해야 한다. 먼 옛날에는 학문을 하려면 스승을 선택하거나 무리를 선택해야 했겠지만 오늘날에는 대학과 전공을 선택해야 하는 것이 필수이다.

전공을 선택하고 대학원에 들어가는데, 전공 선택이 무슨 문제인가라고 되물을 사람도 있겠지만, 모든 학문 분야–그것을 흔히 전공이라고 부른다–에는 하위 전공이 또 있다. 그것을 연구 분야 혹은 관심 분야라고 말할 수도 있지만 그것도 전공이라고 부른다.

학계라는 제도권에 들어오지 않고 혼자서 연구하는 사람–요즘은 그런 사람이 극히 드물다–이라면 전공의 칸막이를 무시할 수 있겠지만, 제도권 안에 들어가면 전공의 선택은 한 사람의 미래를 좌우하게 된다. 학문 전공은 제도화되어 있어 그 전공과 운명을 함께 하려는 사람들이 있고, 전공들 사이에 사회적 자원의 배분을 둘러싼 치열한 경쟁이 존재하며, 한 연구자가 갖게 되는 삶의 기회를 결정한다. 학부에서 택하는 전공도 그런 점이 있지만 대학원에서는 그것과 비교할 수 없을 정도로 의미있는 구분이다.

물론 세부 전공으로 들어가면 전공 사이의 벽이 그렇게 심각하지는 않다. 그렇다고 그 차이가 작다고 말할 수는 없다. 당장에 교수 채용시에 세부 전공을 명시하여 전공자와 비전공자를 구분하는 경우가 대부분이다. 비전공자로 분류되면 아예 응시의 기회조차 가질 수 없다.

그런데 우리 사회의 학문 풍토는 아직 전공은 ‘비전공자’를 배제하기 위한, ‘비전공분야’를 배척하기 위한 수단일 뿐 학문의 유행이 거센 폭풍처럼 전공 분야들을 모두 집어삼켜 버린다.  유행이란 폭풍우 속에서 살아남으려면 알아서 변신하라는 요구을 지속적으로 받는다는 말이다.

사회과학만 보더라도 1970년대 경제상장기에는 경제학이 지배적이었고, 격동기인 1980년대에는 사회학이 부상하였으며, 대중 언론의 시대인 1990년대 신문방송학이 대세였다. 그러나, 2000년대에 경제위기를 거치고 인터넷이 일상화되자 신문방송학은 물론이고 사회과학 전체가 헤게모니를 잃었다. 실용주의 분위기 속에서 경영학이나 행정학 같은 실용적인 전공이 그나마 사회과학의 위신을 지켰다.

2000년대 초반을 지나면서 현재 학문의 헤게모니는 사회과학에서 공학 혹은 자연과학으로 넘어갔다. 전산과학을 필두로 물리학, 생명공학, AI, 인지과학, 뇌과학, 데이터과학 등이 학문에 있어 새로운 인식과 문법을 제시하고 있다. 이제 사회과학은 헤게모니는 커녕 그 학문들의 공세로부터 자기를 방어하기에도 급급할 지경에 처해 있다. 대중은 사회현상에 대한 해석과 해답마저 물리학자, 인지과학자, 데이터과학자에게서 찾으려 하고 있다.

사회과학의 전통적인 연구 주제, 연구 방법, 연구 대상이 모조리 도전받고 있다. 마치 아무 일도 없는 것처럼 행동하는 것–사실 거의 대부분의 사회과학자들이 그렇게 행동하고 있다–은 무식하거나 위선적이거나 둘 중의 하나이다.

2020년 노벨 경제학상 수상자들이 누구인가. 경매 이론의 전문가이다. 필자는 일생동안 경매에 서너 번 참가해 보았다. 헌금을 위한 바자회의 경매, 그리고 인터넷 쇼핑에서의 경매가 전부이다. 그런데 그런 현상, 필자가 평생 몇 번 경험할까말까한 사회 현상을 이론화한 학자들이 노벨상을 받은 것이다. 경매가 언제부터 그렇게 중요한 사회현상이 되었는가? 도무지 모르겠다. 하지만 분명한 것은 그들이 경제학 내에서 대단히 실용적인 전공을 했다는 사실이다. 그런데 놀랍게도, 필자가 과문한 탓인지 모르겠지만, 어느 언론도 그것에 대해 문제를 제기하지 않았다. 이 사건(?)은 요즘 세상 돌아가는 모양새를 압축적으로 보여준다.

그렇다면 사회과학에서 전공 선택은 무의미한가? 그렇지는 않다고 생각된다. 전공과 세부 전공은 여전히 현실적으로 한 연구자의 운명을 좌우하고 있다. 그점에서 달라진 것은 없어 보인다.

다만 세상의 변화는 사회과학 자체에 대해 목표 재설정(goal replacement), 재구조화(restructuring), 그리고 재과정화(remodelling)를 요구하고 있다. 한 마디로 무엇이 사회과학인지, 무엇이 사회과학이어야 하는 지를 따지는 메타 사회과학(meta-social science)이 필요하다는 말이다.

나는 사회과학에서 그런 변화가 쉽게 일어나리라 상상하지 않는다. 제도 학문의 관성이 워낙 강하기 때문이다. 맨 윗자리를 차지하고 있는 학자들은 굳이 그런 노고를 해야할 필요를 못느끼고 중하위의 자리에 있는 학자들은 생존 게임에 정신이 없다. 아마도 완전한 몰락 직전에 이르기까지 그들은 “세상은 돌고 도는 것. 언젠가 사회과학이 헤게모니를 되찾게 될 것이다.”라며 자기 암시를 하고 있을 것이다. 과거의 영화를 회상하며 정신 승리에 사로 잡혀서 말이다. 안타깝지만 그것이 현실이다.

필자가 미국 대학원에 진학할 때인 1980년대에는 종속이론, 발전이론 같은 거시사회학이 유행이었다. 그런데 대학원 공부를 시작한 지 1년도 채 지나지 않아 필자는 사회심리같은 미시사회학의 매력에 빠졌다. 그리고 그것을 공부하는데 필요한 조사방법과 통계분석에 푹 빠졌다. 미국에서는 그러한 전공 분야를 방법론(methodology)이라고 부른다.

박사 과정에 들어가서도 처음에는 방법론 공부에서 별로 벗어나지 않았다. 그런데 베를린 장벽이 무너진 후 어느 날 내게 사회학 전공에 대한 회의가 찾아들고 나는 생활 지도교수(personal advisor)와, 경제학으로 전공을 옮길까 고민 중이라는 상담을 나누었다. 그 때 그는,

“이제 논문만 쓰면 사회학 학위를 받는데 굳이 전공을 바꾸려 하느냐, 그냥 사회학에 남아서 경제학을 공부하면 되지 않겠냐?”라면서 나를 적극 만류했다. 그래서 나는 전공을 바꾸지 않은 채 경제학을 ‘자유롭게’ 공부했다.

그리고 얼마 지나지 않아 학위 논문 지도교수(academic advisor)와 논문 주제를 바꾸었다. 필자의 새로운 논문 지도교수가 된 생활 지도교수는 논문 주제에 대해 고민하던 내게 한 마디를 툭 던졌다.

“박사 학위는 독립적 연구 능력을 인정받는 정도의 의미 밖에 없다. 빨리 학위를 받고 나가서 무엇이든 네가 하고 싶은 연구를 해라.” 그의 충고를 수용한 필자는 미시사회학과 거시사회학을 분주히 넘나들며 학위 논문을 마치고 학계에 퉁겨져 나왔다.

그런데 문제가 생겼다. 학자로서의 나를 정의할 수가 없었다. 나의 세부 전공을 특정할 수가 없었던 것이다. 미국에서는 그냥 방법론 전공이라고 하면 무난하지만 우리나라에서는 방법론은 전공으로 인정받지 못했다. 그냥 누구나 하는 것이 방법론이라는 인식이 지배적이었다.

학위를 받고 나와서 나는 고민했다. 무엇을 내 전공으로 삼을까? 무엇이 나의 가장 큰 관심사인가? 내가 평생동안 흥미를 잃지 않고 연구할 분야와 대상은 무엇일까?

한참을 헤매다 선택한 것이 정보기술과 사회, 정보기술과 인간이라는 주제였다. 대학원 시절 당시에 조사방법과 통계를 공부하려면 컴퓨터와 프로그래밍이 필수였고, 덕분에 나는 전산과학과 통신공학을 일찍 접할 수 있었다.

아직 인터넷이 대중화하기도 전인 1990년대 중엽 나는 정보기술에 대한 사회학적 분석을 나의 전공 분야로 선택했다. 그렇게 해서 ‘정보사회학’이라는 전공을 시작했다. 아직 ‘정보사회학’이라는 이름조차 없던 시절이었다. 그리고 그 후 4반세기가 넘도록 나는 그 전공을 공부하고 실천했다.

학문의 유행이 승용차 외형의 유행만큼이나 자주 바뀌는 우리 사회에서 25년을 정보사회학자로 살아올 수 있었음은 큰 행운이었다. 다른 전공 분야를 기웃거리지 않아도 사회적 관심, 명예, 물질 같은 자원을 부족하지 않게 나눠받으며 살아올 수 있었으니 말이다.

은퇴 후 지금은 잠시 대학원생 시절로 돌아갔다. 재직시 시간과 일에 쫓겨서 할 수 없었던 공부에 그야말로 매진하고 있다. 두문불출하면서 책을 읽고, 인터넷 강의를 듣고, 생각하고, 글을 쓰면서 하루를 보낸다.

30년만에 공부하는 수학과 통계학이 쉽지 않지만 그래도 대학원 시절 공부하던 것과 연결이 되니 크게 어렵지는 않다. 간혹 지금 같았으면 대학원 공부를 더 잘 할 수 있을텐데 하는 생각이 들기도 한다. 수학 때문에 무척 고생했기 때문이다. 대학원에 진학했을 때는 수학 공부에 손을 놓은 지 이미 10년이 지났었다. 수학을 조금만 제대로 복습했더라면 그렇게 고생하지 않았을텐데 그럴 여유가 없었다. 능력이 부족한 나는 사회학 고전을 읽고 수업을 따라가기에 급급했다.

은퇴 후 지난 8월까지는 정보사회학 지식을 보완했고, 연말까지는 사회통계의 리모델링을 마칠 예정이다. 누구 한 사람도 내게 그런 일을 요구하지 않았지만, 나는 그 작업들을 해낼 수 있고, 또 누구보다 잘 할 수 있으리라 믿기 때문에 죽는 날까지 나는 그런 작업을 계속할 예정이다.

학자가 자신의 전공과 맺는 인연은 이토록 질긴 것인지도 모른다. 죽는 날까지 함께 하는 그런 인연 말이다. (2020-10-21).

베이즈 통계(3): 베이즈 정리의 확장

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다. –> 흔히 X는 데이터이고 Y는 모수(parameter)이다. 베이즈 정리는 데이터가 주어졌을 때 모수를 얻게 될 확률을 구하는 과정이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다. –> 역조건부 확률 는 우도(likelihood)라고 부른다. 흔히 그것은 경험적으로 주어진다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다. –> 여기서 를 데이터를 얻기 이전 확률이라는 의미에서 사전 확률(prior)이라고 부르고 를 데이터를 얻은 후 확률이라는 의미에서 사후확률(posterior)이라고부른다. 베이즈 정리에서 데이터를 포착해 주는 부분이 우도이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다. –> 를 정규화 상수(normalizing constant)라고 부른다.

예제 1) 미국에서 정기적으로 건강 검진을 받는 40대 여성의 1%가 유방암을 가지고 있다. 유방암에 걸린 여성의 80%가 유방촬영검사(mammogram test)에서 양성 반응을 보였으며, 유방암을 걸리지 않은 여성 중 9.6%도 유방촬영검사에서 양성 반응을 나타냈다. 어떤 40대 여성이 정기 검진 때 유방촬영검사에서 양성 반응이 나왔다면 그녀가 실제로 유방암에 걸려 있을 확률은 얼마인가?

해제) 먼저 사건의 정의, 주어진 정보, 그리고 문제를 확률기호로 표기한다.

사건의 정의:

X: 유방활영검사: x1: 양성, x2:음성  Y: 유방암 발병: y1: 발병, y1: 발병 않음

주어진 정보:

문제:

이렇게 번역해 놓고 보니 역 조건부 확률(유방암일 때 검사 양성반응일 확률)을 이용해서 조건부 확률(검사 양성반응일 때 유방암일 확률)을 구하는 베이즈 정리의 응용 문제임이 분명하다. 베이즈 정리를 적용하려면, 역조건부확률 뿐 아니라 확률변수들의 주변확률을 알아야 한다. 그런데 주변확률 P(Y)와 P(X)에 대한 정보가 주어져 있으니 조건부확률을 구하는데 필요한 모든 정보를 다 가지고 있다.

분모인 주변 확률 P(X=x1)는 X=x1 일 때 모든 Y 값의 결합확률의 합이다. 즉, P(X=x1) = P(X=x1∩Y=y1) + P(X=x1∩Y=y2)이다. 그런데 결합확률 P(X=x1∩Y=y1) 는 다름 아닌 분자이다. 조건부 확률결합확률 나누기 조건의 주변확률이기 때문에 결합확률은 조건부확률 곱하기 조건의 주변확률이다.

이제 식 (1)에 주어진 값들을 대입하면 된다.

이 예제를 음미해 보면, 40대 여성의 유방암 발병율은 사전확률(prior)이고, 유방암 환자의 유방촬영검사 양성 반응의 비율은 경험적으로 구할 수 있는 우도(likelihood)이다. X=x1은 유방촬영검사 결과로 얻은, 조건에 해당되는 데이터이다. 이 예제는 어떤 여성의 유방촬영검사 결과가 양성일 때 그녀가 실제 유방암에 걸려 있을 확률이라는 사후확률(posterior)을 묻고 있다.

유방암촬영검사의 결과가 양성으로 나왔는데도 그 사람이 실제로 유방암에 걸렸을 확률이 0.08밖에 되지 않는다. 검사 장비의 성능이 나쁘지 않는데도 말이다. 그것은 무엇보다 유방암 발병율 자체가 0.01로 낮기 때문이다. 이는 모든 희귀병 검사에 적용될 수 있다. 즉, 베이즈 통계는 희귀병의 경우 설령 그 질병에 대한 검사 결과가 양성일지라도 실제 그 병에 걸렸을 확률이 낮다는 사실을 드러내 준다.

예제 2) 이메일의 스팸을 걸러내는 소프트웨어에는 베이즈 이론이 적용된다. 영어로 된 스팸메일에서 가장 많이 나타나는 단어가 shipping!이다. 스팸 메일 중 shipping!을 포함하는 메일의 비율은 0.051이고, 스팸이 아닌 메일에서 shipping!을 포함하는 메일의 비율은 0.0015이다. 그리고 많은 메일 중에서 10%가 스팸 메일이다. 만일 메일이 shipping!을 포함하고 있다면 스팸일 확률은? 만일 메일이 shipping!을 포함하고 있음에도 불구하고 스팸이 아닐 확률은? 만일 메일이 shipping!을 포함하고 있다면 스팸이라고 판명해야할까?

해제)

사건의 정의

X: 이메일에 shipping!이 단어 출현 여부. x1=shipping!이 있음, x2=shipping!이 없음

Y: 스팸 메일 여부. y1 =스팸 메일, y2=스팸 메일이 아님

주어진 정보

문제

이 문제도 역시 역 조건부확률을 알고 있을 때 조건부확률을 구하는 베이즈 정리 응용 문제이다. 주변확률 P(Y=y1)는 주어져 있고, P(X=x1)는 주어진 정보로부터 구할 수 있다.

그런데,

이 값들을 식 (1)에 대입하면,

매번 조건의 주변확률을 구하기가 쉽지 않다. 사실 조건의 주변확률을 구하는데 부딪치는 어려움이 오랫동안 베이즈 통계의 아킬레스 건이었다.

이제 다음 베이즈 정리에서 우항의 분자, 분모의 값을 다 구했다.

분자는  결합확률 이다. 분자, 분모 값을 위 식에 대입하면 답을 구할 수 있다.

이메일에 shipping!이라는 단어가 들어가면 그 메일이 스팸일 확률이 약 80%이니 그 메일이 스팸이라고 분류해도 될 것이다.

이 문제에서 사전확률(prior)은 이메일 중 스팸 메일의 비율인 0.1이다. 우도(likelihood)는 스팸 메일일 때 shipping!이라는 단어가 들어가 있을 확률인 0.051이다. 정규화 상수(normalizing constant)는 조건의 주변확률(이메일에 shipping!이 들어있을 확률이다)인 0.00645이다.

이를 일반적인 용어를 사용해 풀어보면, 모든 메일 중 10%가 스팸 메일이니, 우리에게 다른 정보가 없다면, 어떤 메일이 스팸일 확률을 0.1이라고 추측하면 될 것이다. 그런데, 그 이메일이 shipping!이라는 단어를 담고 있다면, 우리의 추측은 크게 향상되어서 그 메일이 스팸일 확률이 0.79라고 추정하게 된다. shipping!이라는 단어가 들어 있다는 정보 하나로 어떤 이메일이 스팸일 확률이 비약적으로 올라갔다.

(예제 3) 서로 다른 두 납품업체(공급자 1과 공급자 2)로부터 원자재를 공급받는 제조회사가 있다. 현재 공급자 1로부터 65%의 원자재를 구매하고, 공급자 2로부터는 35%를 구매한다. 한편 그 동안 두 업체로부터 납품 받은 원자재의 품질은 아래와 같다.

편집
좋은 품질 비율(%) 나쁜 품질 비율(%)
공급자 1 98 2
공급자 2 95 5

그런데, 제품 생산 과정에서 어떤 원자재가 불량으로 나타났다. 그 원자재가 공급자 1로부터 왔을 확률은 얼마이고, 공급자 2로부터 왔을 확률은 얼마인가?

해제)

사건의 정의

X: 원자재의 품질 수준. x1=좋은 품질의 원자재, x2=나쁜 품질의 원자재

Y: 납품 공급자.  y1 = 공급자 1로부터 납품 받음, y2 = 공급자 2로부터 납품 받음

주어진 정보

이 문제 풀이의 첫 번째 관건은  표에 있는 데이터를 어떻게 해석할 것인가이다. 예컨대 공급자 1이 좋은 품질의 원자재를 납품할 확률은 98%이다. 이 진술은, 공급자가  1일 때(조건), 좋은 품질의 원자재일 확률, 즉, 조건부 확률이 0.98임을 말한다. [공급자가 1이면서 좋은 품질의 원자재를 납품할 확률(즉, 결합확률)을 의미하는 것이 아님에 유의할 것.]

이 문제 풀이의 두 번째 관건은 주변확률, 를 구할 수 있느냐이다. 역시 이 문제에서도 분모에 들어가는 조건 사건의 주변확률을 구하는 것이 관건이다.

문제를 베이즈 정리 형식으로 표현해 보자. 어떤 원자재가 불량(나쁜 품질)일 때, 그 원자재가 공급자 1로부터 왔을 확률은 다음과 같이 표시할 수 있다.

우변에서 먼저 분모에 있는 X=x2의 주변 확률을 구하자. 그것은 해당되는 결합확률을 모두 더한 값이다. 즉,

이다.

그런데 곱셈법칙(결합확률 = 주변확률 * 조건부 확률)에 의하면,

이 값들을 식 (3-2)에 대입하면,

우리는 식 (3-3)의 우변에 확률값을 모두 알고 있다. 그 값들을 대입해서 를 구하자.

다시 식 (3-1)로 돌아가서 확률값들을 대입한다.

즉, 원자재가 불량일 때, 그것이 공급자 1로부터 왔을 확률은 0.426이다. 그렇다면 공급자 2로부터 왔을 확률은 0.574(= 1-0.426)가 될 것이다.

공급자 1의 납품비율은 0.65이다. 이는, 추가 정보가 없는 상태에서 어떤 원자재를 지목했을 때 그것을 공급자 1이 납품했을 확률이 0.65라고 추정될 수 있음을 의미한다. 그런데 그 자재가 불량이라는 정보가 추가되니 그것을 공급자 1이 납품했을 확률이 0.426으로 떨어졌다. 사전정보(prior)은 0.65이고, 사후정보(posterior)는 0.426이다. 공급자 1이 납품한 원자재가 불량일 확률 0.02는 우도(likeihood)이다. 어떤 원자재가 불량일 확률(P(X = x2) 0.0305는 정규화 상수(normalizing constant)이다.

세 개의 예제를 가지고 베이즈 정리가 확장되어 어떻게 응용되는가를 알아보았다. 다음 포스팅에서는 베이즈 정리가 조건부 확률을 구하는 도구를 넘어서 과학 연구의 도구로 사용되는 논리적 근거를 살펴보자. (2020-10-20)

베이즈 통계(2): 조건부 확률 가지고 놀기

베이즈 통계는 조건부 확률(conditional probability)에서 출발한다. 때문에 조건부 확률은 베이즈 통계의 기초 중의 기초이다. 조건부 확률에 익숙해질수록 베이즈 통계가 가깝게 다가온다. 그래서 이번 포스팅에서는 조건부 확률을 가지고 좀 놀아보자.

베이즈 통계의 입문을 조건부 확률과 함께 시작한다는 것은 중요한 의미가 있다. 무엇보다 조건부 확률은 두 확률변수의 결합(joint 혹은 conjoint)이 전제된다. 이는 베이즈 통계가 두 변수 이상의 관계를 다룬다는 점을 시사한다. 빈도주의 통계의 적지 않은 부분이 한 변수에 관한 것이라는 점을 상기한다면 이는 가벼운 특성이 아님을 알 수 있다.

조건부 확률은 두 확률변수(X, Y라고 하자)가 있을 때, 그중 하나(e.g. X)가 발생할 때 다른 하나가 발생할 확률을 말한다. 조건부 확률은 아래와 같이 여러가지 방식으로 표기된다.

이 중 가장 간단한 로 표기로 시작하자. X가 발생할 때, Y가 발생할 확률이라고 읽는다(영어로는, probability of Y, given X occurs 혹은 그냥 간단히 probability of Y, given X라고 한다). X가 발생한다는 말은 X가 특정값(x)을 갖는다는 의미이며, Y가 발생한다는 말은 Y가 특정값(y)를 갖는다는 의미이다.

X, Y의 조건부 확률은 X, Y의 결합확률을 조건에 해당되는 변수의 주변확률로 나누어 얻는다. 확률에서 조건이란 어떤 확률변수의 범위에서 특정한 조건을 충족하는 범위만을 보겠다 혹은 관심을 갖겠다는 것이다. 결합확률(joint probability or conjoint probability)이란 두 확률변수가 동시에 발생하는 경우의 확률을 의미하며, 주변확률이란 결합확률이 주어졌을 때 두 변수 중 한 변수의 확률만을 가리킨다. 예를 가지고 보자.

미국 어느 대도시 경찰의 성별에 따른 승진 현황이 있다고 하자. 한 확률변수는 성별, 다른 하나의 확률변수는 승진 여부이다. 승진 현황은 다음과 같은 교차표로 요약된다.

논의를 간략히 하기 위해 사건을 다음과 정의한다.

X: 경찰관의 성별. = 남자, = 여자

Y: 경찰관의 승진 여부. = 승진, = 승진 탈락

이 표를 기호로 일반화하여 표기하면 다음과 같다.

이 빈도 교차표를 확률로 변환하려면 전체 경찰관 수(N)으로 각 칸을 나누어 주면 된다. 그러면 전체 합이 1인 값들로 바뀐다. 그런 의미에서 확률은 전체의 합을 1로 만드는 정규화(normalize)라고 말할 수 있다. 그렇게 해서 아래와 같은 결합확률표(joint probability table)를 얻었다.

여기서 두 확률변수의 결합확률은, 남자이면서 승진할 확률 0.24, 여자이면서 승진할 확률 0.03, 남자이면서 승진하지 못할 확률 0.56, 여자이면서 승진하지 못할 확률 0.17 네 개이다. 주변확률은 남자가 승진할 확률 0.80, 여자가 승진할 확률 0.20, 승진할 확률 0.27, 승진하지 못할 확률 0.73 네 개이다.

일반화를 위해 이 결합확률표는 다음과 같이 기호로 표시될 수 있다.

남자일 주변확률 은 남자일 때 승진하거나 승진하지 못한 확률을 모두 합한 값이다.  여자일 주변확률 은 여자일 때 승진하거나 승진하지 못한 확률을 모두 합한 값이다. 승진할 주변확률 은 승진할 때 남자이거나 여자일 확률을 모두 합한 값이다. 승진탈락의 주변확률 은 승진 탈락할 때 남자이거나 여자일 확률을 모두 합한 값이다.

주변확률에 대해 이렇게 장황하게 설명하는 것은 한 변수가 특정값을 가질 때 그 사건의 주변확률은 다른 변수의 모든 발생 확률을 더한 값이라는 사실을 보여주기 위해서이다.

앞에서 조건부 확률이란 한 변수가 발생할 때(즉, 특정값을 가질 때), 다른 변수가 발생할(다른 변수가 특정값을 가질) 확률이라고 했다. 만약 성별이 조건으로 주어진다면, 조건부 확률은, 경찰관이 남성일 때(혹은 반대로 경찰관이 여성일 때)에 국한해서 확률값을 계산하겠다는 것이다. 그러면 주변확률값을 1로 만드는 정규화를 하면 된다. 예컨대 경찰관이 남성일 때 승진할 확률을 구한다면, 그것은 라는 조건부 확률을 계산하겠다는 말이다. 그 조건부 확률은 남성이면서 승진할 확률(결합확률)을 남성인 주변확률로 나눈 값이다. 그것은 아래와 같이 표시할 수 있다.

어떤 경찰관이 남성일 때 승진에 탈락할 확률 도 마찬가지 방식으로 구할 수 있다.

기억하기 쉽게 말하자면, 조건부 확률은 결합확률 나누기 주변확률이다.

이번에는 조건을 바꾸어보자. 어떤 경찰관이 승진했다. 그 경찰관이 남성일() 확률 은 아래와 같을 것이다.

그런데, 만약 우리가 결합확률표를 구성할 수 없어 결합확률을 알지 못하고 대신에  역 조건부 확률(inverse conditional probability)과 두 확률변수의 주변확률을 알고 있을 때 조건부 확률을 구하는 방법을 생각해보자. 즉, 을 구하는데, , 을 알고 있다는 것이다. 식(2)에서 양변에 을 곱하면 다음과 같이 될 것이다.

그리고 교환법칙에 의해,

이므로, 식(1)의 우변 분자에 식(3)을 대입할 수 있다. 그러면 아래 식을 얻게 된다.

식(4)는 아래와 같이 일반화하여 간략히 쓸 수 있다.

드디어 베이즈 정리(Bayes’ theorem)가 도출되었다. 베이즈 정리는 결합확률을 모를 때 역조건부확률과 두 확률변수의 주변확률을 가지고 조건부 확률을 구하는 공식에 다름 아니다. 그런데, 이 간단한 공식의 응용범위가 놀랍도록 넓다. 그래서 그것은 정리의 자리를 꿰어찼다.

베이즈 정리를 보면 몇 가지 성질이 읽힌다.

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다.

이 성질은 논리적으로 다음과 같이 확장될 수 있다.

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다. –> 흔히 X는 데이터이고 Y는 모수(parameter)이다. 베이즈 정리는 데이터가 주어졌을 때 모수를 얻게 될 확률을 구하는 과정이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다. –> 역조건부 확률 우도(likelihood)라고 부른다. 흔히 그것은 경험적으로 주어진다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다. –> 여기서 를 데이터를 얻기 이전 확률이라는 의미에서 사전 확률(prior)이라고 부르고 를 데이터를 얻은 후 확률이라는 의미에서 사후확률(posterior)이라고부른다. 베이즈 정리에서 데이터를 포착해 주는 부분이 우도이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다. –> 정규화 상수라고 부른다.

조건부 확률을 가지고 꽤 멀리 왔다. 다음 포스팅에서는 예제를 가지고 확장된 베이즈 정리의 함축성을 찾아보자.(2020-10-19)

Solitude의 우리 말 역어는?

한글은 세상에서 가장 어휘가 풍부한 언어로 간주된다. 한글로 번역되지 않은 영어 표현이 별로 없지만, 영어로 번역이 불가능한 한글 표현은 엄청 많다는 사실이 그것을 방증한다.

그런데 유독 ‘혼자 있음’에 대한 우리말 어휘는 상대적으로 매우 빈곤하다. 혼자 있음은 그냥 단순히 홀로 있는 객관적 상태를 가리킬 수도 있고, 혼자 있어 외롭고 쓸쓸하다는 심리 상태까지 포함할 수도 있으며, 그와 반대로 혼자 있어서 편안하고 즐겁다는 심리 상태까지 나타낼 수도 있다. 영어로 isolation, lonliness, solitude라는 표현이 그 상황들에 각각 대응한다. 그렇다면 우리 말로는 그에 상응하는 표현이 무엇일까? 고립, 고독, ??? 세 번째 solitude에 해당되는 우리 말 표현이 생각나지 않는다. 내가 과문한 탓인가?

나는 그것이 내 어휘 부족 탓이라기보다 혼자 있음에 관한 우리 말 표현이 발달하지 못한 때문이라고 생각한다. “고독을 즐긴다”는 표현이 있지만, 그 말은 사실 형용 모순이다. 고독이라는 어휘가 외로움과 쓸쓸함의 정서를 담고 있는데, 그것을 어찌 즐긴단 말인가. 고독을 즐긴다는 말은 번거로운 사람관계에서 벗어나 혼자 있음으로서 느끼게 되는 한적함과 평안함을 즐긴다는 의미일 것이다.

혹시나 우리 사회에 는 집단의 일원이 되어야 한다는 사회적 압력, 그리고 ‘함께’ 살아야 한다는 강박관념이 존재하는 것이 아닐까? 그래서 적극적으로 고립을 선택하는 삶을 배격하는 것은 아닐까? 그리고 혼자 있음에 관한 표현의 빈곤은 바로 그런 사회적 배경 때문이 아닐까?

그야말로 1인 가구가 폭발적으로 증가하는 요즘같은 세상에 작가와 인문학자들은 혼자 있음에 대한 다양한 뉘앙스를 표현할 수 있는 새로운 어휘들을 발굴해주어야 할 것으로 생각된다.

나는 ‘고독사’라는 표현이 맘에 들지 않는다. 혼자 살다 죽는 것이 모두 외롭고 쓸쓸하게 죽는 것은 아니다. 그러한 죽음을 보는 사람들이, 기자들이 그렇게 감정이입하고 있을 뿐이리라. 고독사 대신  ‘고립 사망’ 혹은 ‘독사(死)‘, 아니면 그냥 ‘혼자 죽음’ 따위의 보다 중립적인 어휘로 바꿀 수는 없을까? 물론 그래봐야 혼자 있음에 대한 우리 사회의 선입견 혹은 편견이 지워지지 않겠지만 혼자 살다 혼자 죽는 현상에 대해 적극적은 아닐지라도 최대한 중립적으로 대해주면 안될까 하는 생각이 든다.

혼자 있다고 반드시 외롭고 쓸쓸하지 않다. 반대로 혼자 있어서 자유롭고 심지어 행복한 사람도 적지 않다. 제발 우리 사회가 그들의 삶을 마음대로 일방적으로 해석하지 않았으면 좋겠다.

일생동안 나는 혼자 있는 시간이 많았다. 학자라는 직업이 그러하고, 전원 생활이 그러하다. 30년이 넘는 직업 생활, 10년이 넘는 전원 생활이 모두 결혼 상태에서 보낸 세월이었지만 혼자 있는 시간이 많았다. 아내가 직장 생활을 하고 아이들은 일찍 집을 떠났으며, 직장이 먼 탓에 아내와 별도로 살림을 한 세월도 제법 길었다.

혼자 있음을 즐기지 못하면 좋은 학자가 되기 어렵다. 깊이 있게 그리고 집중적으로 생각하기 위해서 고립은 필수적이다. 연구실 혹은 서재에서 홀로 긴 시간을 충만하게 보낼 수 있는 사람이 학자에 적합하다.

혼자 있다고 폐쇄적인 것은 아니다. 미하일 바흐찐의 주장처럼 인간은 대화하는 존재이다. 사실 우리는 혼자 있어도 자주 대화한다. 자신 자신과도 대화하고, 인터넷이나 전화, 그리고 책이나 논문을 통해서 다른 연구자들과 소통하고, 이웃이나 친구와도 대화하고, 자연과도 소통한다.

학자는 그냥 적극적으로 혼자 있는 시간을 가지려 노력한다. 그것이 직업 생활에 필수적이기 때문이다.

그런데 그러한 적극적 고립을 어떤 어휘로 묘사할 수 있을까? 그것이 오늘 아침 내게 떠오른 의문이었다. (2020-10-19)

베이즈 통계(1): 서론

베이즈 통계에 입문할 때 사회과학도는 몇 가지 난관을 마주하게 된다. 배우고자 하는 사람 자신이 그것을 인식할 수도 있고 그렇지 못할 수도 있다. 필자의 경험으로는 후자가 많을 것 같으니 이 점을 확실히 지적해 두고자 한다. 특히 통계를 제법 많이 알고 있다고 자신하는 사람일수록 그 난관이 심각할 수도 있다. 그것은 기존의 사회통계와 베이즈 통계의 차이에서 기인한다. 그래서 빈도주의 통계와 베이즈 통계의 중요한 차이 몇 가지를 지적해 두고자 한다.

시작하기 전에 빈도주의자(frequentist), 베이즈주의자(Bayesian)라는 용어를 소개하겠다. 그것은 편을 가르기 위해서 나누는 것이 아니라 베이즈 통계를 명쾌하게 이해하기 위해서 필요하다고 생각되어 나누는 구분이다. 우리가 통상 사회통계 수업에서 배운 통계를 빈도주의(frequentist) 통계라고 명명하고, 지금부터 배울 통계를 베이즈 통계라고 부르겠다.

첫째, 베이즈 통계에서는 확률(probability)이라는 동일한 용어를 사용하지만 빈도주의 통계에서 사용하던 것과는 크게 다른 의미로 사용한다. 빈도주의 통계에서 학률이란 수학적으로 정의될 수도 있지만 보통 경험적으로 도출된다. 경험적 확률은 표본공간(sample space, 가능한 모든 결과)에서 우리가 관심을 갖는 사상(event)이 발생하는 빈도(frequency)의 비율로 계산된다. (그래서 빈도주의 통계 혹은 빈도주의 접근이라고 불리는구나 라고 생각해도 좋다.)

그런데, 베이즈주의자는 확률을 그보다 훨씬 다양한 의미로 사용한다. 그중 가장 널리 사용되는 의미는 어떤 사상(an event)의 발생 가능성에 대한 주관적인 믿음의 정도(subjective degree of belief)이다. 확률 개념에 객관적으로 계산된 빈도의 비율이 아니라 주관적인 믿음의 정도라는 의미가 추가되는 것이다.

그래서 무엇보다 사회통계에서 배운 좁은 의미의 확률 개념에서 벗어나야 한다. 그렇지 않으면 선험적 확률(a priori pobability), 사전적 확률(prior), 사후적 확률(posterior) 등과 같은 용어가 선뜻 수용되기 어려울 것이다.

둘째, 사회통계에서 베이즈 정리(Bayes’ theorem)라고 1시간 혹은 기껏해야 1주일쯤 다루고 넘어갔던 확률 법칙이 갑자기 한 학기 내내 배워야 하는 엄청나게 중요한 규칙으로 부상한다. 그러면서 확률분포가 매우 중요한 개념적 도구로 등장한다.

사회통계에서는 추리통계에 정규분포, t 분포, F 분포, 분포가 적용되지만 모수 추정이나 가설 검정 과정의 배경 정도로 사용될 뿐이다. 그 확률분포들에 대해 깊이 있게 이해하지 못해도 그것이 모수 추정이나 가설 검증에서 심각한 걸림돌이 되지 않는다.

그런데 베이즈 추론은 확률분포로 시작해서 확률분포로 끝난다고 해도 과언이 아닐 정도로 확률분포의 비중이 크다. 그래서 베이즈 통계에 입문하려면 확률분포부터 진지하게 공부해야 한다.

셋째, 추론(inference)의 의미가 다르다. 사회통계에서는 추론이란 모수 추정과 가설 검정이다. 즉, 표본 통계치(sample statistics)를 가지고 모집단의 평균을 추정하거나, 모집단의 평균에 대한 가설을 검정하는 것이다. 그렇게 해서 사회과학자들은 사회구조나 사회현상을 이해하고 사회 법칙을 발견한다. 표본통계치로부터 모수를 추론하는데 이론적 근거가 표집분포(sampling distribution)이다. 때문에 사회통계에서는 표집(혹은 표본추출)이 대단히 중요하다.

베이즈 통계에서 추론은 모수 추정이나 가설 검정보다 수치화된 예측 혹은 믿음이라는 의미로 더 자주 사용된다. 한 현상에 대해 우리가 어떤 믿음을 가지고 있는데, 새로운 데이터(증거)가 나타났을 때 그 믿음이 어떻게 달라질까(혹은 달라져야 하는가)가 베이즈 통계의 주요 관심사이다.

때문에 베이즈 통계에서는 선험적 믿음과 데이터(증거)라는 두 가지가 있어야 한다. 빈도주의 통계에서는 표본(통계치)과 모집단(모수)를 연결해주는 것이 표집분포 이론인 것처럼 베이즈 통계에서 사전확률(선험적 믿음)과 사후확률, 데이터와 예측을 연결해주는 것은 베이즈 정리이다.

넷째, 베이즈 통계는 빈도주의 통계와 달리 사회구조, 사회현상, 사회법칙 뿐 아니라 개인에 대한 예측에 사용될 수 있다.  예컨대 베이즈 통계는 어떤 중년 여성이 유방암 검사에서 양성 반응이 나왔는데, 그녀가 실제로 유방암에 걸렸을 가능성은 얼마나 될까 같은 의문에 대한 해답을 구하는 도구로 쓰일 수 있다.

다섯째, 베이즈 통계에서 데이터란 빈도주의 통계에서 말하는 의미의 표본 데이터일 수도 있지만 체계적으로 수집된 표본 데이터가 아닐 수도 있다. 그것은 다수의 데이터가 아니라 소수, 심지어 한 개의 사례일 수도 있다. 한 마디로 베이즈 통계에서는 데이터의 과학적 표집(표본추출)에 빈도주의 통계만큼 크게 의존하지 않는다.

베이즈 통계를 빈도주의 통계에 대치시키는 경우가 적지 않다. 통계학의 역사를 보면 충분히 이해할만한 현상이지만, 필자는 베이즈 통계가 빈도주의 통계를 대체하기보다는 확장한다고 생각한다. 베이즈 통계가 사회과학에 있어 통계의 쓰임새를 넓혀준다는 말이다. 유연하고 열린 마음으로 베이즈 통계에 접근한다면 그것은 우리의 과학적 도구 창고를 보다 풍부하게 만들어 줄 것이다. (2020-10-18).

결합확률분포, 주변확률분포, 조건부확률분포: 연속확률변수

앞에 게시한 세 개의 글(결합확률, 주변확률, 조건부확률: 이산확률변수결합확률분포: 이산확률변수주변확률분포, 조건부확률분포: 이산확률변수)은 이산확률변수에 집중했다. 이 블로그의 주요 독자인 인문사회학도의 수학적 배경이 약하기 때문에 연속확률변수까지 한꺼번에 논의하면, 수학적 부담이 장해로 작용하리라 생각되었다. 그래서 이산확률변수에 논의를 한정해서 결합확률분포와 조건부확률분포를 개념적으로 소개하는데 촛점을 맞추었다. 이제 개념적인 소개를 마쳤기 때문에 그 염려를 털어버리고 이산확률변수에서의 논의를 연속확률변수까지 확장해 보자. 그리고 앞 게시글 사회통계를 위한 미적분 복습에 기초 수학을 정리해 두었으니 필요한 독자는 참고 바란다.

확률변수 X와 Y가 있을 때, 결합확률밀도함수(joint pdf)는 다음과 같이 성질을 갖는다.

<X, Y가 이산확률변수인 경우>

(1) 

<X, Y가 연속확률변수인 경우>

(1) : 모든 x, y에 대하여 결합확률함수가 양의 실수이다. 결합확률함수는 확률이기 때문에 0보다 크다.

(2) : 특정한 영역(A)를 고려했을때, 그 영역에 대한 확률은그 영역에 대해 결합확률함수의 적분값을 구하면 된다. 그런데 변수가 두 개이므로 이중적분(혹은 중적분)을 해야 한다. 즉, 안쪽 변수인 x에 대해 먼저 적분하고 그렇게 해서 얻은 값을 다시 바깥쪽 변수인 y에 대해 적분한다.

(3) : X, Y 모든 범위에 대한 적분값은 1이다.

결합누적확률밀도함수

결합누적확률밀도함수(joint cdf)는 아래와 같다. 결합누적확률밀도함수는 대문자로 표시한다.

<X, Y가 이산확률변수인 경우>

<X, Y가 연속확률변수인 경우>

(합)처럼 (적분)도 정의역의 가장 작은 값부터의 누적을 나타낸다. 다만 는 이산적(discrete)인 수의 합이지만, 는 연속적(continuous)인 수의 합이란 점에 차이가 있을 뿐이다. 결합확률분포에서는 시그마도 적분도 누적합이다.

주변확률함수

<X, Y가 이산확률변수인 경우>

X의 주변확률함수(ㅡmarginal pdf)는 일 때 모든 Y 값에 대한 결합확률함수 의 합이다.

 Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수 의 합이다.

<X, Y가 연속확률변수의 경우>

연속확률변수 X, Y의 결합확률밀도함수가 주어졌을 때, X만을 고려하는 확률 는 결합확률분포에서는 를 의미한다. 따라서 다음과 같이 된다.

여기서

라고 하면,

Y의 주변확률함수도 동일한 방식으로 정의된다. 따라서 X, Y의 주변확률함수는 다음과 같이 간략히 요약할 수 있을 것이다.

X의 주변확률함수는 일 때 모든 Y 값에 대한 결합확률함수의 적분이다.

Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수의 적분이다.

조건부확률함수

연속확률변수일 때 조건부확률함수에 대한 정의는 이산확률변수일 때와 같다. 즉,  조건부확률분포는 결합확률분포를 주변확률분포로 나눈 값이다.

이 주어졌을 때 확률변수 Y의 조건부확률분포는 결합확률분포를 X의 주변확률분포로 나누면 구해진다.

가 주어졌을 때 확률변수 X의 조건부확률분포도 마찬가지로 구할 수 있다.

다만 이산확률변수에서는 가 각각 확률을 가리키지만, 연속확률변수에서는 확률의 밀도(혹은 변화율)을 가리키는 점이 다르다.

예제 1) 결합 pdf 가 다음과 같을 때 상수 c는 얼마인가?

해제) x, y 모든 범위에 대한 적분값이 1이므로,

좌변을 풀면,

예제 2) 연속확률변수 X와 Y의 결합확률함수가 아래와 같을 때 다음을 구하시오.

(1) 두 확률변수 X, Y의 주변확률밀도함수(주변 pdf)를 구하시오.

해제)

(2) 확률  을 구하시오.

해제)

(3) 을 각각 구하시오.

이는 주변확률함수를 구하라는 문제이다. 앞의 (1)에서 구해놓은 주변확률함수를 이용한다.

예제 3) 연속확률변수 X, Y의 결합 pdf가 

일 때 다음 확률을 구하시오.

(1) 

(2) 

해제) 결합확률함수는 주어졌으니 주변확률함수를 구하면 조건부확률함수가 도출된다.

(1) X 값(x)가 Y 값(y) 보다 작아야 한다는 조건에 유념하자. 이 문제의 경우 X 값은 항상 Y 값보다 작을 것이니 조건부확률함수를 적용하면 된다.

(2) 이 문제의 경우 Y 값이 1/2이니 X 값은 0 < x < 1/2이어야 한다. 그런데 0 < x < 3/4의 확률 구해야 하니 문제다. 그 경우 0 < x < 1/2보다 큰 X 값, 즉, 1/2 <= x < 3/4에서는 적분 값이 0이다. 따라서 적분을 X에 대해 두 구간으로 나누어 계산해야 한다.

시내 병원에 가는 날

특별히 건강한 사람이 아닌 다음에야 늙은이는 병원에 자주 간다. 나도 한 달에 한 두번은 병원에 가야한다. 한 달에 한번은 읍내에 있는 내과에 들려 몇 가지 질환에 대해 진찰을 받고 약을 타야하며, 한 달에 한 두번은 멀리 광주 시내에 있는 병원들에 가서 주기적으로 진찰을 받고 약을 받아야 한다.

읍내에 가든 광주에 가든 병원 가는 날은 나가서 여러 가지 일을 함께 처리한다. 가급적 읍내나 시내에 가는 횟수를 줄일려고 노력하다보니 중요한 외출을 중심으로 일을 묶어서 하는 것이다.

오늘은 광주 시내의 병원에 가는 날이다. 한 40km 정도를 가야하기 때문에 비교적 큰 외출에 속한다. 내 일상은 통상 반경 30km를 넘지 않는다.

큰 외출에는 약간의 기대나 궁금함 심지어 설레임도 있다. 의사 선생이 내 병에 대해 무어라고 언급할까 하는 궁금함, 병을 잘 관리하고 있다고 칭찬해 주지 않을까 하는 기대, 그리고 대도시에만 맛볼 수 있는 음식을 먹을 수 있다는 설레임도 있다. 큰 외출이라고 해야 고작 서너 시간에 불과하지만 시골 거주자에게는 생활에 약간의 변화를 줄 수 있는 순간이다.

은퇴 후 시골 생활이 재직시의 도시 생활과 가장 크게 다른 점은 아마도 쇼핑이 사라졌다는 점일 것이다. 대부분의 일상 용품은 인터넷으로 구매하고 옷가지 정도나 시내에 나가 골라야 하는데 옷을 사지 않으니 시내에서 쇼핑할 일이 거의 없다. 직장에 출근하지 않으니 아내도 나도 옷을 구입하지 않는다. 옷장에 걸려있는 외출복들을 충분히 입고나서 여생을 마칠 수 있을 지가 오히려 고민이라면 고민이다.

이런 이유 때문에 시내 병원에 가는 날은 내게(아마도 식구들에게도) 즐거운 날이다.

“여보, 우리 라이프 스타일을 미니멀리즘이라고 해도 되지 않을까?”라고 내가 묻자 아내가 머리를 젓는다.

아냬: “에고, 무슨 미니멀리즘…편리한 것 좋아하고, 이렇게 가진 게 많은데…”

나: “맞아. 그래도 의식주 중 ‘의’와 ‘식’은 그렇게 봐도 되지 않을까….”

아내: “그래요. 뭐, 그 정도는.” (2020-10-16)