주변확률분포, 조건부확률분포: 이산확률변수

이산확률변수 X, Y가 결합확률분포를 가질 때, 주변확률함수는 다음과 같이 정의된다. 앞 게시글에서 제시한 주변확률의 정의와 논리적으로 다르지 않다. 확률 대신 함수가 들어왔을 뿐이다.

X의 주변확률함수(ㅡmarginal pdf)는 일 때 모든 Y 값에 대한 결합확률함수 의 합이다.

Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수 의 합이다.

아래 이산결합확률분포표에서 ‘계’ 열과 ‘계’ 행이 주변확률밀도함수이다.

결합확률함수와 주변확률함수를 알면 조건부확률분포를 구할 수 있다. 조건부확률분포(conditional probability distribution)는 결합확률분포를 주변확률분포로 나눈 값이다.

이 주어졌을 때 확률변수 Y의 조건부확률분포는 결합확률분포를 X의 주변확률분포로 나누면 구해진다.

예제 1) 결합확률함수 가 다음과 같다.

Y =1 일 때, 조건부확률함수를 구하시오.

해제) 결합확률분포표를 구한다.

예제 2) 주사위를 던져 나온 수가 짝수이면 X = 1, 홀수이면 X = 0이다. 그리고 주사위를 던져 나온 수가 소수이면 Y =1, 소수가 아니면 Y = 0이다. 결합확률함수를 구해보자. X와 Y의 결합확률밀도함수 는 다음과 같다.

, ,

주사위를 던져 나온 수가 짝수일 때, 조건부확률함수를 구하시오.

해제) 주사위를 던져 나온 수가 짝수일 때이니, X = 1이라는 말이다.

즉, 주사위를 던져 나온 수가 짝수일 때, 그 수가 소수일 확률은 1/3이고, 그 수가 소수가 아닐 확률은 2/3이다.

결합확률분포: 이산확률변수

앞 포스팅에서 두 확률변수가 관계될 때 출현하는 세 가지 확률인 결합확률, 주변확률, 조건부 확률에 대해 공부했다. 결합확률은 두 확률변수의 교집합(동시 발생)이 발생할 확률이고, 주변확률은 결합확률표에서 하나의 확률변수의 특정한 값이 발생하는 확률이며, 조건부 확률은 하나의 확률변수의 특정 값이 주어졌을 때, 다른 하나의 확률변수의 특정 값이 발생할 확률이다.

두 확률변수의 관계에 관한 이 논의는 확률분포에까지 확장할 수 있다. 즉, 결합확률분포, 주변확률분포, 조건부 확률분포를 생각할 수 있다. 확률변수의 확률분포는 확률변수의 값에 확률이 어떻게 부여되는 지를 말해준다. 즉, 확률분포를 구하면 다양한 사상의 확률을 알 수 있다. 그리고 확률분포는 확률함수로 정의될 수 있으니, 위 세 가지 확률분포는 각각 결합확률(밀도)함수, 주변확률(밀도)함수, 조건부 확률(밀도)함수로 정의될 것이다.

두 개의 이산확률변수 X와 Y가 있다고 하자. 각 확률변수는 확률분포를 갖고 그것은 확률(밀도)함수(이산확률변수일 때는 확률질량함수라고 쓰기도 함)에 의해 정의된다. 결합확률분포는 이산확률변수가 두 개인 확률(밀도)함수로 생각하면 된다.

X가 의 값을 갖고, Y가 의 값을 가질 때,

를 만족하는 를 이산확률변수 X, Y의 결합확률(밀도)함수라고 한다. 표기가 좀 복잡해서 통상 아래 첨자(subscipt)을 떼버리고 위 식을 아래와 같이 간략히 쓴다.

더 간단히 라고 쓰기도 한다. 두 확률변수 X, Y의 동시 발생에 대한 확률분포는 두 확률함수 X, Y의 범위 내에서 어떤 쌍의 값에 대해서도 값을 갖는 함수에 의해 표시된다. 그리고 이 함수를 X, Y의 결합확률분포(joint probability distribution)라고 한다.

표기법에 대해 한 마디. 변수가 많아지면 함수의 표기가 복잡해진다. 확률에서 식은 가급적 간단히 표기하는 데 특별히 강조해야 할 경우에는 복잡한 표기법도 사용한다. 예컨대 관계된 확률변수가 X와 Y임을 분명하게 나타내고 싶으면 결합확률함수를 라고 표기한다. 그렇지 않은 경우에는 그냥 간단히 라고만 써도 충분하다. 여러가지 복잡하면, 확률변수는 대문자(e.g. X, Y)로 표시하고 확률변수의 값은 소문자(e.g. x, y)로 표시한다는 정도만 기억해두자.

결합확률(밀도)함수(joint pdf)는 세 가지 성질을 갖고 있다.

:  결합확률함수는 X가 x이고, 동시에 Y가 y인 사상에 대한 확률을 준다.

: X와 Y의 모든 값에 대해 결합확률함수는 0과 1 사이의 값을 갖는다. 결합확률함수는 확률이니까 당연히 0과 1 사이의 값을 갖는다.

: X와 Y가 가진 범위에서 결합확률함수를 모두 더 하면 1이다. 결합확률함수는 확률이니까 당연히 확률 전체의 합은 1이다.

두 확률변수 X,Y에 대해 결합누적확률분포(joint accumulative probability distribution)는 다음과 같이 정의된다.

확률밀도함수는 소문자 f로, 누적확률분포는 대문자 F로 표기된다. 때문에 간략히 로 표기해도 로 이해 된다. 누적확률분포는 정의역의 가장 작은 값부터 지정 값까지의 확률을 모두 더해 계산된다. 그것은 확률변수가 두 개일 때나 하나일 때나 마찬가지이다. 두 개일 때는 계산이 좀 더 복잡해질 뿐이다.

X가 특정 구간 내의 값을 갖고, 동시에 Y도 특정 구간 내의 값을 갖는 결합누적확률은 결합누적확률분포함수에 의해 다음과 같이 구해진다.

예제 1) 주사위를 던져 나온 수가 짝수이면 X = 1, 홀수이면 X = 0이다. 그리고 주사위를 던져 나온 수가 소수이면 Y =1, 소수가 아니면 Y = 0이다. 결합확률함수를 구해보자.

해제) 이 결과를 표로 만들면 다음과 같을 것이다.

 123456
X010101
Y011010

X와 Y의 결합확률밀도함수 는 다음과 같다.

이 결합확률함수를 모두 더 하면 1이다.

예제 2) 주사위를 던졌을 때, X는 윗면의 숫자이고, Y는 밑면의 숫자이다. X와 Y의 결합확률함수를 구하라.  

해제) x = {1, 2, 3, 4, 5, 6}, y = {1, 2, 3, 4, 5, 6}, 주사위의 윗면과 밑면의 수의 합은 항상 7이다. 즉, 이다.

이 결합확률의 합은 1이다.

예제 3) 내부가 보이지 않는 박스 안에 파란색 볼펜 3개, 붉은색 볼펜 2개, 초록색 볼펜 3개가 들어 있다. 무작위로 2개의 볼펜을 뽑았을 때, 파란색 볼펜과 붉은색 볼펜이 함께 뽑힐 결합확률함수를 구하시오. 파란색 볼펜이 뽑히는 수효는 X, 붉은색 볼펜이 뽑히는 수효는 Y라고 하자.

해제)  x = {0, 1, 2}, y = {0, 1, 2},

예제 4) 결합확률함수 가 다음과 같다.

결합누적확률함수를 구하시오.

해제) 위에서 제시한 공식을 적용하면 다음과 같다.

예제 5) 아래는 확률변수 X, Y의 결합확률밀도함수를 표로 나타낸 것이다. 이 표의 정보를 가지고 결합누적확률함수를 구하시오.

 Y=2Y=4Y=6Y=8
X=100.100.1
X=3000.20
X=50.3000.15
X=7000.150

해제) 위에 제시한 공식을 적용하면 결합누적확률함수는 다음과 같다.

, , ,

,

,

이를 간략히 표로 나타내면 아래와 같다.

은퇴자의 시간

지금 아내와 내게 가장 소중한 자산은 시간이다. 신께서 우리에게 허용하신 시간이 얼마나 남아 있는 지는 전혀 알 수 없지만 나날이 남은 시간이 줄어들고 있다는 것만은 틀림없는 사실이다.

현직에 있을 때만 바쁜 줄 알았는데 은퇴자에게도 고정 지출 시간이 크게 줄 지 않는다. 여전히 하루에 적어도 3분의 1은 수면, 식사, 세면 등 재생산을 위한 기초활동에 나간다. 또한 특별한 일이 없는 한 매일 하루에 30분은 아내와 커피나 차를 마시면서 보낸다. 그것도 달라지지 않았다. 커피마실 때 마음이 여유로울 뿐이다. 적어도 한 달에 두 번 병원에 가는 것도 마찬가지이다. 친구나 이웃과 보내는 시간도 주당 5시간 정도로 거의 비슷하다. 매일 1시간 정도의 산책 시간도 고정이다. 이전 보다 좀 더 여유롭게 하늘, 구름, 해, 달, 별, 논, 밭, 숲 따위를 바라보고 느낄 뿐이다. 학자로서 생활하는데 보내는 시간도 여전하지만 많이 줄어들었다. 하루에 4시간 정도를 넘지 않는 것 같다.

달라진 점은 무엇보다 매일 1시간 남짓을 가드닝에 쓴다는 것이다. 한 겨울을 빼고는 매일 정원에 있는 잔디, 꽃, 나무를 보살피려 하고 있다. 심신의 건강에 아주 좋은 것 같다.

당분간은 주중에 하루 세 시간 정도 산행에 시간을 보낼 것이다. 등산 스틱이 무릎 통증의 예방에 도움이 되길 바랄 뿐이다.

은퇴 후에 음악을 듣고, 영화를 보거나 뉴스를 읽는데 보내는 시간도 많이 늘었다. 하루에 2-3시간은 거기에 쓰는 것 같다.

그 밖에 한 달에 한번은 여행을 간다. 팬데믹 때문에 멀리는 못가지만 시간상으로 최소한 하루 정도 걸리는 여행은 한다.

공부하고 글쓰는 학자로서의 시간이 현직에 있을 때는 대부분 생업에 사용되었지만, 지금은 대부분 봉사에 사용된다. 약간의 시간만 재정 수입을 위한 강의에 사용될 뿐이다. 이점은 적지 않은 변화이다.

다음 주부터는 아내와 함께 점토 공예를 시작하기로 했으니 하루에 1-2시간은 거기에 쓸 것이다. 오늘 작업 공간을 준비했으니 점토와 도구만 오면 바로 시작할 수 있을 것이다.

이렇게 살펴보니 은퇴자의 생활이 시간상으로 그다지 여유롭지 않다. 실제 하루가 참 빨리 지나가고 일주일, 한 달, 심지어 1년도 금세 지나가는 것 같다. 지구 여행 자체도 그렇게 잠깐일 것이다. (2020-10-10).

산행

우리나라에서 은퇴자들이 가장 많이 즐기는 일상은 아마도 산행일 것이다. 아내와 나도 산행 대열에 나섰다.

집에서 승용차로 10분만 가면 축령산 입구이다. 우리가 현재의 거주지로 이사 온 가장 큰 이유 중 하나는 바로 축령산의 접근성이었다. 그럼에도 불구하고 이사 온 지 8년 동안 축령산에 오른 것은 1년에 한 번 정도였다.

10여 년 전 오른쪽 다리의 연골이 닳아서 등산을 멈춘 후 산을 좀 멀리했다. 하지만 이제 서두르거나 무리할 필요가 없는데 등산을 다니지 않을 이유가 없다.

“일주일에 몇 번은 2-3시간씩 축령산을 걸으면 어떨까요?”

그제 아침 커피를 마시며 아내에게 제안했다. 그렇게 해서 우리는 은퇴 후 등산을 처음 시작했다.

아내가 너무 좋아했다. 물론 나도 좋았다. 주변 경치를 실컷 느끼며 걸었다. 세상사에 쫓기지 않으면서 산행을 다니는 맛이 이것이구나 하는 생각이 들었다.

울창한 편백 숲에 난 호젓한 임도가 홀연히 우리를 영화 속의 주인공으로 만들어 놓았다. 이렇게 좋은 산과 숲을 지근거리에 두고 있는데 무엇을 더 바랄 것인가.

어제는 조금 늦은시간에 축령산에 올랐다. 사람들이 그제보다 더 없었다. 사람들을 마주칠 때마다 마스크를 써야 해서 여간 불편하지 않았는데 다행이었다.

어제는 숲속  평상에 누웠다. 함께 간 둘째가 평상에 누워보고 싶다고 했다. 50여 미터는 실히 될 나무들이 하늘로 쭉쭉 뻗어 있는 모습이 한 눈에 들어왔다.

오후에 3 시간을 산행에 쓰니 아내도 나도 갑자기 바빠졌다. 그래도 산행은 그럴만한 충분한 가치가 있는 시간이지 싶다. 산행이 무엇보다 내가 매일 복용하는 약의 양을 줄여주었으면 좋겠다.

첫날 산을 내려오다가 아내가 무릎이 시큰거린다고 불편해 했다. 그래서 당장에 등산 스틱을 주문하고 어제는 임시 스틱을 쓰게 했다. 아내가 훨씬 편안해 했다. 등산 스틱이 배달되면 다음 주부터는 아내도 나도 좀 더 편안하게 산을 내려올 수 있을 것이다. (2020-10-09)

삶에서 시간이란?

여행을 나가면 누구나 시간의 소중함을 느낀다. 여행 기간이 제한되어 있을 뿐 아니라 시간이 곧 비용이기 때문이다. 여행 시간을 변경하거나 확장하는 것이 누구에게나 쉽지 않지 않는가. 시간 밖에 없다고 여겨지는 은퇴자에게도 그것은 마찬가지이다.

우리는 누구나 지구 행성에 여행자로 왔다간다. 모든 여행이 그렇듯이 ‘지구 여행’, 즉, 우리의 삶도 시작이 있고 끝이 있다. 인간은 본질적으로 유한한 시간을 가진 여행자이다.   

일상 여행과 지구 여행(인생)은 공통점과 차이점을 가지고 있다.  두 여행의 공통점은 시간적으로 유한하고 여행의 끝이 다가오면 여행에 대한 아쉬움이 커진다는 사실일 것이다. 두 여행의 차이점은, 일상 여행에서는 여행자가 여행 중 내내 여행 전체를 시간적으로 실감하는 반면, 지구 여행에서 여행자는 거의 여행의 종착점에 이를 때까지 여행 전체를 시간적으로 체감하지 못한다는 사실일 것이다.

통상적으로 인간의 시간 체감의 범위는 며칠, 몇 주일, 길어봐야 1년을 넘지 못한다. 1년을 넘어가면 시간에 대한 분별이 희미해진다. 사람들은 1년과 2년, 1년과 5년, 1년과 100년, 심지어 1년과 무한대 사이의 차이를 선명하게 구분하지 못한다.

그러한 시간 인식의 한계 때문에 우리는 한 백년, 아니 영원히 살 것처럼 행동하고 있는 지도 모른다. 우리가 지구여행의 시간적 종착점을 알 수 있다면 무엇이 중요한지에 대한 우선순위가 바뀌고 세상에 대해 훨씬 너그러워질 지도 모른다. 사실 암 같은 질병으로 인해 의사로부터 남은 시간을 ‘선고’받은 사람들이 적지 않다. 그들의 생각과 행동이 일반 사람들과 다르지 않는가.

은퇴자가 가진 것은 시간 뿐이지만 그 시간이 많지는 않다. 그러나 대부분의 은퇴자는 자신에게 시간이라는 자산이 많이 남아 있지 않다는 사실을 인지하지 못하는 것 같다. 그들에게 시간이란 하릴없이 메꾸어야 하는 구덩이이다. 아침이 되면 그 구덩이는 다시 생겨나고 은퇴자는 매일 그 구덩이를 메꿔야 한다. 지구 여행이 끝나는 날까지 말이다.

그런데, 만약 우리가 오늘, 이 순간이 수많은 사람들이 가지고자 소망했던 축복이며 선물이라는 사실을 깨닫는다면, 여행의 끝에 다다르지 않더라도 우리는 지구 여행 전체를 조망하면서 살 수 있을 지도 모른다. 그렇게 되면 우리는 더 의미있고 가치있게 여생을 보내고자 할 것이다.

사실 시간에서는 길이보다 밀도가 중요하고, 양보다 질이 중요하다. 그런 점에서 시간은 객관적이기보다 주관적이다. 어떤 사람의 하루가 다른 사람의 1년만큼 가치가 있을 수 있으며, 오늘 하루가 지난 생애의 전부 혹은 남은 생애의 전부 만큼 가치가 있을 수 있다.

현재(present)라는 이 소중한 선물(present)을 어떻게 사용할 것인가. 은퇴자에게도 그것이 문제이다. 만약 시간에 대한 인식을 바꿀 수 있다면 그것이 구덩이를 메꾸는 문제가 아니라 새로운 여행을 설계하는 문제가 될 것이다. 얼마나 신나는 일인가.

시간에 대한 관념만 바꾸어도 은퇴자의 삶은 한층 풍요로워질 수 있다. (2020-10-08)

삶에서 집이란 공간은?

지난 달 사랑채를 완성하고 살림을 그곳으로 옭겨간 후에 안채는 온전한 작업 공간이 되었다. 필암문화원 간판을 달기는 했지만 팬데믹 때문에 아직 그것을 실체화하지 못하고 있으니 나만의 공간이라고 해도 과언이 아니다.

돌이켜 보면 고등학교를 졸업한 이후 마흔 둘에 교수직을 얻을 때까지 20년 이상 동안 나만의 공간을 가져본 적이 없었다. 얼마나 간절히 소망했던 환경이었던가. 그래서 주중에는 늦은 밤까지, 그리고 주말에도 연구실에 나와 있었다. 누구한테도 방해받지 않고 마음껏 연구하고 쉴 수 있는 공간을 마흔이 넘어서야 가질 수 있었으니 얼마나 좋았겠는가.

그러나 교수 연구실은 내 마음대로 꾸미거나 무엇이든 할 수 있는 공간은 아니었다. 눈에 보이지 않지만 여러가지 제약이 있었다. 예컨대 크게 음악을 들을 수 없고 복장도 맘대로 하고 있을 수도 없었다.

얘들이 많은 탓에 집은 컸지만 나만의 서재가 없었다. 그래서 나는 오랫동안 거실을 서재로 사용했다. 10여년 전 아이들이 미국으로 떠나고 나서야 비로소 집에 나만의 공간을 갖는 여유가 생겼다. 50대 중반이 되어서야 집에 ‘서재’라고 부를 만한 공간이 생긴 것이었다.

‘서재’도 온전히 자유로운 공간은 아니다. 집에 아내가 함께 있으니 음악을 크게 틀 수 없고 큰 소리를 지를 수도 없다. 강의 녹음이나 녹화도 자유롭지 않다. 그리고 아내의 눈치 때문에 마음껏 게으름을 피울 수도 없다.

그런데 지난 달부터 온전한 집 한 채가 생긴 것이었다. 태어나서 65년만에 내가 정말로 누구한테도 방해받지 않고 무엇이든 할 수 있는 공간이 주어졌다. 아무리 크게 음악을 틀어도, 아무리 게으름을 피워도, 또 아무리 밤늦게까지 연구를 해도 신경 쓸 일이 없다.

공간은 내게 자유와 책임을 동시에 가져왔다. 한 마디로 완전히 자율적인 삶을 안긴 것이다. 과연 나는 이 자율이라는 선물을 갖고 무엇을 할 것인가? 그것부터 자율적으로 결정해야 할 것이다.

공간이란 삶의 모습을 결정짓는 구조적 요인 중 하나임에 분명하다. 집은 공간 중 개인적인 수준의 영역이다. 마을이나 지역사회, 나아가 국가와 같이 공적인 수준의 영역도 존재한다. 사생활(privacy)이 존재하기 위해서는 개인적인 공간이 반드시 필요하다. 타인의 시선으로부터, 타인의 간섭으로부터 자유로운 공간 없이 온전한 사생활도 자율적인 삶도 존재할 수 없다. 집은 단순히 재생산을 위한 공간이 아니라 근본적으로 인간의 자유와 자율을 위한 최후의 버팀목이다.

그런데 우리 사회에서는 언제부터인가 집이 투자와 투기의 대상으로 전락했다. 집이 본원적 가치가 아닌 교환적 가치로만 인식되고 있는 것이다. 집이 자율적인 삶의 조건 대신 가치 증식의 수단으로 여겨지고 있다. 참으로 안타까운 현상이 아닐 수 없다. (2020-10-07).

결합확률, 주변확률, 조건부 확률: 이산확률변수

교차표(cross-table)

두 개의 이산확률변수 X, Y가 결합하여 아래와 같은 교차표가 형성되었다고 하자.

각 칸(cell)에는 두 확률변수 값()을 충족하는 사상(事象, event)이 들어간다. 그것을 총 사상의 수효인 N에 대비하여  로 표시하자. 관행에 따라 확률변수는 대문자로, 확률변수의 값은 소문자로 표기한다.

결합확률(joint probability)

두 확률변수의 결합확률은 아래와 같이 표시된다. 두 확률변수의 결합확률은 두 확률변수의 교집합이 발생할 확률이다.

또한 확률은 항상 0과 1 사이의 값을 갖는다. 따라서 확률로 나타낸다는 것은 사상의 수를 0과 1 사이 값으로 정규화(normalization)한다고 말할 수 있다. 정규화를 하면 사상 값들의 총합은 1이다. 각 사상의 수( )를 총 사상의 수 N으로 나누면 사상의 수가 모두 0과 1 사이의 값으로 정규화된다. N은 정규화 상수(normalizing constant)라고 말할 수 있다. 결합확률은 사상의 수가 정규화된 값이다.

결합확률표(joint probability table)

주변확률(marginal probability)

주변확률은 결합확률이 있다는 조건에서 존재한다. 이산형 확률변수의 경우 두 개(혹은 그 이상)의 확률변수로 구성된 결합확률표에 존재한다. 위 결합확률표에서 한 확률변수의 확률만을 고려하는 것이 주변확률이다. 진한 파랑색으로 된 부분이 주변확률이다. 위 결합확률표에서 확률변수 X, Y 중 X 혹은 Y 하나만 고려하면 주변확률이 나온다. X의 주변확률은 특정한 X 값에 속하는 X, Y 결합확률 값을 모두 합한 것이다. 위 결합확률표에서 여섯 개의 주변확률은 다음과 같이 계산된다.

확률변수 X, Y의 결합확률을 일반화시켜서 나타내면 아래와 같다.

조건부 확률(conditional probability)

확률변수 두 개(혹은 그 이상)가 있다. 하나 확률변수의 특정 값(e.g. )이 주어졌을 때, 다른 하나 확률변수의 특정 값(e.g. )이 나타날 확률이 조건부 확률이다. 흔히 조건부 확률은 다음과 같이 표기된다.

하나의 확률변수 값()이 주어졌기 때문에, 전체 사상(N) 대신 오직 그 값의 사상()만 고려된다. 즉, 가 정규화 상수가 된다. 결합확률과 주변확률의 경우에는 N이 정규화 상수였다. 다시 말해 N이 1이 되는 것이 아니라 가 1이 된다.

위 결합확률표를 가지고 예를 들어보자. 확률변수 X가 3일 때 조건부 확률은 세 가지가 있을 것이다. Y가 1인 경우, Y가 2인 경우, Y가 3인 경우이다. 조건부 확률을 구하려면, X가 3인 열의 칸을 모두 P(X = 3)으로 나누어 주면 된다.

그러면 아래 결합확률표의 주황색 열처럼 될 것이다. 조건부 확률은 결합확률을 주변확률로 나눈 값이다.

조건부 확률을 합하면 1이다.

조건부 확률은 다음과 같이 일반화하여 표시될 수 있을 것이다.

개념적으로 설명했으니  이제 예제를 가지고 이해해 보자. 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀를 구분해 정리한 자료이다.

 X = x1X = x2
Y = y128836324
Y = y2672204876
9602401,200

사건의 정의:

확률변수 = 성별: = 남성, = 여성

확률변수 = 승진 여부: = 승진,  = 승진탈락

이 데이터를 가지고 결합확률표를 구해보자. 각 칸(사상)의 빈도수()를 총 빈도수(N)로 나누어 0과 1 사이로 정규화하면 그것이 결합확률이다. 그렇게 해서 구한 결합확률표는 아래와 같다.

 X = x1X = x2P(Y = yi)
Y = y10.240.030.27
Y = y20.560.170.73
P(X = xi)0.800.201.00

결합확률표에서 각 열의 결합확률을 더하면 성별의 주변확률이 구해지고, 각 행의 결합확률을 더하면 승진여부의 주변확률이 구해진다. 주변확률도 전체 사상수에 의해 정규화되어 있어 열의 주변확률을 모두 더한 값도 1이고 행의 주변확률을 모두 더한 값도 1이다.

그렇다면 어떤 경찰관이 여성일 때, 그 경찰관이 승진할 확률은 얼마이겠는가? 조건부 확률을 묻는 문제이다.

이 조건부 확률은, 여성이면서 승진한 경찰관일 확률이라는 결합확률(0.03)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.15이다.

어떤 경찰관이 여성일 때, 그 경찰관이 승진하지 못할 확률은? 이것도 조건부 확률 문제이다.

여성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.17)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.85이다.

이 두 개의 조건부 확률을 합하면 1이다. 조건부확률이란 주변확률을 1로 만든 것이니 당연한 결과이다.

남성 경찰관은 어떨까?

어떤 경찰관이 남성일 때, 그 경찰관이 승진할 확률은? 남성이면서 승진한 경찰관일 확률이라는 결합확률(0.24)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.3이다.

어떤 경찰관이 남성일 때, 그 경찰관이 승진하지 못할 확률은? 남성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.56)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.7이다.

이 두 조건부 확률을 더하면 1이다.

여성 경찰관이 승진할 확률은 0.15이고, 남성 경찰관이 승진할 확률은 0.3이니 남성 경찰관이 승진할 확률이 여성 경찰관이 승진할 확률의 두 배이다. 성차별 냄새가 나는 차이이다.

확률분포(8): 정규분포

주류통계학(빈도주의 통계학)에서 가장 중요한 확률분포는 단연 정규확률분포(normal probability distribution)이다. 정규분포는 모수추정과 가설검정이라는 추리 통계를 가능하게 해주기 때문이다.

정규분포는 종 모양(bell-shaped)의 정규곡선을 이룬다. 아래 그림처럼 평균을 중심으로 해서 사건이 중앙에 가장 많이 분포하고 양끝으로 갈수록 희박하게 분포하며, 평균을 축으로 그래프의 양쪽이 정확히 겹쳐진다. 즉, 확률밀도함수의 그래프의 무게중심이 평균이다.

확률변수 X의 정규분포는 다음과 같이 표시된다.

정규분포는 모평균(μ)과 모분산() 두 개의 퍼라미터를 가지고 있다. 정규분포는 그것을 정립한 수학자 카를 프리드리히 가우스의 이름을 따서 가우스 분포(Gaussian distribution)라고도 불린다.

정규분포의 확률밀도함수는 다음과 같다.

식 (1)에서, μ = 모평균, σ = 모표준편차, π = 3.14159, e = 2.71828. 이 확률밀도함수는 모든 정규확률분포가 두 개의 모수(parameter), μ와 σ에 따라 달라짐을 보여준다. σ(모표준편차)는 (모분산)의 양의 제곱근이니, 정규확률분포의 모습이 μ와 에 따라 달라진다고 해도 무방하다.  모평균, 모표준편차처럼 첫머리에 ‘모’ 자를 붙인 이유는 표본의 평균과 표준편차와 구분하기 위해서이다. 빈도주의 통계학에서는 표본과 모집단의 구분이 중요하다.

정규곡선의 정점(highest point)은 모평균에 위치하며, 이는 분포의 중앙값이자 최빈값이기도 하다. 정규분포의 모평균은 음수, 0, 양수 등 어떤 숫자도 될 수 있다.

정규확률분포는 대칭이어서 평균 왼쪽의 정규곡선 모양은 평균 오른쪽의 정규곡선 모양과  거울에 비춘 것처럼 똑 같다. 정규곡선의 꼬리는 양쪽을 향해 무한대로 뻗어 나가며 이론적으로는 가로축에 절대 닿지 않는다. 정규확률분포는 대칭이고 기울어져 있지 않으므로 왜도(skewness)는 0이다.

모표준편차(혹은 모분산)는 정규곡선의 평평한 정도와 폭을 결정한다. 표준편차가 크면 곡선이 넓고 평평해지며, 자료의 변동성이  커진다.

정규분포의 확률밀도함수 그래프 아래의 면적은 1이며, 좌우대칭이므로 왼쪽이 0.5, 오른쪽이 0.5이다. 이보다 더 유용한 사실은 아래 그림에서 보듯이 정규분포확률변수값이 평균을 중심으로 좌우로 표준편차의 1배의 범위에 안에 있을 확률이 68%이고, 표준편차의 2배의 범위 안에 있을 확률은 95%, 3배의 범위 안에 있을 확률은 99.7%이라는 점이다.

실제로는 평균(μ)이 0이고 표준편차(σ)가 1인 표준정규분포(standard normal distribution)가 자주 사용된다. 모든 정규분포는 z-값(z-score)을 사용하여 표준화할 수 있는데, 표준정규분포는 그렇게 표준화된 수치들의 확률분포이다. z-값은 아래와 같이 구할 수 있다.

즉, 관찰값의 편차(평균과의 차이, )를 표준편차()로 나눈 값이다.  z-값으로 표준화하면, 확률밀도함수가 다음과 같이 간략히  표시된다.

이 식을 위에서 제시한 확률밀도함수 식 (1)과 비교해보면 차이를 쉽게 알 수 있다.표준정규분포는 다음 그림과 같은 분포를 갖는다.

표준정규확률변수값이 0의 좌우로 z-값의 1배 범위 안에 있을 확률이 68.27%, z-값의 2배 범위 안에 있을 확률은 95.45%, 그리고 z-값의 3배 범위 안에 있을 확률은99.73%이다. 다시 말해 거의 모든 사례가 z-값의 2배 이내에 있으며, z-값의 3배 이상에는 사례가 거의 존재하지 않는다.

표준정규확률분포가 중요한 이유는 모든 정규확률분포에서 확률을 계산할 때 표준정규확률표를 이용했기 때문이다. 오늘날에는 표준정규확률표 대신 응용프로그램을 이용하여 정규확률분포의 확률을 바로 계산할 수 있기 때문에 예전만큼 표준정규확률분포가 중요하지는 않다.  

빈도주의 통계학은 정규분포 혹은 표준정규분포의 분포가 지닌 이러한 특성을 이용하여 가설 검정을 수행한다. 정규분포를 이용한 가설 검정과 모수 추정은 추리통계에서 다루기로 하자.

정규확률변수는 이산분포를 하기 때문에 그것의 확률은 당연히 p.d.f 아래의 면적이다. 확률변수 X가 어떤 값 이하일 확률을 구하려면 p.d.f.를 적분하거나 c.d.f. 값을 구해야 하는데 계산이 복잡하므로 실제로는 응용프로그램을 사용하여 구하면 된다. 평균과 표준편차를 알면, 정규확률변수 값이 특정 범위에 속할 확률을 쉽게 구할 수 있다. 엑셀에서는 NORM.DIST라는 함수를 사용하면 되고, Probability Distributions app을 사용해도 X가 어떤 값 이하, 어떤 값이 이상 혹은 어떤 값과 어떤 값 사이일 확률을 간단히 구할 수 있다.

여기서는 예제를 가지고 확률변수 X의 범위가 주어졌을 때 그것의 확률을 구하는 실습을 해보도록 하자.

예제 1)  A 타이어 회사에서 새로 개발한 타이어의 주행 테스트를 시행하였다. 기술자들은 그 타이어의 주행거리를 평균() 36,500km, 그리고 표준편차()를 5,000km로 추정했다. 또한 수집한 자료에 따라 타이어의 주행거리가 정규확률분포를 이룬다고 가정하였다. 그렇다면 a) 몇 퍼센트의 타이어가 4만 km 이상 주행가능하다고 예상할 수 있을까? b) A 사는 보증 주행거리에 못 미친 타이어를 교체할 교체 타이어를 할인해 주는 보상 제도를 검토하고 있다. A사가 할인 보상을 받는 타이어의 비율이 10% 이하이길 바란다면, 보증 주행거리를 얼마로 설정해야 할까? 

해제 1-a) 타이어의 주행거리가 4만 km 이상일 확률을 구하는 문제이다. 간략히 표시하면, P(X > 40,000) = ?

MS Excel을 사용하여 확률을 구해보자. NORM.DIST 함수를 사용하면 되는데, 구하려고 하는 확률이 X > 40,000이므로 그 함수로 구한 값을 1에서 빼주어야 한다. 누적확률분포는 항상 왼쪽에서부터 누적된 값, 즉, X < x 를 계산하기 때문에 X > x의 학률을 구하려면 1 -P(X < x)를 계산해야 한다. 아래 그림에 보면 1 – NORM.DIST(A2,B2,C2,TRUE)를 계산하고 있다. 그렇게 해서 계산된 값이 0.2420이다. 즉, 타이어의 주행거리가 4만 km 이상일 확률은 24.20%, 다시 말해 24.20%의 타이어가 4만 km 이상 주행 가능하다고 예상된다.

Probability Distibutions app을 이용하면 더 쉽게 구할 수 있다. 아래 그림처럼 평균, 표준편차, x 값을 각각 입력하고, P(X > x) = 를 선택하면 된다.

해제 1-b) 보상받는 타이어의 비율이 10% 미만이라면 x < 0.10 이다. 즉, P(X < 0.10)을 구하는 문제이다. 이는 아래 그림의 주황색으로 된 부분의 면적을 구하는 문제이다. Probability Distributions app을 이용하면 쉽게 구할 수 있다. 아래 그림에서 P(X < x) =의 칸에 0.10을 넣으면, x = 30092.2421이 바로 구해진다. 답은, “보증 주행거리를 30, 100 km로 설정해 주면 된다”이다.

예제 2) 지난 3년간 국내 대기업의 주식형 펀드에 대한 평균 수익률이 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자.

a) 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은?

b) 개별 대기업 주식형 펀드의 3년간 수익률이 10% 이하일 확률은?

c) 3년 동안 상위 10%의 주식형 펀드들은 얼마나 큰 수익을 올렸나?

해제 2-a)  여기서 확률변수(X)는 주식형 펀드 수익률이다. 이 문제는 평균이 14.4%, 표준편차가 4.4%인 정규확률분포에서 P(X => 20)의 값을 구하라는 것이다. Probability Distributions를 사용해서 풀면 아래와 같다. 확률은 0.1016이다.

해제 2-b) P(X < 10) = ? 답은 0.1587이다.

해제 1-c) P(X > x) = 0.10일 때 x 값을 구하는 문제이다. Probability Distributions를 사용하면 답이 20.04% 이상이다.

엑셀을 사용해서 구하려면 NROM.INV 함수를 이용한다. 누적확률분포이므로 확률값은 0.10 대신 0.90을 입력해아 한다. 수익률 값은 위와 동일한 20.04% 이상이다. 즉, 상위 10% 안에 들려면 수익률이 20.04%는 되어야 한다.

예제 3) 표준정규확률분포에서 다음 확률을 계산하시오.

a) P(z <= 1.5) = ?

b) P(1 <= z <= 1.5) = ?

c) P( z => 0.44) = ?

해제)

3-a) 0.93319

3-b) 이 경우는 P(X <= 1.5)에서 P(X <= 1)을 빼면 될 것이다. 즉, 0.93319 – 0.84134 = 0.09185이다.

3-c) 답은 0.32997이다.

삶에서 음식이란?

우리 집은 먹기 위해서 산다고 말할 정도로 먹는 것에 목숨을 걸지는 않지만 그래도 음식과 식사를 참으로 중시한다. 나의 부모님이 그랬고, 아내와 내가 그랬으며, 내 아이들이 그렇다. 아니 부모님보다는 내가, 나보다는 아이들이 더 그런 것 같다. 대충 먹는 경우가 흔치 않다.

요즘 나는 가급적 이러한 집안의 전통을 지켜가려고 노력한다. 식사 준비와 마무리가 주부와 같은 누군가만의 고통이 되지 않는 한 나는 그러한 전통이 좋다고 생각한다.

나는 의식주 중에서도 특히 ‘식’이 중요하다고 생각한다. 잘 사는 것이 부유하게 살거나 권력을 누리며 사는 것이 아니듯이 잘 먹는 것은 화려하고 값비싼 음식을 섭취함을 의미하지 않는다.

잘 먹으려면 몇 가지를 갖추어야 한다. 음식에 좋은 식자재를 사용해야 하고, 식단이 건강상의 요구에 잘 맞아야 하며 물론 음식의 맛도 있어야 한다. 그리고 음식은 적절한 시간에, 적절한 공간에서, 적절한 양을, 적절한 예법을 갖추고 먹어야 한다.

일생을 살아오면서 때로는 너무 가난해서 굶거나 겨우 허기를 면하면서 지내기도 했고, 때로는 너무 바빠서 식사를 소홀히 하는 경우도 적지 않았지만, 지금이라도 잘 먹으며 지내려 노력하고 있다.

다행히 시골에서 지내다보니 잘 먹고 지내기가 어렵지 않다. 계절에 맞는 좋은 식재료를 저렴하게 혹은 거의 돈들이지 않고 구할 수 있으며 식사를 즐길 수 있는 시간적 여유도 있다.

반찬 가짓수도 적고 식사 양도 많지 않지만 꼼꼼하게 준비된 음식을 프로토콜에 맞추어 감사한 마음으로 먹을 수 있으면 행복하다. 게다가 식후에 커피나 차를 정성스럽게 끓여서 디저트와 함께 먹을 수 있으면 금상첨화이다. 이러한 일상을 얻기 위해 우리는 열심히 일하며 일생을 보내는 것이 아닌가.

때로는 우리가 삶이 무엇인지, 무엇을 위해 사는 건 지, 무엇이 중요한 지를 잊고 살아가는 것이 아닐까 하는 생각이 들곤 한다. 어쩌면 일상의 작은 행복, 그것이야말로 수많은 사람들이 갖고자 했고, 가지려고 하고, 또 가졌으면 하고 소망하는 것이 아닐까. 음식과 식사는 바로 그 일상을 채우는 가장 중요한 부분일 것이다. (2020-10-05)

남천(南天) 예찬

8년 전 칠십 그루를 정원에 이식한 후 아내와 나는 남천 사랑에 빠졌다. 그 후 이백오십 그루를 더 이식해 지금은 3백 그루가 넘는 남천이 집의 3면에 걸쳐 울타리가 되어주고 있다. 나는 거의 하루도 빠짐없이 남천을 살핀다. 혹시 병충해를 입지나 않는지, 강한 비바람에 꺾이지나 않는지, 잘 자랄 수 있는 공간은 충분한 지 등에 대해 신경을 쓰고 , 너무 키가 큰 나무는 지지대를 세워서 서 있는 힘을 보강해준다. 눈이나 비가 많이 오면 가지들이 위태롭게 숙여지곤 하기 때문이다.

다행히 이식한 남천 중 죽은 나무가 거의 없다. 내가 잘 보살폈기 때문이기보다 근본적으로 생명력이 강하기 때문일 것이다. 추위에 약하다는데 아직 얼어죽은 경우는 없다.

남천의 영어 속칭이 sacred bamboo 혹은 heavenly  bamboo라고 한다. 정말로 천국 나무라는 이름에 어울리는 식물이다. 가을에는 단풍처럼 붉은 잎이 많고 겨울에는 지탱하기 힘들 정도로 많은 붉은 빛 열매를 매달고 있다. 남천의 잎이 무슨 색인지는 한 마디로 표현하기 어렵다. 같은 계절에도 나무들이 다양한 색을 보여준다. 초록은 기본이고 적색, 황색, 갈색, 연초록….나무마다 참으로 다양하다.  나란히 서 있음에도 잎색깔만 보면 전혀 다른 나무들처럼 보일 정도이다.

집의 뒷쪽 울타리에는 아직 남천을 심지 않았지만, 언젠가 뒤 울타리를 정비할 때 앞쪽처럼 남천을 심게 될 것이다. 아내와 내가 공통적으로 이렇게 오랫동안 좋아하는 나무가 드물기 때문이다. (2020-10-05)