베이즈 통계(2): 조건부 확률 가지고 놀기

베이즈 통계는 조건부 확률(conditional probability)에서 출발한다. 때문에 조건부 확률은 베이즈 통계의 기초 중의 기초이다. 조건부 확률에 익숙해질수록 베이즈 통계가 가깝게 다가온다. 그래서 이번 포스팅에서는 조건부 확률을 가지고 좀 놀아보자.

베이즈 통계의 입문을 조건부 확률과 함께 시작한다는 것은 중요한 의미가 있다. 무엇보다 조건부 확률은 두 확률변수의 결합(joint 혹은 conjoint)이 전제된다. 이는 베이즈 통계가 두 변수 이상의 관계를 다룬다는 점을 시사한다. 빈도주의 통계의 적지 않은 부분이 한 변수에 관한 것이라는 점을 상기한다면 이는 가벼운 특성이 아님을 알 수 있다.

조건부 확률은 두 확률변수(X, Y라고 하자)가 있을 때, 그중 하나(e.g. X)가 발생할 때 다른 하나가 발생할 확률을 말한다. 조건부 확률은 아래와 같이 여러가지 방식으로 표기된다.

이 중 가장 간단한 로 표기로 시작하자. X가 발생할 때, Y가 발생할 확률이라고 읽는다(영어로는, probability of Y, given X occurs 혹은 그냥 간단히 probability of Y, given X라고 한다). X가 발생한다는 말은 X가 특정값(x)을 갖는다는 의미이며, Y가 발생한다는 말은 Y가 특정값(y)를 갖는다는 의미이다.

X, Y의 조건부 확률은 X, Y의 결합확률을 조건에 해당되는 변수의 주변확률로 나누어 얻는다. 확률에서 조건이란 어떤 확률변수의 범위에서 특정한 조건을 충족하는 범위만을 보겠다 혹은 관심을 갖겠다는 것이다. 결합확률(joint probability or conjoint probability)이란 두 확률변수가 동시에 발생하는 경우의 확률을 의미하며, 주변확률이란 결합확률이 주어졌을 때 두 변수 중 한 변수의 확률만을 가리킨다. 예를 가지고 보자.

미국 어느 대도시 경찰의 성별에 따른 승진 현황이 있다고 하자. 한 확률변수는 성별, 다른 하나의 확률변수는 승진 여부이다. 승진 현황은 다음과 같은 교차표로 요약된다.

논의를 간략히 하기 위해 사건을 다음과 정의한다.

X: 경찰관의 성별. = 남자, = 여자

Y: 경찰관의 승진 여부. = 승진, = 승진 탈락

이 표를 기호로 일반화하여 표기하면 다음과 같다.

이 빈도 교차표를 확률로 변환하려면 전체 경찰관 수(N)으로 각 칸을 나누어 주면 된다. 그러면 전체 합이 1인 값들로 바뀐다. 그런 의미에서 확률은 전체의 합을 1로 만드는 정규화(normalize)라고 말할 수 있다. 그렇게 해서 아래와 같은 결합확률표(joint probability table)를 얻었다.

여기서 두 확률변수의 결합확률은, 남자이면서 승진할 확률 0.24, 여자이면서 승진할 확률 0.03, 남자이면서 승진하지 못할 확률 0.56, 여자이면서 승진하지 못할 확률 0.17 네 개이다. 주변확률은 남자가 승진할 확률 0.80, 여자가 승진할 확률 0.20, 승진할 확률 0.27, 승진하지 못할 확률 0.73 네 개이다.

일반화를 위해 이 결합확률표는 다음과 같이 기호로 표시될 수 있다.

남자일 주변확률 은 남자일 때 승진하거나 승진하지 못한 확률을 모두 합한 값이다.  여자일 주변확률 은 여자일 때 승진하거나 승진하지 못한 확률을 모두 합한 값이다. 승진할 주변확률 은 승진할 때 남자이거나 여자일 확률을 모두 합한 값이다. 승진탈락의 주변확률 은 승진 탈락할 때 남자이거나 여자일 확률을 모두 합한 값이다.

주변확률에 대해 이렇게 장황하게 설명하는 것은 한 변수가 특정값을 가질 때 그 사건의 주변확률은 다른 변수의 모든 발생 확률을 더한 값이라는 사실을 보여주기 위해서이다.

앞에서 조건부 확률이란 한 변수가 발생할 때(즉, 특정값을 가질 때), 다른 변수가 발생할(다른 변수가 특정값을 가질) 확률이라고 했다. 만약 성별이 조건으로 주어진다면, 조건부 확률은, 경찰관이 남성일 때(혹은 반대로 경찰관이 여성일 때)에 국한해서 확률값을 계산하겠다는 것이다. 그러면 주변확률값을 1로 만드는 정규화를 하면 된다. 예컨대 경찰관이 남성일 때 승진할 확률을 구한다면, 그것은 라는 조건부 확률을 계산하겠다는 말이다. 그 조건부 확률은 남성이면서 승진할 확률(결합확률)을 남성인 주변확률로 나눈 값이다. 그것은 아래와 같이 표시할 수 있다.

어떤 경찰관이 남성일 때 승진에 탈락할 확률 도 마찬가지 방식으로 구할 수 있다.

기억하기 쉽게 말하자면, 조건부 확률은 결합확률 나누기 주변확률이다.

이번에는 조건을 바꾸어보자. 어떤 경찰관이 승진했다. 그 경찰관이 남성일() 확률 은 아래와 같을 것이다.

그런데, 만약 우리가 결합확률표를 구성할 수 없어 결합확률을 알지 못하고 대신에  역 조건부 확률(inverse conditional probability)과 두 확률변수의 주변확률을 알고 있을 때 조건부 확률을 구하는 방법을 생각해보자. 즉, 을 구하는데, , 을 알고 있다는 것이다. 식(2)에서 양변에 을 곱하면 다음과 같이 될 것이다.

그리고 교환법칙에 의해,

이므로, 식(1)의 우변 분자에 식(3)을 대입할 수 있다. 그러면 아래 식을 얻게 된다.

식(4)는 아래와 같이 일반화하여 간략히 쓸 수 있다.

드디어 베이즈 정리(Bayes’ theorem)가 도출되었다. 베이즈 정리는 결합확률을 모를 때 역조건부확률과 두 확률변수의 주변확률을 가지고 조건부 확률을 구하는 공식에 다름 아니다. 그런데, 이 간단한 공식의 응용범위가 놀랍도록 넓다. 그래서 그것은 정리의 자리를 꿰어찼다.

베이즈 정리를 보면 몇 가지 성질이 읽힌다.

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다.

이 성질은 논리적으로 다음과 같이 확장될 수 있다.

(1) 베이즈 정리는 조건부확률 을 구하는 공식이다. –> 흔히 X는 데이터이고 Y는 모수(parameter)이다. 베이즈 정리는 데이터가 주어졌을 때 모수를 얻게 될 확률을 구하는 과정이다.

(2) 베이즈 정리는 역조건부 확률 을 가지고 조건부 확률 을 구하는 공식이다. –> 역조건부 확률 우도(likelihood)라고 부른다. 흔히 그것은 경험적으로 주어진다.

(3) 베이즈 정리는 역조건부 확률 이 주어졌을 때 어떤 사건의 확률 이 조건부 확률 로 바뀌는 과정이다. –> 여기서 를 데이터를 얻기 이전 확률이라는 의미에서 사전 확률(prior)이라고 부르고 를 데이터를 얻은 후 확률이라는 의미에서 사후확률(posterior)이라고부른다. 베이즈 정리에서 데이터를 포착해 주는 부분이 우도이다.

(4) 베이즈 정리는 조건의 해당되는 확률변수(X)의 주변확률 로 정규화된 값이다. –> 정규화 상수라고 부른다.

조건부 확률을 가지고 꽤 멀리 왔다. 다음 포스팅에서는 예제를 가지고 확장된 베이즈 정리의 함축성을 찾아보자.(2020-10-19)

베이즈 통계(1): 서론

베이즈 통계에 입문할 때 사회과학도는 몇 가지 난관을 마주하게 된다. 배우고자 하는 사람 자신이 그것을 인식할 수도 있고 그렇지 못할 수도 있다. 필자의 경험으로는 후자가 많을 것 같으니 이 점을 확실히 지적해 두고자 한다. 특히 통계를 제법 많이 알고 있다고 자신하는 사람일수록 그 난관이 심각할 수도 있다. 그것은 기존의 사회통계와 베이즈 통계의 차이에서 기인한다. 그래서 빈도주의 통계와 베이즈 통계의 중요한 차이 몇 가지를 지적해 두고자 한다.

시작하기 전에 빈도주의자(frequentist), 베이즈주의자(Bayesian)라는 용어를 소개하겠다. 그것은 편을 가르기 위해서 나누는 것이 아니라 베이즈 통계를 명쾌하게 이해하기 위해서 필요하다고 생각되어 나누는 구분이다. 우리가 통상 사회통계 수업에서 배운 통계를 빈도주의(frequentist) 통계라고 명명하고, 지금부터 배울 통계를 베이즈 통계라고 부르겠다.

첫째, 베이즈 통계에서는 확률(probability)이라는 동일한 용어를 사용하지만 빈도주의 통계에서 사용하던 것과는 크게 다른 의미로 사용한다. 빈도주의 통계에서 학률이란 수학적으로 정의될 수도 있지만 보통 경험적으로 도출된다. 경험적 확률은 표본공간(sample space, 가능한 모든 결과)에서 우리가 관심을 갖는 사상(event)이 발생하는 빈도(frequency)의 비율로 계산된다. (그래서 빈도주의 통계 혹은 빈도주의 접근이라고 불리는구나 라고 생각해도 좋다.)

그런데, 베이즈주의자는 확률을 그보다 훨씬 다양한 의미로 사용한다. 그중 가장 널리 사용되는 의미는 어떤 사상(an event)의 발생 가능성에 대한 주관적인 믿음의 정도(subjective degree of belief)이다. 확률 개념에 객관적으로 계산된 빈도의 비율이 아니라 주관적인 믿음의 정도라는 의미가 추가되는 것이다.

그래서 무엇보다 사회통계에서 배운 좁은 의미의 확률 개념에서 벗어나야 한다. 그렇지 않으면 선험적 확률(a priori pobability), 사전적 확률(prior), 사후적 확률(posterior) 등과 같은 용어가 선뜻 수용되기 어려울 것이다.

둘째, 사회통계에서 베이즈 정리(Bayes’ theorem)라고 1시간 혹은 기껏해야 1주일쯤 다루고 넘어갔던 확률 법칙이 갑자기 한 학기 내내 배워야 하는 엄청나게 중요한 규칙으로 부상한다. 그러면서 확률분포가 매우 중요한 개념적 도구로 등장한다.

사회통계에서는 추리통계에 정규분포, t 분포, F 분포, 분포가 적용되지만 모수 추정이나 가설 검정 과정의 배경 정도로 사용될 뿐이다. 그 확률분포들에 대해 깊이 있게 이해하지 못해도 그것이 모수 추정이나 가설 검증에서 심각한 걸림돌이 되지 않는다.

그런데 베이즈 추론은 확률분포로 시작해서 확률분포로 끝난다고 해도 과언이 아닐 정도로 확률분포의 비중이 크다. 그래서 베이즈 통계에 입문하려면 확률분포부터 진지하게 공부해야 한다.

셋째, 추론(inference)의 의미가 다르다. 사회통계에서는 추론이란 모수 추정과 가설 검정이다. 즉, 표본 통계치(sample statistics)를 가지고 모집단의 평균을 추정하거나, 모집단의 평균에 대한 가설을 검정하는 것이다. 그렇게 해서 사회과학자들은 사회구조나 사회현상을 이해하고 사회 법칙을 발견한다. 표본통계치로부터 모수를 추론하는데 이론적 근거가 표집분포(sampling distribution)이다. 때문에 사회통계에서는 표집(혹은 표본추출)이 대단히 중요하다.

베이즈 통계에서 추론은 모수 추정이나 가설 검정보다 수치화된 예측 혹은 믿음이라는 의미로 더 자주 사용된다. 한 현상에 대해 우리가 어떤 믿음을 가지고 있는데, 새로운 데이터(증거)가 나타났을 때 그 믿음이 어떻게 달라질까(혹은 달라져야 하는가)가 베이즈 통계의 주요 관심사이다.

때문에 베이즈 통계에서는 선험적 믿음과 데이터(증거)라는 두 가지가 있어야 한다. 빈도주의 통계에서는 표본(통계치)과 모집단(모수)를 연결해주는 것이 표집분포 이론인 것처럼 베이즈 통계에서 사전확률(선험적 믿음)과 사후확률, 데이터와 예측을 연결해주는 것은 베이즈 정리이다.

넷째, 베이즈 통계는 빈도주의 통계와 달리 사회구조, 사회현상, 사회법칙 뿐 아니라 개인에 대한 예측에 사용될 수 있다.  예컨대 베이즈 통계는 어떤 중년 여성이 유방암 검사에서 양성 반응이 나왔는데, 그녀가 실제로 유방암에 걸렸을 가능성은 얼마나 될까 같은 의문에 대한 해답을 구하는 도구로 쓰일 수 있다.

다섯째, 베이즈 통계에서 데이터란 빈도주의 통계에서 말하는 의미의 표본 데이터일 수도 있지만 체계적으로 수집된 표본 데이터가 아닐 수도 있다. 그것은 다수의 데이터가 아니라 소수, 심지어 한 개의 사례일 수도 있다. 한 마디로 베이즈 통계에서는 데이터의 과학적 표집(표본추출)에 빈도주의 통계만큼 크게 의존하지 않는다.

베이즈 통계를 빈도주의 통계에 대치시키는 경우가 적지 않다. 통계학의 역사를 보면 충분히 이해할만한 현상이지만, 필자는 베이즈 통계가 빈도주의 통계를 대체하기보다는 확장한다고 생각한다. 베이즈 통계가 사회과학에 있어 통계의 쓰임새를 넓혀준다는 말이다. 유연하고 열린 마음으로 베이즈 통계에 접근한다면 그것은 우리의 과학적 도구 창고를 보다 풍부하게 만들어 줄 것이다. (2020-10-18).

결합확률분포, 주변확률분포, 조건부확률분포: 연속확률변수

앞에 게시한 세 개의 글(결합확률, 주변확률, 조건부확률: 이산확률변수결합확률분포: 이산확률변수주변확률분포, 조건부확률분포: 이산확률변수)은 이산확률변수에 집중했다. 이 블로그의 주요 독자인 인문사회학도의 수학적 배경이 약하기 때문에 연속확률변수까지 한꺼번에 논의하면, 수학적 부담이 장해로 작용하리라 생각되었다. 그래서 이산확률변수에 논의를 한정해서 결합확률분포와 조건부확률분포를 개념적으로 소개하는데 촛점을 맞추었다. 이제 개념적인 소개를 마쳤기 때문에 그 염려를 털어버리고 이산확률변수에서의 논의를 연속확률변수까지 확장해 보자. 그리고 앞 게시글 사회통계를 위한 미적분 복습에 기초 수학을 정리해 두었으니 필요한 독자는 참고 바란다.

확률변수 X와 Y가 있을 때, 결합확률밀도함수(joint pdf)는 다음과 같이 성질을 갖는다.

<X, Y가 이산확률변수인 경우>

(1) 

<X, Y가 연속확률변수인 경우>

(1) : 모든 x, y에 대하여 결합확률함수가 양의 실수이다. 결합확률함수는 확률이기 때문에 0보다 크다.

(2) : 특정한 영역(A)를 고려했을때, 그 영역에 대한 확률은그 영역에 대해 결합확률함수의 적분값을 구하면 된다. 그런데 변수가 두 개이므로 이중적분(혹은 중적분)을 해야 한다. 즉, 안쪽 변수인 x에 대해 먼저 적분하고 그렇게 해서 얻은 값을 다시 바깥쪽 변수인 y에 대해 적분한다.

(3) : X, Y 모든 범위에 대한 적분값은 1이다.

결합누적확률밀도함수

결합누적확률밀도함수(joint cdf)는 아래와 같다. 결합누적확률밀도함수는 대문자로 표시한다.

<X, Y가 이산확률변수인 경우>

<X, Y가 연속확률변수인 경우>

(합)처럼 (적분)도 정의역의 가장 작은 값부터의 누적을 나타낸다. 다만 는 이산적(discrete)인 수의 합이지만, 는 연속적(continuous)인 수의 합이란 점에 차이가 있을 뿐이다. 결합확률분포에서는 시그마도 적분도 누적합이다.

주변확률함수

<X, Y가 이산확률변수인 경우>

X의 주변확률함수(ㅡmarginal pdf)는 일 때 모든 Y 값에 대한 결합확률함수 의 합이다.

 Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수 의 합이다.

<X, Y가 연속확률변수의 경우>

연속확률변수 X, Y의 결합확률밀도함수가 주어졌을 때, X만을 고려하는 확률 는 결합확률분포에서는 를 의미한다. 따라서 다음과 같이 된다.

여기서

라고 하면,

Y의 주변확률함수도 동일한 방식으로 정의된다. 따라서 X, Y의 주변확률함수는 다음과 같이 간략히 요약할 수 있을 것이다.

X의 주변확률함수는 일 때 모든 Y 값에 대한 결합확률함수의 적분이다.

Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수의 적분이다.

조건부확률함수

연속확률변수일 때 조건부확률함수에 대한 정의는 이산확률변수일 때와 같다. 즉,  조건부확률분포는 결합확률분포를 주변확률분포로 나눈 값이다.

이 주어졌을 때 확률변수 Y의 조건부확률분포는 결합확률분포를 X의 주변확률분포로 나누면 구해진다.

가 주어졌을 때 확률변수 X의 조건부확률분포도 마찬가지로 구할 수 있다.

다만 이산확률변수에서는 가 각각 확률을 가리키지만, 연속확률변수에서는 확률의 밀도(혹은 변화율)을 가리키는 점이 다르다.

예제 1) 결합 pdf 가 다음과 같을 때 상수 c는 얼마인가?

해제) x, y 모든 범위에 대한 적분값이 1이므로,

좌변을 풀면,

예제 2) 연속확률변수 X와 Y의 결합확률함수가 아래와 같을 때 다음을 구하시오.

(1) 두 확률변수 X, Y의 주변확률밀도함수(주변 pdf)를 구하시오.

해제)

(2) 확률  을 구하시오.

해제)

(3) 을 각각 구하시오.

이는 주변확률함수를 구하라는 문제이다. 앞의 (1)에서 구해놓은 주변확률함수를 이용한다.

예제 3) 연속확률변수 X, Y의 결합 pdf가 

일 때 다음 확률을 구하시오.

(1) 

(2) 

해제) 결합확률함수는 주어졌으니 주변확률함수를 구하면 조건부확률함수가 도출된다.

(1) X 값(x)가 Y 값(y) 보다 작아야 한다는 조건에 유념하자. 이 문제의 경우 X 값은 항상 Y 값보다 작을 것이니 조건부확률함수를 적용하면 된다.

(2) 이 문제의 경우 Y 값이 1/2이니 X 값은 0 < x < 1/2이어야 한다. 그런데 0 < x < 3/4의 확률 구해야 하니 문제다. 그 경우 0 < x < 1/2보다 큰 X 값, 즉, 1/2 <= x < 3/4에서는 적분 값이 0이다. 따라서 적분을 X에 대해 두 구간으로 나누어 계산해야 한다.

사회통계를 위한 미적분 복습

미적분을 알면 지금 시대에 맞는 사회통계를 배우기가 좋다. 크게 어려운 정도는 아니고 고등학교 수준보다 약간 더 알면 충분하다. 함께 미적분의 기초를 복습하자.

x의 함수 y가 있을 때 x의 미세한(혹은 순간적) 변화가 y에 초래하는 영향을 함수의 변화율로 알아보는 것이 미적분이다.

미분(differential)

예를 들어 정지상태에 있던 물체가 t초 동안에 낙하는 거리를 s(m)라고 하면, 인 관계가 있다고 한다(정영진, 1985).

(1) t = 2(초)에서 (는 매우 짧은 시간을 가리킴) 동안에 낙하한 거리와 평균속도를 구하는 방법을 생각하라.

(2) t = 2(초)인 순간의 속도를 나타내는 방법을 생각하라.

함수 에 있어서 x가 에서 로 변하면 함수의 값은 에서 까지 변한다.

로 놓으면 x가 (x의 증분)만큼 변함에 따라서 y가 (y의 증분) 만큼 변함을 가리킨다.

x의 증분에 대한 y의 증분의 비

을 x가 에서 로 변할때 함수 의 평균 변화율이라 한다.

2초 후의 순간 속도는 평균속도 에서 일 때의 극한값이다.

함수 에서의 미분계수(변화율)는 다음과 같이 정의된다.

미분계수의 기하학적 의미는 함수 곡선에 대한 접선의 기울기이다.

그런데, 을 변수 로 바꾸어 놓으면 미분계수 는 함수 가 된다. 이 함수를 함수 의 도함수라고한다.도함수를

등으로 나타낸다.

의 도함수를 구하는 일을 x로 미분한다(differentiation)고 한다. 의 도함수는 아래와 같다.

미분계수나 도함수를 구하는데 극한의 계산을 하는 것이 번거로우므로, 다음과 같은 공식을 사용하여 미분한다.

(1) (c는 상수)

(2) (복호동순)

(3)

(4) (c는 상수)일 때,

(5) (n은 자연수)일 때,

(6)

예제) 다음 함수를 미분하라.

(1) (2) (3)  

해제) (1)

(2)

(3)

적분(integral)

적분은 미분의 역연산이다. 함수 가 주어졌을 때,

와 같이 되는 함수 의 부정적분이라 하고, 기호

로 나타낸다. 의 부정적분을 구하는 일을 를 x로 적분한다(integration)고 한다. 참고로 적분구간이 정해져 있지 않은 적분을 부정적분, 적분구간이 정해져 있는 적분을 정적분이라고 한다.

부정적분은 다음과 같이 정의된다.

일 때, 임의의 상수 C에 대하여

(C는 적분상수)

부정적분을 구하는데는 다음 적분공식이 사용된다.

(1)

(2) (n은 자연수)

(3) (c는 상수)

(4) (복호동순)

함수 가 구간 에서 연속일 때, 극한값을 정적분이라고 한다.

이 정적분을 구하는 일을, 를 a에서 b까지 적분한다고 한다. 이 정적분의 정의를 이용하여 곡선 아래의 면적을 구할 수 있다.

Integral - Simple English Wikipedia, the free encyclopedia

구간 에서 연속인 곡선

와 x 축, 사이에 끼인 부분의 면적

적분의 기본 정리

a, b 를 가 연속인 구간에 속하는 임의의 두 수라고 하고, 일 때,

예제) (1) (2)

해제) (1) 이므로

와 같이 되므로 정적분에서는 적분상수를 고려할 필요가 없다. 따라서 다음과 같이 푼다.

(2)

정적분의 성질

(1) 에서 일 때

(2) 

(3)

(4)

 

이중적분(double integral)

이중적분은 변수가 하나(e.g. X)인 함수에서 둘(e.g. X, Y)인 함수로의 논리적 연장일 뿐 여전히 적분이다. 기하학적으로 말하자면 적분은 곡선 아래의 면적을 구하는 일이지만 이중적분은 곡면 아래의 부피를 구하는 일이다. 선이 면이 되는 것이다.  아래 그림은 이 차이를 잘 보여준다. 왼쪽 그림은 함수 f(x)의 x에 대한 적분을 나타내고, 오른쪽 그림은 함수 f(x, y)의 x와 y에 대한 적분을 나타낸다.

Double and Triple Integrals - YouTube

이중적분은 적분에서 다음과 같이 몇 가지가 달라진다.

(1) 한 변수 함수의 적분에서 두 변수 함수의 적분으로 바뀐다().

(2) 적분 기호가 두 개로 바뀐다().

(3) 적분의 범위가 길이 구간 ( )에서 영역(R)으로 바뀐다.

(4) 넓이를 가지고 하는 정의에서 부피를 가지고 하는 정의로 바뀐다.

아래 그림에서 영역 R은 다음과 같이 표시된다.

5.1 Double Integrals over Rectangular Regions - Calculus Volume 3 | OpenStax

그리고 에서 일 때, 영역 R 위에서 에 의해 만들어지는 입체의 부피(위 그림 참조)는

가 된다.

실제 계산은 x(안쪽 변수)에 대해 먼저 적분하고, 그렇게 해서 얻은 적분값을 다시 y(바깥쪽 변수)에 대해 적분하면 된다. 예컨대

를 풀어보자. 여기서는 y가 안쪽 변수이니 y에 대해서 적분을 먼저하고 그렇게 해서 구한 값에 대해 x에 대해 적분한다.

이상으로 결합확률분포 계산에 필요한 미적분법을 간략히 복습했다.

주변확률분포, 조건부확률분포: 이산확률변수

이산확률변수 X, Y가 결합확률분포를 가질 때, 주변확률함수는 다음과 같이 정의된다. 앞 게시글에서 제시한 주변확률의 정의와 논리적으로 다르지 않다. 확률 대신 함수가 들어왔을 뿐이다.

X의 주변확률함수(ㅡmarginal pdf)는 일 때 모든 Y 값에 대한 결합확률함수 의 합이다.

Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수 의 합이다.

아래 이산결합확률분포표에서 ‘계’ 열과 ‘계’ 행이 주변확률밀도함수이다.

결합확률함수와 주변확률함수를 알면 조건부확률분포를 구할 수 있다. 조건부확률분포(conditional probability distribution)는 결합확률분포를 주변확률분포로 나눈 값이다.

이 주어졌을 때 확률변수 Y의 조건부확률분포는 결합확률분포를 X의 주변확률분포로 나누면 구해진다.

예제 1) 결합확률함수 가 다음과 같다.

Y =1 일 때, 조건부확률함수를 구하시오.

해제) 결합확률분포표를 구한다.

예제 2) 주사위를 던져 나온 수가 짝수이면 X = 1, 홀수이면 X = 0이다. 그리고 주사위를 던져 나온 수가 소수이면 Y =1, 소수가 아니면 Y = 0이다. 결합확률함수를 구해보자. X와 Y의 결합확률밀도함수 는 다음과 같다.

, ,

주사위를 던져 나온 수가 짝수일 때, 조건부확률함수를 구하시오.

해제) 주사위를 던져 나온 수가 짝수일 때이니, X = 1이라는 말이다.

즉, 주사위를 던져 나온 수가 짝수일 때, 그 수가 소수일 확률은 1/3이고, 그 수가 소수가 아닐 확률은 2/3이다.

결합확률분포: 이산확률변수

앞 포스팅에서 두 확률변수가 관계될 때 출현하는 세 가지 확률인 결합확률, 주변확률, 조건부 확률에 대해 공부했다. 결합확률은 두 확률변수의 교집합(동시 발생)이 발생할 확률이고, 주변확률은 결합확률표에서 하나의 확률변수의 특정한 값이 발생하는 확률이며, 조건부 확률은 하나의 확률변수의 특정 값이 주어졌을 때, 다른 하나의 확률변수의 특정 값이 발생할 확률이다.

두 확률변수의 관계에 관한 이 논의는 확률분포에까지 확장할 수 있다. 즉, 결합확률분포, 주변확률분포, 조건부 확률분포를 생각할 수 있다. 확률변수의 확률분포는 확률변수의 값에 확률이 어떻게 부여되는 지를 말해준다. 즉, 확률분포를 구하면 다양한 사상의 확률을 알 수 있다. 그리고 확률분포는 확률함수로 정의될 수 있으니, 위 세 가지 확률분포는 각각 결합확률(밀도)함수, 주변확률(밀도)함수, 조건부 확률(밀도)함수로 정의될 것이다.

두 개의 이산확률변수 X와 Y가 있다고 하자. 각 확률변수는 확률분포를 갖고 그것은 확률(밀도)함수(이산확률변수일 때는 확률질량함수라고 쓰기도 함)에 의해 정의된다. 결합확률분포는 이산확률변수가 두 개인 확률(밀도)함수로 생각하면 된다.

X가 의 값을 갖고, Y가 의 값을 가질 때,

를 만족하는 를 이산확률변수 X, Y의 결합확률(밀도)함수라고 한다. 표기가 좀 복잡해서 통상 아래 첨자(subscipt)을 떼버리고 위 식을 아래와 같이 간략히 쓴다.

더 간단히 라고 쓰기도 한다. 두 확률변수 X, Y의 동시 발생에 대한 확률분포는 두 확률함수 X, Y의 범위 내에서 어떤 쌍의 값에 대해서도 값을 갖는 함수에 의해 표시된다. 그리고 이 함수를 X, Y의 결합확률분포(joint probability distribution)라고 한다.

표기법에 대해 한 마디. 변수가 많아지면 함수의 표기가 복잡해진다. 확률에서 식은 가급적 간단히 표기하는 데 특별히 강조해야 할 경우에는 복잡한 표기법도 사용한다. 예컨대 관계된 확률변수가 X와 Y임을 분명하게 나타내고 싶으면 결합확률함수를 라고 표기한다. 그렇지 않은 경우에는 그냥 간단히 라고만 써도 충분하다. 여러가지 복잡하면, 확률변수는 대문자(e.g. X, Y)로 표시하고 확률변수의 값은 소문자(e.g. x, y)로 표시한다는 정도만 기억해두자.

결합확률(밀도)함수(joint pdf)는 세 가지 성질을 갖고 있다.

:  결합확률함수는 X가 x이고, 동시에 Y가 y인 사상에 대한 확률을 준다.

: X와 Y의 모든 값에 대해 결합확률함수는 0과 1 사이의 값을 갖는다. 결합확률함수는 확률이니까 당연히 0과 1 사이의 값을 갖는다.

: X와 Y가 가진 범위에서 결합확률함수를 모두 더 하면 1이다. 결합확률함수는 확률이니까 당연히 확률 전체의 합은 1이다.

두 확률변수 X,Y에 대해 결합누적확률분포(joint accumulative probability distribution)는 다음과 같이 정의된다.

확률밀도함수는 소문자 f로, 누적확률분포는 대문자 F로 표기된다. 때문에 간략히 로 표기해도 로 이해 된다. 누적확률분포는 정의역의 가장 작은 값부터 지정 값까지의 확률을 모두 더해 계산된다. 그것은 확률변수가 두 개일 때나 하나일 때나 마찬가지이다. 두 개일 때는 계산이 좀 더 복잡해질 뿐이다.

X가 특정 구간 내의 값을 갖고, 동시에 Y도 특정 구간 내의 값을 갖는 결합누적확률은 결합누적확률분포함수에 의해 다음과 같이 구해진다.

예제 1) 주사위를 던져 나온 수가 짝수이면 X = 1, 홀수이면 X = 0이다. 그리고 주사위를 던져 나온 수가 소수이면 Y =1, 소수가 아니면 Y = 0이다. 결합확률함수를 구해보자.

해제) 이 결과를 표로 만들면 다음과 같을 것이다.

 123456
X010101
Y011010

X와 Y의 결합확률밀도함수 는 다음과 같다.

이 결합확률함수를 모두 더 하면 1이다.

예제 2) 주사위를 던졌을 때, X는 윗면의 숫자이고, Y는 밑면의 숫자이다. X와 Y의 결합확률함수를 구하라.  

해제) x = {1, 2, 3, 4, 5, 6}, y = {1, 2, 3, 4, 5, 6}, 주사위의 윗면과 밑면의 수의 합은 항상 7이다. 즉, 이다.

이 결합확률의 합은 1이다.

예제 3) 내부가 보이지 않는 박스 안에 파란색 볼펜 3개, 붉은색 볼펜 2개, 초록색 볼펜 3개가 들어 있다. 무작위로 2개의 볼펜을 뽑았을 때, 파란색 볼펜과 붉은색 볼펜이 함께 뽑힐 결합확률함수를 구하시오. 파란색 볼펜이 뽑히는 수효는 X, 붉은색 볼펜이 뽑히는 수효는 Y라고 하자.

해제)  x = {0, 1, 2}, y = {0, 1, 2},

예제 4) 결합확률함수 가 다음과 같다.

결합누적확률함수를 구하시오.

해제) 위에서 제시한 공식을 적용하면 다음과 같다.

예제 5) 아래는 확률변수 X, Y의 결합확률밀도함수를 표로 나타낸 것이다. 이 표의 정보를 가지고 결합누적확률함수를 구하시오.

 Y=2Y=4Y=6Y=8
X=100.100.1
X=3000.20
X=50.3000.15
X=7000.150

해제) 위에 제시한 공식을 적용하면 결합누적확률함수는 다음과 같다.

, , ,

,

,

이를 간략히 표로 나타내면 아래와 같다.

결합확률, 주변확률, 조건부 확률: 이산확률변수

교차표(cross-table)

두 개의 이산확률변수 X, Y가 결합하여 아래와 같은 교차표가 형성되었다고 하자.

각 칸(cell)에는 두 확률변수 값()을 충족하는 사상(事象, event)이 들어간다. 그것을 총 사상의 수효인 N에 대비하여  로 표시하자. 관행에 따라 확률변수는 대문자로, 확률변수의 값은 소문자로 표기한다.

결합확률(joint probability)

두 확률변수의 결합확률은 아래와 같이 표시된다. 두 확률변수의 결합확률은 두 확률변수의 교집합이 발생할 확률이다.

또한 확률은 항상 0과 1 사이의 값을 갖는다. 따라서 확률로 나타낸다는 것은 사상의 수를 0과 1 사이 값으로 정규화(normalization)한다고 말할 수 있다. 정규화를 하면 사상 값들의 총합은 1이다. 각 사상의 수( )를 총 사상의 수 N으로 나누면 사상의 수가 모두 0과 1 사이의 값으로 정규화된다. N은 정규화 상수(normalizing constant)라고 말할 수 있다. 결합확률은 사상의 수가 정규화된 값이다.

결합확률표(joint probability table)

주변확률(marginal probability)

주변확률은 결합확률이 있다는 조건에서 존재한다. 이산형 확률변수의 경우 두 개(혹은 그 이상)의 확률변수로 구성된 결합확률표에 존재한다. 위 결합확률표에서 한 확률변수의 확률만을 고려하는 것이 주변확률이다. 진한 파랑색으로 된 부분이 주변확률이다. 위 결합확률표에서 확률변수 X, Y 중 X 혹은 Y 하나만 고려하면 주변확률이 나온다. X의 주변확률은 특정한 X 값에 속하는 X, Y 결합확률 값을 모두 합한 것이다. 위 결합확률표에서 여섯 개의 주변확률은 다음과 같이 계산된다.

확률변수 X, Y의 결합확률을 일반화시켜서 나타내면 아래와 같다.

조건부 확률(conditional probability)

확률변수 두 개(혹은 그 이상)가 있다. 하나 확률변수의 특정 값(e.g. )이 주어졌을 때, 다른 하나 확률변수의 특정 값(e.g. )이 나타날 확률이 조건부 확률이다. 흔히 조건부 확률은 다음과 같이 표기된다.

하나의 확률변수 값()이 주어졌기 때문에, 전체 사상(N) 대신 오직 그 값의 사상()만 고려된다. 즉, 가 정규화 상수가 된다. 결합확률과 주변확률의 경우에는 N이 정규화 상수였다. 다시 말해 N이 1이 되는 것이 아니라 가 1이 된다.

위 결합확률표를 가지고 예를 들어보자. 확률변수 X가 3일 때 조건부 확률은 세 가지가 있을 것이다. Y가 1인 경우, Y가 2인 경우, Y가 3인 경우이다. 조건부 확률을 구하려면, X가 3인 열의 칸을 모두 P(X = 3)으로 나누어 주면 된다.

그러면 아래 결합확률표의 주황색 열처럼 될 것이다. 조건부 확률은 결합확률을 주변확률로 나눈 값이다.

조건부 확률을 합하면 1이다.

조건부 확률은 다음과 같이 일반화하여 표시될 수 있을 것이다.

개념적으로 설명했으니  이제 예제를 가지고 이해해 보자. 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀를 구분해 정리한 자료이다.

 X = x1X = x2
Y = y128836324
Y = y2672204876
9602401,200

사건의 정의:

확률변수 = 성별: = 남성, = 여성

확률변수 = 승진 여부: = 승진,  = 승진탈락

이 데이터를 가지고 결합확률표를 구해보자. 각 칸(사상)의 빈도수()를 총 빈도수(N)로 나누어 0과 1 사이로 정규화하면 그것이 결합확률이다. 그렇게 해서 구한 결합확률표는 아래와 같다.

 X = x1X = x2P(Y = yi)
Y = y10.240.030.27
Y = y20.560.170.73
P(X = xi)0.800.201.00

결합확률표에서 각 열의 결합확률을 더하면 성별의 주변확률이 구해지고, 각 행의 결합확률을 더하면 승진여부의 주변확률이 구해진다. 주변확률도 전체 사상수에 의해 정규화되어 있어 열의 주변확률을 모두 더한 값도 1이고 행의 주변확률을 모두 더한 값도 1이다.

그렇다면 어떤 경찰관이 여성일 때, 그 경찰관이 승진할 확률은 얼마이겠는가? 조건부 확률을 묻는 문제이다.

이 조건부 확률은, 여성이면서 승진한 경찰관일 확률이라는 결합확률(0.03)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.15이다.

어떤 경찰관이 여성일 때, 그 경찰관이 승진하지 못할 확률은? 이것도 조건부 확률 문제이다.

여성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.17)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.85이다.

이 두 개의 조건부 확률을 합하면 1이다. 조건부확률이란 주변확률을 1로 만든 것이니 당연한 결과이다.

남성 경찰관은 어떨까?

어떤 경찰관이 남성일 때, 그 경찰관이 승진할 확률은? 남성이면서 승진한 경찰관일 확률이라는 결합확률(0.24)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.3이다.

어떤 경찰관이 남성일 때, 그 경찰관이 승진하지 못할 확률은? 남성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.56)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.7이다.

이 두 조건부 확률을 더하면 1이다.

여성 경찰관이 승진할 확률은 0.15이고, 남성 경찰관이 승진할 확률은 0.3이니 남성 경찰관이 승진할 확률이 여성 경찰관이 승진할 확률의 두 배이다. 성차별 냄새가 나는 차이이다.

확률분포(8): 정규분포

주류통계학(빈도주의 통계학)에서 가장 중요한 확률분포는 단연 정규확률분포(normal probability distribution)이다. 정규분포는 모수추정과 가설검정이라는 추리 통계를 가능하게 해주기 때문이다.

정규분포는 종 모양(bell-shaped)의 정규곡선을 이룬다. 아래 그림처럼 평균을 중심으로 해서 사건이 중앙에 가장 많이 분포하고 양끝으로 갈수록 희박하게 분포하며, 평균을 축으로 그래프의 양쪽이 정확히 겹쳐진다. 즉, 확률밀도함수의 그래프의 무게중심이 평균이다.

확률변수 X의 정규분포는 다음과 같이 표시된다.

정규분포는 모평균(μ)과 모분산() 두 개의 퍼라미터를 가지고 있다. 정규분포는 그것을 정립한 수학자 카를 프리드리히 가우스의 이름을 따서 가우스 분포(Gaussian distribution)라고도 불린다.

정규분포의 확률밀도함수는 다음과 같다.

식 (1)에서, μ = 모평균, σ = 모표준편차, π = 3.14159, e = 2.71828. 이 확률밀도함수는 모든 정규확률분포가 두 개의 모수(parameter), μ와 σ에 따라 달라짐을 보여준다. σ(모표준편차)는 (모분산)의 양의 제곱근이니, 정규확률분포의 모습이 μ와 에 따라 달라진다고 해도 무방하다.  모평균, 모표준편차처럼 첫머리에 ‘모’ 자를 붙인 이유는 표본의 평균과 표준편차와 구분하기 위해서이다. 빈도주의 통계학에서는 표본과 모집단의 구분이 중요하다.

정규곡선의 정점(highest point)은 모평균에 위치하며, 이는 분포의 중앙값이자 최빈값이기도 하다. 정규분포의 모평균은 음수, 0, 양수 등 어떤 숫자도 될 수 있다.

정규확률분포는 대칭이어서 평균 왼쪽의 정규곡선 모양은 평균 오른쪽의 정규곡선 모양과  거울에 비춘 것처럼 똑 같다. 정규곡선의 꼬리는 양쪽을 향해 무한대로 뻗어 나가며 이론적으로는 가로축에 절대 닿지 않는다. 정규확률분포는 대칭이고 기울어져 있지 않으므로 왜도(skewness)는 0이다.

모표준편차(혹은 모분산)는 정규곡선의 평평한 정도와 폭을 결정한다. 표준편차가 크면 곡선이 넓고 평평해지며, 자료의 변동성이  커진다.

정규분포의 확률밀도함수 그래프 아래의 면적은 1이며, 좌우대칭이므로 왼쪽이 0.5, 오른쪽이 0.5이다. 이보다 더 유용한 사실은 아래 그림에서 보듯이 정규분포확률변수값이 평균을 중심으로 좌우로 표준편차의 1배의 범위에 안에 있을 확률이 68%이고, 표준편차의 2배의 범위 안에 있을 확률은 95%, 3배의 범위 안에 있을 확률은 99.7%이라는 점이다.

실제로는 평균(μ)이 0이고 표준편차(σ)가 1인 표준정규분포(standard normal distribution)가 자주 사용된다. 모든 정규분포는 z-값(z-score)을 사용하여 표준화할 수 있는데, 표준정규분포는 그렇게 표준화된 수치들의 확률분포이다. z-값은 아래와 같이 구할 수 있다.

즉, 관찰값의 편차(평균과의 차이, )를 표준편차()로 나눈 값이다.  z-값으로 표준화하면, 확률밀도함수가 다음과 같이 간략히  표시된다.

이 식을 위에서 제시한 확률밀도함수 식 (1)과 비교해보면 차이를 쉽게 알 수 있다.표준정규분포는 다음 그림과 같은 분포를 갖는다.

표준정규확률변수값이 0의 좌우로 z-값의 1배 범위 안에 있을 확률이 68.27%, z-값의 2배 범위 안에 있을 확률은 95.45%, 그리고 z-값의 3배 범위 안에 있을 확률은99.73%이다. 다시 말해 거의 모든 사례가 z-값의 2배 이내에 있으며, z-값의 3배 이상에는 사례가 거의 존재하지 않는다.

표준정규확률분포가 중요한 이유는 모든 정규확률분포에서 확률을 계산할 때 표준정규확률표를 이용했기 때문이다. 오늘날에는 표준정규확률표 대신 응용프로그램을 이용하여 정규확률분포의 확률을 바로 계산할 수 있기 때문에 예전만큼 표준정규확률분포가 중요하지는 않다.  

빈도주의 통계학은 정규분포 혹은 표준정규분포의 분포가 지닌 이러한 특성을 이용하여 가설 검정을 수행한다. 정규분포를 이용한 가설 검정과 모수 추정은 추리통계에서 다루기로 하자.

정규확률변수는 이산분포를 하기 때문에 그것의 확률은 당연히 p.d.f 아래의 면적이다. 확률변수 X가 어떤 값 이하일 확률을 구하려면 p.d.f.를 적분하거나 c.d.f. 값을 구해야 하는데 계산이 복잡하므로 실제로는 응용프로그램을 사용하여 구하면 된다. 평균과 표준편차를 알면, 정규확률변수 값이 특정 범위에 속할 확률을 쉽게 구할 수 있다. 엑셀에서는 NORM.DIST라는 함수를 사용하면 되고, Probability Distributions app을 사용해도 X가 어떤 값 이하, 어떤 값이 이상 혹은 어떤 값과 어떤 값 사이일 확률을 간단히 구할 수 있다.

여기서는 예제를 가지고 확률변수 X의 범위가 주어졌을 때 그것의 확률을 구하는 실습을 해보도록 하자.

예제 1)  A 타이어 회사에서 새로 개발한 타이어의 주행 테스트를 시행하였다. 기술자들은 그 타이어의 주행거리를 평균() 36,500km, 그리고 표준편차()를 5,000km로 추정했다. 또한 수집한 자료에 따라 타이어의 주행거리가 정규확률분포를 이룬다고 가정하였다. 그렇다면 a) 몇 퍼센트의 타이어가 4만 km 이상 주행가능하다고 예상할 수 있을까? b) A 사는 보증 주행거리에 못 미친 타이어를 교체할 교체 타이어를 할인해 주는 보상 제도를 검토하고 있다. A사가 할인 보상을 받는 타이어의 비율이 10% 이하이길 바란다면, 보증 주행거리를 얼마로 설정해야 할까? 

해제 1-a) 타이어의 주행거리가 4만 km 이상일 확률을 구하는 문제이다. 간략히 표시하면, P(X > 40,000) = ?

MS Excel을 사용하여 확률을 구해보자. NORM.DIST 함수를 사용하면 되는데, 구하려고 하는 확률이 X > 40,000이므로 그 함수로 구한 값을 1에서 빼주어야 한다. 누적확률분포는 항상 왼쪽에서부터 누적된 값, 즉, X < x 를 계산하기 때문에 X > x의 학률을 구하려면 1 -P(X < x)를 계산해야 한다. 아래 그림에 보면 1 – NORM.DIST(A2,B2,C2,TRUE)를 계산하고 있다. 그렇게 해서 계산된 값이 0.2420이다. 즉, 타이어의 주행거리가 4만 km 이상일 확률은 24.20%, 다시 말해 24.20%의 타이어가 4만 km 이상 주행 가능하다고 예상된다.

Probability Distibutions app을 이용하면 더 쉽게 구할 수 있다. 아래 그림처럼 평균, 표준편차, x 값을 각각 입력하고, P(X > x) = 를 선택하면 된다.

해제 1-b) 보상받는 타이어의 비율이 10% 미만이라면 x < 0.10 이다. 즉, P(X < 0.10)을 구하는 문제이다. 이는 아래 그림의 주황색으로 된 부분의 면적을 구하는 문제이다. Probability Distributions app을 이용하면 쉽게 구할 수 있다. 아래 그림에서 P(X < x) =의 칸에 0.10을 넣으면, x = 30092.2421이 바로 구해진다. 답은, “보증 주행거리를 30, 100 km로 설정해 주면 된다”이다.

예제 2) 지난 3년간 국내 대기업의 주식형 펀드에 대한 평균 수익률이 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자.

a) 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은?

b) 개별 대기업 주식형 펀드의 3년간 수익률이 10% 이하일 확률은?

c) 3년 동안 상위 10%의 주식형 펀드들은 얼마나 큰 수익을 올렸나?

해제 2-a)  여기서 확률변수(X)는 주식형 펀드 수익률이다. 이 문제는 평균이 14.4%, 표준편차가 4.4%인 정규확률분포에서 P(X => 20)의 값을 구하라는 것이다. Probability Distributions를 사용해서 풀면 아래와 같다. 확률은 0.1016이다.

해제 2-b) P(X < 10) = ? 답은 0.1587이다.

해제 1-c) P(X > x) = 0.10일 때 x 값을 구하는 문제이다. Probability Distributions를 사용하면 답이 20.04% 이상이다.

엑셀을 사용해서 구하려면 NROM.INV 함수를 이용한다. 누적확률분포이므로 확률값은 0.10 대신 0.90을 입력해아 한다. 수익률 값은 위와 동일한 20.04% 이상이다. 즉, 상위 10% 안에 들려면 수익률이 20.04%는 되어야 한다.

예제 3) 표준정규확률분포에서 다음 확률을 계산하시오.

a) P(z <= 1.5) = ?

b) P(1 <= z <= 1.5) = ?

c) P( z => 0.44) = ?

해제)

3-a) 0.93319

3-b) 이 경우는 P(X <= 1.5)에서 P(X <= 1)을 빼면 될 것이다. 즉, 0.93319 – 0.84134 = 0.09185이다.

3-c) 답은 0.32997이다.

확률분포(7): 감마분포

베타분포처럼 감마분포(Gamma distribution, distribution)도 앞서 설명한 분포들과 깊이 관련되어 있다. 감마분포는 포아송 분포와 관련되어 있으며 지수분포를 확장하여 일반화한 확률분포라고 생각하면 된다. 때문에 감마분포를 공부하기 전에 포아송 분포와 지수분포를 복습해두면 좋을 것이다.

포아송분포는 단위 시간 당 어떤 사건이 발생하는 횟수에 대한 확률분포이고. 지수분포는 어떤 사건이 한 번 발생하는 데 걸리는 시간(혹은 시간 간격)에 대한 확률분포이며, 감마분포는 어떤 사건이 여러번( 번) 발생하는데 걸리는 시간에 대한 확률분포이다.

포아송분포: 확률변수 X = 단위 시간 당 사건 발생 횟수

지수분포: 확률변수 X = 어떤 사건이 한 번 발생하는 데 걸리는 시간

감마분포: 확률변수 X = 어떤 사건이 여러 번( 번) 발생하는 데 걸리는 시간

확률변수 X가 감마분포를 가지면 다음과 같이 표시된다.

퍼라미터 는 상호독립적인 확률변수 X의 갯수이다. 각 확률변수 X는 를 퍼라미터로 갖는 지수분포를 한다.

퍼라미터 는 첫번 째 사건이 발생할 때까지 소요된 시간이다.

는 단위 시간 당 어떤 사건의 평균적인 발생 횟수이다. 포아송분포와 지수분포의 경우와 같다. 감마분포는 포아송분포와 지수분포와 동일하게 를 가지고 나타낼 수도 있고, 를 가지고 나타낼 수도 있다. 를 가지고 나타내는 감마분포를 역감마분포(inverse gamma distribution)라고 부르기도 한다. 를 가지고 표현하는 경우가 많으니 여기서는 감마분포의 퍼라미터를  대신 라고 부르는 용례를 따르겠다.

따라서 이 글에서 감마분포는 다음과 같이 정의된다.

감마분포의 P.D.F.에 앞서 베타분포를 설명하면서 나왔던 감마함수( function)가 또 나왔다(). 베타분포를 설명할 때 감마 함수는 계승(factorial)을 실수 및 복소수로까지 확장한 것이며, 일 때, n이 양의 정수이면,  이라는 언급만 했다. 여기서는 감마함수의 성격에 대해 조금 더 자세히 언급하겠다.

감마함수가 계승(함수)의 확장이라는 말이 무슨 의미인지 궁금한 독자가 있을 것이다. 그것은 계승함수가 양의 정수에 대한 계승을 나타내는 데 그것을 실수에까지 확장한다는 의미이다. f(X)를 계승함수라고 하자.

몇 개의 X에 대한 계승함수 값을 그래프로 나타내면 아래와 같다.

그런데 위 점들을 잇는 선으로 잇는 함수가 바로 감마 함수이다. g(X)를 감마함수라면, 다음과 같이 표시할 수 있다.

X가 양의 실수이다. 몇 개의 X에 대한 감마함수 값을 그래프로 나타내면 아래와 같다.

의 감마함수는 다음과 같이 정의된다.

그리고 감마함수는 아래와 같은 성질을 갖는다.

다시 감마분포의 PDF (1)로 돌아가면, 모수 는 형상모수(shape parameter), 는 척도모수(scale parameter)라고 불린다. 와 구분하여 를 비율모수(rate parameter)라고 부르기도 한다.

4 illustrates the PDF of a Gamma distribution for multiple values of... | Download Scientific Diagram

위 그림은 형상모수와 척도모수가 감마분포의 모양을 어떻게 결정짓는 지에 대해 힌트를 준다. 먼저 척도모수 값이 1로 고정된 상태에서 형상모수의 값을 1, 2, 3으로 바꾸면, 까만 선, 빨간 선, 연초록 선으로 바뀜을 볼 수 있다. 까만선은 인 지수분포와 동일한 모습이다.

그 다음 형상모수 값을 3으로 두고, 척도모수를 2, 3으로 바꾸면, 그래프의 모양은 그대로 있고 그래프도의 척도가 변함을 알 수 있다(직접 시뮬레이션을 해보고 싶은 독자는 Probability Distributions 라는 앱을 가지고 시도해보기 바람). 그래서 퍼라미터의 이름이 척도모수라고 생각하면 될 것이다.

확률변수 X가 여러 개인 감마분포의 관점에서 보면, 지수분포는 첫번 째 사건(: )이 발생할 때까지 걸리는 시간에 대한 감마분포이다. 즉, 지수분포는 인 감마분포이다. 

위 식(1)에 을 대입하면 아래와 같다.

이는 정확히 확률분포 X의 지수분포에 대한 정의이다.

이제 예제를 가지고 감마분포를 살펴보자.

예제 1) 어떤 사람이 낚시를 하는데 평균 30분에 물고기 한 마리를 낚는다고 하자. 4마리 물고기를 잡는 시간이  2시간에서 4시간 사이가 걸릴 확률은?

해제) 30분에 물고기 한 마리를 낚으면, 1시간 당 평균 2 마리를 낚는다. 여기서 단위 시간은 1시간으로 해야 한다. 즉, . 그리고 물고기를 4마리 낚는데 필요한 시간이니 . 따라서 확률분포가 일 때 를 계산하면 된다.

확률변수 X: 물고기 4마리 잡을 때까지 걸리는 시간

감마분포의 누적분포 공식을 적용하면 아래와 같이 확률을 구할 수 있다. 직접 계산할 필요없이 응용프로그램을 이용하면 된다.

마이크로소프트 엑셀의 경우 가 아니라 를 가지고 감마분포를 표시하기 때문에 공식(1)을 사용하는 것이 아니라 아래 공식을 사용하여 확률 값을 준다. 즉, 역감마분포 값이다.

때문에 를 사용하는 감마분포 값을 구하기 위해서는 아래 공식을 이용해 값을 구해서 입력해 주어야 한다.

이 문제의 경우 가 2이니 는 0.5이다. 따라서 를 GAMMA.DIST에 입력하고 누적분포를 적용해야 를 제대로 계산할 수 있다.

Probability Distributions app은 공식 (1)을 사용하고 있으니 를 그대로 값으로 입력해 주면 된다. 그렇게 하면 엑셀과 동일한 결과를 구할 수 있다.

다소 혼란스럽기는 하지만, 감마분포 값을 구할 때는 응용 프로그램이 어떤 공식을 사용하고 있는지를 꼭 확인하고 적절한 퍼라미터 값을 입력해 주어야 한다.

예제 2) 승용차 패널 공정에 패널 제작용 철판을 배달한다고 하자. 우리는 20개의 철판을 배달하는데 걸리는 시간에 관심이 있다. 철판 배달은 포아송 분포를 따르고 1분당 평균 1.6개의 철판이 배달된다. 이 때 20개의 패널이 15분 이내에 배달될 확률은?

해제)

P(X < 15) = ?

감마분포의 누적분포 공식을 적용하면 되는데 적분 계산이 복잡하니 app을 사용하자. Probability Distributions app을 사용하면, 답은 0.81974이다.

(2020-09-27)

확률분포(6): 베타분포

베르누이분포나 이항분포처럼 성공과 실패의 이항 선택을 다루는 확률분포로 베타분포(Beta distribution)가 있다. 베르누이와 이항 분포에서는 성공의 횟수가 확률변수인데, 베타분포에서는 성공의 비율이 확률변수이다.

베타분포에 관한 직관적인 사례로는  야구선수의 타율이 있다. 타석 중 안타의 비율이 타율이다.

타자의 시즌 타율을 예측하는 문제를 생각해 보자. 시즌 초반에 어떤 타자의 시즌 타율을 예측하는데는 두 가지 방법이 있을 것이다. 그 타자가 상당히 유망한 타자라고 하자.

첫째, 시즌 초기의 몇 게임에서 얻은 타율을 가지고 시즌 타율을 예측하는 방법이 있다. 전혀 타당성이 없는 방법은 아니다. 그런데 만약 그 선수가 시즌 초반에 슬럼프에 빠져 있어 몇 게임 동안 안타를 전혀 치지 못했다면, 그 때까지 그 선수의 타율은 0.00일 것이고, 그의 시즌 타율은 0.00으로 예측된다. 반대로 시즌 초반에 잘 맞아서 몇 게임 동안 그 선수의 타율이 0.70이라면, 그의 시즌 타율은 0.70으로 예측된다. 이 두 가지 경우 모두 극단적인 예측이 되고, 실제로 들어맞을 가능성이 희박하다.

둘째, 전년도 타율에 관한 정보를 이용하는 방법이다. 실제적으로 프로야구에서 유능한 타자라면 시즌 타율이 최소한 2할대는 넘을 것이고 반대로 아무리 유능하다고 해도 통상 4할대가 넘지는 않는다. 이러한 현실을 반영하여 시즌 타율을 예측하는 방법은 선행 시즌의 타율과 시즌 초반의 성적을 모두 반영하는 것이다. 시즌 초반에 타율이 낮거나 높으면 그것을 전년도 타율이나 선수의 총 평균 타율에 적절히 반영하여 조정하면 훨씬 합리적으로 해당 시즌의 타율을 예측할 수 있을 것이다. 이것을 가능하게 해주는 것이 베이즈 추론이다. 베타분포는 베이즈 추론에서 널리 사용된다.

베타 분포는 비율이나 백분율(%)로 된 확률 변수를 예측하는데 유용한 확률모형이다. 베타 분포는 간단히 다음과 같이 표기한다.

베타분포는 PDF나 모멘트의 도출 과정이 좀 복잡하므로 먼저 베타 분포의 특징부터 알아보자.

첫째, 기본적인 베타분포는 확률변수가 0과 1 사이의 실수값을 갖는다(). 확률이나 백분율이 바로 그러한 경우이다. 아래 그림은 여러가지 형태의 베타분포를 보여준다. 그런데 X 축이 0과 1 사이로 되어 있음을 볼 수 있다.

Probability density function for the Beta distribution

둘째, PDF의 모양이 두 개의 모수 에 의해 결정된다. 이 모수를 하이퍼 퍼라미터(hyper-parameter)라고 부른다. 위 그래프에서 , 가 둘 다 0.5이면, 붉은색 선 그래프가 되고, 이면 청색 선 그래프, 이면, 녹색 선 그래프이다. 는 그래프의 모양을 결정짓는 형상 모수(shape parameter)이다.베타분포는 형상 모수의 값만 바꾸면 매우 다양한 모습의 확률 모형을 나타낼 수 있는 장점이 있다. 그것은 그만큼 적용성이 높음을 시사한다.

베타분포의 PDF는 확률변수 X(성공 비율)와 그것의 반사(reflection)인 (1 – X)(실패 비율)의 멱함수(거듭제곱 함수, power-law function)로 다음과 같이 정의된다.

여기서

형상 모수 는 양의 실수이고, 베타함수 는 확률분포의 총 확률(적분 값)을 1로 만들어 주는 정규화 상수(normalization constant)이다.

베타함수는 감마함수를 사용하여 나타낼 수도 있다.  이 식이 적분으로 나타낸 것보다 계산을 간편하게 할 수  있다. 베타함수 값은 각 형상모수의 감마 함수(Gamma function)를 두 형상모수의 합의 감마 함수로 나눈 값이다.  감마 함수는 계승(factorial)을 실수 및 복소수로까지 확장한 것이다.

베타분포의 모멘트는 다음과 같다.

그런데, 는 어떻게 해석될 수 있을까? 그 모수들은 성공횟수와 실패횟수를 나타낸다고 생각할 수 있다. 이항분포의 지수[]처럼  (혹은 )는 성공 횟수, (혹은 )는 실패 횟수로 간주될 수 있다.

예컨대 만약 성공할 지 실패할 지를 전혀 예측할 수 없으면 균일분포로 놓으면 될 것이다. 이면 베타분포는 균일분포가 된다. 아래 그림은 0과 1 사이의 무작위 값 1천 개를 구해서 그린 베타분포의 확률밀도함수들이다(엑셀에서 수행한 시뮬레이션 자료는 링크를 참조). 진한 파랑색 선이 균일분포를 나타내는 베타분포이다.

성공횟수와 실패횟수가 각각 1, 1이라면, 성공률은 0.5, 실패율도 0.5일 것이다. 성공과 실패라는 두 가지 경우만 있는 어떤 현상이 있고, 우리가 그 현상에 대해 아무런 사전 정보도 없다면, 어떤 결과가 나올 지 예측할 수 없다. 베타분포 혹은 균일분포는 이러한 이러한 상황을 의미한다.

만약 다음 실험에서 성공이 나왔다면, 퍼라미터가 인 베타분포가 될 것이다. 그림에서 그것의 확률밀도함수는 주황색 사선이다. 성공률 기대값은 2/3 = 0.6666…이다. 성공률의 기대값이 0.5에서 0.67로 약간 상승했다.

만약 그 다음 실험에서도 성공이 나왔다면, 퍼라미터가  인 베타분포가 될 것이며, 그림에서 그것의 확률밀도함수는 회색 선이다. 성공률의 기대값은 3/4 = 0.75이다. 당연히 성공률의 기대값이 또 상승했다.

그 다음 실험에서 실패가 나왔다면, 퍼라미터가  인 베타분포가 될 것이며, 그림에서 그것의 확률밀도함수는 노란색 선이다. 확률밀도함수의 오른쪽 끝 부분이 아래로 내려갔다. 당연히 성공률의 기대값이 하락했을 것이다. 실제로 성공률의기대값이 3/5 = 0.6로 다소 떨어졌다.

그 다음 실험에서 또 실패가 나왔다면, 퍼라미터가 인 베타분포가 될 것이며, 그림에서 그것의 확률밀도함수는 옅은 파랑색 선이다. 그래프의 중심이 더 왼쪽으로 이동했음을 알 수 있다. 성공률의 기대값이 더 하락했음을 나타낸다. 실제로 성공률의 기대값은 3/6 = 0.5로 더 떨어졌다.

그러한 실험을 11번 했는데, 성공이 10번이고 실패가 1번이라면, 퍼라미터가  인 베타분포가 될 것이다. 그림에서 그것의 확률밀도함수는 연두색 선으로 오른쪽 끝 부분이 가파르게 상승하고 있다. 성공률의 기대값이 상당히 큼을 시사한다. 실제로 성공률의 기대값은 10/11 =0.9090…로 매우 높다.

그런 실험을 17번 했는데, 성공이 10번이고 실패가 7번이라면, 퍼라미터가 인 베타분포가 될 것이다. 그림에서 진한 파랑색 선이다.무게중심이앞으로 그래프에 비해 왼쪽으로 많이 내려갔다.실제로성공률의기대값은10/17=0.5882로 성공률의 기대값이 크게 내려갔다.열번 성공한 후에 내리 일곱번 실패했다면 성공률의 기대값이 크게 떨어져도 전혀 놀라운 일이 아니다.

끝으로 다른 실험 하나.

어떤 온라인 쇼핑 사이트의 고객 평가는 ‘좋음’과 ‘나쁨’ 두 가지 선택만으로 되어 있다. 그런데 500명이 평가에 참여해서, 400명이 좋음을 선택했고, 100명이 나쁨을 선택했다고 하자. 그렇다면 이 사이트의 성공률의 기대값(평균 성공률)은 얼마일까?

위 식 (2)를 이용해서 계산하면, 400/500 = 0.8이다. 성공률(좋음으로 평가받을 가능성)은 0.8이다. 그림에서 진한 빨강색 선이 이 실험 결과를 나타내는 확률밀도함수이다. 그것은 인 베타분포이다. 그래프를 보면 0.8을 중심으로 사건이 집중적으로 분포되어 있음을 알 수 있다. 이는 같은 성공률 일지라도 10번에 8번 성공했을 때보다 500번중 400번 성공했을 때 성공률의 기대값 0.8에 대해 더 크게 확신할 수있음을 시사한다. 다시 말해 성공률이 0.8을 크게 벗어날 가능성이 없다는 말이다.

예제 1) 한 온라인 쇼핑몰에는 고객이 판매 상품에 대한 좋음과 나쁨 두 가지 평가할 수 있다. 그런데 어떤 제품에 대해 현재까지 400개의 좋음과 100개의 나쁨 평가를 받았다. 그렇다면, 이 제품이 고객들로부터 좋음을 받을 확률이 0.85 이상일 확률은?

(해제) 을 대입해서 엑셀의 베타함수 BETA.DIST를 이용한다.

BETA.DIST(0.85, 400, 100, TRUE)를 계산하면, 0.998568이다. 이는 0.85까지의 누적확률분포의 값이므로, 0.85 이상일 확률을 구하면, 1 – 0.998568 = 0.001432가 된다.

(2020-09-18)