결합확률분포, 주변확률분포, 조건부확률분포: 연속확률변수

앞에 게시한 세 개의 글(결합확률, 주변확률, 조건부확률: 이산확률변수결합확률분포: 이산확률변수주변확률분포, 조건부확률분포: 이산확률변수)은 이산확률변수에 집중했다. 이 블로그의 주요 독자인 인문사회학도의 수학적 배경이 약하기 때문에 연속확률변수까지 한꺼번에 논의하면, 수학적 부담이 장해로 작용하리라 생각되었다. 그래서 이산확률변수에 논의를 한정해서 결합확률분포와 조건부확률분포를 개념적으로 소개하는데 촛점을 맞추었다. 이제 개념적인 소개를 마쳤기 때문에 그 염려를 털어버리고 이산확률변수에서의 논의를 연속확률변수까지 확장해 보자. 그리고 앞 게시글 사회통계를 위한 미적분 복습에 기초 수학을 정리해 두었으니 필요한 독자는 참고 바란다.

확률변수 X와 Y가 있을 때, 결합확률밀도함수(joint pdf)는 다음과 같이 성질을 갖는다.

<X, Y가 이산확률변수인 경우>

(1) 

<X, Y가 연속확률변수인 경우>

(1) : 모든 x, y에 대하여 결합확률함수가 양의 실수이다. 결합확률함수는 확률이기 때문에 0보다 크다.

(2) : 특정한 영역(A)를 고려했을때, 그 영역에 대한 확률은그 영역에 대해 결합확률함수의 적분값을 구하면 된다. 그런데 변수가 두 개이므로 이중적분(혹은 중적분)을 해야 한다. 즉, 안쪽 변수인 x에 대해 먼저 적분하고 그렇게 해서 얻은 값을 다시 바깥쪽 변수인 y에 대해 적분한다.

(3) : X, Y 모든 범위에 대한 적분값은 1이다.

결합누적확률밀도함수

결합누적확률밀도함수(joint cdf)는 아래와 같다. 결합누적확률밀도함수는 대문자로 표시한다.

<X, Y가 이산확률변수인 경우>

<X, Y가 연속확률변수인 경우>

(합)처럼 (적분)도 정의역의 가장 작은 값부터의 누적을 나타낸다. 다만 는 이산적(discrete)인 수의 합이지만, 는 연속적(continuous)인 수의 합이란 점에 차이가 있을 뿐이다. 결합확률분포에서는 시그마도 적분도 누적합이다.

주변확률함수

<X, Y가 이산확률변수인 경우>

X의 주변확률함수(ㅡmarginal pdf)는 일 때 모든 Y 값에 대한 결합확률함수 의 합이다.

 Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수 의 합이다.

<X, Y가 연속확률변수의 경우>

연속확률변수 X, Y의 결합확률밀도함수가 주어졌을 때, X만을 고려하는 확률 는 결합확률분포에서는 를 의미한다. 따라서 다음과 같이 된다.

여기서

라고 하면,

Y의 주변확률함수도 동일한 방식으로 정의된다. 따라서 X, Y의 주변확률함수는 다음과 같이 간략히 요약할 수 있을 것이다.

X의 주변확률함수는 일 때 모든 Y 값에 대한 결합확률함수의 적분이다.

Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수의 적분이다.

조건부확률함수

연속확률변수일 때 조건부확률함수에 대한 정의는 이산확률변수일 때와 같다. 즉,  조건부확률분포는 결합확률분포를 주변확률분포로 나눈 값이다.

이 주어졌을 때 확률변수 Y의 조건부확률분포는 결합확률분포를 X의 주변확률분포로 나누면 구해진다.

가 주어졌을 때 확률변수 X의 조건부확률분포도 마찬가지로 구할 수 있다.

다만 이산확률변수에서는 가 각각 확률을 가리키지만, 연속확률변수에서는 확률의 밀도(혹은 변화율)을 가리키는 점이 다르다.

예제 1) 결합 pdf 가 다음과 같을 때 상수 c는 얼마인가?

해제) x, y 모든 범위에 대한 적분값이 1이므로,

좌변을 풀면,

예제 2) 연속확률변수 X와 Y의 결합확률함수가 아래와 같을 때 다음을 구하시오.

(1) 두 확률변수 X, Y의 주변확률밀도함수(주변 pdf)를 구하시오.

해제)

(2) 확률  을 구하시오.

해제)

(3) 을 각각 구하시오.

이는 주변확률함수를 구하라는 문제이다. 앞의 (1)에서 구해놓은 주변확률함수를 이용한다.

예제 3) 연속확률변수 X, Y의 결합 pdf가 

일 때 다음 확률을 구하시오.

(1) 

(2) 

해제) 결합확률함수는 주어졌으니 주변확률함수를 구하면 조건부확률함수가 도출된다.

(1) X 값(x)가 Y 값(y) 보다 작아야 한다는 조건에 유념하자. 이 문제의 경우 X 값은 항상 Y 값보다 작을 것이니 조건부확률함수를 적용하면 된다.

(2) 이 문제의 경우 Y 값이 1/2이니 X 값은 0 < x < 1/2이어야 한다. 그런데 0 < x < 3/4의 확률 구해야 하니 문제다. 그 경우 0 < x < 1/2보다 큰 X 값, 즉, 1/2 <= x < 3/4에서는 적분 값이 0이다. 따라서 적분을 X에 대해 두 구간으로 나누어 계산해야 한다.

결합확률분포: 이산확률변수

앞 포스팅에서 두 확률변수가 관계될 때 출현하는 세 가지 확률인 결합확률, 주변확률, 조건부 확률에 대해 공부했다. 결합확률은 두 확률변수의 교집합(동시 발생)이 발생할 확률이고, 주변확률은 결합확률표에서 하나의 확률변수의 특정한 값이 발생하는 확률이며, 조건부 확률은 하나의 확률변수의 특정 값이 주어졌을 때, 다른 하나의 확률변수의 특정 값이 발생할 확률이다.

두 확률변수의 관계에 관한 이 논의는 확률분포에까지 확장할 수 있다. 즉, 결합확률분포, 주변확률분포, 조건부 확률분포를 생각할 수 있다. 확률변수의 확률분포는 확률변수의 값에 확률이 어떻게 부여되는 지를 말해준다. 즉, 확률분포를 구하면 다양한 사상의 확률을 알 수 있다. 그리고 확률분포는 확률함수로 정의될 수 있으니, 위 세 가지 확률분포는 각각 결합확률(밀도)함수, 주변확률(밀도)함수, 조건부 확률(밀도)함수로 정의될 것이다.

두 개의 이산확률변수 X와 Y가 있다고 하자. 각 확률변수는 확률분포를 갖고 그것은 확률(밀도)함수(이산확률변수일 때는 확률질량함수라고 쓰기도 함)에 의해 정의된다. 결합확률분포는 이산확률변수가 두 개인 확률(밀도)함수로 생각하면 된다.

X가 의 값을 갖고, Y가 의 값을 가질 때,

를 만족하는 를 이산확률변수 X, Y의 결합확률(밀도)함수라고 한다. 표기가 좀 복잡해서 통상 아래 첨자(subscipt)을 떼버리고 위 식을 아래와 같이 간략히 쓴다.

더 간단히 라고 쓰기도 한다. 두 확률변수 X, Y의 동시 발생에 대한 확률분포는 두 확률함수 X, Y의 범위 내에서 어떤 쌍의 값에 대해서도 값을 갖는 함수에 의해 표시된다. 그리고 이 함수를 X, Y의 결합확률분포(joint probability distribution)라고 한다.

표기법에 대해 한 마디. 변수가 많아지면 함수의 표기가 복잡해진다. 확률에서 식은 가급적 간단히 표기하는 데 특별히 강조해야 할 경우에는 복잡한 표기법도 사용한다. 예컨대 관계된 확률변수가 X와 Y임을 분명하게 나타내고 싶으면 결합확률함수를 라고 표기한다. 그렇지 않은 경우에는 그냥 간단히 라고만 써도 충분하다. 여러가지 복잡하면, 확률변수는 대문자(e.g. X, Y)로 표시하고 확률변수의 값은 소문자(e.g. x, y)로 표시한다는 정도만 기억해두자.

결합확률(밀도)함수(joint pdf)는 세 가지 성질을 갖고 있다.

:  결합확률함수는 X가 x이고, 동시에 Y가 y인 사상에 대한 확률을 준다.

: X와 Y의 모든 값에 대해 결합확률함수는 0과 1 사이의 값을 갖는다. 결합확률함수는 확률이니까 당연히 0과 1 사이의 값을 갖는다.

: X와 Y가 가진 범위에서 결합확률함수를 모두 더 하면 1이다. 결합확률함수는 확률이니까 당연히 확률 전체의 합은 1이다.

두 확률변수 X,Y에 대해 결합누적확률분포(joint accumulative probability distribution)는 다음과 같이 정의된다.

확률밀도함수는 소문자 f로, 누적확률분포는 대문자 F로 표기된다. 때문에 간략히 로 표기해도 로 이해 된다. 누적확률분포는 정의역의 가장 작은 값부터 지정 값까지의 확률을 모두 더해 계산된다. 그것은 확률변수가 두 개일 때나 하나일 때나 마찬가지이다. 두 개일 때는 계산이 좀 더 복잡해질 뿐이다.

X가 특정 구간 내의 값을 갖고, 동시에 Y도 특정 구간 내의 값을 갖는 결합누적확률은 결합누적확률분포함수에 의해 다음과 같이 구해진다.

예제 1) 주사위를 던져 나온 수가 짝수이면 X = 1, 홀수이면 X = 0이다. 그리고 주사위를 던져 나온 수가 소수이면 Y =1, 소수가 아니면 Y = 0이다. 결합확률함수를 구해보자.

해제) 이 결과를 표로 만들면 다음과 같을 것이다.

 123456
X010101
Y011010

X와 Y의 결합확률밀도함수 는 다음과 같다.

이 결합확률함수를 모두 더 하면 1이다.

예제 2) 주사위를 던졌을 때, X는 윗면의 숫자이고, Y는 밑면의 숫자이다. X와 Y의 결합확률함수를 구하라.  

해제) x = {1, 2, 3, 4, 5, 6}, y = {1, 2, 3, 4, 5, 6}, 주사위의 윗면과 밑면의 수의 합은 항상 7이다. 즉, 이다.

이 결합확률의 합은 1이다.

예제 3) 내부가 보이지 않는 박스 안에 파란색 볼펜 3개, 붉은색 볼펜 2개, 초록색 볼펜 3개가 들어 있다. 무작위로 2개의 볼펜을 뽑았을 때, 파란색 볼펜과 붉은색 볼펜이 함께 뽑힐 결합확률함수를 구하시오. 파란색 볼펜이 뽑히는 수효는 X, 붉은색 볼펜이 뽑히는 수효는 Y라고 하자.

해제)  x = {0, 1, 2}, y = {0, 1, 2},

예제 4) 결합확률함수 가 다음과 같다.

결합누적확률함수를 구하시오.

해제) 위에서 제시한 공식을 적용하면 다음과 같다.

예제 5) 아래는 확률변수 X, Y의 결합확률밀도함수를 표로 나타낸 것이다. 이 표의 정보를 가지고 결합누적확률함수를 구하시오.

 Y=2Y=4Y=6Y=8
X=100.100.1
X=3000.20
X=50.3000.15
X=7000.150

해제) 위에 제시한 공식을 적용하면 결합누적확률함수는 다음과 같다.

, , ,

,

,

이를 간략히 표로 나타내면 아래와 같다.