결합확률분포, 주변확률분포, 조건부확률분포: 연속확률변수

앞에 게시한 세 개의 글(결합확률, 주변확률, 조건부확률: 이산확률변수결합확률분포: 이산확률변수주변확률분포, 조건부확률분포: 이산확률변수)은 이산확률변수에 집중했다. 이 블로그의 주요 독자인 인문사회학도의 수학적 배경이 약하기 때문에 연속확률변수까지 한꺼번에 논의하면, 수학적 부담이 장해로 작용하리라 생각되었다. 그래서 이산확률변수에 논의를 한정해서 결합확률분포와 조건부확률분포를 개념적으로 소개하는데 촛점을 맞추었다. 이제 개념적인 소개를 마쳤기 때문에 그 염려를 털어버리고 이산확률변수에서의 논의를 연속확률변수까지 확장해 보자. 그리고 앞 게시글 사회통계를 위한 미적분 복습에 기초 수학을 정리해 두었으니 필요한 독자는 참고 바란다.

확률변수 X와 Y가 있을 때, 결합확률밀도함수(joint pdf)는 다음과 같이 성질을 갖는다.

<X, Y가 이산확률변수인 경우>

(1) 

<X, Y가 연속확률변수인 경우>

(1) : 모든 x, y에 대하여 결합확률함수가 양의 실수이다. 결합확률함수는 확률이기 때문에 0보다 크다.

(2) : 특정한 영역(A)를 고려했을때, 그 영역에 대한 확률은그 영역에 대해 결합확률함수의 적분값을 구하면 된다. 그런데 변수가 두 개이므로 이중적분(혹은 중적분)을 해야 한다. 즉, 안쪽 변수인 x에 대해 먼저 적분하고 그렇게 해서 얻은 값을 다시 바깥쪽 변수인 y에 대해 적분한다.

(3) : X, Y 모든 범위에 대한 적분값은 1이다.

결합누적확률밀도함수

결합누적확률밀도함수(joint cdf)는 아래와 같다. 결합누적확률밀도함수는 대문자로 표시한다.

<X, Y가 이산확률변수인 경우>

<X, Y가 연속확률변수인 경우>

(합)처럼 (적분)도 정의역의 가장 작은 값부터의 누적을 나타낸다. 다만 는 이산적(discrete)인 수의 합이지만, 는 연속적(continuous)인 수의 합이란 점에 차이가 있을 뿐이다. 결합확률분포에서는 시그마도 적분도 누적합이다.

주변확률함수

<X, Y가 이산확률변수인 경우>

X의 주변확률함수(ㅡmarginal pdf)는 일 때 모든 Y 값에 대한 결합확률함수 의 합이다.

 Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수 의 합이다.

<X, Y가 연속확률변수의 경우>

연속확률변수 X, Y의 결합확률밀도함수가 주어졌을 때, X만을 고려하는 확률 는 결합확률분포에서는 를 의미한다. 따라서 다음과 같이 된다.

여기서

라고 하면,

Y의 주변확률함수도 동일한 방식으로 정의된다. 따라서 X, Y의 주변확률함수는 다음과 같이 간략히 요약할 수 있을 것이다.

X의 주변확률함수는 일 때 모든 Y 값에 대한 결합확률함수의 적분이다.

Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수의 적분이다.

조건부확률함수

연속확률변수일 때 조건부확률함수에 대한 정의는 이산확률변수일 때와 같다. 즉,  조건부확률분포는 결합확률분포를 주변확률분포로 나눈 값이다.

이 주어졌을 때 확률변수 Y의 조건부확률분포는 결합확률분포를 X의 주변확률분포로 나누면 구해진다.

가 주어졌을 때 확률변수 X의 조건부확률분포도 마찬가지로 구할 수 있다.

다만 이산확률변수에서는 가 각각 확률을 가리키지만, 연속확률변수에서는 확률의 밀도(혹은 변화율)을 가리키는 점이 다르다.

예제 1) 결합 pdf 가 다음과 같을 때 상수 c는 얼마인가?

해제) x, y 모든 범위에 대한 적분값이 1이므로,

좌변을 풀면,

예제 2) 연속확률변수 X와 Y의 결합확률함수가 아래와 같을 때 다음을 구하시오.

(1) 두 확률변수 X, Y의 주변확률밀도함수(주변 pdf)를 구하시오.

해제)

(2) 확률  을 구하시오.

해제)

(3) 을 각각 구하시오.

이는 주변확률함수를 구하라는 문제이다. 앞의 (1)에서 구해놓은 주변확률함수를 이용한다.

예제 3) 연속확률변수 X, Y의 결합 pdf가 

일 때 다음 확률을 구하시오.

(1) 

(2) 

해제) 결합확률함수는 주어졌으니 주변확률함수를 구하면 조건부확률함수가 도출된다.

(1) X 값(x)가 Y 값(y) 보다 작아야 한다는 조건에 유념하자. 이 문제의 경우 X 값은 항상 Y 값보다 작을 것이니 조건부확률함수를 적용하면 된다.

(2) 이 문제의 경우 Y 값이 1/2이니 X 값은 0 < x < 1/2이어야 한다. 그런데 0 < x < 3/4의 확률 구해야 하니 문제다. 그 경우 0 < x < 1/2보다 큰 X 값, 즉, 1/2 <= x < 3/4에서는 적분 값이 0이다. 따라서 적분을 X에 대해 두 구간으로 나누어 계산해야 한다.