주변확률분포, 조건부확률분포: 이산확률변수

이산확률변수 X, Y가 결합확률분포를 가질 때, 주변확률함수는 다음과 같이 정의된다. 앞 게시글에서 제시한 주변확률의 정의와 논리적으로 다르지 않다. 확률 대신 함수가 들어왔을 뿐이다.

X의 주변확률함수(ㅡmarginal pdf)는 일 때 모든 Y 값에 대한 결합확률함수 의 합이다.

Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수 의 합이다.

아래 이산결합확률분포표에서 ‘계’ 열과 ‘계’ 행이 주변확률밀도함수이다.

결합확률함수와 주변확률함수를 알면 조건부확률분포를 구할 수 있다. 조건부확률분포(conditional probability distribution)는 결합확률분포를 주변확률분포로 나눈 값이다.

이 주어졌을 때 확률변수 Y의 조건부확률분포는 결합확률분포를 X의 주변확률분포로 나누면 구해진다.

예제 1) 결합확률함수 가 다음과 같다.

Y =1 일 때, 조건부확률함수를 구하시오.

해제) 결합확률분포표를 구한다.

예제 2) 주사위를 던져 나온 수가 짝수이면 X = 1, 홀수이면 X = 0이다. 그리고 주사위를 던져 나온 수가 소수이면 Y =1, 소수가 아니면 Y = 0이다. 결합확률함수를 구해보자. X와 Y의 결합확률밀도함수 는 다음과 같다.

, ,

주사위를 던져 나온 수가 짝수일 때, 조건부확률함수를 구하시오.

해제) 주사위를 던져 나온 수가 짝수일 때이니, X = 1이라는 말이다.

즉, 주사위를 던져 나온 수가 짝수일 때, 그 수가 소수일 확률은 1/3이고, 그 수가 소수가 아닐 확률은 2/3이다.

결합확률분포: 이산확률변수

앞 포스팅에서 두 확률변수가 관계될 때 출현하는 세 가지 확률인 결합확률, 주변확률, 조건부 확률에 대해 공부했다. 결합확률은 두 확률변수의 교집합(동시 발생)이 발생할 확률이고, 주변확률은 결합확률표에서 하나의 확률변수의 특정한 값이 발생하는 확률이며, 조건부 확률은 하나의 확률변수의 특정 값이 주어졌을 때, 다른 하나의 확률변수의 특정 값이 발생할 확률이다.

두 확률변수의 관계에 관한 이 논의는 확률분포에까지 확장할 수 있다. 즉, 결합확률분포, 주변확률분포, 조건부 확률분포를 생각할 수 있다. 확률변수의 확률분포는 확률변수의 값에 확률이 어떻게 부여되는 지를 말해준다. 즉, 확률분포를 구하면 다양한 사상의 확률을 알 수 있다. 그리고 확률분포는 확률함수로 정의될 수 있으니, 위 세 가지 확률분포는 각각 결합확률(밀도)함수, 주변확률(밀도)함수, 조건부 확률(밀도)함수로 정의될 것이다.

두 개의 이산확률변수 X와 Y가 있다고 하자. 각 확률변수는 확률분포를 갖고 그것은 확률(밀도)함수(이산확률변수일 때는 확률질량함수라고 쓰기도 함)에 의해 정의된다. 결합확률분포는 이산확률변수가 두 개인 확률(밀도)함수로 생각하면 된다.

X가 의 값을 갖고, Y가 의 값을 가질 때,

를 만족하는 를 이산확률변수 X, Y의 결합확률(밀도)함수라고 한다. 표기가 좀 복잡해서 통상 아래 첨자(subscipt)을 떼버리고 위 식을 아래와 같이 간략히 쓴다.

더 간단히 라고 쓰기도 한다. 두 확률변수 X, Y의 동시 발생에 대한 확률분포는 두 확률함수 X, Y의 범위 내에서 어떤 쌍의 값에 대해서도 값을 갖는 함수에 의해 표시된다. 그리고 이 함수를 X, Y의 결합확률분포(joint probability distribution)라고 한다.

표기법에 대해 한 마디. 변수가 많아지면 함수의 표기가 복잡해진다. 확률에서 식은 가급적 간단히 표기하는 데 특별히 강조해야 할 경우에는 복잡한 표기법도 사용한다. 예컨대 관계된 확률변수가 X와 Y임을 분명하게 나타내고 싶으면 결합확률함수를 라고 표기한다. 그렇지 않은 경우에는 그냥 간단히 라고만 써도 충분하다. 여러가지 복잡하면, 확률변수는 대문자(e.g. X, Y)로 표시하고 확률변수의 값은 소문자(e.g. x, y)로 표시한다는 정도만 기억해두자.

결합확률(밀도)함수(joint pdf)는 세 가지 성질을 갖고 있다.

:  결합확률함수는 X가 x이고, 동시에 Y가 y인 사상에 대한 확률을 준다.

: X와 Y의 모든 값에 대해 결합확률함수는 0과 1 사이의 값을 갖는다. 결합확률함수는 확률이니까 당연히 0과 1 사이의 값을 갖는다.

: X와 Y가 가진 범위에서 결합확률함수를 모두 더 하면 1이다. 결합확률함수는 확률이니까 당연히 확률 전체의 합은 1이다.

두 확률변수 X,Y에 대해 결합누적확률분포(joint accumulative probability distribution)는 다음과 같이 정의된다.

확률밀도함수는 소문자 f로, 누적확률분포는 대문자 F로 표기된다. 때문에 간략히 로 표기해도 로 이해 된다. 누적확률분포는 정의역의 가장 작은 값부터 지정 값까지의 확률을 모두 더해 계산된다. 그것은 확률변수가 두 개일 때나 하나일 때나 마찬가지이다. 두 개일 때는 계산이 좀 더 복잡해질 뿐이다.

X가 특정 구간 내의 값을 갖고, 동시에 Y도 특정 구간 내의 값을 갖는 결합누적확률은 결합누적확률분포함수에 의해 다음과 같이 구해진다.

예제 1) 주사위를 던져 나온 수가 짝수이면 X = 1, 홀수이면 X = 0이다. 그리고 주사위를 던져 나온 수가 소수이면 Y =1, 소수가 아니면 Y = 0이다. 결합확률함수를 구해보자.

해제) 이 결과를 표로 만들면 다음과 같을 것이다.

 123456
X010101
Y011010

X와 Y의 결합확률밀도함수 는 다음과 같다.

이 결합확률함수를 모두 더 하면 1이다.

예제 2) 주사위를 던졌을 때, X는 윗면의 숫자이고, Y는 밑면의 숫자이다. X와 Y의 결합확률함수를 구하라.  

해제) x = {1, 2, 3, 4, 5, 6}, y = {1, 2, 3, 4, 5, 6}, 주사위의 윗면과 밑면의 수의 합은 항상 7이다. 즉, 이다.

이 결합확률의 합은 1이다.

예제 3) 내부가 보이지 않는 박스 안에 파란색 볼펜 3개, 붉은색 볼펜 2개, 초록색 볼펜 3개가 들어 있다. 무작위로 2개의 볼펜을 뽑았을 때, 파란색 볼펜과 붉은색 볼펜이 함께 뽑힐 결합확률함수를 구하시오. 파란색 볼펜이 뽑히는 수효는 X, 붉은색 볼펜이 뽑히는 수효는 Y라고 하자.

해제)  x = {0, 1, 2}, y = {0, 1, 2},

예제 4) 결합확률함수 가 다음과 같다.

결합누적확률함수를 구하시오.

해제) 위에서 제시한 공식을 적용하면 다음과 같다.

예제 5) 아래는 확률변수 X, Y의 결합확률밀도함수를 표로 나타낸 것이다. 이 표의 정보를 가지고 결합누적확률함수를 구하시오.

 Y=2Y=4Y=6Y=8
X=100.100.1
X=3000.20
X=50.3000.15
X=7000.150

해제) 위에 제시한 공식을 적용하면 결합누적확률함수는 다음과 같다.

, , ,

,

,

이를 간략히 표로 나타내면 아래와 같다.

결합확률, 주변확률, 조건부 확률: 이산확률변수

교차표(cross-table)

두 개의 이산확률변수 X, Y가 결합하여 아래와 같은 교차표가 형성되었다고 하자.

각 칸(cell)에는 두 확률변수 값()을 충족하는 사상(事象, event)이 들어간다. 그것을 총 사상의 수효인 N에 대비하여  로 표시하자. 관행에 따라 확률변수는 대문자로, 확률변수의 값은 소문자로 표기한다.

결합확률(joint probability)

두 확률변수의 결합확률은 아래와 같이 표시된다. 두 확률변수의 결합확률은 두 확률변수의 교집합이 발생할 확률이다.

또한 확률은 항상 0과 1 사이의 값을 갖는다. 따라서 확률로 나타낸다는 것은 사상의 수를 0과 1 사이 값으로 정규화(normalization)한다고 말할 수 있다. 정규화를 하면 사상 값들의 총합은 1이다. 각 사상의 수( )를 총 사상의 수 N으로 나누면 사상의 수가 모두 0과 1 사이의 값으로 정규화된다. N은 정규화 상수(normalizing constant)라고 말할 수 있다. 결합확률은 사상의 수가 정규화된 값이다.

결합확률표(joint probability table)

주변확률(marginal probability)

주변확률은 결합확률이 있다는 조건에서 존재한다. 이산형 확률변수의 경우 두 개(혹은 그 이상)의 확률변수로 구성된 결합확률표에 존재한다. 위 결합확률표에서 한 확률변수의 확률만을 고려하는 것이 주변확률이다. 진한 파랑색으로 된 부분이 주변확률이다. 위 결합확률표에서 확률변수 X, Y 중 X 혹은 Y 하나만 고려하면 주변확률이 나온다. X의 주변확률은 특정한 X 값에 속하는 X, Y 결합확률 값을 모두 합한 것이다. 위 결합확률표에서 여섯 개의 주변확률은 다음과 같이 계산된다.

확률변수 X, Y의 결합확률을 일반화시켜서 나타내면 아래와 같다.

조건부 확률(conditional probability)

확률변수 두 개(혹은 그 이상)가 있다. 하나 확률변수의 특정 값(e.g. )이 주어졌을 때, 다른 하나 확률변수의 특정 값(e.g. )이 나타날 확률이 조건부 확률이다. 흔히 조건부 확률은 다음과 같이 표기된다.

하나의 확률변수 값()이 주어졌기 때문에, 전체 사상(N) 대신 오직 그 값의 사상()만 고려된다. 즉, 가 정규화 상수가 된다. 결합확률과 주변확률의 경우에는 N이 정규화 상수였다. 다시 말해 N이 1이 되는 것이 아니라 가 1이 된다.

위 결합확률표를 가지고 예를 들어보자. 확률변수 X가 3일 때 조건부 확률은 세 가지가 있을 것이다. Y가 1인 경우, Y가 2인 경우, Y가 3인 경우이다. 조건부 확률을 구하려면, X가 3인 열의 칸을 모두 P(X = 3)으로 나누어 주면 된다.

그러면 아래 결합확률표의 주황색 열처럼 될 것이다. 조건부 확률은 결합확률을 주변확률로 나눈 값이다.

조건부 확률을 합하면 1이다.

조건부 확률은 다음과 같이 일반화하여 표시될 수 있을 것이다.

개념적으로 설명했으니  이제 예제를 가지고 이해해 보자. 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀를 구분해 정리한 자료이다.

 X = x1X = x2
Y = y128836324
Y = y2672204876
9602401,200

사건의 정의:

확률변수 = 성별: = 남성, = 여성

확률변수 = 승진 여부: = 승진,  = 승진탈락

이 데이터를 가지고 결합확률표를 구해보자. 각 칸(사상)의 빈도수()를 총 빈도수(N)로 나누어 0과 1 사이로 정규화하면 그것이 결합확률이다. 그렇게 해서 구한 결합확률표는 아래와 같다.

 X = x1X = x2P(Y = yi)
Y = y10.240.030.27
Y = y20.560.170.73
P(X = xi)0.800.201.00

결합확률표에서 각 열의 결합확률을 더하면 성별의 주변확률이 구해지고, 각 행의 결합확률을 더하면 승진여부의 주변확률이 구해진다. 주변확률도 전체 사상수에 의해 정규화되어 있어 열의 주변확률을 모두 더한 값도 1이고 행의 주변확률을 모두 더한 값도 1이다.

그렇다면 어떤 경찰관이 여성일 때, 그 경찰관이 승진할 확률은 얼마이겠는가? 조건부 확률을 묻는 문제이다.

이 조건부 확률은, 여성이면서 승진한 경찰관일 확률이라는 결합확률(0.03)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.15이다.

어떤 경찰관이 여성일 때, 그 경찰관이 승진하지 못할 확률은? 이것도 조건부 확률 문제이다.

여성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.17)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.85이다.

이 두 개의 조건부 확률을 합하면 1이다. 조건부확률이란 주변확률을 1로 만든 것이니 당연한 결과이다.

남성 경찰관은 어떨까?

어떤 경찰관이 남성일 때, 그 경찰관이 승진할 확률은? 남성이면서 승진한 경찰관일 확률이라는 결합확률(0.24)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.3이다.

어떤 경찰관이 남성일 때, 그 경찰관이 승진하지 못할 확률은? 남성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.56)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.7이다.

이 두 조건부 확률을 더하면 1이다.

여성 경찰관이 승진할 확률은 0.15이고, 남성 경찰관이 승진할 확률은 0.3이니 남성 경찰관이 승진할 확률이 여성 경찰관이 승진할 확률의 두 배이다. 성차별 냄새가 나는 차이이다.

확률분포(8): 정규분포

주류통계학(빈도주의 통계학)에서 가장 중요한 확률분포는 단연 정규확률분포(normal probability distribution)이다. 정규분포는 모수추정과 가설검정이라는 추리 통계를 가능하게 해주기 때문이다.

정규분포는 종 모양(bell-shaped)의 정규곡선을 이룬다. 아래 그림처럼 평균을 중심으로 해서 사건이 중앙에 가장 많이 분포하고 양끝으로 갈수록 희박하게 분포하며, 평균을 축으로 그래프의 양쪽이 정확히 겹쳐진다. 즉, 확률밀도함수의 그래프의 무게중심이 평균이다.

확률변수 X의 정규분포는 다음과 같이 표시된다.

정규분포는 모평균(μ)과 모분산() 두 개의 퍼라미터를 가지고 있다. 정규분포는 그것을 정립한 수학자 카를 프리드리히 가우스의 이름을 따서 가우스 분포(Gaussian distribution)라고도 불린다.

정규분포의 확률밀도함수는 다음과 같다.

식 (1)에서, μ = 모평균, σ = 모표준편차, π = 3.14159, e = 2.71828. 이 확률밀도함수는 모든 정규확률분포가 두 개의 모수(parameter), μ와 σ에 따라 달라짐을 보여준다. σ(모표준편차)는 (모분산)의 양의 제곱근이니, 정규확률분포의 모습이 μ와 에 따라 달라진다고 해도 무방하다.  모평균, 모표준편차처럼 첫머리에 ‘모’ 자를 붙인 이유는 표본의 평균과 표준편차와 구분하기 위해서이다. 빈도주의 통계학에서는 표본과 모집단의 구분이 중요하다.

정규곡선의 정점(highest point)은 모평균에 위치하며, 이는 분포의 중앙값이자 최빈값이기도 하다. 정규분포의 모평균은 음수, 0, 양수 등 어떤 숫자도 될 수 있다.

정규확률분포는 대칭이어서 평균 왼쪽의 정규곡선 모양은 평균 오른쪽의 정규곡선 모양과  거울에 비춘 것처럼 똑 같다. 정규곡선의 꼬리는 양쪽을 향해 무한대로 뻗어 나가며 이론적으로는 가로축에 절대 닿지 않는다. 정규확률분포는 대칭이고 기울어져 있지 않으므로 왜도(skewness)는 0이다.

모표준편차(혹은 모분산)는 정규곡선의 평평한 정도와 폭을 결정한다. 표준편차가 크면 곡선이 넓고 평평해지며, 자료의 변동성이  커진다.

정규분포의 확률밀도함수 그래프 아래의 면적은 1이며, 좌우대칭이므로 왼쪽이 0.5, 오른쪽이 0.5이다. 이보다 더 유용한 사실은 아래 그림에서 보듯이 정규분포확률변수값이 평균을 중심으로 좌우로 표준편차의 1배의 범위에 안에 있을 확률이 68%이고, 표준편차의 2배의 범위 안에 있을 확률은 95%, 3배의 범위 안에 있을 확률은 99.7%이라는 점이다.

실제로는 평균(μ)이 0이고 표준편차(σ)가 1인 표준정규분포(standard normal distribution)가 자주 사용된다. 모든 정규분포는 z-값(z-score)을 사용하여 표준화할 수 있는데, 표준정규분포는 그렇게 표준화된 수치들의 확률분포이다. z-값은 아래와 같이 구할 수 있다.

즉, 관찰값의 편차(평균과의 차이, )를 표준편차()로 나눈 값이다.  z-값으로 표준화하면, 확률밀도함수가 다음과 같이 간략히  표시된다.

이 식을 위에서 제시한 확률밀도함수 식 (1)과 비교해보면 차이를 쉽게 알 수 있다.표준정규분포는 다음 그림과 같은 분포를 갖는다.

표준정규확률변수값이 0의 좌우로 z-값의 1배 범위 안에 있을 확률이 68.27%, z-값의 2배 범위 안에 있을 확률은 95.45%, 그리고 z-값의 3배 범위 안에 있을 확률은99.73%이다. 다시 말해 거의 모든 사례가 z-값의 2배 이내에 있으며, z-값의 3배 이상에는 사례가 거의 존재하지 않는다.

표준정규확률분포가 중요한 이유는 모든 정규확률분포에서 확률을 계산할 때 표준정규확률표를 이용했기 때문이다. 오늘날에는 표준정규확률표 대신 응용프로그램을 이용하여 정규확률분포의 확률을 바로 계산할 수 있기 때문에 예전만큼 표준정규확률분포가 중요하지는 않다.  

빈도주의 통계학은 정규분포 혹은 표준정규분포의 분포가 지닌 이러한 특성을 이용하여 가설 검정을 수행한다. 정규분포를 이용한 가설 검정과 모수 추정은 추리통계에서 다루기로 하자.

정규확률변수는 이산분포를 하기 때문에 그것의 확률은 당연히 p.d.f 아래의 면적이다. 확률변수 X가 어떤 값 이하일 확률을 구하려면 p.d.f.를 적분하거나 c.d.f. 값을 구해야 하는데 계산이 복잡하므로 실제로는 응용프로그램을 사용하여 구하면 된다. 평균과 표준편차를 알면, 정규확률변수 값이 특정 범위에 속할 확률을 쉽게 구할 수 있다. 엑셀에서는 NORM.DIST라는 함수를 사용하면 되고, Probability Distributions app을 사용해도 X가 어떤 값 이하, 어떤 값이 이상 혹은 어떤 값과 어떤 값 사이일 확률을 간단히 구할 수 있다.

여기서는 예제를 가지고 확률변수 X의 범위가 주어졌을 때 그것의 확률을 구하는 실습을 해보도록 하자.

예제 1)  A 타이어 회사에서 새로 개발한 타이어의 주행 테스트를 시행하였다. 기술자들은 그 타이어의 주행거리를 평균() 36,500km, 그리고 표준편차()를 5,000km로 추정했다. 또한 수집한 자료에 따라 타이어의 주행거리가 정규확률분포를 이룬다고 가정하였다. 그렇다면 a) 몇 퍼센트의 타이어가 4만 km 이상 주행가능하다고 예상할 수 있을까? b) A 사는 보증 주행거리에 못 미친 타이어를 교체할 교체 타이어를 할인해 주는 보상 제도를 검토하고 있다. A사가 할인 보상을 받는 타이어의 비율이 10% 이하이길 바란다면, 보증 주행거리를 얼마로 설정해야 할까? 

해제 1-a) 타이어의 주행거리가 4만 km 이상일 확률을 구하는 문제이다. 간략히 표시하면, P(X > 40,000) = ?

MS Excel을 사용하여 확률을 구해보자. NORM.DIST 함수를 사용하면 되는데, 구하려고 하는 확률이 X > 40,000이므로 그 함수로 구한 값을 1에서 빼주어야 한다. 누적확률분포는 항상 왼쪽에서부터 누적된 값, 즉, X < x 를 계산하기 때문에 X > x의 학률을 구하려면 1 -P(X < x)를 계산해야 한다. 아래 그림에 보면 1 – NORM.DIST(A2,B2,C2,TRUE)를 계산하고 있다. 그렇게 해서 계산된 값이 0.2420이다. 즉, 타이어의 주행거리가 4만 km 이상일 확률은 24.20%, 다시 말해 24.20%의 타이어가 4만 km 이상 주행 가능하다고 예상된다.

Probability Distibutions app을 이용하면 더 쉽게 구할 수 있다. 아래 그림처럼 평균, 표준편차, x 값을 각각 입력하고, P(X > x) = 를 선택하면 된다.

해제 1-b) 보상받는 타이어의 비율이 10% 미만이라면 x < 0.10 이다. 즉, P(X < 0.10)을 구하는 문제이다. 이는 아래 그림의 주황색으로 된 부분의 면적을 구하는 문제이다. Probability Distributions app을 이용하면 쉽게 구할 수 있다. 아래 그림에서 P(X < x) =의 칸에 0.10을 넣으면, x = 30092.2421이 바로 구해진다. 답은, “보증 주행거리를 30, 100 km로 설정해 주면 된다”이다.

예제 2) 지난 3년간 국내 대기업의 주식형 펀드에 대한 평균 수익률이 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자.

a) 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은?

b) 개별 대기업 주식형 펀드의 3년간 수익률이 10% 이하일 확률은?

c) 3년 동안 상위 10%의 주식형 펀드들은 얼마나 큰 수익을 올렸나?

해제 2-a)  여기서 확률변수(X)는 주식형 펀드 수익률이다. 이 문제는 평균이 14.4%, 표준편차가 4.4%인 정규확률분포에서 P(X => 20)의 값을 구하라는 것이다. Probability Distributions를 사용해서 풀면 아래와 같다. 확률은 0.1016이다.

해제 2-b) P(X < 10) = ? 답은 0.1587이다.

해제 1-c) P(X > x) = 0.10일 때 x 값을 구하는 문제이다. Probability Distributions를 사용하면 답이 20.04% 이상이다.

엑셀을 사용해서 구하려면 NROM.INV 함수를 이용한다. 누적확률분포이므로 확률값은 0.10 대신 0.90을 입력해아 한다. 수익률 값은 위와 동일한 20.04% 이상이다. 즉, 상위 10% 안에 들려면 수익률이 20.04%는 되어야 한다.

예제 3) 표준정규확률분포에서 다음 확률을 계산하시오.

a) P(z <= 1.5) = ?

b) P(1 <= z <= 1.5) = ?

c) P( z => 0.44) = ?

해제)

3-a) 0.93319

3-b) 이 경우는 P(X <= 1.5)에서 P(X <= 1)을 빼면 될 것이다. 즉, 0.93319 – 0.84134 = 0.09185이다.

3-c) 답은 0.32997이다.

확률분포(7): 감마분포

베타분포처럼 감마분포(Gamma distribution, distribution)도 앞서 설명한 분포들과 깊이 관련되어 있다. 감마분포는 포아송 분포와 관련되어 있으며 지수분포를 확장하여 일반화한 확률분포라고 생각하면 된다. 때문에 감마분포를 공부하기 전에 포아송 분포와 지수분포를 복습해두면 좋을 것이다.

포아송분포는 단위 시간 당 어떤 사건이 발생하는 횟수에 대한 확률분포이고. 지수분포는 어떤 사건이 한 번 발생하는 데 걸리는 시간(혹은 시간 간격)에 대한 확률분포이며, 감마분포는 어떤 사건이 여러번( 번) 발생하는데 걸리는 시간에 대한 확률분포이다.

포아송분포: 확률변수 X = 단위 시간 당 사건 발생 횟수

지수분포: 확률변수 X = 어떤 사건이 한 번 발생하는 데 걸리는 시간

감마분포: 확률변수 X = 어떤 사건이 여러 번( 번) 발생하는 데 걸리는 시간

확률변수 X가 감마분포를 가지면 다음과 같이 표시된다.

퍼라미터 는 상호독립적인 확률변수 X의 갯수이다. 각 확률변수 X는 를 퍼라미터로 갖는 지수분포를 한다.

퍼라미터 는 첫번 째 사건이 발생할 때까지 소요된 시간이다.

는 단위 시간 당 어떤 사건의 평균적인 발생 횟수이다. 포아송분포와 지수분포의 경우와 같다. 감마분포는 포아송분포와 지수분포와 동일하게 를 가지고 나타낼 수도 있고, 를 가지고 나타낼 수도 있다. 를 가지고 나타내는 감마분포를 역감마분포(inverse gamma distribution)라고 부르기도 한다. 를 가지고 표현하는 경우가 많으니 여기서는 감마분포의 퍼라미터를  대신 라고 부르는 용례를 따르겠다.

따라서 이 글에서 감마분포는 다음과 같이 정의된다.

감마분포의 P.D.F.에 앞서 베타분포를 설명하면서 나왔던 감마함수( function)가 또 나왔다(). 베타분포를 설명할 때 감마 함수는 계승(factorial)을 실수 및 복소수로까지 확장한 것이며, 일 때, n이 양의 정수이면,  이라는 언급만 했다. 여기서는 감마함수의 성격에 대해 조금 더 자세히 언급하겠다.

감마함수가 계승(함수)의 확장이라는 말이 무슨 의미인지 궁금한 독자가 있을 것이다. 그것은 계승함수가 양의 정수에 대한 계승을 나타내는 데 그것을 실수에까지 확장한다는 의미이다. f(X)를 계승함수라고 하자.

몇 개의 X에 대한 계승함수 값을 그래프로 나타내면 아래와 같다.

그런데 위 점들을 잇는 선으로 잇는 함수가 바로 감마 함수이다. g(X)를 감마함수라면, 다음과 같이 표시할 수 있다.

X가 양의 실수이다. 몇 개의 X에 대한 감마함수 값을 그래프로 나타내면 아래와 같다.

의 감마함수는 다음과 같이 정의된다.

그리고 감마함수는 아래와 같은 성질을 갖는다.

다시 감마분포의 PDF (1)로 돌아가면, 모수 는 형상모수(shape parameter), 는 척도모수(scale parameter)라고 불린다. 와 구분하여 를 비율모수(rate parameter)라고 부르기도 한다.

4 illustrates the PDF of a Gamma distribution for multiple values of... | Download Scientific Diagram

위 그림은 형상모수와 척도모수가 감마분포의 모양을 어떻게 결정짓는 지에 대해 힌트를 준다. 먼저 척도모수 값이 1로 고정된 상태에서 형상모수의 값을 1, 2, 3으로 바꾸면, 까만 선, 빨간 선, 연초록 선으로 바뀜을 볼 수 있다. 까만선은 인 지수분포와 동일한 모습이다.

그 다음 형상모수 값을 3으로 두고, 척도모수를 2, 3으로 바꾸면, 그래프의 모양은 그대로 있고 그래프도의 척도가 변함을 알 수 있다(직접 시뮬레이션을 해보고 싶은 독자는 Probability Distributions 라는 앱을 가지고 시도해보기 바람). 그래서 퍼라미터의 이름이 척도모수라고 생각하면 될 것이다.

확률변수 X가 여러 개인 감마분포의 관점에서 보면, 지수분포는 첫번 째 사건(: )이 발생할 때까지 걸리는 시간에 대한 감마분포이다. 즉, 지수분포는 인 감마분포이다. 

위 식(1)에 을 대입하면 아래와 같다.

이는 정확히 확률분포 X의 지수분포에 대한 정의이다.

이제 예제를 가지고 감마분포를 살펴보자.

예제 1) 어떤 사람이 낚시를 하는데 평균 30분에 물고기 한 마리를 낚는다고 하자. 4마리 물고기를 잡는 시간이  2시간에서 4시간 사이가 걸릴 확률은?

해제) 30분에 물고기 한 마리를 낚으면, 1시간 당 평균 2 마리를 낚는다. 여기서 단위 시간은 1시간으로 해야 한다. 즉, . 그리고 물고기를 4마리 낚는데 필요한 시간이니 . 따라서 확률분포가 일 때 를 계산하면 된다.

확률변수 X: 물고기 4마리 잡을 때까지 걸리는 시간

감마분포의 누적분포 공식을 적용하면 아래와 같이 확률을 구할 수 있다. 직접 계산할 필요없이 응용프로그램을 이용하면 된다.

마이크로소프트 엑셀의 경우 가 아니라 를 가지고 감마분포를 표시하기 때문에 공식(1)을 사용하는 것이 아니라 아래 공식을 사용하여 확률 값을 준다. 즉, 역감마분포 값이다.

때문에 를 사용하는 감마분포 값을 구하기 위해서는 아래 공식을 이용해 값을 구해서 입력해 주어야 한다.

이 문제의 경우 가 2이니 는 0.5이다. 따라서 를 GAMMA.DIST에 입력하고 누적분포를 적용해야 를 제대로 계산할 수 있다.

Probability Distributions app은 공식 (1)을 사용하고 있으니 를 그대로 값으로 입력해 주면 된다. 그렇게 하면 엑셀과 동일한 결과를 구할 수 있다.

다소 혼란스럽기는 하지만, 감마분포 값을 구할 때는 응용 프로그램이 어떤 공식을 사용하고 있는지를 꼭 확인하고 적절한 퍼라미터 값을 입력해 주어야 한다.

예제 2) 승용차 패널 공정에 패널 제작용 철판을 배달한다고 하자. 우리는 20개의 철판을 배달하는데 걸리는 시간에 관심이 있다. 철판 배달은 포아송 분포를 따르고 1분당 평균 1.6개의 철판이 배달된다. 이 때 20개의 패널이 15분 이내에 배달될 확률은?

해제)

P(X < 15) = ?

감마분포의 누적분포 공식을 적용하면 되는데 적분 계산이 복잡하니 app을 사용하자. Probability Distributions app을 사용하면, 답은 0.81974이다.

(2020-09-27)

세상을 위하는 노인은 없다

세상 기준으로 조금이라도 성공한 듯 보이는 사람들이 노년에 보이는 공통된 행태 중 하나는 과도한 자기 확신과  고집이다. 자신의 주장이 옳고, 자신의 판단이 틀림없으며, 자신이 가장 현명하다고 믿으며 남의 말에 귀를 닫아버리는 행태이다.

우리 사회에서 노년의 아집은 개인적 현상이면서 동시에 사회적 문제이다. 소수의 노인들에 국한된 현상이 아니라 수많은 노인들에게서 보이는 문제라는 말이다.

우리를 가족이나 이웃과 공존할 수 있게 해주는 근본적인 조건은 자신의 오류 가능성에 대한 인식타인에 대한 신뢰이다. 자신의 생각이 틀릴 수 있다는 인식, 다른 사람도 본인 이상으로 세상 문제를 잘 이해하고 잘 해결할 수 있다는 믿음이 있을 때 가족은 물론이고 이웃과의 평화로운 공존이 가능하다.

그런데 언제 부터인가 노인들이 변했다. 우리 사회에 관대하고 자애로운 할머니, 할아버지가 사라지고 고집불통의 노인들이 넘쳐나고 있다.

그것이 노인들의 손에 스마트폰이 주어지고 인터넷과 유튜브를 즐겨 쓰면서 부터가 아닌가 싶다. 스마트폰과 인터넷이 노인들에게 보다 넓은 세계, 보다 다양한 관점, 보다 많은 사람들과의 소통 창구가 아니라 자신들만의 세계, 자신들만의 관점, 자신들 끼리의 소통만 일어나게 만드는 폐쇄 회로로 작동하고 있다.

우리 사회에 스마트폰과 인터넷이 초래한 가장 심각한 사회적 부작용 중의 하나가 바로 노년의 폐쇄 회로가 아닌가 생각된다. 그것은 가정 내 소통의 단절, 나아가 가정의 평화마저 위협하고, 무덤에서 나온 ‘좀비’들이 젊은이들을 지배하는 세상을 만들고 있다. 사회적 관대함과 포용의 상징이 되어야 할 노인들이 배타적 태도와 불통의 상징이 되고 있는 것이다.

스마트폰과 인터넷은 우리 사회에 존재하는 확증편향(confirmation bias)과 편향동화(biased assimilation) 경향을 강화하고 있다. 특히 남북의 이념 대립과  분단, 비극적인 한국전쟁, 그리고 경이적인 경제발전을 경험한 노인 세대에서 그러한 사회 심리 현상이 두드러 진다. 자신들이 품어왔던 시대정신이 퇴조하고 자신들의 공헌과 존재가 송두리째 부정당하고 있다고 느끼는 노인들이 시대착오적 이념 대립을 부추기는 세력들의 주장에 쏠리면서 자신들의 믿음에 맞는 증거와 주장만 찾고 받아들이며, 자신들의 주장을 더욱 강화하고 있는 것이다.

스마트폰과 인터넷 덕분에 노인 세대가 퇴장하면서 안고 갔어야 할 낡은 이념과 사상이 오히려 부활하고 생각의 세대 교체, 정치와 사회 권력의 세대 교체가 지연되는 현상이 발생하고 있다. 나는 이것을 하나의 좀비 현상이라고 본다. 생명 없는 자들이 마치 생명 있는 존재인 것처럼 나돌아 다니며 사회를 위협하고 있는 것과 다르지 않다는 말이다.

디지털 시대에 노인들이 세상을 위해서 할 수 있는 유일한 선택은 사회로부터 한 걸음 물러나 관용의 모범을 보이고 후 세대를 믿어주는 일이다. 세상을 구하겠다고 나서는 순간 노인은 좀비가 된다. 세상에 튀어나온 노인 치고 세상을 참으로 위하는 사람은 없다. “노인을 위한 세상이 없는” 것 이상으로 세상을 위한 노인은 없다. 노인의 애국적 행동은 시대착오적이고 반사회적인 집착일 뿐이다.

노인의 목소리가 큰 가정에 평화는 없다. 노인들의 목소리가 큰 사회에도 평화는 없다. 어찌해야 좋을까. 나도 노인이니 그냥 안타까워 할 수밖에….(2020-09-21)

확률분포(6): 베타분포

베르누이분포나 이항분포처럼 성공과 실패의 이항 선택을 다루는 확률분포로 베타분포(Beta distribution)가 있다. 베르누이와 이항 분포에서는 성공의 횟수가 확률변수인데, 베타분포에서는 성공의 비율이 확률변수이다.

베타분포에 관한 직관적인 사례로는  야구선수의 타율이 있다. 타석 중 안타의 비율이 타율이다.

타자의 시즌 타율을 예측하는 문제를 생각해 보자. 시즌 초반에 어떤 타자의 시즌 타율을 예측하는데는 두 가지 방법이 있을 것이다. 그 타자가 상당히 유망한 타자라고 하자.

첫째, 시즌 초기의 몇 게임에서 얻은 타율을 가지고 시즌 타율을 예측하는 방법이 있다. 전혀 타당성이 없는 방법은 아니다. 그런데 만약 그 선수가 시즌 초반에 슬럼프에 빠져 있어 몇 게임 동안 안타를 전혀 치지 못했다면, 그 때까지 그 선수의 타율은 0.00일 것이고, 그의 시즌 타율은 0.00으로 예측된다. 반대로 시즌 초반에 잘 맞아서 몇 게임 동안 그 선수의 타율이 0.70이라면, 그의 시즌 타율은 0.70으로 예측된다. 이 두 가지 경우 모두 극단적인 예측이 되고, 실제로 들어맞을 가능성이 희박하다.

둘째, 전년도 타율에 관한 정보를 이용하는 방법이다. 실제적으로 프로야구에서 유능한 타자라면 시즌 타율이 최소한 2할대는 넘을 것이고 반대로 아무리 유능하다고 해도 통상 4할대가 넘지는 않는다. 이러한 현실을 반영하여 시즌 타율을 예측하는 방법은 선행 시즌의 타율과 시즌 초반의 성적을 모두 반영하는 것이다. 시즌 초반에 타율이 낮거나 높으면 그것을 전년도 타율이나 선수의 총 평균 타율에 적절히 반영하여 조정하면 훨씬 합리적으로 해당 시즌의 타율을 예측할 수 있을 것이다. 이것을 가능하게 해주는 것이 베이즈 추론이다. 베타분포는 베이즈 추론에서 널리 사용된다.

베타 분포는 비율이나 백분율(%)로 된 확률 변수를 예측하는데 유용한 확률모형이다. 베타 분포는 간단히 다음과 같이 표기한다.

베타분포는 PDF나 모멘트의 도출 과정이 좀 복잡하므로 먼저 베타 분포의 특징부터 알아보자.

첫째, 기본적인 베타분포는 확률변수가 0과 1 사이의 실수값을 갖는다(). 확률이나 백분율이 바로 그러한 경우이다. 아래 그림은 여러가지 형태의 베타분포를 보여준다. 그런데 X 축이 0과 1 사이로 되어 있음을 볼 수 있다.

Probability density function for the Beta distribution

둘째, PDF의 모양이 두 개의 모수 에 의해 결정된다. 이 모수를 하이퍼 퍼라미터(hyper-parameter)라고 부른다. 위 그래프에서 , 가 둘 다 0.5이면, 붉은색 선 그래프가 되고, 이면 청색 선 그래프, 이면, 녹색 선 그래프이다. 는 그래프의 모양을 결정짓는 형상 모수(shape parameter)이다.베타분포는 형상 모수의 값만 바꾸면 매우 다양한 모습의 확률 모형을 나타낼 수 있는 장점이 있다. 그것은 그만큼 적용성이 높음을 시사한다.

베타분포의 PDF는 확률변수 X(성공 비율)와 그것의 반사(reflection)인 (1 – X)(실패 비율)의 멱함수(거듭제곱 함수, power-law function)로 다음과 같이 정의된다.

여기서

형상 모수 는 양의 실수이고, 베타함수 는 확률분포의 총 확률(적분 값)을 1로 만들어 주는 정규화 상수(normalization constant)이다.

베타함수는 감마함수를 사용하여 나타낼 수도 있다.  이 식이 적분으로 나타낸 것보다 계산을 간편하게 할 수  있다. 베타함수 값은 각 형상모수의 감마 함수(Gamma function)를 두 형상모수의 합의 감마 함수로 나눈 값이다.  감마 함수는 계승(factorial)을 실수 및 복소수로까지 확장한 것이다.

베타분포의 모멘트는 다음과 같다.

그런데, 는 어떻게 해석될 수 있을까? 그 모수들은 성공횟수와 실패횟수를 나타낸다고 생각할 수 있다. 이항분포의 지수[]처럼  (혹은 )는 성공 횟수, (혹은 )는 실패 횟수로 간주될 수 있다.

예컨대 만약 성공할 지 실패할 지를 전혀 예측할 수 없으면 균일분포로 놓으면 될 것이다. 이면 베타분포는 균일분포가 된다. 아래 그림은 0과 1 사이의 무작위 값 1천 개를 구해서 그린 베타분포의 확률밀도함수들이다(엑셀에서 수행한 시뮬레이션 자료는 링크를 참조). 진한 파랑색 선이 균일분포를 나타내는 베타분포이다.

성공횟수와 실패횟수가 각각 1, 1이라면, 성공률은 0.5, 실패율도 0.5일 것이다. 성공과 실패라는 두 가지 경우만 있는 어떤 현상이 있고, 우리가 그 현상에 대해 아무런 사전 정보도 없다면, 어떤 결과가 나올 지 예측할 수 없다. 베타분포 혹은 균일분포는 이러한 이러한 상황을 의미한다.

만약 다음 실험에서 성공이 나왔다면, 퍼라미터가 인 베타분포가 될 것이다. 그림에서 그것의 확률밀도함수는 주황색 사선이다. 성공률 기대값은 2/3 = 0.6666…이다. 성공률의 기대값이 0.5에서 0.67로 약간 상승했다.

만약 그 다음 실험에서도 성공이 나왔다면, 퍼라미터가  인 베타분포가 될 것이며, 그림에서 그것의 확률밀도함수는 회색 선이다. 성공률의 기대값은 3/4 = 0.75이다. 당연히 성공률의 기대값이 또 상승했다.

그 다음 실험에서 실패가 나왔다면, 퍼라미터가  인 베타분포가 될 것이며, 그림에서 그것의 확률밀도함수는 노란색 선이다. 확률밀도함수의 오른쪽 끝 부분이 아래로 내려갔다. 당연히 성공률의 기대값이 하락했을 것이다. 실제로 성공률의기대값이 3/5 = 0.6로 다소 떨어졌다.

그 다음 실험에서 또 실패가 나왔다면, 퍼라미터가 인 베타분포가 될 것이며, 그림에서 그것의 확률밀도함수는 옅은 파랑색 선이다. 그래프의 중심이 더 왼쪽으로 이동했음을 알 수 있다. 성공률의 기대값이 더 하락했음을 나타낸다. 실제로 성공률의 기대값은 3/6 = 0.5로 더 떨어졌다.

그러한 실험을 11번 했는데, 성공이 10번이고 실패가 1번이라면, 퍼라미터가  인 베타분포가 될 것이다. 그림에서 그것의 확률밀도함수는 연두색 선으로 오른쪽 끝 부분이 가파르게 상승하고 있다. 성공률의 기대값이 상당히 큼을 시사한다. 실제로 성공률의 기대값은 10/11 =0.9090…로 매우 높다.

그런 실험을 17번 했는데, 성공이 10번이고 실패가 7번이라면, 퍼라미터가 인 베타분포가 될 것이다. 그림에서 진한 파랑색 선이다.무게중심이앞으로 그래프에 비해 왼쪽으로 많이 내려갔다.실제로성공률의기대값은10/17=0.5882로 성공률의 기대값이 크게 내려갔다.열번 성공한 후에 내리 일곱번 실패했다면 성공률의 기대값이 크게 떨어져도 전혀 놀라운 일이 아니다.

끝으로 다른 실험 하나.

어떤 온라인 쇼핑 사이트의 고객 평가는 ‘좋음’과 ‘나쁨’ 두 가지 선택만으로 되어 있다. 그런데 500명이 평가에 참여해서, 400명이 좋음을 선택했고, 100명이 나쁨을 선택했다고 하자. 그렇다면 이 사이트의 성공률의 기대값(평균 성공률)은 얼마일까?

위 식 (2)를 이용해서 계산하면, 400/500 = 0.8이다. 성공률(좋음으로 평가받을 가능성)은 0.8이다. 그림에서 진한 빨강색 선이 이 실험 결과를 나타내는 확률밀도함수이다. 그것은 인 베타분포이다. 그래프를 보면 0.8을 중심으로 사건이 집중적으로 분포되어 있음을 알 수 있다. 이는 같은 성공률 일지라도 10번에 8번 성공했을 때보다 500번중 400번 성공했을 때 성공률의 기대값 0.8에 대해 더 크게 확신할 수있음을 시사한다. 다시 말해 성공률이 0.8을 크게 벗어날 가능성이 없다는 말이다.

예제 1) 한 온라인 쇼핑몰에는 고객이 판매 상품에 대한 좋음과 나쁨 두 가지 평가할 수 있다. 그런데 어떤 제품에 대해 현재까지 400개의 좋음과 100개의 나쁨 평가를 받았다. 그렇다면, 이 제품이 고객들로부터 좋음을 받을 확률이 0.85 이상일 확률은?

(해제) 을 대입해서 엑셀의 베타함수 BETA.DIST를 이용한다.

BETA.DIST(0.85, 400, 100, TRUE)를 계산하면, 0.998568이다. 이는 0.85까지의 누적확률분포의 값이므로, 0.85 이상일 확률을 구하면, 1 – 0.998568 = 0.001432가 된다.

(2020-09-18)

평안 = 노동 free, 돈 걱정 free, 스트레스 free, 질병 free?

60대 중반이 되면 사람들이 앞서거니 뒷서거니 하면서 거치게 되는 인생의 단계가 은퇴이다. 어떤 사람은 오랫동안 은퇴 후의 삶을 준비하고 어떤 사람은 갑작스럽게 은퇴를 맞이하지만 누구도 은퇴를 피할 수는 없다.

그런데 흥미있게도 은퇴자들의 삶이 크게 다르지 않다. 여행을 좋아하는 누군가는 오랫동안 해외 여행을 가기도 하고(그나마 코로나 19 때문에 금년에는 그것이 옵션에서 빠졌다), 또 누군가는 부지런히 국내 여행을 다니기도 한다. 휴식이 필요했던 누군가는 실컷 잠을 즐기고, 원없이 영화를 보기도 하며, 사진 촬영, 악기 연주, 그림 그리기 등 미루어 두었던 취미생활에 빠지기도 한다. 물론 그것은 재정적이나 건강상의 여건이 뒷받침 되는 사람들의 경우이다.

게다가 은퇴자는 누구나 많은 적응을 요구받는다. 아주 운이 좋은 소수를 제외하곤 대다수의 은퇴자들은 크게 줄어든 재정 수입이나 불안한 재정 수입에 적응해야 하고, 무력감, 소외감, 박탈감, 혹은 외로움 같은 심리적 상태에도 적응해야 한다. 그리고 좀 왕성하게 사회활동을 했던 사람들은 타인에 의한 망각에도 익숙해져야 한다. 또한 재정적 어려움과 심리적 위축은 육체에도 부정적인 영향을 초래한다. 노화가 빨리 진행되어 신체적으로 여러 가지 징후가 나타난다. 은퇴자는 이러한 신체적 변화에도 적응해야 한다.

삶에서 생산적인 활동이 빠지면서 적지 않은 은퇴자들은 삶의 의미나 보람 혹은 사회적 위상에 위협을 느낀다. 직업적인 후퇴는 사회적으로도, 가정적으로도 무력감을 수반한다. 짐짓 아무 일도 없는 것처럼 예전 그대로 행동하기도 하지만 머지 않아 가족이나 이웃이 그런 행동을 받아주지 않게 된다.

그것은 정도와 진행 속도가 다르기는 하겠지만 누구나 거쳐가야 하는 적응 과정이다.  은퇴 후 그렇게 몇 달 혹은 몇 년의 적응 과정을 보내고 나면, 은퇴자들에게는 누구에게나 공평하게 매일매일 하루 24시간을 어떻게 보낼 것인가라는 과제가 안겨지고, 별다를 것 없이 반복되는 일상이 주어진다. 그리고 더욱 공평하게도 누구에게나 크고 작은 병들이 찾아온다.

은퇴 이후 안타깝게도 누구나 꿈꾸었던 평안한 노후가 결코 평안하지 않다는 사실을 발견하는데 그리 오래 걸리지 않는다. 매일 복용해야 하는 약의 종류가 늘어가고 먹지 말아야 할 음식이 늘어가며 자신이나 배우자가 덜컥 암 수술이라도 받게 되면, ‘평안’과 ‘안녕’을 새롭게 인식해야 하는 때가 찾아 온다.

은퇴 후의 평안은 그냥 아무일 없이 편히 쉬는 삶도 아니고, 돈 걱정이 없는 삶도 아니며, 스트레스 없는 삶도 아니고, 병이 없는 삶도 아니다. 그런 평안은 보험회사 광고에나 있을 뿐 현실에는 존재하지 않는다.

어쩌면 평안이란, 사회와 자신을 위한 얼마간의 노동, 사회 초년생의 벌이 밖에 되지 않는 작은 수입, 사회와 가족으로 인한 스트레스, 꾸준히 관리해야 하는 지병(들)이 함께 하는 일상 속에서 은퇴자 스스로 발견해야 하는 마음의 상태일지도 모른다. 그리고 이 중에서도 노동이야말로 은퇴 후 평안에 가장 중요한 요소가 아닌가 생각된다. 적당한 노동은 수입 문제, 스트레스 문제, 그리고 지병까지 어느 정도 해소해 주는 요소이기 때문이다.

문제는 산업 현장에서 적당한 노동의 기회를 찾기가 어렵다는데 있다. 특히 도시의 은퇴자들에게 개방된 일자리는 흔치 않다. 현대와 같은 노동절약적인 사회에서는 갈수록 노인에게 돌아가는 취업 기회가 줄어들 것이다.

그런데 발상을 바꾸면 어디에서나 생산적인 활동을 발견할 수 있다. ‘생산’이 꼭 돈벌이일 필요는 없지 않는가.

베란다에다 꽃을 가꾸고, 옥상에 채소를 재배하는 것도 생산적인 활동이며, 집안 일을 거들고 손주를 돌보는 것도 생산적인 활동이다. 길 앞 도로를 청소하고 공공 시설에서 자원 봉사를 하는 것도 물론 생산적인 활동이다. 주위를 돌아보면 생산적인 일이 천지이다. 돈을 받는 일이 드물 뿐이다.

나는 삼복 더위에 땡볕 아래에서 일주일이 멀다하고 뜰의 잔디를 깎는다.  그것을 보는 사람 열명이면 아홉이 나의 그런 행동을 이해하지 못한다. 땀을 비오듯이 쏟아가며 잔디깍이를 밀고 다니는 나의 모습을 안타깝게들 보는 것 같다.

그러나 사실 나는 잔디와 풀들에 감사한다. 환갑을 한참 넘긴 나를 누가 그렇게 잔인하게 부릴 수 있겠는가? 돌아서면 자라나는 잔디와 잡초 덕분에 나에게는 끝없이 일이 생긴다. 얼마나 고마운 일인가. 너무 힘들어지면 더욱 기계화를 하든지, 유료 인력을 써서 내 노동량을 줄일 것이다. 그러나 그 때가 올 때까지 나는 정원을 가꾸는 노동을 계속 할 것이다.

잘 가꾸어진 집과 정원을 보는 우리 가족은 물론이고, 이웃이나 지나가는 행인도 즐겁지 아니하겠는가. 그래서 잔디와 꽃나무를 가꾸는 일은 텃밭에 채소를 가꾸는 것 이상으로 생산적이다. 비록 그것으로 한 푼의 수입도 올리지 못하고 오히려 기계와 도구를 사는데 지출이 들어가지만 가드닝은 매우 생산적인 활동이다. 적지 않은 사람들에게 행복감을 주기 때문이다.

“이제 아무 일도 하지 말고 편안히 쉬세요!”라고 노인에게 말하는 것은 축복의 인사가 아니다. “너무 과하게 일하지 마세요!”라고 말하면 모를까. (2020-09-03)

확률분포(5): 지수분포

연속확률분포에서 두 번째로 지수확률분포에 대해 알아보자. 지수분포는 이산확률분포에서 공부한 포아송분포와 관련이 깊다. 그래서 포아송분포에 대한 복습 겸해서 지수분포를 두 번째로 선택했다.

포아송분포는 시간 구간 당 혹은 공간 구간 당 사건의 발생횟수에 대한 확률분포이며 일정성 조건과 독립성 조건을 갖는다고 했다. 그리고 포아송 분포의 퍼라미터는 이며, PDF는 아래와 같다. 는 구간당 발생횟수의 기대값(평균)이다.

아래와 같은 사례에 포아송분포가 적용될 수 있다.

  • 하루동안 발생하는 고속도로 교통사고 수
  • 하루에 찾아오는 환자의 수
  • 한 시간 동안 세차장에 도착하는 자동차의 수
  • 어떤 특정 진도 이상의 지진이 발생하는 수
  • 한 시간 내 스타박스의 드라이브스루 창구에 도착하는 자동차의 수
  • 일정 시간 동안 톨게이트를 통과하는 차량의 수
  • 한 시간 동안 사무실에 걸려온 전화의 수
  • 국도 1km 당 패인 구멍의 수
  • 단위 길이당 옷감의 흠집수

모두 확률변수가  시간 구간 혹은 공간 구간 당 사건의 발생 횟수이다. 그런데 지수분포는 사건이 발생하는 시간 간격 혹은 거리 간격이다. 사건의 발생 횟수는 0과 양의 정수이지만, 사건이 발생하는 시간이나 시간 간격은 0과 양의 실수가 될 것이다. 때문에 포아송 분포는 이산확률분포이고, 지수분포는 연속확률분포이다. 위에서 든 포아송 분포의 확률변수를 지수분포의 확률변수로 바꾸면 다음과 같다.

  • 고속도로 교통사고가 발생하는 시간 간격
  • 환자가 찾아오는 시간 간격
  • 세차장에 자동차가 도착하는 시간 간격
  • 어떤 특정 진도 이상의 지진이 발생하는 시간 간격
  • 어떤 특정량의 방사선을 DNA에 쬐었을 때 돌연변이가 발생하는 시간 간격
  • 스타박스의 드라이브스루 창구에 자동차가 도착하는 시간 간격
  • 차량이 톨게이트를 통과하는 시간 간격
  • 사무실에 전화가 걸려오는 시간 간격
  • 국도에 패인 구멍 사이의 거리 간격
  • 옷감의 흠집 사이의 거리 간격

확률변수 X가 지수(확률)분포를 따르면 다음과 같이 간략히 표기된다.

퍼라미터는 하나이다. 포아송 분포와 같다. 지수분포를 그래프로 나타내면 다음과 같다.

File:Exponential probability density.svg
By Skbkekas – Own work, CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=9508326

의 크기에 따라 PDF의 모습이 달라짐을 볼 수 있다. 가 작을수록 X 값이 증가할 때 확률밀도의 감소가 완만해진다.

확률변수 X의 지수분포는 다음과 같이 정의된다.

여기서 는 포아송 분포에서와 동일하게 단위 시간 당 평균발생횟수이다. , 는 시간 간격다. 지수분포의 모멘트는 아래와 같다.

지수확률함수 (2)를 가지고 X의 특정 구간에 대한 확률을 구하려면, 적분을 해야 하는 데 번거로운 과정을 생략하고 아래 누적확률함수(cumulative distributive function, CDF)를 사용하면 된다. CDF는 의 값을 준다. 즉, 확률변수 X가 어떤 특정한 값() 이내일(같거나 작을) 확률을 준다. CDF를 응용하면 확률변수 X가 어떤 값 이상일(같거나 클) 확률, 혹은 어떤 두 값 사이에 있을 확률을 모두 간단한 계산으로 구할 수 있다.

File:Exponential cdf.svg

By Skbkekas – Own work, CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=9508326

가 작으면, 확률변수 X 값이 증가함에 따라 값의 증가가 서서히 이루어짐을 볼 수 있다.

예제 1) 보스턴 소방서는 한 시간 당 평균 1.6번의 911 전화를 받는다. 시간당 전화수가 포아송 확률분포를 따른다고 가정하자.

1) 보스턴 소방서에 911 전화가 걸려오는 평균 시간 간격은?(단위:분)

2) 911 호출 사이의 간격이 한 시간 이내일 확률은?

3) 911 호출 사이의 간격이 30분 이내일 확률은?

4)  911 호출 사이의 간격이 5분 이상이면서 20분 이내일 확률은?

해제) 포아송 분포의 퍼라미터 가 1.6이다.

문제 1) 전화가 걸려오는 평균 시간 간격은

문제 2) 호출 사이의 간격이 한 시간 이내일 확률은?

문제 3) 호출 시간의 간격이 30분 이내일 확률은?

이 문제는 지수분포 PDF에서 에 해당되는 면적을 구하는 것이다. 아래 그림에서 주황색 부분의 면적이 이에 해당된다.

문제 4) 호출 시간의 간격이 5분 이상 20분 이내일 확률은?

여기서는 계산을 간략히 하기 위해 분으로 간격을 표시했기 때문에 람다 값이 0.0267이다. 1.6/60 = 0.0267.이 문제는  지수분포 PDF의 에 해당되는 면적을 구하는 것이다. 아래 그래프에서 주황색 부분이다.

예제 2) 어느 세차장에 들어오는 자동차가 한 시간에 평균 10대이다. 자동차가 들어오는 시간 간격이 5분 이하일 확률은?

해제) 시간 당 자동차가 들어오는 댓수는 포아송분포이고, 자동차가 들어오는 시간 간격은 지수분포이다. 여기서는 시간 간격을 물으니 지수분포가 적용된다. 문제에 람다가 시간 단위로 되어 있는데, 확률은 분 단위로 구해야 하기 때문에 람다 값의 환산이 필요하다. 환산하면 1분당 평균 0.1667 대가 세차장에 들어온다.

식 (5)에 을 대입하면,

지수함수는 엑셀에서 EXPON.DIST 함수로 계산할 수 있다. 이 문제의 경우 누적 확률 함수로 계산하면 되기 때문에 세 번째 퍼라미터가 TRUE로 선택되었다. 아래 그림을 참고하기 바란다.

예제 3) 어떤 사거리에 다음 차가 도착하기까지 걸리는 시간이 평균 12초의 지수확률분포를 따른다.

1) 지수확률분포의 그래프를 그리시오.

2) 다음 차가 도착하는데 걸리는 시간이 12초 이하일 확률은?

3) 다음 차가 도착하는데 걸리는 시간이  6초 이하일 확률은?

4) 다음 차가 도착하는데 걸리는 시간이 30초 이상일 확률은?

해제) 문제에서 주어진 정보가 차량 댓수()가 아니라 시간 간격()이다.  람다와 뮤의 관계는 아래와 같으므로 쉽게 변환된다. 엑셀에서는 포아송분포와 지수분포 모두 를 사용하므로, 엑셀을 사용해서 계산하려면 정보가 로 주어지면 로 변환해 주어야 한다.

문제 1) 엑셀을 가지고 그래프를 그려보자. 먼저 람다를 구한다. 그 다음 를 중심으로 X 값을 20-30개 정도 만든다. EXPON.DIST를 이용해서 f(X) 값을 구한다. ‘삽입’ 기능을 이용해 선(line) 차트를 플롯한다.

문제 2) 누적함수[식 (5)]를 적용해서 값을 계산한다.

엑셀에서도 동일한 값을 얻을 수 있다.

문제 3)

문제 4)

예제 4) 컴캐스트(Comcast)는 미국의 통신 회사이다. 고객에게 서비스 중단이 발생하면, 고객센터가 고장 신고를 받고 회사는 녹음된 메시지를 통해 서비스 중단 사실을 인지하고 있으며 서비스가 두 시간 이내로 복구될 것으로 예상한다고 알린다. 수리 시간은 지수확률분포를 따르며, 평균은 두 시간이라고 가정하자.

1) 케이블 서비스가 한 시간 이내로 수리될 확률은?

2) 수리가 한 시간에서 두 시간이 걸릴 확률은?

3) 오후 1시에 고객센터에 전화를 한 고객에게, 케이블 서비스가 오후 5시까지 수리되지 않을 확률은?

해제) 문제에서 주어진 정보가 가 아니라 이다. 로 변환하면, .

문제 1)

문제 2)

문제 3)

예제 5) 명동의 한 테이크 아웃 식당은 25분에 음식을 사갈 수 있다고 광고합니다. 고객이 가지고 갈 수 있도록 테이크 아웃 음식을 준비하는데 평균 25분인 지수확률분포를 따른다고 가정하자.

1) 테이크 아웃 주문이 20분 이내 준비될 확률은?

2) 고객이 주문하고 30분 후에 도착했을 때, 주문이 준비되지 않을 확률은?

3) 한 고객이 그 식당에서 15분 거리에 산다. 이 고객이 오후 5시 20분에 전화 주문을 한다면, 식당에 가서 주문한 음식을 테이크 아웃하여 오후 6시까지 집에 돌아올 수 있는 확률은?

해제) 이 문제에도 주어진 정보는 가 아니라 이다. 로변환하면, .

문제 1)

문제 2)

문제 3) 5시 20분 고객의 주문을 받자마자 음식을 준비하여 15분 후 고객이 식당에 도착할 때까지 테이크 아웃 음식 준비를 마치면, 고객은 5시 50분이면 집에 돌아올 수 있다. 그렇다면  6시까지 돌아오면 되니 식당은 25분 안에 음식 내보낼 준비를 마치면 된다. 결국 주문이 25분 이내에 준비될 확률을 묻는 문제이다.

이상으로 지수분포에 대한 설명을 마친다. 지수분포가 포아송분포와 긴밀하게 연관되어 있으며, 포아송분포는 단위 시간 당 발생횟수에 관한 확률분포이고, 지수분포는 시간 간격(혹은 걸리는 시간)에 관한 확률분포임을 기억해 두자. 또한 균일분포에 이어서 지수분포도 연속확률분포의 확률은 그래프 아래의 면적임을 보여주었다. (2020-09-02)

확률분포(4): 균일 분포

확률변수 X가 이산적(discrete)이냐 아니면 연속적(continuous)이냐에 따라 이산확률분포와 연속확률분포로 나뉜다. 이산적이란 {-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5}와 같이 X가 딱딱 떨어지는 것을 말하고, 연속적이란 X가 0과 5 사이의 실수와 같이 어떤 수들 사이에 무한 많은 수가 존재하는 것을 말한다.

이 두 가지 유형의 확률분포가 구별되는 가장 큰 차이는 PDF(확률함수)가, X가 유한하기 때문에 특정 값의 X에 대해 확률을 부여하는가, 아니면 X가 무한하기 때문에 X의 일정 구간에 대해 확률을 부여하는가이다. 확률변수가 유한하면 이산확률분포가 적용되고, 확률변수가 무한하면 연속확률분포가 적용된다.

이산확률분포에 관해서는 앞에서 이항분포, 포아송분포, 초기하분포에 관한 학습을 통해 충분히 익숙해졌으라 생각한다. 그 분포들에서는 확률변수 X가 특정한 값을 가질 때의 확률 값을 계산할 수 있었다.

연속확률분포에서는 확률변수 X가 실수(real number)처럼 소숫점 이하까지 나올 수 있기 때문에 이산확률분포와 같은 접근이 불가능하다. 몸무게, 키, 평균 성적 등을 상상해 보면 될 것이다. 그래서 연속확률분포에서는 특정한 X 값에 대한 확률은 항상 0으로 간주된다. 오직 X의 일정 구간에 대한 확률만이 존재한다. 예컨대 어떤 학생의 평균 성적이 90.5점일 확률은 0이다. 평균 성적에 대한 확률은 “어떤 학생의 평균 성적이 90점과 100점 사이일 확률이 얼마인가”와 같이 물어야 한다.

연속확률분포에서는 균일분포, 정규분포, 지수분포, 감마분포, 베타분포, t분포를 공부하겠다. 먼저 균일분포부터 알아보자.

균일확률분포는 확률변수의 특정 구간 사이의 확률이 일정한 확률분포를 말한다. 균일분포는 이산분포일 수도 있고 연속분포일 수도 있지만, 여기서는 혼란을 피하기 위해 연속분포를 중심으로 다루겠다.

우리가 흔히 학교에서 배우는 빈도주의 통계에서 균일분포는 별로 주목받지 못한다. 그러나 베이즈 통계까지 넣어서 고려한다면 균일분포는 충분히 관심을 가져야 할만큼 중요한 확률모형이다. 베이즈 통계에서, 분포에 대한 정보가 없을 때의 사전분포(prior)로 자주 사용되고, 연속확률분포를 설명하는데 이용되며, 실제 사회 현상에 대한 확률모형으로도 사용된다. 의심할 바 없이 균일분포에 대한 진지한 학습이 필요하다.

예를 가지고 균일분포에 대해 살펴보자. 확률변수 X는 서울에서 제주까지 운항하는 항공기의 비행시간을 가리킨다. 비행시간은 40분부터 60분까지의 구간에 있는 값이라면 어떤 값도 가능하다고 가정하자. 비행기가 이륙 후 40분만에 도착할 수도 있고, 45.1분만에 도착할 수도 있으며, 52분, 53.2분, 46.01분, 60분에도 도착할 수 있다.  확률변수 X는 이 구간 내의 어떤 값이든 취할 수 있으므로 연속확률변수이다. 실제 충분한 비행기록이 있어 검토해보니 특정 1분 구간 사이에 대한 운항시간의 확률이 40분부터 60분 사이의 어떤 다른 1분 구간의 확률과도 동일하다면, 확률변수 X는 균일확률분포(uniform probability distrbution)를 따른다고 말할 수 있다. 40분부터 60분 사이의 1분 구간의 확률이 모두 같기 때문이다. 확률변수 X가 균일확률분포를 따르면, 확률분포는 다음과 같이 표시된다.

확률변수 X의 균일확률분포는 수학적으로 다음과 같이 정의된다.

주석: PDF(확률밀도함수)를 표기할 때 가 더 형식을 갖춘 표기이지만 만으로 표기해도 무방하다. 라고도 표기된다. 그것은 a와 b의 폐쇄 구간(closed interval)을 나타낸다. a는 상정한 구간에서 가장 작은 값이고, b는 가장 큰 값이다. 는 우리말로 ‘다른 구간에서는’이라는 뜻임. 수식 편집기에 우리말 입력이 되지 않아 영어로 표기했다.

균일분포 PDF의 모멘트(moment)는 다음과 같다.

기대값:

분산:

이 모멘트의 도출 과정은 적분 계산이 들어가 다소 복잡하므로 설명을 생략한다. 통계학자들에게 감사하며 정의를 잘 사용하면 될 것이다.

이 식들을 가지고 서울-제주 운항시간의 균일확률분포를 나타내면 다음과 같이 될 것이다.

확률밀도함수의 결과를 보면, 1/20은 1분 구간의 확률을 나타낸다. 만약 서울을 출발한 비행기가 40분에서 45분 후에 도착할 확률은 1/20 X (45 – 40) = 5/20 = 1/4 = 0.25. 즉, 0.25가 될 것이다. 그리고 40분에서 50분 후에 도착할 확률은 1/20 X (50 – 40) = 10/20 = 0.5, 즉, 0.5가 될 것이다. 또한 50분에서 55분 정도가 걸릴 확률은 1/20 X (50 – 55) = 5/20 = 0.25, 0.25가 될 것이다. 35분 이내에 도착할 확률은 물론 0이며, 65분 이후에 도착할 확률도 0이다.

위 그래프는 서울-제주 비행시간을 보여주고 있다. x축은 비행시간(X), y축은 확률 f(X)이다. 그런데 비행시간 40분부터 60분 사이의 확률은 모두 0.05이다. 그런데 이 값은 각 비행시간에 대한 확률값이 아니다. 정확히 그것은 비행시간 1분 구간에 대한 확률이다. 1분 구간의 확률이 40분부터 60분 사이에 동일하게 0.05라는 말이다.

연속확률함수에서 확률은 해당 구간의 면적이다. 예컨대 비행기가 45분과 50분 사이에 도착할 확률이 빨간색 직사각형의 면적이다. 직사각형의 세로는 0.05(1분 구간의 확률)이고, 가로는 해당 비행시간의 구간인 5분이다. 따라서 확률은 빨간색 직사각형의 면적인 0.05 X 5 = 0.25가 된다. 균일분포의 정의에 따라 40분과 60분 사이의 구간 밖에서 1분 구간의 확률은 0이다.

균일분포에 관한 예제를 풀어보자.

예제 1) 확률변수 X는 10과 20 사이에서 균일분포를 따른다.

1) PDF를 표기하시오.

2) 를 계산하시오.

3) 를 계산하시오.

4) 를 계산하시오.

5) 를 계산하시오.

해제)

문제 1)

문제 2) 0.1 X (15 – 10) = 0.5

문제 3) 0.1 X (18 – 12) = 0.6

문제 4)

문제 5)

예제 2) 대부분의 컴퓨터 언어는 무작위수(random numbers)를 생성하는 기능이 있다. 엑셀에서 RAND 함수를 사용하면 0과 1 사이의 무작위수를 생성할 수 있다. X를 RAND 함수를 사용해서 생성한 무작위수라고 하면, X는 다음의 확률밀도함수를 가진 연속확률변수이다.

1) 0.25와 0.75 사이의 무작위수를 생성할 확률은?

2) 0.30 보다 작거나 같은 무작위수를 생성할 확률은?

3) 0.6보다 큰 무작위수를 생성할 확률은?

4) 엑셀 워크시트의 50개 셀에 =RAND()를 입력하여 50개의 무작위수를 생성하시오.

5) 문항 4)에서 생성한 무작위수를의 평균과 표준편차를 구하시오.

해제)

문제 1) 1 X (0.75 – 0.25) = 0.5

문제 2)

문제 3)

문제 4) 5)

예제 3) Gallop Daily Survey는 연소득 $90,000이상인 미국인의 일일 재량지출의 평균은 하루에 $136이라고 밝혔다(USA Today, 2012년 7월 30일). 재량 지출에서 주택 구입, 차량 구입, 그리고 매월 정기적인 지출은 제외한다. X =하루당 재량 지출이라고 하자. 에 대하여 인 균일확률밀도함수가 적용된다고 가정하자.

1) 확률밀도함수에 대한 a와 b의 값을 구하시오.

2) 이 소득그룹에 속한 소비자가 $100에서 $200 사이의 재량지출을 가질 확률은?

3) 이 소득그룹에 속한 소비자가 $150 이상의 재량 지출을 가질 확률은?

4) 이 소득그룹에 속한 소비자가 $80 이하의 재량 지출을 가질 확률은?

문제 1) 문제 지문에서 주어진 정보는 평균, 즉, 기대값(이 $136이라는 것, 그리고 에 대하여 라는 것이다. 먼저

식 (1)과 식 (2)를 더 하면,

(3)을 (1)에 대입하면,

문제 2) 확률변수 X가  에서 인 균일분포를 할 때,

를 구하는 문제이다.  1$ 구간의 확률이 0.00625이니 $100(=200 – 100) 구간에서는 0.00625 X 100 = 0.625

문제 3) 1 – 0.00625 X (150 – 56) =1 – 0.5875 =0.4125

문제 4) 0.00625 X (80 – 56) = 0.15

예제 4) 미국 옐로스톤 국립공원의 올드페이스풀(Old Faithful) 간헐천은 91분마다 솟아오른다. 당신이 무작위로 그곳에 도착하고 20분을 기다린다면, 당신이 올드페이스풀이 솟구치는 모습을 볼 확률은?

올드페이스풀이 솟구치는 간격이 균일분포를 이룬다고 가정할 수 있다. 1분 구간에 올드페이스풀이 솟구칠 확률은 항상 1/91이다. 그렇다면 20분 구간에서 솟구칠 확률은 얼마인가를 묻는 질문이다. 1/91 X 20 = 0.2198이다.

예제 5) 확률변수 X가 32와 42 사이에 균일분포를 이룬다. X가 32와 40 사이에 있을 확률은?

이상으로 균일분포를 통해서 연속확률분포에 입문했다. 이산확률분포에서와 달리 연속확률분포에서는 PDF가 확률을 제공하지 않는다. 그것은 정확히 단위 구간에 대한 확률을 준다. 따라서 균일분포에서 확률변수가 특정 구간에서 발생할 확률을 구하려면, 단위 구간의 확률(그래프에서 세로에 해당)에 구간의 크기(그래프에서 가로에 해당)를 곱해서 해당 면적을 구했다. 즉, 연속확률분포에서는 면적이 확률이다.

어떤 사회 현상에 대한 정보가 부재할 때 균일분포를 가정하곤 한다. 그것은 다소 비현실적인 가정이기는 하지만 조사의 출발점으로서는 실용적인 가정이 될 수 있을 것이다. (2020-08-31)