확률분포(4): 균일 분포

확률변수 X가 이산적(discrete)이냐 아니면 연속적(continuous)이냐에 따라 이산확률분포와 연속확률분포로 나뉜다. 이산적이란 {-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5}와 같이 X가 딱딱 떨어지는 것을 말하고, 연속적이란 X가 0과 5 사이의 실수와 같이 어떤 수들 사이에 무한 많은 수가 존재하는 것을 말한다.

이 두 가지 유형의 확률분포가 구별되는 가장 큰 차이는 PDF(확률함수)가, X가 유한하기 때문에 특정 값의 X에 대해 확률을 부여하는가, 아니면 X가 무한하기 때문에 X의 일정 구간에 대해 확률을 부여하는가이다. 확률변수가 유한하면 이산확률분포가 적용되고, 확률변수가 무한하면 연속확률분포가 적용된다.

이산확률분포에 관해서는 앞에서 이항분포, 포아송분포, 초기하분포에 관한 학습을 통해 충분히 익숙해졌으라 생각한다. 그 분포들에서는 확률변수 X가 특정한 값을 가질 때의 확률 값을 계산할 수 있었다.

연속확률분포에서는 확률변수 X가 실수(real number)처럼 소숫점 이하까지 나올 수 있기 때문에 이산확률분포와 같은 접근이 불가능하다. 몸무게, 키, 평균 성적 등을 상상해 보면 될 것이다. 그래서 연속확률분포에서는 특정한 X 값에 대한 확률은 항상 0으로 간주된다. 오직 X의 일정 구간에 대한 확률만이 존재한다. 예컨대 어떤 학생의 평균 성적이 90.5점일 확률은 0이다. 평균 성적에 대한 확률은 “어떤 학생의 평균 성적이 90점과 100점 사이일 확률이 얼마인가”와 같이 물어야 한다.

연속확률분포에서는 균일분포, 정규분포, 지수분포, 감마분포, 베타분포, t분포를 공부하겠다. 먼저 균일분포부터 알아보자.

균일확률분포는 확률변수의 특정 구간 사이의 확률이 일정한 확률분포를 말한다. 균일분포는 이산분포일 수도 있고 연속분포일 수도 있지만, 여기서는 혼란을 피하기 위해 연속분포를 중심으로 다루겠다.

우리가 흔히 학교에서 배우는 빈도주의 통계에서 균일분포는 별로 주목받지 못한다. 그러나 베이즈 통계까지 넣어서 고려한다면 균일분포는 충분히 관심을 가져야 할만큼 중요한 확률모형이다. 베이즈 통계에서, 분포에 대한 정보가 없을 때의 사전분포(prior)로 자주 사용되고, 연속확률분포를 설명하는데 이용되며, 실제 사회 현상에 대한 확률모형으로도 사용된다. 의심할 바 없이 균일분포에 대한 진지한 학습이 필요하다.

예를 가지고 균일분포에 대해 살펴보자. 확률변수 X는 서울에서 제주까지 운항하는 항공기의 비행시간을 가리킨다. 비행시간은 40분부터 60분까지의 구간에 있는 값이라면 어떤 값도 가능하다고 가정하자. 비행기가 이륙 후 40분만에 도착할 수도 있고, 45.1분만에 도착할 수도 있으며, 52분, 53.2분, 46.01분, 60분에도 도착할 수 있다.  확률변수 X는 이 구간 내의 어떤 값이든 취할 수 있으므로 연속확률변수이다. 실제 충분한 비행기록이 있어 검토해보니 특정 1분 구간 사이에 대한 운항시간의 확률이 40분부터 60분 사이의 어떤 다른 1분 구간의 확률과도 동일하다면, 확률변수 X는 균일확률분포(uniform probability distrbution)를 따른다고 말할 수 있다. 40분부터 60분 사이의 1분 구간의 확률이 모두 같기 때문이다. 확률변수 X가 균일확률분포를 따르면, 확률분포는 다음과 같이 표시된다.

확률변수 X의 균일확률분포는 수학적으로 다음과 같이 정의된다.

주석: PDF(확률밀도함수)를 표기할 때 가 더 형식을 갖춘 표기이지만 만으로 표기해도 무방하다. 라고도 표기된다. 그것은 a와 b의 폐쇄 구간(closed interval)을 나타낸다. a는 상정한 구간에서 가장 작은 값이고, b는 가장 큰 값이다. 는 우리말로 ‘다른 구간에서는’이라는 뜻임. 수식 편집기에 우리말 입력이 되지 않아 영어로 표기했다.

균일분포 PDF의 모멘트(moment)는 다음과 같다.

기대값:

분산:

이 모멘트의 도출 과정은 적분 계산이 들어가 다소 복잡하므로 설명을 생략한다. 통계학자들에게 감사하며 정의를 잘 사용하면 될 것이다.

이 식들을 가지고 서울-제주 운항시간의 균일확률분포를 나타내면 다음과 같이 될 것이다.

확률밀도함수의 결과를 보면, 1/20은 1분 구간의 확률을 나타낸다. 만약 서울을 출발한 비행기가 40분에서 45분 후에 도착할 확률은 1/20 X (45 – 40) = 5/20 = 1/4 = 0.25. 즉, 0.25가 될 것이다. 그리고 40분에서 50분 후에 도착할 확률은 1/20 X (50 – 40) = 10/20 = 0.5, 즉, 0.5가 될 것이다. 또한 50분에서 55분 정도가 걸릴 확률은 1/20 X (50 – 55) = 5/20 = 0.25, 0.25가 될 것이다. 35분 이내에 도착할 확률은 물론 0이며, 65분 이후에 도착할 확률도 0이다.

위 그래프는 서울-제주 비행시간을 보여주고 있다. x축은 비행시간(X), y축은 확률 f(X)이다. 그런데 비행시간 40분부터 60분 사이의 확률은 모두 0.05이다. 그런데 이 값은 각 비행시간에 대한 확률값이 아니다. 정확히 그것은 비행시간 1분 구간에 대한 확률이다. 1분 구간의 확률이 40분부터 60분 사이에 동일하게 0.05라는 말이다.

연속확률함수에서 확률은 해당 구간의 면적이다. 예컨대 비행기가 45분과 50분 사이에 도착할 확률이 빨간색 직사각형의 면적이다. 직사각형의 세로는 0.05(1분 구간의 확률)이고, 가로는 해당 비행시간의 구간인 5분이다. 따라서 확률은 빨간색 직사각형의 면적인 0.05 X 5 = 0.25가 된다. 균일분포의 정의에 따라 40분과 60분 사이의 구간 밖에서 1분 구간의 확률은 0이다.

균일분포에 관한 예제를 풀어보자.

예제 1) 확률변수 X는 10과 20 사이에서 균일분포를 따른다.

1) PDF를 표기하시오.

2) 를 계산하시오.

3) 를 계산하시오.

4) 를 계산하시오.

5) 를 계산하시오.

해제)

문제 1)

문제 2) 0.1 X (15 – 10) = 0.5

문제 3) 0.1 X (18 – 12) = 0.6

문제 4)

문제 5)

예제 2) 대부분의 컴퓨터 언어는 무작위수(random numbers)를 생성하는 기능이 있다. 엑셀에서 RAND 함수를 사용하면 0과 1 사이의 무작위수를 생성할 수 있다. X를 RAND 함수를 사용해서 생성한 무작위수라고 하면, X는 다음의 확률밀도함수를 가진 연속확률변수이다.

1) 0.25와 0.75 사이의 무작위수를 생성할 확률은?

2) 0.30 보다 작거나 같은 무작위수를 생성할 확률은?

3) 0.6보다 큰 무작위수를 생성할 확률은?

4) 엑셀 워크시트의 50개 셀에 =RAND()를 입력하여 50개의 무작위수를 생성하시오.

5) 문항 4)에서 생성한 무작위수를의 평균과 표준편차를 구하시오.

해제)

문제 1) 1 X (0.75 – 0.25) = 0.5

문제 2)

문제 3)

문제 4) 5)

예제 3) Gallop Daily Survey는 연소득 $90,000이상인 미국인의 일일 재량지출의 평균은 하루에 $136이라고 밝혔다(USA Today, 2012년 7월 30일). 재량 지출에서 주택 구입, 차량 구입, 그리고 매월 정기적인 지출은 제외한다. X =하루당 재량 지출이라고 하자. 에 대하여 인 균일확률밀도함수가 적용된다고 가정하자.

1) 확률밀도함수에 대한 a와 b의 값을 구하시오.

2) 이 소득그룹에 속한 소비자가 $100에서 $200 사이의 재량지출을 가질 확률은?

3) 이 소득그룹에 속한 소비자가 $150 이상의 재량 지출을 가질 확률은?

4) 이 소득그룹에 속한 소비자가 $80 이하의 재량 지출을 가질 확률은?

문제 1) 문제 지문에서 주어진 정보는 평균, 즉, 기대값(이 $136이라는 것, 그리고 에 대하여 라는 것이다. 먼저

식 (1)과 식 (2)를 더 하면,

(3)을 (1)에 대입하면,

문제 2) 확률변수 X가  에서 인 균일분포를 할 때,

를 구하는 문제이다.  1$ 구간의 확률이 0.00625이니 $100(=200 – 100) 구간에서는 0.00625 X 100 = 0.625

문제 3) 1 – 0.00625 X (150 – 56) =1 – 0.5875 =0.4125

문제 4) 0.00625 X (80 – 56) = 0.15

예제 4) 미국 옐로스톤 국립공원의 올드페이스풀(Old Faithful) 간헐천은 91분마다 솟아오른다. 당신이 무작위로 그곳에 도착하고 20분을 기다린다면, 당신이 올드페이스풀이 솟구치는 모습을 볼 확률은?

올드페이스풀이 솟구치는 간격이 균일분포를 이룬다고 가정할 수 있다. 1분 구간에 올드페이스풀이 솟구칠 확률은 항상 1/91이다. 그렇다면 20분 구간에서 솟구칠 확률은 얼마인가를 묻는 질문이다. 1/91 X 20 = 0.2198이다.

예제 5) 확률변수 X가 32와 42 사이에 균일분포를 이룬다. X가 32와 40 사이에 있을 확률은?

이상으로 균일분포를 통해서 연속확률분포에 입문했다. 이산확률분포에서와 달리 연속확률분포에서는 PDF가 확률을 제공하지 않는다. 그것은 정확히 단위 구간에 대한 확률을 준다. 따라서 균일분포에서 확률변수가 특정 구간에서 발생할 확률을 구하려면, 단위 구간의 확률(그래프에서 세로에 해당)에 구간의 크기(그래프에서 가로에 해당)를 곱해서 해당 면적을 구했다. 즉, 연속확률분포에서는 면적이 확률이다.

어떤 사회 현상에 대한 정보가 부재할 때 균일분포를 가정하곤 한다. 그것은 다소 비현실적인 가정이기는 하지만 조사의 출발점으로서는 실용적인 가정이 될 수 있을 것이다. (2020-08-31)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.