확률분포(2): 포아송 분포

이산확률분포에서는 이항분포 다음으로 포아송 분포(Poisson distribution)가 중요하다. 포아송 분포는 단위 시간이나 단위 공간에서 무작위로 발생하는 사건의 발생횟수에 적용되는 분포이다. 포아송분포는 이항분포와 성격이 비슷하나, 시행횟수 n이 크고, 사건의 발생(성공) 확률 p는 매우 작은 경우에 사용된다. 확률변수 X가 포아송 분포를 따를 때 다음과 같이 표기한다.

다음의 두 가지 조건을 만족하면 발생회수라는 확률변수는 포아송 확률분포를 따른다.

1) 두 구간의 길이가 같다면 발생확률이 동일하다(일정성).

2) 어떤 구간에서 발생하거나 발생하지 않는 사건은 다른 구간에서 발생하거나 발생하지 않는 사건과 독립이다(독립성).

포아송분포는 수학적으로 다음과 같이 정의된다.

여기서  = 구간에서 x회 발생할 확률; (람다) = 단위시간당 평균발생횟수(기대값)(이다); (극한값 e)

위의 PDF에서 분모가 이다. 이는 발생횟수가 상당히 큰 수이면 가 0에 가까워지며, 그것을 무시할 수 있음을 시사한다.

포아송 분포의 기대값과 분산:

기대값과 분산이 동일하게 이다.

포아송 분포는 아래와 같은 다양한 현상에 적용될 수 있다. 그것의 적용 범위가 매우 넓은 확률 모형임을 알 수 있다.

  • 하루동안 발생하는 출생자 수 혹은 사망자 수
  • 하루동안 발생하는 고속도로 교통사고 수
  • 한 시간 내 찾아오는 방문객의 수
  • 하루에 찾아오는 환자의 수
  • 한 시간 동안 세차장에 도착하는 자동차의 수
  • 어떤 특정 진도 이상의 지진이 발생하는 수
  • 어떤 특정량의 방사선을 DNA에 쬐었을 때 발생하는 돌연변이 수
  • 검진한 환자 1만명 당 희귀병 환자의 수
  • 한 시간 내 스타박스의 드라이브스루 창구에 도착하는 자동차의 수
  • 일정 시간 동안 톨게이트를 통과하는 차량의 수
  • 한 시간 동안 은행에 다녀간 고객의 수
  • 한 시간 동안 사무실에 걸려온 전화의 수
  • 국도 1km 당 패인 구멍의 수
  • 어떤 책의 한 페이지에 존재하는 오타의 수
  • 일정량의 혈액 속에 있는 적혈구의 수
  • 단위 길이당 옷감의 흠집수

포아송 분포의 모양을 결정하는 퍼라미터는  하나이다. 아래 그림을 보면, 가 1일 때, 4일 때, 그리고 10일 때 확률분포의 모양이 크게 달라짐을 알 수 있다.

예제 1) 주중 아침 15분 동안 드라이브스루 뱅킹 서비스를 받기 위해 창구에 도착하는 자동차가 평균 10대라고 한다. 그렇다면 15분 동안에 5대가 도착할 확률은?

해제) 여기서 단위 시간은 15분이고, 확률변수 X는 15분 동안 창구에 도착하는 자동차 대수, 단위시간 당 평균은 10대이다. 단위시간에 발생하는 사건의 발생횟수에 관심을 갖고 있고, 단위시간 당 발생횟수(10대)가 일정하며, 어떤 단위 시간의 발생하는 사건은 다른 단위시간의 발생하는 사건과 독립적이므로 X는 포아송분포를 따른다.

공식 (1)에 = 10, X = 5를 대입해서 풀면,

즉, 15분 동안에 5대가 도착할 확률은 0.0378이다.

엑셀을 이용해서 확률분포를 구해보자. 기대값과 분산은 계산할 필요없이 10대이다[식(2) 적용]. 포아송확률분포를 구하는 엑셀 함수는 POISSON.DIST이다.

X(도착하는 자동차 대수)가 0에서 20대까지의 확률을 계산해 보았다. 위 표에서 X가 5일 때 0.0378로 위에서 공식을 사용해 수작업으로 한 계산과 동일하다. 흥미 있게도 그래프의 모양이 정규분포와 유사하다. 그래프의 무게 중심은 X =10(람다)이다.

예제 2) 우리나라의 에이즈 유병율이 0.04%이다. 에이즈 검사를 받은 사람 1만명 중 에이즈에 전염된 환자가 1명일 확률은?

해제) 여기서 확률변수는 검사 대상 1만명 당 에이즈 환자의 수이다. 관심 대상이 단위 집단 당 사건 발생 수이고, 단위 집단 당 발생횟수가 일정하고, 어떤 단위 집단과 다른 단위 집단 사이의 사건 발생은 독립적이므로 이 문제에는 포아송 분포가 적용될 수 있다. 퍼라미터 람다는 단위 집단 당 평균적인 에이즈 발병 횟수이므로, 에이즈 유병율이 0.04%일 때, 1만명 평균적 발생 에이즈 환자의 수()는 0.0004*10000 = 4(명)이다.

퍼라미터: (0.0004*10000); X = 1

엑셀을 이용해 확률분포를 구하면 아래와 같다.

예제 3) 도로를 새로 포장한 후 한달 동안 심각한 파손이 1km 당 평균 1개가 있다고 하자. 길이 3km에 파손 지점이 없을 확률은?

해제) 같은 길이의 어떤 구간에서도 파손이 있을 확률은 동일하고, 어느 한 구간에서의 파손 발생은 다른 구간에서의 파손 발생에 영향을 주지 않는다고 하면, 이 문제에 포아송 분포를 적용할 수 있다.

확률변수 X: 신도로 3km 당 파손 지점의 수

(3km 당 평균 파손 지점의 수) = 1*3 = 3

P(X = 0|3)?

위 표를 보면, X = 0일 때 발생확률은 0.0498이다.

예제 4) 미국의 국립 해양 및 대기 관리청(NOAA)에 따르면 콜로라도 주는 6월 평균 18건의 토네이도가 발생한다. 6월은 30일이 있다는 점을 기억하자.

1) 하루에 토네이도가 평균 몇 회 발생하는가?

2) 하루에 토네이도가 한 번도 발생하지 않을 확률은?

3) 하루에 토네이도가 한 번 발생할 확률은?

4) 하루에 토네이도가 두 번 이상 발생할 확률은?

해제) 이 문제는 하루라는 단위 시간에 발생하는 토네이도라는 사건의 발생횟수에 관심이 있다. 6월 중 일간 토네이도의 발생은 독립적이고,  그것의 확률은 일정하다고 간주될 수 있기 때문에 포아송 분포의 적용이 가능하다.

포아송분포를 수학적으로 계산하려면, (람다)를 알아야 한다. 람다는 단위시간 당 평균적인 발생횟수이다. 이 문제에서 단위 시간은 하루이다. 그런데 문제에 주어진 정보는 월 단위로 되어 있으므로 먼저 이것을 일 단위로 변환해서 람다를 구해야 한다. 그것에 대한 질문이 문제 1)이다.

1) 하루에 토네이도가 평균 몇 회 발생하는가? 18건을 30일로 나누면, 18/30 = 0.6(회). 즉,

2) 하루에 토네이도가 발생하지 않을 확률은? 이는 확률변수 X가 0일 확률을 묻는 질문이다. , X = 0를 PDF인 식 (1)에 대입한다.

3) 하루에 토네이도가 한 번 발생할 확률은? f(1)의 값을 묻고 있으므로,

4) 하루에 토네이도가 두 번 이상 발생할 확률은? 이 문제는 누적확률분포에 관한 것이다. 전체 확률 1에서 f(0)의 값, 0.5488과 f(1)의 값, 0.3293을 빼면 될 것이다.

엑셀을 이용해서 확률분포를 구해보자.

위 표에서 f(0) = 0.548812, f(1) = 0.329287이므로 앞에서 수작업으로 구한 결과와 일치함을 알 수 있다. 그래프를 보면, 토네이도가 대체로 하루에 한 번도 없거나 한 번 정도 발생하는 것을 알 수 있다. 토네이도가 간혹 하루 2회도 발생하지만 하루 3회 이상 발생은 거의 하지 않는 것으로 보인다.

예제 5) 어느 콜센터에 한 시간 동안 평균 36회 전화가 걸려온다. 

1) 5분 동안 전화가 2회 걸려올 확률은?

2) 15분 동안 5회 전화가 걸려올 확률은?

해제) 이 문제에서 관심사는 걸려오는 전화 횟수이다. 단위시간 당 걸려오는 전화 횟수가 독립적이고, 그것의 확률은 일정하다고 생각할 수 있으므로 포아송 분포가 적용될 수 있다.

문제 1) 여기서는 5분을 단위시간으로 볼 수 있으며, 확률변수 X는 5분 동안 걸려오는 전화 횟수가 된다. 그런데 우리에게 주어진 정보는 한 시간 동안 걸려오는 평균 전화 횟수 36회이므로, 람다는 36을 12(=60/5)로 나누면 구할 수 있다.

퍼라미터: ; X = 2

문제 2) 여기서는 15분을 단위시간으로 볼 수 있으므로, 확률변수 X는 15분 동안 걸려오는 전화 횟수가 된다. 그렇다면, 람다는 36을 4(=60/15)로 나누면 구할 것이다.

퍼라미터: ; X = 5

이상으로 포아송 확률분포를 살펴보았다. 포아송분포은 퍼라미터가 하나()인 분포이다. 람다는 단위시간 당 평균적 발생빈도이다. 그것만 알면 확률분포를 구할 수 있고, 따라서 당연히 단위시간 당 특정 발생횟수가 가진 확률값을 구할 수 있다. 이 정도는 기억해 두면 좋을 것이다. (2020-08-29)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.