확률분포(5): 지수분포

연속확률분포에서 두 번째로 지수확률분포에 대해 알아보자. 지수분포는 이산확률분포에서 공부한 포아송분포와 관련이 깊다. 그래서 포아송분포에 대한 복습 겸해서 지수분포를 두 번째로 선택했다.

포아송분포는 시간 구간 당 혹은 공간 구간 당 사건의 발생횟수에 대한 확률분포이며 일정성 조건과 독립성 조건을 갖는다고 했다. 그리고 포아송 분포의 퍼라미터는 이며, PDF는 아래와 같다. 는 구간당 발생횟수의 기대값(평균)이다.

아래와 같은 사례에 포아송분포가 적용될 수 있다.

  • 하루동안 발생하는 고속도로 교통사고 수
  • 하루에 찾아오는 환자의 수
  • 한 시간 동안 세차장에 도착하는 자동차의 수
  • 어떤 특정 진도 이상의 지진이 발생하는 수
  • 한 시간 내 스타박스의 드라이브스루 창구에 도착하는 자동차의 수
  • 일정 시간 동안 톨게이트를 통과하는 차량의 수
  • 한 시간 동안 사무실에 걸려온 전화의 수
  • 국도 1km 당 패인 구멍의 수
  • 단위 길이당 옷감의 흠집수

모두 확률변수가  시간 구간 혹은 공간 구간 당 사건의 발생 횟수이다. 그런데 지수분포는 사건이 발생하는 시간 간격 혹은 거리 간격이다. 사건의 발생 횟수는 0과 양의 정수이지만, 사건이 발생하는 시간이나 시간 간격은 0과 양의 실수가 될 것이다. 때문에 포아송 분포는 이산확률분포이고, 지수분포는 연속확률분포이다. 위에서 든 포아송 분포의 확률변수를 지수분포의 확률변수로 바꾸면 다음과 같다.

  • 고속도로 교통사고가 발생하는 시간 간격
  • 환자가 찾아오는 시간 간격
  • 세차장에 자동차가 도착하는 시간 간격
  • 어떤 특정 진도 이상의 지진이 발생하는 시간 간격
  • 어떤 특정량의 방사선을 DNA에 쬐었을 때 돌연변이가 발생하는 시간 간격
  • 스타박스의 드라이브스루 창구에 자동차가 도착하는 시간 간격
  • 차량이 톨게이트를 통과하는 시간 간격
  • 사무실에 전화가 걸려오는 시간 간격
  • 국도에 패인 구멍 사이의 거리 간격
  • 옷감의 흠집 사이의 거리 간격

확률변수 X가 지수(확률)분포를 따르면 다음과 같이 간략히 표기된다.

퍼라미터는 하나이다. 포아송 분포와 같다. 지수분포를 그래프로 나타내면 다음과 같다.

File:Exponential probability density.svg
By Skbkekas – Own work, CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=9508326

의 크기에 따라 PDF의 모습이 달라짐을 볼 수 있다. 가 작을수록 X 값이 증가할 때 확률밀도의 감소가 완만해진다.

확률변수 X의 지수분포는 다음과 같이 정의된다.

여기서 는 포아송 분포에서와 동일하게 단위 시간 당 평균발생횟수이다. , 는 시간 간격다. 지수분포의 모멘트는 아래와 같다.

지수확률함수 (2)를 가지고 X의 특정 구간에 대한 확률을 구하려면, 적분을 해야 하는 데 번거로운 과정을 생략하고 아래 누적확률함수(cumulative distributive function, CDF)를 사용하면 된다. CDF는 의 값을 준다. 즉, 확률변수 X가 어떤 특정한 값() 이내일(같거나 작을) 확률을 준다. CDF를 응용하면 확률변수 X가 어떤 값 이상일(같거나 클) 확률, 혹은 어떤 두 값 사이에 있을 확률을 모두 간단한 계산으로 구할 수 있다.

File:Exponential cdf.svg

By Skbkekas – Own work, CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=9508326

가 작으면, 확률변수 X 값이 증가함에 따라 값의 증가가 서서히 이루어짐을 볼 수 있다.

예제 1) 보스턴 소방서는 한 시간 당 평균 1.6번의 911 전화를 받는다. 시간당 전화수가 포아송 확률분포를 따른다고 가정하자.

1) 보스턴 소방서에 911 전화가 걸려오는 평균 시간 간격은?(단위:분)

2) 911 호출 사이의 간격이 한 시간 이내일 확률은?

3) 911 호출 사이의 간격이 30분 이내일 확률은?

4)  911 호출 사이의 간격이 5분 이상이면서 20분 이내일 확률은?

해제) 포아송 분포의 퍼라미터 가 1.6이다.

문제 1) 전화가 걸려오는 평균 시간 간격은

문제 2) 호출 사이의 간격이 한 시간 이내일 확률은?

문제 3) 호출 시간의 간격이 30분 이내일 확률은?

이 문제는 지수분포 PDF에서 에 해당되는 면적을 구하는 것이다. 아래 그림에서 주황색 부분의 면적이 이에 해당된다.

문제 4) 호출 시간의 간격이 5분 이상 20분 이내일 확률은?

여기서는 계산을 간략히 하기 위해 분으로 간격을 표시했기 때문에 람다 값이 0.0267이다. 1.6/60 = 0.0267.이 문제는  지수분포 PDF의 에 해당되는 면적을 구하는 것이다. 아래 그래프에서 주황색 부분이다.

예제 2) 어느 세차장에 들어오는 자동차가 한 시간에 평균 10대이다. 자동차가 들어오는 시간 간격이 5분 이하일 확률은?

해제) 시간 당 자동차가 들어오는 댓수는 포아송분포이고, 자동차가 들어오는 시간 간격은 지수분포이다. 여기서는 시간 간격을 물으니 지수분포가 적용된다. 문제에 람다가 시간 단위로 되어 있는데, 확률은 분 단위로 구해야 하기 때문에 람다 값의 환산이 필요하다. 환산하면 1분당 평균 0.1667 대가 세차장에 들어온다.

식 (5)에 을 대입하면,

지수함수는 엑셀에서 EXPON.DIST 함수로 계산할 수 있다. 이 문제의 경우 누적 확률 함수로 계산하면 되기 때문에 세 번째 퍼라미터가 TRUE로 선택되었다. 아래 그림을 참고하기 바란다.

예제 3) 어떤 사거리에 다음 차가 도착하기까지 걸리는 시간이 평균 12초의 지수확률분포를 따른다.

1) 지수확률분포의 그래프를 그리시오.

2) 다음 차가 도착하는데 걸리는 시간이 12초 이하일 확률은?

3) 다음 차가 도착하는데 걸리는 시간이  6초 이하일 확률은?

4) 다음 차가 도착하는데 걸리는 시간이 30초 이상일 확률은?

해제) 문제에서 주어진 정보가 차량 댓수()가 아니라 시간 간격()이다.  람다와 뮤의 관계는 아래와 같으므로 쉽게 변환된다. 엑셀에서는 포아송분포와 지수분포 모두 를 사용하므로, 엑셀을 사용해서 계산하려면 정보가 로 주어지면 로 변환해 주어야 한다.

문제 1) 엑셀을 가지고 그래프를 그려보자. 먼저 람다를 구한다. 그 다음 를 중심으로 X 값을 20-30개 정도 만든다. EXPON.DIST를 이용해서 f(X) 값을 구한다. ‘삽입’ 기능을 이용해 선(line) 차트를 플롯한다.

문제 2) 누적함수[식 (5)]를 적용해서 값을 계산한다.

엑셀에서도 동일한 값을 얻을 수 있다.

문제 3)

문제 4)

예제 4) 컴캐스트(Comcast)는 미국의 통신 회사이다. 고객에게 서비스 중단이 발생하면, 고객센터가 고장 신고를 받고 회사는 녹음된 메시지를 통해 서비스 중단 사실을 인지하고 있으며 서비스가 두 시간 이내로 복구될 것으로 예상한다고 알린다. 수리 시간은 지수확률분포를 따르며, 평균은 두 시간이라고 가정하자.

1) 케이블 서비스가 한 시간 이내로 수리될 확률은?

2) 수리가 한 시간에서 두 시간이 걸릴 확률은?

3) 오후 1시에 고객센터에 전화를 한 고객에게, 케이블 서비스가 오후 5시까지 수리되지 않을 확률은?

해제) 문제에서 주어진 정보가 가 아니라 이다. 로 변환하면, .

문제 1)

문제 2)

문제 3)

예제 5) 명동의 한 테이크 아웃 식당은 25분에 음식을 사갈 수 있다고 광고합니다. 고객이 가지고 갈 수 있도록 테이크 아웃 음식을 준비하는데 평균 25분인 지수확률분포를 따른다고 가정하자.

1) 테이크 아웃 주문이 20분 이내 준비될 확률은?

2) 고객이 주문하고 30분 후에 도착했을 때, 주문이 준비되지 않을 확률은?

3) 한 고객이 그 식당에서 15분 거리에 산다. 이 고객이 오후 5시 20분에 전화 주문을 한다면, 식당에 가서 주문한 음식을 테이크 아웃하여 오후 6시까지 집에 돌아올 수 있는 확률은?

해제) 이 문제에도 주어진 정보는 가 아니라 이다. 로변환하면, .

문제 1)

문제 2)

문제 3) 5시 20분 고객의 주문을 받자마자 음식을 준비하여 15분 후 고객이 식당에 도착할 때까지 테이크 아웃 음식 준비를 마치면, 고객은 5시 50분이면 집에 돌아올 수 있다. 그렇다면  6시까지 돌아오면 되니 식당은 25분 안에 음식 내보낼 준비를 마치면 된다. 결국 주문이 25분 이내에 준비될 확률을 묻는 문제이다.

이상으로 지수분포에 대한 설명을 마친다. 지수분포가 포아송분포와 긴밀하게 연관되어 있으며, 포아송분포는 단위 시간 당 발생횟수에 관한 확률분포이고, 지수분포는 시간 간격(혹은 걸리는 시간)에 관한 확률분포임을 기억해 두자. 또한 균일분포에 이어서 지수분포도 연속확률분포의 확률은 그래프 아래의 면적임을 보여주었다. (2020-09-02)