확률변수와 확률분포(2)

앞 포스팅에서 확률변수가 무엇인지를 알아보았다. 이제 확률분포와 확률함수에 관해 살펴보자.

확률변수는 이산적 확률변수(discrete random variable)와 연속적 확률변수(continuous random variable)로 나눌 수 있다. 이산적 확률변수는 0, 1, 2, 3과 같은 정수의 값을 가지며, 연속적 확률변수는 소수점의 값을 포함하는 실수의 값을 가진다. 확률변수가 그 두 가지 중 어느 것에 속하는가에 따라 확률의 의미와 계산 방법이 크게 달라진다.

이산적 확률변수는 확률변수의 각 값이 발생 확률을 갖지만, 연속적 확률변수는 특정 값의 발생 확률은 0이다. 연속적 확률변수는 확률변수가 특정 구간에 속할 확률만을 계산할 수 있다.

예컨대 필자가 가르치는 사회통계 과목은 상대평가이다. 그 과목에서 어떤 학생이 A+를 받을 확률은 10%, A0를 받을 확률은 15%이다. 등급(letter grade)은 이산적 확률변수이다. 그러나 그 학생이 기말시험에서 90점을 받을 확률이나 80.5점을 받을 확률은 모두 0이다. 취득점수(score)는 연속적 확률변수이다. 만약 확률을 계산하고 싶으면,  90점 이상 받을 확률(), 80점 이상 90점 미만을 받을 확률() 처럼 확률변수의 구간을 정해주어야 한다.

이산확률변수은 확률변수의 확률과 확률분포를 생성하는 확률함수를 갖는다. 반면에 연속확률변수는 확률변수의 구간 확률과 확률분포를 생성하는 확률밀도함수(Probability Density Function, PDF)를 갖는다.

이산확률변수가 이루는 이산확률분포에는 이항확률분포(binomial probability distribution), 포아송 확률분포(Poission probability distribution), 초기하 확률분포(hypergeometric probability distribution), 기하확률분포(geometric probability distribution) 등이 있다. 

이항확률분포는 이항실험(binomial experiment)과 연관되어 있다. 이항실험은 네 가지의 특성을 갖고 있다. 

  1) 실험은 n개의 동일한 시행으로 구성된다.

  2) 각 실험은 두 가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.

  3) 성공 확률은 p이며 반복실험에서 변하지 않는다. 

  4) 각 실험은 독립적으로 행해진다.

위에서 1번을 제외한 세 가지 특성을 가진 실험을 베르누이 시행(Bernoulli Trial)이라고 한다. 베르누이 시행을 반복하면 이항실험이 된다. 이항확률함수는, 

    여기서  = n회 시행에서 성공의 횟수가 x일 확률; x = 성공횟수; n = 시행 횟수;  p = 각 시행에서 성공이 일어날 확률; 1-p = 각 시행에서 실패가 일어날 확률;

이항확률분포의 기대값과 분산

포아송분포는 이항분포와 성격이 비슷하나, 시행횟수 n이 크고, 사건의 발생(성공) 확률 p는 매우 작은 경우에 사용된다. 포아송 확률함수는,

여기서  = 구간에서 x회 발생할 확률; (람다) = 구간에서 발생횟수의 기대값 또는 평균(이다); 

포아송 분포의 기대값과 분산


초기하 확률분포도 이항분포와 관계가 있다. 성공할 확률이 매회 동일할 경우(상호 독립적인 사건)는 이항분포를 이용하고, 동일하지 않을 경우(상호 종속적인 사건)는 초기하분포를 이용한다. 즉, 같은 실험에서 복원추출을 하는 경우나, 표본추출을 하는 모집단의 크기가 무한한 경우는 이항분포를 사용하고, 비복원추출인 경우나 모집단의 크기가 작은 경우는 초기하분포를 사용하여 확률을 구한다.

기하확률분포는 단 한번의 성공을 위해 실패를 거듭해야 하는 경우에 사용한다. x-1번까지는 계속 실패를 하고, x번째에 비로소 성공할 확률은 다음과 같이 구할 수 있다.

몇 가지 사례를 보자.

(이항확률분포) 한 개의 동전을 4번 던졌을 때 앞면이 나오는 횟수가 2회일 확률은 얼마인가?

n = 4, x = 2, p = 0.5

실제 계산은 스마트폰 앱 Probability Distributions로 수행할 수 있다. 답은 0.37500 이다.

(포아송확률분포) 주중 아침 15분 동안 자동차를 탄 채로 은행 서비스를 받기 위해 창구에 도착하는 자동차 대수에 관심이 있다고 하자. 과거의 자료로 볼 때 15분 동안 도착하는 자동차는 평균 10대이라고 하자. 경영자가 15분 동안에 5대가 도착할 확률을 알고 싶어한다. 그 확률을 계산해 보자.

, x = 5.

(초기하 확률분포) 온타리오 전기는 전기 퓨즈를 생산한다. 한 박스에는 12개의 퓨즈를 넣는다. 검사자는 박스에 들어있는 12개의 퓨즈에서 무작위로 3개를 뽑는다. 박스에 5개의 불량품이 있을 경우 검사자가 3개의 퓨즈 중 불량품 1개를 뽑을 확률은 얼마인가?

N(모집단의 갯수) = 12, n(시행횟수) = 3, M(모집단에서 성공원소의 갯수) = 5, x(성공 횟수) = 1

(기하확률분포) 한 개의 동전을 던져서 앞면이 나올 확률은 1/2이다. 동전을 던질 때 다섯 번째 비로소 앞면이 나올 확률은 얼마인가?

(윤영민, 2018-06-18)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다