확률변수와 확률분포(3)

이제 연속확률분포를 살펴보자. 확률변수가 실수이기 때문에 연속확률분포는 유형도 많고 적용 범위도 다양하다. 자주 사용되는 연속확률분포로는 균일확률분포(uniform probability distribution), 정규확률분포(normal probability distribution), 지수확률분포(exponential probability distribution),  분포( distribution),  분포(chi-squared distribution),  분포( distribution), 베타 분포(Beta distribution), 감마 분포(Gamma distribution), 멱함수 분포(power law distribution, Pareto distribution) 등이 있다.

균일확률분포는 단위 구간당 발생확률이 동일한 경우이다. 얼핏 보기에 그런 확률이 무슨 소용이 있을까 싶지만, 사실 아주 유용한 경우가 있다. 어떤 현상에 대한 정보가 매우 제한되어 있다면 그 현상을 균일확률분포로 가정할 수 있다. 어떤 현상에 대한 우리의 무지를 확률적으로 표현하면, 확률변수의 단위 구간당 발생 확률이 동일하다가 될 수 있다는 말이다. 균일확률분포는 베이지안 통계에서 매력적인 사전 확률분포(prior probability distribution) 후보이다. 지금까지 학교에서 주로 가르쳤던 빈도주의 통계학(frequentist statistics)에서는 별로 대우받지 못했던 균일확률분포의 위상이 베이지안 통계의 부상과  함께 달라지게 된 것이다.

표본값에서 모수를 추정하는 추리 통계학(inferential statistics)에서 정규확률분포가 차지하는 중요성이야 말할 나위도 없다. 표집분포(sampling distribution)가 정규분포를 이룬다는 점은 모수 추정을 가능하게 하는 핵심적인 이론적 근거 중 하나이다.

정규확률분포에서 확률변수를 표준화하면 표준정규확률분포가 된다. 아래는 정규확률밀도함수이다.

이 정규확률함수를  를 통해 를 로 정규화하면 평균이 0, 표준편차가 1인 표준정규확률밀도함수를 얻는다.

표준정규확률분포는 “bell curve”라고 불리며, 그것의 데이터 분포가 알려져 있다. 아래 그림에서처럼 어떤 현상이 표준정규확률분포를 이룰 경우 전체 데이터의 68.2%가 평균을 중심으로 1 표준편차 범위 내에 있으며, 전체 데이터의 95.4%는 2 표준편차의 범위 내에, 전체 데이터의 99.7%는 3 표준편차의 범위 내에 있다.

 

standard normal distribution에 대한 이미지 검색결과

이 밖에 통계적 추론에는 카이자승분포, t분포, F분포가 자주 사용되고, 베이즈 추론에는 베타와 감마 분포가 자주 사용된다. 그 분포들에 대한 설명은 생략한다.

예제를 하나 보자. 국내 대기업의 주식형 펀드에 대한 평균 수익률은 2009-2011년 3년간 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자. 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은?

해제:   (Probability Distributions app. 이용)

(윤영민, 2018-06-19)

확률변수와 확률분포(2)

앞 포스팅에서 확률변수가 무엇인지를 알아보았다. 이제 확률분포와 확률함수에 관해 살펴보자.

확률변수는 이산적 확률변수(discrete random variable)와 연속적 확률변수(continuous random variable)로 나눌 수 있다. 이산적 확률변수는 0, 1, 2, 3과 같은 정수의 값을 가지며, 연속적 확률변수는 소수점의 값을 포함하는 실수의 값을 가진다. 확률변수가 그 두 가지 중 어느 것에 속하는가에 따라 확률의 의미와 계산 방법이 크게 달라진다.

이산적 확률변수는 확률변수의 각 값이 발생 확률을 갖지만, 연속적 확률변수는 특정 값의 발생 확률은 0이다. 연속적 확률변수는 확률변수가 특정 구간에 속할 확률만을 계산할 수 있다.

예컨대 필자가 가르치는 사회통계 과목은 상대평가이다. 그 과목에서 어떤 학생이 A+를 받을 확률은 10%, A0를 받을 확률은 15%이다. 등급(letter grade)은 이산적 확률변수이다. 그러나 그 학생이 기말시험에서 90점을 받을 확률이나 80.5점을 받을 확률은 모두 0이다. 취득점수(score)는 연속적 확률변수이다. 만약 확률을 계산하고 싶으면,  90점 이상 받을 확률(), 80점 이상 90점 미만을 받을 확률() 처럼 확률변수의 구간을 정해주어야 한다.

이산확률변수은 확률변수의 확률과 확률분포를 생성하는 확률함수를 갖는다. 반면에 연속확률변수는 확률변수의 구간 확률과 확률분포를 생성하는 확률밀도함수(Probability Density Function, PDF)를 갖는다.

이산확률변수가 이루는 이산확률분포에는 이항확률분포(binomial probability distribution), 포아송 확률분포(Poission probability distribution), 초기하 확률분포(hypergeometric probability distribution), 기하확률분포(geometric probability distribution) 등이 있다. 

이항확률분포는 이항실험(binomial experiment)과 연관되어 있다. 이항실험은 네 가지의 특성을 갖고 있다. 

  1) 실험은 n개의 동일한 시행으로 구성된다.

  2) 각 실험은 두 가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.

  3) 성공 확률은 p이며 반복실험에서 변하지 않는다. 

  4) 각 실험은 독립적으로 행해진다.

위에서 1번을 제외한 세 가지 특성을 가진 실험을 베르누이 시행(Bernoulli Trial)이라고 한다. 베르누이 시행을 반복하면 이항실험이 된다. 이항확률함수는, 

    여기서  = n회 시행에서 성공의 횟수가 x일 확률; x = 성공횟수; n = 시행 횟수;  p = 각 시행에서 성공이 일어날 확률; 1-p = 각 시행에서 실패가 일어날 확률;

이항확률분포의 기대값과 분산

포아송분포는 이항분포와 성격이 비슷하나, 시행횟수 n이 크고, 사건의 발생(성공) 확률 p는 매우 작은 경우에 사용된다. 포아송 확률함수는,

여기서  = 구간에서 x회 발생할 확률; (람다) = 구간에서 발생횟수의 기대값 또는 평균(이다); 

포아송 분포의 기대값과 분산


초기하 확률분포도 이항분포와 관계가 있다. 성공할 확률이 매회 동일할 경우(상호 독립적인 사건)는 이항분포를 이용하고, 동일하지 않을 경우(상호 종속적인 사건)는 초기하분포를 이용한다. 즉, 같은 실험에서 복원추출을 하는 경우나, 표본추출을 하는 모집단의 크기가 무한한 경우는 이항분포를 사용하고, 비복원추출인 경우나 모집단의 크기가 작은 경우는 초기하분포를 사용하여 확률을 구한다.

기하확률분포는 단 한번의 성공을 위해 실패를 거듭해야 하는 경우에 사용한다. x-1번까지는 계속 실패를 하고, x번째에 비로소 성공할 확률은 다음과 같이 구할 수 있다.

몇 가지 사례를 보자.

(이항확률분포) 한 개의 동전을 4번 던졌을 때 앞면이 나오는 횟수가 2회일 확률은 얼마인가?

n = 4, x = 2, p = 0.5

실제 계산은 스마트폰 앱 Probability Distributions로 수행할 수 있다. 답은 0.37500 이다.

(포아송확률분포) 주중 아침 15분 동안 자동차를 탄 채로 은행 서비스를 받기 위해 창구에 도착하는 자동차 대수에 관심이 있다고 하자. 과거의 자료로 볼 때 15분 동안 도착하는 자동차는 평균 10대이라고 하자. 경영자가 15분 동안에 5대가 도착할 확률을 알고 싶어한다. 그 확률을 계산해 보자.

, x = 5.

(초기하 확률분포) 온타리오 전기는 전기 퓨즈를 생산한다. 한 박스에는 12개의 퓨즈를 넣는다. 검사자는 박스에 들어있는 12개의 퓨즈에서 무작위로 3개를 뽑는다. 박스에 5개의 불량품이 있을 경우 검사자가 3개의 퓨즈 중 불량품 1개를 뽑을 확률은 얼마인가?

N(모집단의 갯수) = 12, n(시행횟수) = 3, M(모집단에서 성공원소의 갯수) = 5, x(성공 횟수) = 1

(기하확률분포) 한 개의 동전을 던져서 앞면이 나올 확률은 1/2이다. 동전을 던질 때 다섯 번째 비로소 앞면이 나올 확률은 얼마인가?

(윤영민, 2018-06-18)

확률변수와 확률분포(1)

학생들에게는 ‘확률’이라는 표현이 다소 혼란스럽다.  사실 그것은 배우는 학생들이 아니라 통계학자들 때문이다.

확률은 때로 probability를 의미하고, 때로 random을 의미한다. 그 두 단어가 서로 밀접하게 관련되어 있지만 동의어는 아니다. 확률(probability), 확률 분포(probability distribution), 확률 함수(probability function)의 경우는 확률이  probability를 의미하고, 확률적(stochastic) 혹은 확률 변수(random variable)의 경우는 확률이 randomness(무작위)를 의미한다. 전자인 probability는 어떤 현상이 발생할 가능성을 표현한 수치이고, 후자인 random 혹은 stochastic은 우연적 혹은 무작위적이라는 뜻이다. 이러니 학습자들이 충분히 혼란스러워할만 하다.

우리가 어떤 현상을 확률적이라고 말하면, 그 현상이 우연적으로 결정되는 현상, 다시 말해, 인위적으로 결정될 수 없는 현상임을 의미한다. 동전 던지기나 주사위 던지기가 확률적 현상의 가장 흔한 사례가 될 것이다. 동전 던지기의 결과는 누군가의 의지나 기분 혹은 음모에 의해 결정되지 않는다. 주사위 던지기의 결과도 마찬가지이다.

확률 변수(random variable)에서 확률은 그런 의미이다. 수학에서 변수(variable)란 2개 이상의 값을 가질 수 있는 문자를 말한다. 변수는 흔히  등으로 표현된다. 변수의 반댓말은 상수(constant)이다. 상수는 하나의 고정된 값만 갖는 문자이다. 흔히 로 표시된다.

random variable에 대한 이미지 검색결과

그런데, 확률 변수는 특별한 속성을 지닌 변수이다. 즉, 확률 변수의 값은, 어떤 결과가 나올 지 정해져 있지 않은 어떤 과정–그것을 확률 과정(random process) 혹은 통계적 실험이라고 한다–을 통해 결정된다. 동전 던지기를 상상하면 된다. 때문에 확률 변수의 각 값은 특정한 확률을 갖고 있다. 예컨대 하나의 동전을 던졌는데, 앞면이 나올 확률(그것은 0.5이다), 혹은 두 개의 동전을 던졌는데, 두 개 모두 앞면이 나올 확률(그것은 0.25(0.5*0.5)이다)처럼 말이다.

여기서 두 개의 동전을 던지는 경우만 생각해 보자. 동전 던지기는 바로 확률 과정이고, 그 결과인 앞면의 갯수는 확률변수이다. 동전 던지기의 결과는 정해져 있지 않으면 누군가의 의지나 기분에 따라 결정되지 않는다. 그리고 앞면의 갯수(라고 하자), 즉, 확률변수의 값은 이다. 그리고 각 값은 특정한 확률을 갖고 있다.  앞면이 두 개가 나올 확률 는 0.25, 한 개가 나올 확률 은 0.5, 하나도 나오지 않을 확률은 은 0.25이다. 그리고 그 세 값의 확률을 더하면 1.0이다.

‘어떤 학생이 기말시험에 대비해 공부할 시간’은 변수이지만 확률변수는 아니다. 그것은 그 학생의 의지나 기분에 의해 좌우될 수 있기 때문이다. 어떤 자동차 세일즈맨이 하루에 파는 자동차 댓수는 확률변수일 것이다. 자동차의 판매 결과가 본인의 의지로 결정되지 않기 때문이다.

세상사에는 확률변수가 많다. 다시 말해 결과가 우연에 의해 결정되는 사회 현상이 많다. 그리고 사람들은 때로 우연에 희망을 걸기도 한다. 복권이 잘 팔리는 이유가 그 때문 아니겠는가. (윤영민, 2018-06-13).