사회통계(11): 확률분포

[문제 1] 재벌구조조정에 대한 한 신문사의 여론조사 결과 우리 국민들중 80%는 강도있는 재벌구조조정에 찬성, 그리고 20%는 반대하는 것으로 나타났다고 하자. 만일 임의로 5명이 선택되어졌을 때 3명이 반대할 확률은 얼마인가?(김은정, 2017: 52)(이항분포)

[문제 2] 어떤 응시자가 자동차 운전시험에 합격할 확률은 1/2이라 하고, 매 시험마다 일정하다고 할 때, 다섯 번째 비로소 합격할 확률은 얼마인가? 또, 처음으로 합격하는 횟수의 기대값은?(김은정, 2017: 57)(기하분포)

[문제 3] 주중 아침 15분 동안 자동차를 탄 채로 은행 서비스를 받기 위해 drive-through 창구에 도착하는 자동차 대수에 관심이 있다. 과거의 자료로 볼 때 15분 동안 도착하는 자동차는 평균 10대이고 포아송 분포를 따른다. 그렇다면 15분 동안에 5대가 도착할 확률은 얼마일까?(Anderson, et., al., 2016: 280)

[문제 4] 어떤 사거리에 다음 차가 도착하기까지 걸리는 시간이 평균 12초의 지수확률분포를 따른다.(Anderson, et., al., 2016: 328)

(1) 지수확률분포의 그래프를 그리시오.

(2) 다음 차가 도착하는데 걸리는 시간이 12초 이하일 확률은?

(3) 다음 차가 도착하는데 걸리는 시간이 6초 이하일 확률은?

(4) 다음 차가 도착하는데 걸리는 시간이 30초 이상일 확률은?

[문제 5] 서울 강남 소방서가 시간당 평균 1.6회의 119 전화를 받는다고 하자. 또한 시간 당 전화수가 포아송확률분포를 따른다고 가정하자. 119 호출 사이의 간격이 한 시간 이내일 확률은? (Anderson, et. al., 2016: 329 변형)(지수확률분포)

[문제 6] 국내 대기업의 주식형 펀드에 대한 평균 수익률은 2009-2011 3년간 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자. 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은? (Anderson, et., al., 2016: 321)

사회통계의 꽃은 역시 학률분포이다. 통계학자나 계량사회학자는 확률분포를 가지고 세상을 보려고 한다. 그런데 확률분포는 많은 사회과학 전공 학생들에게 넘사벽처럼 인식되기도 한다.

확률분포가 중요한 이유는, 우리가 관심을 갖는 어떤 사회현상의 확률분포를 알면 그 사회현상에 관한 다양한 사건(event)의 확률을 쉽게 예측할 수 있기 때문이다. 확률분포는 사회현상이 지닌 규칙성(regularity)을 효율적으로 표현한다.

앞 포스팅에서 확률분포의 특징을 보여주는 도구로 모멘트(moment, 적률)를 소개했다. 그런데 모멘트나 모멘트를 이용해 구성한 왜도나 첨도는 확률분포의 특징을 요약해주기는 하지만 그것만으로 확률분포를 완전하게 묘사할 수 없다. 확률분포는 다양한 모습을 가질 수 있다(아래 그림을 참조).

확률변수 X의 특정값이나 어떤 범위가 발생할 확률을 예측하려면 확률함수(probability distribution)을 알아야 한다. X의 확률분포는 확률함수 에 의해 정의되며, 확률함수는 확률변수의 값에 확률이 어떻게 부여되는지를 말해준다.

사회통계를 배우는 사람들에게 나쁜 소식은 이론적으로 무한한 수의 확률분포(확률함수)가 존재할 수 있다는 사실이며, 좋은 소식은 사회현상을 연구하는데 있어 20개 미만의 확률분포만 알고 있으면 된다는 사실이다.(확률분포의 종류를 보려면 여기를 클릭) 그 확률분포들은 자유도 같은 하이퍼 퍼라미터(hyper-parameter)에 의해 규정되는 많은 변종들을 가지고 있기 때문에 우리가 관심 갖는 대부분의 사회현상을 표현할 수 있다. 다음은 상대적으로 많이 사용되는 확률분포들이다.참고) Student’s t, Chi-squared, Beta, Gamma 분포의 확률함수에 보이는 는 계승(factorial)이 실수까지 적용될 수 있도록 일반화한 것으로 이해하면 되고, F 분포의 분모에 보이는 (베타함수)는 이항계수를 일반화한 것이라고 생각하면 된다.

확률분포를 생성하는 학률함수를 보고 겁먹을 필요는 없다. 수백년에 걸친 통계학자들의 노고 덕분에 확률분포를 수식으로 표현할 수 있게 된 점을 감사히 생각하고 잘 사용하면 된다. 각 분포들이 주로 사용되는 현상들이 무엇인지를 잘 판별하면(인터넷을 뒤져보면 금방 알 수 있음) 적절히 사용할 수 있을 것이다.

이중 정규분포가 가장 널리 적용되며, 통계적 추론에는 카이자승분포, t분포, F분포가 자주 사용되고, 베이즈 추론에는 베타와 감마 분포도 자주 사용된다. 이항분포, 포아송 분포, 지수 분포도 잘 기억해 두면 확률 추정에 유용하게 사용될 수 있을 것이다.

이항분포는 성공(이나 실패) 확률을 추정하는데 사용된다. 포아송 분포는 어떤 사건이나 현상의 단위 시간당 발생 횟수에 자주 적용되며, 지수확률분포는 어떤 사건의 발생 간격 혹은 어떤 사건을 완료하는데 걸리는 시간에 관한 확률을 계산하는데 적용되곤 한다. 단위 시간당 발생 횟수인 경우 포아송 분포, 그것을 발생의 시간 간격으로 바꾸면 지수확률분포가 적용되므로 두 분포는 서로 관련된다.

위의 문제들을 풀어보면 확률분포와 확률함수를 이해하는데 도움이 될 것이다. MS Excel에서 위에 제시된 대부분의 확률함수들이 주는 확률값을 계산할 수 있다. 미국 아이오아 대 통계학과의 Matthew Bognar 박사가 개발하여 제공하는 휴대폰 앱인 Probability Distributions (혹은 그의 웹사이트에서도 이용 가능함)을 이용하여 계산할 수 있다. 이 앱은 확률분포 그래프를 직접 보면서 확률값을 계산할 수 있다는 장점이을 가지고 있다.

<문제 풀이>

[문제 1]

[문제 2] ,

[문제 3]  . 대신 를 사용하기도 한다. 참고로 포아송 분포에서는 이지만, 지수분포에서는 이다.

(Probability Distributions app. 이용)

[문제 4] (1)

(2) 0.63065  (3) 0.39226 (4) 0.08291 (Probability Distributions app. 이용)

[문제 5] 전화가 걸려오는 평균 시간 간격은 60/1.6=37.5분,  (Probability Distributions app. 이용)

[문제 6]  (Probability Distributions app. 이용)

<참고 문헌>

Anderson, David R, Dennis J., Sweeney, Rhomas A. Williams (류귀열, 김창규, 최승은, 김민중, 이성철 역). 2016. <앤더슨의 통계학>. 한올.

김은정. 2017. <사회조사분석사 사회통계>. 학진북스.

(윤영민, 2017/09/11)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.