대학 사회통계 입문, 무엇을, 어떻게 가르칠 것인가?

introductory social statistics에 대한 이미지 검색결과

1) 가장 중요한 점은 학생들에게 “나도 통계를 할 수 있다”는 자신감을 심어주는 일이다. 사회과학 전공자들 중 수포자가 많다. 그들도 통계학이 중요하다는 사실은 안다. 도전할 자신이 없을 뿐이다.

대학 수업이 그들에게 새로 출발할 기회를 주어야 한다. 중고등학교에서 배운 지식을 전제로 가르치기보다는 필요한 부분은 중고등학교 수준부터 더 쉽고 자상하게 가르치는 게 바람직하다. 단, 한 명이라도 더 통계에 흥미를 느끼게 해야 한다.

기초통계 정도는 4년제 대학 학생이면 누구나 충분히  잘 배울 수 있고 사용할 수 있다. 통계를 포기하면 학생들이 좋은 직장의 절반을 포기해야 함을 명심하자. 

2) 초급 통계에서 가설 검증이나 회귀분석까지 다루지 않아도 될 것이다. 학생들 다수를 수업에 따라오게 하면서 한 학기에 그것까지 하기는 무리이다. 그래야 진도에 여유가 있다. 그리고 사실 현업에서 가설 검증나 회귀분석까지 하지 않아도 기술통계만으로도 업무를 충분히 멋지게 처리할 수 있다. 빅데이터 시대에는 특히 그렇다.

3) 매주 퀴즈를 시행한다. 퀴즈는 학생들이 꾸준히 공부하게 하는 방법이며, 또한 교수자가 학생들이 지난 주 수업을 잘 이해했는 지를 파악하는 효과적인 방법이기도 하다. 만약 다수의 학생이 전주의 수업을 이해하지 못했다고 판단되면 보충 수업을 해서 학생들의 이해를 끌어올려야 할 것이다.

수강생의 10%가 퀴즈에 실패하면 학생들 자신의 책임이 클 지 몰라도 수강생의 30% 이상이 퀴즈를 맞추지 못하면 교수자의 잘못이라고 판단하는 게 옳다. 철저히 준비해서 다시 가르쳐야 한다.

교수자 자신의 지식을 전달하는 것이 교육은 아니다. 교육은 학습자가 목표로 하는 지식과 능력을 습득했을 때 완성된다.  다수의 학생들이 교수자의 강의를 알아듣지 못하면 그것은 전적으로 교수자의 실패이다. 인터넷을 뒤져보면 통계를 쉽게 가르치는 데 보탬이 되는 자료가 수두룩하다. 선진국의 학교들에서 한 명의 학생이라도 더 알아듣게 하기 위해서 얼마나 다양한 자료를 사용하는 지 모른다.

통계 교육에서는 특히 시뮬레이션 방법이 효과적이다. 웹사이트나 유튜브에서 시뮬레이션 자료를 찾든 지 아니면 스스로 개발해야 할 것이다.

4) 테크니컬한 부분의 설명에만 그쳐서는 안된다. 학생들이 현실의 맥락에서 그것의 쓰임새를 인식하면서 수업에 임하도록 유도해야 한다. 학생들은 지식의 현실 적용가능성을 절실히 느낄수록 더 열심히 공부한다. 통계 수업에서 학생들의 학습 동기와 몰입은 크게 두 가지에 의해 좌우된다. 그것은 해당 지식의 필요성에 대한 인식지식 습득에 대한 자신감이다.

5) 기술통계를 제대로 활용하는 능력을 기르는데 정성을 기울여야 한다. 간단한 통계라도 정확히, 능숙하게 사용할 수 있게 해주어야 한다. 이상치(outlier)를 발견하는 박스플롯, 분포의 모양을 추정하는 히스토그램, 두 변수의 관계를 보여주는 산포도, 이동평균이나 기하평균, IQR, 사분위수, 백분위수, 확률변수, 확률분포, 조건부 확률, 베이즈 정리, 이산확률분포, 연속확률분포, 이항분포, 정규분포, 표준정규분포, z-값, 상관계수 등을 제대로 이해하고 현실 문제를 해결하는 데 사용할 수 있게 훈련시켜야 할 것이다.

6) SPSS나 SAS 같은 통계전용 프로그램 대신에 MS 엑셀을 사용하는 편이 다수의 학생들에게 도움이 될 것이다. 그리고 학생들이 엑셀 사용에 흥미 있어 한다는 사실도 중요하다. 교수에게 편한 도구가 아니라 학생들에게 유익한 도구를 채택해야 한다.

엑셀은 편리하고 유용할 뿐 아니라 SPSS로 할 수 있는 어떤 통계 분석도 가능하다. 마치 SPSS를 써야 전문적인 통계 분석을 할 수 있는 것처럼 행동하지 말자. 그것은 진실이 아니다. 엑셀에 추가 프로그램을 덧붙이면 모든 기초 통계 기법을 구현할 수 있다.

7) 학생들이 스마트폰 앱을 사용하는 방법에도 익숙하게 해주면 좋다. 엑셀, Probability Distributions 앱은 아주 유용하다. 학생들이 훗날 직장에서 바로 바로 통계 지식을 사용할 수 있으면 주위 동료나 상급자들에게 깊은 인상을 심어줄 수 있을 것이다.

클라우드 컴퓨팅 서비스와 스마트폰 앱만 잘 사용하면 즉시 업무에 관련된 공공 데이터를 불러와서 스마트폰으로 분석할 수 있다. 스마트폰에 모니터나 빔프로젝터를 연결하면 금상첨화이다.

8) 한편으로는 학생들이 초급 통계를 실제로 적용할 수 있게 훈련하고, 다른 한편으로는 학생들이 중급 과목을 잘 따라갈 수 있도록 기초를 다져주어야 한다. 조건부 확률과 베이즈 정리는 중급 이상에서 예측분석(predictive analytics)을 하는 데 필수적인 기초이다. 베이즈 정리에 확률분포만 결합하면 훌륭한 예측분석이 가능하다. 학률변수와 확률분포는 학생들에게 다소 어려운 주제이지만 좋은 사례들과 시뮬레이션 기법을 적절히 사용하면 효과적인 교육이 될 수 있다.

9) 끝으로 현실에서 가져온 연습 문제를 최대한 많이 풀어야 한다. 교수자에게 쉽지 않은 일이지만 학생들을 위해서는 생생한 실제 사례를 하나라도 더 소개해야 한다.  (윤영민, 2018-06-28)

확률변수와 확률분포(3)

이제 연속확률분포를 살펴보자. 확률변수가 실수이기 때문에 연속확률분포는 유형도 많고 적용 범위도 다양하다. 자주 사용되는 연속확률분포로는 균일확률분포(uniform probability distribution), 정규확률분포(normal probability distribution), 지수확률분포(exponential probability distribution),  분포( distribution),  분포(chi-squared distribution),  분포( distribution), 베타 분포(Beta distribution), 감마 분포(Gamma distribution), 멱함수 분포(power law distribution, Pareto distribution) 등이 있다.

균일확률분포는 단위 구간당 발생확률이 동일한 경우이다. 얼핏 보기에 그런 확률이 무슨 소용이 있을까 싶지만, 사실 아주 유용한 경우가 있다. 어떤 현상에 대한 정보가 매우 제한되어 있다면 그 현상을 균일확률분포로 가정할 수 있다. 어떤 현상에 대한 우리의 무지를 확률적으로 표현하면, 확률변수의 단위 구간당 발생 확률이 동일하다가 될 수 있다는 말이다. 균일확률분포는 베이지안 통계에서 매력적인 사전 확률분포(prior probability distribution) 후보이다. 지금까지 학교에서 주로 가르쳤던 빈도주의 통계학(frequentist statistics)에서는 별로 대우받지 못했던 균일확률분포의 위상이 베이지안 통계의 부상과  함께 달라지게 된 것이다.

표본값에서 모수를 추정하는 추리 통계학(inferential statistics)에서 정규확률분포가 차지하는 중요성이야 말할 나위도 없다. 표집분포(sampling distribution)가 정규분포를 이룬다는 점은 모수 추정을 가능하게 하는 핵심적인 이론적 근거 중 하나이다.

정규확률분포에서 확률변수를 표준화하면 표준정규확률분포가 된다. 아래는 정규확률밀도함수이다.

이 정규확률함수를  를 통해 를 로 정규화하면 평균이 0, 표준편차가 1인 표준정규확률밀도함수를 얻는다.

표준정규확률분포는 “bell curve”라고 불리며, 그것의 데이터 분포가 알려져 있다. 아래 그림에서처럼 어떤 현상이 표준정규확률분포를 이룰 경우 전체 데이터의 68.2%가 평균을 중심으로 1 표준편차 범위 내에 있으며, 전체 데이터의 95.4%는 2 표준편차의 범위 내에, 전체 데이터의 99.7%는 3 표준편차의 범위 내에 있다.

 

standard normal distribution에 대한 이미지 검색결과

이 밖에 통계적 추론에는 카이자승분포, t분포, F분포가 자주 사용되고, 베이즈 추론에는 베타와 감마 분포가 자주 사용된다. 그 분포들에 대한 설명은 생략한다.

예제를 하나 보자. 국내 대기업의 주식형 펀드에 대한 평균 수익률은 2009-2011년 3년간 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자. 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은?

해제:   (Probability Distributions app. 이용)

(윤영민, 2018-06-19)

확률변수와 확률분포(2)

앞 포스팅에서 확률변수가 무엇인지를 알아보았다. 이제 확률분포와 확률함수에 관해 살펴보자.

확률변수는 이산적 확률변수(discrete random variable)와 연속적 확률변수(continuous random variable)로 나눌 수 있다. 이산적 확률변수는 0, 1, 2, 3과 같은 정수의 값을 가지며, 연속적 확률변수는 소수점의 값을 포함하는 실수의 값을 가진다. 확률변수가 그 두 가지 중 어느 것에 속하는가에 따라 확률의 의미와 계산 방법이 크게 달라진다.

이산적 확률변수는 확률변수의 각 값이 발생 확률을 갖지만, 연속적 확률변수는 특정 값의 발생 확률은 0이다. 연속적 확률변수는 확률변수가 특정 구간에 속할 확률만을 계산할 수 있다.

예컨대 필자가 가르치는 사회통계 과목은 상대평가이다. 그 과목에서 어떤 학생이 A+를 받을 확률은 10%, A0를 받을 확률은 15%이다. 등급(letter grade)은 이산적 확률변수이다. 그러나 그 학생이 기말시험에서 90점을 받을 확률이나 80.5점을 받을 확률은 모두 0이다. 취득점수(score)는 연속적 확률변수이다. 만약 확률을 계산하고 싶으면,  90점 이상 받을 확률(), 80점 이상 90점 미만을 받을 확률() 처럼 확률변수의 구간을 정해주어야 한다.

이산확률변수은 확률변수의 확률과 확률분포를 생성하는 확률함수를 갖는다. 반면에 연속확률변수는 확률변수의 구간 확률과 확률분포를 생성하는 확률밀도함수(Probability Density Function, PDF)를 갖는다.

이산확률변수가 이루는 이산확률분포에는 이항확률분포(binomial probability distribution), 포아송 확률분포(Poission probability distribution), 초기하 확률분포(hypergeometric probability distribution), 기하확률분포(geometric probability distribution) 등이 있다. 

이항확률분포는 이항실험(binomial experiment)과 연관되어 있다. 이항실험은 네 가지의 특성을 갖고 있다. 

  1) 실험은 n개의 동일한 시행으로 구성된다.

  2) 각 실험은 두 가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.

  3) 성공 확률은 p이며 반복실험에서 변하지 않는다. 

  4) 각 실험은 독립적으로 행해진다.

위에서 1번을 제외한 세 가지 특성을 가진 실험을 베르누이 시행(Bernoulli Trial)이라고 한다. 베르누이 시행을 반복하면 이항실험이 된다. 이항확률함수는, 

    여기서  = n회 시행에서 성공의 횟수가 x일 확률; x = 성공횟수; n = 시행 횟수;  p = 각 시행에서 성공이 일어날 확률; 1-p = 각 시행에서 실패가 일어날 확률;

이항확률분포의 기대값과 분산

포아송분포는 이항분포와 성격이 비슷하나, 시행횟수 n이 크고, 사건의 발생(성공) 확률 p는 매우 작은 경우에 사용된다. 포아송 확률함수는,

여기서  = 구간에서 x회 발생할 확률; (람다) = 구간에서 발생횟수의 기대값 또는 평균(이다); 

포아송 분포의 기대값과 분산


초기하 확률분포도 이항분포와 관계가 있다. 성공할 확률이 매회 동일할 경우(상호 독립적인 사건)는 이항분포를 이용하고, 동일하지 않을 경우(상호 종속적인 사건)는 초기하분포를 이용한다. 즉, 같은 실험에서 복원추출을 하는 경우나, 표본추출을 하는 모집단의 크기가 무한한 경우는 이항분포를 사용하고, 비복원추출인 경우나 모집단의 크기가 작은 경우는 초기하분포를 사용하여 확률을 구한다.

기하확률분포는 단 한번의 성공을 위해 실패를 거듭해야 하는 경우에 사용한다. x-1번까지는 계속 실패를 하고, x번째에 비로소 성공할 확률은 다음과 같이 구할 수 있다.

몇 가지 사례를 보자.

(이항확률분포) 한 개의 동전을 4번 던졌을 때 앞면이 나오는 횟수가 2회일 확률은 얼마인가?

n = 4, x = 2, p = 0.5

실제 계산은 스마트폰 앱 Probability Distributions로 수행할 수 있다. 답은 0.37500 이다.

(포아송확률분포) 주중 아침 15분 동안 자동차를 탄 채로 은행 서비스를 받기 위해 창구에 도착하는 자동차 대수에 관심이 있다고 하자. 과거의 자료로 볼 때 15분 동안 도착하는 자동차는 평균 10대이라고 하자. 경영자가 15분 동안에 5대가 도착할 확률을 알고 싶어한다. 그 확률을 계산해 보자.

, x = 5.

(초기하 확률분포) 온타리오 전기는 전기 퓨즈를 생산한다. 한 박스에는 12개의 퓨즈를 넣는다. 검사자는 박스에 들어있는 12개의 퓨즈에서 무작위로 3개를 뽑는다. 박스에 5개의 불량품이 있을 경우 검사자가 3개의 퓨즈 중 불량품 1개를 뽑을 확률은 얼마인가?

N(모집단의 갯수) = 12, n(시행횟수) = 3, M(모집단에서 성공원소의 갯수) = 5, x(성공 횟수) = 1

(기하확률분포) 한 개의 동전을 던져서 앞면이 나올 확률은 1/2이다. 동전을 던질 때 다섯 번째 비로소 앞면이 나올 확률은 얼마인가?

(윤영민, 2018-06-18)

확률변수와 확률분포(1)

학생들에게는 ‘확률’이라는 표현이 다소 혼란스럽다.  사실 그것은 배우는 학생들이 아니라 통계학자들 때문이다.

확률은 때로 probability를 의미하고, 때로 random을 의미한다. 그 두 단어가 서로 밀접하게 관련되어 있지만 동의어는 아니다. 확률(probability), 확률 분포(probability distribution), 확률 함수(probability function)의 경우는 확률이  probability를 의미하고, 확률적(stochastic) 혹은 확률 변수(random variable)의 경우는 확률이 randomness(무작위)를 의미한다. 전자인 probability는 어떤 현상이 발생할 가능성을 표현한 수치이고, 후자인 random 혹은 stochastic은 우연적 혹은 무작위적이라는 뜻이다. 이러니 학습자들이 충분히 혼란스러워할만 하다.

우리가 어떤 현상을 확률적이라고 말하면, 그 현상이 우연적으로 결정되는 현상, 다시 말해, 인위적으로 결정될 수 없는 현상임을 의미한다. 동전 던지기나 주사위 던지기가 확률적 현상의 가장 흔한 사례가 될 것이다. 동전 던지기의 결과는 누군가의 의지나 기분 혹은 음모에 의해 결정되지 않는다. 주사위 던지기의 결과도 마찬가지이다.

확률 변수(random variable)에서 확률은 그런 의미이다. 수학에서 변수(variable)란 2개 이상의 값을 가질 수 있는 문자를 말한다. 변수는 흔히  등으로 표현된다. 변수의 반댓말은 상수(constant)이다. 상수는 하나의 고정된 값만 갖는 문자이다. 흔히 로 표시된다.

random variable에 대한 이미지 검색결과

그런데, 확률 변수는 특별한 속성을 지닌 변수이다. 즉, 확률 변수의 값은, 어떤 결과가 나올 지 정해져 있지 않은 어떤 과정–그것을 확률 과정(random process) 혹은 통계적 실험이라고 한다–을 통해 결정된다. 동전 던지기를 상상하면 된다. 때문에 확률 변수의 각 값은 특정한 확률을 갖고 있다. 예컨대 하나의 동전을 던졌는데, 앞면이 나올 확률(그것은 0.5이다), 혹은 두 개의 동전을 던졌는데, 두 개 모두 앞면이 나올 확률(그것은 0.25(0.5*0.5)이다)처럼 말이다.

여기서 두 개의 동전을 던지는 경우만 생각해 보자. 동전 던지기는 바로 확률 과정이고, 그 결과인 앞면의 갯수는 확률변수이다. 동전 던지기의 결과는 정해져 있지 않으면 누군가의 의지나 기분에 따라 결정되지 않는다. 그리고 앞면의 갯수(라고 하자), 즉, 확률변수의 값은 이다. 그리고 각 값은 특정한 확률을 갖고 있다.  앞면이 두 개가 나올 확률 는 0.25, 한 개가 나올 확률 은 0.5, 하나도 나오지 않을 확률은 은 0.25이다. 그리고 그 세 값의 확률을 더하면 1.0이다.

‘어떤 학생이 기말시험에 대비해 공부할 시간’은 변수이지만 확률변수는 아니다. 그것은 그 학생의 의지나 기분에 의해 좌우될 수 있기 때문이다. 어떤 자동차 세일즈맨이 하루에 파는 자동차 댓수는 확률변수일 것이다. 자동차의 판매 결과가 본인의 의지로 결정되지 않기 때문이다.

세상사에는 확률변수가 많다. 다시 말해 결과가 우연에 의해 결정되는 사회 현상이 많다. 그리고 사람들은 때로 우연에 희망을 걸기도 한다. 복권이 잘 팔리는 이유가 그 때문 아니겠는가. (윤영민, 2018-06-13).

조건부 확률, 곱셈법칙, 베이즈 정리(4)

(예제 3) 사십 대 여성이 정기 건강 검진의 일환으로 유방 엑스레이를 찍었다. 일주일 뒤 그녀는 유방암 검사 결과가 양성으로 나왔다는 통보를 받았다. 유방암에 관한 가족력도 없고 또 징후도 없는 그녀가 진짜로 유방암에 걸렸을 확률은 얼마일까? 

미국에서 사십 대 여성 1만명 가운데 대략 40명이 유방암을 가지고 있다(유방암 발병 확률은 40/10,000이다). 그리고 유방암 환자가 유방 엑스레이 검사에서 양성 반응이 나올 확률은 80%이다. 그러면 그 40명 가운데 32명이 양성 판정을 받는다(그 확률은 32/40이다). 또한 유방 엑스레이 검사에서 양성 반응이 나올 확률은 10%이다(그 확률은 1,000/10,000이다).

(풀이)

사건의 정의: B = 유방암 발병, P = 유방암 엑스레이 양성 결과

주변 확률:

조건부 확률: 

문제는  로 표시할 수 있다.

식 (1)의 우변에 있는 확률들의 값이 모두 있으므로 식 (1)에 대입한다.

이 결과를 말로 풀어 보면, 유방암 엑스레이 검사 결과가 양성이 나온 40대 여성이 실제로 유방암에 걸렸을 확률은 0.032, 즉, 3.2%밖에 되지 않는다.

 

(예제 4) 이메일의 스팸을 걸러내는 소프트웨어에는 베이즈 이론이 적용된다. 영어로 된 스팸메일에서 가장 많이 나타나는 단어가 shipping!이다. 스팸 메일 중 shipping!을 포함하는 메일의 비율은 0.051이고, 스팸이 아닌 메일에서 shipping!을 포함하는 메일의 비율은 0.0015이다. 그리고 많은 메일 중에서 10%가 스팸 메일이다. 만일 메일이 shipping!을 포함하고 있다면 스팸일 확률은? 만일 메일이 shipping!을 포함하고 있음에도 불구하고 스팸이 아닐 확률은? 만일 메일이 shipping!을 포함하고 있다면 스팸이라고 판명해야할까?

(풀이)

사건의 정의: Shipping = 메일에 shipping!이라는 단어가 포함됨, Spam = 스팸 메일

이 문제를 푸는 데 있어 첫번째 관문은, 여기서 “스팸 메일 중 shipping!을 포함하는 메일의 비율”이라는 표현을 확률적으로 정확히 번역해 내는 일이다. “그것은 “어떤 메일이 스팸일 때, 그 메일이 shipping!을 포함할 확률”로 번역된다. 아래와 같은 조건부 확률인 것이다.

조건부 확률: 

주변확률: 

원래의 문제는 다음과 같이 표시될 수 있다.

문제 풀이의 두 번째 관건은, 분모가 되는 shipping의 주변확률을 구하는 것이다. 주변확률은 관련된 결합확률들의 합이다. P(shipping)과 관련된 결합확률은 아래처럼 두 가지이다.

우변의 결합확률 각각을 곱셈법칙을  이용해서 주변확률과 조건부 확률의 곱으로 바꾼다.

이제 주변확률 을 구할 준비가 되었다.

위 식 (1)의 좌변에 해당 확률 값을 대입한다.

이 결과를 말로 풀어보면, 어떤 메일에 shipping!이라는 단어가 들어 있을 때 그 메일이 스팸일 확률은 0.7907이고, 스팸이 아닐 확률은 0.2093이다. 따라서 만약 어떤 메일에 shipping!이라는 단어가 들어 있다면 스팸이라고 분류하는 것이 좋을 듯하다. 그런 메일 중 약 80%가 스팸이기 때문이다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(3)

(예제 2) 서로 다른 두 납품업체(공급자 1과 공급자 2)로부터 원자재를 공급받는 제조회사가 있다. 현재 공급자 1로부터 65%의 원자재를 구매하고, 공급자 2로부터는 35%를 구매한다. 한편 그 동안 두 업체로부터 납품 받은 원자재의 품질은 아래와 같다.

 좋은 품질 비율(%)나쁜 품질 비율(%)
공급자 1982
공급자 2955

그런데, 제품 생산 과정에서 어떤 원자재가 불량으로 나타났다. 그 원자재가 공급자 1로부터 왔을 확률은 얼마이고, 공급자 2로부터 왔을 확률은 얼마인가?

(풀이)

사건의 정의: A1 = 공급자 1로부터 납품 받음, A2 = 공급자 2로부터 납품 받음, B = 나쁜 품질의 원자재, G = 좋은 품질의 원자재

이 문제는 데이터(정보)가 주변확률과 조건 사건의 조건부 확률(즉, 우도)로 제한되어 있기 때문에 결합확률표와 조건부 확률 공식을 사용하지 못하고 베이즈 정리를 이용해서 풀어야 한다.

이 문제 풀이의 첫 번째 관건은  표에 있는 데이터를 어떻게 해석할 것인가이다. 예컨대 공급자 1이 좋은 품질의 원자재를 납품할 확률은 98%이다. 이 진술은, 공급자가  1일 때(조건), 좋은 품질의 원자재일 확률(조건부 확률)이 0.98임을 말한다. [공급자가 1이면서 좋은 품질의 원자재를 납품할 확률(즉, 결합확률)을 의미하는 것이 아님에 유의. 실제로 결합확률이 그렇게 높이 나올 가능성은 거의 없음. 결합확률은 주변확률의 곱이기 때문이다.] 즉,

이 문제 풀이의 두 번째 관건은 주변확률, 를 구할 수 있느냐이다. 사실 베이즈 응용 문제에서, 분모에 들어가는 조건 사건의 주변확률을 구하는 것이 자주 풀이의 관건이 되곤 한다.

문제를 베이즈 정리 형식으로 표현해 보자. 어떤 원자재가 불량(나쁜 품질)일 때, 그 원자재가 공급자 1로부터 왔을 확률은 다음과 같이 표시할 수 있다.

우변에서 우리는, 임을 알고 있으니,  분모에 있는 B의 주변 확률을 구하면 된다. 주변 확률은 해당되는 결합확률을 모두 더한 값이다. 즉,

이다.

그런데 곱셈법칙에 의하면,

이 값을 식 (2)에 대입하면,

우리는 식 (2)의 우변에 확률값을 모두 알고 있다. 그 값들을 대입해서 를 구하자.

다시 식 (1)로 돌아가서 확률값들을 대입한다.

즉, 원자재가 불량일 때, 그것이 공급자 1로부터 왔을 확률은 0.426이다. 그렇다면 공급자 2로부터 왔을 확률은 1-0.426 = 0.574가 될 것이다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(2)

(예제 1) 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀 비율로 나타낸 자료이다.

 남자여자
승진28836324
승진 탈락672204876
9602401,200

1. 임의로 뽑힌 어떤 경찰관이 여성이다. 그가 승진할 확률은? 만약 그가 남성이라면 승진할 확률은?

2. 경찰관의 성별이 경찰관의 승진에 영향을 미친다고 생각되는가? 근거를 제시하시오.

(풀이)

사건의 정의: 여성 = F, 남성 = M, 승진 = P,  승진탈락 = N

이 문제의 경우 확률을 추정하는 데 필요한 데이터가 풍부하다. 때문에 조건부 확률 정리를 이용하여 문제를 풀 수도 있고, 베이즈 정리를 이용하여 문제를 풀 수도 있다. 두 가지 방법을 이용해서 풀고 결과를 비교해 보자.

먼저 주어진 데이터를 가지고 결합확률표를 구해 놓으면 효율적으로 문제를 풀 수 있다. 각 칸의 빈도를 경찰관 총수인 1,200으로 나누어 주면 다음과 같은 결합확률표를 얻는다.

 남자여자주변 확률
승진0.240.030.27
승진 탈락0.560.170.73
주변 확률0.800.201.00

결합확률

주변확률

이제 이 정보를 가지고 문제를 푸는 데 필요한 조건부 확률을 구할 수 있다.

1. 어떤 경찰관이 여성일 때 승진할 확률, 남성일 때 승진할 확률은 각각 아래와 같이 계산된다.

이 문제를 베이즈 정리를 이용해서 풀면 다음과 같다.

여기서 분자에 있는 를 모르기 때문에 조건부 확률 정리를 이용해서 그것을 먼저 계산한다.

이제 에 관해 풀 수 있다. (남성일 경우도 동일한 방법으로 계산할 수 있음)

(1)과 (2)를 보면 0.15로 같은 값임을 확인할 수 있다. 조건부 확률로 계산하면 간단한 것을, 베이즈 정리로 풀었더니 복잡하기만 하다. 만약 결합확률표를 구할 수 있으면, 이런 문제는 조건부 확률 공식만으로도 충분히 풀 수 있다. 그러나 만약 결합확률을 모르고 조건 사건의 조건부 확률[이것을 공산 혹은 우도(likelihood)라고 함]과 주변 확률을 아는 경우에는 베이즈 정리를 이용해서 계산한다.

2. 남성일 때 승진할 확률은 0.3이고, 여성일 때 승진할 확률은 0.15이니, 남성의 승진확률이 여성의 승진확률의 두 배이다. 경찰관의 성별이 승진에 영향을 주는 것으로 판단된다. 이 결론을 독립사건의 정리를 이용해서 도출할 수도 있다.

만약 경찰관의 성별이 승진에 영향을 미치지 않는다면, 승진의 주변확률(사전확률), 이 승진의 조건부 확률(사후확률),  혹은 과 같아야 한다. 즉,

그런데 곱셈법칙에 의하면,

여기서 이므로,

이다.

그리고 당연히 일 것이다.

두 사건이 상호 독립적일 때(mutually independent), 두 사건의 결합확률은 두 사건의 주변확률을 곱한 값이다. 경찰관 승진 자료를 가지고, 성별과 승진이 관련이 없다는 가정 아래 가상적인 결합확률표를 만들면 다음과 같다.

 남성여성주변확률
승진0.22(=0.8*0.27)0.05(=0.2*0.27)0.27
승진탈락0.58(=0.8*0.73)0.15(=0.2*0.73)0.73
주변확률0.800.201.00

표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.24이고, 표 3의 값은 0.22이다. 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 크다. 표 2와 표 3에서 의 값을 비교해 보면, 표 2의 값은 0.03이고, 표 3의 값은 0.05이다. 즉, 실제로 남자이면서 승진한 결합확률의 값이 성별과 승진이 상호 독립적이라는 가정 아래 도출한 결합확률의 값보다 작다.

남성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 높은 반면, 여성의 승진 확률은, 성차별이 없다는 가정 아래 예측된 승진 확률보다 낮다. 따라서 데이터는 경찰관의 승진에 성차별이 존재함을 시사하고 있다고 결론지을 수 있다. (윤영민, 2018-05-25)

조건부 확률, 곱셈법칙, 베이즈 정리(1)

상호 관련된(혹은 관련된 것으로 추정되는) 두 사건이 있을 때, 그 중 하나의 사건(사건 A라고 하자)이 발생하면 다른 하나의 사건(사건 B라고 하자)이 발생할 확률에 대해 이전(사건 A가 발생하기 전)보다 좀 더 잘 예측할 수 있을 것이다. 그러한 예측을 수학적으로 가능하게 해주는 지식이 조건부 확률, 곱셈법칙 그리고 베이즈 정리(Bayes’ Theorem)이다. 그 세 가지 법칙(혹은 정리)은 논리적으로 깊이 연관되어 있다.

다음과 같이 사건을 정의한다.

A: 사건 A의 발생, B: 사건 B의 발생

(조건부 확률) 사건 A의 발생 확률이 사건 B의 발생에 의해 영향을 받는다면, 두 사건의 발생확률 사이의 관계를 다음과 같이 나타낼 수 있을 것이다.

말로 풀어보면, 사건 B가 발생했을 때 사건 A가 발생할 확률–사건 A의 조건부 확률–은 사건 A와 사건 B가 동시에 발생할 확률–사건 A 와 사건 B의 결합확률–을 사건 B의 발생 확률–조건이 되는 사건 B의 주변확률–로 나눈 값이다.

(곱셈 법칙) 정리(1)에서 양변에 를 곱하고, 좌변과 우변을 이항하면 다음 결과를 얻는다.

말로 풀어보면, 사건 A와 사건 B가 동시에 발생할 확률–사건 A와 사건 B의 결합 확률–은 조건이 되는 사건 B가 발생할 확률과 사건 A의 조건부 확률의 곱이다.

(베이즈 정리) 확률의 교환법칙에 따르면,

그리고 우변에 곱셈법칙을 적용하면,

결합확률을 조건부 확률과 조건의 주변확률로 표현하기 위해 식(2)와 식(4)를 식(3)에 대입하면,

이 식의 양변을 로 나누면,

이 식이 베이즈 정리(Bayes’ Theorem)이다. 말로 표현하면, 사건 A의 조건부 확률은 사건 A의 발생 확률에 사건 B의 조건부 확률을 곱한 값을 조건 사건 B의 주변확률로 나눈 값이다.

이 정리는, 조건이 되는 사건 B의 발생을 기준으로 다르게 해석될 수 있다. 즉, 는 사전 확률(prior probability 혹은 간단히 prior)이며, 는 사후 확률(posterior probability 혹은 간단히 posterior)이다. 그리고 와 는 예측을 위한 데이터(혹은 정보)이다.

베이즈 정리는, 어떤 사건(여기서는 사건 A)과 관련된 사건(여기서는 사건 B)에 관한 데이터(혹은 정보)를 얻었을 때 그 사건(사건 A)에 대한 향상된 예측을 할 수 있게 해준다. 그 과정은  로 표현할 수 있다.

논의가 추상적이니 몇 개의 응용 사례를 가지고 조건부 확률, 곱셈 법칙, 베이즈 정리를 보다 구체적으로 살펴보자. (윤영민, 2018-05-25)

데이터를 다시 생각한다(2): 사회과학적 관점

어떤 사회 제도(social institutions)나 존재 이유와 내부 질서(혹은 구조)를 갖고 있다. 하나의 사회제도로서 과학—사회과학을 포함—도 그렇다. 과학의 존재 이유는 진리(truth)(다르게 표현하면, 지식, knowledge)의 탐구이며, 과학의 내부 질서는 주로 고유한 연구방법–다시 말해 과학적 지식이 생성되는 방법–에 달려 있다.

과학적 지식은 연역적 추론(deductive reasoning), 귀납적 추론(inductive reasoning), 혹은 유추(analogy)와 같은 방법으로 생성된다. 삼단논법에 보듯이 보편적 전제로부터 개별적 결론이 도출될 수도 있고(연역적 추론), 개별적 사실들로부터 일반적 원리를 끌어낼 수도 있으며(귀납적 추론), 한 사물이나 현상을 보고 다른 사물이나 현상에 대해 추측할 수도 있다(유추).

과학에서는 어떤 이론이나 가설도 경험적 검증을 거쳐야 지식으로 인정받게 된다. 가설(hypothesis)을 세우고(그것은 이론으로부터 도출될 수도 있고 선행연구의 발견으로부터 가져올 수도 있다), 관찰, 실험, 인터뷰 등 과학적이라고 인정되는 방법으로 데이터를 수집한 다음, 그것을 가지고 가설을 검증한다. 가설 검증 과정에서 연역적 추론, 귀납적 추론, 유추 등이 사용된다.

가설은 데이터에 의해 지지되거나(supported) 기각되며(rejected), 기각된 경우에는, 새로운 방법이나 새로운 데이터를 가지고 가설을 재검증하거나 가설을 수정하여 다시 검증하기도 한다. 가설이 한번에 검증되는 경우는 없으며 반복적인 검증을 통과해야 한다. 그런 의미에서 모든 이론과 가설–다시 말해, 지식–은 잠정적(temporary)이라고 말할 수 있다.

사회과학에서 연구자는, 먼저 연구 문제(research question)와 가설(hypothesis)을 가지며, 그런 다음 그것을 검증해줄, 현실을 대표한다고 믿어지는 데이터(data)를 구한다. 데이터란 사람, 집단, 사회현상 따위에 관한 사실(facts) 혹은 정보(information)를 말한다.

빅데이터 시대 이전까지 일반적으로 데이터는 연구자가 연구를 위해 의도적으로 수집한 것이었다. 연구 목적에 부합되도록 조사를 기획하고 실험, (참여) 관찰, 설문조사와 같은 방법을 통해서 데이터를 수집하였다. 사회과학에서 데이터란 그러한 데이터를 의미하였으며, 엄밀하게 계획되고 설계된 절차를 통해서 수집된 데이터만이 학문적으로 인정받을 수 있었다.

Image result for big data social science research

사회과학 연구에 있어 빅데이터가 제기하는 가장 근본적인 문제 중 하나는 데이터에 관한 그러한 전통적인 인식에 대한 것이다. 빅데이터는 데이터가 단순히 양적으로 증가했다는 의미를 넘어서 데이터가 질적으로 달라졌음을 함축한다. 이는 데이터가 무엇인가에 대해 다시 생각해보아야 하고 데이터의 학문적 타당성에 대해서도 다시 살펴보아야 함을 의미한다.

사회과학의 연구 대상은 개인, 집단, 사회조직, 사회제도, 사회적 상호작용, 사회운동, 혁명, 전쟁, 의례와 관행, 가치와 규범, 의식과 태도 따위이다. 과거에도 그랬고, 현재도 그러하며, 미래에도 그러할 것이다. 문제는 데이터가 ~에 대한 것을 넘어서 ~자체가 되었다는 사실이다(Purdam and Elliot, 2015).

예컨대 개인(individual)을 생각해보자. 과거에 개인 데이터(personal data)란 개인의 속성(attributes), 자산, 습관, 취미, 관심, 태도, 행동 등을 알려주는 고정적인 것이거나 상당히 안정적인 것이었다. 그리고 이름, 성별, 나이, 주소, 전화번호, 주민등록번호, 출생지, 직업, 가족관계, 소득, 교육수준, 종교, 국적, 병역 사항, 은행잔고, 부동산 소유 현황, 혈액형, 병력, 지지정당, 노조가입 여부, 지문, 흡연량, 음주량 따위가 개인 데이터였다.

그런데 인터넷, 스마트폰, CCTV, 센서 등 디지털 기술이 확산되면서 개인을 규정하는데 있어 훨씬 동적이며 가변적인 데이터가 추가되었다. 통화기록, 문자메시지 송수신 기록, 로그파일, 쿠키, 전자우편, 블로그, 트위터, 페이스북 같은 소셜 미디어상의 상호작용, CCTV 영상, 자동차 블랙박스 영상, 은행 ATM 사용기록, 인터넷 쇼핑 기록, 인터넷 뱅킹 기록 등 개인의 온라인 행동은 물론이고 오프라인 행동까지 실시간으로 기록되면서 엄청난 양의 데이터가 개인을 규정하는데 활용되고 있다.

Image result for personal data

개인의 일상이 광범위하게 기록되고, 그렇게 수집된 데이터로부터 개인의 생각을 추정하고 행동을 예측할 수 있게 됨에 따라 개인 데이터는 점점 개인 자체와 일치해 가고 있다. 더구나 개인은 자기 스스로가 생각하거나 주장하는 정체성(identity)이 아니라, 신용카드 이용처럼 일상 속에서 자신이 직접 생성하거나 생성에 동의한 데이터, 기계에 의해 모니터링된 데이터, 인터넷, 스마트폰, 자동화기계를 사용하면서 남긴 흔적 등에 의해 추정되거나 결정된 정체성에 의해 규정된다. 나는 더 이상 내 자신이 규정한 ‘나’가 아니라 개인 데이터를 기반으로 사회가 규정해준 ‘나’가 된 것이다. 그런 의미에서 개인은 데이터로 존재하고 살아간다고 말할 수 있다.

사회과학의 연구 대상 중 개인만 그러겠는가. 집단, 사회조직, 국가, 민족과 같은 사회적 행위자는 물론이고, 세계, 시장, 문화, 사회관계, 사회운동, 혁명, 전쟁, 갈등, 협력 등 어떤 사회현상에 있어서도 데이터는 그것에 대한 것이 아니라 그것 자체의 중요한 구성 요소가 되었다. 사회연구는 데이터의 이러한 새로운 성격을 충분히 고려해야 할 것이다.

그렇다면 빅데이터는 기존의 데이터와 어떻게 다를까? Laney (2001)는 빅데이터가 세 가지 차원에서 기존의 데이터와 구별된다고 지적했다. 첫째, 데이터의 양이 과거와 비교할 수 없을 정도로 크고(규모, volume), 둘째, 숫자, 문자, 영상, 동영상, 거래기록 등 데이터의 형식이 매우 다양하며(종류, variety), 셋째, 데이터가 대단히 빠르게 생성된다(속도, velocity). 물론 모든 데이터가 이 세 가지 속성을 모두 갖는 것은 아니다. 예컨대 CCTV 데이터는 실시간이고 대규모이지만 형식은 동영상으로만 되어 있으며, 인터넷 사이트 접속 로그 파일은 실시간이고 대규모이지만 형식은 숫자와 문자만으로 되어 있다.

Laney의 정의가 널리 알려 있기는 하지만 모든 연구자가 그의 정의를 취하지는 않는다. 연구자에 따라 빅데이터의 특정한 성격이 강조되기도 한다. 어떤 학자는 사건이나 상호작용이 발생하면서 바로 기록되는 실시간 데이터(real-time data)라는 점에 주목하고, 어떤 학자는 연구자의 개입 없이 발견되는 데이터(found data)라는 점을, 어떤 학자는 비정형 데이터(unstructured data)가 증가하고 있음에 주목하고, 또 어떤 학자는 데이터가 인간이 아니라 점점 센서(censor)에 의해 생성된다는 사실에 주목한다(Connelly et. al. 2016).

사회과학 연구의 관점에서 보자면, 전통적으로 사용되는 데이터와 최근의 빅데이터는 다음과 같이 대비될 수 있다. 전자가 의도적으로(intentionally) 생성된 반면 후자는 연구를 목적으로 생성되지 않는다. 그래서 어떤 전문가는 전자를 ‘기획된 데이터(designed data)’라고 부르고, 그에 대비해서 후자를 ‘유기적 데이터(organic data)’라고 부른다. 또한 어떤 학자는 전자를 ‘제조된 데이터(made data)’라고 부르고, 그에 대비해서 후자를 ‘발견된 데이터(found data)’라고 부른다.

Image result for big data's effects on social science research

Purdam and Elliot( 2015)은 데이터에 관한 체계적이고 유용한 분류를 제공해 준다. 그들은 데이터가 어떻게 생성되었는가에 따라서 다음과 같이 여덟 가지 유형으로 분류한다.

① 정통의 의도된 데이터(orthodox intentional data): 설문조사, FGI, 실험

② 참여적 의도된 데이터(participative intentional data): crowdsourced data

③ 결과적 데이터(consequential data): 행정기록, 전자의료기록, 상업적 거래 데이터, 온라인 게임 경기 기록

④ 자기 발간 데이터(self-published data): 긴 형식의 블로그 포스팅, 온라인 이력서, 온라인 프로필

⑤ 소셜 미디어 데이터(social media data): 트위터, 페이스북, 온라인 게임 대화

⑥ 데이터 흔적(data traces): 온라인 검색 로그 파일, 온라인 구매 로그 파일

⑦ 발견된 데이터(found data): 공개 공간(public spaces)에 대한 관찰

⑧ 인공 데이터(synthetic data): 시뮬레이션 데이터, 합성 데이터

Mayer-Schoenberger & Cukier(2013: 78)는, 오늘날 점점 인간 뿐 아니라 컴퓨터에 의해 분류되고 분석될 수 있도록 사회적 존재나 현상이 디지털화되고 계량화되는 현상을 데이터화(datafication)라고 불렀다. 책 속의 단어들이 컴퓨터가 읽을 수 있는 데이터가 되고, 사람이나 사물의 위치가 컴퓨터가 처리하는 데이터가 되며, 사람들 사이의 상호작용(예: 트위터, 페이스북)이 컴퓨터로 분석되는 데이터가 된다. 데이터화는 사회과학 연구에 있어 데이터의 유형만큼이나 다양한 데이터 출처가 존재하게 만들고 있다.

Image result for data in star trek

데이터 분석 및 마케팅 전문가인 Lynda Partner(2016)의 지적처럼, 어쩌면 이제 “데이터가 모든 것이고, 모든 것이 데이터”인 세상일 지도 모른다. 학자와 전문가들은 정보시스템, 데이터 시스템, 지식관리시스템, ERP, 가설 검증, 예측, 분류라는 응용적 측면에서 데이터를 바라보지만, 데이터는 이미 인문학적 사유의 대상으로 넘어가고 있는 지도 모른다. 이미 30여 년 전 TV 시리즈인 스타 트렉(Star Trek)은 ‘데이터’라는 출연 인물(?)을 통해서 그러한 가능성을 보여주었고, 20여 년 영화 매트릭스(Matrix)는 모든 것이 데이터로 존재하는 세상인 가상공간을 실감나게 보여주었지 않았던가.  (윤영민, 2018-03-05)

<참고 문헌>

Connelly, Roxanne, Christopher J. Playford, Vernon Gayle, and Chris Dibben. 2016. “The Role of Administrative Data in the Big Data Revolution in Social Science Research”, Social Science Research 59. Pp.1-12.

Laney, D., 2001. “3D Data Management: Controlling Data Volume, Velocity and Variety.” META Group Research Note 6.

Mayer-Schoenberger, Viktor and Kenneth Cukier. 2013. Big Data: A Revolution that will Transform How We Live, Work, and Think. Boston: Houghton Mifflin Harcourt.

Partner, Lynda. 2016. “Data is everthing, and everything is data.” https://blog.pythian.com/data-everything-everything-data/

Purdam, Kingsley & Mark Elliot. 2015. “The Changing Social Science Data Landscape”, Halfpenny, J. Peter & Rob Procter (ed.). Innovations in Digital Research Methods. Chap. 2. London: Sage. Pp.25-58.

사회통계(11): 확률분포

[문제 1] 재벌구조조정에 대한 한 신문사의 여론조사 결과 우리 국민들중 80%는 강도있는 재벌구조조정에 찬성, 그리고 20%는 반대하는 것으로 나타났다고 하자. 만일 임의로 5명이 선택되어졌을 때 3명이 반대할 확률은 얼마인가?(김은정, 2017: 52)(이항분포)

[문제 2] 어떤 응시자가 자동차 운전시험에 합격할 확률은 1/2이라 하고, 매 시험마다 일정하다고 할 때, 다섯 번째 비로소 합격할 확률은 얼마인가? 또, 처음으로 합격하는 횟수의 기대값은?(김은정, 2017: 57)(기하분포)

[문제 3] 주중 아침 15분 동안 자동차를 탄 채로 은행 서비스를 받기 위해 drive-through 창구에 도착하는 자동차 대수에 관심이 있다. 과거의 자료로 볼 때 15분 동안 도착하는 자동차는 평균 10대이고 포아송 분포를 따른다. 그렇다면 15분 동안에 5대가 도착할 확률은 얼마일까?(Anderson, et., al., 2016: 280)

[문제 4] 어떤 사거리에 다음 차가 도착하기까지 걸리는 시간이 평균 12초의 지수확률분포를 따른다.(Anderson, et., al., 2016: 328)

(1) 지수확률분포의 그래프를 그리시오.

(2) 다음 차가 도착하는데 걸리는 시간이 12초 이하일 확률은?

(3) 다음 차가 도착하는데 걸리는 시간이 6초 이하일 확률은?

(4) 다음 차가 도착하는데 걸리는 시간이 30초 이상일 확률은?

[문제 5] 서울 강남 소방서가 시간당 평균 1.6회의 119 전화를 받는다고 하자. 또한 시간 당 전화수가 포아송확률분포를 따른다고 가정하자. 119 호출 사이의 간격이 한 시간 이내일 확률은? (Anderson, et. al., 2016: 329 변형)(지수확률분포)

[문제 6] 국내 대기업의 주식형 펀드에 대한 평균 수익률은 2009-2011 3년간 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자. 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은? (Anderson, et., al., 2016: 321)

사회통계의 꽃은 역시 학률분포이다. 통계학자나 계량사회학자는 확률분포를 가지고 세상을 보려고 한다. 그런데 확률분포는 많은 사회과학 전공 학생들에게 넘사벽처럼 인식되기도 한다.

확률분포가 중요한 이유는, 우리가 관심을 갖는 어떤 사회현상의 확률분포를 알면 그 사회현상에 관한 다양한 사건(event)의 확률을 쉽게 예측할 수 있기 때문이다. 확률분포는 사회현상이 지닌 규칙성(regularity)을 효율적으로 표현한다.

앞 포스팅에서 확률분포의 특징을 보여주는 도구로 모멘트(moment, 적률)를 소개했다. 그런데 모멘트나 모멘트를 이용해 구성한 왜도나 첨도는 확률분포의 특징을 요약해주기는 하지만 그것만으로 확률분포를 완전하게 묘사할 수 없다. 확률분포는 다양한 모습을 가질 수 있다(아래 그림을 참조).

확률변수 X의 특정값이나 어떤 범위가 발생할 확률을 예측하려면 확률함수(probability distribution)을 알아야 한다. X의 확률분포는 확률함수 에 의해 정의되며, 확률함수는 확률변수의 값에 확률이 어떻게 부여되는지를 말해준다.

사회통계를 배우는 사람들에게 나쁜 소식은 이론적으로 무한한 수의 확률분포(확률함수)가 존재할 수 있다는 사실이며, 좋은 소식은 사회현상을 연구하는데 있어 20개 미만의 확률분포만 알고 있으면 된다는 사실이다.(확률분포의 종류를 보려면 여기를 클릭) 그 확률분포들은 자유도 같은 하이퍼 퍼라미터(hyper-parameter)에 의해 규정되는 많은 변종들을 가지고 있기 때문에 우리가 관심 갖는 대부분의 사회현상을 표현할 수 있다. 다음은 상대적으로 많이 사용되는 확률분포들이다.참고) Student’s t, Chi-squared, Beta, Gamma 분포의 확률함수에 보이는 는 계승(factorial)이 실수까지 적용될 수 있도록 일반화한 것으로 이해하면 되고, F 분포의 분모에 보이는 (베타함수)는 이항계수를 일반화한 것이라고 생각하면 된다.

확률분포를 생성하는 학률함수를 보고 겁먹을 필요는 없다. 수백년에 걸친 통계학자들의 노고 덕분에 확률분포를 수식으로 표현할 수 있게 된 점을 감사히 생각하고 잘 사용하면 된다. 각 분포들이 주로 사용되는 현상들이 무엇인지를 잘 판별하면(인터넷을 뒤져보면 금방 알 수 있음) 적절히 사용할 수 있을 것이다.

이중 정규분포가 가장 널리 적용되며, 통계적 추론에는 카이자승분포, t분포, F분포가 자주 사용되고, 베이즈 추론에는 베타와 감마 분포도 자주 사용된다. 이항분포, 포아송 분포, 지수 분포도 잘 기억해 두면 확률 추정에 유용하게 사용될 수 있을 것이다.

이항분포는 성공(이나 실패) 확률을 추정하는데 사용된다. 포아송 분포는 어떤 사건이나 현상의 단위 시간당 발생 횟수에 자주 적용되며, 지수확률분포는 어떤 사건의 발생 간격 혹은 어떤 사건을 완료하는데 걸리는 시간에 관한 확률을 계산하는데 적용되곤 한다. 단위 시간당 발생 횟수인 경우 포아송 분포, 그것을 발생의 시간 간격으로 바꾸면 지수확률분포가 적용되므로 두 분포는 서로 관련된다.

위의 문제들을 풀어보면 확률분포와 확률함수를 이해하는데 도움이 될 것이다. MS Excel에서 위에 제시된 대부분의 확률함수들이 주는 확률값을 계산할 수 있다. 미국 아이오아 대 통계학과의 Matthew Bognar 박사가 개발하여 제공하는 휴대폰 앱인 Probability Distributions (혹은 그의 웹사이트에서도 이용 가능함)을 이용하여 계산할 수 있다. 이 앱은 확률분포 그래프를 직접 보면서 확률값을 계산할 수 있다는 장점이을 가지고 있다.

<문제 풀이>

[문제 1]

[문제 2] ,

[문제 3]  . 대신 를 사용하기도 한다. 참고로 포아송 분포에서는 이지만, 지수분포에서는 이다.

(Probability Distributions app. 이용)

[문제 4] (1)

(2) 0.63065  (3) 0.39226 (4) 0.08291 (Probability Distributions app. 이용)

[문제 5] 전화가 걸려오는 평균 시간 간격은 60/1.6=37.5분,  (Probability Distributions app. 이용)

[문제 6]  (Probability Distributions app. 이용)

<참고 문헌>

Anderson, David R, Dennis J., Sweeney, Rhomas A. Williams (류귀열, 김창규, 최승은, 김민중, 이성철 역). 2016. <앤더슨의 통계학>. 한올.

김은정. 2017. <사회조사분석사 사회통계>. 학진북스.

(윤영민, 2017/09/11)