‘필암문화원’ 현판을 달다

드디어 ‘필암문화원’ 현판을 달았다. 비록 소박한 목표를 가지고 있지만 4년 전에 시도했다가 접었던 계획을 이제야 실천에 옮긴다.

온라인의 ‘윤영민의 정보사회학 글방’이 타이틀은 약간 다르지만 오프라인 대응물을 갖게 된 것이다. 지난 5년 동안 운영된 온라인 ‘글방’에는 하루 평균 100명 이상의 방문자가 있다. 비록 많은 수는 아니지만 적지 않은 사람들에게 나의 지식이 다소 도움이 되기 때문이라고 추측된다.

필암문화원의 1차적 활동은 강의와 출판이다. 대학교수로서 내가 평생 하던 일이다. 온라인과 오프라인에서 적어도 1주일에 1회 이상 강의와 출판을 해나갈 예정이다.

현재는 대학 e-러닝 기반 학점인정 컨소시엄에 3학점짜리 한 개의 강좌(‘정보사회학 입문’)을 진행 중에 있으며, 이번 학기에는 군 e-러닝을 포함해서 212명의 학생이 수강하고 있다.

출판 사업으로는 ‘윤영민의 정보사회학 글방’ 블로그에 1주에 1개 이상의 글을 게시하고 있다. 내년 봄학기에 빅데이터와 예측이라는 새로운 시대 환경에 걸맞는 사회통계학 과목을 온라인으로 개설할 예정인데 그 준비를 위해 블로그에 강의노트를 올리고 있는 중이다.

오프라인 활동은 아직 미정이다. 우선은 약간의 예산을 준비해 마을의 협동적인 활동을 지원하고, 코로나 19 사태가 종식되고 나면, 연간 몇 차례 초청 공연을 주최할 계획이다.

현재와 완전히 새롭거나 크게 달라지는 것은 없다. 그 동안 내가 개인적으로 하던 활동을 필암문화원이라는 조직이 하는 활동으로 바꿀 뿐이다. 필암문화원은 임의단체로 시작해서 몇 년 후에는 법인으로 만들 예정이다.

작지만 사회에 도움이 되는 시도가 되었으면 좋겠다.(2020-09-14)

평안 = 노동 free, 돈 걱정 free, 스트레스 free, 질병 free?

60대 중반이 되면 사람들이 앞서거니 뒷서거니 하면서 거치게 되는 인생의 단계가 은퇴이다. 어떤 사람은 오랫동안 은퇴 후의 삶을 준비하고 어떤 사람은 갑작스럽게 은퇴를 맞이하지만 누구도 은퇴를 피할 수는 없다.

그런데 흥미있게도 은퇴자들의 삶이 크게 다르지 않다. 여행을 좋아하는 누군가는 오랫동안 해외 여행을 가기도 하고(그나마 코로나 19 때문에 금년에는 그것이 옵션에서 빠졌다), 또 누군가는 부지런히 국내 여행을 다니기도 한다. 휴식이 필요했던 누군가는 실컷 잠을 즐기고, 원없이 영화를 보기도 하며, 사진 촬영, 악기 연주, 그림 그리기 등 미루어 두었던 취미생활에 빠지기도 한다. 물론 그것은 재정적이나 건강상의 여건이 뒷받침 되는 사람들의 경우이다.

게다가 은퇴자는 누구나 많은 적응을 요구받는다. 아주 운이 좋은 소수를 제외하곤 대다수의 은퇴자들은 크게 줄어든 재정 수입이나 불안한 재정 수입에 적응해야 하고, 무력감, 소외감, 박탈감, 혹은 외로움 같은 심리적 상태에도 적응해야 한다. 그리고 좀 왕성하게 사회활동을 했던 사람들은 타인에 의한 망각에도 익숙해져야 한다. 또한 재정적 어려움과 심리적 위축은 육체에도 부정적인 영향을 초래한다. 노화가 빨리 진행되어 신체적으로 여러 가지 징후가 나타난다. 은퇴자는 이러한 신체적 변화에도 적응해야 한다.

삶에서 생산적인 활동이 빠지면서 적지 않은 은퇴자들은 삶의 의미나 보람 혹은 사회적 위상에 위협을 느낀다. 직업적인 후퇴는 사회적으로도, 가정적으로도 무력감을 수반한다. 짐짓 아무 일도 없는 것처럼 예전 그대로 행동하기도 하지만 머지 않아 가족이나 이웃이 그런 행동을 받아주지 않게 된다.

그것은 정도와 진행 속도가 다르기는 하겠지만 누구나 거쳐가야 하는 적응 과정이다.  은퇴 후 그렇게 몇 달 혹은 몇 년의 적응 과정을 보내고 나면, 은퇴자들에게는 누구에게나 공평하게 매일매일 하루 24시간을 어떻게 보낼 것인가라는 과제가 안겨지고, 별다를 것 없이 반복되는 일상이 주어진다. 그리고 더욱 공평하게도 누구에게나 크고 작은 병들이 찾아온다.

은퇴 이후 안타깝게도 누구나 꿈꾸었던 평안한 노후가 결코 평안하지 않다는 사실을 발견하는데 그리 오래 걸리지 않는다. 매일 복용해야 하는 약의 종류가 늘어가고 먹지 말아야 할 음식이 늘어가며 자신이나 배우자가 덜컥 암 수술이라도 받게 되면, ‘평안’과 ‘안녕’을 새롭게 인식해야 하는 때가 찾아 온다.

은퇴 후의 평안은 그냥 아무일 없이 편히 쉬는 삶도 아니고, 돈 걱정이 없는 삶도 아니며, 스트레스 없는 삶도 아니고, 병이 없는 삶도 아니다. 그런 평안은 보험회사 광고에나 있을 뿐 현실에는 존재하지 않는다.

어쩌면 평안이란, 사회와 자신을 위한 얼마간의 노동, 사회 초년생의 벌이 밖에 되지 않는 작은 수입, 사회와 가족으로 인한 스트레스, 꾸준히 관리해야 하는 지병(들)이 함께 하는 일상 속에서 은퇴자 스스로 발견해야 하는 마음의 상태일지도 모른다. 그리고 이 중에서도 노동이야말로 은퇴 후 평안에 가장 중요한 요소가 아닌가 생각된다. 적당한 노동은 수입 문제, 스트레스 문제, 그리고 지병까지 어느 정도 해소해 주는 요소이기 때문이다.

문제는 산업 현장에서 적당한 노동의 기회를 찾기가 어렵다는데 있다. 특히 도시의 은퇴자들에게 개방된 일자리는 흔치 않다. 현대와 같은 노동절약적인 사회에서는 갈수록 노인에게 돌아가는 취업 기회가 줄어들 것이다.

그런데 발상을 바꾸면 어디에서나 생산적인 활동을 발견할 수 있다. ‘생산’이 꼭 돈벌이일 필요는 없지 않는가.

베란다에다 꽃을 가꾸고, 옥상에 채소를 재배하는 것도 생산적인 활동이며, 집안 일을 거들고 손주를 돌보는 것도 생산적인 활동이다. 길 앞 도로를 청소하고 공공 시설에서 자원 봉사를 하는 것도 물론 생산적인 활동이다. 주위를 돌아보면 생산적인 일이 천지이다. 돈을 받는 일이 드물 뿐이다.

나는 삼복 더위에 땡볕 아래에서 일주일이 멀다하고 뜰의 잔디를 깎는다.  그것을 보는 사람 열명이면 아홉이 나의 그런 행동을 이해하지 못한다. 땀을 비오듯이 쏟아가며 잔디깍이를 밀고 다니는 나의 모습을 안타깝게들 보는 것 같다.

그러나 사실 나는 잔디와 풀들에 감사한다. 환갑을 한참 넘긴 나를 누가 그렇게 잔인하게 부릴 수 있겠는가? 돌아서면 자라나는 잔디와 잡초 덕분에 나에게는 끝없이 일이 생긴다. 얼마나 고마운 일인가. 너무 힘들어지면 더욱 기계화를 하든지, 유료 인력을 써서 내 노동량을 줄일 것이다. 그러나 그 때가 올 때까지 나는 정원을 가꾸는 노동을 계속 할 것이다.

잘 가꾸어진 집과 정원을 보는 우리 가족은 물론이고, 이웃이나 지나가는 행인도 즐겁지 아니하겠는가. 그래서 잔디와 꽃나무를 가꾸는 일은 텃밭에 채소를 가꾸는 것 이상으로 생산적이다. 비록 그것으로 한 푼의 수입도 올리지 못하고 오히려 기계와 도구를 사는데 지출이 들어가지만 가드닝은 매우 생산적인 활동이다. 적지 않은 사람들에게 행복감을 주기 때문이다.

“이제 아무 일도 하지 말고 편안히 쉬세요!”라고 노인에게 말하는 것은 축복의 인사가 아니다. “너무 과하게 일하지 마세요!”라고 말하면 모를까. (2020-09-03)

확률분포(5): 지수분포

연속확률분포에서 두 번째로 지수확률분포에 대해 알아보자. 지수분포는 이산확률분포에서 공부한 포아송분포와 관련이 깊다. 그래서 포아송분포에 대한 복습 겸해서 지수분포를 두 번째로 선택했다.

포아송분포는 시간 구간 당 혹은 공간 구간 당 사건의 발생횟수에 대한 확률분포이며 일정성 조건과 독립성 조건을 갖는다고 했다. 그리고 포아송 분포의 퍼라미터는 이며, PDF는 아래와 같다. 는 구간당 발생횟수의 기대값(평균)이다.

아래와 같은 사례에 포아송분포가 적용될 수 있다.

  • 하루동안 발생하는 고속도로 교통사고 수
  • 하루에 찾아오는 환자의 수
  • 한 시간 동안 세차장에 도착하는 자동차의 수
  • 어떤 특정 진도 이상의 지진이 발생하는 수
  • 한 시간 내 스타박스의 드라이브스루 창구에 도착하는 자동차의 수
  • 일정 시간 동안 톨게이트를 통과하는 차량의 수
  • 한 시간 동안 사무실에 걸려온 전화의 수
  • 국도 1km 당 패인 구멍의 수
  • 단위 길이당 옷감의 흠집수

모두 확률변수가  시간 구간 혹은 공간 구간 당 사건의 발생 횟수이다. 그런데 지수분포는 사건이 발생하는 시간 간격 혹은 거리 간격이다. 사건의 발생 횟수는 0과 양의 정수이지만, 사건이 발생하는 시간이나 시간 간격은 0과 양의 실수가 될 것이다. 때문에 포아송 분포는 이산확률분포이고, 지수분포는 연속확률분포이다. 위에서 든 포아송 분포의 확률변수를 지수분포의 확률변수로 바꾸면 다음과 같다.

  • 고속도로 교통사고가 발생하는 시간 간격
  • 환자가 찾아오는 시간 간격
  • 세차장에 자동차가 도착하는 시간 간격
  • 어떤 특정 진도 이상의 지진이 발생하는 시간 간격
  • 어떤 특정량의 방사선을 DNA에 쬐었을 때 돌연변이가 발생하는 시간 간격
  • 스타박스의 드라이브스루 창구에 자동차가 도착하는 시간 간격
  • 차량이 톨게이트를 통과하는 시간 간격
  • 사무실에 전화가 걸려오는 시간 간격
  • 국도에 패인 구멍 사이의 거리 간격
  • 옷감의 흠집 사이의 거리 간격

확률변수 X가 지수(확률)분포를 따르면 다음과 같이 간략히 표기된다.

퍼라미터는 하나이다. 포아송 분포와 같다. 지수분포를 그래프로 나타내면 다음과 같다.

File:Exponential probability density.svg
By Skbkekas – Own work, CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=9508326

의 크기에 따라 PDF의 모습이 달라짐을 볼 수 있다. 가 작을수록 X 값이 증가할 때 확률밀도의 감소가 완만해진다.

확률변수 X의 지수분포는 다음과 같이 정의된다.

여기서 는 포아송 분포에서와 동일하게 단위 시간 당 평균발생횟수이다. , 는 시간 간격다. 지수분포의 모멘트는 아래와 같다.

지수확률함수 (2)를 가지고 X의 특정 구간에 대한 확률을 구하려면, 적분을 해야 하는 데 번거로운 과정을 생략하고 아래 누적확률함수(cumulative distributive function, CDF)를 사용하면 된다. CDF는 의 값을 준다. 즉, 확률변수 X가 어떤 특정한 값() 이내일(같거나 작을) 확률을 준다. CDF를 응용하면 확률변수 X가 어떤 값 이상일(같거나 클) 확률, 혹은 어떤 두 값 사이에 있을 확률을 모두 간단한 계산으로 구할 수 있다.

File:Exponential cdf.svg

By Skbkekas – Own work, CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=9508326

가 작으면, 확률변수 X 값이 증가함에 따라 값의 증가가 서서히 이루어짐을 볼 수 있다.

예제 1) 보스턴 소방서는 한 시간 당 평균 1.6번의 911 전화를 받는다. 시간당 전화수가 포아송 확률분포를 따른다고 가정하자.

1) 보스턴 소방서에 911 전화가 걸려오는 평균 시간 간격은?(단위:분)

2) 911 호출 사이의 간격이 한 시간 이내일 확률은?

3) 911 호출 사이의 간격이 30분 이내일 확률은?

4)  911 호출 사이의 간격이 5분 이상이면서 20분 이내일 확률은?

해제) 포아송 분포의 퍼라미터 가 1.6이다.

문제 1) 전화가 걸려오는 평균 시간 간격은

문제 2) 호출 사이의 간격이 한 시간 이내일 확률은?

문제 3) 호출 시간의 간격이 30분 이내일 확률은?

이 문제는 지수분포 PDF에서 에 해당되는 면적을 구하는 것이다. 아래 그림에서 주황색 부분의 면적이 이에 해당된다.

문제 4) 호출 시간의 간격이 5분 이상 20분 이내일 확률은?

여기서는 계산을 간략히 하기 위해 분으로 간격을 표시했기 때문에 람다 값이 0.0267이다. 1.6/60 = 0.0267.이 문제는  지수분포 PDF의 에 해당되는 면적을 구하는 것이다. 아래 그래프에서 주황색 부분이다.

예제 2) 어느 세차장에 들어오는 자동차가 한 시간에 평균 10대이다. 자동차가 들어오는 시간 간격이 5분 이하일 확률은?

해제) 시간 당 자동차가 들어오는 댓수는 포아송분포이고, 자동차가 들어오는 시간 간격은 지수분포이다. 여기서는 시간 간격을 물으니 지수분포가 적용된다. 문제에 람다가 시간 단위로 되어 있는데, 확률은 분 단위로 구해야 하기 때문에 람다 값의 환산이 필요하다. 환산하면 1분당 평균 0.1667 대가 세차장에 들어온다.

식 (5)에 을 대입하면,

지수함수는 엑셀에서 EXPON.DIST 함수로 계산할 수 있다. 이 문제의 경우 누적 확률 함수로 계산하면 되기 때문에 세 번째 퍼라미터가 TRUE로 선택되었다. 아래 그림을 참고하기 바란다.

예제 3) 어떤 사거리에 다음 차가 도착하기까지 걸리는 시간이 평균 12초의 지수확률분포를 따른다.

1) 지수확률분포의 그래프를 그리시오.

2) 다음 차가 도착하는데 걸리는 시간이 12초 이하일 확률은?

3) 다음 차가 도착하는데 걸리는 시간이  6초 이하일 확률은?

4) 다음 차가 도착하는데 걸리는 시간이 30초 이상일 확률은?

해제) 문제에서 주어진 정보가 차량 댓수()가 아니라 시간 간격()이다.  람다와 뮤의 관계는 아래와 같으므로 쉽게 변환된다. 엑셀에서는 포아송분포와 지수분포 모두 를 사용하므로, 엑셀을 사용해서 계산하려면 정보가 로 주어지면 로 변환해 주어야 한다.

문제 1) 엑셀을 가지고 그래프를 그려보자. 먼저 람다를 구한다. 그 다음 를 중심으로 X 값을 20-30개 정도 만든다. EXPON.DIST를 이용해서 f(X) 값을 구한다. ‘삽입’ 기능을 이용해 선(line) 차트를 플롯한다.

문제 2) 누적함수[식 (5)]를 적용해서 값을 계산한다.

엑셀에서도 동일한 값을 얻을 수 있다.

문제 3)

문제 4)

예제 4) 컴캐스트(Comcast)는 미국의 통신 회사이다. 고객에게 서비스 중단이 발생하면, 고객센터가 고장 신고를 받고 회사는 녹음된 메시지를 통해 서비스 중단 사실을 인지하고 있으며 서비스가 두 시간 이내로 복구될 것으로 예상한다고 알린다. 수리 시간은 지수확률분포를 따르며, 평균은 두 시간이라고 가정하자.

1) 케이블 서비스가 한 시간 이내로 수리될 확률은?

2) 수리가 한 시간에서 두 시간이 걸릴 확률은?

3) 오후 1시에 고객센터에 전화를 한 고객에게, 케이블 서비스가 오후 5시까지 수리되지 않을 확률은?

해제) 문제에서 주어진 정보가 가 아니라 이다. 로 변환하면, .

문제 1)

문제 2)

문제 3)

예제 5) 명동의 한 테이크 아웃 식당은 25분에 음식을 사갈 수 있다고 광고합니다. 고객이 가지고 갈 수 있도록 테이크 아웃 음식을 준비하는데 평균 25분인 지수확률분포를 따른다고 가정하자.

1) 테이크 아웃 주문이 20분 이내 준비될 확률은?

2) 고객이 주문하고 30분 후에 도착했을 때, 주문이 준비되지 않을 확률은?

3) 한 고객이 그 식당에서 15분 거리에 산다. 이 고객이 오후 5시 20분에 전화 주문을 한다면, 식당에 가서 주문한 음식을 테이크 아웃하여 오후 6시까지 집에 돌아올 수 있는 확률은?

해제) 이 문제에도 주어진 정보는 가 아니라 이다. 로변환하면, .

문제 1)

문제 2)

문제 3) 5시 20분 고객의 주문을 받자마자 음식을 준비하여 15분 후 고객이 식당에 도착할 때까지 테이크 아웃 음식 준비를 마치면, 고객은 5시 50분이면 집에 돌아올 수 있다. 그렇다면  6시까지 돌아오면 되니 식당은 25분 안에 음식 내보낼 준비를 마치면 된다. 결국 주문이 25분 이내에 준비될 확률을 묻는 문제이다.

이상으로 지수분포에 대한 설명을 마친다. 지수분포가 포아송분포와 긴밀하게 연관되어 있으며, 포아송분포는 단위 시간 당 발생횟수에 관한 확률분포이고, 지수분포는 시간 간격(혹은 걸리는 시간)에 관한 확률분포임을 기억해 두자. 또한 균일분포에 이어서 지수분포도 연속확률분포의 확률은 그래프 아래의 면적임을 보여주었다. (2020-09-02)

확률분포(4): 균일 분포

확률변수 X가 이산적(discrete)이냐 아니면 연속적(continuous)이냐에 따라 이산확률분포와 연속확률분포로 나뉜다. 이산적이란 {-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5}와 같이 X가 딱딱 떨어지는 것을 말하고, 연속적이란 X가 0과 5 사이의 실수와 같이 어떤 수들 사이에 무한 많은 수가 존재하는 것을 말한다.

이 두 가지 유형의 확률분포가 구별되는 가장 큰 차이는 PDF(확률함수)가, X가 유한하기 때문에 특정 값의 X에 대해 확률을 부여하는가, 아니면 X가 무한하기 때문에 X의 일정 구간에 대해 확률을 부여하는가이다. 확률변수가 유한하면 이산확률분포가 적용되고, 확률변수가 무한하면 연속확률분포가 적용된다.

이산확률분포에 관해서는 앞에서 이항분포, 포아송분포, 초기하분포에 관한 학습을 통해 충분히 익숙해졌으라 생각한다. 그 분포들에서는 확률변수 X가 특정한 값을 가질 때의 확률 값을 계산할 수 있었다.

연속확률분포에서는 확률변수 X가 실수(real number)처럼 소숫점 이하까지 나올 수 있기 때문에 이산확률분포와 같은 접근이 불가능하다. 몸무게, 키, 평균 성적 등을 상상해 보면 될 것이다. 그래서 연속확률분포에서는 특정한 X 값에 대한 확률은 항상 0으로 간주된다. 오직 X의 일정 구간에 대한 확률만이 존재한다. 예컨대 어떤 학생의 평균 성적이 90.5점일 확률은 0이다. 평균 성적에 대한 확률은 “어떤 학생의 평균 성적이 90점과 100점 사이일 확률이 얼마인가”와 같이 물어야 한다.

연속확률분포에서는 균일분포, 정규분포, 지수분포, 감마분포, 베타분포, t분포를 공부하겠다. 먼저 균일분포부터 알아보자.

균일확률분포는 확률변수의 특정 구간 사이의 확률이 일정한 확률분포를 말한다. 균일분포는 이산분포일 수도 있고 연속분포일 수도 있지만, 여기서는 혼란을 피하기 위해 연속분포를 중심으로 다루겠다.

우리가 흔히 학교에서 배우는 빈도주의 통계에서 균일분포는 별로 주목받지 못한다. 그러나 베이즈 통계까지 넣어서 고려한다면 균일분포는 충분히 관심을 가져야 할만큼 중요한 확률모형이다. 베이즈 통계에서, 분포에 대한 정보가 없을 때의 사전분포(prior)로 자주 사용되고, 연속확률분포를 설명하는데 이용되며, 실제 사회 현상에 대한 확률모형으로도 사용된다. 의심할 바 없이 균일분포에 대한 진지한 학습이 필요하다.

예를 가지고 균일분포에 대해 살펴보자. 확률변수 X는 서울에서 제주까지 운항하는 항공기의 비행시간을 가리킨다. 비행시간은 40분부터 60분까지의 구간에 있는 값이라면 어떤 값도 가능하다고 가정하자. 비행기가 이륙 후 40분만에 도착할 수도 있고, 45.1분만에 도착할 수도 있으며, 52분, 53.2분, 46.01분, 60분에도 도착할 수 있다.  확률변수 X는 이 구간 내의 어떤 값이든 취할 수 있으므로 연속확률변수이다. 실제 충분한 비행기록이 있어 검토해보니 특정 1분 구간 사이에 대한 운항시간의 확률이 40분부터 60분 사이의 어떤 다른 1분 구간의 확률과도 동일하다면, 확률변수 X는 균일확률분포(uniform probability distrbution)를 따른다고 말할 수 있다. 40분부터 60분 사이의 1분 구간의 확률이 모두 같기 때문이다. 확률변수 X가 균일확률분포를 따르면, 확률분포는 다음과 같이 표시된다.

확률변수 X의 균일확률분포는 수학적으로 다음과 같이 정의된다.

주석: PDF(확률밀도함수)를 표기할 때 가 더 형식을 갖춘 표기이지만 만으로 표기해도 무방하다. 라고도 표기된다. 그것은 a와 b의 폐쇄 구간(closed interval)을 나타낸다. a는 상정한 구간에서 가장 작은 값이고, b는 가장 큰 값이다. 는 우리말로 ‘다른 구간에서는’이라는 뜻임. 수식 편집기에 우리말 입력이 되지 않아 영어로 표기했다.

균일분포 PDF의 모멘트(moment)는 다음과 같다.

기대값:

분산:

이 모멘트의 도출 과정은 적분 계산이 들어가 다소 복잡하므로 설명을 생략한다. 통계학자들에게 감사하며 정의를 잘 사용하면 될 것이다.

이 식들을 가지고 서울-제주 운항시간의 균일확률분포를 나타내면 다음과 같이 될 것이다.

확률밀도함수의 결과를 보면, 1/20은 1분 구간의 확률을 나타낸다. 만약 서울을 출발한 비행기가 40분에서 45분 후에 도착할 확률은 1/20 X (45 – 40) = 5/20 = 1/4 = 0.25. 즉, 0.25가 될 것이다. 그리고 40분에서 50분 후에 도착할 확률은 1/20 X (50 – 40) = 10/20 = 0.5, 즉, 0.5가 될 것이다. 또한 50분에서 55분 정도가 걸릴 확률은 1/20 X (50 – 55) = 5/20 = 0.25, 0.25가 될 것이다. 35분 이내에 도착할 확률은 물론 0이며, 65분 이후에 도착할 확률도 0이다.

위 그래프는 서울-제주 비행시간을 보여주고 있다. x축은 비행시간(X), y축은 확률 f(X)이다. 그런데 비행시간 40분부터 60분 사이의 확률은 모두 0.05이다. 그런데 이 값은 각 비행시간에 대한 확률값이 아니다. 정확히 그것은 비행시간 1분 구간에 대한 확률이다. 1분 구간의 확률이 40분부터 60분 사이에 동일하게 0.05라는 말이다.

연속확률함수에서 확률은 해당 구간의 면적이다. 예컨대 비행기가 45분과 50분 사이에 도착할 확률이 빨간색 직사각형의 면적이다. 직사각형의 세로는 0.05(1분 구간의 확률)이고, 가로는 해당 비행시간의 구간인 5분이다. 따라서 확률은 빨간색 직사각형의 면적인 0.05 X 5 = 0.25가 된다. 균일분포의 정의에 따라 40분과 60분 사이의 구간 밖에서 1분 구간의 확률은 0이다.

균일분포에 관한 예제를 풀어보자.

예제 1) 확률변수 X는 10과 20 사이에서 균일분포를 따른다.

1) PDF를 표기하시오.

2) 를 계산하시오.

3) 를 계산하시오.

4) 를 계산하시오.

5) 를 계산하시오.

해제)

문제 1)

문제 2) 0.1 X (15 – 10) = 0.5

문제 3) 0.1 X (18 – 12) = 0.6

문제 4)

문제 5)

예제 2) 대부분의 컴퓨터 언어는 무작위수(random numbers)를 생성하는 기능이 있다. 엑셀에서 RAND 함수를 사용하면 0과 1 사이의 무작위수를 생성할 수 있다. X를 RAND 함수를 사용해서 생성한 무작위수라고 하면, X는 다음의 확률밀도함수를 가진 연속확률변수이다.

1) 0.25와 0.75 사이의 무작위수를 생성할 확률은?

2) 0.30 보다 작거나 같은 무작위수를 생성할 확률은?

3) 0.6보다 큰 무작위수를 생성할 확률은?

4) 엑셀 워크시트의 50개 셀에 =RAND()를 입력하여 50개의 무작위수를 생성하시오.

5) 문항 4)에서 생성한 무작위수를의 평균과 표준편차를 구하시오.

해제)

문제 1) 1 X (0.75 – 0.25) = 0.5

문제 2)

문제 3)

문제 4) 5)

예제 3) Gallop Daily Survey는 연소득 $90,000이상인 미국인의 일일 재량지출의 평균은 하루에 $136이라고 밝혔다(USA Today, 2012년 7월 30일). 재량 지출에서 주택 구입, 차량 구입, 그리고 매월 정기적인 지출은 제외한다. X =하루당 재량 지출이라고 하자. 에 대하여 인 균일확률밀도함수가 적용된다고 가정하자.

1) 확률밀도함수에 대한 a와 b의 값을 구하시오.

2) 이 소득그룹에 속한 소비자가 $100에서 $200 사이의 재량지출을 가질 확률은?

3) 이 소득그룹에 속한 소비자가 $150 이상의 재량 지출을 가질 확률은?

4) 이 소득그룹에 속한 소비자가 $80 이하의 재량 지출을 가질 확률은?

문제 1) 문제 지문에서 주어진 정보는 평균, 즉, 기대값(이 $136이라는 것, 그리고 에 대하여 라는 것이다. 먼저

식 (1)과 식 (2)를 더 하면,

(3)을 (1)에 대입하면,

문제 2) 확률변수 X가  에서 인 균일분포를 할 때,

를 구하는 문제이다.  1$ 구간의 확률이 0.00625이니 $100(=200 – 100) 구간에서는 0.00625 X 100 = 0.625

문제 3) 1 – 0.00625 X (150 – 56) =1 – 0.5875 =0.4125

문제 4) 0.00625 X (80 – 56) = 0.15

예제 4) 미국 옐로스톤 국립공원의 올드페이스풀(Old Faithful) 간헐천은 91분마다 솟아오른다. 당신이 무작위로 그곳에 도착하고 20분을 기다린다면, 당신이 올드페이스풀이 솟구치는 모습을 볼 확률은?

올드페이스풀이 솟구치는 간격이 균일분포를 이룬다고 가정할 수 있다. 1분 구간에 올드페이스풀이 솟구칠 확률은 항상 1/91이다. 그렇다면 20분 구간에서 솟구칠 확률은 얼마인가를 묻는 질문이다. 1/91 X 20 = 0.2198이다.

예제 5) 확률변수 X가 32와 42 사이에 균일분포를 이룬다. X가 32와 40 사이에 있을 확률은?

이상으로 균일분포를 통해서 연속확률분포에 입문했다. 이산확률분포에서와 달리 연속확률분포에서는 PDF가 확률을 제공하지 않는다. 그것은 정확히 단위 구간에 대한 확률을 준다. 따라서 균일분포에서 확률변수가 특정 구간에서 발생할 확률을 구하려면, 단위 구간의 확률(그래프에서 세로에 해당)에 구간의 크기(그래프에서 가로에 해당)를 곱해서 해당 면적을 구했다. 즉, 연속확률분포에서는 면적이 확률이다.

어떤 사회 현상에 대한 정보가 부재할 때 균일분포를 가정하곤 한다. 그것은 다소 비현실적인 가정이기는 하지만 조사의 출발점으로서는 실용적인 가정이 될 수 있을 것이다. (2020-08-31)

확률분포(3): 초기하 분포

이항분포를 공부하면서 이항분포의 전제 조건들이 현실에서 충족되기 쉽지 않을 것이라는 생각이 든 독자들이 있었을 것이다. 성공확률이 일정하다는 조건도 그렇고, 시행이 독립적이라는 조건도 그렇다.

초기하 확률분포(hypergeometric probability distribution)는 그런 아쉬움을 채워주는 확률 모형이다. 이 분포에서는 성공확률이 일정하지 않아도 되고, 시행이 독립적이 아니어도 된다. 확률변수 X가 초기하 분포를 따르면 다음과 같이 표시된다.

N: 모집단의 크기    K: 모집단에서 성공 원소의 갯수    n: 시행 횟수(표본의 크기)

초기하 확률분포의 모양을 결정하는 퍼라미터가 이 세 개이다. 확률변수 X 는 표본 중의 성공 원소의 갯수()이다. 초기하 확률분포는 다음과 같이 정의된다.

: n 번 시행에서 x개가 성공할 확률(n 크기의 표본에 성공원소가 x개 포함될 확률)

식 (1)에서 분모 은 모집단 N개 중에서 표본 n개를 추출하는 방법의 수이고, 분자에서 는 성공원소 모집단 K개에서 x개를 추출하는 방법의 수이며, 는 실패원소 모집단 N-K개에서 n-x개를 추출하는 방법의 수이다.

초기하 분포의 수학적 정의가 상당히 복잡해 보인다. 그런데 사실 조합 기호가 들어가서 표기가 좀 복잡하게 보일 뿐 내용상으로는 오히려 다른 확률분포의 정의에 비해 단순하다. 좀 거칠게 표현하면, 성공원소추출 방법의 수와 실패원소추출 방법의 수를 곱한 값을 전체 표본의 추출방법의 수로 나눈 것이 초기하 분포의 확률함수이다.

초기하 확률분포의 기대값과 분산은 다음과 같다.

예제를 가지고 살펴보자.

예제 1) 온타리오 전기는 전기 퓨즈를 생산한다. 한 박스에 12개의 퓨즈를 넣는다. 품질 검사자는 박스에 들어 있는 12개의 퓨즈에서 무작위로 3개를 뽑아 검사한다. 박스에 5개의 불량품이 있을 경우 검사자가 뽑은 3개의 퓨즈 중 불량품이 1개 들어 있을 확률은?

해제) 이 문제에서는 불량품이 성공원소이다.

확률변수 X는 표본(n = 3) 중 성공원소의 갯수(x = 1)이다.  N = 12, K = 5. 이 값들을 식 (1)에 대입한다.

엑셀에서 초기하분포의 확률을 구하는 함수는 HYPGEOM.DIST이다.

위 표에서 f(1) = 0.477273이다. 앞에서 수작업으로 계산한 결과와 동일하다.

예제 2) 20장으로 된 한 묶음의 카드가 있다. 그중 6장은 붉은 카드이고 14장은 검정 카드이다. 비복원 무작위 추출로 5장의 카드를 뽑는다. 그중 4장의 붉은 카드가 뽑힐 확률은?

해제) 비복원 추출이니 시행별 확률이 일정하지 않다. 따라서 이항분포를 적용할 수 없고 초기하분포를 적용해야 한다.

퍼라미터: N = 20, K =6, n = 5          x = 4. 이 값들을 식 (1)에 대입하면 확률 f(4)를 구할 수 있다.

위 표에 보면, f(4) = 0.013544892이다. 수작업으로 계산한 확률값과 동일하다.

예제 3) 어떤 작은 선거구에 101명의 여성 유권자와 95명의 남성 유권자가 있다. 그 중 10명을 무작위로 뽑는다. 거기에 7명의 여성 유권자가 뽑힐 확률은? 

해제) 비복원추출이니 이항분포를 적용할 수 없고 초기하분포를 적용한다. 확률변수 X는 10명 표본 중 여성유권자의 수이다. 여성유권자는 0명부터 10명까지 뽑힐 수 있다.

퍼라미터: N = 196명, K = 101명, n = 10       x = 7. 이 값들을 식 (1)에 대입한다.

엑셀을 이용해서 확률분포, 기대값, 분산을 구해보자.

위 표에서 f(7) = 0.130396이다. 수작업으로 계산한 결과와 소숫점 다섯자리까지 일치한다.

예제 4) 코로나 19로 인해 많은 사람들이 온라인 쇼핑을 한다. 물론 코로나 19에도 불구하고 오프라인 쇼핑을 하려는 사람도 있다. 10명의 쇼핑객 중 7명은 온라인으로 쇼핑하는 것을 좋아하고 3명은 오프라인 쇼핑을 좋아한다고 가정하자. 그 10명 중 3명을 무작위로 추출하였다. 

1) 2명이 온라인 쇼핑을 좋아할 확률은?

2) 2명 이상이 온라인 쇼핑을 좋아할 확률은?

해제)  비복원추출이므로 이항분포 대신 초기하분포를 적용한다.

문제 1) N = 10, K = 7, n = 3, x =2을 식 (1)에 대입한다.

엑셀을 이용해서 확률분포, 기대값, 분산을 구해보자.

문제 2) 전체 확률에서 온라인 쇼핑을 좋아하는 쇼핑객이 한명도 뽑히지않을 확률과 한 명 뽑힐 확률을 빼면 될 것이다.  1 – 0.0083 – 0.175 = 0.8167(위 표 참조).

예제 5) 컴퓨터 부품회사 A는 수원과 파주 두 곳에 공장을 가지고 있다. 수원에는 40명의 종업원이, 파주에는 20명의 종업원이 있다. 10명의 종업원을 뽑아서 설문조사를 하였다.

1) 파주에서 근무하는 종업원이 한 명도 뽑히지 않을 확률은?

2) 파주에서 근무하는 종업원이 한 명 뽑힐 확률은?

3) 파주에서 근무하는 종업원이 두 명 이상 뽑힐 확률은?

해제) 설문조사는 비복원추출이므로 초기하분포를 적용한다. 확률변수 X는 10명 표본 중 파주 종업원의 수이다.

N = 60, K = 20, n = 10을 PDF에 대입한다.

수작업 계산은 생략하고 엑셀을 이용해서 확률분포를 구한다.

문제 1) 0.011243

문제 2) 0.072536

문제 3) 1 – 0.011243 – 0.072536 = 0.916221

이상으로 초기하 확률분포에 대해 알아보았다. 예제들을 통해서 초기하 분포가 이항분포를 보완하는 확률모형임을 알았으리라 생각한다. 이산확률분포에 대해서는 여기까지 공부하고 이제 연속확률분포에 대해서 알아보자. (2020-08-29)

확률분포(2): 포아송 분포

이산확률분포에서는 이항분포 다음으로 포아송 분포(Poisson distribution)가 중요하다. 포아송 분포는 단위 시간이나 단위 공간에서 무작위로 발생하는 사건의 발생횟수에 적용되는 분포이다. 포아송분포는 이항분포와 성격이 비슷하나, 시행횟수 n이 크고, 사건의 발생(성공) 확률 p는 매우 작은 경우에 사용된다. 확률변수 X가 포아송 분포를 따를 때 다음과 같이 표기한다.

다음의 두 가지 조건을 만족하면 발생회수라는 확률변수는 포아송 확률분포를 따른다.

1) 두 구간의 길이가 같다면 발생확률이 동일하다(일정성).

2) 어떤 구간에서 발생하거나 발생하지 않는 사건은 다른 구간에서 발생하거나 발생하지 않는 사건과 독립이다(독립성).

포아송분포는 수학적으로 다음과 같이 정의된다.

여기서  = 구간에서 x회 발생할 확률; (람다) = 단위시간당 평균발생횟수(기대값)(이다); (극한값 e)

위의 PDF에서 분모가 이다. 이는 발생횟수가 상당히 큰 수이면 가 0에 가까워지며, 그것을 무시할 수 있음을 시사한다.

포아송 분포의 기대값과 분산:

기대값과 분산이 동일하게 이다.

포아송 분포는 아래와 같은 다양한 현상에 적용될 수 있다. 그것의 적용 범위가 매우 넓은 확률 모형임을 알 수 있다.

  • 하루동안 발생하는 출생자 수 혹은 사망자 수
  • 하루동안 발생하는 고속도로 교통사고 수
  • 한 시간 내 찾아오는 방문객의 수
  • 하루에 찾아오는 환자의 수
  • 한 시간 동안 세차장에 도착하는 자동차의 수
  • 어떤 특정 진도 이상의 지진이 발생하는 수
  • 어떤 특정량의 방사선을 DNA에 쬐었을 때 발생하는 돌연변이 수
  • 검진한 환자 1만명 당 희귀병 환자의 수
  • 한 시간 내 스타박스의 드라이브스루 창구에 도착하는 자동차의 수
  • 일정 시간 동안 톨게이트를 통과하는 차량의 수
  • 한 시간 동안 은행에 다녀간 고객의 수
  • 한 시간 동안 사무실에 걸려온 전화의 수
  • 국도 1km 당 패인 구멍의 수
  • 어떤 책의 한 페이지에 존재하는 오타의 수
  • 일정량의 혈액 속에 있는 적혈구의 수
  • 단위 길이당 옷감의 흠집수

포아송 분포의 모양을 결정하는 퍼라미터는  하나이다. 아래 그림을 보면, 가 1일 때, 4일 때, 그리고 10일 때 확률분포의 모양이 크게 달라짐을 알 수 있다.

예제 1) 주중 아침 15분 동안 드라이브스루 뱅킹 서비스를 받기 위해 창구에 도착하는 자동차가 평균 10대라고 한다. 그렇다면 15분 동안에 5대가 도착할 확률은?

해제) 여기서 단위 시간은 15분이고, 확률변수 X는 15분 동안 창구에 도착하는 자동차 대수, 단위시간 당 평균은 10대이다. 단위시간에 발생하는 사건의 발생횟수에 관심을 갖고 있고, 단위시간 당 발생횟수(10대)가 일정하며, 어떤 단위 시간의 발생하는 사건은 다른 단위시간의 발생하는 사건과 독립적이므로 X는 포아송분포를 따른다.

공식 (1)에 = 10, X = 5를 대입해서 풀면,

즉, 15분 동안에 5대가 도착할 확률은 0.0378이다.

엑셀을 이용해서 확률분포를 구해보자. 기대값과 분산은 계산할 필요없이 10대이다[식(2) 적용]. 포아송확률분포를 구하는 엑셀 함수는 POISSON.DIST이다.

X(도착하는 자동차 대수)가 0에서 20대까지의 확률을 계산해 보았다. 위 표에서 X가 5일 때 0.0378로 위에서 공식을 사용해 수작업으로 한 계산과 동일하다. 흥미 있게도 그래프의 모양이 정규분포와 유사하다. 그래프의 무게 중심은 X =10(람다)이다.

예제 2) 우리나라의 에이즈 유병율이 0.04%이다. 에이즈 검사를 받은 사람 1만명 중 에이즈에 전염된 환자가 1명일 확률은?

해제) 여기서 확률변수는 검사 대상 1만명 당 에이즈 환자의 수이다. 관심 대상이 단위 집단 당 사건 발생 수이고, 단위 집단 당 발생횟수가 일정하고, 어떤 단위 집단과 다른 단위 집단 사이의 사건 발생은 독립적이므로 이 문제에는 포아송 분포가 적용될 수 있다. 퍼라미터 람다는 단위 집단 당 평균적인 에이즈 발병 횟수이므로, 에이즈 유병율이 0.04%일 때, 1만명 평균적 발생 에이즈 환자의 수()는 0.0004*10000 = 4(명)이다.

퍼라미터: (0.0004*10000); X = 1

엑셀을 이용해 확률분포를 구하면 아래와 같다.

예제 3) 도로를 새로 포장한 후 한달 동안 심각한 파손이 1km 당 평균 1개가 있다고 하자. 길이 3km에 파손 지점이 없을 확률은?

해제) 같은 길이의 어떤 구간에서도 파손이 있을 확률은 동일하고, 어느 한 구간에서의 파손 발생은 다른 구간에서의 파손 발생에 영향을 주지 않는다고 하면, 이 문제에 포아송 분포를 적용할 수 있다.

확률변수 X: 신도로 3km 당 파손 지점의 수

(3km 당 평균 파손 지점의 수) = 1*3 = 3

P(X = 0|3)?

위 표를 보면, X = 0일 때 발생확률은 0.0498이다.

예제 4) 미국의 국립 해양 및 대기 관리청(NOAA)에 따르면 콜로라도 주는 6월 평균 18건의 토네이도가 발생한다. 6월은 30일이 있다는 점을 기억하자.

1) 하루에 토네이도가 평균 몇 회 발생하는가?

2) 하루에 토네이도가 한 번도 발생하지 않을 확률은?

3) 하루에 토네이도가 한 번 발생할 확률은?

4) 하루에 토네이도가 두 번 이상 발생할 확률은?

해제) 이 문제는 하루라는 단위 시간에 발생하는 토네이도라는 사건의 발생횟수에 관심이 있다. 6월 중 일간 토네이도의 발생은 독립적이고,  그것의 확률은 일정하다고 간주될 수 있기 때문에 포아송 분포의 적용이 가능하다.

포아송분포를 수학적으로 계산하려면, (람다)를 알아야 한다. 람다는 단위시간 당 평균적인 발생횟수이다. 이 문제에서 단위 시간은 하루이다. 그런데 문제에 주어진 정보는 월 단위로 되어 있으므로 먼저 이것을 일 단위로 변환해서 람다를 구해야 한다. 그것에 대한 질문이 문제 1)이다.

1) 하루에 토네이도가 평균 몇 회 발생하는가? 18건을 30일로 나누면, 18/30 = 0.6(회). 즉,

2) 하루에 토네이도가 발생하지 않을 확률은? 이는 확률변수 X가 0일 확률을 묻는 질문이다. , X = 0를 PDF인 식 (1)에 대입한다.

3) 하루에 토네이도가 한 번 발생할 확률은? f(1)의 값을 묻고 있으므로,

4) 하루에 토네이도가 두 번 이상 발생할 확률은? 이 문제는 누적확률분포에 관한 것이다. 전체 확률 1에서 f(0)의 값, 0.5488과 f(1)의 값, 0.3293을 빼면 될 것이다.

엑셀을 이용해서 확률분포를 구해보자.

위 표에서 f(0) = 0.548812, f(1) = 0.329287이므로 앞에서 수작업으로 구한 결과와 일치함을 알 수 있다. 그래프를 보면, 토네이도가 대체로 하루에 한 번도 없거나 한 번 정도 발생하는 것을 알 수 있다. 토네이도가 간혹 하루 2회도 발생하지만 하루 3회 이상 발생은 거의 하지 않는 것으로 보인다.

예제 5) 어느 콜센터에 한 시간 동안 평균 36회 전화가 걸려온다. 

1) 5분 동안 전화가 2회 걸려올 확률은?

2) 15분 동안 5회 전화가 걸려올 확률은?

해제) 이 문제에서 관심사는 걸려오는 전화 횟수이다. 단위시간 당 걸려오는 전화 횟수가 독립적이고, 그것의 확률은 일정하다고 생각할 수 있으므로 포아송 분포가 적용될 수 있다.

문제 1) 여기서는 5분을 단위시간으로 볼 수 있으며, 확률변수 X는 5분 동안 걸려오는 전화 횟수가 된다. 그런데 우리에게 주어진 정보는 한 시간 동안 걸려오는 평균 전화 횟수 36회이므로, 람다는 36을 12(=60/5)로 나누면 구할 수 있다.

퍼라미터: ; X = 2

문제 2) 여기서는 15분을 단위시간으로 볼 수 있으므로, 확률변수 X는 15분 동안 걸려오는 전화 횟수가 된다. 그렇다면, 람다는 36을 4(=60/15)로 나누면 구할 것이다.

퍼라미터: ; X = 5

이상으로 포아송 확률분포를 살펴보았다. 포아송분포은 퍼라미터가 하나()인 분포이다. 람다는 단위시간 당 평균적 발생빈도이다. 그것만 알면 확률분포를 구할 수 있고, 따라서 당연히 단위시간 당 특정 발생횟수가 가진 확률값을 구할 수 있다. 이 정도는 기억해 두면 좋을 것이다. (2020-08-29)

확률분포(1): 이항확률분포

입문 수준의 베이즈 통계를 위해서 꼭 익혀 두어야 할 확률분포는, 이산분포에서 이항분포, 포아송분포, 초기하분포, 연속분포에서 균일분포, 정규분포, 지수분포, 감마분포, 베타분포, t분포 9개 정도가 아닌가 생각된다. 이 가운데 정규분포와 t분포는 빈도주의 통계에서도 꼭 알아두어야 하는 확률분포이다. 빈도주의 통계에서는 추가로 F분포분포를 익혀야 할 것이니, 전체적으로 보면 입문 수준의 사회통계에서 11개 정도의 확률분포를 익혀두면 충분하지 않을까 생각된다.

빈도주의 통계에서 정규분포, t분포, F분포, 분포를 모르면, 모수를 통계적으로 추정할 수 없다. 비슷하게 베이즈 통계에서 위에서 언급한 10개를 모르면, 베이즈 정리를 다양한 예측에 적용하기 어렵다. 베이즈통계에서 예측은 관찰된 데이터를 가지고 사전분포를 업데이트하여 사후분포를 추정하는 것이기 때문이다.

통계를 이용한 추정과 예측에서 확률분포가 차지하는 비중이 워낙 크기 때문에 확률분포에 대해 충분히 시간을 갖고 공부할 필요가 있다. 그래서 전에 확률분포에 관해 몇 개의 글을 올렸지만, 너무 간략히 소개했던 것 같아 다시 베이즈통계에 필요한 10개의 분포를 하나 하나 좀 더 쉽고 자세하게 설명해 보도록 하겠다.

먼저 이산확률분포부터 시작하자. 이항확률분포(binomial probability distribution)는 가장 대표적 이산확률분포이며 정규분포에 버금가게 중요한 확률분포이다. 실제 이항분포가 적용될 수 있는 사회현상이 많기도 하다.

이항확률분포는 이항실험(binomial experiment)과 연관되어 있다. 이항실험은 네 가지의 특성을 갖고 있다. 

  1) 실험은 n개의 동일한 시행으로 구성된다.

  2) 각 시행은 두 가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.

  3) 각 시행에서 성공 확률은 p이며, 성공 확률은 반복 시행에서 변하지 않는다. (성공확률 불변 조건)

  4) 각 시행은 독립적으로 행해진다. (독립시행 조건)

위에서 1번을 제외한 세 가지 특성을 가진 실험을 베르누이 시행(Bernoulli Trial)이라고 한다. 베르누이 시행이 n회 반복된 실험이 이항실험이다. 

수업에서 가장 흔히 드는 이항실험의 사례는 동전 던지기이다. 동전을 던져서 특정한 면이 나오는 실험이다. 예컨대, 100원 주화를 다섯 번 던져서 앞면(이순신 장군 얼굴)이 나오는 횟수를 세는 실험은 이항실험이다. 실험은 5회의 동일한 시행으로 구성되며, 각 시행은 앞면과 뒷면의 두 가지 결과를 가지고, 각 시행에서 앞면이 나올 확률은, 정직한 동전이라면, 0.5이며, 그것은 반복 시행에서도 달라지지 않는다. 따라서 이항실험 조건을 충족한다. 그리고 동전 던지기 실험에서 앞면이 나오는 횟수는 이항확률분포를 갖는다.

이항실험의 예를 더 들어보자.

예제 1) 한 개의 주사위를 5회 던질 때 1의 눈이 2회 나올 확률은?

주사위는 육면체이고 여섯 개의 숫자로 되어 있지만, 이 실험에서 던질 때마다  1이 나오거나(성공) 1이 아닌 다른 수가 나오는(실패) 두 가지 결과밖에 없다. 주사위가 정직하게 만들어져 있다면, 1이 나올 확률(성공확률)은 1/6이고, 성공확률은 모든 시행에서 동일하게 1/6이다. 그리고 각 시행은 상호 독립적이며, 실험은 다섯 번의 시행으로 구성된다. 따라서 이 실험은 이항실험 조건을 충족하며, 일정 횟수만큼의  반복적인 주사위 던지기에서 1의 눈이 나오는 횟수는 이항확률분포를 갖는다.

예제 2) 어느 공장에서 생산되는 제품의 5%가 불량품이다. 이 제품 10개를 검사하였을 때 2개가 불량품일 확률은?

좀 이상하게 들리기도 하겠지만, 불량품이 나오는 결과는 기대하는 사건이 발생했다는 의미에서 확률적으로 성공이라고 간주될 수 있으며, 그 성공확률은 0.05이다. 각 제품의 생산은 하나의 시행이 되며, 매 시행에서 성공확률은 0.05이다. 각 제품의 생산은 독립 시행이며, 실험은 10번의 독립 시행으로 구성되어 있다. 따라서 이항실험 조건을 충족하며, 이 제품 검사에서 불량품의 갯수는 이항확률분포를 갖는다.

예제 3) 코로나 19로 인한 국가 위기에서 2차 긴급재난지원금을 지급해야 하는가에 대한 한 언론사의 성인 대상 여론조사(응답자 1,000명)에서  80%의 응답자가 찬성을, 20%의 응답자가 반대하는 것으로 나타났다. 만일 임의로 성인 10명을 선정했을 때 6명이 찬성할 확률은?

응답자에 관한 다른 정보가 없다면, 어떤 응답자가 찬성이라고 응답할 확률(성공 확률)은 0.8이며, 그것은 그 여론조사에 참여한 모든 응답자에게 동일하다고 가정될 수 있다.  그리고 각 응답자의 응답은 독립 시행으로 간주될 수 있으며, 임의로 10명을 뽑아서 동일한 질문을 물었을 때 찬성한 사람의 수를 구하는 것은 이항실험이며, 찬성한 사람의 수는 확률변수이다. 그리고 그 확률변수는 이항확률분포를 갖는다.

예제 4)  어떤 양궁 선수가 화살을 쏘았을 때 명중할 확률이 0.6이라고 한다. 이 선수가 7번 화살을 쏘았을 때 몇 번이나 명중할까?

현실에서 양궁 선수가 화살을 여러 차례 쏠 경우, 어떤 시행에서 화살의 명중확률은 이전에 쏜 화살이 명중했는가 아닌가에 따라 영향을 받게 될 것이다. 앞선 시행의 결과에 의해 대부분의 선수들이 심리적 영향을 받을 것이기 때문이다.

그런데 다소 비현실적이기는 하지만 앞선 시행 결과의 영향이 없다고 가정하면 독립시행으로 간주될 수 있다. 여기서는 그렇게 가정하자. 그럴 경우 명중(성공) 확률은 0.6으로 일정하다. 이 선수가 7번 화살을 쏜 것은 7번의 독립시행으로 간주될 수 있을 것이며, 명중(성공) 횟수는 확률변수이고, 그것은 이항확률분포를 이룰 것이다.

예제 5) 어느 회사원이 승용차로 출근하는 길에 신호등이 5개 있다고 한다. 각 신호등에서 빨간불에 의해 신호 대기할 확률은 0.2이고, 각 신호등에서 신호 대기 여부는 서로 독립적이라고 가정한다. 어느 날 이 회사원이 5개의 신호등 중 1개의 신호등에서만 신호대기에 걸리고 출근할 확률은?

각 신호등에서 빨간불에 의해 신호 대기할 확률(0.2)은 성공 확률로 간주될 수 있고, 신호등 통과는 독립시행이며, 여러 개의 신호등을 통과하는 데, 몇 번이나 빨간불에 걸리는가는 하나의 이항실험이 될 것이다. 그리고 빨간불에 걸리는 횟수는 확률변수이며, 일정한 갯수의 신호등을 통과하는데 있어 빨간불에 정지당하는 횟수는 이항확률분포를 이룰 것이다.

현실에서 이항분포는 공산품 제조에서 불량품 예측, 영업사원의 제품 판매 예측, 통신망에서 신호의 전달(혹은 실패) 예측, 도로의 분기점에서 자동차의 선회 방향 예측, 임직원의 통근 방법 예측 등 시행의 결과가 두 가지로 나오는 사회 현상에 광범위하게 적용될 수 있다. 이항실험 조건을 충족하는 사회 현상이 많기 때문이다. 더구나 주사위의 예에서 보듯이 시행의 결과가 두 가지 이상일 때도 관심을 갖는 하나의 결과를 중심으로 보면 시행 결과는 항상 두 가지로 나누어 질 수 있다. 따라서 독립시행 조건과 성공확률 불변 조건을 추가로 충족하면 사회현상은 이항확률분포를 적용할 수 있다.

이항실험은 베르누이 시행을 n회 반복한 것이고, 그렇게 해서 얻어진 것이 이항확률분포이다. 확률변수 X가 베르누이 분포를 따르면, 다음과 같이 표시된다.

여기서 B는 Bernoulli의 첫글자, p는 성공확률, 1-p는 실패확률이다. 이것을 일반화하는 함수로 표기하면,

여기서 . X =1은 성공, X=0은 실패.

기대값:

분산:

예컨대, 성공확률이 0.6인 베르누이 분포에서 성공할 확률은 PDF(Probability Density Function, 확률밀도함수: 이산분포의 경우 PMF, Probability Mass Function, 확률질량함수라고도 하지만 여기서는 그냥 PDF로 통일함)를 이용해 아래와 같이 구해진다.

실패할 확률은 아래와 같다.

확률변수 X의 기대값은 0.6, 분산은 0.24이다.

이항확률분포는 통상 로 표기한다. B는 Binomial(이항)의 첫글자이며, n은 베르누이 시행의 횟수, p는 성공확률이다. 확률변수 가 이항확률분포를 가지면 다음과 같이 표시된다.

이항확률분포는 다음과 같이 정의된다. 이항확률분포의 PDF는, 

여기서 는 n회 시행에서 성공의 횟수가 x일 확률; x = 성공횟수; n = 시행 횟수;  p = 각 시행에서 성공이 일어날 확률; 1-p = 각 시행에서 실패가 일어날 확률;

이항확률분포의 기대값과 분산은 다음과 같다.

이항확률분포의 기대값과 분산은 베르누이 분포의 기대값과 분산의 각 n배이다.

이항확률분포에 관한 정의를 가지고 위 예제들을 풀어보자.

예제 풀이

예제 1) 한 개의 주사위를 5회 던질 때 1의 눈이 2회 나올 확률은?

퍼라미터(parameter, 모수)가 n = 5, p = 1/6(0.17)인 이항분포에서 확률변수 X의 값이 2인, 즉, x = 2에 해당되는 확률을 구하는 문제이므로, 위에서 이항분포의 PDF인 식 (5)에 이 세 가지 값을 대입하면 된다.

문제에는 없지만, 한 개의 주사위를 5회 던질 때 1의 눈이 나오는 횟수를 확률변수 X라고 하고 X의 확률분포를 구해보자.

X는 0, 1, 2, 3, 4, 5를 값으로 가질 수 있을 것이다. 즉, 1의 눈이 한번도 나오지 않을 경우(X = 0), 1의 눈이 1회 나오는 경우(X = 1), 1의 눈이 2회 나오는 경우(X = 2), 1의 눈이 3회 나오는 경우(X = 3), 1의 눈이 4회 나오는 경우(X = 4), 그리고 1의 눈이 5회 나오는 경우(X = 5)가 있을 것이다. 확률변수의 각 값에 대한 확률은 다음과 같다.

기대되는 평균값(기대값)은 얼마일까?

이항분포의 기대값을 구하는 공식 (6)에 n = 5, p = 0.17을 대입하면 될 것이다.

이 기대값은 주사위를 5회 던졌을 때 1의 눈이 나오는 횟수가 평균 0.85회 정도라는 의미이다.

분산은?

공식 (7)에 n = 5, p = 0.17, 1-p = 0.83을 대입하면 구해진다.

아래는 MS 엑셀에서 확률분포, 기대값, 분산을 구하고, 확률분포를 그래프로 나타낸 것이다. 엑셀에서 이항확률분포를 구하는 함수는 BINOM.DIST이다. 공식을 이용해서 수작업으로 구한 결과와 엑셀 함수로 구한 결과가 일치한다. 그래프를 보면, 무게중심이 1의 약간 왼쪽에 있음을 알 수 있다. 그것이 기대값 0.85이다.

예제 2) 어느 공장에서 생산되는 제품의 5%가 불량품이다. 이 제품 10개를 검사하였을 때 2개가 불량품일 확률은?

퍼라미터: n = 10, X = 2, p = 0.05

확률변수 X : 10개 검사할 때 불량품의 갯수

엑셀을 이용해서 확률분포, 기대값, 분산을 구하면 다음과 같다.

예제 3) 코로나 19로 인한 국가 위기에서 2차 긴급재난지원금을 지급해야 하는가에 대한 한 언론사의 성인 대상 여론조사(응답자 1,000명)에서  80%의 응답자가 찬성을, 20%의 응답자가 반대하는 것으로 나타났다. 만일 임의로 성인 10명을 선정했을 때 6명이 찬성할 확률은?

이 문제에서 확률변수(X)는 찬성한 사람의 수이다. 퍼라미터는, n = 10, x = 6, p = 0.8. 이 값들을 PDF에 대입하면 답을 구할 수 있다.

엑셀을 이용해서 X의 확률분포, 기대값, 분산을 구하면 아래와 같다.

성공확률이 높으니 확률분포의 왼쪽 꼬리가 길다. 무게 중심은 X = 8에 있다.

예제 4)  어떤 양궁 선수가 화살을 쏘았을 때 명중할 확률이 0.6이라고 한다. 이 선수가 7번 화살을 쏘았을 때 몇 번이나 명중할까?

확률변수 X는 명중 횟수이다. 이항확률분포의 퍼라미터는, n = 7, p = 0.6 일 때 기대값(평균적인 명중 횟수)을 구하는 문제이다.

위에서 공식 (6)에 퍼라미터 값을 대입하면 된다.

즉, 예상되는 명중 횟수는 약 4번이다.

엑셀을 사용해서 확률분포, 기대값, 분산을 구해보자.

예제 5) 어느 회사원이 승용차로 출근하는 길에 신호등이 5개 있다고 한다. 각 신호등에서 빨간불에 의해 신호 대기할 확률은 0.2이고, 각 신호등에서 신호 대기 여부는 서로 독립적이라고 가정한다. 어느 날 이 회사원이 5개의 신호등 중 1개의 신호등에서만 신호대기에 걸리고 출근할 확률은?

이 문제에서는 빨간불 신호대기에 걸린 횟수가 확률변수 X이다. 이항확률분포의 퍼라미터는, n = 5, p = 0.2. 그리고 X = 1. 이 값들을 PDF에 대입하면 아래와 같다.

엑셀을 이용해 확률분포, 기대값, 분산을 구해보자.

빨간불 신호대기에 걸릴 평균적인 횟수(기대값)는 한 번이다. 그래프에서 무게중심도 1임을 알 수 있다.

이상으로 이항(확률)분포에 대한 설명을 마친다. 이항분포의 특성 중 두 가지를 첨언한다면, 이항분포에서 시행 횟수(n)이 크고, 성공확률(p)가 작으면 다음에 살펴 볼 포아송 분포가 되고, 이항분포의 시행 횟수가 많아지면 정규분포에 가까워진다. 그리고 성공확률이 0.5이면, 확률분포 그래프가 기대값을 중심으로 좌우대칭이 된다.

이항분포의 중요성은 아무리 강조해도 부족하다. 확률과 베이즈통계를 위해서는 꼭 기억해 둘 필요가 있다. (2020-08-28)

박 시장….

박원순 서울시장이 극단적 선택을 했다. 아직 믿기지 않는다.

일생동안 내가 또래 중 유일하게 존경하던 사람이었다. 몇 번 회의를 같이 했을 뿐 개인적 친분이 있는 것은 아니었지만, 그가 황무지였던 우리나라의 시민운동에서 세운 업적은 실로 컸기 때문이었다. 그는 풍부한 아이디어, 탁월한 업무 추진력, 그리고 높은 도덕성을 지닌 사람이었다.

그가 서울 시장을 출마하며 정계에 뛰어 들었을 때, 그의 결정이 다소 아쉬웠지만 그래도 나는 그의 선택을 존중하고 그의 능력이 서울시 발전에 크게 기여할 것임을 믿어 의심치 않았다. 박 시장은 충분히 그런 능력을 갖춘 사람이었다.

그런데, 그가 앞장 서서 타파하려 했던 잘못된 사회 관행에 그 자신이 빠져버렸던 모양이다. 너무 안타깝다. 피해자가 있다면 그에게 위로를 보내고, 세상을 등진 박 시장에게도 애도를 표한다.

오늘 오래 오래 기억될 인물 중 한 명이 역사의 무대에서 퇴장했다. (2020-07-10)

귀촌단상(3): 소독

어제 늦은 오후 누군가가 오토바이를 타고 마을에 소독약을 뿌리고 있었다. 길에 나가보니 비닐 하우스를 하는 영관씨였다. 이장이 소독약과 기름을 타면 그것을 오토바이 뒤에 실은 분무기에 넣어 마을을 돌아다니며 뿌리는 것이었다.

여름날 저녁 무렵에는 하루살이에 모기까지 가세하여 온갖 벌레들이 기승을 부리곤 한다. 그것을 잠재우는데 소독약이 효과가 있는 것 같다. 그런데 누군가 약을 뿌리는 수고를 해야 한다.

여름이 되면 마을 일에 헌신적인 몇몇 이웃들이 늘 그 일을 맡아 해준다. 얼마나 고마운지 모른다. 이장은 면사무소에 가서 소독약과 기름을 받아오고 이 사람 저 사람이 차나 오토바이에 분문기를 매달고 다니면서 약을 분사한다.

마을은 하나의 공동체이다. 주민들이 함께 힘을 합쳐 해야할 일들이 적지 않다. 눈치우기, 방재, 모정(시정) 수리, 당산나무 낙엽 치우기 등등. 전원에 살려면 그런 역할을 기꺼이 떠맡아서 해야 한다. 누가 시키지 않아도 눈치껏 열심히 참여해야 한다.

자기 집에만 쏙쏙 들락거리면 결국 외톨이가 된다. 외톨이로는 전원에서의 생존력이 현저하게 떨어진다. 생존력을 높이려면 이웃들과 협력하는 수밖에 없다. 그런데 그 협력이 어느날 갑자기 되는 것이 아니고 평소에 쌓아둔 정과 친분이 있어야 가능하다.

이웃들과 마을 일을 함께 하고 나서 막걸리 한 잔을 하는 것보다 더 기분 좋은 경우는 흔치 않다. 그것은 생존을 넘어서는 하나의 즐거움이다. (2020-07-09)

귀촌 단상(2): 산책

전원에 이사가면 논과 밭 사잇 길을 마음껏 걷고 싶었다. 중학교 시절 나의 가장 큰 즐거움 중의 하나는 이슬비가 내리는 날 흙내음을 맡으며 논이나 밭 가를 걷는 것이었다. 그러다 커다란 방죽이라도 만나면 금상첨화였다. 물 위에 떨어지는 빗방울들이 그림을 완성시켜 주었기 때문이다.

요즘 50여 전의 소망을 매일 실현하고 있다. 통상 3-4km를 걷고 어떤 날은 7-8km를 걷는다. 그냥 하릴없이 전원의 일부가 되는 느낌이 그만이다.

다행히 아내도 나만큼이나 산책을 즐겨서 함께 걸으니 더욱 좋다. 별로 대화가 많지는 않지만 수많은 대상을 함께 느낄 수 있어 좋다. 길가의 꽃이며, 나무며, 벌레나 동물, 그리고 달과 별을 함께 느끼고, 마주치는 이웃들과도 안부를 물으며 함께 인사를 나눈다.

전원에 산다는 것은 단지 전원주택에 사는 것이 아니라 그야말로 전원 속에 사는 것이다. 산책을 즐기는 사람이라면, 혹은 앞으로 산책을 즐기고 싶다면 집터를 선택할 때 집터나 마을 뿐 아니라 자신이 산책하게 될 공간을 살펴야 한다. 적어도 집 주위 100만평 정도는 돌아보고 산책이 가능한 지를 파악해야 한다.

하루에 한번 산책하는데 차나 자전거를 타고 근처의 공원에 가서 산책을 하면 되지 않나 하는 생각이 들기도 할 게다. 그런데 만약 하루에 두세번 나가서 걷고 싶다면 어찌 할 것인가. 대문 밖을 나서서 바로 걸을 수 있는 곳이 최고이다.

시골의 국도에서는 차가 쌩쌩 달리는데다 인도가 없어 산책이 거의 불가능하다. 또 산에 집터가 있다면 잘 생각해야 한다. 자신의 담력이 얼마나 큰 지. 시골은 밤과 낮이 완전히 다르다. 밤이 되면 집밖에 나다니기가 쉽지 않다. 잘못 하다간 집 안에 갇히게 된다. 산책 환경의 측면에서 공원 많은 도시만도 못한 시골도 드물지 않다.

산밑을 흐르는 시냇물을 따라서 난 오솔길을 걷는 로망이 충족되기가 싶지 않다. 첫번째 전원 생활 중 얼마 지나지 않아 나는 그 혜택을 잃었다. 집 주위에 대규모 개발이 진행되어 산책할 수 있는 공간이 사라져 버린 것이었다. 산과 들 대신에 군 연병장이나 학교 운동장을 걸어야 했다.

그래서 나는 형질 변경이 불가능한 문화재 보호구역으로 이사왔다. 이곳에는 아파트 단지는 물론이고 공장이나 축사도 세워질 수 없다. 물론 문화재로 지정되기 전에 있던 시설들은 그대로 있지만. 정부가 환경을 관리해 주니 주민인 내가 신경쓸 일이 별로 없다.

아내와 나는 하루에 두 번은 산책을 나간다. 집 바로 앞에 1만평 크기의 미니 공원이 있지만 그 정도는 걷는데 10분밖에 걸리지 않는다. 운동이 되려면 열 바퀴는 돌아야 하는데 같은 장소를 뱅뱅 도는 것은 참 지루한 일이다. 그래서 우리는 집을 중심으로 세 갈래 장거리 코스를 정해 놓고 매번 다른 방향으로 걷는다. 반복되는 일상이긴 하지만 그렇게 하면 좀 낫다.

오늘 아침에는 오른편쪽으로 4km 정도를 걸었다. 오후 늦게 비가 내리지 않으면 왼쪽편으로 4km 정도를 또 걸을 것이다. (2020-07-06)