Solitude의 우리 말 역어는?

한글은 세상에서 가장 어휘가 풍부한 언어로 간주된다. 한글로 번역되지 않은 영어 표현이 별로 없지만, 영어로 번역이 불가능한 한글 표현은 엄청 많다는 사실이 그것을 방증한다.

그런데 유독 ‘혼자 있음’에 대한 우리말 어휘는 상대적으로 매우 빈곤하다. 혼자 있음은 그냥 단순히 홀로 있는 객관적 상태를 가리킬 수도 있고, 혼자 있어 외롭고 쓸쓸하다는 심리 상태까지 포함할 수도 있으며, 그와 반대로 혼자 있어서 편안하고 즐겁다는 심리 상태까지 나타낼 수도 있다. 영어로 isolation, lonliness, solitude라는 표현이 그 상황들에 각각 대응한다. 그렇다면 우리 말로는 그에 상응하는 표현이 무엇일까? 고립, 고독, ??? 세 번째 solitude에 해당되는 우리 말 표현이 생각나지 않는다. 내가 과문한 탓인가?

나는 그것이 내 어휘 부족 탓이라기보다 혼자 있음에 관한 우리 말 표현이 발달하지 못한 때문이라고 생각한다. “고독을 즐긴다”는 표현이 있지만, 그 말은 사실 형용 모순이다. 고독이라는 어휘가 외로움과 쓸쓸함의 정서를 담고 있는데, 그것을 어찌 즐긴단 말인가. 고독을 즐긴다는 말은 번거로운 사람관계에서 벗어나 혼자 있음으로서 느끼게 되는 한적함과 평안함을 즐긴다는 의미일 것이다.

혹시나 우리 사회에는 집단의 일원이 되어야 한다는 사회적 압력, 그리고 ‘함께’ 살아야 한다는 강박관념이 존재하는 것이 아닐까? 그래서 적극적으로 고립을 선택하는 삶을 배격하는 것은 아닐까? 그리고 혼자 있음에 관한 표현의 빈곤은 바로 그런 사회적 배경 때문이 아닐까?

그야말로 1인 가구가 폭발적으로 증가하는 요즘같은 세상에 작가와 인문학자들은 혼자 있음에 대한 다양한 뉘앙스를 표현할 수 있는 새로운 어휘들을 발굴해주어야 할 것으로 생각된다.

나는 ‘고독사’라는 표현이 맘에 들지 않는다. 혼자 살다 죽는 것이 모두 외롭고 쓸쓸하게 죽는 것은 아니다. 그러한 죽음을 보는 사람들이, 기자들이 그렇게 감정이입하고 있을 뿐이리라. 고독사 대신  ‘고립 사망’ 혹은 ‘독사(死)‘, 아니면 그냥 ‘혼자 죽음’ 따위의 보다 중립적인 어휘로 바꿀 수는 없을까? 물론 그래봐야 혼자 있음에 대한 우리 사회의 선입견 혹은 편견이 지워지지 않겠지만 혼자 살다 혼자 죽는 현상에 대해 적극적은 아닐지라도 최대한 중립적으로 대해주면 안될까 하는 생각이 든다.

혼자 있다고 반드시 외롭고 쓸쓸하지 않다. 반대로 혼자 있어서 자유롭고 심지어 행복한 사람도 적지 않다. 제발 우리 사회가 그들의 삶을 마음대로 일방적으로 해석하지 않았으면 좋겠다.

일생동안 나는 혼자 있는 시간이 많았다. 학자라는 직업이 그러하고, 전원 생활이 그러하다. 30년이 넘는 직업 생활, 10년이 넘는 전원 생활이 모두 결혼 상태에서 보낸 세월이었지만 혼자 있는 시간이 많았다. 아내가 직장 생활을 하고 아이들은 일찍 집을 떠났으며, 직장이 먼 탓에 아내와 별도로 살림을 한 세월도 제법 길었다.

혼자 있음을 즐기지 못하면 좋은 학자가 되기 어렵다. 깊이 있게 그리고 집중적으로 생각하기 위해서 고립은 필수적이다. 연구실 혹은 서재에서 홀로 긴 시간을 충만하게 보낼 수 있는 사람이 학자에 적합하다.

혼자 있다고 폐쇄적인 것은 아니다. 미하일 바흐찐의 주장처럼 인간은 대화하는 존재이다. 사실 우리는 혼자 있어도 자주 대화한다. 자신 자신과도 대화하고, 인터넷이나 전화, 그리고 책이나 논문을 통해서 다른 연구자들과 소통하고, 이웃이나 친구와도 대화하고, 자연과도 소통한다.

학자는 그냥 적극적으로 혼자 있는 시간을 가지려 노력한다. 그것이 직업 생활에 필수적이기 때문이다.

그런데 그러한 적극적 고립을 어떤 어휘로 묘사할 수 있을까? 그것이 오늘 아침 내게 떠오른 의문이었다. (2020-10-19)

베이즈 통계(1): 서론

베이즈 통계에 입문할 때 사회과학도는 몇 가지 난관을 마주하게 된다. 배우고자 하는 사람 자신이 그것을 인식할 수도 있고 그렇지 못할 수도 있다. 필자의 경험으로는 후자가 많을 것 같으니 이 점을 확실히 지적해 두고자 한다. 특히 통계를 제법 많이 알고 있다고 자신하는 사람일수록 그 난관이 심각할 수도 있다. 그것은 기존의 사회통계와 베이즈 통계의 차이에서 기인한다. 그래서 빈도주의 통계와 베이즈 통계의 중요한 차이 몇 가지를 지적해 두고자 한다.

시작하기 전에 빈도주의자(frequentist), 베이즈주의자(Bayesian)라는 용어를 소개하겠다. 그것은 편을 가르기 위해서 나누는 것이 아니라 베이즈 통계를 명쾌하게 이해하기 위해서 필요하다고 생각되어 나누는 구분이다. 우리가 통상 사회통계 수업에서 배운 통계를 빈도주의(frequentist) 통계라고 명명하고, 지금부터 배울 통계를 베이즈 통계라고 부르겠다.

첫째, 베이즈 통계에서는 확률(probability)이라는 동일한 용어를 사용하지만 빈도주의 통계에서 사용하던 것과는 크게 다른 의미로 사용한다. 빈도주의 통계에서 학률이란 수학적으로 정의될 수도 있지만 보통 경험적으로 도출된다. 경험적 확률은 표본공간(sample space, 가능한 모든 결과)에서 우리가 관심을 갖는 사상(event)이 발생하는 빈도(frequency)의 비율로 계산된다. (그래서 빈도주의 통계 혹은 빈도주의 접근이라고 불리는구나 라고 생각해도 좋다.)

그런데, 베이즈주의자는 확률을 그보다 훨씬 다양한 의미로 사용한다. 그중 가장 널리 사용되는 의미는 어떤 사상(an event)의 발생 가능성에 대한 주관적인 믿음의 정도(subjective degree of belief)이다. 확률 개념에 객관적으로 계산된 빈도의 비율이 아니라 주관적인 믿음의 정도라는 의미가 추가되는 것이다.

그래서 무엇보다 사회통계에서 배운 좁은 의미의 확률 개념에서 벗어나야 한다. 그렇지 않으면 선험적 확률(a priori pobability), 사전적 확률(prior), 사후적 확률(posterior) 등과 같은 용어가 선뜻 수용되기 어려울 것이다.

둘째, 사회통계에서 베이즈 정리(Bayes’ theorem)라고 1시간 혹은 기껏해야 1주일쯤 다루고 넘어갔던 확률 법칙이 갑자기 한 학기 내내 배워야 하는 엄청나게 중요한 규칙으로 부상한다. 그러면서 확률분포가 매우 중요한 개념적 도구로 등장한다.

사회통계에서는 추리통계에 정규분포, t 분포, F 분포, 분포가 적용되지만 모수 추정이나 가설 검정 과정의 배경 정도로 사용될 뿐이다. 그 확률분포들에 대해 깊이 있게 이해하지 못해도 그것이 모수 추정이나 가설 검증에서 심각한 걸림돌이 되지 않는다.

그런데 베이즈 추론은 확률분포로 시작해서 확률분포로 끝난다고 해도 과언이 아닐 정도로 확률분포의 비중이 크다. 그래서 베이즈 통계에 입문하려면 확률분포부터 진지하게 공부해야 한다.

셋째, 추론(inference)의 의미가 다르다. 사회통계에서는 추론이란 모수 추정과 가설 검정이다. 즉, 표본 통계치(sample statistics)를 가지고 모집단의 평균을 추정하거나, 모집단의 평균에 대한 가설을 검정하는 것이다. 그렇게 해서 사회과학자들은 사회구조나 사회현상을 이해하고 사회 법칙을 발견한다. 표본통계치로부터 모수를 추론하는데 이론적 근거가 표집분포(sampling distribution)이다. 때문에 사회통계에서는 표집(혹은 표본추출)이 대단히 중요하다.

베이즈 통계에서 추론은 모수 추정이나 가설 검정보다 수치화된 예측 혹은 믿음이라는 의미로 더 자주 사용된다. 한 현상에 대해 우리가 어떤 믿음을 가지고 있는데, 새로운 데이터(증거)가 나타났을 때 그 믿음이 어떻게 달라질까(혹은 달라져야 하는가)가 베이즈 통계의 주요 관심사이다.

때문에 베이즈 통계에서는 선험적 믿음과 데이터(증거)라는 두 가지가 있어야 한다. 빈도주의 통계에서는 표본(통계치)과 모집단(모수)를 연결해주는 것이 표집분포 이론인 것처럼 베이즈 통계에서 사전확률(선험적 믿음)과 사후확률, 데이터와 예측을 연결해주는 것은 베이즈 정리이다.

넷째, 베이즈 통계는 빈도주의 통계와 달리 사회구조, 사회현상, 사회법칙 뿐 아니라 개인에 대한 예측에 사용될 수 있다.  예컨대 베이즈 통계는 어떤 중년 여성이 유방암 검사에서 양성 반응이 나왔는데, 그녀가 실제로 유방암에 걸렸을 가능성은 얼마나 될까 같은 의문에 대한 해답을 구하는 도구로 쓰일 수 있다.

다섯째, 베이즈 통계에서 데이터란 빈도주의 통계에서 말하는 의미의 표본 데이터일 수도 있지만 체계적으로 수집된 표본 데이터가 아닐 수도 있다. 그것은 다수의 데이터가 아니라 소수, 심지어 한 개의 사례일 수도 있다. 한 마디로 베이즈 통계에서는 데이터의 과학적 표집(표본추출)에 빈도주의 통계만큼 크게 의존하지 않는다.

베이즈 통계를 빈도주의 통계에 대치시키는 경우가 적지 않다. 통계학의 역사를 보면 충분히 이해할만한 현상이지만, 필자는 베이즈 통계가 빈도주의 통계를 대체하기보다는 확장한다고 생각한다. 베이즈 통계가 사회과학에 있어 통계의 쓰임새를 넓혀준다는 말이다. 유연하고 열린 마음으로 베이즈 통계에 접근한다면 그것은 우리의 과학적 도구 창고를 보다 풍부하게 만들어 줄 것이다. (2020-10-18).

결합확률분포, 주변확률분포, 조건부확률분포: 연속확률변수

앞에 게시한 세 개의 글(결합확률, 주변확률, 조건부확률: 이산확률변수결합확률분포: 이산확률변수주변확률분포, 조건부확률분포: 이산확률변수)은 이산확률변수에 집중했다. 이 블로그의 주요 독자인 인문사회학도의 수학적 배경이 약하기 때문에 연속확률변수까지 한꺼번에 논의하면, 수학적 부담이 장해로 작용하리라 생각되었다. 그래서 이산확률변수에 논의를 한정해서 결합확률분포와 조건부확률분포를 개념적으로 소개하는데 촛점을 맞추었다. 이제 개념적인 소개를 마쳤기 때문에 그 염려를 털어버리고 이산확률변수에서의 논의를 연속확률변수까지 확장해 보자. 그리고 앞 게시글 사회통계를 위한 미적분 복습에 기초 수학을 정리해 두었으니 필요한 독자는 참고 바란다.

확률변수 X와 Y가 있을 때, 결합확률밀도함수(joint pdf)는 다음과 같이 성질을 갖는다.

<X, Y가 이산확률변수인 경우>

(1) 

<X, Y가 연속확률변수인 경우>

(1) : 모든 x, y에 대하여 결합확률함수가 양의 실수이다. 결합확률함수는 확률이기 때문에 0보다 크다.

(2) : 특정한 영역(A)를 고려했을때, 그 영역에 대한 확률은그 영역에 대해 결합확률함수의 적분값을 구하면 된다. 그런데 변수가 두 개이므로 이중적분(혹은 중적분)을 해야 한다. 즉, 안쪽 변수인 x에 대해 먼저 적분하고 그렇게 해서 얻은 값을 다시 바깥쪽 변수인 y에 대해 적분한다.

(3) : X, Y 모든 범위에 대한 적분값은 1이다.

결합누적확률밀도함수

결합누적확률밀도함수(joint cdf)는 아래와 같다. 결합누적확률밀도함수는 대문자로 표시한다.

<X, Y가 이산확률변수인 경우>

<X, Y가 연속확률변수인 경우>

(합)처럼 (적분)도 정의역의 가장 작은 값부터의 누적을 나타낸다. 다만 는 이산적(discrete)인 수의 합이지만, 는 연속적(continuous)인 수의 합이란 점에 차이가 있을 뿐이다. 결합확률분포에서는 시그마도 적분도 누적합이다.

주변확률함수

<X, Y가 이산확률변수인 경우>

X의 주변확률함수(ㅡmarginal pdf)는 일 때 모든 Y 값에 대한 결합확률함수 의 합이다.

 Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수 의 합이다.

<X, Y가 연속확률변수의 경우>

연속확률변수 X, Y의 결합확률밀도함수가 주어졌을 때, X만을 고려하는 확률 는 결합확률분포에서는 를 의미한다. 따라서 다음과 같이 된다.

여기서

라고 하면,

Y의 주변확률함수도 동일한 방식으로 정의된다. 따라서 X, Y의 주변확률함수는 다음과 같이 간략히 요약할 수 있을 것이다.

X의 주변확률함수는 일 때 모든 Y 값에 대한 결합확률함수의 적분이다.

Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수의 적분이다.

조건부확률함수

연속확률변수일 때 조건부확률함수에 대한 정의는 이산확률변수일 때와 같다. 즉,  조건부확률분포는 결합확률분포를 주변확률분포로 나눈 값이다.

이 주어졌을 때 확률변수 Y의 조건부확률분포는 결합확률분포를 X의 주변확률분포로 나누면 구해진다.

가 주어졌을 때 확률변수 X의 조건부확률분포도 마찬가지로 구할 수 있다.

다만 이산확률변수에서는 가 각각 확률을 가리키지만, 연속확률변수에서는 확률의 밀도(혹은 변화율)을 가리키는 점이 다르다.

예제 1) 결합 pdf 가 다음과 같을 때 상수 c는 얼마인가?

해제) x, y 모든 범위에 대한 적분값이 1이므로,

좌변을 풀면,

예제 2) 연속확률변수 X와 Y의 결합확률함수가 아래와 같을 때 다음을 구하시오.

(1) 두 확률변수 X, Y의 주변확률밀도함수(주변 pdf)를 구하시오.

해제)

(2) 확률  을 구하시오.

해제)

(3) 을 각각 구하시오.

이는 주변확률함수를 구하라는 문제이다. 앞의 (1)에서 구해놓은 주변확률함수를 이용한다.

예제 3) 연속확률변수 X, Y의 결합 pdf가 

일 때 다음 확률을 구하시오.

(1) 

(2) 

해제) 결합확률함수는 주어졌으니 주변확률함수를 구하면 조건부확률함수가 도출된다.

(1) X 값(x)가 Y 값(y) 보다 작아야 한다는 조건에 유념하자. 이 문제의 경우 X 값은 항상 Y 값보다 작을 것이니 조건부확률함수를 적용하면 된다.

(2) 이 문제의 경우 Y 값이 1/2이니 X 값은 0 < x < 1/2이어야 한다. 그런데 0 < x < 3/4의 확률 구해야 하니 문제다. 그 경우 0 < x < 1/2보다 큰 X 값, 즉, 1/2 <= x < 3/4에서는 적분 값이 0이다. 따라서 적분을 X에 대해 두 구간으로 나누어 계산해야 한다.

사회통계를 위한 미적분 복습

미적분을 알면 지금 시대에 맞는 사회통계를 배우기가 좋다. 크게 어려운 정도는 아니고 고등학교 수준보다 약간 더 알면 충분하다. 함께 미적분의 기초를 복습하자.

x의 함수 y가 있을 때 x의 미세한(혹은 순간적) 변화가 y에 초래하는 영향을 함수의 변화율로 알아보는 것이 미적분이다.

미분(differential)

예를 들어 정지상태에 있던 물체가 t초 동안에 낙하는 거리를 s(m)라고 하면, 인 관계가 있다고 한다(정영진, 1985).

(1) t = 2(초)에서 (는 매우 짧은 시간을 가리킴) 동안에 낙하한 거리와 평균속도를 구하는 방법을 생각하라.

(2) t = 2(초)인 순간의 속도를 나타내는 방법을 생각하라.

함수 에 있어서 x가 에서 로 변하면 함수의 값은 에서 까지 변한다.

로 놓으면 x가 (x의 증분)만큼 변함에 따라서 y가 (y의 증분) 만큼 변함을 가리킨다.

x의 증분에 대한 y의 증분의 비

을 x가 에서 로 변할때 함수 의 평균 변화율이라 한다.

2초 후의 순간 속도는 평균속도 에서 일 때의 극한값이다.

함수 에서의 미분계수(변화율)는 다음과 같이 정의된다.

미분계수의 기하학적 의미는 함수 곡선에 대한 접선의 기울기이다.

그런데, 을 변수 로 바꾸어 놓으면 미분계수 는 함수 가 된다. 이 함수를 함수 도함수라고한다.도함수를

등으로 나타낸다.

의 도함수를 구하는 일을 x로 미분한다(differentiation)고 한다. 의 도함수는 아래와 같다.

미분계수나 도함수를 구하는데 극한의 계산을 하는 것이 번거로우므로, 다음과 같은 공식을 사용하여 미분한다.

(1) (c는 상수)

(2) (복호동순)

(3)

(4) (c는 상수)일 때,

(5) (n은 자연수)일 때,

(6)

예제) 다음 함수를 미분하라.

(1) (2) (3)  

해제) (1)

(2)

(3)

 

적분(integral)

적분은 미분의 역연산이다. 함수 가 주어졌을 때,

와 같이 되는 함수 의 부정적분이라 하고, 기호

로 나타낸다. 의 부정적분을 구하는 일을 를 x로 적분한다(integration)고 한다. 참고로 적분구간이 정해져 있지 않은 적분을 부정적분, 적분구간이 정해져 있는 적분을 정적분이라고 한다.

부정적분은 다음과 같이 정의된다.

일 때, 임의의 상수 C에 대하여

(C는 적분상수)

부정적분을 구하는데는 다음 적분공식이 사용된다.

(1)

(2) (n은 자연수)

(3) (c는 상수)

(4) (복호동순)

 

함수 가 구간 에서 연속일 때, 극한값을 정적분이라고 한다.

이 정적분을 구하는 일을, 를 a에서 b까지 적분한다고 한다. 이 정적분의 정의를 이용하여 곡선 아래의 면적을 구할 수 있다.

Integral - Simple English Wikipedia, the free encyclopedia

구간 에서 연속인 곡선

와 x 축, 사이에 끼인 부분의 면적

정적분의 기본 정리

a, b 를 가 연속인 구간에 속하는 임의의 두 수라고 하고, 일 때,

예제) (1) (2)

해제) (1) 이므로

와 같이 되므로 정적분에서는 적분상수를 고려할 필요가 없다. 따라서 다음과 같이 푼다.

(2)

정적분의 성질

(1) 에서 일 때

(2) 

(3)

(4)

 

이중적분(double integral)

이중적분은 변수가 하나(e.g. X)인 함수에서 둘(e.g. X, Y)인 함수로의 논리적 연장일 뿐 여전히 적분이다. 기하학적으로 말하자면 적분은 곡선 아래의 면적을 구하는 일이지만 이중적분은 곡면 아래의 부피를 구하는 일이다. 선이 면이 되는 것이다.  아래 그림은 이 차이를 잘 보여준다. 왼쪽 그림은 함수 f(x)의 x에 대한 적분을 나타내고, 오른쪽 그림은 함수 f(x, y)의 x와 y에 대한 적분을 나타낸다.

Double and Triple Integrals - YouTube

이중적분은 적분에서 다음과 같이 몇 가지가 달라진다.

(1) 한 변수 함수의 적분에서 두 변수 함수의 적분으로 바뀐다().

(2) 적분 기호가 두 개로 바뀐다().

(3) 적분의 범위가 길이 구간 ( )에서 영역(R)으로 바뀐다.

(4) 넓이를 가지고 하는 정의에서 부피를 가지고 하는 정의로 바뀐다.

아래 그림에서 영역 R은 다음과 같이 표시된다.

5.1 Double Integrals over Rectangular Regions - Calculus Volume 3 | OpenStax

그리고 에서 일 때, 영역 R 위에서 에 의해 만들어지는 입체의 부피(위 그림 참조)는

가 된다.

실제 계산은 x(안쪽 변수)에 대해 먼저 적분하고, 그렇게 해서 얻은 적분값을 다시 y(바깥쪽 변수)에 대해 적분하면 된다. 예컨대

를 풀어보자. 여기서는 y가 안쪽 변수이니 y에 대해서 적분을 먼저하고 그렇게 해서 구한 값에 대해 x에 대해 적분한다.

이상으로 결합확률분포 계산에 필요한 미적분법을 간략히 복습했다.

주변확률분포, 조건부확률분포: 이산확률변수

이산확률변수 X, Y가 결합확률분포를 가질 때, 주변확률함수는 다음과 같이 정의된다. 앞 게시글에서 제시한 주변확률의 정의와 논리적으로 다르지 않다. 확률 대신 함수가 들어왔을 뿐이다.

X의 주변확률함수(ㅡmarginal pdf)는 일 때 모든 Y 값에 대한 결합확률함수 의 합이다.

Y의 주변확률함수는 일 때 모든 X 값에 대한 결합확률함수 의 합이다.

아래 이산결합확률분포표에서 ‘계’ 열과 ‘계’ 행이 주변확률밀도함수이다.

결합확률함수와 주변확률함수를 알면 조건부확률분포를 구할 수 있다. 조건부확률분포(conditional probability distribution)는 결합확률분포를 주변확률분포로 나눈 값이다.

이 주어졌을 때 확률변수 Y의 조건부확률분포는 결합확률분포를 X의 주변확률분포로 나누면 구해진다.

예제 1) 결합확률함수 가 다음과 같다.

Y =1 일 때, 조건부확률함수를 구하시오.

해제) 결합확률분포표를 구한다.

예제 2) 주사위를 던져 나온 수가 짝수이면 X = 1, 홀수이면 X = 0이다. 그리고 주사위를 던져 나온 수가 소수이면 Y =1, 소수가 아니면 Y = 0이다. 결합확률함수를 구해보자. X와 Y의 결합확률밀도함수 는 다음과 같다.

, ,

주사위를 던져 나온 수가 짝수일 때, 조건부확률함수를 구하시오.

해제) 주사위를 던져 나온 수가 짝수일 때이니, X = 1이라는 말이다.

즉, 주사위를 던져 나온 수가 짝수일 때, 그 수가 소수일 확률은 1/3이고, 그 수가 소수가 아닐 확률은 2/3이다.

결합확률분포: 이산확률변수

앞 포스팅에서 두 확률변수가 관계될 때 출현하는 세 가지 확률인 결합확률, 주변확률, 조건부 확률에 대해 공부했다. 결합확률은 두 확률변수의 교집합(동시 발생)이 발생할 확률이고, 주변확률은 결합확률표에서 하나의 확률변수의 특정한 값이 발생하는 확률이며, 조건부 확률은 하나의 확률변수의 특정 값이 주어졌을 때, 다른 하나의 확률변수의 특정 값이 발생할 확률이다.

두 확률변수의 관계에 관한 이 논의는 확률분포에까지 확장할 수 있다. 즉, 결합확률분포, 주변확률분포, 조건부 확률분포를 생각할 수 있다. 확률변수의 확률분포는 확률변수의 값에 확률이 어떻게 부여되는 지를 말해준다. 즉, 확률분포를 구하면 다양한 사상의 확률을 알 수 있다. 그리고 확률분포는 확률함수로 정의될 수 있으니, 위 세 가지 확률분포는 각각 결합확률(밀도)함수, 주변확률(밀도)함수, 조건부 확률(밀도)함수로 정의될 것이다.

두 개의 이산확률변수 X와 Y가 있다고 하자. 각 확률변수는 확률분포를 갖고 그것은 확률(밀도)함수(이산확률변수일 때는 확률질량함수라고 쓰기도 함)에 의해 정의된다. 결합확률분포는 이산확률변수가 두 개인 확률(밀도)함수로 생각하면 된다.

X가 의 값을 갖고, Y가 의 값을 가질 때,

를 만족하는 를 이산확률변수 X, Y의 결합확률(밀도)함수라고 한다. 표기가 좀 복잡해서 통상 아래 첨자(subscipt)을 떼버리고 위 식을 아래와 같이 간략히 쓴다.

더 간단히 라고 쓰기도 한다. 두 확률변수 X, Y의 동시 발생에 대한 확률분포는 두 확률함수 X, Y의 범위 내에서 어떤 쌍의 값에 대해서도 값을 갖는 함수에 의해 표시된다. 그리고 이 함수를 X, Y의 결합확률분포(joint probability distribution)라고 한다.

표기법에 대해 한 마디. 변수가 많아지면 함수의 표기가 복잡해진다. 확률에서 식은 가급적 간단히 표기하는 데 특별히 강조해야 할 경우에는 복잡한 표기법도 사용한다. 예컨대 관계된 확률변수가 X와 Y임을 분명하게 나타내고 싶으면 결합확률함수를 라고 표기한다. 그렇지 않은 경우에는 그냥 간단히 라고만 써도 충분하다. 여러가지 복잡하면, 확률변수는 대문자(e.g. X, Y)로 표시하고 확률변수의 값은 소문자(e.g. x, y)로 표시한다는 정도만 기억해두자.

결합확률(밀도)함수(joint pdf)는 세 가지 성질을 갖고 있다.

:  결합확률함수는 X가 x이고, 동시에 Y가 y인 사상에 대한 확률을 준다.

: X와 Y의 모든 값에 대해 결합확률함수는 0과 1 사이의 값을 갖는다. 결합확률함수는 확률이니까 당연히 0과 1 사이의 값을 갖는다.

: X와 Y가 가진 범위에서 결합확률함수를 모두 더 하면 1이다. 결합확률함수는 확률이니까 당연히 확률 전체의 합은 1이다.

두 확률변수 X,Y에 대해 결합누적확률분포(joint accumulative probability distribution)는 다음과 같이 정의된다.

확률밀도함수는 소문자 f로, 누적확률분포는 대문자 F로 표기된다. 때문에 간략히 로 표기해도 로 이해 된다. 누적확률분포는 정의역의 가장 작은 값부터 지정 값까지의 확률을 모두 더해 계산된다. 그것은 확률변수가 두 개일 때나 하나일 때나 마찬가지이다. 두 개일 때는 계산이 좀 더 복잡해질 뿐이다.

X가 특정 구간 내의 값을 갖고, 동시에 Y도 특정 구간 내의 값을 갖는 결합누적확률은 결합누적확률분포함수에 의해 다음과 같이 구해진다.

예제 1) 주사위를 던져 나온 수가 짝수이면 X = 1, 홀수이면 X = 0이다. 그리고 주사위를 던져 나온 수가 소수이면 Y =1, 소수가 아니면 Y = 0이다. 결합확률함수를 구해보자.

해제) 이 결과를 표로 만들면 다음과 같을 것이다.

 123456
X010101
Y011010

X와 Y의 결합확률밀도함수 는 다음과 같다.

이 결합확률함수를 모두 더 하면 1이다.

예제 2) 주사위를 던졌을 때, X는 윗면의 숫자이고, Y는 밑면의 숫자이다. X와 Y의 결합확률함수를 구하라.  

해제) x = {1, 2, 3, 4, 5, 6}, y = {1, 2, 3, 4, 5, 6}, 주사위의 윗면과 밑면의 수의 합은 항상 7이다. 즉, 이다.

이 결합확률의 합은 1이다.

예제 3) 내부가 보이지 않는 박스 안에 파란색 볼펜 3개, 붉은색 볼펜 2개, 초록색 볼펜 3개가 들어 있다. 무작위로 2개의 볼펜을 뽑았을 때, 파란색 볼펜과 붉은색 볼펜이 함께 뽑힐 결합확률함수를 구하시오. 파란색 볼펜이 뽑히는 수효는 X, 붉은색 볼펜이 뽑히는 수효는 Y라고 하자.

해제)  x = {0, 1, 2}, y = {0, 1, 2},

예제 4) 결합확률함수 가 다음과 같다.

결합누적확률함수를 구하시오.

해제) 위에서 제시한 공식을 적용하면 다음과 같다.

예제 5) 아래는 확률변수 X, Y의 결합확률밀도함수를 표로 나타낸 것이다. 이 표의 정보를 가지고 결합누적확률함수를 구하시오.

 Y=2Y=4Y=6Y=8
X=100.100.1
X=3000.20
X=50.3000.15
X=7000.150

해제) 위에 제시한 공식을 적용하면 결합누적확률함수는 다음과 같다.

, , ,

,

,

이를 간략히 표로 나타내면 아래와 같다.

삶에서 시간이란?

여행을 나가면 누구나 시간의 소중함을 느낀다. 여행 기간이 제한되어 있을 뿐 아니라 시간이 곧 비용이기 때문이다. 여행 시간을 변경하거나 확장하는 것이 누구에게나 쉽지 않지 않는가. 시간 밖에 없다고 여겨지는 은퇴자에게도 그것은 마찬가지이다.

우리는 누구나 지구 행성에 여행자로 왔다간다. 모든 여행이 그렇듯이 ‘지구 여행’, 즉, 우리의 삶도 시작이 있고 끝이 있다. 인간은 본질적으로 유한한 시간을 가진 여행자이다.   

일상 여행과 지구 여행(인생)은 공통점과 차이점을 가지고 있다.  두 여행의 공통점은 시간적으로 유한하고 여행의 끝이 다가오면 여행에 대한 아쉬움이 커진다는 사실일 것이다. 두 여행의 차이점은, 일상 여행에서는 여행자가 여행 중 내내 여행 전체를 시간적으로 실감하는 반면, 지구 여행에서 여행자는 거의 여행의 종착점에 이를 때까지 여행 전체를 시간적으로 체감하지 못한다는 사실일 것이다.

통상적으로 인간의 시간 체감의 범위는 며칠, 몇 주일, 길어봐야 1년을 넘지 못한다. 1년을 넘어가면 시간에 대한 분별이 희미해진다. 사람들은 1년과 2년, 1년과 5년, 1년과 100년, 심지어 1년과 무한대 사이의 차이를 선명하게 구분하지 못한다.

그러한 시간 인식의 한계 때문에 우리는 한 백년, 아니 영원히 살 것처럼 행동하고 있는 지도 모른다. 우리가 지구여행의 시간적 종착점을 알 수 있다면 무엇이 중요한지에 대한 우선순위가 바뀌고 세상에 대해 훨씬 너그러워질 지도 모른다. 사실 암 같은 질병으로 인해 의사로부터 남은 시간을 ‘선고’받은 사람들이 적지 않다. 그들의 생각과 행동이 일반 사람들과 다르지 않는가.

은퇴자가 가진 것은 시간 뿐이지만 그 시간이 많지는 않다. 그러나 대부분의 은퇴자는 자신에게 시간이라는 자산이 많이 남아 있지 않다는 사실을 인지하지 못하는 것 같다. 그들에게 시간이란 하릴없이 메꾸어야 하는 구덩이이다. 아침이 되면 그 구덩이는 다시 생겨나고 은퇴자는 매일 그 구덩이를 메꿔야 한다. 지구 여행이 끝나는 날까지 말이다.

그런데, 만약 우리가 오늘, 이 순간이 수많은 사람들이 가지고자 소망했던 축복이며 선물이라는 사실을 깨닫는다면, 여행의 끝에 다다르지 않더라도 우리는 지구 여행 전체를 조망하면서 살 수 있을 지도 모른다. 그렇게 되면 우리는 더 의미있고 가치있게 여생을 보내고자 할 것이다.

사실 시간에서는 길이보다 밀도가 중요하고, 양보다 질이 중요하다. 그런 점에서 시간은 객관적이기보다 주관적이다. 어떤 사람의 하루가 다른 사람의 1년만큼 가치가 있을 수 있으며, 오늘 하루가 지난 생애의 전부 혹은 남은 생애의 전부 만큼 가치가 있을 수 있다.

현재(present)라는 이 소중한 선물(present)을 어떻게 사용할 것인가. 은퇴자에게도 그것이 문제이다. 만약 시간에 대한 인식을 바꿀 수 있다면 그것이 구덩이를 메꾸는 문제가 아니라 새로운 여행을 설계하는 문제가 될 것이다. 얼마나 신나는 일인가.

시간에 대한 관념만 바꾸어도 은퇴자의 삶은 한층 풍요로워질 수 있다. (2020-10-08)

삶에서 집이란 공간은?

지난 달 사랑채를 완성하고 살림을 그곳으로 옭겨간 후에 안채는 온전한 작업 공간이 되었다. 필암문화원 간판을 달기는 했지만 팬데믹 때문에 아직 그것을 실체화하지 못하고 있으니 나만의 공간이라고 해도 과언이 아니다.

돌이켜 보면 고등학교를 졸업한 이후 마흔 둘에 교수직을 얻을 때까지 20년 이상 동안 나만의 공간을 가져본 적이 없었다. 얼마나 간절히 소망했던 환경이었던가. 그래서 주중에는 늦은 밤까지, 그리고 주말에도 연구실에 나와 있었다. 누구한테도 방해받지 않고 마음껏 연구하고 쉴 수 있는 공간을 마흔이 넘어서야 가질 수 있었으니 얼마나 좋았겠는가.

그러나 교수 연구실은 내 마음대로 꾸미거나 무엇이든 할 수 있는 공간은 아니었다. 눈에 보이지 않지만 여러가지 제약이 있었다. 예컨대 크게 음악을 들을 수 없고 복장도 맘대로 하고 있을 수도 없었다.

얘들이 많은 탓에 집은 컸지만 나만의 서재가 없었다. 그래서 나는 오랫동안 거실을 서재로 사용했다. 10여년 전 아이들이 미국으로 떠나고 나서야 비로소 집에 나만의 공간을 갖는 여유가 생겼다. 50대 중반이 되어서야 집에 ‘서재’라고 부를 만한 공간이 생긴 것이었다.

‘서재’도 온전히 자유로운 공간은 아니다. 집에 아내가 함께 있으니 음악을 크게 틀 수 없고 큰 소리를 지를 수도 없다. 강의 녹음이나 녹화도 자유롭지 않다. 그리고 아내의 눈치 때문에 마음껏 게으름을 피울 수도 없다.

그런데 지난 달부터 온전한 집 한 채가 생긴 것이었다. 태어나서 65년만에 내가 정말로 누구한테도 방해받지 않고 무엇이든 할 수 있는 공간이 주어졌다. 아무리 크게 음악을 틀어도, 아무리 게으름을 피워도, 또 아무리 밤늦게까지 연구를 해도 신경 쓸 일이 없다.

공간은 내게 자유와 책임을 동시에 가져왔다. 한 마디로 완전히 자율적인 삶을 안긴 것이다. 과연 나는 이 자율이라는 선물을 갖고 무엇을 할 것인가? 그것부터 자율적으로 결정해야 할 것이다.

공간이란 삶의 모습을 결정짓는 구조적 요인 중 하나임에 분명하다. 집은 공간 중 개인적인 수준의 영역이다. 마을이나 지역사회, 나아가 국가와 같이 공적인 수준의 영역도 존재한다. 사생활(privacy)이 존재하기 위해서는 개인적인 공간이 반드시 필요하다. 타인의 시선으로부터, 타인의 간섭으로부터 자유로운 공간 없이 온전한 사생활도 자율적인 삶도 존재할 수 없다. 집은 단순히 재생산을 위한 공간이 아니라 근본적으로 인간의 자유와 자율을 위한 최후의 버팀목이다.

그런데 우리 사회에서는 언제부터인가 집이 투자와 투기의 대상으로 전락했다. 집이 본원적 가치가 아닌 교환적 가치로만 인식되고 있는 것이다. 집이 자율적인 삶의 조건 대신 가치 증식의 수단으로 여겨지고 있다. 참으로 안타까운 현상이 아닐 수 없다. (2020-10-07).

결합확률, 주변확률, 조건부 확률: 이산확률변수

교차표(cross-table)

두 개의 이산확률변수 X, Y가 결합하여 아래와 같은 교차표가 형성되었다고 하자.

각 칸(cell)에는 두 확률변수 값()을 충족하는 사상(事象, event)이 들어간다. 그것을 총 사상의 수효인 N에 대비하여  로 표시하자. 관행에 따라 확률변수는 대문자로, 확률변수의 값은 소문자로 표기한다.

결합확률(joint probability)

두 확률변수의 결합확률은 아래와 같이 표시된다. 두 확률변수의 결합확률은 두 확률변수의 교집합이 발생할 확률이다.

또한 확률은 항상 0과 1 사이의 값을 갖는다. 따라서 확률로 나타낸다는 것은 사상의 수를 0과 1 사이 값으로 정규화(normalization)한다고 말할 수 있다. 정규화를 하면 사상 값들의 총합은 1이다. 각 사상의 수( )를 총 사상의 수 N으로 나누면 사상의 수가 모두 0과 1 사이의 값으로 정규화된다. N은 정규화 상수(normalizing constant)라고 말할 수 있다. 결합확률은 사상의 수가 정규화된 값이다.

결합확률표(joint probability table)

주변확률(marginal probability)

주변확률은 결합확률이 있다는 조건에서 존재한다. 이산형 확률변수의 경우 두 개(혹은 그 이상)의 확률변수로 구성된 결합확률표에 존재한다. 위 결합확률표에서 한 확률변수의 확률만을 고려하는 것이 주변확률이다. 진한 파랑색으로 된 부분이 주변확률이다. 위 결합확률표에서 확률변수 X, Y 중 X 혹은 Y 하나만 고려하면 주변확률이 나온다. X의 주변확률은 특정한 X 값에 속하는 X, Y 결합확률 값을 모두 합한 것이다. 위 결합확률표에서 여섯 개의 주변확률은 다음과 같이 계산된다.

확률변수 X, Y의 결합확률을 일반화시켜서 나타내면 아래와 같다.

조건부 확률(conditional probability)

확률변수 두 개(혹은 그 이상)가 있다. 하나 확률변수의 특정 값(e.g. )이 주어졌을 때, 다른 하나 확률변수의 특정 값(e.g. )이 나타날 확률이 조건부 확률이다. 흔히 조건부 확률은 다음과 같이 표기된다.

하나의 확률변수 값()이 주어졌기 때문에, 전체 사상(N) 대신 오직 그 값의 사상()만 고려된다. 즉, 가 정규화 상수가 된다. 결합확률과 주변확률의 경우에는 N이 정규화 상수였다. 다시 말해 N이 1이 되는 것이 아니라 가 1이 된다.

위 결합확률표를 가지고 예를 들어보자. 확률변수 X가 3일 때 조건부 확률은 세 가지가 있을 것이다. Y가 1인 경우, Y가 2인 경우, Y가 3인 경우이다. 조건부 확률을 구하려면, X가 3인 열의 칸을 모두 P(X = 3)으로 나누어 주면 된다.

그러면 아래 결합확률표의 주황색 열처럼 될 것이다. 조건부 확률은 결합확률을 주변확률로 나눈 값이다.

조건부 확률을 합하면 1이다.

조건부 확률은 다음과 같이 일반화하여 표시될 수 있을 것이다.

개념적으로 설명했으니  이제 예제를 가지고 이해해 보자. 다음은 미국에 있는 어떤 도시의 경찰관들이 2년 동안 승진한 경험을 남녀를 구분해 정리한 자료이다.

 X = x1X = x2
Y = y128836324
Y = y2672204876
9602401,200

사건의 정의:

확률변수 = 성별: = 남성, = 여성

확률변수 = 승진 여부: = 승진,  = 승진탈락

이 데이터를 가지고 결합확률표를 구해보자. 각 칸(사상)의 빈도수()를 총 빈도수(N)로 나누어 0과 1 사이로 정규화하면 그것이 결합확률이다. 그렇게 해서 구한 결합확률표는 아래와 같다.

 X = x1X = x2P(Y = yi)
Y = y10.240.030.27
Y = y20.560.170.73
P(X = xi)0.800.201.00

결합확률표에서 각 열의 결합확률을 더하면 성별의 주변확률이 구해지고, 각 행의 결합확률을 더하면 승진여부의 주변확률이 구해진다. 주변확률도 전체 사상수에 의해 정규화되어 있어 열의 주변확률을 모두 더한 값도 1이고 행의 주변확률을 모두 더한 값도 1이다.

그렇다면 어떤 경찰관이 여성일 때, 그 경찰관이 승진할 확률은 얼마이겠는가? 조건부 확률을 묻는 문제이다.

이 조건부 확률은, 여성이면서 승진한 경찰관일 확률이라는 결합확률(0.03)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.15이다.

어떤 경찰관이 여성일 때, 그 경찰관이 승진하지 못할 확률은? 이것도 조건부 확률 문제이다.

여성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.17)을 여성일 확률이라는 주변확률(0.20)로 나눈 값 0.85이다.

이 두 개의 조건부 확률을 합하면 1이다. 조건부확률이란 주변확률을 1로 만든 것이니 당연한 결과이다.

남성 경찰관은 어떨까?

어떤 경찰관이 남성일 때, 그 경찰관이 승진할 확률은? 남성이면서 승진한 경찰관일 확률이라는 결합확률(0.24)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.3이다.

어떤 경찰관이 남성일 때, 그 경찰관이 승진하지 못할 확률은? 남성이면서 승진하지 못한 경찰관일 확률이라는 결합확률(0.56)을 남성일 확률이라는 주변확률(0.80)로 나눈 값 0.7이다.

이 두 조건부 확률을 더하면 1이다.

여성 경찰관이 승진할 확률은 0.15이고, 남성 경찰관이 승진할 확률은 0.3이니 남성 경찰관이 승진할 확률이 여성 경찰관이 승진할 확률의 두 배이다. 성차별 냄새가 나는 차이이다.

확률분포(8): 정규분포

주류통계학(빈도주의 통계학)에서 가장 중요한 확률분포는 단연 정규확률분포(normal probability distribution)이다. 정규분포는 모수추정과 가설검정이라는 추리 통계를 가능하게 해주기 때문이다.

정규분포는 종 모양(bell-shaped)의 정규곡선을 이룬다. 아래 그림처럼 평균을 중심으로 해서 사건이 중앙에 가장 많이 분포하고 양끝으로 갈수록 희박하게 분포하며, 평균을 축으로 그래프의 양쪽이 정확히 겹쳐진다. 즉, 확률밀도함수의 그래프의 무게중심이 평균이다.

확률변수 X의 정규분포는 다음과 같이 표시된다.

정규분포는 모평균(μ)과 모분산() 두 개의 퍼라미터를 가지고 있다. 정규분포는 그것을 정립한 수학자 카를 프리드리히 가우스의 이름을 따서 가우스 분포(Gaussian distribution)라고도 불린다.

정규분포의 확률밀도함수는 다음과 같다.

식 (1)에서, μ = 모평균, σ = 모표준편차, π = 3.14159, e = 2.71828. 이 확률밀도함수는 모든 정규확률분포가 두 개의 모수(parameter), μ와 σ에 따라 달라짐을 보여준다. σ(모표준편차)는 (모분산)의 양의 제곱근이니, 정규확률분포의 모습이 μ와 에 따라 달라진다고 해도 무방하다.  모평균, 모표준편차처럼 첫머리에 ‘모’ 자를 붙인 이유는 표본의 평균과 표준편차와 구분하기 위해서이다. 빈도주의 통계학에서는 표본과 모집단의 구분이 중요하다.

정규곡선의 정점(highest point)은 모평균에 위치하며, 이는 분포의 중앙값이자 최빈값이기도 하다. 정규분포의 모평균은 음수, 0, 양수 등 어떤 숫자도 될 수 있다.

정규확률분포는 대칭이어서 평균 왼쪽의 정규곡선 모양은 평균 오른쪽의 정규곡선 모양과  거울에 비춘 것처럼 똑 같다. 정규곡선의 꼬리는 양쪽을 향해 무한대로 뻗어 나가며 이론적으로는 가로축에 절대 닿지 않는다. 정규확률분포는 대칭이고 기울어져 있지 않으므로 왜도(skewness)는 0이다.

모표준편차(혹은 모분산)는 정규곡선의 평평한 정도와 폭을 결정한다. 표준편차가 크면 곡선이 넓고 평평해지며, 자료의 변동성이  커진다.

정규분포의 확률밀도함수 그래프 아래의 면적은 1이며, 좌우대칭이므로 왼쪽이 0.5, 오른쪽이 0.5이다. 이보다 더 유용한 사실은 아래 그림에서 보듯이 정규분포확률변수값이 평균을 중심으로 좌우로 표준편차의 1배의 범위에 안에 있을 확률이 68%이고, 표준편차의 2배의 범위 안에 있을 확률은 95%, 3배의 범위 안에 있을 확률은 99.7%이라는 점이다.

실제로는 평균(μ)이 0이고 표준편차(σ)가 1인 표준정규분포(standard normal distribution)가 자주 사용된다. 모든 정규분포는 z-값(z-score)을 사용하여 표준화할 수 있는데, 표준정규분포는 그렇게 표준화된 수치들의 확률분포이다. z-값은 아래와 같이 구할 수 있다.

즉, 관찰값의 편차(평균과의 차이, )를 표준편차()로 나눈 값이다.  z-값으로 표준화하면, 확률밀도함수가 다음과 같이 간략히  표시된다.

이 식을 위에서 제시한 확률밀도함수 식 (1)과 비교해보면 차이를 쉽게 알 수 있다.표준정규분포는 다음 그림과 같은 분포를 갖는다.

표준정규확률변수값이 0의 좌우로 z-값의 1배 범위 안에 있을 확률이 68.27%, z-값의 2배 범위 안에 있을 확률은 95.45%, 그리고 z-값의 3배 범위 안에 있을 확률은99.73%이다. 다시 말해 거의 모든 사례가 z-값의 2배 이내에 있으며, z-값의 3배 이상에는 사례가 거의 존재하지 않는다.

표준정규확률분포가 중요한 이유는 모든 정규확률분포에서 확률을 계산할 때 표준정규확률표를 이용했기 때문이다. 오늘날에는 표준정규확률표 대신 응용프로그램을 이용하여 정규확률분포의 확률을 바로 계산할 수 있기 때문에 예전만큼 표준정규확률분포가 중요하지는 않다.  

빈도주의 통계학은 정규분포 혹은 표준정규분포의 분포가 지닌 이러한 특성을 이용하여 가설 검정을 수행한다. 정규분포를 이용한 가설 검정과 모수 추정은 추리통계에서 다루기로 하자.

정규확률변수는 이산분포를 하기 때문에 그것의 확률은 당연히 p.d.f 아래의 면적이다. 확률변수 X가 어떤 값 이하일 확률을 구하려면 p.d.f.를 적분하거나 c.d.f. 값을 구해야 하는데 계산이 복잡하므로 실제로는 응용프로그램을 사용하여 구하면 된다. 평균과 표준편차를 알면, 정규확률변수 값이 특정 범위에 속할 확률을 쉽게 구할 수 있다. 엑셀에서는 NORM.DIST라는 함수를 사용하면 되고, Probability Distributions app을 사용해도 X가 어떤 값 이하, 어떤 값이 이상 혹은 어떤 값과 어떤 값 사이일 확률을 간단히 구할 수 있다.

여기서는 예제를 가지고 확률변수 X의 범위가 주어졌을 때 그것의 확률을 구하는 실습을 해보도록 하자.

예제 1)  A 타이어 회사에서 새로 개발한 타이어의 주행 테스트를 시행하였다. 기술자들은 그 타이어의 주행거리를 평균() 36,500km, 그리고 표준편차()를 5,000km로 추정했다. 또한 수집한 자료에 따라 타이어의 주행거리가 정규확률분포를 이룬다고 가정하였다. 그렇다면 a) 몇 퍼센트의 타이어가 4만 km 이상 주행가능하다고 예상할 수 있을까? b) A 사는 보증 주행거리에 못 미친 타이어를 교체할 교체 타이어를 할인해 주는 보상 제도를 검토하고 있다. A사가 할인 보상을 받는 타이어의 비율이 10% 이하이길 바란다면, 보증 주행거리를 얼마로 설정해야 할까? 

해제 1-a) 타이어의 주행거리가 4만 km 이상일 확률을 구하는 문제이다. 간략히 표시하면, P(X > 40,000) = ?

MS Excel을 사용하여 확률을 구해보자. NORM.DIST 함수를 사용하면 되는데, 구하려고 하는 확률이 X > 40,000이므로 그 함수로 구한 값을 1에서 빼주어야 한다. 누적확률분포는 항상 왼쪽에서부터 누적된 값, 즉, X < x 를 계산하기 때문에 X > x의 학률을 구하려면 1 -P(X < x)를 계산해야 한다. 아래 그림에 보면 1 – NORM.DIST(A2,B2,C2,TRUE)를 계산하고 있다. 그렇게 해서 계산된 값이 0.2420이다. 즉, 타이어의 주행거리가 4만 km 이상일 확률은 24.20%, 다시 말해 24.20%의 타이어가 4만 km 이상 주행 가능하다고 예상된다.

Probability Distibutions app을 이용하면 더 쉽게 구할 수 있다. 아래 그림처럼 평균, 표준편차, x 값을 각각 입력하고, P(X > x) = 를 선택하면 된다.

해제 1-b) 보상받는 타이어의 비율이 10% 미만이라면 x < 0.10 이다. 즉, P(X < 0.10)을 구하는 문제이다. 이는 아래 그림의 주황색으로 된 부분의 면적을 구하는 문제이다. Probability Distributions app을 이용하면 쉽게 구할 수 있다. 아래 그림에서 P(X < x) =의 칸에 0.10을 넣으면, x = 30092.2421이 바로 구해진다. 답은, “보증 주행거리를 30, 100 km로 설정해 주면 된다”이다.

예제 2) 지난 3년간 국내 대기업의 주식형 펀드에 대한 평균 수익률이 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자.

a) 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은?

b) 개별 대기업 주식형 펀드의 3년간 수익률이 10% 이하일 확률은?

c) 3년 동안 상위 10%의 주식형 펀드들은 얼마나 큰 수익을 올렸나?

해제 2-a)  여기서 확률변수(X)는 주식형 펀드 수익률이다. 이 문제는 평균이 14.4%, 표준편차가 4.4%인 정규확률분포에서 P(X => 20)의 값을 구하라는 것이다. Probability Distributions를 사용해서 풀면 아래와 같다. 확률은 0.1016이다.

해제 2-b) P(X < 10) = ? 답은 0.1587이다.

해제 1-c) P(X > x) = 0.10일 때 x 값을 구하는 문제이다. Probability Distributions를 사용하면 답이 20.04% 이상이다.

엑셀을 사용해서 구하려면 NROM.INV 함수를 이용한다. 누적확률분포이므로 확률값은 0.10 대신 0.90을 입력해아 한다. 수익률 값은 위와 동일한 20.04% 이상이다. 즉, 상위 10% 안에 들려면 수익률이 20.04%는 되어야 한다.

예제 3) 표준정규확률분포에서 다음 확률을 계산하시오.

a) P(z <= 1.5) = ?

b) P(1 <= z <= 1.5) = ?

c) P( z => 0.44) = ?

해제)

3-a) 0.93319

3-b) 이 경우는 P(X <= 1.5)에서 P(X <= 1)을 빼면 될 것이다. 즉, 0.93319 – 0.84134 = 0.09185이다.

3-c) 답은 0.32997이다.