베이즈 통계(7): 함수, 확률변수, 확률함수, 확률분포

먼저 함수에 대해 분명하게 정의하자. 함수(function)는 어떤 변수의 입력값에 대해 유일한 출력값을 관계시키는 수학적 과정이다. 좀 더 세련되게 표현하면, 입력값에 대해 출력값을 매핑(mapping)하는 수학적 과정이다. 함수의 출력값은 종속변수라고 부르는 또 하나의 변수일 수 있다.

What is a Function

함수가 실제로 표시되는 방식은 의 예에서 보듯이 좌변은 입력값()의 함수값(function value) 을 표기하고, 우변은 입력값을 가지고 무슨 조치를 해야하는가를 말해주는 일련의 지시(instructions)를 표기한다. 이 예에서는 입력값을 제곱하라는 지시가 주어져 있다. 만약 그 지시를 따라서 구한 함숫값(function value)이 다른 변수값(예컨대 )으로 간주된다면 그 경우 함수는 다음과 같이 표기될 수 있다.

이 경우 함수는 어떤 변수(흔히 독립변수라고 함)의 값에 대해 다른 변수(흔히 종속변수라고 함)의 값을 일대일로 대응시키는 수학적 과정이다.

확률변수(random variable)는 표본공간의 각 원소에 대해 하나의 실수값을 대응시켜주는 함수이다.  표본공간(sample space)확률실험(random experiment)의 결과로 나오는 모든 사상(events)의 집합이다.

예컨대 두 개의 동전을 던지는 실험을 보자. 실험의 결과가 오직 우연에 의해 결정되므로 그것은 확률실험이다. 윗면(인물 형상이 있는 면)이 나오면 H, 아랫면이 나오면 T라고 하면, 나올 수 있는 실험결과는 로 네 가지일 것이다. 이것의 집합인 가 표본공간(sample space)이다. 이 표본공간의 원소를 숫자로 표현하려면, 윗면의 수(혹은 아랫면의 수)처럼 변수를 규정해주어야 한다. 그러면, 각 원소에는 2, 1, 1, 0이라는 수가 부여될 것이다. 이 때 윗면의 수가 바로 확률변수이다. 그것은 두 개의 동전 던지기라는 확률실험의 결과에 대해 일정한 수를 부여하는 함수이다. 이 예는 함수의 입력값이 문자로 되어 있지만, 만약 표본공간이 숫자로 되어 있다면, 입력값과 출력값이 동일할 것이다.

확률변수의 값은 확률을 갖는다. 여기서 확률은 표본공간에서 특정 원소가 차지한 비율이다. 위 예를 가지고 보면, 확별변수 값의 확률은 다음과 같다.

확률변수의 값(윗면의 수) 표본공간의 원소 확률(해당 원소의 비율)
2 HH 1/4 = 0.25
1 HT, TH 2/4 = 0.5
0 TT 1/4 = 0.25
1.00

이 표를 확률분포표(probability distribution table)라고 부른다. 그런데 확률분포를 나타내는데 있어 확률분포표는 그다지 효율적이 아니다. 확률변수의 값이 많아지면 표를 작성하는 일이 아주 번거로울 것이다.

그래서 확률함수(probability function)가 필요하다. 확률변수의 값에 대응하는 확률을 하나의 함수로 표기할 수 있다면 아주 간명하고 효율적일 것이다.  위의 동전던지기 실험은, 확률실험의 결과가 두 가지(윗면과 아랫면, 성공과 실패)이고, 각 시행은 독립적이며, 성공 확률이 바뀌지 않는다는 특징을 가지고 있다. 이러한 속성을 지닌 확률분포는 이항확률분포(binomial probability distribution)이며, 이항확률분포는 이항확률질량함수(binominal probability mass function, binomial pmf)로 표현된다. 이산변수와 연속변수를 구분하지 않고 확률밀도함수(probability density function, pdf)라고도 표기하므로 이항확률밀도함수(binomial probability density function, binomial pdf)라고 불러도 무방하다(이항확률분포에 관해서는 확률분포(1): 이항확률분포 를 참조하시오). 전에 올린 확률분포들에 관한 글들에서도 그랬듯이 필자는 후자를 따르겠다. 이항확률밀도함수는 아래와 같이 표기된다.

함수값을 대신에 로 표기했다. n번 시행에서 성공 확률이 p일 때 y번 성공할 확률을 의미한다. 여기서 np퍼라미터(parameter, 우리말로 모수라고 함)라고 부른다. 퍼라미터는 확률분포의 모양을 결정짓는다. 즉, 퍼라미터의 값에 따라 확률분포의 모양이 결정된다.

위의 사례를 이항함수 식의 관점에서 다시 살펴보면, 동전이 정직하다고 가정했을 때 성공확률(윗면이 나올 확률) p은 0.5이다. 만약 동전을 두 번 던졌는데 윗면이 2번 나왔다면 성공횟수 y는 2이고, 시행 횟수 n은 2이다. 그렇다면 퍼라미터의 값은  가 될 것이다. 이항함수 공식에 이 퍼라미터 값을 넣으면 아래 식을 얻는다.

이 식만 가지면 앞에서 제시한 확률분포표를 재현할 수 있다.

2 0.25
1 0.5
0 0.25
1.00

퍼라미터의 값을 바꾸면 다른 모습의 확률분포를 얻는다. 예컨대 시행횟수를 3으로 바꾸면, 퍼라미터는  이 되고, 확률밀도함수(pdf)는 아래와 같다.

이 식을 가지고 확률분포표를 구하면 아래와 같다.

3 0.125
2 0.375
1 0.375
0 0.125
1.000

성공확률 p의 값을 변경할 수도 있다. 정직한 동전이니 성공확률이 0.5이지만, 성공률을 낮추기 위해 조작된 동전이라면 성공확률이 0.4일 수도 있다. 그러면 확률밀도함수는 다음과 같을 것이다.

베이즈 추론은 퍼라미터를 추정(estimate)하는 경우가 많다. 베이즈통계를 위해 확률밀도함수가 필요한 또 다른 이유이다. 다음 게시글에서는 베이즈 추론을 통해서 퍼라미터를 추정해 보자. (2020-10-30)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.