확률분포(6): 베타분포

베르누이분포나 이항분포처럼 성공과 실패의 이항 선택을 다루는 확률분포로 베타분포(Beta distribution)가 있다. 베르누이와 이항 분포에서는 성공의 횟수가 확률변수인데, 베타분포에서는 성공의 비율이 확률변수이다.

베타분포에 관한 직관적인 사례로는  야구선수의 타율이 있다. 타석 중 안타의 비율이 타율이다.

타자의 시즌 타율을 예측하는 문제를 생각해 보자. 시즌 초반에 어떤 타자의 시즌 타율을 예측하는데는 두 가지 방법이 있을 것이다. 그 타자가 상당히 유망한 타자라고 하자.

첫째, 시즌 초기의 몇 게임에서 얻은 타율을 가지고 시즌 타율을 예측하는 방법이 있다. 전혀 타당성이 없는 방법은 아니다. 그런데 만약 그 선수가 시즌 초반에 슬럼프에 빠져 있어 몇 게임 동안 안타를 전혀 치지 못했다면, 그 때까지 그 선수의 타율은 0.00일 것이고, 그의 시즌 타율은 0.00으로 예측된다. 반대로 시즌 초반에 잘 맞아서 몇 게임 동안 그 선수의 타율이 0.70이라면, 그의 시즌 타율은 0.70으로 예측된다. 이 두 가지 경우 모두 극단적인 예측이 되고, 실제로 들어맞을 가능성이 희박하다.

둘째, 전년도 타율에 관한 정보를 이용하는 방법이다. 실제적으로 프로야구에서 유능한 타자라면 시즌 타율이 최소한 2할대는 넘을 것이고 반대로 아무리 유능하다고 해도 통상 4할대가 넘지는 않는다. 이러한 현실을 반영하여 시즌 타율을 예측하는 방법은 선행 시즌의 타율과 시즌 초반의 성적을 모두 반영하는 것이다. 시즌 초반에 타율이 낮거나 높으면 그것을 전년도 타율이나 선수의 총 평균 타율에 적절히 반영하여 조정하면 훨씬 합리적으로 해당 시즌의 타율을 예측할 수 있을 것이다. 이것을 가능하게 해주는 것이 베이즈 추론이다. 베타분포는 베이즈 추론에서 널리 사용된다.

베타 분포는 비율이나 백분율(%)로 된 확률 변수를 예측하는데 유용한 확률모형이다. 베타 분포는 간단히 다음과 같이 표기한다.

베타분포는 PDF나 모멘트의 도출 과정이 좀 복잡하므로 먼저 베타 분포의 특징부터 알아보자.

첫째, 기본적인 베타분포는 확률변수가 0과 1 사이의 실수값을 갖는다(). 확률이나 백분율이 바로 그러한 경우이다. 아래 그림은 여러가지 형태의 베타분포를 보여준다. 그런데 X 축이 0과 1 사이로 되어 있음을 볼 수 있다.

Probability density function for the Beta distribution

둘째, PDF의 모양이 두 개의 모수 에 의해 결정된다. 이 모수를 하이퍼 퍼라미터(hyper-parameter)라고 부른다. 위 그래프에서 , 가 둘 다 0.5이면, 붉은색 선 그래프가 되고, 이면 청색 선 그래프, 이면, 녹색 선 그래프이다. 는 그래프의 모양을 결정짓는 형상 모수(shape parameter)이다.베타분포는 형상 모수의 값만 바꾸면 매우 다양한 모습의 확률 모형을 나타낼 수 있는 장점이 있다. 그것은 그만큼 적용성이 높음을 시사한다.

베타분포의 PDF는 확률변수 X(성공 비율)와 그것의 반사(reflection)인 (1 – X)(실패 비율)의 멱함수(거듭제곱 함수, power-law function)로 다음과 같이 정의된다.

여기서

형상 모수 는 양의 실수이고, 베타함수 는 확률분포의 총 확률(적분 값)을 1로 만들어 주는 정규화 상수(normalization constant)이다.

베타함수는 감마함수를 사용하여 나타낼 수도 있다.  이 식이 적분으로 나타낸 것보다 계산을 간편하게 할 수  있다. 베타함수 값은 각 형상모수의 감마 함수(Gamma function)를 두 형상모수의 합의 감마 함수로 나눈 값이다.  감마 함수는 계승(factorial)을 실수 및 복소수로까지 확장한 것이다.

베타분포의 모멘트는 다음과 같다.

그런데, 는 어떻게 해석될 수 있을까? 그 모수들은 성공횟수와 실패횟수를 나타낸다고 생각할 수 있다. 이항분포의 지수[]처럼  (혹은 )는 성공 횟수, (혹은 )는 실패 횟수로 간주될 수 있다.

예컨대 만약 성공할 지 실패할 지를 전혀 예측할 수 없으면 균일분포로 놓으면 될 것이다. 이면 베타분포는 균일분포가 된다. 아래 그림은 0과 1 사이의 무작위 값 1천 개를 구해서 그린 베타분포의 확률밀도함수들이다(엑셀에서 수행한 시뮬레이션 자료는 링크를 참조). 진한 파랑색 선이 균일분포를 나타내는 베타분포이다.

성공횟수와 실패횟수가 각각 1, 1이라면, 성공률은 0.5, 실패율도 0.5일 것이다. 성공과 실패라는 두 가지 경우만 있는 어떤 현상이 있고, 우리가 그 현상에 대해 아무런 사전 정보도 없다면, 어떤 결과가 나올 지 예측할 수 없다. 베타분포 혹은 균일분포는 이러한 이러한 상황을 의미한다.

만약 다음 실험에서 성공이 나왔다면, 퍼라미터가 인 베타분포가 될 것이다. 그림에서 그것의 확률밀도함수는 주황색 사선이다. 성공률 기대값은 2/3 = 0.6666…이다. 성공률의 기대값이 0.5에서 0.67로 약간 상승했다.

만약 그 다음 실험에서도 성공이 나왔다면, 퍼라미터가  인 베타분포가 될 것이며, 그림에서 그것의 확률밀도함수는 회색 선이다. 성공률의 기대값은 3/4 = 0.75이다. 당연히 성공률의 기대값이 또 상승했다.

그 다음 실험에서 실패가 나왔다면, 퍼라미터가  인 베타분포가 될 것이며, 그림에서 그것의 확률밀도함수는 노란색 선이다. 확률밀도함수의 오른쪽 끝 부분이 아래로 내려갔다. 당연히 성공률의 기대값이 하락했을 것이다. 실제로 성공률의기대값이 3/5 = 0.6로 다소 떨어졌다.

그 다음 실험에서 또 실패가 나왔다면, 퍼라미터가 인 베타분포가 될 것이며, 그림에서 그것의 확률밀도함수는 옅은 파랑색 선이다. 그래프의 중심이 더 왼쪽으로 이동했음을 알 수 있다. 성공률의 기대값이 더 하락했음을 나타낸다. 실제로 성공률의 기대값은 3/6 = 0.5로 더 떨어졌다.

그러한 실험을 11번 했는데, 성공이 10번이고 실패가 1번이라면, 퍼라미터가  인 베타분포가 될 것이다. 그림에서 그것의 확률밀도함수는 연두색 선으로 오른쪽 끝 부분이 가파르게 상승하고 있다. 성공률의 기대값이 상당히 큼을 시사한다. 실제로 성공률의 기대값은 10/11 =0.9090…로 매우 높다.

그런 실험을 17번 했는데, 성공이 10번이고 실패가 7번이라면, 퍼라미터가 인 베타분포가 될 것이다. 그림에서 진한 파랑색 선이다.무게중심이앞으로 그래프에 비해 왼쪽으로 많이 내려갔다.실제로성공률의기대값은10/17=0.5882로 성공률의 기대값이 크게 내려갔다.열번 성공한 후에 내리 일곱번 실패했다면 성공률의 기대값이 크게 떨어져도 전혀 놀라운 일이 아니다.

끝으로 다른 실험 하나.

어떤 온라인 쇼핑 사이트의 고객 평가는 ‘좋음’과 ‘나쁨’ 두 가지 선택만으로 되어 있다. 그런데 500명이 평가에 참여해서, 400명이 좋음을 선택했고, 100명이 나쁨을 선택했다고 하자. 그렇다면 이 사이트의 성공률의 기대값(평균 성공률)은 얼마일까?

위 식 (2)를 이용해서 계산하면, 400/500 = 0.8이다. 성공률(좋음으로 평가받을 가능성)은 0.8이다. 그림에서 진한 빨강색 선이 이 실험 결과를 나타내는 확률밀도함수이다. 그것은 인 베타분포이다. 그래프를 보면 0.8을 중심으로 사건이 집중적으로 분포되어 있음을 알 수 있다. 이는 같은 성공률 일지라도 10번에 8번 성공했을 때보다 500번중 400번 성공했을 때 성공률의 기대값 0.8에 대해 더 크게 확신할 수있음을 시사한다. 다시 말해 성공률이 0.8을 크게 벗어날 가능성이 없다는 말이다.

예제 1) 한 온라인 쇼핑몰에는 고객이 판매 상품에 대한 좋음과 나쁨 두 가지 평가할 수 있다. 그런데 어떤 제품에 대해 현재까지 400개의 좋음과 100개의 나쁨 평가를 받았다. 그렇다면, 이 제품이 고객들로부터 좋음을 받을 확률이 0.85 이상일 확률은?

(해제) 을 대입해서 엑셀의 베타함수 BETA.DIST를 이용한다.

BETA.DIST(0.85, 400, 100, TRUE)를 계산하면, 0.998568이다. 이는 0.85까지의 누적확률분포의 값이므로, 0.85 이상일 확률을 구하면, 1 – 0.998568 = 0.001432가 된다.

(2020-09-18)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.