확률분포(8): 정규분포

주류통계학(빈도주의 통계학)에서 가장 중요한 확률분포는 단연 정규확률분포(normal probability distribution)이다. 정규분포는 모수추정과 가설검정이라는 추리 통계를 가능하게 해주기 때문이다.

정규분포는 종 모양(bell-shaped)의 정규곡선을 이룬다. 아래 그림처럼 평균을 중심으로 해서 사건이 중앙에 가장 많이 분포하고 양끝으로 갈수록 희박하게 분포하며, 평균을 축으로 그래프의 양쪽이 정확히 겹쳐진다. 즉, 확률밀도함수의 그래프의 무게중심이 평균이다.

확률변수 X의 정규분포는 다음과 같이 표시된다.

정규분포는 모평균(μ)과 모분산() 두 개의 퍼라미터를 가지고 있다. 정규분포는 그것을 정립한 수학자 카를 프리드리히 가우스의 이름을 따서 가우스 분포(Gaussian distribution)라고도 불린다.

정규분포의 확률밀도함수는 다음과 같다.

식 (1)에서, μ = 모평균, σ = 모표준편차, π = 3.14159, e = 2.71828. 이 확률밀도함수는 모든 정규확률분포가 두 개의 모수(parameter), μ와 σ에 따라 달라짐을 보여준다. σ(모표준편차)는 (모분산)의 양의 제곱근이니, 정규확률분포의 모습이 μ와 에 따라 달라진다고 해도 무방하다.  모평균, 모표준편차처럼 첫머리에 ‘모’ 자를 붙인 이유는 표본의 평균과 표준편차와 구분하기 위해서이다. 빈도주의 통계학에서는 표본과 모집단의 구분이 중요하다.

정규곡선의 정점(highest point)은 모평균에 위치하며, 이는 분포의 중앙값이자 최빈값이기도 하다. 정규분포의 모평균은 음수, 0, 양수 등 어떤 숫자도 될 수 있다.

정규확률분포는 대칭이어서 평균 왼쪽의 정규곡선 모양은 평균 오른쪽의 정규곡선 모양과  거울에 비춘 것처럼 똑 같다. 정규곡선의 꼬리는 양쪽을 향해 무한대로 뻗어 나가며 이론적으로는 가로축에 절대 닿지 않는다. 정규확률분포는 대칭이고 기울어져 있지 않으므로 왜도(skewness)는 0이다.

모표준편차(혹은 모분산)는 정규곡선의 평평한 정도와 폭을 결정한다. 표준편차가 크면 곡선이 넓고 평평해지며, 자료의 변동성이  커진다.

정규분포의 확률밀도함수 그래프 아래의 면적은 1이며, 좌우대칭이므로 왼쪽이 0.5, 오른쪽이 0.5이다. 이보다 더 유용한 사실은 아래 그림에서 보듯이 정규분포확률변수값이 평균을 중심으로 좌우로 표준편차의 1배의 범위에 안에 있을 확률이 68%이고, 표준편차의 2배의 범위 안에 있을 확률은 95%, 3배의 범위 안에 있을 확률은 99.7%이라는 점이다.

실제로는 평균(μ)이 0이고 표준편차(σ)가 1인 표준정규분포(standard normal distribution)가 자주 사용된다. 모든 정규분포는 z-값(z-score)을 사용하여 표준화할 수 있는데, 표준정규분포는 그렇게 표준화된 수치들의 확률분포이다. z-값은 아래와 같이 구할 수 있다.

즉, 관찰값의 편차(평균과의 차이, )를 표준편차()로 나눈 값이다.  z-값으로 표준화하면, 확률밀도함수가 다음과 같이 간략히  표시된다.

이 식을 위에서 제시한 확률밀도함수 식 (1)과 비교해보면 차이를 쉽게 알 수 있다.표준정규분포는 다음 그림과 같은 분포를 갖는다.

표준정규확률변수값이 0의 좌우로 z-값의 1배 범위 안에 있을 확률이 68.27%, z-값의 2배 범위 안에 있을 확률은 95.45%, 그리고 z-값의 3배 범위 안에 있을 확률은99.73%이다. 다시 말해 거의 모든 사례가 z-값의 2배 이내에 있으며, z-값의 3배 이상에는 사례가 거의 존재하지 않는다.

표준정규확률분포가 중요한 이유는 모든 정규확률분포에서 확률을 계산할 때 표준정규확률표를 이용했기 때문이다. 오늘날에는 표준정규확률표 대신 응용프로그램을 이용하여 정규확률분포의 확률을 바로 계산할 수 있기 때문에 예전만큼 표준정규확률분포가 중요하지는 않다.  

빈도주의 통계학은 정규분포 혹은 표준정규분포의 분포가 지닌 이러한 특성을 이용하여 가설 검정을 수행한다. 정규분포를 이용한 가설 검정과 모수 추정은 추리통계에서 다루기로 하자.

정규확률변수는 이산분포를 하기 때문에 그것의 확률은 당연히 p.d.f 아래의 면적이다. 확률변수 X가 어떤 값 이하일 확률을 구하려면 p.d.f.를 적분하거나 c.d.f. 값을 구해야 하는데 계산이 복잡하므로 실제로는 응용프로그램을 사용하여 구하면 된다. 평균과 표준편차를 알면, 정규확률변수 값이 특정 범위에 속할 확률을 쉽게 구할 수 있다. 엑셀에서는 NORM.DIST라는 함수를 사용하면 되고, Probability Distributions app을 사용해도 X가 어떤 값 이하, 어떤 값이 이상 혹은 어떤 값과 어떤 값 사이일 확률을 간단히 구할 수 있다.

여기서는 예제를 가지고 확률변수 X의 범위가 주어졌을 때 그것의 확률을 구하는 실습을 해보도록 하자.

예제 1)  A 타이어 회사에서 새로 개발한 타이어의 주행 테스트를 시행하였다. 기술자들은 그 타이어의 주행거리를 평균() 36,500km, 그리고 표준편차()를 5,000km로 추정했다. 또한 수집한 자료에 따라 타이어의 주행거리가 정규확률분포를 이룬다고 가정하였다. 그렇다면 a) 몇 퍼센트의 타이어가 4만 km 이상 주행가능하다고 예상할 수 있을까? b) A 사는 보증 주행거리에 못 미친 타이어를 교체할 교체 타이어를 할인해 주는 보상 제도를 검토하고 있다. A사가 할인 보상을 받는 타이어의 비율이 10% 이하이길 바란다면, 보증 주행거리를 얼마로 설정해야 할까? 

해제 1-a) 타이어의 주행거리가 4만 km 이상일 확률을 구하는 문제이다. 간략히 표시하면, P(X > 40,000) = ?

MS Excel을 사용하여 확률을 구해보자. NORM.DIST 함수를 사용하면 되는데, 구하려고 하는 확률이 X > 40,000이므로 그 함수로 구한 값을 1에서 빼주어야 한다. 누적확률분포는 항상 왼쪽에서부터 누적된 값, 즉, X < x 를 계산하기 때문에 X > x의 학률을 구하려면 1 -P(X < x)를 계산해야 한다. 아래 그림에 보면 1 – NORM.DIST(A2,B2,C2,TRUE)를 계산하고 있다. 그렇게 해서 계산된 값이 0.2420이다. 즉, 타이어의 주행거리가 4만 km 이상일 확률은 24.20%, 다시 말해 24.20%의 타이어가 4만 km 이상 주행 가능하다고 예상된다.

Probability Distibutions app을 이용하면 더 쉽게 구할 수 있다. 아래 그림처럼 평균, 표준편차, x 값을 각각 입력하고, P(X > x) = 를 선택하면 된다.

해제 1-b) 보상받는 타이어의 비율이 10% 미만이라면 x < 0.10 이다. 즉, P(X < 0.10)을 구하는 문제이다. 이는 아래 그림의 주황색으로 된 부분의 면적을 구하는 문제이다. Probability Distributions app을 이용하면 쉽게 구할 수 있다. 아래 그림에서 P(X < x) =의 칸에 0.10을 넣으면, x = 30092.2421이 바로 구해진다. 답은, “보증 주행거리를 30, 100 km로 설정해 주면 된다”이다.

예제 2) 지난 3년간 국내 대기업의 주식형 펀드에 대한 평균 수익률이 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자.

a) 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은?

b) 개별 대기업 주식형 펀드의 3년간 수익률이 10% 이하일 확률은?

c) 3년 동안 상위 10%의 주식형 펀드들은 얼마나 큰 수익을 올렸나?

해제 2-a)  여기서 확률변수(X)는 주식형 펀드 수익률이다. 이 문제는 평균이 14.4%, 표준편차가 4.4%인 정규확률분포에서 P(X => 20)의 값을 구하라는 것이다. Probability Distributions를 사용해서 풀면 아래와 같다. 확률은 0.1016이다.

해제 2-b) P(X < 10) = ? 답은 0.1587이다.

해제 1-c) P(X > x) = 0.10일 때 x 값을 구하는 문제이다. Probability Distributions를 사용하면 답이 20.04% 이상이다.

엑셀을 사용해서 구하려면 NROM.INV 함수를 이용한다. 누적확률분포이므로 확률값은 0.10 대신 0.90을 입력해아 한다. 수익률 값은 위와 동일한 20.04% 이상이다. 즉, 상위 10% 안에 들려면 수익률이 20.04%는 되어야 한다.

예제 3) 표준정규확률분포에서 다음 확률을 계산하시오.

a) P(z <= 1.5) = ?

b) P(1 <= z <= 1.5) = ?

c) P( z => 0.44) = ?

해제)

3-a) 0.93319

3-b) 이 경우는 P(X <= 1.5)에서 P(X <= 1)을 빼면 될 것이다. 즉, 0.93319 – 0.84134 = 0.09185이다.

3-c) 답은 0.32997이다.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.