과소 추정과 자유도

어떤 사회 현상이나 자연 현상을 탐구할 때 우리는 그 현상 전체(즉, 모집단)가 지닌 속성에 대해 관심을 갖는다.  그런데 현상 전체를 관찰하는 일은 현실적으로 불가능한 경우가 대부분이다. 모집단 전체를 관찰하는 것은 물리적으로나 시간적으로, 그리고 재정적으로 현실적이지 않다. 그런 의미에서 모집단이란 현실이라기 보다 관념이나 상상이라고 해도 과언이 아니다.

빅데이터 시대라고 별로 다르지 않다. 현상에 관한 데이터가 아무리 많더라도 그것이 현상 전부, 즉, 모집단 데이터라고 간주할 수는 없기 때문이다. 모집단이 무한할 수 있고, 항상 변화 중일 수도 있으며, 동시적인 관찰이나 기록이 불가능할 수도 있다.

그래서 표본 통계치를 통한 모수 추정은 여전히 유효하고 중요한 탐구 방법이다. 모수 추정이란, 작은 크기의 표본을 추출하여 표본 통계치(sample statistics)를  구한 다음 그것을 가지고 모집단의 속성(흔히 모수, parameter라고 부른다)을 추정하는 방법이다. 모수 추정을 통해서 통계학은 모집단을 추상적 관념에서 손에 잡히는 현실로 바꾸어 주는 셈이다. 추리 통계(inferential statistics)가 하는 역할이 바로 그것이다.

관련 이미지

 

그런데 모수를 추정하는 데 사용되는 추정 통계치는 세 가지 조건을 갖추어야 한다. 첫째, 통계치는 불편의적(unbiased)이어야 한다. 통계치가 모수보다 지속적으로 작게 나온다든지 지속적으로 크게 나오면 안된다. 통계치가 표본에 따라 아무리 요동을 치더라도 그것의 기대값은 모수와 같아야 한다. 표본 평균이 대표적인 불편의적 통계치이다. 즉, 표본평균의 기대값은 모평균이다.

둘째, 일관적(consistent)이어야 한다. 무작위 표본의 크기가 커지면, 표본 통계치가 모수에 가까워져야 한다. 통계학 교과서에 나오는 모든 통계치는 일관적이다.

셋째, 상대적으로 효율적(relatively efficient)이어야 한다. 통계치가 표본에 따라 크게 변하지 않아야 한다는 말이다. 통계치들 중 표준오차가 작은 것이 효율적이다. 예컨대 정규분포에서는 평균이 가장 효율적이다.

자유도(degree of freedom)는 위의 첫번째 속성인 불편의성에 관련되어 있다. 분산을 보자. 분산은 아래 공식에서처럼 편차제곱의 합을 가지고 구한다. 모집단(크기가 N)인 경우 편차제곱의 합을 모집단의 크기로 나누면 된다.

그런데, 만약 를 알지 못하기 때문에 를 알지 못한다면, 표본으로부터 평균과 분산을 모두 추정해야 한다. 그때 문제가 발생한다. 표본 평균 는 편차제곱의 합, 을 최소화한다.  즉, 어떤 다른 수를 대입해도 편차제곱의 합이 표본 평균의 경우보다 크다. 그것은 설령 그 수가 모평균, 라도 마찬가지이다. 만약 위 공식을 그대로 사용해서 표본 분산을 구하고 그것으로 모분산을 추정할 경우 과소 추정을 벗어날 수 없다. 표본 분산은 모분산보다 작게 된다는 말이다.

이 공식으로 표본분산을 구하면, 가 된다. 그러면, 표본분산은 추정 통계치가 갖추어야 할 첫번째 조건을 충족하지 못한다. 표본 분산이 편의적 추정치가 되는 것이다.

표본 평균과 표본 분산을 모수 추정에 사용하기 위해서는 반드시 과소 추정의 약점을 보완해야 한다. 통계학자들은 아래 식처럼 편차제곱의 합을 표본의 크기 대신 자유도 로 나누어주면 불편의 추정치 표본분산을 얻을 수 있음을 발견했다.

그렇다면 자유도는 무엇인가? 자유도는 통계학을 배우는 학생들에게 가장 난해한 개념 중 하나이다.

자유도(degree of freedom)란 어떤 통계값을 구하는데 있어 자유롭게 변할 수 있는 값의 갯수이다. 이게 도대체 무슨 말인가?

예컨대, 세 개의 수가 있는데, 그 세 수의 평균()이 주어져(즉, 고정되어) 있다면, 그 세 수 중 두 개가 정해지면 나머지 하나는 자유롭게 변할 수 없다. 만약 평균이 2이고, 이 1이고, 가 1이면, 는 반드시 4가 되어야 한다. 이 경우 자유도(통상 df라고 표기한다)는 2이다. 분산()을 보자. 분산이란 한 표본이 얼마나 퍼져있는지를 보여주는 통계척도이다. 분산을 구하려면 표본의 각 값에서 평균을 뺀 값을 제곱하여 더하고 표본의 크기()로 나누어주면 될 것이다. 그런데, 평균이 먼저 구해져야 분산을 구할 수 있다. 그런데 위에서 보듯이 평균이 정해지면 자유도 하나를 잃는다. 따라서 분산의 자유도는 이다. 만약 편차의 제곱을 으로 나누면 분산을 과소추정하게 된다. 표본 분산이 모 분산을 과소 추정하는 것을 막기 위해서는 편차의 제곱을  대신 로 나누어야 한다. 즉, 불편의성을 확보하기 위해 자유도로 보정해 주는 것이다.

자유도는 다소 다른 용도로도 사용된다. 모집단의 평균과 분산을 둘 다 모르면 모평균의 구간 추정을 할 때 분포를 적용하는데, 그 분포는 아래 그림에서처럼 자유도의 값에 따라 사뭇 다른 확률분포를 갖는다.  이런 의미에서  분포 하나의 분포라기보다 한 계열의 분포라고 말하는 편이 정확할 것이다.

교차표(cross-table)를 분석할 때 적용하는 카이자승() 분포도 자유도에 따라 상당히 다른 모양을 갖는다(아래 그림 참조).

chi-squared distribution에 대한 이미지 검색결과

이상으로 자유도에 대한 개괄적인 설명을 마친다. (2019-09-19, 윤영민)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.