(Bayes 학습)(5) 카이자승과 자유도

베이즈 추론을 학습하다가 멀리까지 왔다. 베이즈 추론을 제대로 배우려면 확률과 통계, 그리고 미적분과 행렬대수(matrix algebra)를 알아야 한다. 기초없이 가다보면 결국 벽에 부딪치고 다시 기초로 돌아가게 된다.

이번에는 카이자승() 검증과 자유도(degree of freedom)에 관해 알아보자. 아래의 교차표는 고등학교 학생 30명에게 “TV를 많이 보는가?”와 “공부를 열심히 하는가?”라고 물어본 결과이다. 이 표에 제시된 데이터는 고등학생들의 열공 여부와 TV 시청 사이에 상관관계가 있음을 지지하는가?

TV를 많이 보는가?
공부를

열심히

하는가?

아니오
5(6.7) 5(3.3) 10
아니오 15(13.3) 5(6.7) 20
20 10 30

교차표의 자료를 가지고 두 변수 사이의 관계를 검증하는 대표적인 통계 척도가 이다. 은 교차표의 각 칸(cell)의 관찰빈도(observed counts)와 두 변수 사이에 아무런 관계가 없다는 영가설이 진실일 때 기대되는 각 칸의 빈도(expected counts)와의 비교에 기초를 둔 통계척도이다.

위의 교차표에서 만약 열공 여부와 TV 시청 정도 사이에 아무런 관계가 없다는 가정 아래 각 칸에 들어갈 빈도를 계산해 보자. 영가설의 기대빈도는 행과 열의 각 범주의 주변빈도를 곱한 다음 표본의 크기()으로 나누어주면 될 것이다. 예컨대, 양쪽 질문에 모두 ‘예’라고 답한 칸의 기대빈도는 20*10/30=20/3=6.7이 될 것이고, 열공여부에 ‘예’라고 답하고, TV 시청 정도에 ‘아니오’라고 대답한 칸의 기대빈도는 10*10/30=3.3이 될 것이다. 나머지 두 칸의 기대빈도도 같은 방식으로 계산하면 될 것이다. 각 칸의 괄호 안에 기대빈도를 표시했다.    값을 구하기 위해서는 각 칸의 관찰빈도와 기대빈도의 차이를 자승하고, 그 다음 그 값을 그 칸의 기대빈도로 나눈다. 그리고 그 값을 모두 더하면  값이 구해진다.

=1.96인데, 그 수치를 어떻게 해석해야 하는가? 그 통계치에 대해 판단을 내리려면  의 표집분포를 상정해야 한다. 그것은 앞 글에서 평균의 표집분포를 상정해서 표본 평균에 대해 판단을 내린 것이나 마찬가지 원리이다. 그런데 의 표집분포(간단히    분포)는 자유도(degree of freedom)라는 것의 값에 따라 모습이 다르다. 아래 그림을 참고하라.

Chi-square distribution - Wikipedia

그렇다면 자유도가 무엇인가? 이것은 통계학을 배우는 학생들에게 가장 난해한 개념 중 하나이다.

자유도어떤 통계값을 구하는데 있어 자유롭게 변할 수 있는 값의 수효이다. 이게 도대체 무슨 말인가?

예컨대, 세 개의 수가 있는데, 그 세 수의 평균()이 주어져 있다면, 그 세 수 중 두 개가 정해지면 나머지 하나는 자유롭게 변할 수 없다. 만약 평균이 2이고, 이 1이고, 가 1이면, 는 반드시 4가 되어야 한다. 이 경우 자유도(통상 df라고 표기한다)는 2이다. 분산()을 보자. 분산이란 한 표본이 얼마나 퍼져있는지를 보여주는 통계척도이다. 분산을 구하려면 표본의 각 값에서 평균을 뺀 값을 제곱하여 더하고 표본의 크기()로 나누어주면 될 것이다. 그런데, 평균이 먼저 구해져야 분산을 구할 수 있다. 그런데 위에서 보듯이 평균이 정해지면 자유도 하나를 잃는다. 따라서 분산의 자유도는 이다. 만약 편차의 제곱을 으로 나누면 분산을 과소추정하게 된다. 따라서 분산을 정확히 계산하기 위해서는  대신 로 나누어야 한다. 즉, 정확성을 확보하기 위해 자유도로 보정해 주는 것이다.

교차표에서 자유도는 누계가 고정된 상태에서 값이 자유롭게 변할 수 있는 칸의 수이다. 어느 두 변수간의 교차표에서든  통계치의 자유도는 행(row)에서 1을 뺀 숫자와 열(column)에서 1을 뺀 숫자를 곱하면 된다. 공식은 아래와 같다.

위 표의 자유도는 1이다((2-1)*(2-1)=1). 우리가 신뢰수준을 95%(0.05)으로 설정한다면, 의 임계치(critical value)는 자유도가 1일 때 3.84이다. 만약 자유도가 2라면 임계치가 5.99, 자유도가 3이라면 임계치가 7.81이다(통계학 책 부록으로 있는의 임계치 표를 참조하라). 위에서 우리가 계산한 표본의   값이 1.96이므로 임계치인 3.84보다 작다. 관찰빈도와 영가설 아래서 추정한 기대빈도의 차이가 신뢰수준의 기준치보다 작다는 말이다. 그러므로 우리는 영가설을 기각하는데 실패했다. 따라서 이 자료로 볼 때 열공 여부와 TV시청 정도는 서로 관계가 있다고 보기 어렵다고 결론을 내릴 수 있을 것이다.

이렇게 자유도는 통계값을 보정하기 위해 사용되기 때문에 자유도에 의해 분포의 모습이 크게 달라지는 검증에서 자유도는 대단히 중요한 역할을 수행한다. 우리가 앞에서 언급했던  검증에서도 그렇다.

이 글에서는  검증을 가지고 자유도를 설명했다. 통계적 추론을 위해서는 자유도의 개념을 잘 이해하고 기억해 두어야 할 것이다.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.