사회통계(6): ANOVA(분산 분석)

[문제 1] 세 농장에서 옥수수를 생산하는데, 각각 살충제를 다른 방식으로 살포하였다. 재배를 마친 후 수확 상태를 조사해서 다음과 같은 결과를 얻었다. 이 데이터를 가지고 살충제의 살포 방법에 따라 옥수수의 수확량에 차이가 있다고 추정할 수 있을까?(김은정, 2017: 279 변형)

자연과학, 사회과학을 막론하고 경험 과학(empirical science)에서 지식을 얻는 방법은 실험과 관찰이다. 그런데 실험과 관찰을 찬찬히 뜯어보면 과학적 인식의 핵심은 비교(comparison)임을 알 수 있다.

실험에서는 처치 집단(treatment group)과 통제 집단(control group)을 비교하여 처치의 효과를 판단하고, 관찰에서도 어떤 기준값과 비교하거나 사례들을 비교하여 인과관계를 추론하거나, 차이(difference), 성과(outcome) 혹은 효과(effects)를 판단한다.

ANOVA(Analysis of Variance, 분산 분석)는, 집단들의 비교에 널리 사용되는 통계 도구이다. 기본적으로 ANOVA는 특정한 변수에 관해 집단들의 평균을 비교하며, 분산(variance)을 가지고 그 비교를 통계적으로 판단한다. 그래서 평균들을 비교함에도 불구하고 이름이 분산 분석이다.

[문제 1]을 보면, 세 곳의 농장에서 일종의 의사 실험(quasi-experiment)을 시행했다. 같은 살충제를 다른 방식으로 살포하고 어떤 방식이 더 좋은 지를 알아보는 조사이다. 그 방식이란 살충제 살포 시점이나 횟수에 관한 것이 아닐까 짐작된다. 살충제를 언제, 혹은 몇 번이나 살포하는가가 병충해 예방에 영향을 많이 미치기 때문이다.

농장 I, II, III은 각각 8군데의 밭이 있는데, 농장별로 살충제를 서로 다른 방식으로 살포하고 가을에 수확량을 조사했다. 세 농장의 수확량(100 평방미터당) 평균을 계산하면, 농장 I은 228.25 kg, 농장 II는 226.625 kg, 농장 III은 230.25 kg이다. 세 농장의 수확량 평균에 차이가 있음은 분명하다.

그러나 그 수치들만 봐서는 그 차이가, 살충제 살포방식이 달라서 나온 결과(차이)인지, 아니면 살충제 살포방식과는 상관없이 그냥 우연히 발생한 결과(차이)인지를 알 수가 없다. 그것을 통계적으로 판단할 수 있도록 도와주는 도구가 ANOVA이다.

ANOVA는 집단 간의 변이(between variability)집단 내의 변이(within variability)보다 충분히 크면, 집단들의 평균이 서로 다른 모집단에서 나온 것으로 추정하고, 조치(treatment, 독립변수: 이 사례에서는 살충제 살포방식)의 효과가 있다고 판단한다. 반대로 집단간의 변이가 집단 내의 변이보다 그다지 크지 않으면, 집단들의 평균이 하나의 공통 모집단으로부터 나온 것으로 추정하고, 조치의 효과가 없다고 판단한다.

집단 간의 변이와 집단 내의 변이의 비율은, 위 식에서처럼 집단 간 편차 제곱의 합(MSC, 처리 제곱의 평균이라고도 함)집단 내 편차 제곱의 합(MSE, 잔차 제곱의 평균이라고도 함)의 비율로 구한다.

MSC와 MSE는 다음과 같이 구할 수 있다.

그렇다면 문제는 SSC, SSE, , 를 구하는 것으로 압축된다. 그 값들은 아래 식들로 계산된다. SST는 총 제곱의 합, SSC는 처리 제곱의 합, SSE는 잔차 제곱의 합이다.

이 세 가지 제곱 합 사이에는 다음과 같은 관계가 성립한다. . 그래서 SST는 SSC와 SSE로 분해된다고 표현되기도 한다. SST는, 각 관측값에서 전체 평균을 뺀 편차를 제곱하여 더한 값이다.

(=j번째 집단의 i번째 관측값; =전체 평균; 은 집단 j의 관측값 수; k는 집단 수)

SSC는 각 집단의 평균에서 전체 평균을 뺀 편차에 각 집단의 관측수를 곱해서 모두 합한다.

(k=집단 수; j=j번째 집단; =j번째 집단의 관측값 수; =j번째 집단의 평균; =전체 평균)

SSE는 각 집단의 편차제곱의 합을 모두 더 한다.

(=j번째 집단의 분산) 혹은 공식을 가지고 구한다.

자유도는 아래 공식으로 구할 수 있다. 집단 간 제곱의 평균을 구하는 데 필요한 자유도는 집단의 수 빼기 1이며, 집단 내의 제곱의 평균을 구하는데는 총 관측 수에서 집단의 수를 빼면 된다.

, (k=집단 수; =전체 관측값 수)

이렇게 구한 F ratio, 즉, F 값은 F 분포를 이룬다. F 분포는 위의 두 가지 자유도(degree of freedom)에 의해 결정된다. 따라서 F 값, , 를 알면 p 값을 구할 수 있다. 아래 그림은 [문제 1]의 데이터를 가지고 세 가지의 편차를 구한 결과이다. (이 문제를 MS 엑셀을 사용해 풀어놓은 파일을 보려면 이 링크를 클릭하시오.) 여기서 전체 편차를 제곱하여 더하면 SST를 구할 수 있고, 그룹 간 편차를 제곱하여 더하면 SSC를, 그룹 내 편차를 제곱하여 더 하면 SSE를 구할 수 있다. MS 엑셀에서 함수 SUMSQ를 사용하면 쉽게 제곱 합을 구할 수 있다. 다음 그림에 보듯이 총 제곱합의 구하는 함수는 =SUMSQ(E2:G9)이다. 총 제곱합(SST)는 129.625, SSC(처리 제곱합)은 52.75, SSE(잔차 제곱합)은 76.875이다. 아래 그림에서 보듯이 이 편차제곱의 합들이 분산분석표의 두 번째 열을 구성한다. 이 그림은 엑셀이 제공하는 추가기능인 ‘데이터 분석’을 수행한 결과이다. 제곱합의 수치들이 정확히 일치함을 볼 수 있다. 처리제곱 평균(MSC)은 처리 제곱합을 그것의 자유도로 나누어 준 26.3757이고, 잔차제곱 평균(MSE)은 그것의 자유도 21로 나누어 준 3.660714이다(네 번째 열 참조). F 비(ratio)는 26.3757/3.660714 = 7.204878이다. 그것의 확률인 p-값은 함수 FDIST를 사용하면 구할 수 있다. p-값은 0.004145로 0.05보다 훨씬 작다. 이 결과를 가지고 우리는, 살충제의 살포방식이 옥수수 생산에 상당히 의미 있는 영향을 미친다고 결론을 내릴 수 있을 것이다. 즉, 농장 III에 적용한 방식이 가장 효과적이고, 농장 II에 적용한 방식이 가장 비효과적으로 판단한다. 실제 분산분석을 수행할 때 직접 평균, 편차, 제곱합 등을 구하는 경우는 없을 것이다. 통계 소프트웨어를 사용하면 순식간에 필요한 값들을 모두 얻을 수 있기 때문이다.

엑셀의 자체 추가기능인 데이터 분석에서도 일원 배치법 분산 분석을 적용하면 한꺼번에 모든 값을 얻을 수 있다. 다만 엑셀에서는 데이터 분석 기능을 모바일 버전에서는 사용할 수 없다는 함정이 있다. 때문에 자주 사용하는 함수들은 사용법을 익혀두면 편리할 것이다.

어떤 통계 도구도 그러하듯이 ANOVA도 적용하는데 갖춰야할 조건이 있다. ANOVA는 꼭 실험이라 아니라도 독립변수가 범주형이고, 종속변수(혹은 반응 변수)가 수치형이면 사용할 수 있다. 그리고 종속변수의 모집단이 정규분포를 따라야 한다. 다만 표본의 크기가 모두 같다면, 이 가정은 크게 중요하지 않다.

다음 두 문제를 직접 풀어보기 바란다.

[문제 2] 어떤 대학에서 학생들을 상대로 대학생들의 학습 능력을 연구한다고 하자. 연구자들은 그 대학에서 오래 공부할수록 학습 능력이 향상되는 지 알고 싶다. 그러기 위해 1학년, 2학년, 3학년에서 각각 8명씩 무작위 표본을 추출하여, 100점 만점의 학습 능력 테스트를 시행하였다. 다음 표는 그 결과이다. 이 데이터를 가지고 대학에서의 공부가 학생들의 학습 능력을 향상시킨다고 주장할 수 있을까?
 [문제 3] Consumer Report는 미국 South Carolina 주 소재 풀 서비스 식당들의 식사 가격을 조사하였다. 세 가지 유형의 식당을 각 8곳씩 조사한 결과는 다음과 같다. 이 데이터를 가지고 세 가지 유형의 식당에서의 한 끼 식사 평균 가격이 다르다고 추정할 수 있을까?(Anderson, 2016: 542)

<참고 문헌> Anderson, David R, et.. (류귀열/김창규/최승은/김민중/이성철 역). 2016. <앤더슨의 통계학(Essentials of Modern Business Statistics)>. 한올. 김은정. 2017. <사회조사분석사>. 학진북스.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.