분산분석(개정판)

앞에서 두 모집단의 평균비교가 단일모집단의 평균에 대한 모수추정과 가설검정의 확장판임을 보았다. 그렇다면 세 모집단 이상의 평균비교는 두 모집단 평균비교의 확장일 것이라고 손쉽게 추측할 수 있다.

그런데, 그 추측은 절반만 맞고 절반은 틀리다. 세개 이상의 모평균을 비교하는 일이 두 모평균 비교의 논리적 확장이지만, 기술적으로는 크게 다르다는 점에서 절반은 맞고 절반은 틀리다라고 말할 수 있다.

anova에 대한 이미지 검색결과

 

세 개 이상의 모평균을 비교하는 경우라도 두 개의 모평균 비교에 사용했던 t-검정(z-검정도 마찬가지이지만)을 적용할 수 있다. 모평균을 한 쌍씩 묶어서 t-검정을 실시한 다음 그 결과를 수학적으로 결합하면 될 것이다. 문제는 그렇게 할 경우 매 검정마다 제1종 오류()가 발생하게 되고 신뢰계수가 검정 횟수만큼 곱해지기 때문에 연구자가 통제하려는 제1종 오류가 크게 증가하게 된다.

예컨대 95% 신뢰수준으로 모수 추정이나 가설 검정을 하기 위해 세 차례 t-검정을 실시한다면, 신뢰계수는 0.95*0.95*0.95=0.857이 된다. 따라서 는 0.147이 될 것이다. 즉, 연구자가 원하는 만큼 제1종 오류를 통제할 수 없게 된다는 말이다.

그래서 세 개 이상의 모평균 비교에는 기술적으로 두 개의 모평균 비교와는 다른 방법이 적용된다. 핵심은 분산(VARIANCE)을 사용한다는 점이다. 그래서 이름이 분산분석이다. 자, 이제 차근차근 예제를 보면서 분산분석을 공부해 보자.      

[문제 1] 세 농장에서 옥수수를 생산하는데, 각각 살충제를 다른 방식으로 살포하였다. 재배를 마친 후 수확 상태를 조사해서 다음과 같은 결과를 얻었다. 이 데이터를 가지고 살충제의 살포 방법에 따라 옥수수의 수확량에 차이가 있다고 추정할 수 있을까?(김은정, 2017: 279 변형)

자연과학, 사회과학을 막론하고 경험 과학(empirical science)에서 지식을 얻는 방법은 실험과 관찰이다. 그런데 실험과 관찰을 찬찬히 뜯어보면 과학적 인식의 핵심은 비교(comparison)임을 알 수 있다.

실험에서는 처치 집단(treatment group)과 통제 집단(control group)을 비교하여 처치의 효과를 판단하고, 관찰에서도 어떤 기준값과 비교하거나 사례들을 비교하여 인과관계를 추론하거나, 차이(difference), 성과(outcome) 혹은 효과(effects)를 판단한다.

ANOVA(Analysis of Variance, 분산 분석)는, 집단들의 비교에 널리 사용되는 통계 도구이다. 기본적으로 ANOVA는 특정한 변수에 관해 집단들의 평균을 비교하며, 분산(variance)을 가지고 그 비교를 통계적으로 판단한다. 그래서 평균들을 비교함에도 불구하고 이름이 분산 분석이다.

[문제 1]을 보면, 세 곳의 농장에서 일종의 의사 실험(quasi-experiment)을 시행했다. 같은 살충제를 다른 방식으로 살포하고 어떤 방식이 더 좋은 지를 알아보는 조사이다. 그 방식이란 살충제 살포 시점이나 횟수에 관한 것이 아닐까 짐작된다. 살충제를 언제, 혹은 몇 번이나 살포하는가가 병충해 예방에 영향을 많이 미치기 때문이다.

농장 I, II, III은 각각 8군데의 밭이 있는데, 농장별로 살충제를 서로 다른 방식으로 살포하고 가을에 수확량을 조사했다. 세 농장의 수확량(100 평방미터당) 평균을 계산하면, 농장 I은 228.25 kg, 농장 II는 226.625 kg, 농장 III은 230.25 kg이다. 세 농장의 수확량 평균에 차이가 있음은 분명하다.

그러나 그 수치들만 봐서는 그 차이가, 살충제 살포방식이 달라서 나온 결과(차이)인지, 아니면 살충제 살포방식과는 상관없이 그냥 우연히 발생한 결과(차이)인지를 알 수가 없다. 그것을 통계적으로 판단할 수 있도록 도와주는 도구가 ANOVA이다.

ANOVA는 집단 간의 변이(between variability)집단 내의 변이(within variability)보다 충분히 크면, 집단들의 평균이 서로 다른 모집단에서 나온 것으로 추정하고, 조치(treatment, 독립변수: 이 사례에서는 살충제 살포방식)의 효과가 있다고 판단한다. 반대로 집단간의 변이가 집단 내의 변이보다 그다지 크지 않으면, 집단들의 평균이 하나의 공통 모집단으로부터 나온 것으로 추정하고, 조치의 효과가 없다고 판단한다.

집단 간의 변이와 집단 내의 변이의 비율은, 위 식에서처럼 집단 간 편차 제곱의 합(MSC, 처리 제곱의 평균이라고도 함)집단 내 편차 제곱의 합(MSE, 잔차 제곱의 평균이라고도 함)의 비율로 구한다.

MSC와 MSE는 다음과 같이 구할 수 있다.

그렇다면 문제는 SSC, SSE, , 를 구하는 것으로 압축된다. 그 값들은 아래 식들로 계산된다. SST는 총 제곱의 합, SSC는 처리 제곱의 합, SSE는 잔차 제곱의 합이다.

이 세 가지 제곱 합 사이에는 다음과 같은 관계가 성립한다. . 그래서 SST는 SSC와 SSE로 분해된다고 표현되기도 한다. SST는, 각 관측값에서 전체 평균을 뺀 편차를 제곱하여 더한 값이다.

(=j번째 집단의 i번째 관측값; =전체 평균; 은 집단 j의 관측값 수; k는 집단 수)

SSC는 각 집단의 평균에서 전체 평균을 뺀 편차에 각 집단의 관측수를 곱해서 모두 합한다.

(k=집단 수; j=j번째 집단; =j번째 집단의 관측값 수; =j번째 집단의 평균; =전체 평균)

SSE는 각 집단의 편차제곱의 합을 모두 더 한다.

(=j번째 집단의 분산) 혹은 공식을 가지고 구한다.

자유도는 아래 공식으로 구할 수 있다. 집단 간 제곱의 평균을 구하는 데 필요한 자유도는 집단의 수 빼기 1이며, 집단 내의 제곱의 평균을 구하는데는 총 관측 수에서 집단의 수를 빼면 된다.

, (k=집단 수; =전체 관측값 수)

이렇게 구한 F ratio, 즉, F 값은 F 분포를 이룬다. F 분포는 위의 두 가지 자유도(degree of freedom)에 의해 결정된다. 따라서 F 값, , 를 알면 p 값을 구할 수 있다. 아래 그림은 [문제 1]의 데이터를 가지고 세 가지의 편차를 구한 결과이다. (이 문제를 MS 엑셀을 사용해 풀어놓은 파일을 보려면 이 링크를 클릭하시오.)

여기서 전체 편차를 제곱하여 더하면 SST를 구할 수 있고, 그룹 간 편차를 제곱하여 더하면 SSC를, 그룹 내 편차를 제곱하여 더 하면 SSE를 구할 수 있다. MS 엑셀에서 함수 SUMSQ를 사용하면 쉽게 제곱 합을 구할 수 있다. 다음 그림에 보듯이 총 제곱합의 구하는 함수는 =SUMSQ(E2:G9)이다.

총 제곱합(SST)는 129.625, SSC(처리 제곱합)은 52.75, SSE(잔차 제곱합)은 76.875이다. 아래 그림에서 보듯이 이 편차제곱의 합들이 분산분석표의 두 번째 열을 구성한다. 이 그림은 엑셀이 제공하는 추가기능인 ‘데이터 분석’을 수행한 결과이다. 제곱합의 수치들이 정확히 일치함을 볼 수 있다.

처리제곱 평균(MSC)은 처리 제곱합을 그것의 자유도로 나누어 준 26.3757이고, 잔차제곱 평균(MSE)은 그것의 자유도 21로 나누어 준 3.660714이다(네 번째 열 참조). F 비(ratio)는 26.3757/3.660714 = 7.204878이다. 그것의 확률인 p-값은 함수 FDIST를 사용하면 구할 수 있다. p-값은 0.004145로 0.05보다 훨씬 작다. 이 결과를 가지고 우리는, 살충제의 살포방식이 옥수수 생산에 상당히 의미 있는 영향을 미친다고 결론을 내릴 수 있을 것이다. 즉, 농장 III에 적용한 방식이 가장 효과적이고, 농장 II에 적용한 방식이 가장 비효과적으로 판단한다. 실제 분산분석을 수행할 때 직접 평균, 편차, 제곱합 등을 구하는 경우는 없을 것이다. 통계 소프트웨어를 사용하면 순식간에 필요한 값들을 모두 얻을 수 있기 때문이다.

엑셀의 자체 추가기능인 데이터 분석에서도 일원 배치법 분산 분석을 적용하면 한꺼번에 모든 값을 얻을 수 있다. 다만 엑셀에서는 데이터 분석 기능을 모바일 버전에서는 사용할 수 없다는 함정이 있다. 때문에 자주 사용하는 함수들은 사용법을 익혀두면 편리할 것이다.

어떤 통계 도구도 그러하듯이 ANOVA도 적용하는데 갖춰야할 조건이 있다. ANOVA는 꼭 실험이라 아니라도 독립변수가 범주형이고, 종속변수(혹은 반응 변수)가 수치형이면 사용할 수 있다. 그리고 종속변수의 모집단이 정규분포를 따라야 한다. 다만 표본의 크기가 모두 같다면, 이 가정은 크게 중요하지 않다.

다음 두 문제를 직접 풀어보기 바란다.

[문제 2] 어떤 대학에서 학생들을 상대로 대학생들의 학습 능력을 연구한다고 하자. 연구자들은 그 대학에서 오래 공부할수록 학습 능력이 향상되는 지 알고 싶다. 그러기 위해 1학년, 2학년, 3학년에서 각각 8명씩 무작위 표본을 추출하여, 100점 만점의 학습 능력 테스트를 시행하였다. 다음 표는 그 결과이다. 이 데이터를 가지고 대학에서의 공부가 학생들의 학습 능력을 향상시킨다고 주장할 수 있을까?

[문제 3] Consumer Report는 미국 South Carolina 주 소재 풀 서비스 식당들의 식사 가격을 조사하였다. 세 가지 유형의 식당을 각 8곳씩 조사한 결과는 다음과 같다. 이 데이터를 가지고 세 가지 유형의 식당에서의 한 끼 식사 평균 가격이 다르다고 추정할 수 있을까?(Anderson, 2016: 542)

<참고 문헌> Anderson, David R, et.. (류귀열/김창규/최승은/김민중/이성철 역). 2016. <앤더슨의 통계학(Essentials of Modern Business Statistics)>. 한올. 김은정. 2017. <사회조사분석사>. 학진북스.

명예퇴직을 신청하다

지난 10월 28일 학교 당국에 명예퇴직서를 제출했다. 며칠 동안 고민을 한 끝에 그렇게 하는 것이 현재 나로서 최선이라는 결론을 내렸다.

한양대에 마흔둘에 입사해 육십다섯에 퇴직하니 남들보다 한참 늦게 들어가서 남들보다 조금 일찍 나오는 셈이다. 정보사회학과 학생들이 모두 졸업할 때까지 남아주지 못해 학생들에게 미안할 뿐 그 외에는 전혀 아쉬움이 없다. 내가 학과를 만들지는 않았지만 정보사회학과 생기면서 한양에 부임했고, 내가 학과를 없애지 않았지만 정보사회학과 없어지면서 한양을 떠난다.

한양에 들어가면서, 길어야 25년이 되지 않을 교수생활이니 좌고우면하지 말고 이곳에서 커리어의 승부를 내자는 내 결심이 별로 잘못되지 않았던 것 같다. 대학당국은 내게 충분한, 아니 분에 넘치는 자유와 존중을 주었고 학생들은 내 열정에 잘 호응해 주었다. 남부럽지 않은 호사였다. 대학원이 약한 점은 아쉬웠지만 어느 직장에 간들 그 정도의 아쉬움이 없겠는가.

지난 해 11월 21일 여기에 공적 생활을 마감한다는 글을 올리고(공적 생활을 마감하며….) 직업 이외의 공적 활동을 끝냈으니, 1년만에 직장 생활을 마감하는 글을 올리게 되었다. 내년 3월부터는 거의 사적인 생활만 남는다.

아마도 내게는 은퇴의 충격이 그렇게 크지 않을 것이다. 이미 8년 전부터 은퇴 후의 삶을 기획하고 추진해 왔으니, 충분하지는 않겠지만 나름 단단히 준비했다는 생각이다. 아름다우면서도 그닥 불편하지 않은 곳에 새로운 터전을 잡았고, 시골생활에 대한 적응을 충분히 했다. 넉넉하지는 않겠지만 적어도 자식들에게 재정적인 부담을 주지 않을 정도의 재정도 확보했다. 시골에서는 대도시에 비해 생활비가 훨씬 적게 든다는 점도 도움이 될 것이다. 은퇴 후에는 수입을 늘리려고 애쓰기 보다는 수입에 맞춰 사는 게 현명할 것인데 시골생활은 그점에서 크게 이롭다.

멀리 떨어진 직장에 다니면서 전원생활을 유지하기 쉽지 않았지만 12년을 그렇게 살았다. 국내 최고 명의라는 의사가 회복불능이며 머지않아 시력을 완전히 잃게 될 것이라는 진단을 내린 지 13년이 되었지만 나는 앞을 잘 보고 있다. 내 눈을 7~8년 동안 보살펴 준 지금의 주치의는 2년 전 내게 “난 당신이 녹내장이라는 사실도 의심스럽다”고 의아해 했다. 시신경이 급속히 죽어가는 현상이 멈춰 버린 것이다.

육십 전에 실명할 것이라는 두려움을 안고 살았는데 지금까지 앞을 잘 보면서 강의를 해왔고 이렇게 멀쩡히 글을 쓰고 있다. 거의 기적같은 일이 일어난 것이다. 그에 대해서는 깨끗한 공기와 맑은 물, 그리고 작은 스트레스의 전원생활을 빼고는 설명할 길이 없다. 한번도 녹내장 약을 쓴 적이 없고 수술을 받은 적도 없기 때문이다. 현대 의학이 내 눈에 해준 게 없다.

큰 질병에 관해서는 세 주체의 역할이 있다는 생각이다. 하느님이 하시는 역할, 의사가 하는 역할, 그리고 환자 자신이 하는 역할이 그것이다. 나는 환자로서의 역할을 충실히 했다. 의사는 별로 한 일이 없다. 그렇다면 오늘날 내 눈의 건강은 하느님의 선처였는지도 모르겠다.

아무튼 건강으로 인한 몇 차례의 고비를 잘 넘기고 교수생활을 마치게 되어 정말 기쁘다. 정년을 다 채우지는 못했지만 예상보다 훨씬 오래하지 않았는가. 하느님께 감사할 따름이다.

이제 전임 교수로서 한달 보름 정도의 강의가 남았다. 학생들에게도 내게도 즐거움이 가득한 수업이 되도록 해야겠다.  (2019-11-02)

10월 마지막 날의 정원

상록수인 남천이지만 가을이 되면 잎이 붉게 물든다. 단풍나무보다 먼저 단풍이 드는 셈이다.
킨세카이(장미)가 올해 거의 마지막 꽃을 피우고 있다. 눈이 내리면 꽃이 얼어붙고 그렇게 한 해가 끝날 것이다.
버베나파라솔의 꽃이 참 오래간다. 여름을 지나 가을이 끝나기까지 꽃을 보여줄 기세이다.
붉은 빛 버베나파리솔.
꽃 이름을 잊었다. 가을에 너무 잘 어울리는 빛깔이다.
노랑 국화. 가을 뭐니뭐니해도 국화의 계절이다.
겨울을 나게 하기 위해 제라륨 화분을 온실로 옮겼다. 오염된 흙을 쓴 탓에 고생고생해서 살아남은 꽃이다.
패랭이꽃인 것 같은데, 이 꽃도 여름부터 가을까지 화단을 지키고 있다.
꽃마차 화분에 심어놓은 펜타스도 한 달째 꽃을 피우고 있다. 겨울에는 꽃마차에 패인팅을 해줘야겠다.
용담은 늦가을에 피는 꽃이다. 붉은 빛 용담은 아직 피지 않았다.
국화도 예상보다 오래간다. 꽃집 주인이 2-3주 갈 것이라고 했는데 벌써 한달이 넘은 것 같다.
백일홍은 집 정원에 심을 꽃은 아닌 것 같다. 너무 번식력이 강해서 주위의 다른 꽃들을 모두 밀어버린다.
초대받지 않은 메리골드. 꽃이 참 오래 간다.
은목서의 꽃도 핀지 2주는 지났는데 아직 향기를 내뿜고 있다.
삼색제비꽃. 눈에 뜨지 않을 정도로 작은 꽃이지만 두 가지색의 꽃을 함께 지녀 묘하게 매력적이다.
수국 중 가장 오래 피어있는 핑크에나멜. 위태위태하면서도 비바람을 잘 넘겼다.
이 꽃의 이름도 잊어버렸다. 백일홍만큼이나 번식력이 좋아 내년에도 심을지 재고해 봐야겠다.
비록 지기 직전이지만 맨드라미가 아직 피어있다. 마치 충성스런 군사처럼 오래오래 화단을 지키고 있다.

두 평균의 비교(3): 등분산 가정 및 대응표본의 경우

등분산 가정의 경우

실제로 그런 경우는 아주 드물겠지만 비교하는 모집단의 분산(즉, 표준편차)이 같을 경우가 있을 것이다. 그런 경우는 아래와 같이 표시된다.

두 모집단의 평균 차이의 신뢰구간은 앞에서 공식 (7)을 가지고 추정되었다.

그런데, 만약 두 모집단의 분산이 동일하다면 공식 (7)이 아래처럼 단순화될 수 있다.

이를 간명하게 다시 쓰면,

그런데 현실에서는 모집단의 표준편차 가 알려져 있지 않으므로 추정치로 바뀌어야 한다. 그런데 그 추정치는 합동표본분산(pooled sample variance)이며 통상 로표시된다. 그러면 공식 (7-2)은 공식 (13)으로 바뀐다.

여기서는 를 어떻게 구하는가가 관건일 것이다. 아래 식처럼 합동표본분산은 각 표본의 편차제곱의 합을 더한 다음, 그값을 두 표본의 자유도 합계 로 나누어 구한다.

그리고 공식 (13)을 적용하려면 자유도를 구해야 한다. 자유도는 공식 (14)의 분모에 사용된 것과 동일하다.

가설검정에 필요한 검정통계량 t의 값은 다음과 같이 구할 수 있다. 식 (13)에서 표준오차는 아래와 같이 추정되었다.

그러면 t 검정통계량은 다음과 같다.

두 모집단의 표준편차가 동일하다는 가정이 충족되기는 매우 어렵다. 대부분의 경우 모집단의 표준편차가 다르기 때문이다. 그러나 두 모집단의 표준편차를 모를 경우, 공식 (7-1), (10-1), (11) 대신, 단순화된 공식 (13), (15), (17)을 사용해서 평균차이를 추정하거나 가설검정을 해도 무방할 것이다(Wonnacott & Wonnacott, 1985: 232). 어차피 두 모집단의 표준편차를 모르는데, 그 둘을 같다고 해도 가정해도 되지 않겠는가.

대응표본(paired sampes, matched smaples)의 경우

고등학교의 한 학급에서 중간고사 성적과 기말고사 성적을 비교한다고 하자. 그냥 학급 전체를 통으로 묶어서 중간고사 성적 평균과 기말고사 성적 평균을 비교할 수도 있겠지만, 학생 개인별로 중간고사 성적과 기말고사 성적을 비교한 결과를 종합하는 방법도 있을 것이다.

각 학생의 성적이 얼마나 변했는지를 보려면, 중간 성적과 기말 성적의 차이를 구하면 될 것이다.

모든 학생의 성적 차이(변동)를 구하면 그 차이 데이터는 하나의 표본으로 간주될 수 있다. 그렇다면 그것은 하나의 표본 평균으로 하나의 모집단 평균을 추정하는 경우와 동일할 것이다. 즉, 먼저 (성적 차이)의 평균인 를 구한다. 이 표본평균을 가지고 모집단 평균(라고하자)에 대한 구간추정을 할 수 있다.

가설검정을 위해서는 검정통계량 t의 값을 구해야 한다. 대응표본의 검정통계량 는,

그리고 대응표본의 자유도는 이다.

대응표본 설계는 독립표본 설계에 비해 이점이 많다. 왜냐하면 짝지음(pairing)은 다른 외생변수(extraneous variables)를 통제할 수 있는 대응(match)이기 때문이다.

(예제 1) 어떤 고등학교의 한 학급의 기말 성적과 중간 성적의 차이를 추정하고자 한다(95% 신뢰수준). A, B, C, D라는 학생의 성적이 있다.

학생 이름중간고사 성적기말고사 성적
A6454
B6654
C8970
D7762

먼저 데이터로부터 를 계산할 수 있다(아래 엑셀 결과 그림 참조). 자유도 3일 때 오른쪽 검정 0.025의 t-값은 3.18이다. 이 값들을 공식 (18)에 대입하면,

그 학급은, 중간 성적 평균이 기말 성적 평균보다 최저 8점, 최대 20점이 더 높거나, 아니면 그 사이 어느 점수이다.

연구자가 중간 성적 평균과 기말 성적 평균이 다른지를 알고 싶다면, 그것을 대립가설()로 놓고, 영가설은 그 반대인 중간 성적 평균과 기말 성적 평균이 같다()로 놓아 가설검정을 수행할 수 있을 것이다. 검정통계량 t를 구하기 위해 공식 (19)를 사용하면,

자유도 3인 t-분포에서 t-값 7.14의 양측검정 p-값은 0.006이다. 이 값이 유의수준 0.05보다 작으니 영가설이 기각된다. 따라서 그 학급의 중간 성적 평균과 기말 성적 평균은 다르다고 추정된다.

대응표본 가설 검정은 엑셀의 데이터 분석에서 ‘쌍체비교’ t-검정을 이용하여 수행될 수 있다. 아래는 그 결과이다. 공식 (19)를 이용해서 수작업으로 구한 t-값과 엑셀로 구한 t-값이 일치함을 볼 수 있다.

 

(예제 2) 어느 공장의 노동자들이 생산할 때 생산 방법 1과 생산 방법 2라는 두 가지 방법을 사용한다고 하자. 생산 방법 1로 생산한 제품의 모집단 평균 생산 시간을 이라 하고, 생산 방법 2로 생산한 제품의 모집단 평균 생산 시간을 라고 하자. 이중어느 생산 방법이 더 빠른가에 대해 알려진 것이 없으므로 두 방법의 모집단 평균 시간은 같다고 하자.그렇다면영가설은 이된다. 이 가설을 기각한다면 모집단의 평균 생산 시간은 다르다(대립가설)고 결론 낼 수 있을 것이다. 영가설과 대립가설은 다음과 같다. 신뢰수준 95%에서 가설을 검정하시오.

노동자생산방법 1의 생산시간(단위:분)생산방법 2의 생산시간(단위:분)
16.05.4
25.05.2
37.06.5
46.25.9
56.06.0
66.45.8

데이터로부터 를 얻었다. 이 값들을 공식 (19)에 대입하면,

자유도 5인 t-분포에서 t-값 2.19의 양측검정을 위한 p-값은 0.08이다. 이 값이 0.05보다 크므로 영가설을 기각할 수 없다. 따라서 두 생산방식의 평균 생산시간은 다르지 않다고 결론지을 수 있다. 엑셀의 데이터분석 중 ‘쌍체비교 t-검정’이용해도 동일한 검정통계량 t-값과 양측검정을 위한 p-값을 얻을 수 있다(아래 그림 참조).

두 모집단의 평균 차이에 대한 구간추정은 공식 (18)을 이용하여 다음과 같이 수행할 수 있다.

오차범위가 0.35이며, 두 생산방법의 모집단 평균 차이에 대한 95% 신뢰구간은 -0.05분부터 0.65분까지이다.

마지막으로 구간추정과 가설검정에 필요한 표본의 크기에 대해 한 마디 덧붙인다. 모집단의 표준편차를 알고 있는 경우에 z-분포를 적용했는데, 그 때에는 각 표본의 크기는 30 이상이 바람직하다. 표본 둘 중 하나 혹은 둘 다 30 미만이면 모집단의 분포가 정규분포에 근사한다는 가정이 필요하다.

모집단의 표준편차를 몰라서 t-분포를 적용할 때는, 비교적 작은 표본으로도 가능하다. 두 표본수의 합이 20 이상이면 비록 모집단이 정규분포를 따르지 않아도 좋은 결과를 기대할 수 있다. 단, 모집단이 심하게 편포되어 있으면 표본이 좀 커야 하며, 표본이 작다면 모집단이 정규분포에 근사하다는 조건이 충족되어야 할 것이다.

이상으로 두 모집단의 평균비교를 학습했다. 그것이 단일 모집단의 평균을 추정하는 논리와 다르지 않음을 느꼈으리라 생각한다. 비록 모집단이 두 개가 되니 여러가지 상황이나 계산이 다소 복잡해지기는 했지만 말이다. (2019-10-20)

두 평균의 비교(2): 두 표준편차를 모르는 경우

앞 포스팅에서 공식 (7)은 두 모집단의 표준편차를 알고 있을 신뢰구간을 추정한다.

두 모집단의 표준편차인 를 모를 때는 표본의 표준편차인 를 이용하여추정하고, 대신 를 사용한다. 그러면 두 모집단의 표준편차를 모를 때 두 모집단의 평균차이에 대한 구간추정은 아래식과 같을 것이다.

또한 앞 포스팅에서 공식 (10)은 두 모집단의 표준편차를 알고 있을 때 가설검정을 위한 식이다.

두 모집단의 표준편차를 모를 때는 식이 아래와 같이  바뀐다.

문제는 t-분포를 사용하려면 자유도를 알아야 하는 데 자유도를 계산하는 식이 아래처럼 복잡하다.

자유도 구하는 공식이 상당히 복잡하지만 염려할 필요는 없다. 그 공식을 사용해서 직접 구하는 경우는 거의 없을 것이니. 통계 소프트웨어가 적절한 자유도를 자동으로 계산해 줄 것이다. 공식 (7-1), (10-1), (11)을 사용하면 두 모집단의 표준편차를 모를 때 모평균 차이에 대한 신뢰구간을 구하거나 가설 검정을 수행할 수 있다. 예제를 가지고 공식을 적용해 보자.

(예제) 두 개의 큰 학급이 영어 시험을 치뤘다. 한 학급(학급 1)에서 뽑은 네 명의 성적은 64, 66, 89, 77이고, 다른 학급(학급 2)에서 뽑은 세 명의 성적은 56, 71, 53이었다. 두 학급의 성적 차이에 대한 95% 신뢰구간을 구하시오.

(해제) 학급 1의 표본평균()은 74.0점이고, 학급 2의 표본평균()은 60점이다. 공식 (7-1)을 적용한다.

다음에는 공식 (11)을 이용해서 자유도를 구해서 를 계산하자.

자유도가 5일 때 이다. 이 값을 식 (12)에 대입하면,

이 결과를 말로 표현하면, 학급 1의 평균은 학급 2의 평균보다 7이 작거나, 35가 크다. 혹은 그 사이 어딘가이다.  이 경우 표본들이 아주 작아서 표집오차가 크게 허용됨을 알 수 있다.

이번에는 가설 검정을 해보자. 두 모집단의 평균이 다르다는 연구 가설을 검증해 보자. 이 연구 가설은 대립가설이 되고, 이와 반대되는 명제인 두 모집단의 평균이 같다는 영가설이 될 것이다. 이 가설들은 아래와 같이 표기된다. 신뢰수준은 95%이다.

그러면, 위 공식 (10-1)을 적용할 수 있다.

자유도 5일 때 t-값이 1.75이면, 오른쪽 단측검정의  p-값은 0.07이다. 양측검정이니 이 값을 두 배하면, 0.14이다. 이는 유의수준 0.05보다 크다. 따라서 영가설을 기각할 수 없으며, 두 모집단의 평균이 다르다고 판단된다. 즉, 학급 1과 학급 2의 성적은 다르다고 추정된다.

평균비교는 MS 엑셀의 ‘데이터 분석’이라는 애드인(MS 자체 제공)을 이용하여 손쉽게 수행할 수 있다. ‘데이터 분석’의 하위 메뉴를 보면, t-검정과 z-검정이 있다. t-검정에는 ‘쌍체비교’, ‘등분산 가정 두 집단’, ‘이분산 가정 두 집단’이 있다. 이 예제는 ‘이분산 가정 두 집단’의 t-검정에 해당된다.

입력 창이 나타나면, 두 변수의 입력 범위를 넣고, ‘가설 평균차’에 0, ‘유의수준’에 0.05을 넣으면 된다. 그런 다음 확인을 누르면 바로 아래와 같은 결과를 얻을 것이다.

위 표를 보면, 자유도는 5, t-값은 1.75, 양측 검정 p-값은 0.14이다.

다음 포스팅에서는 등분산 가정 두 집단과 쌍체 비교 t-검정을 해보자. (2019-10-19)

두 모평균의 비교(1): 두 표준편차를 알고 있는 경우

현실에서 우리는 자주 두 모집단을 비교한다. 예컨대 우리는 두 반이나 두 학교의 모의고사  성적을 비교한다. 그럴 때 우리는 두 모집단의 성적 평균을 산출하여 비교하거나 두 모집단에서 표본을 추출하여 표본평균을 구하고 그것을 비교하여 모집단 성적 평균을 추정 한다.

두 모집단의 평균 비교는 앞에서 설명한 한 모평균의 구간 추정과 가설 검정의 첫 번째 확장이라고 볼 수 있다. 그렇다면, 두 모집단의 평균 비교에서, 1) 영가설에서 도출된 모수는 무엇인지, 2) 그 모수의 확률분포는 어떤 모습인지, 만약 그것이 t-분포를 이룬다면 자유도는 어떻게 구할 것인지, 3) 모표준편차를 모를 경우 표준오차를 어떻게 추정할 것인지, 4) 검정통계치를 어떻게 계산할 것인지, 5) 신뢰구간이나 가설 검정에 대한 최종 판단은 어떻게 할 것인지를 차근차근 알아보면 될 것이다.

다만 모집단이 두 개이기 때문에 발생하는 변이가 있다. 두 모집단의 평균을 비교할 때 대개의 경우 두 모집단은 서로 별개(독립적)로 존재한다. 그런데 두 모집단이 특별한 관계를 갖고 있는 경우도 있다. 모집단의 구성원은 동일한 데 그 구성원들이 두 가지 다른 행동이나 과업을 수행하여 마치 두 개의 모집단처럼 간주되는 경우가 바로 그것이다. 이 경우 표준오차를 어떻게 처리할 것인지에 대한 설명이 추가로 필요하다.

상호 독립적인 두 개의 모집단의 평균 비교: 두 모집단의 표준편차()를 알고 있는 경우

두 모집단의 평균은 통상 아래와 같이 그 차이를 가지고 비교될 수 있다.

이 차이가 추정되는 모집단 목표이다. 그것에 대한 합리적인 추정값은 아래 식에 표시된 것처럼각 모집단으로 부터 추출된 표본으로부터 구한 평균의 차이가 될 것이다.

우리가 알고 있는 단일 모평균의 신뢰구간을 구하는 공식을 응용하면 식 (2)를 가지고 식(1)의 신뢰구간을 아래와 같이 추정할 수 있다.  우리가 알고 있는 단일 모평균의 신뢰구간을 구하는 공식은 아래와 같다.

공식 (3)에서 은 표준오차(평균의 확률분포의 표준편차)이다. 공식 (3)을 이용해서 식 (2)로부터 식(1)을 추정하는 공식은 다음과 같이 쓸 수 있을 것이다.

표준오차가 에서 로 바뀌었다.두 모집단의 평균 비교를 위한 표준오차는 다음과 같이 구해진다.

는, 두 모집단이 독립적이라고 가정되었음으로  당연히 두 표본은 서로 독립적이고, 따라서 독립적인 두 확률변수의 선형결합이다. 따라서 그것의 분산(variance)은 아래와 같이 계산된다.

두 평균 차이의 분산은 각 평균 분산을 합한 값이다. 그런데 이므로  식 (5)는 아래와 같이 표시된다.

따라서,

즉, 평균 차이의 표준오차는 두 모집단 분산의 합을 양의 제곱근한 값이다.  이제 식 (6)을 공식 (4)에 대입하면 두 모집단 평균 차이에 대한 신뢰구간 공식이 구해진다.

두 모집단이 정규분포이거나 중심극한정리를 적용할 수 있을 만큼 표본의 크기ㅏ가 커서 의 표집분포가 정규근사 한다면 의 표집분포는 평균이 인 정규분포가 될 것이다.

공식을 구했으니, 예제를 풀어보자.

(예제) 홈스타일(HomeStyle)은 도심과 교외 쇼핑센터의 두 매장에서 가구를 판매하고 있다. 매장 관리자는 이 두 매장의 판매 패턴 차이가 두 지역의 인구통계학적 차이에 기인한다고 생각하였다. 그래서 두 매창 고객들의 평균 나이 차이에 대해 조사하라고 지시하였다. 이전에 실시한 인구통계조사를 통하여 두 모집단 표준편차가 임을 알고 있다. 도심 매장에서 추출한 표본의 크기는 36이고 평균은 40이며, 교외 매장에서 추출한 표본의 크기는 49이고 평균은 35이다. 두 매장의 쇼핑객 평균 나이의 차이에 대한 95% 신뢰구간을 구하시오.

(풀이) 모집단 1은 도심 매장 쇼핑객, 모집단 2는 교외 쇼핑객 이라고 하자.

= 모집단 1의 평균(도심 매장 쇼핑객의 평균 나이)

= 모집단 2의 평균(교외 매장 쇼핑객의 평균 나이)

이 데이터를 공식 (7)에 대입하면,

이므로 식 (8)은 아래와 같이 정리된다.

표본평균 차이는 5이고, 표준오차는 2.07이고,  오차범위가 4.06이다. 따라서 두 모집단 평균차이의 95% 신뢰구간 추정값은 0.94(살)에서 9.06(살)까지이다.

두 모집단 평균차이에 대한 가설검정을 알아보자. 단일 모평균에 대한 가설을 검정할 때, 표본평균에서 영가설로부터 도출된 모평균을 뺀 값이 표준오차의 몇 배인가를 보여주는 표본통계치 z나 t값을 구해서(식 (9) 참조) 그것의 p-값을 구하고, p-값과 유의수준을 비교하여 영가설에 대해 판단하였다.

두 모집단의 평균차이의 경우 가설검정은 신뢰구간 추정보다 다소 복잡하다. 우선 설명을 간명하게 하기 위해 라고하자. 그렇다면 세 가지 경우가 나올 것이다. 먼저 두 모집단의 평균이 같다는 영가설과 두모집단의 평균이 다르다는 대립가설을 설정할 수 있다. 양측 검정의 경우가 될 것이다.영가설이 기각되면 두 모집단의 평균 차이가 통계적으로 유의미하다고 판단된다.

다음에는 모집단 1의 평균이 모집단 2의 평균보다 같거나 크다는 영가설을 설정할 수 있다. 그러면 대립가설은 모집단 1의 평균이 모집단2의 평균보다 작다가 될 것이다.

끝으로 모집단 1의 평균이 모집단 2의평균보다 같거나 작다는 영가설을 설정할 수 있다. 그러면 대립가설은 모집단 1의 평균이 모집단 2의 평균보다 크다가 될 것이다.

위의 식 (9)를 원용하여  에 대한 가설검정에서의 검정통계치를 계산하는 공식이 아래와 같이 도출된다(두 모집단의 표준편차가 알려져 있는 경우).

표본통계치 값을 구하면 p-값이 산출된다.

위의 홈스타일 가구의 두 매장 사례를 가지고 가설 추정을 해보자. 만약 두 매장의 쇼핑객 평균 나이에 차이가 있는지를 알아본다면, “두 매장 쇼핑객 평균 나이가 다르다”를 대립가설로 두고, “두 매장 쇼핑객 평균 나이가 같다”를 영가설로 두는 양측 검정이 될 것이다.

우리가 가진 정보는 아래와 같다.

이 정보를 공식 (10)에 대입하여 표본통계치를 구한다.

z-값이 양수이므로 오른쪽 단측검정을 하면, p-값 = 0.008이다. 양측검정을 위해 이를 두 배하면 0.016이다. 이 값은 유의수준 0.05(95% 신뢰수준)보다 작다. 따라서 두 모집단의 평균이 같다는 영가설은 기각되고, 두 매장 쇼핑객의 평균 나이가 다르다고 결론을 내릴 수 있다. (2019-10-19)

가설검정의 원리(요약)

조사연구자는 어떤 모집단의 구조나 특성 혹은 트렌드에 관심을 갖는다. 그것을 전문가들은 흔히 모수(퍼라미터, parameter)라고 부른다. 모수를 추정하거나 모수에 대한 가설을 검정하는 작업은 모두, 한 마디로 모수를 알아내려는 노력이다. 모수를 파악한다는 것은, 사회과학자들에게는 사회조직과 사회 전체를 이해하는 것을 의미하며, 자연과학자들에게는 자연과 우주를 이해하는 것을 의미한다. 모수 추정과 가설 검정은 그만큼 커다란 무게를 지닌다.

가설(hypothesis)이란, 조사연구자가 연구 대상 모집단에 대해 갖고 있는 인식–그것은 이론일수도 있고, 선입견일 수도 있으며, 막연한 추측일 수도 있다–을 압축적으로 표현한 명제이다. 가설이 진실(truth) 혹은 현실(reality)로 인정받기 위해서는 반드시 경험적 데이터(혹은 사실들, facts)에 의해 검증되어야 한다. 그것이 실증과학의 입장이다.

특히 신실증주의 과학관에 의하면 어떤 연구 가설이나 이론도 경험적 데이터에 의해 직접 증명될 수 없다. 경험적 데이터는 오직 우회적인 방법에 의해서만 가설에 대해 발언할 수 있을 뿐이다. 우회적 방법이란, 연구 가설(그것을 대립가설, alterative hypothesis 로 둔다)에 반대되는 영가설(null hypothesis), 을 설정하고, 그 다음 경험적 데이터를 가지고 그 영가설을 검증하여 연구가설(대립 가설)을 에 대한 판단을 내리는 방식을 말한다.

관련 이미지

대부분의 경우 조사연구자는 모집단 전체를 조사할 수 없다. 거기에 들어가는 막대한 비용이나 시간을 감당하기 어렵기 때문이다. 그래서 소규모의 표본을 추출하여 설문조사를 하거나 실험을 시행하여 경험적인 데이터를 수집한다.

표본 데이터가 수집되면, 표본통계치를 구하여 영가설을 검증한다. 모평균에 대한 가설을 검증하는 경우를 살펴보면, 표본평균()을 구하고, 그 표본통계치가 (표본평균의) 표집분포의 중심으로부터 얼마나 멀리 떨어져 있는지를 계산한다. 그리고 그 거리()가 표준오차()의 몇 배인가를 계산한다. 그것이 표본통계치 z-값이다. 표집분포의 중심은 영가설로부터 추정된 이며, 표준오차는, 모집단의 표준편차()를 알고 있는 경우 공식  을 사용하여 구할 수 있다. z-값은 아래 공식으로 구해진다.

z-값을 구하면, 통계 소프트웨어를 이용하여 손쉽게 p-값을 구할 수 있다. p-값은 영가설이 참일 때 그것을 기각할 확률(제1종 오류)이다. 다시 말하면, 그것은 영가설이 참일 때, 표본조사를 통해서 우리 손에 들어온 표본통계치를 얻을 확률이다.

조사연구자는 미리 자신이 어느 정도의 확신을 갖고 영가설에 대한 판단을 내릴 것인지를 결정해 둔다. 즉, 분석을 시작하기 전에 신뢰수준을 결정해 둔다. 통상 95% 신뢰수준을 선택한다. 그러면 신뢰계수가 0.95이고, 유의수준()은 0.05이다. 유의수준은 영가설에 대한 판단을 내릴 때 조사연구자가 통제하는 제1종 오류이다. 즉, 표본통계치의 제1종 오류(p-값)가 그 기준을 넘지 않으면 영가설을 기각한다. 영가설이 참일 가능성이 작기 때문이다. 이를 간략히 표현하면,

1) 유의수준() 설정(통상 0.05)

2) p-값 계산: 아래 순서로 구한다.

3) 수준과 -값을 비교하여 영가설에 대해 판단한다.

p-value and hypothesis testing에 대한 이미지 검색결과

위의 두 번째 단계에서 모분산(모표준편차 )을 모르면 -분포를 사용해야 하기 때문에 -값을 구한다. 양측검정을 해야 하는 경우에는 -값의 단측검정에 해당되는 p-값을 구하고 그것을 2배한다.

위의 세 번째 단계에서 p-값 < 수준이면, 영가설을 기각하고, 반대로 p-값 > 수준이면, 영가설 기각에 실패한다.

이상으로 가설검정과 p-값에 대한 설명을 마친다. 편의상 모평균의 검정만을 다루었지만 이 논리는 모든 모수의 통계적 유의성(statistical significance) 검정에 적용된다. 즉, 모비율의 유의성 검정, 분산분석, 상관계수의 유의성 검정, 회귀계수의 유의성 검정, 카이자승() 검정 등 어떤 유의성 검정에서도, 유의수준을 설정하고,  p-값을 계산한 다음, 유의수준과 p-값을 비교하여 통계적 유의성을 판단한다. p-값을 구하는 과정이 다를 뿐이다.

한 마디로, 유의수준과 p-값의 비교는, 표본조사에서 발견된 차이가 단순히 표집으로 인해 우연히 발생한 것인지 아니면 정말로 모집단에 존재하는 차이 때문인지를 보여준다. 그것이 모든 가설 검정과 (통계적) 유의성 검정을 관통하는 핵심적 원리이다. (2019-10-17)

제1종오류, 임계값 방식: 가설검정의 원리(보론)

추리통계에서 p-값의 중요성은 아무리 강조해도 지나치지 않다. 앞 포스팅에서 p-값(p-value)이란 영가설()이 참일 때 표본통계치() 혹은 그 이상의 값을 얻을 확률이라고 설명했다. 또한 p-값은 영가설이 참일 때 그것을 기각할 확률이라고도 하고, 짧게는 영가설이 참일 확률이라고도 말한다.

앞 포스팅에서 필자는 통계학에서 우리는 영가설()에 대한 검정을 통해서 우리의 주장(대립가설)을 우회적으로 검증한다고 지적했다. 그런데 데이터를 가지고 영가설을 검정할 때 우리는 항상 오류를 범할 가능성을 안고 있다. 아래 표에서처럼 영가설()이 참인데 기각으로 결론을 낼 수 있고, 영가설이 거짓인데 채택으로 결론을 낼 수도 있다.

영가설이 참임에도 그것을 기각하는 오류를 제1종 오류라고 부르며, 영가설이 거짓임에도 그것을 채택하는 오류를 제2종 오류라고 부른다.

영가설이 참일 때 제1종 오류를 범할 확률을 유의수준(significance level)이라고 한다. 유의수준은 그리스 문자 로 표시한다. 유의수준은 연구자가 임의로 설정한다. 연구자는 유의수준의 설정으로 제1종 오류를 범할 확률을 통제한다.

연구자는 신뢰수준(confidence level)을 선택하는데, 사실 그것이 오류의 허용 수준을 함축하고 있다. 통상 Ronald Fisher의 예를 따라서 95% 신뢰수준, 즉, 스무번에 한번 정도의 추정 오류를 허용하면서 판단을 내리고자 한다. 신뢰수준이 95%이면 신뢰계수(confidence coefficient)가 0.95이며, 유의수준은 가 된다. 사안에 따라서는 90% 신뢰수준이나 99% 신뢰수준이 설정되기도 한다. 신뢰수준이 90%이면 유의수준이 0.10이고, 신뢰수준이 99%이면 유의수준은 0.01이다.

p-값은 하나의 표본에서 계산된 통계치(예컨대 )를 가지고 영가설을 검증할 때  연구자가 안게 되는 제1종 오류의 크기를 의미한다. 만약 이 오류의 크기(혹은 수준)–영가설이 참일 때 기각할 가능성–가 연구자가 선택한 유의수준보다 작으면 영가설을 기각한다. 다시 말해 유의수준과 p-값은 모두 제1종오류를 가리킨다. 유의수준()은 영가설에 대한 판단을 위해 연구자가 선택한 제1종오류의 수준이고, p-값은 표본통계치로부터 추정된 제1종오류의 크기이다. 가설검정에서는 그 두 가지를 비교하여 영가설에 대한 판단을 내리고 결국 그 과정을 통해서 연구자가 증명하려는 대립가설에 대한 판단을 내리게 되는 것이다.

지난 주에 발뒷꿈치의 통증이 한 달 이상 낫지 않아 류마티스 전문 내과에 다녀왔다. 그 전에 통증의학과와 다른 내과에 갔는데, 통증이 재발했기 때문이다. 병원을 다녀와 염증치료제와 진통제를 2주 이상 복용했는데, 틍증이 가라 앉는 듯하다가 처음과 같은 수준으로 재발하자 나는 통풍 때문인 것으로 확신했다. 일반 염증이라면 그런 방식으로 재발될 리가 없었다. 마음 속에서 99% 정도로 확신했다. 내 판단이 틀릴 가능성을 1% 미만으로 본 것이었다.

그런데 류마티스 전문의가 내게 말했다. 발뒷꿈치가 아플 때 그 환자에게 통풍이 있는 경우 열에 아홉은 통풍 때문이라는 것이었다. “열에 아홉”이란 자신의 판단에 10% 오류(통풍으로 인한 것이 아닐 가능성)를 허용하는 것이다. 나는 “백에 아흔아홉”정도의 확신이 있었다. 피검사와 x-레이 검사를 받았고 통풍인 것으로 진단되었다. 나로서는 전혀 놀라운 결과가 아니었다.

두 명의 의사는 오진을 했다. 진료 중 내가 통풍 증세가 있음을 고지했음에도 그들은 환자인 내 말을 무시했다. 마지막 의사는 내 말을 존중했지만 제1종 오류를 너무 크게 두었다. 그런데도 그는 엄청나게 확신을 갖고 나를 대했다.

유의수준이란 뭐 그런 것이다. 어느 정도 확신을 갖고 판단할 것인지, 다른 말로 하면 오류의 가능성을 얼마나 허용하면서 판단할 것인지를 선택하는 것이다. 제1종 오류만 통제하여 실시하는 가설 검정을 유의성 검정(significance tests)이라고 한다. 대부분의 가설 검정이 유의성 검정이다.

대부분의 가설 검정에서 제1종 오류만 통제하고 제2종 오류를 범할 확률은 통제하지 않는다. 영가설이 거짓임에도 채택할 확률이 제2종 오류이다. 제1종 오류와 제2종 오류 사이에는 trade-off관계가 있다. 제1종 오류를 줄이다보면 제2종 오류의 가능성이 커진다는 의미이다. 그러나 통상 제2종 오류는 명시적으로 통제하지 않는다. 다만 제2종 오류를 범할 위험성을 피하기 위해 통계학자들은 ‘채택’과 같은 직접적인 표현을 사용하지 않고 “기각할 수 없다”다고 표현한다. 가설 검정에서는 “영가설을 기각한다” 와 “영가설을 기각에 실패하다(혹은 기각할 수 없다)”는 두 가지 결론만을 사용한다.

표본통계치(예컨대 )로부터 z-값이나 t-값을 구하면, 오른쪽 단측검정에서는 그것보다 클 확률(p-값), 왼쪽 단측검정에서는 그것보다 작을 확률(p-값)을 구하여, 그것이, 선택한 유의수준보다 작으면 영가설을 기각한다. 제1종 오류, 즉, 영가설이 참인데 기각할 확률이 너무 작기 때문이다. p-값을 영가설이 참일 확률로 이해하면, 완전히 정확한 표현은 아니지만 기억하기 편리하다.

one-tailed test에 대한 이미지 검색결과관련 이미지

유의수준의 z-값(혹은 t-값)을 임계값(critical value)이라고 한다. 예컨대 모집단의 표준편차 를 알고 있을 때, 유의수준이 0.05이면, 임계값(z-값)은 오른쪽 단측검정에서는 1.645, 왼쪽 단측검정에서는 -1.645이며, 유의수준이 0.01이면, 임계값은 오른쪽 단측검정에서 2.33, 왼쪽 단측검정에서 -2.33이다. 오른쪽 단측검정에서는 1.645보다 큰 영역을 기각역(rejection region)이라고 하고, 왼쪽 단측검정에서는 -1.645보다 작은 영역이 기각역이 된다(위 그림 참조). 즉, z-값(혹은 t-값)이 그 영역에 속하면 영가설이 기각된다. 영가설이 참일 때 그러한 z-값(혹은 t-값)얻을 가능성이 희박한 것이니, 영가설이 참일 가능성이 매우 낮은 것이다(아래 그림 참조).

관련 이미지

물론 앞에서 보았듯이 임계값 방식 대신 p-값 방식을 사용해도 된다. 그러면 아래 그림처럼 표시될 수 있을 것이다. 앞 포스팅들에서 충분히 소개했으므로 추가 설명은 생략한다.

rejection region에 대한 이미지 검색결과

 

양측검정의 경우 임계값 방식에서는 유의수준 0.05일 때 임계값은 1.96, 유의수준 0.01일 때 임계값은 2.58이다. 따라서 표본통계치가 그 임계값보다 작으면 영가설을 기각하고,  크면 영가설 기각에 실패한다(아래 그림 참조).

two-tailed test에 대한 이미지 검색결과

임계값 방식의 경우 단측검증과 양측검증을 함께 놓고 보면 아래 그림과 같다.

two-tailed test에 대한 이미지 검색결과

 

p-값 방식을 사용하면, 단측검정의 p-값을 2배하여 유의수준()과 비교하여 영가설에 대한 판단을 내린다(아래 그림 참조).

관련 이미지

 

임계값 방식을 취하던 p-값 방식을 취하던 상관 없다. 다만 오늘날은 p-값 방식을 더 많이 사용하는 추세이다. 이상으로 가설 검정에 대한 논의를 모두 마친다. (2019-10-12)

단측검정과 양측검정: 가설검정의 원리(하)

사회과학에서 가설은 대체로 독립변수(원인이 되는 변수)와 종속변수(결과가 되는 변수) 사이의 인과관계를 나타낸다. 독립변수가 증가하면 종속변수가 증가하는 양의 관계(positive relation)이거나 독립변수가 증가하면 종속변수가 감소하는 음의 관계(negative relation)이다. 즉, 독립변수와 종속변수의 관계에 방향이 묘사된다.

예컨대 “공부를 많이 할수록 성적이 좋을 것이다” 혹은 “학력이 높을수록 소득이 높을 것이다”라는 가설은 양의 관계를 나타내고, “가족의 소득이 낮을수록 가족 스트레스의 수준이 높을 것이다” 혹은 “포용성이 높은 사회일수록 증오범죄의 발생이 낮을 것이다”라는 가설은 음의 관계를 나타내고 있다. 뿐만 아니라 “여성은 남성에 비해 평균 소득이 낮을 것이다” 혹은 “도시민은 농촌 주민에 비해 생활 스트레스가 높을 것이다”처럼 이론적으로나 상식적으로 인과관계의 방향이 예상 가능한 경우가 흔하다.

이렇게 가설에 관계의 방향이 포함되면, 모수에 대한 단측검정(one-tailed test)을 적용한다. 즉, “~~보다 크다”, “~~보다 작다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 지니면, 단측 검정이 적용된다. 영가설 아래 추정된 모평균보다 충분히 작은가를 확인하든지, 아니면 영가설 아래 추정된 모평균보다 충분히 큰가를 확인하면 된다는 말이다.

반면에 “~~과 다르다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 갖지 않으면, 양측 검정(two-tailed test)이 적용된다. 영가설 아래 추정된 모평균보다 충분히 커도 혹은 충분히 작아도 영가설이 기각된다. 사회과학에서 양측 검정이 흔하지는 않지만 그렇다고 없지는 않으므로 기억해 두는 것이 좋다.

그림을 가지고 이해해 보자. 먼저 단측 검정이다. 유의수준이 0.05(즉, 신뢰수준이 95%)일 때 표집분포(z-분포가 적용된다고 하자)에서 유의수준보다 큰 부분은 z-값이 1.645보다 큰 영역이다. 아래 그림 중 왼쪽 그림에서 파랗게 칠해진 부분이다. 만약 표본통계치가 이 영역에 떨어지면 영가설을 기각한다. 그래서 그 영역의 이름이 기각역(rejection region)이다. 표본통계치의 관찰값()이 그 영역에 떨어지면 영가설 아래의 모평균 보다 충분히 크다고 판단하여 영가설이 참임을 의심한다(즉, 영가설을 기각한다). 이 경우가 단측 검정 중 오른쪽 검정(right tail test)이다.

유의수준이 0.05일 때 유의수준보다 작은 부분의 z-값이 -1.645보다 작은 영역일 수 있다. 아래 그림 중 오른쪽 그림에서 파랗게 칠해진 부분이다. 만약 표본통계치가 이 영역에 떨어지면 영가설을 기각한다. 그래서 이 영역도 기각역이다. 표본통계치의 관찰값()이 그 영역에 떨어지면 영가설 아래의 모평균 보다 충분히 작다고 판단하여 영가설이 참임을 의심한다(즉, 영가설을 기각한다).  이 경우가 단측 검정 중 왼쪽 검정(left tail test)이다.

hypothesis testing one-tail test.에 대한 이미지 검색결과

단측 검정은 오른쪽을 검정하든 왼쪽을 검정하든 둘 중 하나이다. 양쪽이 동시에 검정되지 않는다는 말이다. 그런데 표본평균의 표집분포은 모평균(여기서는 )을 중심으로 하고 있기 때문에 표본평균은 모평균보다 작을수도 있고 클수도 있다. 표본평균이 모평균보다 작으면 검정통계치는 음수가 되고, 표본평균이 모평균보다 크면 검정통계치가 양수가 된다. z-분포가 적용되는 경우 가설검정을 위한 검정통계치를 구하는 공식은 아래와 같기 때문이다.

는 영가설에서 세운 (모평균) 값이다. 표본평균 보다 크면 표본통계치 z의 값이 양수가 되고, 보다 작으면 표본통계치가 z의 값이 음수가 된다. 표본통계치가 음수이면 왼쪽 검정이 되고, 양수이면 오른쪽 검정이 된다. 왼쪽 검정이든 오른쪽 검정이든 p-값이 보다 작거나 같으면() 영가설()이 기각된다.

앞 포스팅에서 든 힐탑 커피의 사례에서 z-값이 -2.67이었으니 왼쪽 검정이 적용되었다. z-값 -2.67의 p-값은 0.0038이다. 가 0.01이었으니, p-값이 보다 작아 영가설이 기각되었다(아래 그림 참조).

이번에는 양측 검정을 보자. 양측검정에서 영가설은 “모평균 이 영가설에서 도출된 모평균 과 같다”이며, 대립가설은 “와 다르다(같지 않다)”이다. 표본통계치(z)가 왼쪽 꼬리 쪽의 기각역(critical region) 안에 들어 있거나 오른쪽 꼬리 쪽의 기각역 안에 들어 있으면 가 같지 않다. 아래 그림에서 양쪽 끝에 파랗게 칠한 부분이 기각역이다. 표본통계치 z-값이 양쪽의 기각역 중 어느 쪽에든 들어 있으면 영가설이 기각된다.

two-tailed-test

따라서 단측 검정보다 기각역의 면적이 두배(즉, 확률이 두배)가 된다. 단측 검정에서 구한 p-값에 2를 곱해 주어야 한다. 그렇게 구한 p-값이 보다 작거나 같으면 영가설이 기각된다. 양측 검정에서는 단측 검정의 p-값이 두배로 커지니 그것이 보다 클 가능성이 높아진다. 즉, 단측 검정일 때보다 양측 검정일 때 영가설을 기각하기가 어렵다.

<앤더슨의 통계학>의 제9장에 제시된 맥스플라이트사(MaxFlight, Inc.)의 사례를 가지고 양측 검정을 살펴보자.

미국골프협회는 협회가 주최하는 대회에서 사용할 골프장비에 대한 제조 기준을 세웠다. 맥스플라이트사는 평균 비거리가 295야드인 골프공을 생산하고 있다. 그러나 때때로 제조공정이 잘못되어 평균 비거리가 295야드와 다른 공이 생산되기도 한다. 평균 비거리가 295야드 이하로 떨어지면 골프공 광고와 다르기 때문에 매출이 감소할 우려가 있다. 반면에 골프공의 비거리가 295야드보다 길어지면 미국골프협회의 기준을 초과하여 미국골프협회가 주관하는 대회에서 사용할 수 없으므로 표준 비거리를 지켜야 한다.

맥스플라이트사의 품질관리팀은 정기적으로 50개의 골프공을 표본으로 선택하여 제조공정을 확인한다. 50개의 표본으로 공정을 조정할 것인지의 여부를 결정하기 위해서 가설검정을 하는 것이다.

영가설과 대립가설을 설정해보자. 품질관리 부서가 확인하려고 하는 것은 평균이 295야드에서 벗어나는가이기 때문에 대립가설은 “골프공의 평균거리가 295야드가 아니다”가 될 것이며, 이에 반대되는 영가설은 “골프공의 평균거리가 295야드이다”가 될 것이다. 이는 아래와 같이 표시될 것이다.

표본평균의 표집분포는 아래 그림과 같다. 표본평균 가 295야드보다 충분히(다른 말로 표현해서, 통계적으로 의미있게) 작거나 크면 를 기각한다. 그 경우 제조공정을 조정한다. 

품질관리팀은 검정을 위해 유의수준 를 선택했다. 이전의 반복적인 조사를 통해서 모집단의 표준편차가 임이 알려져 있다고 가정하자. 표본의 크기일 때  의 표준오차를 계산하면 다음과 같다.

50개의  골프공을 표본으로 추출하여 표본평균을 계산했더니 였다고 하자. 표본통계치 z의 값을 계산하면 아래와 같다.

여기서 단측검정을 위한 p-값을 계산하자. z-값이 양수이므로 오른쪽 검정이 된다. 즉, z-값 1.53 이상되는 영역에 해당되는 p-값을 구하면, 이다. 양측 검정이니 표본평균이 양쪽 끝 기각역 어느쪽에 속해도 영가설이 기각된다. 따라서 단측검정의 p-값에 2를 곱해준다. 그러면 이 된다. 아래 그림을 참조하기 바란다.

표본통계치의 p-값 0.1260은  품질관리팀이 선택한 유의수준 0.05보다 크므로 영가설을 기각할 수 없다. 영가설을 기각할 수 없으므로 맥스플라이트사의 골프공의 평균 비거리는 295야드로 추정된다. 따라서 제조공정을 조정할 필요가 없다는 결론에 도달한다.

양측검정을 할 때 p-값은 단측검정을 위한 p-값을 먼저 구해서 그것에 2를 곱하면 된다. 이점만 잘 기억해 두면, 양측검정을 수행하기가 어렵지 않을 것이다.

<앤더슨의 통계학>에 실린 양측 검정 사례를 하나 더 보자.

시사주간지 타임에 의하면 미국에서 결혼한 남성들은 주당 평균 6.4시간 동안 아이를 돌보는 것으로 나타났다. 가정의학과 의사인 남편들이 아이를 돌보는 주당 평균 시간이 타임지에 보고된 6.4시간과 다른 지를 결정하기 위한 연구를 하려고 한다. 40쌍의 부부를 표본으로 선택하여 매주마다 남편들이 아이 돌보는 시간을 조사하였더니 표본평균이 7이고, 표준편차가 2.4였다. 다음에 답하시오.

a. 가정의학과 의사인 남편들이 아이 돌보기에 할애하는 평균시간(모평균)이 타임지에 보고된 것과 다른지를 결정하기 원한다면 가설은 무엇인가?

b. p-값은 얼마인가?

c. 유의수준을 선택하시오. 결론은 무엇인가?

 

(해제)

a. ,

b. p-값을 구하기 위해서는 먼저 표본통계치 t의 값(모집단의 표준편차를 모르니 t-분포를 적용)을 먼저 구한다.

먼저 단측 검정의 p-값을 구하기 위해 t-값이 양수이므로 오른쪽 검정을 적용한다. 표본의 크기가 40이므로 자유도는 39. 단측 검정의 p-값은 0.061이다. 여기에 2를 곱하면, 양측검정의 p-값은 0.122.

c. 유의수준을 0.05로 선택하면, p-값 0.122는 유의수준보다 크다. 따라서 영가설을 기각할 수 없다. 이로부터 우리는 가정의학과 의사인 남성들의 평균적인 육아시간은 기혼 남성들의 평균적인 육아시간과 다르지 않다고 결론내릴 수 있다.

이상으로 단측검정과 양측검정을 비교해서 공부했다. 가설검정에 관한 세 개의 포스팅에서 영가설과 관련된 제1종 오류와 p-값 방식이 아닌 임계값 방식의 가설검정에 관한 논의를 뺐다. 다음 포스팅에서는 이에 대한 논의를 추가한다. (2019-10-12)

예제와 연습문제: 가설검정의 원리(중)

예제 1. 자동차 판매점의 관리자는 판매촉진을 위한 새로운 성과급을 고려하고 있다. 최근 월평균 판매량은 14대이다. 관리자는 새로운 성과급이 판매량 증가에 도움이 되는지를 알고 싶다. 성과급 도입에 따른 자료는 새로운 성과급 체제에서 한달 간 개인별 판매량을 표본으로 수집한다.

a) 이 상황에 가장 적합한 영가설과 대립가설을 세우시오.

먼저 대립가설은 “새로운 성과급 제도가 판매량 증가에 도움이 될 것이다”가 된다. 그렇다면, 최저 월평균 판매량()이 14대 이상이 될 것이다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “새로운 성과급 제도가 효과가 없을 것이다”가 된다. 그렇다면 최저 월평균 판매량은 이전과 같거나 그 이하일 것이니,

b) 영가설을 기각할 수 없을 때, 결론에 대해 설명하시오.

만약 영가설을 기각할 수 없다면, 새로운 성과급 제도가 판매량 증가에 도움이 될 것이라는 주장(즉, 대립가설)이 경험적 데이터에 의해 지지되지 않는다는 결론에 도달된다.

c) 영가설을 기각한다면 어떻게 결론 지을 수 있는 지 설명하시오.

반면에 영가설이 기각된다면, 새로운 성과급 제도가 판매량 증가에 도움이 될 것이라는 주장(즉, 대립가설)이 경험적 데이터에 의해 지지된다는 결론에 도달된다.

null hypothesis alternative hypothesis에 대한 이미지 검색결과

예제 2. 공장장은 현재의 생산방식의 운영에 시간과 비용이 많이 소요되므로 새로운 생산방식을 도입하여 원가를 줄여야 한다고 주장한다. 현재의 생산방식에서는 시간당 평균 $220의 비용이 발생한다. 이 조사에서 일정 기간을 표본으로 선택하여 새로운 생산방식으로 비용을 측정할 것이다.

a.조사에 가장 적합한 영가설과 대립가설을 세우시오.

먼저 대립가설은 “새로운 생산방식이 원가절감에 도움이 될 것이다”가 된다. 그렇다면, 시간당 평균 생산비용이 현재의 시간당 평균 $220보다 작게 될 것이다. 생산성 향상 효과가 0보다 클 것이기 때문이다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “새로운 생산방식이 원가절감에 도움이 되지 않을 것이다”가 된다. 생산성 효과가 0이 되거나 마이너스가 될 것이기 때문이다. 그렇다면,

a. 영가설을 기각할 수 없을 때, 결론에 대해 설명하시오.

영가설을 기각할 수 없다면, 새로운 생산방식이 원가절감에 도움이 될 것이다라는 대립가설은 실증적으로 지지되지 않는다고 결론 지을 수 있다.

b.영가설을 기각한다면 어떻게 결론 지을 수 있는 지 설명하시오.

반대로 영가설을 기각한다면, 새로운 생산방식이 원가절감에 도움이 될 것이다라는 대립가설이 실증적으로 지지된다고 결론 지을 수 있다.

null hypothesis alternative hypothesis cost reduction에 대한 이미지 검색결과

연습문제 1. 힐탑 커피(Hiltop Coffee)의 큰 캔에는 3파운드의 커피가 함유되어 있다고 표시되어 있다. FTC (Federal Trade Commission)는 정기적으로 통계조사를 실시하여 제조업체들의 주장이 사실인지를 확인한다. 만약 제품 표시가 잘못되었다고 판단되면 함량 미달과 상표 표시 위반으로 힐탑에게 벌금을 부과할 수 있다. FTC는 힐탑커피 캔의 함량 표시를 모집단의 평균 함량이 3파운드라는 주장으로 해석한다. 만약 힐탑 커피 캔에 관한 표본 조사에서 모집단의 평균 함량이 3파운드 이상이라고 추정되면 검사에서 통과가 되고 그렇지 않으면 검사에서 통과되지 못한다. FTC가 어떤 절차를 거쳐서 그러한 판단을 내리게 되는 걸까?

(해제)

1) 유의수준을 선택한다.

FTC는 엄격한 검사를 위해 신뢰수준 99%를 선택했다. 그렇다면 유의수준은 0.01이다.

2) 대립가설과 영가설을 세운다.

먼저 대립가설은 “모집단의 평균 함량이 3파운드 이상일 것이다”가 된다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “모집단의 평균 함량이 3파운드 미만일 것이다”가 된다. 그렇다면,

3) 표본자료를 수집하고 검정 통계치를 계산한다.

FTC는 36개의 캔 커피를 표본으로 추출하여 표본평균 2.92 파운드를 얻었다. FTC는 모집단의 표준편차가 0.18이라는 사실을 알고 있고 모집단의 함량은 정규분포를 따른다고 가정한다.

모집단의 표준편차()를 알고 있음으로 z-분포를 적용하여 z-값을 구한다. z-값은 표본평균()의 z-분포(표집분포)에서 표본평균()이 모평균()으로부터 표준오차의 몇배만큼 떨어져 있는지를 구한다. 이를 공식을 적용하여 계산하면 아래와 같다.

영가설으로부터 도출한 모평균()은 3이고, 표본평균()은 2.92, 모표준편차()는0.18, 표본의 크기()는 36이다.각 값을 식(1)에 대입하여 z-값을 계산한다.

표본통계치 z는 -2.67이다.

4) p-값을 구한다.

p-값은 z가 -2.67 이하일 확률이다. 표준정규분포에서 z=-2.67의 왼쪽에 해당되는 부분은 0.0038이다(Probability Distributions라는 스마트폰 app을 사용하면 손쉽게 구할 수 있음).

5) p-값과 유의수준을 비교하여 결론을 내린다.

p-값 0.0038은 유의 수준 0.01보다 훨씬 작다. 따라서 영가설을 기각할 수 있다. 영가설이 기각되었음으로, 대립가설(모집단의 커피 평균함량이 3파운드 이상이다)이 경험적으로 지지된다고 결론을 내릴 수 있다.

연습문제 2. 다음의 가설검정을 생각해보자.

25개 표본의 표본평균 , 표본표준편차

a. 검정통계치 값을 계산하시오.

b. p-값을 계산하시오.

c. 일 때, 결론은 무엇인가?

 

(해제)

a. 모집단의 표준편차를 모르며 표본의 표준편차가 주어져 있고, 표본의 크기가 25이므로 t-분포를 적용하여 검정통계치 값을 계산한다.

b. 자유도 = 24, t = 2.3148일 때, p값은 0.01475

c. p-값 0.01475가 보다 작으므로, 영가설을 기각한다. 영가설이 참일 가능성이 매우 작은 것이다. 다르게 표현하면, 영가설이 참일 때 표본평균 14를 얻을 가능성이 매우 작다. 따라서 모평균이 12 미만일 것이라는 영가설을 기각하고 모평균이 12 이상일 것이라는 대립가설을 채택한다. 

 

연습문제 3.  다음의 가설검정을 생각해보자.

36개의 표본을 사용한 표본 결과가 다음과 같다. p-값을 계산하고, α=0.01 때의 결론은 무엇인가?

a.

b.

c.

 

(해제)

a. 표본의 크기가 36이므로 자유도는35. 모집단의 표준편차를 모르므로 t-분포를 적용하여 표본통계치(t) 값을 구한다.

자유도 = 35, t = -1.1538일 때, p-값은 0.12820. p-값이 0.01보다 크므로 영가설이 참일 확률이 기준보다 큼을 알 수 있다. 따라서 영가설을 기각할 수 없고 대립가설은 경험적으로 지지되지 않는다.

b와 c는 동일한 방식으로 풀면 되기 때문에 해제를 생략한다.

지금까지 푼 세 개의 연습 문제는 모두 소위 단측 검정에 해당된다. 다음 포스팅에서는 단측 검정과 양측 검정을 비교 설명하고 양측 검정의 사례와 연습문제를 풀어보기로 하자. (2019-10-10)