단측검정과 양측검정: 가설검정의 원리(하)

사회과학에서 가설은 대체로 독립변수(원인이 되는 변수)와 종속변수(결과가 되는 변수) 사이의 인과관계를 나타낸다. 독립변수가 증가하면 종속변수가 증가하는 양의 관계(positive relation)이거나 독립변수가 증가하면 종속변수가 감소하는 음의 관계(negative relation)이다. 즉, 독립변수와 종속변수의 관계에 방향이 묘사된다.

예컨대 “공부를 많이 할수록 성적이 좋을 것이다” 혹은 “학력이 높을수록 소득이 높을 것이다”라는 가설은 양의 관계를 나타내고, “가족의 소득이 낮을수록 가족 스트레스의 수준이 높을 것이다” 혹은 “포용성이 높은 사회일수록 증오범죄의 발생이 낮을 것이다”라는 가설은 음의 관계를 나타내고 있다. 뿐만 아니라 “여성은 남성에 비해 평균 소득이 낮을 것이다” 혹은 “도시민은 농촌 주민에 비해 생활 스트레스가 높을 것이다”처럼 이론적으로나 상식적으로 인과관계의 방향이 예상 가능한 경우가 흔하다.

이렇게 가설에 관계의 방향이 포함되면, 모수에 대한 단측검정(one-tailed test)을 적용한다. 즉, “~~보다 크다”, “~~보다 작다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 지니면, 단측 검정이 적용된다. 영가설 아래 추정된 모평균보다 충분히 작은가를 확인하든지, 아니면 영가설 아래 추정된 모평균보다 충분히 큰가를 확인하면 된다는 말이다.

반면에 “~~과 다르다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 갖지 않으면, 양측 검정(two-tailed test)이 적용된다. 영가설 아래 추정된 모평균보다 충분히 커도 혹은 충분히 작아도 영가설이 기각된다. 사회과학에서 양측 검정이 흔하지는 않지만 그렇다고 없지는 않으므로 기억해 두는 것이 좋다.

그림을 가지고 이해해 보자. 먼저 단측 검정이다. 유의수준이 0.05(즉, 신뢰수준이 95%)일 때 표집분포(z-분포가 적용된다고 하자)에서 유의수준보다 큰 부분은 z-값이 1.645보다 큰 영역이다. 아래 그림 중 왼쪽 그림에서 파랗게 칠해진 부분이다. 만약 표본통계치가 이 영역에 떨어지면 영가설을 기각한다. 그래서 그 영역의 이름이 기각역(rejection region)이다. 표본통계치의 관찰값()이 그 영역에 떨어지면 영가설 아래의 모평균 보다 충분히 크다고 판단하여 영가설이 참임을 의심한다(즉, 영가설을 기각한다). 이 경우가 단측 검정 중 오른쪽 검정(right tail test)이다.

유의수준이 0.05일 때 유의수준보다 작은 부분의 z-값이 -1.645보다 작은 영역일 수 있다. 아래 그림 중 오른쪽 그림에서 파랗게 칠해진 부분이다. 만약 표본통계치가 이 영역에 떨어지면 영가설을 기각한다. 그래서 이 영역도 기각역이다. 표본통계치의 관찰값()이 그 영역에 떨어지면 영가설 아래의 모평균 보다 충분히 작다고 판단하여 영가설이 참임을 의심한다(즉, 영가설을 기각한다).  이 경우가 단측 검정 중 왼쪽 검정(left tail test)이다.

hypothesis testing one-tail test.에 대한 이미지 검색결과

단측 검정은 오른쪽을 검정하든 왼쪽을 검정하든 둘 중 하나이다. 양쪽이 동시에 검정되지 않는다는 말이다. 그런데 표본평균의 표집분포은 모평균(여기서는 )을 중심으로 하고 있기 때문에 표본평균은 모평균보다 작을수도 있고 클수도 있다. 표본평균이 모평균보다 작으면 검정통계치는 음수가 되고, 표본평균이 모평균보다 크면 검정통계치가 양수가 된다. z-분포가 적용되는 경우 가설검정을 위한 검정통계치를 구하는 공식은 아래와 같기 때문이다.

는 영가설에서 세운 (모평균) 값이다. 표본평균 보다 크면 표본통계치 z의 값이 양수가 되고, 보다 작으면 표본통계치가 z의 값이 음수가 된다. 표본통계치가 음수이면 왼쪽 검정이 되고, 양수이면 오른쪽 검정이 된다. 왼쪽 검정이든 오른쪽 검정이든 p-값이 보다 작거나 같으면() 영가설()이 기각된다.

앞 포스팅에서 든 힐탑 커피의 사례에서 z-값이 -2.67이었으니 왼쪽 검정이 적용되었다. z-값 -2.67의 p-값은 0.0038이다. 가 0.01이었으니, p-값이 보다 작아 영가설이 기각되었다(아래 그림 참조).

이번에는 양측 검정을 보자. 양측검정에서 영가설은 “모평균 이 영가설에서 도출된 모평균 과 같다”이며, 대립가설은 “와 다르다(같지 않다)”이다. 표본통계치(z)가 왼쪽 꼬리 쪽의 기각역(critical region) 안에 들어 있거나 오른쪽 꼬리 쪽의 기각역 안에 들어 있으면 가 같지 않다. 아래 그림에서 양쪽 끝에 파랗게 칠한 부분이 기각역이다. 표본통계치 z-값이 양쪽의 기각역 중 어느 쪽에든 들어 있으면 영가설이 기각된다.

two-tailed-test

따라서 단측 검정보다 기각역의 면적이 두배(즉, 확률이 두배)가 된다. 단측 검정에서 구한 p-값에 2를 곱해 주어야 한다. 그렇게 구한 p-값이 보다 작거나 같으면 영가설이 기각된다. 양측 검정에서는 단측 검정의 p-값이 두배로 커지니 그것이 보다 클 가능성이 높아진다. 즉, 단측 검정일 때보다 양측 검정일 때 영가설을 기각하기가 어렵다.

<앤더슨의 통계학>의 제9장에 제시된 맥스플라이트사(MaxFlight, Inc.)의 사례를 가지고 양측 검정을 살펴보자.

미국골프협회는 협회가 주최하는 대회에서 사용할 골프장비에 대한 제조 기준을 세웠다. 맥스플라이트사는 평균 비거리가 295야드인 골프공을 생산하고 있다. 그러나 때때로 제조공정이 잘못되어 평균 비거리가 295야드와 다른 공이 생산되기도 한다. 평균 비거리가 295야드 이하로 떨어지면 골프공 광고와 다르기 때문에 매출이 감소할 우려가 있다. 반면에 골프공의 비거리가 295야드보다 길어지면 미국골프협회의 기준을 초과하여 미국골프협회가 주관하는 대회에서 사용할 수 없으므로 표준 비거리를 지켜야 한다.

맥스플라이트사의 품질관리팀은 정기적으로 50개의 골프공을 표본으로 선택하여 제조공정을 확인한다. 50개의 표본으로 공정을 조정할 것인지의 여부를 결정하기 위해서 가설검정을 하는 것이다.

영가설과 대립가설을 설정해보자. 품질관리 부서가 확인하려고 하는 것은 평균이 295야드에서 벗어나는가이기 때문에 대립가설은 “골프공의 평균거리가 295야드가 아니다”가 될 것이며, 이에 반대되는 영가설은 “골프공의 평균거리가 295야드이다”가 될 것이다. 이는 아래와 같이 표시될 것이다.

표본평균의 표집분포는 아래 그림과 같다. 표본평균 가 295야드보다 충분히(다른 말로 표현해서, 통계적으로 의미있게) 작거나 크면 를 기각한다. 그 경우 제조공정을 조정한다. 

품질관리팀은 검정을 위해 유의수준 를 선택했다. 이전의 반복적인 조사를 통해서 모집단의 표준편차가 임이 알려져 있다고 가정하자. 표본의 크기일 때  의 표준오차를 계산하면 다음과 같다.

50개의  골프공을 표본으로 추출하여 표본평균을 계산했더니 였다고 하자. 표본통계치 z의 값을 계산하면 아래와 같다.

여기서 단측검정을 위한 p-값을 계산하자. z-값이 양수이므로 오른쪽 검정이 된다. 즉, z-값 1.53 이상되는 영역에 해당되는 p-값을 구하면, 이다. 양측 검정이니 표본평균이 양쪽 끝 기각역 어느쪽에 속해도 영가설이 기각된다. 따라서 단측검정의 p-값에 2를 곱해준다. 그러면 이 된다. 아래 그림을 참조하기 바란다.

표본통계치의 p-값 0.1260은  품질관리팀이 선택한 유의수준 0.05보다 크므로 영가설을 기각할 수 없다. 영가설을 기각할 수 없으므로 맥스플라이트사의 골프공의 평균 비거리는 295야드로 추정된다. 따라서 제조공정을 조정할 필요가 없다는 결론에 도달한다.

양측검정을 할 때 p-값은 단측검정을 위한 p-값을 먼저 구해서 그것에 2를 곱하면 된다. 이점만 잘 기억해 두면, 양측검정을 수행하기가 어렵지 않을 것이다.

<앤더슨의 통계학>에 실린 양측 검정 사례를 하나 더 보자.

시사주간지 타임에 의하면 미국에서 결혼한 남성들은 주당 평균 6.4시간 동안 아이를 돌보는 것으로 나타났다. 가정의학과 의사인 남편들이 아이를 돌보는 주당 평균 시간이 타임지에 보고된 6.4시간과 다른 지를 결정하기 위한 연구를 하려고 한다. 40쌍의 부부를 표본으로 선택하여 매주마다 남편들이 아이 돌보는 시간을 조사하였더니 표본평균이 7이고, 표준편차가 2.4였다. 다음에 답하시오.

a. 가정의학과 의사인 남편들이 아이 돌보기에 할애하는 평균시간(모평균)이 타임지에 보고된 것과 다른지를 결정하기 원한다면 가설은 무엇인가?

b. p-값은 얼마인가?

c. 유의수준을 선택하시오. 결론은 무엇인가?

 

(해제)

a. ,

b. p-값을 구하기 위해서는 먼저 표본통계치 t의 값(모집단의 표준편차를 모르니 t-분포를 적용)을 먼저 구한다.

먼저 단측 검정의 p-값을 구하기 위해 t-값이 양수이므로 오른쪽 검정을 적용한다. 표본의 크기가 40이므로 자유도는 39. 단측 검정의 p-값은 0.061이다. 여기에 2를 곱하면, 양측검정의 p-값은 0.122.

c. 유의수준을 0.05로 선택하면, p-값 0.122는 유의수준보다 크다. 따라서 영가설을 기각할 수 없다. 이로부터 우리는 가정의학과 의사인 남성들의 평균적인 육아시간은 기혼 남성들의 평균적인 육아시간과 다르지 않다고 결론내릴 수 있다.

이상으로 단측검정과 양측검정을 비교해서 공부했다. 가설검정에 관한 세 개의 포스팅에서 영가설과 관련된 제1종 오류와 p-값 방식이 아닌 임계값 방식의 가설검정에 관한 논의를 뺐다. 다음 포스팅에서는 이에 대한 논의를 추가한다. (2019-10-12)