두 평균의 비교(3): 등분산 가정 및 대응표본의 경우

등분산 가정의 경우

실제로 그런 경우는 아주 드물겠지만 비교하는 모집단의 분산(즉, 표준편차)이 같을 경우가 있을 것이다. 그런 경우는 아래와 같이 표시된다.

두 모집단의 평균 차이의 신뢰구간은 앞에서 공식 (7)을 가지고 추정되었다.

그런데, 만약 두 모집단의 분산이 동일하다면 공식 (7)이 아래처럼 단순화될 수 있다.

이를 간명하게 다시 쓰면,

그런데 현실에서는 모집단의 표준편차 가 알려져 있지 않으므로 추정치로 바뀌어야 한다. 그런데 그 추정치는 합동표본분산(pooled sample variance)이며 통상 로표시된다. 그러면 공식 (7-2)은 공식 (13)으로 바뀐다.

여기서는 를 어떻게 구하는가가 관건일 것이다. 아래 식처럼 합동표본분산은 각 표본의 편차제곱의 합을 더한 다음, 그값을 두 표본의 자유도 합계 로 나누어 구한다.

그리고 공식 (13)을 적용하려면 자유도를 구해야 한다. 자유도는 공식 (14)의 분모에 사용된 것과 동일하다.

가설검정에 필요한 표본통계치 t-값은 다음과 같이 구할 수 있다. 식 (13)에서 표준오차는 아래와 같이 추정되었다.

그러면 t 검정통계치는 다음과 같다.

두 모집단의 표준편차가 동일하다는 가정이 충족되기는 매우 어렵다. 대부분의 경우 모집단의 표준편차가 다르기 때문이다. 그러나 두 모집단의 표준편차를 모를 경우, 공식 (7-1), (10-1), (11) 대신, 단순화된 공식 (13), (15), (17)을 사용해서 평균차이를 추정하거나 가설검정을 해도 무방할 것이다(Wonnacott & Wonnacott, 1985: 232). 어차피 두 모집단의 표준편차를 모르는데, 그 둘을 같다고 해도 가정해도 되지 않겠는가.

대응표본(paired sampes, matched smaples)의 경우

고등학교의 한 학급에서 중간고사 성적과 기말고사 성적을 비교한다고 하자. 그냥 학급 전체를 통으로 묶어서 중간고사 성적 평균과 기말고사 성적 평균을 비교할 수도 있겠지만, 학생 개인별로 중간고사 성적과 기말고사 성적을 비교한 결과를 종합하는 방법도 있을 것이다.

각 학생의 성적이 얼마나 변했는지를 보려면, 중간 성적과 기말 성적의 차이를 구하면 될 것이다.

모든 학생의 성적 차이(변동)를 구하면 그 차이 데이터는 하나의 표본으로 간주될 수 있다. 그렇다면 그것은 하나의 표본 평균으로 하나의 모집단 평균을 추정하는 경우와 동일할 것이다. 즉, 먼저 (성적 차이)의 평균인 를 구한다. 이 표본평균을 가지고 모집단 평균(라고하자)에 대한 구간추정을 할 수 있다.

그런데,  이므로 식 (18)은 아래와 같이 다시 쓸 수 있다.

이  식은 대응표본이 아니라 각 표본의 평균을 비교하는 방식[식 (13)]으로도 평균차이에 대한 신뢰구간을 추정할 수 있음을 보여준다. 그러나 대응표본 접근이 더 낫다. 그것이 더 작은 표집오차(sampling allowance)를 갖기 때문이다.

가설검정을 위해서는 표본통계치 t의 값을 구해야 한다. 대응표본의 검정통계치 는,

그리고 대응표본의 자유도는 이다.

대응표본 설계는 독립표본 설계에 비해 이점이 많다. 왜냐하면 짝지음(pairing)은 다른 외생변수(extraneous variables)를 통제할 수 있는 대응(match)이기 때문이다.

(예제 1) 어떤 고등학교의 한 학급의 기말 성적과 중간 성적의 차이를 추정하고자 한다(95% 신뢰수준). A, B, C, D라는 학생의 성적이 있다.

학생 이름중간고사 성적기말고사 성적
A6454
B6654
C8970
D7762

먼저 데이터로부터 를 계산할 수 있다(아래 엑셀 결과 그림 참조). 자유도 3일 때 오른쪽 검정 0.025의 t-값은 3.18이다. 이 값들을 공식 (18)에 대입하면,

그 학급은, 중간 성적 평균이 기말 성적 평균보다 최저 8점, 최대 20점이 더 높거나, 아니면 그 사이 어느 점수이다.

연구자가 중간 성적 평균과 기말 성적 평균이 다른지를 알고 싶다면, 그것을 대립가설()로 놓고, 영가설은 그 반대인 중간 성적 평균과 기말 성적 평균이 같다()로 놓아 가설검정을 수행할 수 있을 것이다. 검정통계치 t를 구하기 위해 공식 (19)를 사용하면,

자유도 3인 t-분포에서 t-값 7.14의 양측검정 p-값은 0.006이다. 이 값이 유의수준 0.05보다 작으니 영가설이 기각된다. 따라서 그 학급의 중간 성적 평균과 기말 성적 평균은 다르다고 추정된다.

대응표본 가설 검정은 엑셀의 데이터 분석에서 ‘쌍체비교’ t-검정을 이용하여 수행될 수 있다. 아래는 그 결과이다. 공식 (19)를 이용해서 수작업으로 구한 t-값과 엑셀로 구한 t-값이 일치함을 볼 수 있다.

 

(예제 2) 어느 공장의 노동자들이 생산할 때 생산 방법 1과 생산 방법 2라는 두 가지 방법을 사용한다고 하자. 생산 방법 1로 생산한 제품의 모집단 평균 생산 시간을 이라 하고, 생산 방법 2로 생산한 제품의 모집단 평균 생산 시간을 라고 하자. 이중어느 생산 방법이 더 빠른가에 대해 알려진 것이 없으므로 두 방법의 모집단 평균 시간은 같다고 하자.그렇다면영가설은 이된다. 이 가설을 기각한다면 모집단의 평균 생산 시간은 다르다(대립가설)고 결론 낼 수 있을 것이다. 영가설과 대립가설은 다음과 같다. 신뢰수준 95%에서 가설을 검정하시오.

노동자생산방법 1의 생산시간(단위:분)생산방법 2의 생산시간(단위:분)
16.05.4
25.05.2
37.06.5
46.25.9
56.06.0
66.45.8

데이터로부터 를 얻었다. 이 값들을 공식 (19)에 대입하면,

자유도 5인 t-분포에서 t-값 2.19의 양측검정을 위한 p-값은 0.08이다. 이 값이 0.05보다 크므로 영가설을 기각할 수 없다. 따라서 두 생산방식의 평균 생산시간은 다르다고 결론지을 수 있다. 엑셀의 데이터분석 중 ‘쌍체비교 t-검정’이용해도 동일한 검정통계치 t-값과 양측검정을 위한 p-값을 얻을 수 있다(아래 그림 참조).

두 모집단의 평균 차이에 대한 구간추정은 공식 (18)을 이용하여 다음과 같이 수행할 수 있다.

오차범위가 0.35이며, 두 생산방법의 모집단 평균 차이에 대한 95% 신뢰구간은 -0.05분부터 0.65분까지이다.

마지막으로 구간추정과 가설검정에 필요한 표본의 크기에 대해 한 마디 덧붙인다. 모집단의 표준편차를 알고 있는 경우에 z-분포를 적용했는데, 그 때에는 각 표본의 크기는 30 이상이 바람직하다. 표본 둘 중 하나 혹은 둘 다 30 미만이면 모집단의 분포가 정규분포에 근사한다는 가정이 필요하다.

모집단의 표준편차를 몰라서 t-분포를 적용할 때는, 비교적 작은 표본으로도 가능하다. 두 표본수의 합이 20 이상이면 비록 모집단이 정규분포를 따르지 않아도 좋은 결과를 기대할 수 있다. 단, 모집단이 심하게 편포되어 있으면 표본이 좀 커야 하며, 표본이 작다면 모집단이 정규분포에 근사하다는 조건이 충족되어야 할 것이다.

이상으로 두 모집단의 평균비교를 학습했다. 그것이 단일 모집단의 평균을 추정하는 논리와 다르지 않음을 느꼈으리라 생각한다. 비록 모집단이 두 개가 되니 여러가지 상황이나 계산이 다소 복잡해지기는 했지만 말이다. (2019-10-20)

두 평균의 비교(2): 두 표준편차를 모르는 경우

앞 포스팅에서 공식 (7)은 두 모집단의 표준편차를 알고 있을 신뢰구간을 추정한다.

두 모집단의 표준편차인 를 모를 때는 표본의 표준편차인 를 이용하여추정하고, 대신 를 사용한다. 그러면 두 모집단의 표준편차를 모를 때 두 모집단의 평균차이에 대한 구간추정은 아래식과 같을 것이다.

또한 앞 포스팅에서 공식 (10)은 두 모집단의 표준편차를 알고 있을 때 가설검정을 위한 식이다.

두 모집단의 표준편차를 모를 때는 식이 아래와 같이  바뀐다.

문제는 t-분포를 사용하려면 자유도를 알아야 하는 데 자유도를 계산하는 식이 아래처럼 복잡하다.

자유도 구하는 공식이 상당히 복잡하지만 염려할 필요는 없다. 그 공식을 사용해서 직접 구하는 경우는 거의 없을 것이니. 통계 소프트웨어가 적절한 자유도를 자동으로 계산해 줄 것이다. 공식 (7-1), (10-1), (11)을 사용하면 두 모집단의 표준편차를 모를 때 모평균 차이에 대한 신뢰구간을 구하거나 가설 검정을 수행할 수 있다. 예제를 가지고 공식을 적용해 보자.

(예제) 두 개의 큰 학급이 영어 시험을 치뤘다. 한 학급(학급 1)에서 뽑은 네 명의 성적은 64, 66, 89, 77이고, 다른 학급(학급 2)에서 뽑은 세 명의 성적은 56, 71, 53이었다. 두 학급의 성적 차이에 대한 95% 신뢰구간을 구하시오.

(해제) 학급 1의 표본평균()은 74.0점이고, 학급 2의 표본평균()은 60점이다. 공식 (7-1)을 적용한다.

다음에는 공식 (11)을 이용해서 자유도를 구해서 를 계산하자.

자유도가 5일 때 이다. 이 값을 식 (12)에 대입하면,

이 결과를 말로 표현하면, 학급 1의 평균은 학급 2의 평균보다 7이 작거나, 35가 크다. 혹은 그 사이 어딘가이다.  이 경우 표본들이 아주 작아서 표집오차가 크게 허용됨을 알 수 있다.

이번에는 가설 검정을 해보자. 두 모집단의 평균이 다르다는 연구 가설을 검증해 보자. 이 연구 가설은 대립가설이 되고, 이와 반대되는 명제인 두 모집단의 평균이 같다는 영가설이 될 것이다. 이 가설들은 아래와 같이 표기된다. 신뢰수준은 95%이다.

그러면, 위 공식 (10-1)을 적용할 수 있다.

자유도 5일 때 t-값이 1.75이면, 오른쪽 단측검정의  p-값은 0.07이다. 양측검정이니 이 값을 두 배하면, 0.14이다. 이는 유의수준 0.05보다 크다. 따라서 영가설을 기각할 수 없으며, 두 모집단의 평균이 다르다고 판단된다. 즉, 학급 1과 학급 2의 성적은 다르다고 추정된다.

평균비교는 MS 엑셀의 ‘데이터 분석’이라는 애드인(MS 자체 제공)을 이용하여 손쉽게 수행할 수 있다. ‘데이터 분석’의 하위 메뉴를 보면, t-검정과 z-검정이 있다. t-검정에는 ‘쌍체비교’, ‘등분산 가정 두 집단’, ‘이분산 가정 두 집단’이 있다. 이 예제는 ‘이분산 가정 두 집단’의 t-검정에 해당된다.

입력 창이 나타나면, 두 변수의 입력 범위를 넣고, ‘가설 평균차’에 0, ‘유의수준’에 0.05을 넣으면 된다. 그런 다음 확인을 누르면 바로 아래와 같은 결과를 얻을 것이다.

위 표를 보면, 자유도는 5, t-값은 1.75, 양측 검정 p-값은 0.14이다.

다음 포스팅에서는 등분산 가정 두 집단과 쌍체 비교 t-검정을 해보자. (2019-10-19)

두 모평균의 비교(1): 두 표준편차를 알고 있는 경우

현실에서 우리는 자주 두 모집단을 비교한다. 예컨대 우리는 두 반이나 두 학교의 모의고사  성적을 비교한다. 그럴 때 우리는 두 모집단의 성적 평균을 산출하여 비교하거나 두 모집단에서 표본을 추출하여 표본평균을 구하고 그것을 비교하여 모집단 성적 평균을 추정 한다.

두 모집단의 평균 비교는 앞에서 설명한 한 모평균의 구간 추정과 가설 검정의 첫 번째 확장이라고 볼 수 있다. 그렇다면, 두 모집단의 평균 비교에서, 1) 영가설에서 도출된 모수는 무엇인지, 2) 그 모수의 확률분포는 어떤 모습인지, 만약 그것이 t-분포를 이룬다면 자유도는 어떻게 구할 것인지, 3) 모표준편차를 모를 경우 표준오차를 어떻게 추정할 것인지, 4) 검정통계치를 어떻게 계산할 것인지, 5) 신뢰구간이나 가설 검정에 대한 최종 판단은 어떻게 할 것인지를 차근차근 알아보면 될 것이다.

다만 모집단이 두 개이기 때문에 발생하는 변이가 있다. 두 모집단의 평균을 비교할 때 대개의 경우 두 모집단은 서로 별개(독립적)로 존재한다. 그런데 두 모집단이 특별한 관계를 갖고 있는 경우도 있다. 모집단의 구성원은 동일한 데 그 구성원들이 두 가지 다른 행동이나 과업을 수행하여 마치 두 개의 모집단처럼 간주되는 경우가 바로 그것이다. 이 경우 표준오차를 어떻게 처리할 것인지에 대한 설명이 추가로 필요하다.

상호 독립적인 두 개의 모집단의 평균 비교: 두 모집단의 표준편차()를 알고 있는 경우

두 모집단의 평균은 통상 아래와 같이 그 차이를 가지고 비교될 수 있다.

이 차이가 추정되는 모집단 목표이다. 그것에 대한 합리적인 추정값은 아래 식에 표시된 것처럼각 모집단으로 부터 추출된 표본으로부터 구한 평균의 차이가 될 것이다.

우리가 알고 있는 단일 모평균의 신뢰구간을 구하는 공식을 응용하면 식 (2)를 가지고 식(1)의 신뢰구간을 아래와 같이 추정할 수 있다.  우리가 알고 있는 단일 모평균의 신뢰구간을 구하는 공식은 아래와 같다.

공식 (3)에서 은 표준오차(평균의 확률분포의 표준편차)이다. 공식 (3)을 이용해서 식 (2)로부터 식(1)을 추정하는 공식은 다음과 같이 쓸 수 있을 것이다.

표준오차가 에서 로 바뀌었다.두 모집단의 평균 비교를 위한 표준오차는 다음과 같이 구해진다.

는, 두 모집단이 독립적이라고 가정되었음으로  당연히 두 표본은 서로 독립적이고, 따라서 독립적인 두 확률변수의 선형결합이다. 따라서 그것의 분산(variance)은 아래와 같이 계산된다.

두 평균 차이의 분산은 각 평균 분산을 합한 값이다. 그런데 이므로  식 (5)는 아래와 같이 표시된다.

따라서,

즉, 평균 차이의 표준오차는 두 모집단 분산의 합을 양의 제곱근한 값이다.  이제 식 (6)을 공식 (4)에 대입하면 두 모집단 평균 차이에 대한 신뢰구간 공식이 구해진다.

두 모집단이 정규분포이거나 중심극한정리를 적용할 수 있을 만큼 표본의 크기ㅏ가 커서 의 표집분포가 정규근사 한다면 의 표집분포는 평균이 인 정규분포가 될 것이다.

공식을 구했으니, 예제를 풀어보자.

(예제) 홈스타일(HomeStyle)은 도심과 교외 쇼핑센터의 두 매장에서 가구를 판매하고 있다. 매장 관리자는 이 두 매장의 판매 패턴 차이가 두 지역의 인구통계학적 차이에 기인한다고 생각하였다. 그래서 두 매창 고객들의 평균 나이 차이에 대해 조사하라고 지시하였다. 이전에 실시한 인구통계조사를 통하여 두 모집단 표준편차가 임을 알고 있다. 도심 매장에서 추출한 표본의 크기는 36이고 평균은 40이며, 교외 매장에서 추출한 표본의 크기는 49이고 평균은 35이다. 두 매장의 쇼핑객 평균 나이의 차이에 대한 95% 신뢰구간을 구하시오.

(풀이) 모집단 1은 도심 매장 쇼핑객, 모집단 2는 교외 쇼핑객 이라고 하자.

= 모집단 1의 평균(도심 매장 쇼핑객의 평균 나이)

= 모집단 2의 평균(교외 매장 쇼핑객의 평균 나이)

이 데이터를 공식 (7)에 대입하면,

이므로 식 (8)은 아래와 같이 정리된다.

표본평균 차이는 5이고, 표준오차는 2.07이고,  오차범위가 4.06이다. 따라서 두 모집단 평균차이의 95% 신뢰구간 추정값은 0.94(살)에서 9.06(살)까지이다.

두 모집단 평균차이에 대한 가설검정을 알아보자. 단일 모평균에 대한 가설을 검정할 때, 표본평균에서 영가설로부터 도출된 모평균을 뺀 값이 표준오차의 몇 배인가를 보여주는 표본통계치 z나 t값을 구해서(식 (9) 참조) 그것의 p-값을 구하고, p-값과 유의수준을 비교하여 영가설에 대해 판단하였다.

두 모집단의 평균차이의 경우 가설검정은 신뢰구간 추정보다 다소 복잡하다. 우선 설명을 간명하게 하기 위해 라고하자. 그렇다면 세 가지 경우가 나올 것이다. 먼저 두 모집단의 평균이 같다는 영가설과 두모집단의 평균이 다르다는 대립가설을 설정할 수 있다. 양측 검정의 경우가 될 것이다.영가설이 기각되면 두 모집단의 평균 차이가 통계적으로 유의미하다고 판단된다.

다음에는 모집단 1의 평균이 모집단 2의 평균보다 같거나 크다는 영가설을 설정할 수 있다. 그러면 대립가설은 모집단 1의 평균이 모집단2의 평균보다 작다가 될 것이다.

끝으로 모집단 1의 평균이 모집단 2의평균보다 같거나 작다는 영가설을 설정할 수 있다. 그러면 대립가설은 모집단 1의 평균이 모집단 2의 평균보다 크다가 될 것이다.

위의 식 (9)를 원용하여  에 대한 가설검정에서의 검정통계치를 계산하는 공식이 아래와 같이 도출된다(두 모집단의 표준편차가 알려져 있는 경우).

표본통계치 값을 구하면 p-값이 산출된다.

위의 홈스타일 가구의 두 매장 사례를 가지고 가설 추정을 해보자. 만약 두 매장의 쇼핑객 평균 나이에 차이가 있는지를 알아본다면, “두 매장 쇼핑객 평균 나이가 다르다”를 대립가설로 두고, “두 매장 쇼핑객 평균 나이가 같다”를 영가설로 두는 양측 검정이 될 것이다.

우리가 가진 정보는 아래와 같다.

이 정보를 공식 (10)에 대입하여 표본통계치를 구한다.

z-값이 양수이므로 오른쪽 단측검정을 하면, p-값 = 0.008이다. 양측검정을 위해 이를 두 배하면 0.016이다. 이 값은 유의수준 0.05(95% 신뢰수준)보다 작다. 따라서 두 모집단의 평균이 같다는 영가설은 기각되고, 두 매장 쇼핑객의 평균 나이가 다르다고 결론을 내릴 수 있다. (2019-10-19)

가설검정의 원리(요약)

조사연구자는 어떤 모집단의 구조나 특성 혹은 트렌드에 관심을 갖는다. 그것을 전문가들은 흔히 모수(퍼라미터, parameter)라고 부른다. 모수를 추정하거나 모수에 대한 가설을 검정하는 작업은 모두, 한 마디로 모수를 알아내려는 노력이다. 모수를 파악한다는 것은, 사회과학자들에게는 사회조직과 사회 전체를 이해하는 것을 의미하며, 자연과학자들에게는 자연과 우주를 이해하는 것을 의미한다. 모수 추정과 가설 검정은 그만큼 커다란 무게를 지닌다.

가설(hypothesis)이란, 조사연구자가 연구 대상 모집단에 대해 갖고 있는 인식–그것은 이론일수도 있고, 선입견일 수도 있으며, 막연한 추측일 수도 있다–을 압축적으로 표현한 명제이다. 가설이 진실(truth) 혹은 현실(reality)로 인정받기 위해서는 반드시 경험적 데이터(혹은 사실들, facts)에 의해 검증되어야 한다. 그것이 실증과학의 입장이다.

특히 신실증주의 과학관에 의하면 어떤 연구 가설이나 이론도 경험적 데이터에 의해 직접 증명될 수 없다. 경험적 데이터는 오직 우회적인 방법에 의해서만 가설에 대해 발언할 수 있을 뿐이다. 우회적 방법이란, 연구 가설(그것을 대립가설, alterative hypothesis 로 둔다)에 반대되는 영가설(null hypothesis), 을 설정하고, 그 다음 경험적 데이터를 가지고 그 영가설을 검증하여 연구가설(대립 가설)을 에 대한 판단을 내리는 방식을 말한다.

관련 이미지

대부분의 경우 조사연구자는 모집단 전체를 조사할 수 없다. 거기에 들어가는 막대한 비용이나 시간을 감당하기 어렵기 때문이다. 그래서 소규모의 표본을 추출하여 설문조사를 하거나 실험을 시행하여 경험적인 데이터를 수집한다.

표본 데이터가 수집되면, 표본통계치를 구하여 영가설을 검증한다. 모평균에 대한 가설을 검증하는 경우를 살펴보면, 표본평균()을 구하고, 그 표본통계치가 (표본평균의) 표집분포의 중심으로부터 얼마나 멀리 떨어져 있는지를 계산한다. 그리고 그 거리()가 표준오차()의 몇 배인가를 계산한다. 그것이 표본통계치 z-값이다. 표집분포의 중심은 영가설로부터 추정된 이며, 표준오차는, 모집단의 표준편차()를 알고 있는 경우 공식  을 사용하여 구할 수 있다. z-값은 아래 공식으로 구해진다.

z-값을 구하면, 통계 소프트웨어를 이용하여 손쉽게 p-값을 구할 수 있다. p-값은 영가설이 참일 때 그것을 기각할 확률(제1종 오류)이다. 다시 말하면, 그것은 영가설이 참일 때, 표본조사를 통해서 우리 손에 들어온 표본통계치를 얻을 확률이다.

조사연구자는 미리 자신이 어느 정도의 확신을 갖고 영가설에 대한 판단을 내릴 것인지를 결정해 둔다. 즉, 분석을 시작하기 전에 신뢰수준을 결정해 둔다. 통상 95% 신뢰수준을 선택한다. 그러면 신뢰계수가 0.95이고, 유의수준()은 0.05이다. 유의수준은 영가설에 대한 판단을 내릴 때 조사연구자가 통제하는 제1종 오류이다. 즉, 표본통계치의 제1종 오류(p-값)가 그 기준을 넘지 않으면 영가설을 기각한다. 영가설이 참일 가능성이 작기 때문이다. 이를 간략히 표현하면,

1) 유의수준() 설정(통상 0.05)

2) p-값 계산: 아래 순서로 구한다.

3) 수준과 -값을 비교하여 영가설에 대해 판단한다.

p-value and hypothesis testing에 대한 이미지 검색결과

위의 두 번째 단계에서 모분산(모표준편차 )을 모르면 -분포를 사용해야 하기 때문에 -값을 구한다. 양측검정을 해야 하는 경우에는 -값의 단측검정에 해당되는 p-값을 구하고 그것을 2배한다.

위의 세 번째 단계에서 p-값 < 수준이면, 영가설을 기각하고, 반대로 p-값 > 수준이면, 영가설 기각에 실패한다.

이상으로 가설검정과 p-값에 대한 설명을 마친다. 편의상 모평균의 검정만을 다루었지만 이 논리는 모든 모수의 통계적 유의성(statistical significance) 검정에 적용된다. 즉, 모비율의 유의성 검정, 분산분석, 상관계수의 유의성 검정, 회귀계수의 유의성 검정, 카이자승() 검정 등 어떤 유의성 검정에서도, 유의수준을 설정하고,  p-값을 계산한 다음, 유의수준과 p-값을 비교하여 통계적 유의성을 판단한다. p-값을 구하는 과정이 다를 뿐이다.

한 마디로, 유의수준과 p-값의 비교는, 표본조사에서 발견된 차이가 단순히 표집으로 인해 우연히 발생한 것인지 아니면 정말로 모집단에 존재하는 차이 때문인지를 보여준다. 그것이 모든 가설 검정과 (통계적) 유의성 검정을 관통하는 핵심적 원리이다. (2019-10-17)

제1종오류, 임계값 방식: 가설검정의 원리(보론)

추리통계에서 p-값의 중요성은 아무리 강조해도 지나치지 않다. 앞 포스팅에서 p-값(p-value)이란 영가설()이 참일 때 표본통계치() 혹은 그 이상의 값을 얻을 확률이라고 설명했다. 또한 p-값은 영가설이 참일 때 그것을 기각할 확률이라고도 하고, 짧게는 영가설이 참일 확률이라고도 말한다.

앞 포스팅에서 필자는 통계학에서 우리는 영가설()에 대한 검정을 통해서 우리의 주장(대립가설)을 우회적으로 검증한다고 지적했다. 그런데 데이터를 가지고 영가설을 검정할 때 우리는 항상 오류를 범할 가능성을 안고 있다. 아래 표에서처럼 영가설()이 참인데 기각으로 결론을 낼 수 있고, 영가설이 거짓인데 채택으로 결론을 낼 수도 있다.

영가설이 참임에도 그것을 기각하는 오류를 제1종 오류라고 부르며, 영가설이 거짓임에도 그것을 채택하는 오류를 제2종 오류라고 부른다.

영가설이 참일 때 제1종 오류를 범할 확률을 유의수준(significance level)이라고 한다. 유의수준은 그리스 문자 로 표시한다. 유의수준은 연구자가 임의로 설정한다. 연구자는 유의수준의 설정으로 제1종 오류를 범할 확률을 통제한다.

연구자는 신뢰수준(confidence level)을 선택하는데, 사실 그것이 오류의 허용 수준을 함축하고 있다. 통상 Ronald Fisher의 예를 따라서 95% 신뢰수준, 즉, 스무번에 한번 정도의 추정 오류를 허용하면서 판단을 내리고자 한다. 신뢰수준이 95%이면 신뢰계수(confidence coefficient)가 0.95이며, 유의수준은 가 된다. 사안에 따라서는 90% 신뢰수준이나 99% 신뢰수준이 설정되기도 한다. 신뢰수준이 90%이면 유의수준이 0.10이고, 신뢰수준이 99%이면 유의수준은 0.01이다.

p-값은 하나의 표본에서 계산된 통계치(예컨대 )를 가지고 영가설을 검증할 때  연구자가 안게 되는 제1종 오류의 크기를 의미한다. 만약 이 오류의 크기(혹은 수준)–영가설이 참일 때 기각할 가능성–가 연구자가 선택한 유의수준보다 작으면 영가설을 기각한다. 다시 말해 유의수준과 p-값은 모두 제1종오류를 가리킨다. 유의수준()은 영가설에 대한 판단을 위해 연구자가 선택한 제1종오류의 수준이고, p-값은 표본통계치로부터 추정된 제1종오류의 크기이다. 가설검정에서는 그 두 가지를 비교하여 영가설에 대한 판단을 내리고 결국 그 과정을 통해서 연구자가 증명하려는 대립가설에 대한 판단을 내리게 되는 것이다.

지난 주에 발뒷꿈치의 통증이 한 달 이상 낫지 않아 류마티스 전문 내과에 다녀왔다. 그 전에 통증의학과와 다른 내과에 갔는데, 통증이 재발했기 때문이다. 병원을 다녀와 염증치료제와 진통제를 2주 이상 복용했는데, 틍증이 가라 앉는 듯하다가 처음과 같은 수준으로 재발하자 나는 통풍 때문인 것으로 확신했다. 일반 염증이라면 그런 방식으로 재발될 리가 없었다. 마음 속에서 99% 정도로 확신했다. 내 판단이 틀릴 가능성을 1% 미만으로 본 것이었다.

그런데 류마티스 전문의가 내게 말했다. 발뒷꿈치가 아플 때 그 환자에게 통풍이 있는 경우 열에 아홉은 통풍 때문이라는 것이었다. “열에 아홉”이란 자신의 판단에 10% 오류(통풍으로 인한 것이 아닐 가능성)를 허용하는 것이다. 나는 “백에 아흔아홉”정도의 확신이 있었다. 피검사와 x-레이 검사를 받았고 통풍인 것으로 진단되었다. 나로서는 전혀 놀라운 결과가 아니었다.

두 명의 의사는 오진을 했다. 진료 중 내가 통풍 증세가 있음을 고지했음에도 그들은 환자인 내 말을 무시했다. 마지막 의사는 내 말을 존중했지만 제1종 오류를 너무 크게 두었다. 그런데도 그는 엄청나게 확신을 갖고 나를 대했다.

유의수준이란 뭐 그런 것이다. 어느 정도 확신을 갖고 판단할 것인지, 다른 말로 하면 오류의 가능성을 얼마나 허용하면서 판단할 것인지를 선택하는 것이다. 제1종 오류만 통제하여 실시하는 가설 검정을 유의성 검정(significance tests)이라고 한다. 대부분의 가설 검정이 유의성 검정이다.

대부분의 가설 검정에서 제1종 오류만 통제하고 제2종 오류를 범할 확률은 통제하지 않는다. 영가설이 거짓임에도 채택할 확률이 제2종 오류이다. 제1종 오류와 제2종 오류 사이에는 trade-off관계가 있다. 제1종 오류를 줄이다보면 제2종 오류의 가능성이 커진다는 의미이다. 그러나 통상 제2종 오류는 명시적으로 통제하지 않는다. 다만 제2종 오류를 범할 위험성을 피하기 위해 통계학자들은 ‘채택’과 같은 직접적인 표현을 사용하지 않고 “기각할 수 없다”다고 표현한다. 가설 검정에서는 “영가설을 기각한다” 와 “영가설을 기각에 실패하다(혹은 기각할 수 없다)”는 두 가지 결론만을 사용한다.

표본통계치(예컨대 )로부터 z-값이나 t-값을 구하면, 오른쪽 단측검정에서는 그것보다 클 확률(p-값), 왼쪽 단측검정에서는 그것보다 작을 확률(p-값)을 구하여, 그것이, 선택한 유의수준보다 작으면 영가설을 기각한다. 제1종 오류, 즉, 영가설이 참인데 기각할 확률이 너무 작기 때문이다. p-값을 영가설이 참일 확률로 이해하면, 완전히 정확한 표현은 아니지만 기억하기 편리하다.

one-tailed test에 대한 이미지 검색결과관련 이미지

유의수준의 z-값(혹은 t-값)을 임계값(critical value)이라고 한다. 예컨대 모집단의 표준편차 를 알고 있을 때, 유의수준이 0.05이면, 임계값(z-값)은 오른쪽 단측검정에서는 1.645, 왼쪽 단측검정에서는 -1.645이며, 유의수준이 0.01이면, 임계값은 오른쪽 단측검정에서 2.33, 왼쪽 단측검정에서 -2.33이다. 오른쪽 단측검정에서는 1.645보다 큰 영역을 기각역(rejection region)이라고 하고, 왼쪽 단측검정에서는 -1.645보다 작은 영역이 기각역이 된다(위 그림 참조). 즉, z-값(혹은 t-값)이 그 영역에 속하면 영가설이 기각된다. 영가설이 참일 때 그러한 z-값(혹은 t-값)얻을 가능성이 희박한 것이니, 영가설이 참일 가능성이 매우 낮은 것이다(아래 그림 참조).

관련 이미지

물론 앞에서 보았듯이 임계값 방식 대신 p-값 방식을 사용해도 된다. 그러면 아래 그림처럼 표시될 수 있을 것이다. 앞 포스팅들에서 충분히 소개했으므로 추가 설명은 생략한다.

rejection region에 대한 이미지 검색결과

 

양측검정의 경우 임계값 방식에서는 유의수준 0.05일 때 임계값은 1.96, 유의수준 0.01일 때 임계값은 2.58이다. 따라서 표본통계치가 그 임계값보다 작으면 영가설을 기각하고,  크면 영가설 기각에 실패한다(아래 그림 참조).

two-tailed test에 대한 이미지 검색결과

임계값 방식의 경우 단측검증과 양측검증을 함께 놓고 보면 아래 그림과 같다.

two-tailed test에 대한 이미지 검색결과

 

p-값 방식을 사용하면, 단측검정의 p-값을 2배하여 유의수준()과 비교하여 영가설에 대한 판단을 내린다(아래 그림 참조).

관련 이미지

 

임계값 방식을 취하던 p-값 방식을 취하던 상관 없다. 다만 오늘날은 p-값 방식을 더 많이 사용하는 추세이다. 이상으로 가설 검정에 대한 논의를 모두 마친다. (2019-10-12)

단측검정과 양측검정: 가설검정의 원리(하)

사회과학에서 가설은 대체로 독립변수(원인이 되는 변수)와 종속변수(결과가 되는 변수) 사이의 인과관계를 나타낸다. 독립변수가 증가하면 종속변수가 증가하는 양의 관계(positive relation)이거나 독립변수가 증가하면 종속변수가 감소하는 음의 관계(negative relation)이다. 즉, 독립변수와 종속변수의 관계에 방향이 묘사된다.

예컨대 “공부를 많이 할수록 성적이 좋을 것이다” 혹은 “학력이 높을수록 소득이 높을 것이다”라는 가설은 양의 관계를 나타내고, “가족의 소득이 낮을수록 가족 스트레스의 수준이 높을 것이다” 혹은 “포용성이 높은 사회일수록 증오범죄의 발생이 낮을 것이다”라는 가설은 음의 관계를 나타내고 있다. 뿐만 아니라 “여성은 남성에 비해 평균 소득이 낮을 것이다” 혹은 “도시민은 농촌 주민에 비해 생활 스트레스가 높을 것이다”처럼 이론적으로나 상식적으로 인과관계의 방향이 예상 가능한 경우가 흔하다.

이렇게 가설에 관계의 방향이 포함되면, 모수에 대한 단측검정(one-tailed test)을 적용한다. 즉, “~~보다 크다”, “~~보다 작다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 지니면, 단측 검정이 적용된다. 영가설 아래 추정된 모평균보다 충분히 작은가를 확인하든지, 아니면 영가설 아래 추정된 모평균보다 충분히 큰가를 확인하면 된다는 말이다.

반면에 “~~과 다르다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 갖지 않으면, 양측 검정(two-tailed test)이 적용된다. 영가설 아래 추정된 모평균보다 충분히 커도 혹은 충분히 작아도 영가설이 기각된다. 사회과학에서 양측 검정이 흔하지는 않지만 그렇다고 없지는 않으므로 기억해 두는 것이 좋다.

그림을 가지고 이해해 보자. 먼저 단측 검정이다. 유의수준이 0.05(즉, 신뢰수준이 95%)일 때 표집분포(z-분포가 적용된다고 하자)에서 유의수준보다 큰 부분은 z-값이 1.645보다 큰 영역이다. 아래 그림 중 왼쪽 그림에서 파랗게 칠해진 부분이다. 만약 표본통계치가 이 영역에 떨어지면 영가설을 기각한다. 그래서 그 영역의 이름이 기각역(rejection region)이다. 표본통계치의 관찰값()이 그 영역에 떨어지면 영가설 아래의 모평균 보다 충분히 크다고 판단하여 영가설이 참임을 의심한다(즉, 영가설을 기각한다). 이 경우가 단측 검정 중 오른쪽 검정(right tail test)이다.

유의수준이 0.05일 때 유의수준보다 작은 부분의 z-값이 -1.645보다 작은 영역일 수 있다. 아래 그림 중 오른쪽 그림에서 파랗게 칠해진 부분이다. 만약 표본통계치가 이 영역에 떨어지면 영가설을 기각한다. 그래서 이 영역도 기각역이다. 표본통계치의 관찰값()이 그 영역에 떨어지면 영가설 아래의 모평균 보다 충분히 작다고 판단하여 영가설이 참임을 의심한다(즉, 영가설을 기각한다).  이 경우가 단측 검정 중 왼쪽 검정(left tail test)이다.

hypothesis testing one-tail test.에 대한 이미지 검색결과

단측 검정은 오른쪽을 검정하든 왼쪽을 검정하든 둘 중 하나이다. 양쪽이 동시에 검정되지 않는다는 말이다. 그런데 표본평균의 표집분포은 모평균(여기서는 )을 중심으로 하고 있기 때문에 표본평균은 모평균보다 작을수도 있고 클수도 있다. 표본평균이 모평균보다 작으면 검정통계치는 음수가 되고, 표본평균이 모평균보다 크면 검정통계치가 양수가 된다. z-분포가 적용되는 경우 가설검정을 위한 검정통계치를 구하는 공식은 아래와 같기 때문이다.

는 영가설에서 세운 (모평균) 값이다. 표본평균 보다 크면 표본통계치 z의 값이 양수가 되고, 보다 작으면 표본통계치가 z의 값이 음수가 된다. 표본통계치가 음수이면 왼쪽 검정이 되고, 양수이면 오른쪽 검정이 된다. 왼쪽 검정이든 오른쪽 검정이든 p-값이 보다 작거나 같으면() 영가설()이 기각된다.

앞 포스팅에서 든 힐탑 커피의 사례에서 z-값이 -2.67이었으니 왼쪽 검정이 적용되었다. z-값 -2.67의 p-값은 0.0038이다. 가 0.01이었으니, p-값이 보다 작아 영가설이 기각되었다(아래 그림 참조).

이번에는 양측 검정을 보자. 양측검정에서 영가설은 “모평균 이 영가설에서 도출된 모평균 과 같다”이며, 대립가설은 “와 다르다(같지 않다)”이다. 표본통계치(z)가 왼쪽 꼬리 쪽의 기각역(critical region) 안에 들어 있거나 오른쪽 꼬리 쪽의 기각역 안에 들어 있으면 가 같지 않다. 아래 그림에서 양쪽 끝에 파랗게 칠한 부분이 기각역이다. 표본통계치 z-값이 양쪽의 기각역 중 어느 쪽에든 들어 있으면 영가설이 기각된다.

two-tailed-test

따라서 단측 검정보다 기각역의 면적이 두배(즉, 확률이 두배)가 된다. 단측 검정에서 구한 p-값에 2를 곱해 주어야 한다. 그렇게 구한 p-값이 보다 작거나 같으면 영가설이 기각된다. 양측 검정에서는 단측 검정의 p-값이 두배로 커지니 그것이 보다 클 가능성이 높아진다. 즉, 단측 검정일 때보다 양측 검정일 때 영가설을 기각하기가 어렵다.

<앤더슨의 통계학>의 제9장에 제시된 맥스플라이트사(MaxFlight, Inc.)의 사례를 가지고 양측 검정을 살펴보자.

미국골프협회는 협회가 주최하는 대회에서 사용할 골프장비에 대한 제조 기준을 세웠다. 맥스플라이트사는 평균 비거리가 295야드인 골프공을 생산하고 있다. 그러나 때때로 제조공정이 잘못되어 평균 비거리가 295야드와 다른 공이 생산되기도 한다. 평균 비거리가 295야드 이하로 떨어지면 골프공 광고와 다르기 때문에 매출이 감소할 우려가 있다. 반면에 골프공의 비거리가 295야드보다 길어지면 미국골프협회의 기준을 초과하여 미국골프협회가 주관하는 대회에서 사용할 수 없으므로 표준 비거리를 지켜야 한다.

맥스플라이트사의 품질관리팀은 정기적으로 50개의 골프공을 표본으로 선택하여 제조공정을 확인한다. 50개의 표본으로 공정을 조정할 것인지의 여부를 결정하기 위해서 가설검정을 하는 것이다.

영가설과 대립가설을 설정해보자. 품질관리 부서가 확인하려고 하는 것은 평균이 295야드에서 벗어나는가이기 때문에 대립가설은 “골프공의 평균거리가 295야드가 아니다”가 될 것이며, 이에 반대되는 영가설은 “골프공의 평균거리가 295야드이다”가 될 것이다. 이는 아래와 같이 표시될 것이다.

표본평균의 표집분포는 아래 그림과 같다. 표본평균 가 295야드보다 충분히(다른 말로 표현해서, 통계적으로 의미있게) 작거나 크면 를 기각한다. 그 경우 제조공정을 조정한다. 

품질관리팀은 검정을 위해 유의수준 를 선택했다. 이전의 반복적인 조사를 통해서 모집단의 표준편차가 임이 알려져 있다고 가정하자. 표본의 크기일 때  의 표준오차를 계산하면 다음과 같다.

50개의  골프공을 표본으로 추출하여 표본평균을 계산했더니 였다고 하자. 표본통계치 z의 값을 계산하면 아래와 같다.

여기서 단측검정을 위한 p-값을 계산하자. z-값이 양수이므로 오른쪽 검정이 된다. 즉, z-값 1.53 이상되는 영역에 해당되는 p-값을 구하면, 이다. 양측 검정이니 표본평균이 양쪽 끝 기각역 어느쪽에 속해도 영가설이 기각된다. 따라서 단측검정의 p-값에 2를 곱해준다. 그러면 이 된다. 아래 그림을 참조하기 바란다.

표본통계치의 p-값 0.1260은  품질관리팀이 선택한 유의수준 0.05보다 크므로 영가설을 기각할 수 없다. 영가설을 기각할 수 없으므로 맥스플라이트사의 골프공의 평균 비거리는 295야드로 추정된다. 따라서 제조공정을 조정할 필요가 없다는 결론에 도달한다.

양측검정을 할 때 p-값은 단측검정을 위한 p-값을 먼저 구해서 그것에 2를 곱하면 된다. 이점만 잘 기억해 두면, 양측검정을 수행하기가 어렵지 않을 것이다.

<앤더슨의 통계학>에 실린 양측 검정 사례를 하나 더 보자.

시사주간지 타임에 의하면 미국에서 결혼한 남성들은 주당 평균 6.4시간 동안 아이를 돌보는 것으로 나타났다. 가정의학과 의사인 남편들이 아이를 돌보는 주당 평균 시간이 타임지에 보고된 6.4시간과 다른 지를 결정하기 위한 연구를 하려고 한다. 40쌍의 부부를 표본으로 선택하여 매주마다 남편들이 아이 돌보는 시간을 조사하였더니 표본평균이 7이고, 표준편차가 2.4였다. 다음에 답하시오.

a. 가정의학과 의사인 남편들이 아이 돌보기에 할애하는 평균시간(모평균)이 타임지에 보고된 것과 다른지를 결정하기 원한다면 가설은 무엇인가?

b. p-값은 얼마인가?

c. 유의수준을 선택하시오. 결론은 무엇인가?

 

(해제)

a. ,

b. p-값을 구하기 위해서는 먼저 표본통계치 t의 값(모집단의 표준편차를 모르니 t-분포를 적용)을 먼저 구한다.

먼저 단측 검정의 p-값을 구하기 위해 t-값이 양수이므로 오른쪽 검정을 적용한다. 표본의 크기가 40이므로 자유도는 39. 단측 검정의 p-값은 0.061이다. 여기에 2를 곱하면, 양측검정의 p-값은 0.122.

c. 유의수준을 0.05로 선택하면, p-값 0.122는 유의수준보다 크다. 따라서 영가설을 기각할 수 없다. 이로부터 우리는 가정의학과 의사인 남성들의 평균적인 육아시간은 기혼 남성들의 평균적인 육아시간과 다르지 않다고 결론내릴 수 있다.

이상으로 단측검정과 양측검정을 비교해서 공부했다. 가설검정에 관한 세 개의 포스팅에서 영가설과 관련된 제1종 오류와 p-값 방식이 아닌 임계값 방식의 가설검정에 관한 논의를 뺐다. 다음 포스팅에서는 이에 대한 논의를 추가한다. (2019-10-12)

예제와 연습문제: 가설검정의 원리(중)

예제 1. 자동차 판매점의 관리자는 판매촉진을 위한 새로운 성과급을 고려하고 있다. 최근 월평균 판매량은 14대이다. 관리자는 새로운 성과급이 판매량 증가에 도움이 되는지를 알고 싶다. 성과급 도입에 따른 자료는 새로운 성과급 체제에서 한달 간 개인별 판매량을 표본으로 수집한다.

a) 이 상황에 가장 적합한 영가설과 대립가설을 세우시오.

먼저 대립가설은 “새로운 성과급 제도가 판매량 증가에 도움이 될 것이다”가 된다. 그렇다면, 최저 월평균 판매량()이 14대 이상이 될 것이다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “새로운 성과급 제도가 효과가 없을 것이다”가 된다. 그렇다면 최저 월평균 판매량은 이전과 같거나 그 이하일 것이니,

b) 영가설을 기각할 수 없을 때, 결론에 대해 설명하시오.

만약 영가설을 기각할 수 없다면, 새로운 성과급 제도가 판매량 증가에 도움이 될 것이라는 주장(즉, 대립가설)이 경험적 데이터에 의해 지지되지 않는다는 결론에 도달된다.

c) 영가설을 기각한다면 어떻게 결론 지을 수 있는 지 설명하시오.

반면에 영가설이 기각된다면, 새로운 성과급 제도가 판매량 증가에 도움이 될 것이라는 주장(즉, 대립가설)이 경험적 데이터에 의해 지지된다는 결론에 도달된다.

null hypothesis alternative hypothesis에 대한 이미지 검색결과

예제 2. 공장장은 현재의 생산방식의 운영에 시간과 비용이 많이 소요되므로 새로운 생산방식을 도입하여 원가를 줄여야 한다고 주장한다. 현재의 생산방식에서는 시간당 평균 $220의 비용이 발생한다. 이 조사에서 일정 기간을 표본으로 선택하여 새로운 생산방식으로 비용을 측정할 것이다.

a.조사에 가장 적합한 영가설과 대립가설을 세우시오.

먼저 대립가설은 “새로운 생산방식이 원가절감에 도움이 될 것이다”가 된다. 그렇다면, 시간당 평균 생산비용이 현재의 시간당 평균 $220보다 작게 될 것이다. 생산성 향상 효과가 0보다 클 것이기 때문이다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “새로운 생산방식이 원가절감에 도움이 되지 않을 것이다”가 된다. 생산성 효과가 0이 되거나 마이너스가 될 것이기 때문이다. 그렇다면,

a. 영가설을 기각할 수 없을 때, 결론에 대해 설명하시오.

영가설을 기각할 수 없다면, 새로운 생산방식이 원가절감에 도움이 될 것이다라는 대립가설은 실증적으로 지지되지 않는다고 결론 지을 수 있다.

b.영가설을 기각한다면 어떻게 결론 지을 수 있는 지 설명하시오.

반대로 영가설을 기각한다면, 새로운 생산방식이 원가절감에 도움이 될 것이다라는 대립가설이 실증적으로 지지된다고 결론 지을 수 있다.

null hypothesis alternative hypothesis cost reduction에 대한 이미지 검색결과

연습문제 1. 힐탑 커피(Hiltop Coffee)의 큰 캔에는 3파운드의 커피가 함유되어 있다고 표시되어 있다. FTC (Federal Trade Commission)는 정기적으로 통계조사를 실시하여 제조업체들의 주장이 사실인지를 확인한다. 만약 제품 표시가 잘못되었다고 판단되면 함량 미달과 상표 표시 위반으로 힐탑에게 벌금을 부과할 수 있다. FTC는 힐탑커피 캔의 함량 표시를 모집단의 평균 함량이 3파운드라는 주장으로 해석한다. 만약 힐탑 커피 캔에 관한 표본 조사에서 모집단의 평균 함량이 3파운드 이상이라고 추정되면 검사에서 통과가 되고 그렇지 않으면 검사에서 통과되지 못한다. FTC가 어떤 절차를 거쳐서 그러한 판단을 내리게 되는 걸까?

(해제)

1) 유의수준을 선택한다.

FTC는 엄격한 검사를 위해 신뢰수준 99%를 선택했다. 그렇다면 유의수준은 0.01이다.

2) 대립가설과 영가설을 세운다.

먼저 대립가설은 “모집단의 평균 함량이 3파운드 이상일 것이다”가 된다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “모집단의 평균 함량이 3파운드 미만일 것이다”가 된다. 그렇다면,

3) 표본자료를 수집하고 검정 통계치를 계산한다.

FTC는 36개의 캔 커피를 표본으로 추출하여 표본평균 2.92 파운드를 얻었다. FTC는 모집단의 표준편차가 0.18이라는 사실을 알고 있고 모집단의 함량은 정규분포를 따른다고 가정한다.

모집단의 표준편차()를 알고 있음으로 z-분포를 적용하여 z-값을 구한다. z-값은 표본평균()의 z-분포(표집분포)에서 표본평균()이 모평균()으로부터 표준오차의 몇배만큼 떨어져 있는지를 구한다. 이를 공식을 적용하여 계산하면 아래와 같다.

영가설으로부터 도출한 모평균()은 3이고, 표본평균()은 2.92, 모표준편차()는0.18, 표본의 크기()는 36이다.각 값을 식(1)에 대입하여 z-값을 계산한다.

표본통계치 z는 -2.67이다.

4) p-값을 구한다.

p-값은 z가 -2.67 이하일 확률이다. 표준정규분포에서 z=-2.67의 왼쪽에 해당되는 부분은 0.0038이다(Probability Distributions라는 스마트폰 app을 사용하면 손쉽게 구할 수 있음).

5) p-값과 유의수준을 비교하여 결론을 내린다.

p-값 0.0038은 유의 수준 0.01보다 훨씬 작다. 따라서 영가설을 기각할 수 있다. 영가설이 기각되었음으로, 대립가설(모집단의 커피 평균함량이 3파운드 이상이다)이 경험적으로 지지된다고 결론을 내릴 수 있다.

연습문제 2. 다음의 가설검정을 생각해보자.

25개 표본의 표본평균 , 표본표준편차

a. 검정통계치 값을 계산하시오.

b. p-값을 계산하시오.

c. 일 때, 결론은 무엇인가?

 

(해제)

a. 모집단의 표준편차를 모르며 표본의 표준편차가 주어져 있고, 표본의 크기가 25이므로 t-분포를 적용하여 검정통계치 값을 계산한다.

b. 자유도 = 24, t = 2.3148일 때, p값은 0.01475

c. p-값 0.01475가 보다 작으므로, 영가설을 기각한다. 영가설이 참일 가능성이 매우 작은 것이다. 다르게 표현하면, 영가설이 참일 때 표본평균 14를 얻을 가능성이 매우 작다. 따라서 모평균이 12 미만일 것이라는 영가설을 기각하고 모평균이 12 이상일 것이라는 대립가설을 채택한다. 

 

연습문제 3.  다음의 가설검정을 생각해보자.

36개의 표본을 사용한 표본 결과가 다음과 같다. p-값을 계산하고, α=0.01 때의 결론은 무엇인가?

a.

b.

c.

 

(해제)

a. 표본의 크기가 36이므로 자유도는35. 모집단의 표준편차를 모르므로 t-분포를 적용하여 표본통계치(t) 값을 구한다.

자유도 = 35, t = -1.1538일 때, p-값은 0.12820. p-값이 0.01보다 크므로 영가설이 참일 확률이 기준보다 큼을 알 수 있다. 따라서 영가설을 기각할 수 없고 대립가설은 경험적으로 지지되지 않는다.

b와 c는 동일한 방식으로 풀면 되기 때문에 해제를 생략한다.

지금까지 푼 세 개의 연습 문제는 모두 소위 단측 검정에 해당된다. 다음 포스팅에서는 단측 검정과 양측 검정을 비교 설명하고 양측 검정의 사례와 연습문제를 풀어보기로 하자. (2019-10-10)

이론을 버리고 데이터를 선택한다: 가설검정의 원리(상)

조사 연구를 수행하다보면, 연구자의 이론, 가설, 믿음, 확신, 선입관, 혹은 예상이, 수집된 데이터를 분석한 결과와 종종 충돌한다. 이론이 가리키는 방향과 경험적 증거가 가리키는 방향이 자주 상충된다는 말이다. 그럴 때 연구자는 이론(으로부터 도출된 가설)이 아니라 데이터(의 분석결과)를 따른다. 그런 의미에서 통계학에서 우주의 중심–즉, 판단의 기준–은 데이터이다. 통계학이 지닌 그러한 특성을 가장 잘 보여주는 과정이 가설 검정(hypothesis testing)이다.

hypothesis test에 대한 이미지 검색결과

통계학은 모수 추정에 많이 사용되지만, 가설(hypothesis)을 검증하는데도 그에 못지 않게 자주 사용된다. 엄밀히 말하자면, 모수 추정과 가설 검정의 원리는 동일하며, 가설 검정도, 영가설로부터 도출된 모수가 인정할만한가를 데이터를 가지고 따지는 시도라는 점에서 근본적으로 모수 추정이라고 볼 수 있다. 이는 가설 검정을 이해하는 데 있어 핵심적인 문제도 아니고 그 자체가 다소 긴 설명을 필요로 하기 때문에 여기서는 바로 가설 검정에 대해 알아보자.

연구자는 누구나 연구문제(research question)를 갖고 연구를 시작한다. 가설(hypothesis)이란 어떤 연구문제에 대한 잠정적인 답변이다. 잠정적이라는 표현은 검증이 요구된다는 의미이다. 이는 마치 경찰관이나 검사가 “사건의 범인이 누구인가?”라는 의문을 가지고 수사를 시작하고 사건에 대해 감(?)을 잡거나 실마리를 찾게 되면, 용의자 혹은 피의자를 수사선상에 올려놓고 한 걸음 더 수사를 진행하는 것이나 크게 다르지 않다. 연구에 있어 가설은 수사에 있어 용의자(혹은 피의자)와 같다. 증거(데이터)에 의해 검증되어야할 대상이라는 점에서 말이다.

(참고로, 가설을 엄격한 절차에 따라 검증하지 않고 조사나 실험 결과를 조작하거나 결과를 왜곡하여서라도 가설을 입증된 것처럼 발표하는 행위는, 용의자(혹은 피의자)를 범인으로 단정하고 증거 조작이나 허위 자백을 통해서 그것을 뒷받침하려는 것이나 마찬가지이다. 둘 다 심심치 않게 발생하는 범죄 행위이다.)

ronald fisher에 대한 이미지 검색결과

20세기 가장 위대했던 통계학자로 간주되는 Ronald Fisher 경은 p-값(p-value)를 구해서 영가설(null hypothesis)을 검증하는 방식으로 연구자의 이론이나 가설을 검증하자고 제안했다. 그의 제안은 가설검정 이론으로 발전되었고 지금까지 표준적인 과학 방법으로 자리잡고 있다.

가설 검정은 대체로 다섯 단계로 진행된다.

1) 유의수준(significance level)을 선택한다. 어느 정도의 신뢰 수준(confidence level)에서 판단할 것인가의 기준을 정하는 것이다. 통상 95%의 신뢰 수준이 선택되나 연구 문제에 따라서는 90%가 선택되기도 하고 99%가 선택되기도 한다. 하지만 Fisher의 제안에 따라 20번 중 1번 정도의 오류를 허용하는 95%이 선택되는 경우가 대부분이다. 신뢰수준이 선택되면 신뢰계수가 결정되고, 신뢰계수가 정해지면 유의수준이 계산된다. 95% 신뢰수준이면, 신뢰계수가 0.95이고, 유의수준은 0.05(1-0.95로 계산된다)가 된다. 유의수준은 통상 로 표기한다.

2) 대립가설(alternative hypothesis)을 설정한다. 연구자가 연구를 통해서 증명하고 싶은 주장이 대립가설이 된다. 대립가설은 변수들 사이에 관계가 있다 혹은 실험 처지의 효과가 있다는 의미로 사용되며, 흔히 로 표기된다.

3) 모수에 대한 영가설(null hypothesis)을 설정한다. 영가설은 귀무가설이라고도 하며 대립가설에 반대되는 명제이다.  그렇지 않은 경우도 적지 않지만 영가설(null hypothesis)은 문자 그대로 변수들 사이에 서로 관계가 없다(확률적인 의미에서 상호독립적이다)든가 어떤 실험 처지(treatment)의 효과가 없다는 의미로 사용된다. 영가설은 흔히 이라고 표기된다.

통계적 가설의 세계에는 대립가설과 영가설, 딱 두 가지 종류의 가설 밖에 존재하지 않는다. 그리고 그 두 가설은 서로 반대되는 서술이다. 영가설이 긍정되면 대립가설은 의심되며, 영가설이 부정되면 대립가설은 지지된다. 통계학적 용어를 사용하자면, 검정에서 영가설이 기각되면, 대립가설이 긍정되고, 반대로 영가설 기각에 실패하면, 대립가설이 부정된다. 가설 검정은 항상 영가설 검정이라는 우회적인 방식으로 연구자의 주장(대립가설)에 대해 판단한다.

4) p(p-value) 구한다p-값은 영가설이 진실일때(예컨대 그림에서처럼 모수가 0일 때) 우리가 통계치(sample statistics)나 그보다 더 극단적인 값(extreme value)을 얻을 확률()을 가리킨다. 그림으로 나타내면 아래와 같다.  영가설이 참이라는 가설 아래 상정된 모수(예: μ)와, 표본에서 얻어진 표본통계치 z값(σ를 아는 경우)이나 t값(σ를 모르는 경우)을 계산하고 그것으로 p값을 도출한다.

P_Value

위 그림은 확률분포인데 진한 회색으로 된 부분이 p-값(p-value)이다. p-value가 아주 작으면 영가설이 진실일 때 통계치나 그 이상의 극단적인 값을 얻을 확률이 아주 작다.

만약 표본조사나 실험으로부터 획득한 p-값이 아주 작으면, 영가설이 참인 상황에서 그러한 조사 결과를 얻을 가능성이 매우 희박하다는 의미이다. 그 경우 연구자는 영가설이 참이라는 가설을 버리던지 아니면 표본조사나 실험 결과를 의심하든지 양자택일을 해야 한다. 그런 상황에 놓이게 되면 연구자는 데이터를 믿고 영가설을 버린다. 그것이 통계학이란 세계의 질서이다. 그런데 p-값이 얼마나 작아야 작다고 판단할 수 있는가? 그래서 다음 단계가 필요하다.

5)  p-값과 유의 수준을 비교하여 결론을 내린다. 위 그림에서처럼 p값이 유의수준(통상 ) 보다 작으면 영가설을 기각한다(버린다는 통계학적 표현). 영가설이 참일 때 손에 쥔 데이터를 얻을 확률(간단히 말해 영가설이 참일 확률, 정확히 말하자면, 영가설이 참인데 기각할 확률)이 아주 작기 때문이다. 그러면 연구자의 주장(대립가설)이 데이터에 의해 지지받는다고 결론을 내린다. 만약 p값이 유의수준보다 크면 영가설을 기각하는데 실패한다(통계학적 표현이다). 그러면 (표본) 경험적 데이터가 연구자의 주장을 지지하지 않는다고 결론을 내린다 

hypothesis testing에 대한 이미지 검색결과

경험과학에서는 이렇게  자기의 주장을 직접 검증하지 못하고 우회적으로 검증할 밖에 없다. 영가설 검증을 통해서 대립가설을 우회적으로(어떻게 말하면 겸손하게) 검증하는 것이다. (2019-10-09)

조건부 확률과 결합확률, 어떻게 구분할 것인가

다음 교차표는 미국 어느 도시에서 경찰관들이 2년 동안 승진한 현황을 담고 있다.

다음 질문에 답해 보자.

  1. 남자 경찰관이 승진할 확률은?
  2. 여자 경찰관이 승진할 확률은?
  3. 승진한 남자 경찰관의 비율은?
  4. 승진한 여자 경찰관의 비율은?

먼저 사건을 정의하자. 남자 경찰관: M, 여자 경찰관: W, 승진: A, 승진탈락:

이 질문들에 답하기 위해서는 이 교차표로부터 결합확률표를 만들어야 한다. 승진한 남자 경찰관은 288명이며, 승진한 여자 경찰관은 36명이다. 승진한 남자 경찰관의 비율이 남자 경찰관 사건과 승진 사건의 결합확률이다. 즉,

여자 경찰관과 승진의 결합확률은,

이는 곧 승진한 여성 경찰관의 비율이다. 남자 경찰관과 승진탈락의 결합확률, 그리고 여자 경찰관과 승진탈락의 결합확률은 각각 아래와 같다.

결합확률표에 들어가는 주변확률은 각 사건의 비율이다. 즉, 남자 경찰관의 비율(0.80), 여자 경찰관의 비율(0.20), 승진의 비율(0.27), 승진탈락의 비율(0.73)이다. 이 확률들을 가지면 다음과 같은 결합확률표가 만들어진다.

남자 경찰관이 승진할 확률을 보다 확률적으로 표현하면, 만약 어떤 경찰관이 남자라면 그가 승진할 확률은 얼마인가가 될 것이다. 이는 조건부 확률, 이다. 선행 사건(혹은 조건 사건)이 남자 경찰관(M)이고, 후행 사건이 승진(A)이다. 두 사건이 시간적으로 순차적으로 발생한 것임을 알 수 있다. 이를 나무 그림으로 표현하면 다음과 같다.

이 나무 그림을 보고 확률을 생각하면 훨씬 직관적이다. 먼저 경찰관 1명을 무작위로 추출하였을 때 그가 남자 경찰관일 확률은 0.8이고, 여성 경찰관일 확률은 0.2이다. 이것이 남자 사건과 여자 사건의 주변확률이다. 또한 어떤 경찰관을 무작위로 추출하였을 때 그가 승진한 남자 경찰관일 확률은 0.24, 승진한 여자 경찰관일 확률은 0.03이다. 이것은 남자 사건과 승진 사건, 여자 사건과 승진 사건의 결합확률이다. 이는 위에서 제기한 질문 3과 4에 대한 답이다.

그리고 질문 1, 남자 경찰관이 승진할 확률은 0.3이고, 질문 2, 여자 경찰관이 승진할 확률은 0.15이다. 이것은 남자 사건이 주어졌을 때 승진 사건이 발생할 조건부 확률, 그리고 여자 사건이 주어졌을 때 승진 사건이 발생할 조건부 확률이다.

물론 어떤 경찰관이 승진하였을 때 그가 남자일 확률도 조건부 확률이다. 계산해 보면 다음과 같다.

사실 조건부 확률에서 선행 사건과 후행 사건은 시간적 순서이라기보다 논리적 순서라고 보는 편이 맞을 것이다. 여하튼 조건부 확률에는 순서가 있다. 반면에 결합확률은 동시적이다. 즉, 순서가 없다. 이점도 기억해두면, 어떤 명제(혹은 문제)가 결합확률을 가리키는지 아니면 조건부 확률을 가르키는 지를 구분하는 데 도움이 될 것이다.

문제가 주어졌을 때 그것이 조건부 확률에 대한 질문인지 아니면 결합확률에 대한 질문인 지를 학생들이 잘 혼동하는 것 같아 조금 자세히 설명해 보았다. (2019-09-10, 윤영민)

현대의 정치, 무엇이 문제인가?(2)가치 배분

정치에서 권력투쟁과 가치배분이라는 두 측면 중 어느 쪽이 더 중요할까? 매일 매일 접하는 언론의 정치 관련 뉴스를 보면, 권력투쟁에 관한 뉴스의 양이 가치배분에 관련된 뉴스의  양을 압도한다. 그것을 기준으로 판단한다면 전자가 후자보다 분명히 중요해 보인다.

그러나 뉴스에는 언론이라는 매개체의 관점과 이해가 관여되어 있음을 기억하자. 뉴스에서 보이는 비중의 차이는 두 가지 다른 원인 때문일 수 있다. 정말로 권력투쟁이 가치배분보다 중요하기 때문에 그런 결과가 나왔을 수도 있고, 언론이, 가치배분보다 권력투쟁이 더 많은 뉴스 가치가 있다고 생각하기 때문일 수도 있다. 이중 어떤 쪽이 더 진실에 가까운지는 쉽게 단언할 수 없다. 다만 언론사들이 시청률과 조회수에 목을 매는 최근의 현상을 볼 때 후자 쪽이 더 진실에 가깝지 않나 생각된다. 아무튼 눈에 보이는 것이 전부가 아니다라는 금언이 정치 뉴스보다 더 잘 들어맞는 경우는 없지 않나 싶다.

조국 교수가 법무부장관 후보자로 지명되고 나서 언론의 집중적 조명을 받은 가장 핫한 뉴스는 조국 교수의 딸이 동양대학교에서 받은 표창장에 관한 것이었다. 반면에 후보자의 능력이나 소신은 고사하고 후보자 자신의 비리나 부정에 관한 뉴스는 거의 찾아볼 수 없었다. 혹시 이 현상이 언론의 센세이셔널리즘 때문은 아니었을까? 물론 일부 야당이나 검찰의 권력 투쟁 아젠다 때문이기도 하겠지만 말이다.

가치 배분의 측면에서 우리 정치는 무슨 일을 하고 있을까? 언론 뉴스를 아무리 뒤져도 이 의문에 대한 적절한 해답을 찾을 수 없다. 다음은 국회의 의안정보시스템에서 찾은 20대 국회에서 진행되고 있는  법제정 현황이다.

제20대 국회가 개원된 이래 현재까지 총 2만1천578건의 법안이 발의되었고, 그중 6천350건이 처리되었다. 국회의원들이 싸움만 하는 줄 알았는데 그것은 아님을 알 수 있다. 물론 그 중에는 싸우다가 회기 막판에 무더기로 통과된 법률안도 적지 않겠지만 법률안을 만들거나 검토하기 위해 많은 국회의원들이 활동하고 있음이 분명하다. 이를 보면 일은 안하고 쌈질만 한다고 비판을 들으면 억울해야할 정치인들이 적지 않을 것임을 짐작할 수 있다.

의안정보시스템을 검색하면 위 법안들의 내용을 찾아볼 수 있다. 아래는 검색 결과의 일부이다(아래 그림을 클릭하면 의안정보시스템에 들어갈 수 있다).

맨 위에 올라온 법안 명칭을 몇 개만 일별해도 정치가 ‘가치의 배분’이라는 의미가 물씬 다가온다. 한국농어촌공사 및 농지관리기금법 일부개정법률안(대안), 자유무역협정 체결에 따른 농어업인 등의 지원에 관한 특별법 일부개정법률안(대안), 화훼산업 발전 및 화훼문화 진흥에 관한 법률안(대안), 수의사법 일부개정법률안(대안), 양봉산업의 육성 및 지원에 관한 법률안(대안) 등. 농림축산식품해양수산위원회가 소관위원회인 법안들이 맨 위에 놓여서 그 분야에 관련된 법률들이기는 하지만 법안 하나 하나가 관련된 산업, 기업, 당사자의 활동과 수입에 중대한 영향을 미치는 것들임을 쉽게 가늠할 수 있다.

법치주의 국가에서 공직자는 누구나 반드시 법에 근거해서 업무를 수행해야 한다. 사회의 각 부문이나 분야를 규제(혹은 지원)하는 개별법말고도 국가기관이 업무를 수행하는데 필요한 예산을 결정하는 정부의 예산안도 매년 통과되어야 하는 법률이다. 법에 근거하지 않고 어떤 공직자도 기관 예산을 지출할 수 없다.

그런데 어떤 법도 쉽게 만들어지지 않는다. 헌법과 같은 상위법과 어긋나지 않아야 하고 그 법에 영향을 받게 될 관련 당사자들 사이의 이해관계도 조정되어야 하며, 예산 지출이 따르는 경우 정부 예산 편성에 포함되어야 하기 때문이다. 그 과정은 정부가 발의하던 의원이 발의하던 별로 다르지 않다. 그래서 국회에서는 위원회, 포럼, 세미나, 공청회 등이 연중 개최된다.  그리고 그중 아주 일부 활동만이 언론의 조명을 받는 행운을 누린다.

입법 활동 중 어떤 것이 기사화되는가는 거의 전적으로 언론사의 판단에 의해 좌우된다.  언론사의 판단에 있어서 해당 법안의 사회적 혹은 정치적 중요성이 고려되겠지만 그 이상으로 중요한 요소는 독자나 시청자 인터넷 이용자들의 주목을 받을 수 있느냐이다.

이제 권력투쟁으로서의 정치가 지닌 모습을 살펴보자. (2019-09-07, 윤영민)