제1종오류, 임계값 방식: 가설검정의 원리(보론)

추리통계에서 p-값의 중요성은 아무리 강조해도 지나치지 않다. 앞 포스팅에서 p-값(p-value)이란 영가설()이 참일 때 표본통계치() 혹은 그 이상의 값을 얻을 확률이라고 설명했다. 또한 p-값은 영가설이 참일 때 그것을 기각할 확률이라고도 하고, 짧게는 영가설이 참일 확률이라고도 말한다.

앞 포스팅에서 필자는 통계학에서 우리는 영가설()에 대한 검정을 통해서 우리의 주장(대립가설)을 우회적으로 검증한다고 지적했다. 그런데 데이터를 가지고 영가설을 검정할 때 우리는 항상 오류를 범할 가능성을 안고 있다. 아래 표에서처럼 영가설()이 참인데 기각으로 결론을 낼 수 있고, 영가설이 거짓인데 채택으로 결론을 낼 수도 있다.

영가설이 참임에도 그것을 기각하는 오류를 제1종 오류라고 부르며, 영가설이 거짓임에도 그것을 채택하는 오류를 제2종 오류라고 부른다.

영가설이 참일 때 제1종 오류를 범할 확률을 유의수준(significance level)이라고 한다. 유의수준은 그리스 문자 로 표시한다. 유의수준은 연구자가 임의로 설정한다. 연구자는 유의수준의 설정으로 제1종 오류를 범할 확률을 통제한다.

연구자는 신뢰수준(confidence level)을 선택하는데, 사실 그것이 오류의 허용 수준을 함축하고 있다. 통상 Ronald Fisher의 예를 따라서 95% 신뢰수준, 즉, 스무번에 한번 정도의 추정 오류를 허용하면서 판단을 내리고자 한다. 신뢰수준이 95%이면 신뢰계수(confidence coefficient)가 0.95이며, 유의수준은 가 된다. 사안에 따라서는 90% 신뢰수준이나 99% 신뢰수준이 설정되기도 한다. 신뢰수준이 90%이면 유의수준이 0.10이고, 신뢰수준이 99%이면 유의수준은 0.01이다.

p-값은 하나의 표본에서 계산된 통계치(예컨대 )를 가지고 영가설을 검증할 때  연구자가 안게 되는 제1종 오류의 크기를 의미한다. 만약 이 오류의 크기(혹은 수준)–영가설이 참일 때 기각할 가능성–가 연구자가 선택한 유의수준보다 작으면 영가설을 기각한다. 다시 말해 유의수준과 p-값은 모두 제1종오류를 가리킨다. 유의수준()은 영가설에 대한 판단을 위해 연구자가 선택한 제1종오류의 수준이고, p-값은 표본통계치로부터 추정된 제1종오류의 크기이다. 가설검정에서는 그 두 가지를 비교하여 영가설에 대한 판단을 내리고 결국 그 과정을 통해서 연구자가 증명하려는 대립가설에 대한 판단을 내리게 되는 것이다.

지난 주에 발뒷꿈치의 통증이 한 달 이상 낫지 않아 류마티스 전문 내과에 다녀왔다. 그 전에 통증의학과와 다른 내과에 갔는데, 통증이 재발했기 때문이다. 병원을 다녀와 염증치료제와 진통제를 2주 이상 복용했는데, 틍증이 가라 앉는 듯하다가 처음과 같은 수준으로 재발하자 나는 통풍 때문인 것으로 확신했다. 일반 염증이라면 그런 방식으로 재발될 리가 없었다. 마음 속에서 99% 정도로 확신했다. 내 판단이 틀릴 가능성을 1% 미만으로 본 것이었다.

그런데 류마티스 전문의가 내게 말했다. 발뒷꿈치가 아플 때 그 환자에게 통풍이 있는 경우 열에 아홉은 통풍 때문이라는 것이었다. “열에 아홉”이란 자신의 판단에 10% 오류(통풍으로 인한 것이 아닐 가능성)를 허용하는 것이다. 나는 “백에 아흔아홉”정도의 확신이 있었다. 피검사와 x-레이 검사를 받았고 통풍인 것으로 진단되었다. 나로서는 전혀 놀라운 결과가 아니었다.

두 명의 의사는 오진을 했다. 진료 중 내가 통풍 증세가 있음을 고지했음에도 그들은 환자인 내 말을 무시했다. 마지막 의사는 내 말을 존중했지만 제1종 오류를 너무 크게 두었다. 그런데도 그는 엄청나게 확신을 갖고 나를 대했다.

유의수준이란 뭐 그런 것이다. 어느 정도 확신을 갖고 판단할 것인지, 다른 말로 하면 오류의 가능성을 얼마나 허용하면서 판단할 것인지를 선택하는 것이다. 제1종 오류만 통제하여 실시하는 가설 검정을 유의성 검정(significance tests)이라고 한다. 대부분의 가설 검정이 유의성 검정이다.

대부분의 가설 검정에서 제1종 오류만 통제하고 제2종 오류를 범할 확률은 통제하지 않는다. 영가설이 거짓임에도 채택할 확률이 제2종 오류이다. 제1종 오류와 제2종 오류 사이에는 trade-off관계가 있다. 제1종 오류를 줄이다보면 제2종 오류의 가능성이 커진다는 의미이다. 그러나 통상 제2종 오류는 명시적으로 통제하지 않는다. 다만 제2종 오류를 범할 위험성을 피하기 위해 통계학자들은 ‘채택’과 같은 직접적인 표현을 사용하지 않고 “기각할 수 없다”다고 표현한다. 가설 검정에서는 “영가설을 기각한다” 와 “영가설을 기각에 실패하다(혹은 기각할 수 없다)”는 두 가지 결론만을 사용한다.

표본통계치(예컨대 )로부터 z-값이나 t-값을 구하면, 오른쪽 단측검정에서는 그것보다 클 확률(p-값), 왼쪽 단측검정에서는 그것보다 작을 확률(p-값)을 구하여, 그것이, 선택한 유의수준보다 작으면 영가설을 기각한다. 제1종 오류, 즉, 영가설이 참인데 기각할 확률이 너무 작기 때문이다. p-값을 영가설이 참일 확률로 이해하면, 완전히 정확한 표현은 아니지만 기억하기 편리하다.

one-tailed test에 대한 이미지 검색결과관련 이미지

유의수준의 z-값(혹은 t-값)을 임계값(critical value)이라고 한다. 예컨대 모집단의 표준편차 를 알고 있을 때, 유의수준이 0.05이면, 임계값(z-값)은 오른쪽 단측검정에서는 1.645, 왼쪽 단측검정에서는 -1.645이며, 유의수준이 0.01이면, 임계값은 오른쪽 단측검정에서 2.33, 왼쪽 단측검정에서 -2.33이다. 오른쪽 단측검정에서는 1.645보다 큰 영역을 기각역(rejection region)이라고 하고, 왼쪽 단측검정에서는 -1.645보다 작은 영역이 기각역이 된다(위 그림 참조). 즉, z-값(혹은 t-값)이 그 영역에 속하면 영가설이 기각된다. 영가설이 참일 때 그러한 z-값(혹은 t-값)얻을 가능성이 희박한 것이니, 영가설이 참일 가능성이 매우 낮은 것이다(아래 그림 참조).

관련 이미지

물론 앞에서 보았듯이 임계값 방식 대신 p-값 방식을 사용해도 된다. 그러면 아래 그림처럼 표시될 수 있을 것이다. 앞 포스팅들에서 충분히 소개했으므로 추가 설명은 생략한다.

rejection region에 대한 이미지 검색결과

 

양측검정의 경우 임계값 방식에서는 유의수준 0.05일 때 임계값은 1.96, 유의수준 0.01일 때 임계값은 2.58이다. 따라서 표본통계치가 그 임계값보다 작으면 영가설을 기각하고,  크면 영가설 기각에 실패한다(아래 그림 참조).

two-tailed test에 대한 이미지 검색결과

임계값 방식의 경우 단측검증과 양측검증을 함께 놓고 보면 아래 그림과 같다.

two-tailed test에 대한 이미지 검색결과

 

p-값 방식을 사용하면, 단측검정의 p-값을 2배하여 유의수준()과 비교하여 영가설에 대한 판단을 내린다(아래 그림 참조).

관련 이미지

 

임계값 방식을 취하던 p-값 방식을 취하던 상관 없다. 다만 오늘날은 p-값 방식을 더 많이 사용하는 추세이다. 이상으로 가설 검정에 대한 논의를 모두 마친다. (2019-10-12)

예제와 연습문제: 가설검정의 원리(중)

예제 1. 자동차 판매점의 관리자는 판매촉진을 위한 새로운 성과급을 고려하고 있다. 최근 월평균 판매량은 14대이다. 관리자는 새로운 성과급이 판매량 증가에 도움이 되는지를 알고 싶다. 성과급 도입에 따른 자료는 새로운 성과급 체제에서 한달 간 개인별 판매량을 표본으로 수집한다.

a) 이 상황에 가장 적합한 영가설과 대립가설을 세우시오.

먼저 대립가설은 “새로운 성과급 제도가 판매량 증가에 도움이 될 것이다”가 된다. 그렇다면, 최저 월평균 판매량()이 14대 이상이 될 것이다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “새로운 성과급 제도가 효과가 없을 것이다”가 된다. 그렇다면 최저 월평균 판매량은 이전과 같거나 그 이하일 것이니,

b) 영가설을 기각할 수 없을 때, 결론에 대해 설명하시오.

만약 영가설을 기각할 수 없다면, 새로운 성과급 제도가 판매량 증가에 도움이 될 것이라는 주장(즉, 대립가설)이 경험적 데이터에 의해 지지되지 않는다는 결론에 도달된다.

c) 영가설을 기각한다면 어떻게 결론 지을 수 있는 지 설명하시오.

반면에 영가설이 기각된다면, 새로운 성과급 제도가 판매량 증가에 도움이 될 것이라는 주장(즉, 대립가설)이 경험적 데이터에 의해 지지된다는 결론에 도달된다.

null hypothesis alternative hypothesis에 대한 이미지 검색결과

예제 2. 공장장은 현재의 생산방식의 운영에 시간과 비용이 많이 소요되므로 새로운 생산방식을 도입하여 원가를 줄여야 한다고 주장한다. 현재의 생산방식에서는 시간당 평균 $220의 비용이 발생한다. 이 조사에서 일정 기간을 표본으로 선택하여 새로운 생산방식으로 비용을 측정할 것이다.

a.조사에 가장 적합한 영가설과 대립가설을 세우시오.

먼저 대립가설은 “새로운 생산방식이 원가절감에 도움이 될 것이다”가 된다. 그렇다면, 시간당 평균 생산비용이 현재의 시간당 평균 $220보다 작게 될 것이다. 생산성 향상 효과가 0보다 클 것이기 때문이다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “새로운 생산방식이 원가절감에 도움이 되지 않을 것이다”가 된다. 생산성 효과가 0이 되거나 마이너스가 될 것이기 때문이다. 그렇다면,

a. 영가설을 기각할 수 없을 때, 결론에 대해 설명하시오.

영가설을 기각할 수 없다면, 새로운 생산방식이 원가절감에 도움이 될 것이다라는 대립가설은 실증적으로 지지되지 않는다고 결론 지을 수 있다.

b.영가설을 기각한다면 어떻게 결론 지을 수 있는 지 설명하시오.

반대로 영가설을 기각한다면, 새로운 생산방식이 원가절감에 도움이 될 것이다라는 대립가설이 실증적으로 지지된다고 결론 지을 수 있다.

null hypothesis alternative hypothesis cost reduction에 대한 이미지 검색결과

연습문제 1. 힐탑 커피(Hiltop Coffee)의 큰 캔에는 3파운드의 커피가 함유되어 있다고 표시되어 있다. FTC (Federal Trade Commission)는 정기적으로 통계조사를 실시하여 제조업체들의 주장이 사실인지를 확인한다. 만약 제품 표시가 잘못되었다고 판단되면 함량 미달과 상표 표시 위반으로 힐탑에게 벌금을 부과할 수 있다. FTC는 힐탑커피 캔의 함량 표시를 모집단의 평균 함량이 3파운드라는 주장으로 해석한다. 만약 힐탑 커피 캔에 관한 표본 조사에서 모집단의 평균 함량이 3파운드 이상이라고 추정되면 검사에서 통과가 되고 그렇지 않으면 검사에서 통과되지 못한다. FTC가 어떤 절차를 거쳐서 그러한 판단을 내리게 되는 걸까?

(해제)

1) 유의수준을 선택한다.

FTC는 엄격한 검사를 위해 신뢰수준 99%를 선택했다. 그렇다면 유의수준은 0.01이다.

2) 대립가설과 영가설을 세운다.

먼저 대립가설은 “모집단의 평균 함량이 3파운드 이상일 것이다”가 된다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “모집단의 평균 함량이 3파운드 미만일 것이다”가 된다. 그렇다면,

3) 표본자료를 수집하고 검정 통계치를 계산한다.

FTC는 36개의 캔 커피를 표본으로 추출하여 표본평균 2.92 파운드를 얻었다. FTC는 모집단의 표준편차가 0.18이라는 사실을 알고 있고 모집단의 함량은 정규분포를 따른다고 가정한다.

모집단의 표준편차()를 알고 있음으로 z-분포를 적용하여 z-값을 구한다. z-값은 표본평균()의 z-분포(표집분포)에서 표본평균()이 모평균()으로부터 표준오차의 몇배만큼 떨어져 있는지를 구한다. 이를 공식을 적용하여 계산하면 아래와 같다.

영가설으로부터 도출한 모평균()은 3이고, 표본평균()은 2.92, 모표준편차()는0.18, 표본의 크기()는 36이다.각 값을 식(1)에 대입하여 z-값을 계산한다.

표본통계치 z는 -2.67이다.

4) p-값을 구한다.

p-값은 z가 -2.67 이하일 확률이다. 표준정규분포에서 z=-2.67의 왼쪽에 해당되는 부분은 0.0038이다(Probability Distributions라는 스마트폰 app을 사용하면 손쉽게 구할 수 있음).

5) p-값과 유의수준을 비교하여 결론을 내린다.

p-값 0.0038은 유의 수준 0.01보다 훨씬 작다. 따라서 영가설을 기각할 수 있다. 영가설이 기각되었음으로, 대립가설(모집단의 커피 평균함량이 3파운드 이상이다)이 경험적으로 지지된다고 결론을 내릴 수 있다.

연습문제 2. 다음의 가설검정을 생각해보자.

25개 표본의 표본평균 , 표본표준편차

a. 검정통계치 값을 계산하시오.

b. p-값을 계산하시오.

c. 일 때, 결론은 무엇인가?

 

(해제)

a. 모집단의 표준편차를 모르며 표본의 표준편차가 주어져 있고, 표본의 크기가 25이므로 t-분포를 적용하여 검정통계치 값을 계산한다.

b. 자유도 = 24, t = 2.3148일 때, p값은 0.01475

c. p-값 0.01475가 보다 작으므로, 영가설을 기각한다. 영가설이 참일 가능성이 매우 작은 것이다. 다르게 표현하면, 영가설이 참일 때 표본평균 14를 얻을 가능성이 매우 작다. 따라서 모평균이 12 미만일 것이라는 영가설을 기각하고 모평균이 12 이상일 것이라는 대립가설을 채택한다. 

 

연습문제 3.  다음의 가설검정을 생각해보자.

36개의 표본을 사용한 표본 결과가 다음과 같다. p-값을 계산하고, α=0.01 때의 결론은 무엇인가?

a.

b.

c.

 

(해제)

a. 표본의 크기가 36이므로 자유도는35. 모집단의 표준편차를 모르므로 t-분포를 적용하여 표본통계치(t) 값을 구한다.

자유도 = 35, t = -1.1538일 때, p-값은 0.12820. p-값이 0.01보다 크므로 영가설이 참일 확률이 기준보다 큼을 알 수 있다. 따라서 영가설을 기각할 수 없고 대립가설은 경험적으로 지지되지 않는다.

b와 c는 동일한 방식으로 풀면 되기 때문에 해제를 생략한다.

지금까지 푼 세 개의 연습 문제는 모두 소위 단측 검정에 해당된다. 다음 포스팅에서는 단측 검정과 양측 검정을 비교 설명하고 양측 검정의 사례와 연습문제를 풀어보기로 하자. (2019-10-10)

이론을 버리고 데이터를 선택한다: 가설검정의 원리(상)

조사 연구를 수행하다보면, 연구자의 이론, 가설, 믿음, 확신, 선입관, 혹은 예상이, 수집된 데이터를 분석한 결과와 종종 충돌한다. 이론이 가리키는 방향과 경험적 증거가 가리키는 방향이 자주 상충된다는 말이다. 그럴 때 연구자는 이론(으로부터 도출된 가설)이 아니라 데이터(의 분석결과)를 따른다. 그런 의미에서 통계학에서 우주의 중심–즉, 판단의 기준–은 데이터이다. 통계학이 지닌 그러한 특성을 가장 잘 보여주는 과정이 가설 검정(hypothesis testing)이다.

hypothesis test에 대한 이미지 검색결과

통계학은 모수 추정에 많이 사용되지만, 가설(hypothesis)을 검증하는데도 그에 못지 않게 자주 사용된다. 엄밀히 말하자면, 모수 추정과 가설 검정의 원리는 동일하며, 가설 검정도, 영가설로부터 도출된 모수가 인정할만한가를 데이터를 가지고 따지는 시도라는 점에서 근본적으로 모수 추정이라고 볼 수 있다. 이는 가설 검정을 이해하는 데 있어 핵심적인 문제도 아니고 그 자체가 다소 긴 설명을 필요로 하기 때문에 여기서는 바로 가설 검정에 대해 알아보자.

연구자는 누구나 연구문제(research question)를 갖고 연구를 시작한다. 가설(hypothesis)이란 어떤 연구문제에 대한 잠정적인 답변이다. 잠정적이라는 표현은 검증이 요구된다는 의미이다. 이는 마치 경찰관이나 검사가 “사건의 범인이 누구인가?”라는 의문을 가지고 수사를 시작하고 사건에 대해 감(?)을 잡거나 실마리를 찾게 되면, 용의자 혹은 피의자를 수사선상에 올려놓고 한 걸음 더 수사를 진행하는 것이나 크게 다르지 않다. 연구에 있어 가설은 수사에 있어 용의자(혹은 피의자)와 같다. 증거(데이터)에 의해 검증되어야할 대상이라는 점에서 말이다.

(참고로, 가설을 엄격한 절차에 따라 검증하지 않고 조사나 실험 결과를 조작하거나 결과를 왜곡하여서라도 가설을 입증된 것처럼 발표하는 행위는, 용의자(혹은 피의자)를 범인으로 단정하고 증거 조작이나 허위 자백을 통해서 그것을 뒷받침하려는 것이나 마찬가지이다. 둘 다 심심치 않게 발생하는 범죄 행위이다.)

ronald fisher에 대한 이미지 검색결과

20세기 가장 위대했던 통계학자로 간주되는 Ronald Fisher 경은 p-값(p-value)를 구해서 영가설(null hypothesis)을 검증하는 방식으로 연구자의 이론이나 가설을 검증하자고 제안했다. 그의 제안은 가설검정 이론으로 발전되었고 지금까지 표준적인 과학 방법으로 자리잡고 있다.

가설 검정은 대체로 다섯 단계로 진행된다.

1) 유의수준(significance level)을 선택한다. 어느 정도의 신뢰 수준(confidence level)에서 판단할 것인가의 기준을 정하는 것이다. 통상 95%의 신뢰 수준이 선택되나 연구 문제에 따라서는 90%가 선택되기도 하고 99%가 선택되기도 한다. 하지만 Fisher의 제안에 따라 20번 중 1번 정도의 오류를 허용하는 95%이 선택되는 경우가 대부분이다. 신뢰수준이 선택되면 신뢰계수가 결정되고, 신뢰계수가 정해지면 유의수준이 계산된다. 95% 신뢰수준이면, 신뢰계수가 0.95이고, 유의수준은 0.05(1-0.95로 계산된다)가 된다. 유의수준은 통상 로 표기한다.

2) 대립가설(alternative hypothesis)을 설정한다. 연구자가 연구를 통해서 증명하고 싶은 주장이 대립가설이 된다. 대립가설은 변수들 사이에 관계가 있다 혹은 실험 처지의 효과가 있다는 의미로 사용되며, 흔히 로 표기된다.

3) 모수에 대한 영가설(null hypothesis)을 설정한다. 영가설은 귀무가설이라고도 하며 대립가설에 반대되는 명제이다.  그렇지 않은 경우도 적지 않지만 영가설(null hypothesis)은 문자 그대로 변수들 사이에 서로 관계가 없다(확률적인 의미에서 상호독립적이다)든가 어떤 실험 처지(treatment)의 효과가 없다는 의미로 사용된다. 영가설은 흔히 이라고 표기된다.

통계적 가설의 세계에는 대립가설과 영가설, 딱 두 가지 종류의 가설 밖에 존재하지 않는다. 그리고 그 두 가설은 서로 반대되는 서술이다. 영가설이 긍정되면 대립가설은 의심되며, 영가설이 부정되면 대립가설은 지지된다. 통계학적 용어를 사용하자면, 검정에서 영가설이 기각되면, 대립가설이 긍정되고, 반대로 영가설 기각에 실패하면, 대립가설이 부정된다. 가설 검정은 항상 영가설 검정이라는 우회적인 방식으로 연구자의 주장(대립가설)에 대해 판단한다.

4) p(p-value) 구한다p-값은 영가설이 진실일때(예컨대 그림에서처럼 모수가 0일 때) 우리가 통계치(sample statistics)나 그보다 더 극단적인 값(extreme value)을 얻을 확률()을 가리킨다. 그림으로 나타내면 아래와 같다.  영가설이 참이라는 가설 아래 상정된 모수(예: μ)와, 표본에서 얻어진 표본통계치 z값(σ를 아는 경우)이나 t값(σ를 모르는 경우)을 계산하고 그것으로 p값을 도출한다.

P_Value

위 그림은 확률분포인데 진한 회색으로 된 부분이 p-값(p-value)이다. p-value가 아주 작으면 영가설이 진실일 때 통계치나 그 이상의 극단적인 값을 얻을 확률이 아주 작다.

만약 표본조사나 실험으로부터 획득한 p-값이 아주 작으면, 영가설이 참인 상황에서 그러한 조사 결과를 얻을 가능성이 매우 희박하다는 의미이다. 그 경우 연구자는 영가설이 참이라는 가설을 버리던지 아니면 표본조사나 실험 결과를 의심하든지 양자택일을 해야 한다. 그런 상황에 놓이게 되면 연구자는 데이터를 믿고 영가설을 버린다. 그것이 통계학이란 세계의 질서이다. 그런데 p-값이 얼마나 작아야 작다고 판단할 수 있는가? 그래서 다음 단계가 필요하다.

5)  p-값과 유의 수준을 비교하여 결론을 내린다. 위 그림에서처럼 p값이 유의수준(통상 ) 보다 작으면 영가설을 기각한다(버린다는 통계학적 표현). 영가설이 참일 때 손에 쥔 데이터를 얻을 확률(간단히 말해 영가설이 참일 확률, 정확히 말하자면, 영가설이 참인데 기각할 확률)이 아주 작기 때문이다. 그러면 연구자의 주장(대립가설)이 데이터에 의해 지지받는다고 결론을 내린다. 만약 p값이 유의수준보다 크면 영가설을 기각하는데 실패한다(통계학적 표현이다). 그러면 (표본) 경험적 데이터가 연구자의 주장을 지지하지 않는다고 결론을 내린다 

hypothesis testing에 대한 이미지 검색결과

경험과학에서는 이렇게  자기의 주장을 직접 검증하지 못하고 우회적으로 검증할 밖에 없다. 영가설 검증을 통해서 대립가설을 우회적으로(어떻게 말하면 겸손하게) 검증하는 것이다. (2019-10-09)