이론을 버리고 데이터를 선택한다: 가설검정의 원리(상)

조사 연구를 수행하다보면, 연구자의 이론, 가설, 믿음, 확신, 선입관, 혹은 예상이, 수집된 데이터를 분석한 결과와 종종 충돌한다. 이론이 가리키는 방향과 경험적 증거가 가리키는 방향이 자주 상충된다는 말이다. 그럴 때 연구자는 이론(으로부터 도출된 가설)이 아니라 데이터(의 분석결과)를 따른다. 그런 의미에서 통계학에서 우주의 중심–즉, 판단의 기준–은 데이터이다. 통계학이 지닌 그러한 특성을 가장 잘 보여주는 과정이 가설 검정(hypothesis testing)이다.

hypothesis test에 대한 이미지 검색결과

통계학은 모수 추정에 많이 사용되지만, 가설(hypothesis)을 검증하는데도 그에 못지 않게 자주 사용된다. 엄밀히 말하자면, 모수 추정과 가설 검정의 원리는 동일하며, 가설 검정도, 영가설로부터 도출된 모수가 인정할만한가를 데이터를 가지고 따지는 시도라는 점에서 근본적으로 모수 추정이라고 볼 수 있다. 이는 가설 검정을 이해하는 데 있어 핵심적인 문제도 아니고 그 자체가 다소 긴 설명을 필요로 하기 때문에 여기서는 바로 가설 검정에 대해 알아보자.

연구자는 누구나 연구문제(research question)를 갖고 연구를 시작한다. 가설(hypothesis)이란 어떤 연구문제에 대한 잠정적인 답변이다. 잠정적이라는 표현은 검증이 요구된다는 의미이다. 이는 마치 경찰관이나 검사가 “사건의 범인이 누구인가?”라는 의문을 가지고 수사를 시작하고 사건에 대해 감(?)을 잡거나 실마리를 찾게 되면, 용의자 혹은 피의자를 수사선상에 올려놓고 한 걸음 더 수사를 진행하는 것이나 크게 다르지 않다. 연구에 있어 가설은 수사에 있어 용의자(혹은 피의자)와 같다. 증거(데이터)에 의해 검증되어야할 대상이라는 점에서 말이다.

(참고로, 가설을 엄격한 절차에 따라 검증하지 않고 조사나 실험 결과를 조작하거나 결과를 왜곡하여서라도 가설을 입증된 것처럼 발표하는 행위는, 용의자(혹은 피의자)를 범인으로 단정하고 증거 조작이나 허위 자백을 통해서 그것을 뒷받침하려는 것이나 마찬가지이다. 둘 다 심심치 않게 발생하는 범죄 행위이다.)

ronald fisher에 대한 이미지 검색결과

20세기 가장 위대했던 통계학자로 간주되는 Ronald Fisher 경은 p-값(p-value)를 구해서 영가설(null hypothesis)을 검증하는 방식으로 연구자의 이론이나 가설을 검증하자고 제안했다. 그의 제안은 가설검정 이론으로 발전되었고 지금까지 표준적인 과학 방법으로 자리잡고 있다.

가설 검정은 대체로 다섯 단계로 진행된다.

1) 유의수준(significance level)을 선택한다. 어느 정도의 신뢰 수준(confidence level)에서 판단할 것인가의 기준을 정하는 것이다. 통상 95%의 신뢰 수준이 선택되나 연구 문제에 따라서는 90%가 선택되기도 하고 99%가 선택되기도 한다. 하지만 Fisher의 제안에 따라 20번 중 1번 정도의 오류를 허용하는 95%이 선택되는 경우가 대부분이다. 신뢰수준이 선택되면 신뢰계수가 결정되고, 신뢰계수가 정해지면 유의수준이 계산된다. 95% 신뢰수준이면, 신뢰계수가 0.95이고, 유의수준은 0.05(1-0.95로 계산된다)가 된다. 유의수준은 통상 로 표기한다.

2) 대립가설(alternative hypothesis)을 설정한다. 연구자가 연구를 통해서 증명하고 싶은 주장이 대립가설이 된다. 대립가설은 변수들 사이에 관계가 있다 혹은 실험 처지의 효과가 있다는 의미로 사용되며, 흔히 로 표기된다.

3) 모수에 대한 영가설(null hypothesis)을 설정한다. 영가설은 귀무가설이라고도 하며 대립가설에 반대되는 명제이다.  그렇지 않은 경우도 적지 않지만 영가설(null hypothesis)은 문자 그대로 변수들 사이에 서로 관계가 없다(확률적인 의미에서 상호독립적이다)든가 어떤 실험 처지(treatment)의 효과가 없다는 의미로 사용된다. 영가설은 흔히 이라고 표기된다.

통계적 가설의 세계에는 대립가설과 영가설, 딱 두 가지 종류의 가설 밖에 존재하지 않는다. 그리고 그 두 가설은 서로 반대되는 서술이다. 영가설이 긍정되면 대립가설은 의심되며, 영가설이 부정되면 대립가설은 지지된다. 통계학적 용어를 사용하자면, 검정에서 영가설이 기각되면, 대립가설이 긍정되고, 반대로 영가설 기각에 실패하면, 대립가설이 부정된다. 가설 검정은 항상 영가설 검정이라는 우회적인 방식으로 연구자의 주장(대립가설)에 대해 판단한다.

4) p(p-value) 구한다p-값은 영가설이 진실일때(예컨대 그림에서처럼 모수가 0일 때) 우리가 통계치(sample statistics)나 그보다 더 극단적인 값(extreme value)을 얻을 확률()을 가리킨다. 그림으로 나타내면 아래와 같다.  영가설이 참이라는 가설 아래 상정된 모수(예: μ)와, 표본에서 얻어진 표본통계치 z값(σ를 아는 경우)이나 t값(σ를 모르는 경우)을 계산하고 그것으로 p값을 도출한다.

P_Value

위 그림은 확률분포인데 진한 회색으로 된 부분이 p-값(p-value)이다. p-value가 아주 작으면 영가설이 진실일 때 통계치나 그 이상의 극단적인 값을 얻을 확률이 아주 작다.

만약 표본조사나 실험으로부터 획득한 p-값이 아주 작으면, 영가설이 참인 상황에서 그러한 조사 결과를 얻을 가능성이 매우 희박하다는 의미이다. 그 경우 연구자는 영가설이 참이라는 가설을 버리던지 아니면 표본조사나 실험 결과를 의심하든지 양자택일을 해야 한다. 그런 상황에 놓이게 되면 연구자는 데이터를 믿고 영가설을 버린다. 그것이 통계학이란 세계의 질서이다. 그런데 p-값이 얼마나 작아야 작다고 판단할 수 있는가? 그래서 다음 단계가 필요하다.

5)  p-값과 유의 수준을 비교하여 결론을 내린다. 위 그림에서처럼 p값이 유의수준(통상 ) 보다 작으면 영가설을 기각한다(버린다는 통계학적 표현). 영가설이 참일 때 손에 쥔 데이터를 얻을 확률(간단히 말해 영가설이 참일 확률, 정확히 말하자면, 영가설이 참인데 기각할 확률)이 아주 작기 때문이다. 그러면 연구자의 주장(대립가설)이 데이터에 의해 지지받는다고 결론을 내린다. 만약 p값이 유의수준보다 크면 영가설을 기각하는데 실패한다(통계학적 표현이다). 그러면 (표본) 경험적 데이터가 연구자의 주장을 지지하지 않는다고 결론을 내린다 

hypothesis testing에 대한 이미지 검색결과

경험과학에서는 이렇게  자기의 주장을 직접 검증하지 못하고 우회적으로 검증할 밖에 없다. 영가설 검증을 통해서 대립가설을 우회적으로(어떻게 말하면 겸손하게) 검증하는 것이다. (2019-10-09)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.