표와 그래프(2): 피어슨 상관계수

그래프에서 데이터를 표시하는 데는 좌표(coordinates)가 사용되고 변수 사이의 관계는 기본적으로 직선(a straight line)으로 묘사된다. 다시 말해 각 사례는 그것이 지닌 두 변수의 값으로 구성된 좌표로 그래프에 표시되고 연구자는 사례들의 분포에 직선을 적합(fitting)해서 그 데이터들의 분포를 가장 잘 대표하는 직선을 찾아내면, 연구자는 그 직선이 두 변수들의 관계를 가장 잘 나타내주는 것으로 간주한다.

예컨대 아래 표는 미국 샌프란시스코에 소재한 어떤 음향기기 판매점이 시행한 TV광고횟수와 매출액에 관한 데이터이다.

TV광고횟수와 매출액의 추이

이 데이터를 아래와 같이 그래프에 표시할 수 있다. x축에 TV광고횟수를, y축에 매출액을 둔다면, 그래프에서 각 주의 좌표는 (2, 50), (5, 57), (1, 41) 등이 될 것이다(아래 그래프 참조).

엑셀을 이용해서 이 데이터의 분포를 가장 잘 보여주는 직선을 적합하면 아래와 같다. 붉은 색의 점선이 엑셀이 적합해준 추세선이다. 이 직선은 두 변수 사이의 선형 관계를 “가장 잘 나타낸다”.

교차표 학파의 학자들이 교차표의 각 칸의 빈도를 예측하는 데 관심이 있다면, 그래프 학파의 학자들은 각 사례의 값을 예측하는 데 관심이 있다. 그들은 직선을 가지고 각 점의 좌표를 예측한다. 위 그래프에서 붉은 선(엑셀의 추세선)은 10개의 데이터 값(좌표)을 “가장 잘 대표(예측)하는” 직선이다. “가장 잘 나타낸다”, “가장 잘 대표한다”, “가장 잘 예측한다”는 말이 무슨 의미인지는 조금 후에 설명하겠다.

그래프 접근의 대표적인 도구는 상관계수(correlation coefficients)와 회귀분석(regression analysis)이다. 상관계수는 두 변수 사이에 존재하는 관계의 방향과 정도를 표시한다. 상관계수는 데이터가 예측선(직선)의 주위에 얼마나 모여 있는가를 나타낸다. 비록 그것이 예측선을 구체적으로 특정하지는 못하지만 말이다. 즉, 상관계수는 선형적 관계가 존재하는지를 보여준다.

관련 이미지

위 그림을 보면, 맨 좌측 그래프는 한 변수가 증가하면 다른 변수도 증가하는 모습이다. 양의 기울기를 가진 직선 주위에 데이터들이 모여 있어 그 직선이 데이터의 분포를 잘 대변하고 있다. 가운데 그래프는 한 변수가 증가하면 다른 변수는 감소하는 모습이다. 직선은 음의 기울기를 가지고 있고, 데이터는 직선 주위에 잘 모여 있어 이 경우도 직선이 데이터의 분포를 잘 나타내 준다. 맨 우측의 그래프는 어디로 선을 그어야 할 지가 막막하게 데이터가 분포하고 있다. 이 경우 어떤 직선을 그리더라도 그 직선 주위에 데이터가 몰려 있지 않을 것이다.

피어슨 상관계수(Pearson correlation coefficient, )는 이러한 관계를 하나의 숫자로 표현해 준다. 상관계수는 아래의 공식으로 구할 수 있다.

식 (1)에서 분모는 변수 x의 표준편차와 변수 y의 표준편차를 곱한 값이고, 분자는 x와 y의 공분산이다. 공분산은 아래 식으로 구해진다.

식 (2)에서 분모는 자유도이고, 분자는 x편차와 y편차의 곱을 모두 더한 값이다. 위 사례에서 공분산은 11이며, TV광고횟수의 표준편차는 1.4907이고, 매출액의 표준편차는 7.9303이다. 엑셀 함수 COVARIANCE.S를 적용하면 공분산이 구해지고, STDEV.S를 적용하면 각 변수의 표준편차가 구해진다. 식 (1)에 이 값들을 대입하면, TV광고횟수와 매출액의 상관계수는 0.93이다. 이 과정이 복잡하면, 연구자는 엑셀의 CORREL 함수를 적용하여 데이터에서 상관계수를 바로 계산할 수도 있다.  상관계수 0.93은 TV광고횟수와 매출액이라는 두 변수 사이에 높은 양의 상관관계가 있음을 보여준다.

그런데, 표본의 크기(10)가 아주 작다. 모집단에서는 음향기기 판매에 있어 TV광고횟수와 매출액 사이에 상관관계가 부재할 수도 있다. 이를 확인하려면 유의성 검정(significance test)를 해야한다.

피어슨 상관계수의 유의성 검정은 상관계수 값을 검정통계량   값으로 전환한 다음 검정을 수행하여 이루어진다. 아래 공식을 적용하면 상관계수 값으로부터 검정통계량 값을 구할 수 있다.

여기에 적용되는 자유도는 이다. 공식 (3)에 을 집어 넣으면,

자유도가 8이므로, 양측 검정의 p값은 9.38553e-05이다. 이 값은 엑셀의 T.DIST.2T 함수를 적용하면 얻어진다. 이 값은 유의수준 0.05보다 훨씬 작기 때문에, 모집단에서 TV광고횟수와 매출액 사이에 관계가 없다는  영가설()은 기각된다. 즉, 만약 이 표본 데이터가 무작위 표본(혹은 그에 근접하는 좋은 표본)이라면, 음향기기 판매 업체들이라는 모집단에서도 TV광고횟수는 매출액과 높은 양의 상관관계를 갖는다고 추정될 수 있을 것이다.  다음 글에서는 그래프 접근의 다른 도구인 회귀분석에 관해 알아보자. (2019-11-23)

표와 그래프(1): 통계학에서 ‘세상’을 보는 두 가지 방식

‘세상’은 관계로 구성된다. 인간 세상은 개인들, 집단들, 국가들 사이의 관계로 이루어져 있고, 자연계도 온갖 존재들 혹은 현상들 사이의 관계로 이루어져 있다.

과학은 그 관계에 내재하는 법칙이나 원리(그냥 간단히 법칙이라고 하자)를 밝힌다. 사회과학은 인간계를 연구하고, 자연과학은 자연계를 연구하지만 관계의 법칙을 탐구한다는 점에서 서로 다르지 않다.

그런데 현실에 존재하는 객체들 사이의 관계를 하나 하나 들여다 보아서는 아무리 오랜 시간 연구를 한다고 해도 법칙을 드러내기는 거의 불가능하다. 관계의 법칙은 개별적인 객체들 사이의 관계를 관통하는, 즉, 그 관계들 모두 혹은 대부분에 해당되는 것이기 때문이다. 자연인 A와 B, 기업체 가와 나, 인간 A와 늑대 등 같이 특수한 개체들 사이의 관계는 반드시 오만 가지의 법칙에다 우연적 요소까지 함께 작동하여 나타난다.

과학자들은 개체(entities) 대신 변수(variables)를 가지고 세상을 인식한다. 변수는 개체들이 지닌 속성(properties)이다. 다시 말해 개체들의 관계를 직접 보는 대신 개체들을 구성하는 속성들의 관계를 파악해서 개체들의 관계를 이해하려고 한다.

예컨대 사회과학자들은 인간을 구성하고 있는 성별, 나이, 학력, 인종, 종교, 출신지, 질병, 성향, 직업, 소득, 재산 등이라는 속성들, 즉, 변수들 사이의 관계에 주목한다. 그리고 그들은 그 변수들 사이의 관계에 존재하는 법칙적 현상을 밝히고자 한다. 그렇게 함으로써 궁극적으로 사람들 사이의 관계를 해명할 수 있으리라 기대한다.

통계학은 변수들 사이의 관계를 표(table) 혹은 그래프(graph)로 표시한다. 초등 수학 때부터 배운 표와 그래프가 바로 그것이다. 초등학교에서는 한 변수를 표나 그래프로 나타내는 방법을 배웠을 것이고, 중고등학교 혹은 대학에서는 두 변수 혹은 그 이상의 변수들의 관계를 표나 그래프로 나타내는 방법을 배웠을 것이다.

표는 칸(cell)으로 구성된다. 각 칸에는 변수의 범주들에 속하는 사례들의 숫자가 기재된다.

예컨대 어떤 중학교의 학생들이 총 300명인데, 그 중 남학생이 170명이고, 여학생이 130명이라고 하자. 그 학교 학생들을 성별이라는 변수로 표시한다면, 아래와 같은 표를 만들 수 있을 것이다.

성별빈도
남학생170
여학생130
합계300

이 표는 이 중학교에는 여학생보다 남학생의 수가 많음을 보여준다.

남학생과 여학생이 방과 후 활동 중 체육을 선택한 비율을 비교한다면, 그것은 성별방과 후 체육활동 참여라는 두 변수의 관계를 보는 것이 된다. 두 변수 이상의 관계를 나타내는 표는 교차표(cross-table)라고 한다. 만약 위 중학교에서 방과 후 체육활동에 130명의 남학생과 30명의 여학생이 참여한다면 다음과 같은 교차표가 만들어진다.

 방과 후 체육활동 참여합계
성별참여비참여
남학생130(76.47)40(23.53)170(56.67)
여학생30(23.08)100(76.92)130(43.33)
합계160(53.33)140(46.67)300(100.00)

행비율을 계산해 보면, 방과 후 체육활동에 전체 학생 중에는 53.33%가 참여하고 있는데, 남학생 중에는 76.47%가, 여학생 중에는 23.08%가 참여하고 있는 것으로 나타났다. 여학생보다 남학생이 훨씬 높은 비율로 방과 후 체육활동에 참여하고 있는 것이다. 이 학교에서는 방과 후 체육활동이 성별에 따라 다름을 알 수 있다. 통계학적으로 표현하면, 이 학교에서는 방과 후 체육활동 (참여)라는 변수가 성별이라는 변수에 의존적이다, 방과 후 체육활동이라는 변수와 성별이라는 변수가 서로 관계를 갖고 있다 혹은 방과 후 체육활동과 성별은 상호독립적이 아니다가 된다.

만약 연구자의 관심이 이 학교를 넘어서 우리나라 전체 중학교라는 모집단에 있다고 한다면, 이 교차표는 표본 데이터가 되고, 그 표본 데이터를 가지고 모집단의 관계(모수)를 추정하거나 “우리나라의 (전체) 중학교에서 방과 후 체육활동 참여 여부는 성별에 의해 영향을 받는다’ 혹은 “우리나라 중학교에서 방과 후 체육활동에는 남학생이 여학생보다 월등하게 높은 비율로 참여하고 있다”라는 가설을 검증할 수도 있다.

표 혹은 교차표에서 모수 추정이나 가설 검정은 이론으로부터 각 칸의 빈도를 예측(추정)하고, 그 예측값과 실제 관찰값을 비교하는 방식으로 수행될 수 있다. 카이자승을 이용한 독립성 검정이나 로그 선형 모형(Log-linear model)이 그러한 방식을 구체적으로 수행 가능하게 해주는 통계 기법이다. 표 접근법을 선호하는 학자들(교차표 학파라고 부르자)은 교차표의 각 칸에 들어갈 빈도를 예측하는 데 관심이 있다. 교차표 학파의 학자들은 만약 간단한 이론으로 각 칸의 관찰값과 거의 유사한 예측값을 얻을 수 있다면 그것은 멋진 이론이라고 생각한다.

원래 표(혹은 교차표)는 변수들이 명목 수준(nominal level)이거나 순서 수준(ordinal level), 즉, 범주적 변수(categorical variable)일 때 사용된다. 반면에 그래프는 변수들이 구간 수준(interval level)이나 비율 수준(ratio level), 즉, 수치적 변수(numerical variable)일 때 사용되도록 개발되었다.

그러나 현실에서 표와 그래프는 단순한 도구의 차이를 넘어서 세상에 대한 서로 다른 접근법이 되었다. 표를 좋아하는 학자들은 표를 가지고 세상(즉, 변수들의 관계)을 분석하려 들고,  그래프를 좋아하는 학자들은 그래프를 가지고 세상을 분석하려 든다. 그들은 변수의 측정 수준에 따른 구분을 별로 존중하지 않는다. 특히 양쪽의 방법이 발전하면서 그러한 구분 허물기가 더욱 심해졌다.

자신들의 방법을 적용하기 위해 교차표 학파의 학자들은 수치적 변수를 범주적 변수로 변환하고, 그래프 학파의 학자들은 범주적 변수를 수치적 변수로 변환한다. 그들은 그 과정에서 데이터의 정보를 잃거나 데이터를 왜곡할 수도 있지만 그렇게 함으로써 얻어지는 효과가 그 상실을 보상하고도 남는다고 생각한다.

학자들의 고집은 못말린다. 그들은 자신들의 생각을 구현할 능력이 있기(혹은 그렇다고 착각하고 있기) 때문에 학문의 영역에 양보란 없다. 거기에는 오직 승리와 패배만 있을 뿐이다. 다음 글에서는 그래프 학파에 대해서 살펴보자. (2019-11-23)

카이자승과 독립성 검정(개정판)

[예제 1] 미국 동부 주요 대도시에 근무하는 경찰관 남녀의 승진 사례이다. 경찰관 1,200명 중 960명은 남자, 240명은 여자이다. 지난 2년 동안 324명이 승진하였다. 다음 표에 과거 2년간 경찰관의 승진 현황이 제시되어 있다. 승진 결과를 검토한 다음, 여경위원회는 240명의 여경 중 36명만이 승진하였다는 사실을 근거로 여성차별이 있다고 문제를 제기했다. 경찰인사관리위원회는 여성이 상대적으로 적게 승진한 것은 여성차별 때문이 아니라 여성 수가 상대적으로 적기 때문이라고 주장했다. 과연 누구의 주장이 옳을까? 통계학은 이 첨예한 갈등을 합리적으로 해결하는 데 기여할 수 있을까?

이 교차표를 접근하는데는 두 가지 방법이 있다. 이 교차표가 모집단의 수치를 보여주는 경우 조건부 확률(conditional probability)을 사용하면 되고, 이 교차표가 하나의 표본에 관한 정보로 간주된다면 카이자승() 을 가지고 독립성 검정을 하면 된다.

어느 데이터가 모집단(population)에 관한 것인가 혹은 표본(sample)에 관한 것인가는 근본적으로 연구자가 어떤 대상에 대해 주장을 제시하고 싶은가에 달려 있다. 예컨대 이 사례에서 연구자가 해당 경찰청의 과거 2년 동안에 발생한 승진 케이스들에 대해서만 성차별이 존재하는지를 따지겠다면, 이 데이터는 전수 데이터로 모집단에 관한 것이라고 간주될 수 있다. 반면에 연구자가 해당 경찰청의 데이터를 가지고 미국의 전체 경찰이나 미국 사회 전체에 존재하는 성차별에 관해 따지겠다면 이 데이터는 표본에 관한 것이라고 간주되어야 한다.

이 교차표를 가지고 그 두 접근을 모두 검토해 보자. 먼저 조건부 확률부터 논의하겠다.

최근 조건부 확률은 그 어느 때보다도 중요한 지식이 되었다. 현업에서 가설 검증보다는 예측이 훨씬 더 많이 요청되고 있으며, 예측에 널리 사용되는 베이즈 추론(Bayesian inference)의 논리적 토대가 조건부 확률이다. 현업에서 스스로 예측을 하거나, 최소한 남이 하는 예측을 이해하고 싶다면, 조건부 확률에 관련된 개념들을 꼼꼼하게 익혀둘 필요가 있다.

확률을 다룰 때는 먼저 사건을 정의해야 한다.

M = 경찰관이 남성; W = 경찰관이 여성; A = 경찰관이 승진;  =  경찰관이 승진하지 못함

= 무작위로 뽑힌 경찰관이 남성이고 승진;  = 무작위로 뽑힌 경찰관이 남성이고 승진하지 못함; = 무작위로 뽑힌 경찰관이 여성이고 승진; = 무작위로 뽑힌 경찰관이 여성이고 승진하지 못함

위의 표는 아래 확률들을 가지고 승진에 관한 결합확률표(joint probability table)로 전환될 수 있다. 

이러한 확률들은 두 사건의 곱사건의 확률로서 결합확률(joint probability)라고 부른다.

결합확률 주변에 있는 값들은 각 사건의 확률이다. 즉, P(M) = 0.80; P(A) = 0.20; P(A) = 0.27; P() = 0.73이다. 이러한 값들을 주변확률(marginal probability)이라고 부른다. 결합확률표에서 관련된 행이나 열의 결합확률을 합하면 주변확률을 구할 수 있다. 예컨대 이다. 이점을 잘 기억해두면 베이즈 추론에 도움이 될 것이다.

결합확률과 주변확률을 가지면 조건부 확률(conditional probability)을 구할 수 있다.  예컨대 어떤 경찰관이 남성일 경우 그가 승진할 확률, 을 구해보자.

도수를 사용해서 구하면, 288/960=0.3이 될 것이다. 확률을 이용해서 구해도 0.24/0.80=0.3으로 동일한 값이다. 확률을 이용한 조건부 확률의 계산을 일반화하면 다음과 같다.

조건부 확률은 결합확률을 주변확률로 나눈 값, 다른 말로 주변확률에 대한 결합확률의 비율이다.

경찰관이 여성인 경우 승진할 확률은 아래와 같다.

즉, 남성경찰관의 승진확률은 0.3으로 여성경찰관의 승진확률 0.15의 두 배이다. 이 결과는 경찰인사관리위원회의 주장보다 여경위원회의 주장을 지지한다.

만약 이 데이터가 표본이라면 조금 다른 방식으로 접근할 수 있다. 교차표에 나타난 차이가 우연적 결과이다 혹은 승진에 관해서 성차별이 없다(통계학적으로 표현하면, 경찰관의 성별과 승진이 독립 사건이다) 라는 가설을 검증하는 방법이다. 이를 영가설(null hypothesis)이라고 하는데, 만약 영가설이 기각되면 대립가설(alternative hypothesis)을 수용하게 된다. 이것이 바로 독립성 검정(test of independence)이다.

만약 경찰관의 성별과 승진이 독립 사건이라면 결합확률표는 어떤 모습일까? 남자 경찰관 중 승진자 비율, 여성 경찰관 중 승진자 비율, 그리고 전체 경찰관 중의 승진자 비율이 같을 것이다(아래 결합확률표 참조).

이를 일반화하여 표현하면 다음과 같다.

이를 빈도의 교차표로 나타내려면 각 결합확률이나 주변확률에 총사례수인 1200을 곱하면 된다.

빈도 교차표에서는 아래 공식을 이용해서 바로 예측값을 구할 수 있다.

여기서 는 기대 빈도(expected frequency), 는 주변 열 빈도(marginal column frequency), 은 주변 행 빈도(marginal row frequency), 은 총 표본 크기(total sample size)이다.

이는 영가설 아래서 얻은 예측값이다. 이 예측값과 실제 관찰값의 차이가 영가설을 기각할 수 있을 만큼 충분히 큰가? 이것을 검증하는 기법이 카이자승 검정( test)이다.

여기서 는 각 칸의 관찰값(빈도)이고, 은 각 칸의 예측값(빈도)이다.

각 셀의 카이자승 값은 그 셀의 관찰값에서 예측값(영가설 아래)을 뺀 값을 제곱한 수를 그 셀의 예측값으로 나누면 된다. 각 셀의 카이자승 값들을 모두 합한 수가 전체 카이자승 값이다.  카이자승 분포()은 아래 그림에서처럼 자유도()의 크기에 따라 모양이 변한다. (아래 그림은 위키피디아에서 가져왔음.)

Chi-square pdf.svg

교차표에서 자유도를 구하는 공식은 다음과 같다.

위의 사례에서는 자유도는, (2 – 1)(2 – 1)=1이다.

엑셀에서는 바로 카이자승 값을 구할 수 없다. 위 공식들을 이용해서 구해야 한다. 다만 예측값의 교차표를 구하면, CHISQ.TEST 함수를 이용해서 바로 카이자승 값의 p- 값을 구할 수 있다. 아래는 그 두 가지 방법을 모두 이용해 구한 값들이다.

이 교차표의 카이자승 값의 p-값은 영가설을 충분히 기각할 수 있을 정도로 작다. 위에서 조건부 확률을 가지고 얻은 결과를 카이자승 검정을 통해서 다시 확인한 셈이다.

독립성 검정에 관한 예제 하나를 더 보자.

[예제 2]  맥주취향에 있어 남녀간의 차이가 있을까? 맥주 취향에 가벼운, 보통, 흑 세 가지 종류가 있다고 하자. 독립성 검정의 가설은 다음과 같다.

:맥주취향은 성별과 독립적이다.  : 맥주취향은 성별과 독립적이지 않다.

아래 데이터를 가지고 카이자승 검정을 해보자. 유의수준은 0.05로 하자.

(풀이)

  1. 원데이터를 엑셀에 입력하여 피벗테이블 기능을 사용해서 교차표를 만들었다.
  2. 공식 (1)을 이용하여 영가설 하의 기대빈도(도수)를 구한다(아래 그림에서 연노랑색칸에 있는 값들). 엑셀로 행렬을 계산할 수 있는 사람은 MMULT함수를 이용해서 계산을 빨리 할 수 있을 것이다(주황색칸에 있는 값들).

3. 공식 (2)를 이용해서 카이자승 값을 구한다. 각 칸의 기대값에서 관찰값을 뺀 차이를 구하고, 그 값을 제곱한다. 그리고 그 값을 기대값으로 나눈다. 그러면 각 칸의 카이자승 값을 구할 수 있다. 위 그림에서 연초록칸, 진초록칸, 하늘색칸 순서로 그 값이 계산되어 있다. 하늘색칸에 있는 값들이 각 칸의 카이자승이다. 그 값들을 모두 합하면 6.4468이고, 그것이 우리가 구하려고 하는 교차표의 검정통계량인 카이자승 값이다. 자유도를 계산하면, (2-1)*(3-1)=2이다. 엑셀의 CHISQ.DIST.RT 함수에 카이자승 값(6.4468)과 자유도(2)를 넣으면, p-값 0.03982가 구해진다.

영가설 하의 기대빈도를 구하면, CHISQ.TEST 함수를 이용하여 바로 p-값을 구할 수도 있다. CHISQ.TEST에는 관찰빈도 범위와 예측빈도 범위를 넣어주면 된다.

아니면, 스마트폰 어플을 이용할 수도 있다. 예컨대 어플 Probability Distributions에서 Chi-Square 분포를 선택한 후 자유도와 카이자승값을 입력하여 p-값을 구할 수도 있다. 어떤 방법을 선택하나 동일한 p-값을 구할 수 있다.

4. 검정통계량의 p-값이 유의수준 0.05보다 작기 때문에 영가설(즉, 독립성 가설)이 기각되며, 따라서 맥주에 관한 취향이 성별에 따라 다르다고 추정된다.

참고로 카이자승 검정은 비록 차이가 있다 없다는 점을 검증하지만 항상 단측 검정이다. F-검정 때처럼 분포가 비대칭적일 뿐 아니라 음수가 될 수 없기 때문에 오른쪽 단측 검정이 적합하다.  (2019-11-10)

분산분석(개정판)

앞에서 두 모집단의 평균비교가 단일모집단의 평균에 대한 모수추정과 가설검정의 확장판임을 보았다. 그렇다면 세 모집단 이상의 평균비교는 두 모집단 평균비교의 확장일 것이라고 손쉽게 추측할 수 있다.

그런데, 그 추측은 절반만 맞고 절반은 틀리다. 세개 이상의 모평균을 비교하는 일이 두 모평균 비교의 논리적 확장이지만, 기술적으로는 크게 다르다는 점에서 절반은 맞고 절반은 틀리다라고 말할 수 있다.

anova에 대한 이미지 검색결과

 

세 개 이상의 모평균을 비교하는 경우라도 두 개의 모평균 비교에 사용했던 t-검정(z-검정도 마찬가지이지만)을 적용할 수 있다. 모평균을 한 쌍씩 묶어서 t-검정을 실시한 다음 그 결과를 수학적으로 결합하면 될 것이다. 문제는 그렇게 할 경우 매 검정마다 제1종 오류()가 발생하게 되고 신뢰계수가 검정 횟수만큼 곱해지기 때문에 연구자가 통제하려는 제1종 오류가 크게 증가하게 된다.

예컨대 95% 신뢰수준으로 모수 추정이나 가설 검정을 하기 위해 세 차례 t-검정을 실시한다면, 신뢰계수는 0.95*0.95*0.95=0.857이 된다. 따라서 는 0.147이 될 것이다. 즉, 연구자가 원하는 만큼 제1종 오류를 통제할 수 없게 된다는 말이다.

그래서 세 개 이상의 모평균 비교에는 기술적으로 두 개의 모평균 비교와는 다른 방법이 적용된다. 핵심은 분산(VARIANCE)을 사용한다는 점이다. 그래서 이름이 분산분석이다. 자, 이제 차근차근 예제를 보면서 분산분석을 공부해 보자.      

[문제 1] 세 농장에서 옥수수를 생산하는데, 각각 살충제를 다른 방식으로 살포하였다. 재배를 마친 후 수확 상태를 조사해서 다음과 같은 결과를 얻었다. 이 데이터를 가지고 살충제의 살포 방법에 따라 옥수수의 수확량에 차이가 있다고 추정할 수 있을까?(김은정, 2017: 279 변형)

자연과학, 사회과학을 막론하고 경험 과학(empirical science)에서 지식을 얻는 방법은 실험과 관찰이다. 그런데 실험과 관찰을 찬찬히 뜯어보면 과학적 인식의 핵심은 비교(comparison)임을 알 수 있다.

실험에서는 처치 집단(treatment group)과 통제 집단(control group)을 비교하여 처치의 효과를 판단하고, 관찰에서도 어떤 기준값과 비교하거나 사례들을 비교하여 인과관계를 추론하거나, 차이(difference), 성과(outcome) 혹은 효과(effects)를 판단한다.

ANOVA(Analysis of Variance, 분산 분석)는, 집단들의 비교에 널리 사용되는 통계 도구이다. 기본적으로 ANOVA는 특정한 변수에 관해 집단들의 평균을 비교하며, 분산(variance)을 가지고 그 비교를 통계적으로 판단한다. 그래서 평균들을 비교함에도 불구하고 이름이 분산 분석이다.

[문제 1]을 보면, 세 곳의 농장에서 일종의 의사 실험(quasi-experiment)을 시행했다. 같은 살충제를 다른 방식으로 살포하고 어떤 방식이 더 좋은 지를 알아보는 조사이다. 그 방식이란 살충제 살포 시점이나 횟수에 관한 것이 아닐까 짐작된다. 살충제를 언제, 혹은 몇 번이나 살포하는가가 병충해 예방에 영향을 많이 미치기 때문이다.

농장 I, II, III은 각각 8군데의 밭이 있는데, 농장별로 살충제를 서로 다른 방식으로 살포하고 가을에 수확량을 조사했다. 세 농장의 수확량(100 평방미터당) 평균을 계산하면, 농장 I은 228.25 kg, 농장 II는 226.625 kg, 농장 III은 230.25 kg이다. 세 농장의 수확량 평균에 차이가 있음은 분명하다.

그러나 그 수치들만 봐서는 그 차이가, 살충제 살포방식이 달라서 나온 결과(차이)인지, 아니면 살충제 살포방식과는 상관없이 그냥 우연히 발생한 결과(차이)인지를 알 수가 없다. 그것을 통계적으로 판단할 수 있도록 도와주는 도구가 ANOVA이다.

ANOVA는 집단 간의 변이(between variability)집단 내의 변이(within variability)보다 충분히 크면, 집단들의 평균이 서로 다른 모집단에서 나온 것으로 추정하고, 조치(treatment, 독립변수: 이 사례에서는 살충제 살포방식)의 효과가 있다고 판단한다. 반대로 집단간의 변이가 집단 내의 변이보다 그다지 크지 않으면, 집단들의 평균이 하나의 공통 모집단으로부터 나온 것으로 추정하고, 조치의 효과가 없다고 판단한다.

집단 간의 변이와 집단 내의 변이의 비율은, 위 식에서처럼 집단 간 편차 제곱의 합(MSC, 처리 제곱의 평균이라고도 함)집단 내 편차 제곱의 합(MSE, 잔차 제곱의 평균이라고도 함)의 비율로 구한다.

MSC와 MSE는 다음과 같이 구할 수 있다.

그렇다면 문제는 SSC, SSE, , 를 구하는 것으로 압축된다. 그 값들은 아래 식들로 계산된다. SST는 총 제곱의 합, SSC는 처리 제곱의 합, SSE는 잔차 제곱의 합이다.

이 세 가지 제곱 합 사이에는 다음과 같은 관계가 성립한다. . 그래서 SST는 SSC와 SSE로 분해된다고 표현되기도 한다. SST는, 각 관측값에서 전체 평균을 뺀 편차를 제곱하여 더한 값이다.

(=j번째 집단의 i번째 관측값; =전체 평균; 은 집단 j의 관측값 수; k는 집단 수)

SSC는 각 집단의 평균에서 전체 평균을 뺀 편차에 각 집단의 관측수를 곱해서 모두 합한다.

(k=집단 수; j=j번째 집단; =j번째 집단의 관측값 수; =j번째 집단의 평균; =전체 평균)

SSE는 각 집단의 편차제곱의 합을 모두 더 한다.

(=j번째 집단의 분산) 혹은 공식을 가지고 구한다.

자유도는 아래 공식으로 구할 수 있다. 집단 간 제곱의 평균을 구하는 데 필요한 자유도는 집단의 수 빼기 1이며, 집단 내의 제곱의 평균을 구하는데는 총 관측 수에서 집단의 수를 빼면 된다.

, (k=집단 수; =전체 관측값 수)

이렇게 구한 F ratio, 즉, F 값은 F 분포를 이룬다. F 분포는 위의 두 가지 자유도(degree of freedom)에 의해 결정된다. 따라서 F 값, , 를 알면 p 값을 구할 수 있다. 아래 그림은 [문제 1]의 데이터를 가지고 세 가지의 편차를 구한 결과이다. (이 문제를 MS 엑셀을 사용해 풀어놓은 파일을 보려면 이 링크를 클릭하시오.)

여기서 전체 편차를 제곱하여 더하면 SST를 구할 수 있고, 그룹 간 편차를 제곱하여 더하면 SSC를, 그룹 내 편차를 제곱하여 더 하면 SSE를 구할 수 있다. MS 엑셀에서 함수 SUMSQ를 사용하면 쉽게 제곱 합을 구할 수 있다. 다음 그림에 보듯이 총 제곱합의 구하는 함수는 =SUMSQ(E2:G9)이다.

총 제곱합(SST)는 129.625, SSC(처리 제곱합)은 52.75, SSE(잔차 제곱합)은 76.875이다. 아래 그림에서 보듯이 이 편차제곱의 합들이 분산분석표의 두 번째 열을 구성한다. 이 그림은 엑셀이 제공하는 추가기능인 ‘데이터 분석’을 수행한 결과이다. 제곱합의 수치들이 정확히 일치함을 볼 수 있다.

처리제곱 평균(MSC)은 처리 제곱합을 그것의 자유도로 나누어 준 26.3757이고, 잔차제곱 평균(MSE)은 그것의 자유도 21로 나누어 준 3.660714이다(네 번째 열 참조). F 비(ratio)는 26.3757/3.660714 = 7.204878이다. 그것의 확률인 p-값은 함수 FDIST를 사용하면 구할 수 있다. p-값은 0.004145로 0.05보다 훨씬 작다. 이 결과를 가지고 우리는, 살충제의 살포방식이 옥수수 생산에 상당히 의미 있는 영향을 미친다고 결론을 내릴 수 있을 것이다. 즉, 농장 III에 적용한 방식이 가장 효과적이고, 농장 II에 적용한 방식이 가장 비효과적으로 판단한다. 실제 분산분석을 수행할 때 직접 평균, 편차, 제곱합 등을 구하는 경우는 없을 것이다. 통계 소프트웨어를 사용하면 순식간에 필요한 값들을 모두 얻을 수 있기 때문이다.

엑셀의 자체 추가기능인 데이터 분석에서도 일원 배치법 분산 분석을 적용하면 한꺼번에 모든 값을 얻을 수 있다. 다만 엑셀에서는 데이터 분석 기능을 모바일 버전에서는 사용할 수 없다는 함정이 있다. 때문에 자주 사용하는 함수들은 사용법을 익혀두면 편리할 것이다.

어떤 통계 도구도 그러하듯이 ANOVA도 적용하는데 갖춰야할 조건이 있다. ANOVA는 꼭 실험이라 아니라도 독립변수가 범주형이고, 종속변수(혹은 반응 변수)가 수치형이면 사용할 수 있다. 그리고 종속변수의 모집단이 정규분포를 따라야 한다. 다만 표본의 크기가 모두 같다면, 이 가정은 크게 중요하지 않다.

다음 두 문제를 직접 풀어보기 바란다.

[문제 2] 어떤 대학에서 학생들을 상대로 대학생들의 학습 능력을 연구한다고 하자. 연구자들은 그 대학에서 오래 공부할수록 학습 능력이 향상되는 지 알고 싶다. 그러기 위해 1학년, 2학년, 3학년에서 각각 8명씩 무작위 표본을 추출하여, 100점 만점의 학습 능력 테스트를 시행하였다. 다음 표는 그 결과이다. 이 데이터를 가지고 대학에서의 공부가 학생들의 학습 능력을 향상시킨다고 주장할 수 있을까?

[문제 3] Consumer Report는 미국 South Carolina 주 소재 풀 서비스 식당들의 식사 가격을 조사하였다. 세 가지 유형의 식당을 각 8곳씩 조사한 결과는 다음과 같다. 이 데이터를 가지고 세 가지 유형의 식당에서의 한 끼 식사 평균 가격이 다르다고 추정할 수 있을까?(Anderson, 2016: 542)

<참고 문헌> Anderson, David R, et.. (류귀열/김창규/최승은/김민중/이성철 역). 2016. <앤더슨의 통계학(Essentials of Modern Business Statistics)>. 한올. 김은정. 2017. <사회조사분석사>. 학진북스.

두 평균의 비교(3): 등분산 가정 및 대응표본의 경우

등분산 가정의 경우

실제로 그런 경우는 아주 드물겠지만 비교하는 모집단의 분산(즉, 표준편차)이 같을 경우가 있을 것이다. 그런 경우는 아래와 같이 표시된다.

두 모집단의 평균 차이의 신뢰구간은 앞에서 공식 (7)을 가지고 추정되었다.

그런데, 만약 두 모집단의 분산이 동일하다면 공식 (7)이 아래처럼 단순화될 수 있다.

이를 간명하게 다시 쓰면,

그런데 현실에서는 모집단의 표준편차 가 알려져 있지 않으므로 추정치로 바뀌어야 한다. 그런데 그 추정치는 합동표본분산(pooled sample variance)이며 통상 로표시된다. 그러면 공식 (7-2)은 공식 (13)으로 바뀐다.

여기서는 를 어떻게 구하는가가 관건일 것이다. 아래 식처럼 합동표본분산은 각 표본의 편차제곱의 합을 더한 다음, 그값을 두 표본의 자유도 합계 로 나누어 구한다.

그리고 공식 (13)을 적용하려면 자유도를 구해야 한다. 자유도는 공식 (14)의 분모에 사용된 것과 동일하다.

가설검정에 필요한 검정통계량 t의 값은 다음과 같이 구할 수 있다. 식 (13)에서 표준오차는 아래와 같이 추정되었다.

그러면 t 검정통계량은 다음과 같다.

두 모집단의 표준편차가 동일하다는 가정이 충족되기는 매우 어렵다. 대부분의 경우 모집단의 표준편차가 다르기 때문이다. 그러나 두 모집단의 표준편차를 모를 경우, 공식 (7-1), (10-1), (11) 대신, 단순화된 공식 (13), (15), (17)을 사용해서 평균차이를 추정하거나 가설검정을 해도 무방할 것이다(Wonnacott & Wonnacott, 1985: 232). 어차피 두 모집단의 표준편차를 모르는데, 그 둘을 같다고 해도 가정해도 되지 않겠는가.

대응표본(paired sampes, matched smaples)의 경우

고등학교의 한 학급에서 중간고사 성적과 기말고사 성적을 비교한다고 하자. 그냥 학급 전체를 통으로 묶어서 중간고사 성적 평균과 기말고사 성적 평균을 비교할 수도 있겠지만, 학생 개인별로 중간고사 성적과 기말고사 성적을 비교한 결과를 종합하는 방법도 있을 것이다.

각 학생의 성적이 얼마나 변했는지를 보려면, 중간 성적과 기말 성적의 차이를 구하면 될 것이다.

모든 학생의 성적 차이(변동)를 구하면 그 차이 데이터는 하나의 표본으로 간주될 수 있다. 그렇다면 그것은 하나의 표본 평균으로 하나의 모집단 평균을 추정하는 경우와 동일할 것이다. 즉, 먼저 (성적 차이)의 평균인 를 구한다. 이 표본평균을 가지고 모집단 평균(라고하자)에 대한 구간추정을 할 수 있다.

가설검정을 위해서는 검정통계량 t의 값을 구해야 한다. 대응표본의 검정통계량 는,

그리고 대응표본의 자유도는 이다.

대응표본 설계는 독립표본 설계에 비해 이점이 많다. 왜냐하면 짝지음(pairing)은 다른 외생변수(extraneous variables)를 통제할 수 있는 대응(match)이기 때문이다.

(예제 1) 어떤 고등학교의 한 학급의 기말 성적과 중간 성적의 차이를 추정하고자 한다(95% 신뢰수준). A, B, C, D라는 학생의 성적이 있다.

학생 이름중간고사 성적기말고사 성적
A6454
B6654
C8970
D7762

먼저 데이터로부터 를 계산할 수 있다(아래 엑셀 결과 그림 참조). 자유도 3일 때 오른쪽 검정 0.025의 t-값은 3.18이다. 이 값들을 공식 (18)에 대입하면,

그 학급은, 중간 성적 평균이 기말 성적 평균보다 최저 8점, 최대 20점이 더 높거나, 아니면 그 사이 어느 점수이다.

연구자가 중간 성적 평균과 기말 성적 평균이 다른지를 알고 싶다면, 그것을 대립가설()로 놓고, 영가설은 그 반대인 중간 성적 평균과 기말 성적 평균이 같다()로 놓아 가설검정을 수행할 수 있을 것이다. 검정통계량 t를 구하기 위해 공식 (19)를 사용하면,

자유도 3인 t-분포에서 t-값 7.14의 양측검정 p-값은 0.006이다. 이 값이 유의수준 0.05보다 작으니 영가설이 기각된다. 따라서 그 학급의 중간 성적 평균과 기말 성적 평균은 다르다고 추정된다.

대응표본 가설 검정은 엑셀의 데이터 분석에서 ‘쌍체비교’ t-검정을 이용하여 수행될 수 있다. 아래는 그 결과이다. 공식 (19)를 이용해서 수작업으로 구한 t-값과 엑셀로 구한 t-값이 일치함을 볼 수 있다.

 

(예제 2) 어느 공장의 노동자들이 생산할 때 생산 방법 1과 생산 방법 2라는 두 가지 방법을 사용한다고 하자. 생산 방법 1로 생산한 제품의 모집단 평균 생산 시간을 이라 하고, 생산 방법 2로 생산한 제품의 모집단 평균 생산 시간을 라고 하자. 이중어느 생산 방법이 더 빠른가에 대해 알려진 것이 없으므로 두 방법의 모집단 평균 시간은 같다고 하자.그렇다면영가설은 이된다. 이 가설을 기각한다면 모집단의 평균 생산 시간은 다르다(대립가설)고 결론 낼 수 있을 것이다. 영가설과 대립가설은 다음과 같다. 신뢰수준 95%에서 가설을 검정하시오.

노동자생산방법 1의 생산시간(단위:분)생산방법 2의 생산시간(단위:분)
16.05.4
25.05.2
37.06.5
46.25.9
56.06.0
66.45.8

데이터로부터 를 얻었다. 이 값들을 공식 (19)에 대입하면,

자유도 5인 t-분포에서 t-값 2.19의 양측검정을 위한 p-값은 0.08이다. 이 값이 0.05보다 크므로 영가설을 기각할 수 없다. 따라서 두 생산방식의 평균 생산시간은 다르지 않다고 결론지을 수 있다. 엑셀의 데이터분석 중 ‘쌍체비교 t-검정’이용해도 동일한 검정통계량 t-값과 양측검정을 위한 p-값을 얻을 수 있다(아래 그림 참조).

두 모집단의 평균 차이에 대한 구간추정은 공식 (18)을 이용하여 다음과 같이 수행할 수 있다.

오차범위가 0.35이며, 두 생산방법의 모집단 평균 차이에 대한 95% 신뢰구간은 -0.05분부터 0.65분까지이다.

마지막으로 구간추정과 가설검정에 필요한 표본의 크기에 대해 한 마디 덧붙인다. 모집단의 표준편차를 알고 있는 경우에 z-분포를 적용했는데, 그 때에는 각 표본의 크기는 30 이상이 바람직하다. 표본 둘 중 하나 혹은 둘 다 30 미만이면 모집단의 분포가 정규분포에 근사한다는 가정이 필요하다.

모집단의 표준편차를 몰라서 t-분포를 적용할 때는, 비교적 작은 표본으로도 가능하다. 두 표본수의 합이 20 이상이면 비록 모집단이 정규분포를 따르지 않아도 좋은 결과를 기대할 수 있다. 단, 모집단이 심하게 편포되어 있으면 표본이 좀 커야 하며, 표본이 작다면 모집단이 정규분포에 근사하다는 조건이 충족되어야 할 것이다.

이상으로 두 모집단의 평균비교를 학습했다. 그것이 단일 모집단의 평균을 추정하는 논리와 다르지 않음을 느꼈으리라 생각한다. 비록 모집단이 두 개가 되니 여러가지 상황이나 계산이 다소 복잡해지기는 했지만 말이다. (2019-10-20)

두 평균의 비교(2): 두 표준편차를 모르는 경우

앞 포스팅에서 공식 (7)은 두 모집단의 표준편차를 알고 있을 신뢰구간을 추정한다.

두 모집단의 표준편차인 를 모를 때는 표본의 표준편차인 를 이용하여추정하고, 대신 를 사용한다. 그러면 두 모집단의 표준편차를 모를 때 두 모집단의 평균차이에 대한 구간추정은 아래식과 같을 것이다.

또한 앞 포스팅에서 공식 (10)은 두 모집단의 표준편차를 알고 있을 때 가설검정을 위한 식이다.

두 모집단의 표준편차를 모를 때는 식이 아래와 같이  바뀐다.

문제는 t-분포를 사용하려면 자유도를 알아야 하는 데 자유도를 계산하는 식이 아래처럼 복잡하다.

자유도 구하는 공식이 상당히 복잡하지만 염려할 필요는 없다. 그 공식을 사용해서 직접 구하는 경우는 거의 없을 것이니. 통계 소프트웨어가 적절한 자유도를 자동으로 계산해 줄 것이다. 공식 (7-1), (10-1), (11)을 사용하면 두 모집단의 표준편차를 모를 때 모평균 차이에 대한 신뢰구간을 구하거나 가설 검정을 수행할 수 있다. 예제를 가지고 공식을 적용해 보자.

(예제) 두 개의 큰 학급이 영어 시험을 치뤘다. 한 학급(학급 1)에서 뽑은 네 명의 성적은 64, 66, 89, 77이고, 다른 학급(학급 2)에서 뽑은 세 명의 성적은 56, 71, 53이었다. 두 학급의 성적 차이에 대한 95% 신뢰구간을 구하시오.

(해제) 학급 1의 표본평균()은 74.0점이고, 학급 2의 표본평균()은 60점이다. 공식 (7-1)을 적용한다.

다음에는 공식 (11)을 이용해서 자유도를 구해서 를 계산하자.

자유도가 5일 때 이다. 이 값을 식 (12)에 대입하면,

이 결과를 말로 표현하면, 학급 1의 평균은 학급 2의 평균보다 7이 작거나, 35가 크다. 혹은 그 사이 어딘가이다.  이 경우 표본들이 아주 작아서 표집오차가 크게 허용됨을 알 수 있다.

이번에는 가설 검정을 해보자. 두 모집단의 평균이 다르다는 연구 가설을 검증해 보자. 이 연구 가설은 대립가설이 되고, 이와 반대되는 명제인 두 모집단의 평균이 같다는 영가설이 될 것이다. 이 가설들은 아래와 같이 표기된다. 신뢰수준은 95%이다.

그러면, 위 공식 (10-1)을 적용할 수 있다.

자유도 5일 때 t-값이 1.75이면, 오른쪽 단측검정의  p-값은 0.07이다. 양측검정이니 이 값을 두 배하면, 0.14이다. 이는 유의수준 0.05보다 크다. 따라서 영가설을 기각할 수 없으며, 두 모집단의 평균이 다르다고 판단된다. 즉, 학급 1과 학급 2의 성적은 다르다고 추정된다.

평균비교는 MS 엑셀의 ‘데이터 분석’이라는 애드인(MS 자체 제공)을 이용하여 손쉽게 수행할 수 있다. ‘데이터 분석’의 하위 메뉴를 보면, t-검정과 z-검정이 있다. t-검정에는 ‘쌍체비교’, ‘등분산 가정 두 집단’, ‘이분산 가정 두 집단’이 있다. 이 예제는 ‘이분산 가정 두 집단’의 t-검정에 해당된다.

입력 창이 나타나면, 두 변수의 입력 범위를 넣고, ‘가설 평균차’에 0, ‘유의수준’에 0.05을 넣으면 된다. 그런 다음 확인을 누르면 바로 아래와 같은 결과를 얻을 것이다.

위 표를 보면, 자유도는 5, t-값은 1.75, 양측 검정 p-값은 0.14이다.

다음 포스팅에서는 등분산 가정 두 집단과 쌍체 비교 t-검정을 해보자. (2019-10-19)

두 모평균의 비교(1): 두 표준편차를 알고 있는 경우

현실에서 우리는 자주 두 모집단을 비교한다. 예컨대 우리는 두 반이나 두 학교의 모의고사  성적을 비교한다. 그럴 때 우리는 두 모집단의 성적 평균을 산출하여 비교하거나 두 모집단에서 표본을 추출하여 표본평균을 구하고 그것을 비교하여 모집단 성적 평균을 추정 한다.

두 모집단의 평균 비교는 앞에서 설명한 한 모평균의 구간 추정과 가설 검정의 첫 번째 확장이라고 볼 수 있다. 그렇다면, 두 모집단의 평균 비교에서, 1) 영가설에서 도출된 모수는 무엇인지, 2) 그 모수의 확률분포는 어떤 모습인지, 만약 그것이 t-분포를 이룬다면 자유도는 어떻게 구할 것인지, 3) 모표준편차를 모를 경우 표준오차를 어떻게 추정할 것인지, 4) 검정통계치를 어떻게 계산할 것인지, 5) 신뢰구간이나 가설 검정에 대한 최종 판단은 어떻게 할 것인지를 차근차근 알아보면 될 것이다.

다만 모집단이 두 개이기 때문에 발생하는 변이가 있다. 두 모집단의 평균을 비교할 때 대개의 경우 두 모집단은 서로 별개(독립적)로 존재한다. 그런데 두 모집단이 특별한 관계를 갖고 있는 경우도 있다. 모집단의 구성원은 동일한 데 그 구성원들이 두 가지 다른 행동이나 과업을 수행하여 마치 두 개의 모집단처럼 간주되는 경우가 바로 그것이다. 이 경우 표준오차를 어떻게 처리할 것인지에 대한 설명이 추가로 필요하다.

상호 독립적인 두 개의 모집단의 평균 비교: 두 모집단의 표준편차()를 알고 있는 경우

두 모집단의 평균은 통상 아래와 같이 그 차이를 가지고 비교될 수 있다.

이 차이가 추정되는 모집단 목표이다. 그것에 대한 합리적인 추정값은 아래 식에 표시된 것처럼각 모집단으로 부터 추출된 표본으로부터 구한 평균의 차이가 될 것이다.

우리가 알고 있는 단일 모평균의 신뢰구간을 구하는 공식을 응용하면 식 (2)를 가지고 식(1)의 신뢰구간을 아래와 같이 추정할 수 있다.  우리가 알고 있는 단일 모평균의 신뢰구간을 구하는 공식은 아래와 같다.

공식 (3)에서 은 표준오차(평균의 확률분포의 표준편차)이다. 공식 (3)을 이용해서 식 (2)로부터 식(1)을 추정하는 공식은 다음과 같이 쓸 수 있을 것이다.

표준오차가 에서 로 바뀌었다.두 모집단의 평균 비교를 위한 표준오차는 다음과 같이 구해진다.

는, 두 모집단이 독립적이라고 가정되었음으로  당연히 두 표본은 서로 독립적이고, 따라서 독립적인 두 확률변수의 선형결합이다. 따라서 그것의 분산(variance)은 아래와 같이 계산된다.

두 평균 차이의 분산은 각 평균 분산을 합한 값이다. 그런데 이므로  식 (5)는 아래와 같이 표시된다.

따라서,

즉, 평균 차이의 표준오차는 두 모집단 분산의 합을 양의 제곱근한 값이다.  이제 식 (6)을 공식 (4)에 대입하면 두 모집단 평균 차이에 대한 신뢰구간 공식이 구해진다.

두 모집단이 정규분포이거나 중심극한정리를 적용할 수 있을 만큼 표본의 크기ㅏ가 커서 의 표집분포가 정규근사 한다면 의 표집분포는 평균이 인 정규분포가 될 것이다.

공식을 구했으니, 예제를 풀어보자.

(예제) 홈스타일(HomeStyle)은 도심과 교외 쇼핑센터의 두 매장에서 가구를 판매하고 있다. 매장 관리자는 이 두 매장의 판매 패턴 차이가 두 지역의 인구통계학적 차이에 기인한다고 생각하였다. 그래서 두 매창 고객들의 평균 나이 차이에 대해 조사하라고 지시하였다. 이전에 실시한 인구통계조사를 통하여 두 모집단 표준편차가 임을 알고 있다. 도심 매장에서 추출한 표본의 크기는 36이고 평균은 40이며, 교외 매장에서 추출한 표본의 크기는 49이고 평균은 35이다. 두 매장의 쇼핑객 평균 나이의 차이에 대한 95% 신뢰구간을 구하시오.

(풀이) 모집단 1은 도심 매장 쇼핑객, 모집단 2는 교외 쇼핑객 이라고 하자.

= 모집단 1의 평균(도심 매장 쇼핑객의 평균 나이)

= 모집단 2의 평균(교외 매장 쇼핑객의 평균 나이)

이 데이터를 공식 (7)에 대입하면,

이므로 식 (8)은 아래와 같이 정리된다.

표본평균 차이는 5이고, 표준오차는 2.07이고,  오차범위가 4.06이다. 따라서 두 모집단 평균차이의 95% 신뢰구간 추정값은 0.94(살)에서 9.06(살)까지이다.

두 모집단 평균차이에 대한 가설검정을 알아보자. 단일 모평균에 대한 가설을 검정할 때, 표본평균에서 영가설로부터 도출된 모평균을 뺀 값이 표준오차의 몇 배인가를 보여주는 표본통계치 z나 t값을 구해서(식 (9) 참조) 그것의 p-값을 구하고, p-값과 유의수준을 비교하여 영가설에 대해 판단하였다.

두 모집단의 평균차이의 경우 가설검정은 신뢰구간 추정보다 다소 복잡하다. 우선 설명을 간명하게 하기 위해 라고하자. 그렇다면 세 가지 경우가 나올 것이다. 먼저 두 모집단의 평균이 같다는 영가설과 두모집단의 평균이 다르다는 대립가설을 설정할 수 있다. 양측 검정의 경우가 될 것이다.영가설이 기각되면 두 모집단의 평균 차이가 통계적으로 유의미하다고 판단된다.

다음에는 모집단 1의 평균이 모집단 2의 평균보다 같거나 크다는 영가설을 설정할 수 있다. 그러면 대립가설은 모집단 1의 평균이 모집단2의 평균보다 작다가 될 것이다.

끝으로 모집단 1의 평균이 모집단 2의평균보다 같거나 작다는 영가설을 설정할 수 있다. 그러면 대립가설은 모집단 1의 평균이 모집단 2의 평균보다 크다가 될 것이다.

위의 식 (9)를 원용하여  에 대한 가설검정에서의 검정통계치를 계산하는 공식이 아래와 같이 도출된다(두 모집단의 표준편차가 알려져 있는 경우).

표본통계치 값을 구하면 p-값이 산출된다.

위의 홈스타일 가구의 두 매장 사례를 가지고 가설 추정을 해보자. 만약 두 매장의 쇼핑객 평균 나이에 차이가 있는지를 알아본다면, “두 매장 쇼핑객 평균 나이가 다르다”를 대립가설로 두고, “두 매장 쇼핑객 평균 나이가 같다”를 영가설로 두는 양측 검정이 될 것이다.

우리가 가진 정보는 아래와 같다.

이 정보를 공식 (10)에 대입하여 표본통계치를 구한다.

z-값이 양수이므로 오른쪽 단측검정을 하면, p-값 = 0.008이다. 양측검정을 위해 이를 두 배하면 0.016이다. 이 값은 유의수준 0.05(95% 신뢰수준)보다 작다. 따라서 두 모집단의 평균이 같다는 영가설은 기각되고, 두 매장 쇼핑객의 평균 나이가 다르다고 결론을 내릴 수 있다. (2019-10-19)

가설검정의 원리(요약)

조사연구자는 어떤 모집단의 구조나 특성 혹은 트렌드에 관심을 갖는다. 그것을 전문가들은 흔히 모수(퍼라미터, parameter)라고 부른다. 모수를 추정하거나 모수에 대한 가설을 검정하는 작업은 모두, 한 마디로 모수를 알아내려는 노력이다. 모수를 파악한다는 것은, 사회과학자들에게는 사회조직과 사회 전체를 이해하는 것을 의미하며, 자연과학자들에게는 자연과 우주를 이해하는 것을 의미한다. 모수 추정과 가설 검정은 그만큼 커다란 무게를 지닌다.

가설(hypothesis)이란, 조사연구자가 연구 대상 모집단에 대해 갖고 있는 인식–그것은 이론일수도 있고, 선입견일 수도 있으며, 막연한 추측일 수도 있다–을 압축적으로 표현한 명제이다. 가설이 진실(truth) 혹은 현실(reality)로 인정받기 위해서는 반드시 경험적 데이터(혹은 사실들, facts)에 의해 검증되어야 한다. 그것이 실증과학의 입장이다.

특히 신실증주의 과학관에 의하면 어떤 연구 가설이나 이론도 경험적 데이터에 의해 직접 증명될 수 없다. 경험적 데이터는 오직 우회적인 방법에 의해서만 가설에 대해 발언할 수 있을 뿐이다. 우회적 방법이란, 연구 가설(그것을 대립가설, alterative hypothesis 로 둔다)에 반대되는 영가설(null hypothesis), 을 설정하고, 그 다음 경험적 데이터를 가지고 그 영가설을 검증하여 연구가설(대립 가설)을 에 대한 판단을 내리는 방식을 말한다.

관련 이미지

대부분의 경우 조사연구자는 모집단 전체를 조사할 수 없다. 거기에 들어가는 막대한 비용이나 시간을 감당하기 어렵기 때문이다. 그래서 소규모의 표본을 추출하여 설문조사를 하거나 실험을 시행하여 경험적인 데이터를 수집한다.

표본 데이터가 수집되면, 표본통계치를 구하여 영가설을 검증한다. 모평균에 대한 가설을 검증하는 경우를 살펴보면, 표본평균()을 구하고, 그 표본통계치가 (표본평균의) 표집분포의 중심으로부터 얼마나 멀리 떨어져 있는지를 계산한다. 그리고 그 거리()가 표준오차()의 몇 배인가를 계산한다. 그것이 표본통계치 z-값이다. 표집분포의 중심은 영가설로부터 추정된 이며, 표준오차는, 모집단의 표준편차()를 알고 있는 경우 공식  을 사용하여 구할 수 있다. z-값은 아래 공식으로 구해진다.

z-값을 구하면, 통계 소프트웨어를 이용하여 손쉽게 p-값을 구할 수 있다. p-값은 영가설이 참일 때 그것을 기각할 확률(제1종 오류)이다. 다시 말하면, 그것은 영가설이 참일 때, 표본조사를 통해서 우리 손에 들어온 표본통계치를 얻을 확률이다.

조사연구자는 미리 자신이 어느 정도의 확신을 갖고 영가설에 대한 판단을 내릴 것인지를 결정해 둔다. 즉, 분석을 시작하기 전에 신뢰수준을 결정해 둔다. 통상 95% 신뢰수준을 선택한다. 그러면 신뢰계수가 0.95이고, 유의수준()은 0.05이다. 유의수준은 영가설에 대한 판단을 내릴 때 조사연구자가 통제하는 제1종 오류이다. 즉, 표본통계치의 제1종 오류(p-값)가 그 기준을 넘지 않으면 영가설을 기각한다. 영가설이 참일 가능성이 작기 때문이다. 이를 간략히 표현하면,

1) 유의수준() 설정(통상 0.05)

2) p-값 계산: 아래 순서로 구한다.

3) 수준과 -값을 비교하여 영가설에 대해 판단한다.

p-value and hypothesis testing에 대한 이미지 검색결과

위의 두 번째 단계에서 모분산(모표준편차 )을 모르면 -분포를 사용해야 하기 때문에 -값을 구한다. 양측검정을 해야 하는 경우에는 -값의 단측검정에 해당되는 p-값을 구하고 그것을 2배한다.

위의 세 번째 단계에서 p-값 < 수준이면, 영가설을 기각하고, 반대로 p-값 > 수준이면, 영가설 기각에 실패한다.

이상으로 가설검정과 p-값에 대한 설명을 마친다. 편의상 모평균의 검정만을 다루었지만 이 논리는 모든 모수의 통계적 유의성(statistical significance) 검정에 적용된다. 즉, 모비율의 유의성 검정, 분산분석, 상관계수의 유의성 검정, 회귀계수의 유의성 검정, 카이자승() 검정 등 어떤 유의성 검정에서도, 유의수준을 설정하고,  p-값을 계산한 다음, 유의수준과 p-값을 비교하여 통계적 유의성을 판단한다. p-값을 구하는 과정이 다를 뿐이다.

한 마디로, 유의수준과 p-값의 비교는, 표본조사에서 발견된 차이가 단순히 표집으로 인해 우연히 발생한 것인지 아니면 정말로 모집단에 존재하는 차이 때문인지를 보여준다. 그것이 모든 가설 검정과 (통계적) 유의성 검정을 관통하는 핵심적 원리이다. (2019-10-17)

제1종오류, 임계값 방식: 가설검정의 원리(보론)

추리통계에서 p-값의 중요성은 아무리 강조해도 지나치지 않다. 앞 포스팅에서 p-값(p-value)이란 영가설()이 참일 때 표본통계치() 혹은 그 이상의 값을 얻을 확률이라고 설명했다. 또한 p-값은 영가설이 참일 때 그것을 기각할 확률이라고도 하고, 짧게는 영가설이 참일 확률이라고도 말한다.

앞 포스팅에서 필자는 통계학에서 우리는 영가설()에 대한 검정을 통해서 우리의 주장(대립가설)을 우회적으로 검증한다고 지적했다. 그런데 데이터를 가지고 영가설을 검정할 때 우리는 항상 오류를 범할 가능성을 안고 있다. 아래 표에서처럼 영가설()이 참인데 기각으로 결론을 낼 수 있고, 영가설이 거짓인데 채택으로 결론을 낼 수도 있다.

영가설이 참임에도 그것을 기각하는 오류를 제1종 오류라고 부르며, 영가설이 거짓임에도 그것을 채택하는 오류를 제2종 오류라고 부른다.

영가설이 참일 때 제1종 오류를 범할 확률을 유의수준(significance level)이라고 한다. 유의수준은 그리스 문자 로 표시한다. 유의수준은 연구자가 임의로 설정한다. 연구자는 유의수준의 설정으로 제1종 오류를 범할 확률을 통제한다.

연구자는 신뢰수준(confidence level)을 선택하는데, 사실 그것이 오류의 허용 수준을 함축하고 있다. 통상 Ronald Fisher의 예를 따라서 95% 신뢰수준, 즉, 스무번에 한번 정도의 추정 오류를 허용하면서 판단을 내리고자 한다. 신뢰수준이 95%이면 신뢰계수(confidence coefficient)가 0.95이며, 유의수준은 가 된다. 사안에 따라서는 90% 신뢰수준이나 99% 신뢰수준이 설정되기도 한다. 신뢰수준이 90%이면 유의수준이 0.10이고, 신뢰수준이 99%이면 유의수준은 0.01이다.

p-값은 하나의 표본에서 계산된 통계치(예컨대 )를 가지고 영가설을 검증할 때  연구자가 안게 되는 제1종 오류의 크기를 의미한다. 만약 이 오류의 크기(혹은 수준)–영가설이 참일 때 기각할 가능성–가 연구자가 선택한 유의수준보다 작으면 영가설을 기각한다. 다시 말해 유의수준과 p-값은 모두 제1종오류를 가리킨다. 유의수준()은 영가설에 대한 판단을 위해 연구자가 선택한 제1종오류의 수준이고, p-값은 표본통계치로부터 추정된 제1종오류의 크기이다. 가설검정에서는 그 두 가지를 비교하여 영가설에 대한 판단을 내리고 결국 그 과정을 통해서 연구자가 증명하려는 대립가설에 대한 판단을 내리게 되는 것이다.

지난 주에 발뒷꿈치의 통증이 한 달 이상 낫지 않아 류마티스 전문 내과에 다녀왔다. 그 전에 통증의학과와 다른 내과에 갔는데, 통증이 재발했기 때문이다. 병원을 다녀와 염증치료제와 진통제를 2주 이상 복용했는데, 틍증이 가라 앉는 듯하다가 처음과 같은 수준으로 재발하자 나는 통풍 때문인 것으로 확신했다. 일반 염증이라면 그런 방식으로 재발될 리가 없었다. 마음 속에서 99% 정도로 확신했다. 내 판단이 틀릴 가능성을 1% 미만으로 본 것이었다.

그런데 류마티스 전문의가 내게 말했다. 발뒷꿈치가 아플 때 그 환자에게 통풍이 있는 경우 열에 아홉은 통풍 때문이라는 것이었다. “열에 아홉”이란 자신의 판단에 10% 오류(통풍으로 인한 것이 아닐 가능성)를 허용하는 것이다. 나는 “백에 아흔아홉”정도의 확신이 있었다. 피검사와 x-레이 검사를 받았고 통풍인 것으로 진단되었다. 나로서는 전혀 놀라운 결과가 아니었다.

두 명의 의사는 오진을 했다. 진료 중 내가 통풍 증세가 있음을 고지했음에도 그들은 환자인 내 말을 무시했다. 마지막 의사는 내 말을 존중했지만 제1종 오류를 너무 크게 두었다. 그런데도 그는 엄청나게 확신을 갖고 나를 대했다.

유의수준이란 뭐 그런 것이다. 어느 정도 확신을 갖고 판단할 것인지, 다른 말로 하면 오류의 가능성을 얼마나 허용하면서 판단할 것인지를 선택하는 것이다. 제1종 오류만 통제하여 실시하는 가설 검정을 유의성 검정(significance tests)이라고 한다. 대부분의 가설 검정이 유의성 검정이다.

대부분의 가설 검정에서 제1종 오류만 통제하고 제2종 오류를 범할 확률은 통제하지 않는다. 영가설이 거짓임에도 채택할 확률이 제2종 오류이다. 제1종 오류와 제2종 오류 사이에는 trade-off관계가 있다. 제1종 오류를 줄이다보면 제2종 오류의 가능성이 커진다는 의미이다. 그러나 통상 제2종 오류는 명시적으로 통제하지 않는다. 다만 제2종 오류를 범할 위험성을 피하기 위해 통계학자들은 ‘채택’과 같은 직접적인 표현을 사용하지 않고 “기각할 수 없다”다고 표현한다. 가설 검정에서는 “영가설을 기각한다” 와 “영가설을 기각에 실패하다(혹은 기각할 수 없다)”는 두 가지 결론만을 사용한다.

표본통계치(예컨대 )로부터 z-값이나 t-값을 구하면, 오른쪽 단측검정에서는 그것보다 클 확률(p-값), 왼쪽 단측검정에서는 그것보다 작을 확률(p-값)을 구하여, 그것이, 선택한 유의수준보다 작으면 영가설을 기각한다. 제1종 오류, 즉, 영가설이 참인데 기각할 확률이 너무 작기 때문이다. p-값을 영가설이 참일 확률로 이해하면, 완전히 정확한 표현은 아니지만 기억하기 편리하다.

one-tailed test에 대한 이미지 검색결과관련 이미지

유의수준의 z-값(혹은 t-값)을 임계값(critical value)이라고 한다. 예컨대 모집단의 표준편차 를 알고 있을 때, 유의수준이 0.05이면, 임계값(z-값)은 오른쪽 단측검정에서는 1.645, 왼쪽 단측검정에서는 -1.645이며, 유의수준이 0.01이면, 임계값은 오른쪽 단측검정에서 2.33, 왼쪽 단측검정에서 -2.33이다. 오른쪽 단측검정에서는 1.645보다 큰 영역을 기각역(rejection region)이라고 하고, 왼쪽 단측검정에서는 -1.645보다 작은 영역이 기각역이 된다(위 그림 참조). 즉, z-값(혹은 t-값)이 그 영역에 속하면 영가설이 기각된다. 영가설이 참일 때 그러한 z-값(혹은 t-값)얻을 가능성이 희박한 것이니, 영가설이 참일 가능성이 매우 낮은 것이다(아래 그림 참조).

관련 이미지

물론 앞에서 보았듯이 임계값 방식 대신 p-값 방식을 사용해도 된다. 그러면 아래 그림처럼 표시될 수 있을 것이다. 앞 포스팅들에서 충분히 소개했으므로 추가 설명은 생략한다.

rejection region에 대한 이미지 검색결과

 

양측검정의 경우 임계값 방식에서는 유의수준 0.05일 때 임계값은 1.96, 유의수준 0.01일 때 임계값은 2.58이다. 따라서 표본통계치가 그 임계값보다 작으면 영가설을 기각하고,  크면 영가설 기각에 실패한다(아래 그림 참조).

two-tailed test에 대한 이미지 검색결과

임계값 방식의 경우 단측검증과 양측검증을 함께 놓고 보면 아래 그림과 같다.

two-tailed test에 대한 이미지 검색결과

 

p-값 방식을 사용하면, 단측검정의 p-값을 2배하여 유의수준()과 비교하여 영가설에 대한 판단을 내린다(아래 그림 참조).

관련 이미지

 

임계값 방식을 취하던 p-값 방식을 취하던 상관 없다. 다만 오늘날은 p-값 방식을 더 많이 사용하는 추세이다. 이상으로 가설 검정에 대한 논의를 모두 마친다. (2019-10-12)

단측검정과 양측검정: 가설검정의 원리(하)

사회과학에서 가설은 대체로 독립변수(원인이 되는 변수)와 종속변수(결과가 되는 변수) 사이의 인과관계를 나타낸다. 독립변수가 증가하면 종속변수가 증가하는 양의 관계(positive relation)이거나 독립변수가 증가하면 종속변수가 감소하는 음의 관계(negative relation)이다. 즉, 독립변수와 종속변수의 관계에 방향이 묘사된다.

예컨대 “공부를 많이 할수록 성적이 좋을 것이다” 혹은 “학력이 높을수록 소득이 높을 것이다”라는 가설은 양의 관계를 나타내고, “가족의 소득이 낮을수록 가족 스트레스의 수준이 높을 것이다” 혹은 “포용성이 높은 사회일수록 증오범죄의 발생이 낮을 것이다”라는 가설은 음의 관계를 나타내고 있다. 뿐만 아니라 “여성은 남성에 비해 평균 소득이 낮을 것이다” 혹은 “도시민은 농촌 주민에 비해 생활 스트레스가 높을 것이다”처럼 이론적으로나 상식적으로 인과관계의 방향이 예상 가능한 경우가 흔하다.

이렇게 가설에 관계의 방향이 포함되면, 모수에 대한 단측검정(one-tailed test)을 적용한다. 즉, “~~보다 크다”, “~~보다 작다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 지니면, 단측 검정이 적용된다. 영가설 아래 추정된 모평균보다 충분히 작은가를 확인하든지, 아니면 영가설 아래 추정된 모평균보다 충분히 큰가를 확인하면 된다는 말이다.

반면에 “~~과 다르다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 갖지 않으면, 양측 검정(two-tailed test)이 적용된다. 영가설 아래 추정된 모평균보다 충분히 커도 혹은 충분히 작아도 영가설이 기각된다. 사회과학에서 양측 검정이 흔하지는 않지만 그렇다고 없지는 않으므로 기억해 두는 것이 좋다.

그림을 가지고 이해해 보자. 먼저 단측 검정이다. 유의수준이 0.05(즉, 신뢰수준이 95%)일 때 표집분포(z-분포가 적용된다고 하자)에서 유의수준보다 큰 부분은 z-값이 1.645보다 큰 영역이다. 아래 그림 중 왼쪽 그림에서 파랗게 칠해진 부분이다. 만약 표본통계치가 이 영역에 떨어지면 영가설을 기각한다. 그래서 그 영역의 이름이 기각역(rejection region)이다. 표본통계치의 관찰값()이 그 영역에 떨어지면 영가설 아래의 모평균 보다 충분히 크다고 판단하여 영가설이 참임을 의심한다(즉, 영가설을 기각한다). 이 경우가 단측 검정 중 오른쪽 검정(right tail test)이다.

유의수준이 0.05일 때 유의수준보다 작은 부분의 z-값이 -1.645보다 작은 영역일 수 있다. 아래 그림 중 오른쪽 그림에서 파랗게 칠해진 부분이다. 만약 표본통계치가 이 영역에 떨어지면 영가설을 기각한다. 그래서 이 영역도 기각역이다. 표본통계치의 관찰값()이 그 영역에 떨어지면 영가설 아래의 모평균 보다 충분히 작다고 판단하여 영가설이 참임을 의심한다(즉, 영가설을 기각한다).  이 경우가 단측 검정 중 왼쪽 검정(left tail test)이다.

hypothesis testing one-tail test.에 대한 이미지 검색결과

단측 검정은 오른쪽을 검정하든 왼쪽을 검정하든 둘 중 하나이다. 양쪽이 동시에 검정되지 않는다는 말이다. 그런데 표본평균의 표집분포은 모평균(여기서는 )을 중심으로 하고 있기 때문에 표본평균은 모평균보다 작을수도 있고 클수도 있다. 표본평균이 모평균보다 작으면 검정통계치는 음수가 되고, 표본평균이 모평균보다 크면 검정통계치가 양수가 된다. z-분포가 적용되는 경우 가설검정을 위한 검정통계치를 구하는 공식은 아래와 같기 때문이다.

는 영가설에서 세운 (모평균) 값이다. 표본평균 보다 크면 표본통계치 z의 값이 양수가 되고, 보다 작으면 표본통계치가 z의 값이 음수가 된다. 표본통계치가 음수이면 왼쪽 검정이 되고, 양수이면 오른쪽 검정이 된다. 왼쪽 검정이든 오른쪽 검정이든 p-값이 보다 작거나 같으면() 영가설()이 기각된다.

앞 포스팅에서 든 힐탑 커피의 사례에서 z-값이 -2.67이었으니 왼쪽 검정이 적용되었다. z-값 -2.67의 p-값은 0.0038이다. 가 0.01이었으니, p-값이 보다 작아 영가설이 기각되었다(아래 그림 참조).

이번에는 양측 검정을 보자. 양측검정에서 영가설은 “모평균 이 영가설에서 도출된 모평균 과 같다”이며, 대립가설은 “와 다르다(같지 않다)”이다. 표본통계치(z)가 왼쪽 꼬리 쪽의 기각역(critical region) 안에 들어 있거나 오른쪽 꼬리 쪽의 기각역 안에 들어 있으면 가 같지 않다. 아래 그림에서 양쪽 끝에 파랗게 칠한 부분이 기각역이다. 표본통계치 z-값이 양쪽의 기각역 중 어느 쪽에든 들어 있으면 영가설이 기각된다.

two-tailed-test

따라서 단측 검정보다 기각역의 면적이 두배(즉, 확률이 두배)가 된다. 단측 검정에서 구한 p-값에 2를 곱해 주어야 한다. 그렇게 구한 p-값이 보다 작거나 같으면 영가설이 기각된다. 양측 검정에서는 단측 검정의 p-값이 두배로 커지니 그것이 보다 클 가능성이 높아진다. 즉, 단측 검정일 때보다 양측 검정일 때 영가설을 기각하기가 어렵다.

<앤더슨의 통계학>의 제9장에 제시된 맥스플라이트사(MaxFlight, Inc.)의 사례를 가지고 양측 검정을 살펴보자.

미국골프협회는 협회가 주최하는 대회에서 사용할 골프장비에 대한 제조 기준을 세웠다. 맥스플라이트사는 평균 비거리가 295야드인 골프공을 생산하고 있다. 그러나 때때로 제조공정이 잘못되어 평균 비거리가 295야드와 다른 공이 생산되기도 한다. 평균 비거리가 295야드 이하로 떨어지면 골프공 광고와 다르기 때문에 매출이 감소할 우려가 있다. 반면에 골프공의 비거리가 295야드보다 길어지면 미국골프협회의 기준을 초과하여 미국골프협회가 주관하는 대회에서 사용할 수 없으므로 표준 비거리를 지켜야 한다.

맥스플라이트사의 품질관리팀은 정기적으로 50개의 골프공을 표본으로 선택하여 제조공정을 확인한다. 50개의 표본으로 공정을 조정할 것인지의 여부를 결정하기 위해서 가설검정을 하는 것이다.

영가설과 대립가설을 설정해보자. 품질관리 부서가 확인하려고 하는 것은 평균이 295야드에서 벗어나는가이기 때문에 대립가설은 “골프공의 평균거리가 295야드가 아니다”가 될 것이며, 이에 반대되는 영가설은 “골프공의 평균거리가 295야드이다”가 될 것이다. 이는 아래와 같이 표시될 것이다.

표본평균의 표집분포는 아래 그림과 같다. 표본평균 가 295야드보다 충분히(다른 말로 표현해서, 통계적으로 의미있게) 작거나 크면 를 기각한다. 그 경우 제조공정을 조정한다. 

품질관리팀은 검정을 위해 유의수준 를 선택했다. 이전의 반복적인 조사를 통해서 모집단의 표준편차가 임이 알려져 있다고 가정하자. 표본의 크기일 때  의 표준오차를 계산하면 다음과 같다.

50개의  골프공을 표본으로 추출하여 표본평균을 계산했더니 였다고 하자. 표본통계치 z의 값을 계산하면 아래와 같다.

여기서 단측검정을 위한 p-값을 계산하자. z-값이 양수이므로 오른쪽 검정이 된다. 즉, z-값 1.53 이상되는 영역에 해당되는 p-값을 구하면, 이다. 양측 검정이니 표본평균이 양쪽 끝 기각역 어느쪽에 속해도 영가설이 기각된다. 따라서 단측검정의 p-값에 2를 곱해준다. 그러면 이 된다. 아래 그림을 참조하기 바란다.

표본통계치의 p-값 0.1260은  품질관리팀이 선택한 유의수준 0.05보다 크므로 영가설을 기각할 수 없다. 영가설을 기각할 수 없으므로 맥스플라이트사의 골프공의 평균 비거리는 295야드로 추정된다. 따라서 제조공정을 조정할 필요가 없다는 결론에 도달한다.

양측검정을 할 때 p-값은 단측검정을 위한 p-값을 먼저 구해서 그것에 2를 곱하면 된다. 이점만 잘 기억해 두면, 양측검정을 수행하기가 어렵지 않을 것이다.

<앤더슨의 통계학>에 실린 양측 검정 사례를 하나 더 보자.

시사주간지 타임에 의하면 미국에서 결혼한 남성들은 주당 평균 6.4시간 동안 아이를 돌보는 것으로 나타났다. 가정의학과 의사인 남편들이 아이를 돌보는 주당 평균 시간이 타임지에 보고된 6.4시간과 다른 지를 결정하기 위한 연구를 하려고 한다. 40쌍의 부부를 표본으로 선택하여 매주마다 남편들이 아이 돌보는 시간을 조사하였더니 표본평균이 7이고, 표준편차가 2.4였다. 다음에 답하시오.

a. 가정의학과 의사인 남편들이 아이 돌보기에 할애하는 평균시간(모평균)이 타임지에 보고된 것과 다른지를 결정하기 원한다면 가설은 무엇인가?

b. p-값은 얼마인가?

c. 유의수준을 선택하시오. 결론은 무엇인가?

 

(해제)

a. ,

b. p-값을 구하기 위해서는 먼저 표본통계치 t의 값(모집단의 표준편차를 모르니 t-분포를 적용)을 먼저 구한다.

먼저 단측 검정의 p-값을 구하기 위해 t-값이 양수이므로 오른쪽 검정을 적용한다. 표본의 크기가 40이므로 자유도는 39. 단측 검정의 p-값은 0.061이다. 여기에 2를 곱하면, 양측검정의 p-값은 0.122.

c. 유의수준을 0.05로 선택하면, p-값 0.122는 유의수준보다 크다. 따라서 영가설을 기각할 수 없다. 이로부터 우리는 가정의학과 의사인 남성들의 평균적인 육아시간은 기혼 남성들의 평균적인 육아시간과 다르지 않다고 결론내릴 수 있다.

이상으로 단측검정과 양측검정을 비교해서 공부했다. 가설검정에 관한 세 개의 포스팅에서 영가설과 관련된 제1종 오류와 p-값 방식이 아닌 임계값 방식의 가설검정에 관한 논의를 뺐다. 다음 포스팅에서는 이에 대한 논의를 추가한다. (2019-10-12)