표와 그래프(2): 피어슨 상관계수

그래프에서 데이터를 표시하는 데는 좌표(coordinates)가 사용되고 변수 사이의 관계는 기본적으로 직선(a straight line)으로 묘사된다. 다시 말해 각 사례는 그것이 지닌 두 변수의 값으로 구성된 좌표로 그래프에 표시되고 연구자는 사례들의 분포에 직선을 적합(fitting)해서 그 데이터들의 분포를 가장 잘 대표하는 직선을 찾아내면, 연구자는 그 직선이 두 변수들의 관계를 가장 잘 나타내주는 것으로 간주한다.

예컨대 아래 표는 미국 샌프란시스코에 소재한 어떤 음향기기 판매점이 시행한 TV광고횟수와 매출액에 관한 데이터이다.

TV광고횟수와 매출액의 추이

이 데이터를 아래와 같이 그래프에 표시할 수 있다. x축에 TV광고횟수를, y축에 매출액을 둔다면, 그래프에서 각 주의 좌표는 (2, 50), (5, 57), (1, 41) 등이 될 것이다(아래 그래프 참조).

엑셀을 이용해서 이 데이터의 분포를 가장 잘 보여주는 직선을 적합하면 아래와 같다. 붉은 색의 점선이 엑셀이 적합해준 추세선이다. 이 직선은 두 변수 사이의 선형 관계를 “가장 잘 나타낸다”.

교차표 학파의 학자들이 교차표의 각 칸의 빈도를 예측하는 데 관심이 있다면, 그래프 학파의 학자들은 각 사례의 값을 예측하는 데 관심이 있다. 그들은 직선을 가지고 각 점의 좌표를 예측한다. 위 그래프에서 붉은 선(엑셀의 추세선)은 10개의 데이터 값(좌표)을 “가장 잘 대표(예측)하는” 직선이다. “가장 잘 나타낸다”, “가장 잘 대표한다”, “가장 잘 예측한다”는 말이 무슨 의미인지는 조금 후에 설명하겠다.

그래프 접근의 대표적인 도구는 상관계수(correlation coefficients)와 회귀분석(regression analysis)이다. 상관계수는 두 변수 사이에 존재하는 관계의 방향과 정도를 표시한다. 상관계수는 데이터가 예측선(직선)의 주위에 얼마나 모여 있는가를 나타낸다. 비록 그것이 예측선을 구체적으로 특정하지는 못하지만 말이다. 즉, 상관계수는 선형적 관계가 존재하는지를 보여준다.

관련 이미지

위 그림을 보면, 맨 좌측 그래프는 한 변수가 증가하면 다른 변수도 증가하는 모습이다. 양의 기울기를 가진 직선 주위에 데이터들이 모여 있어 그 직선이 데이터의 분포를 잘 대변하고 있다. 가운데 그래프는 한 변수가 증가하면 다른 변수는 감소하는 모습이다. 직선은 음의 기울기를 가지고 있고, 데이터는 직선 주위에 잘 모여 있어 이 경우도 직선이 데이터의 분포를 잘 나타내 준다. 맨 우측의 그래프는 어디로 선을 그어야 할 지가 막막하게 데이터가 분포하고 있다. 이 경우 어떤 직선을 그리더라도 그 직선 주위에 데이터가 몰려 있지 않을 것이다.

피어슨 상관계수(Pearson correlation coefficient, )는 이러한 관계를 하나의 숫자로 표현해 준다. 상관계수는 아래의 공식으로 구할 수 있다.

식 (1)에서 분모는 변수 x의 표준편차와 변수 y의 표준편차를 곱한 값이고, 분자는 x와 y의 공분산이다. 공분산은 아래 식으로 구해진다.

식 (2)에서 분모는 자유도이고, 분자는 x편차와 y편차의 곱을 모두 더한 값이다. 위 사례에서 공분산은 11이며, TV광고횟수의 표준편차는 1.4907이고, 매출액의 표준편차는 7.9303이다. 엑셀 함수 COVARIANCE.S를 적용하면 공분산이 구해지고, STDEV.S를 적용하면 각 변수의 표준편차가 구해진다. 식 (1)에 이 값들을 대입하면, TV광고횟수와 매출액의 상관계수는 0.93이다. 이 과정이 복잡하면, 연구자는 엑셀의 CORREL 함수를 적용하여 데이터에서 상관계수를 바로 계산할 수도 있다.  상관계수 0.93은 TV광고횟수와 매출액이라는 두 변수 사이에 높은 양의 상관관계가 있음을 보여준다.

그런데, 표본의 크기(10)가 아주 작다. 모집단에서는 음향기기 판매에 있어 TV광고횟수와 매출액 사이에 상관관계가 부재할 수도 있다. 이를 확인하려면 유의성 검정(significance test)를 해야한다.

피어슨 상관계수의 유의성 검정은 상관계수 값을 검정통계량   값으로 전환한 다음 검정을 수행하여 이루어진다. 아래 공식을 적용하면 상관계수 값으로부터 검정통계량 값을 구할 수 있다.

여기에 적용되는 자유도는 이다. 공식 (3)에 을 집어 넣으면,

자유도가 8이므로, 양측 검정의 p값은 9.38553e-05이다. 이 값은 엑셀의 T.DIST.2T 함수를 적용하면 얻어진다. 이 값은 유의수준 0.05보다 훨씬 작기 때문에, 모집단에서 TV광고횟수와 매출액 사이에 관계가 없다는  영가설()은 기각된다. 즉, 만약 이 표본 데이터가 무작위 표본(혹은 그에 근접하는 좋은 표본)이라면, 음향기기 판매 업체들이라는 모집단에서도 TV광고횟수는 매출액과 높은 양의 상관관계를 갖는다고 추정될 수 있을 것이다.  다음 글에서는 그래프 접근의 다른 도구인 회귀분석에 관해 알아보자. (2019-11-23)

표와 그래프(1): 통계학에서 ‘세상’을 보는 두 가지 방식

‘세상’은 관계로 구성된다. 인간 세상은 개인들, 집단들, 국가들 사이의 관계로 이루어져 있고, 자연계도 온갖 존재들 혹은 현상들 사이의 관계로 이루어져 있다.

과학은 그 관계에 내재하는 법칙이나 원리(그냥 간단히 법칙이라고 하자)를 밝힌다. 사회과학은 인간계를 연구하고, 자연과학은 자연계를 연구하지만 관계의 법칙을 탐구한다는 점에서 서로 다르지 않다.

그런데 현실에 존재하는 객체들 사이의 관계를 하나 하나 들여다 보아서는 아무리 오랜 시간 연구를 한다고 해도 법칙을 드러내기는 거의 불가능하다. 관계의 법칙은 개별적인 객체들 사이의 관계를 관통하는, 즉, 그 관계들 모두 혹은 대부분에 해당되는 것이기 때문이다. 자연인 A와 B, 기업체 가와 나, 인간 A와 늑대 등 같이 특수한 개체들 사이의 관계는 반드시 오만 가지의 법칙에다 우연적 요소까지 함께 작동하여 나타난다.

과학자들은 개체(entities) 대신 변수(variables)를 가지고 세상을 인식한다. 변수는 개체들이 지닌 속성(properties)이다. 다시 말해 개체들의 관계를 직접 보는 대신 개체들을 구성하는 속성들의 관계를 파악해서 개체들의 관계를 이해하려고 한다.

예컨대 사회과학자들은 인간을 구성하고 있는 성별, 나이, 학력, 인종, 종교, 출신지, 질병, 성향, 직업, 소득, 재산 등이라는 속성들, 즉, 변수들 사이의 관계에 주목한다. 그리고 그들은 그 변수들 사이의 관계에 존재하는 법칙적 현상을 밝히고자 한다. 그렇게 함으로써 궁극적으로 사람들 사이의 관계를 해명할 수 있으리라 기대한다.

통계학은 변수들 사이의 관계를 표(table) 혹은 그래프(graph)로 표시한다. 초등 수학 때부터 배운 표와 그래프가 바로 그것이다. 초등학교에서는 한 변수를 표나 그래프로 나타내는 방법을 배웠을 것이고, 중고등학교 혹은 대학에서는 두 변수 혹은 그 이상의 변수들의 관계를 표나 그래프로 나타내는 방법을 배웠을 것이다.

표는 칸(cell)으로 구성된다. 각 칸에는 변수의 범주들에 속하는 사례들의 숫자가 기재된다.

예컨대 어떤 중학교의 학생들이 총 300명인데, 그 중 남학생이 170명이고, 여학생이 130명이라고 하자. 그 학교 학생들을 성별이라는 변수로 표시한다면, 아래와 같은 표를 만들 수 있을 것이다.

성별빈도
남학생170
여학생130
합계300

이 표는 이 중학교에는 여학생보다 남학생의 수가 많음을 보여준다.

남학생과 여학생이 방과 후 활동 중 체육을 선택한 비율을 비교한다면, 그것은 성별방과 후 체육활동 참여라는 두 변수의 관계를 보는 것이 된다. 두 변수 이상의 관계를 나타내는 표는 교차표(cross-table)라고 한다. 만약 위 중학교에서 방과 후 체육활동에 130명의 남학생과 30명의 여학생이 참여한다면 다음과 같은 교차표가 만들어진다.

 방과 후 체육활동 참여합계
성별참여비참여
남학생130(76.47)40(23.53)170(56.67)
여학생30(23.08)100(76.92)130(43.33)
합계160(53.33)140(46.67)300(100.00)

행비율을 계산해 보면, 방과 후 체육활동에 전체 학생 중에는 53.33%가 참여하고 있는데, 남학생 중에는 76.47%가, 여학생 중에는 23.08%가 참여하고 있는 것으로 나타났다. 여학생보다 남학생이 훨씬 높은 비율로 방과 후 체육활동에 참여하고 있는 것이다. 이 학교에서는 방과 후 체육활동이 성별에 따라 다름을 알 수 있다. 통계학적으로 표현하면, 이 학교에서는 방과 후 체육활동 (참여)라는 변수가 성별이라는 변수에 의존적이다, 방과 후 체육활동이라는 변수와 성별이라는 변수가 서로 관계를 갖고 있다 혹은 방과 후 체육활동과 성별은 상호독립적이 아니다가 된다.

만약 연구자의 관심이 이 학교를 넘어서 우리나라 전체 중학교라는 모집단에 있다고 한다면, 이 교차표는 표본 데이터가 되고, 그 표본 데이터를 가지고 모집단의 관계(모수)를 추정하거나 “우리나라의 (전체) 중학교에서 방과 후 체육활동 참여 여부는 성별에 의해 영향을 받는다’ 혹은 “우리나라 중학교에서 방과 후 체육활동에는 남학생이 여학생보다 월등하게 높은 비율로 참여하고 있다”라는 가설을 검증할 수도 있다.

표 혹은 교차표에서 모수 추정이나 가설 검정은 이론으로부터 각 칸의 빈도를 예측(추정)하고, 그 예측값과 실제 관찰값을 비교하는 방식으로 수행될 수 있다. 카이자승을 이용한 독립성 검정이나 로그 선형 모형(Log-linear model)이 그러한 방식을 구체적으로 수행 가능하게 해주는 통계 기법이다. 표 접근법을 선호하는 학자들(교차표 학파라고 부르자)은 교차표의 각 칸에 들어갈 빈도를 예측하는 데 관심이 있다. 교차표 학파의 학자들은 만약 간단한 이론으로 각 칸의 관찰값과 거의 유사한 예측값을 얻을 수 있다면 그것은 멋진 이론이라고 생각한다.

원래 표(혹은 교차표)는 변수들이 명목 수준(nominal level)이거나 순서 수준(ordinal level), 즉, 범주적 변수(categorical variable)일 때 사용된다. 반면에 그래프는 변수들이 구간 수준(interval level)이나 비율 수준(ratio level), 즉, 수치적 변수(numerical variable)일 때 사용되도록 개발되었다.

그러나 현실에서 표와 그래프는 단순한 도구의 차이를 넘어서 세상에 대한 서로 다른 접근법이 되었다. 표를 좋아하는 학자들은 표를 가지고 세상(즉, 변수들의 관계)을 분석하려 들고,  그래프를 좋아하는 학자들은 그래프를 가지고 세상을 분석하려 든다. 그들은 변수의 측정 수준에 따른 구분을 별로 존중하지 않는다. 특히 양쪽의 방법이 발전하면서 그러한 구분 허물기가 더욱 심해졌다.

자신들의 방법을 적용하기 위해 교차표 학파의 학자들은 수치적 변수를 범주적 변수로 변환하고, 그래프 학파의 학자들은 범주적 변수를 수치적 변수로 변환한다. 그들은 그 과정에서 데이터의 정보를 잃거나 데이터를 왜곡할 수도 있지만 그렇게 함으로써 얻어지는 효과가 그 상실을 보상하고도 남는다고 생각한다.

학자들의 고집은 못말린다. 그들은 자신들의 생각을 구현할 능력이 있기(혹은 그렇다고 착각하고 있기) 때문에 학문의 영역에 양보란 없다. 거기에는 오직 승리와 패배만 있을 뿐이다. 다음 글에서는 그래프 학파에 대해서 살펴보자. (2019-11-23)

카이자승과 독립성 검정(개정판)

[예제 1] 미국 동부 주요 대도시에 근무하는 경찰관 남녀의 승진 사례이다. 경찰관 1,200명 중 960명은 남자, 240명은 여자이다. 지난 2년 동안 324명이 승진하였다. 다음 표에 과거 2년간 경찰관의 승진 현황이 제시되어 있다. 승진 결과를 검토한 다음, 여경위원회는 240명의 여경 중 36명만이 승진하였다는 사실을 근거로 여성차별이 있다고 문제를 제기했다. 경찰인사관리위원회는 여성이 상대적으로 적게 승진한 것은 여성차별 때문이 아니라 여성 수가 상대적으로 적기 때문이라고 주장했다. 과연 누구의 주장이 옳을까? 통계학은 이 첨예한 갈등을 합리적으로 해결하는 데 기여할 수 있을까?

이 교차표를 접근하는데는 두 가지 방법이 있다. 이 교차표가 모집단의 수치를 보여주는 경우 조건부 확률(conditional probability)을 사용하면 되고, 이 교차표가 하나의 표본에 관한 정보로 간주된다면 카이자승() 을 가지고 독립성 검정을 하면 된다.

어느 데이터가 모집단(population)에 관한 것인가 혹은 표본(sample)에 관한 것인가는 근본적으로 연구자가 어떤 대상에 대해 주장을 제시하고 싶은가에 달려 있다. 예컨대 이 사례에서 연구자가 해당 경찰청의 과거 2년 동안에 발생한 승진 케이스들에 대해서만 성차별이 존재하는지를 따지겠다면, 이 데이터는 전수 데이터로 모집단에 관한 것이라고 간주될 수 있다. 반면에 연구자가 해당 경찰청의 데이터를 가지고 미국의 전체 경찰이나 미국 사회 전체에 존재하는 성차별에 관해 따지겠다면 이 데이터는 표본에 관한 것이라고 간주되어야 한다.

이 교차표를 가지고 그 두 접근을 모두 검토해 보자. 먼저 조건부 확률부터 논의하겠다.

최근 조건부 확률은 그 어느 때보다도 중요한 지식이 되었다. 현업에서 가설 검증보다는 예측이 훨씬 더 많이 요청되고 있으며, 예측에 널리 사용되는 베이즈 추론(Bayesian inference)의 논리적 토대가 조건부 확률이다. 현업에서 스스로 예측을 하거나, 최소한 남이 하는 예측을 이해하고 싶다면, 조건부 확률에 관련된 개념들을 꼼꼼하게 익혀둘 필요가 있다.

확률을 다룰 때는 먼저 사건을 정의해야 한다.

M = 경찰관이 남성; W = 경찰관이 여성; A = 경찰관이 승진;  =  경찰관이 승진하지 못함

= 무작위로 뽑힌 경찰관이 남성이고 승진;  = 무작위로 뽑힌 경찰관이 남성이고 승진하지 못함; = 무작위로 뽑힌 경찰관이 여성이고 승진; = 무작위로 뽑힌 경찰관이 여성이고 승진하지 못함

위의 표는 아래 확률들을 가지고 승진에 관한 결합확률표(joint probability table)로 전환될 수 있다. 

이러한 확률들은 두 사건의 곱사건의 확률로서 결합확률(joint probability)라고 부른다.

결합확률 주변에 있는 값들은 각 사건의 확률이다. 즉, P(M) = 0.80; P(A) = 0.20; P(A) = 0.27; P() = 0.73이다. 이러한 값들을 주변확률(marginal probability)이라고 부른다. 결합확률표에서 관련된 행이나 열의 결합확률을 합하면 주변확률을 구할 수 있다. 예컨대 이다. 이점을 잘 기억해두면 베이즈 추론에 도움이 될 것이다.

결합확률과 주변확률을 가지면 조건부 확률(conditional probability)을 구할 수 있다.  예컨대 어떤 경찰관이 남성일 경우 그가 승진할 확률, 을 구해보자.

도수를 사용해서 구하면, 288/960=0.3이 될 것이다. 확률을 이용해서 구해도 0.24/0.80=0.3으로 동일한 값이다. 확률을 이용한 조건부 확률의 계산을 일반화하면 다음과 같다.

조건부 확률은 결합확률을 주변확률로 나눈 값, 다른 말로 주변확률에 대한 결합확률의 비율이다.

경찰관이 여성인 경우 승진할 확률은 아래와 같다.

즉, 남성경찰관의 승진확률은 0.3으로 여성경찰관의 승진확률 0.15의 두 배이다. 이 결과는 경찰인사관리위원회의 주장보다 여경위원회의 주장을 지지한다.

만약 이 데이터가 표본이라면 조금 다른 방식으로 접근할 수 있다. 교차표에 나타난 차이가 우연적 결과이다 혹은 승진에 관해서 성차별이 없다(통계학적으로 표현하면, 경찰관의 성별과 승진이 독립 사건이다) 라는 가설을 검증하는 방법이다. 이를 영가설(null hypothesis)이라고 하는데, 만약 영가설이 기각되면 대립가설(alternative hypothesis)을 수용하게 된다. 이것이 바로 독립성 검정(test of independence)이다.

만약 경찰관의 성별과 승진이 독립 사건이라면 결합확률표는 어떤 모습일까? 남자 경찰관 중 승진자 비율, 여성 경찰관 중 승진자 비율, 그리고 전체 경찰관 중의 승진자 비율이 같을 것이다(아래 결합확률표 참조).

이를 일반화하여 표현하면 다음과 같다.

이를 빈도의 교차표로 나타내려면 각 결합확률이나 주변확률에 총사례수인 1200을 곱하면 된다.

빈도 교차표에서는 아래 공식을 이용해서 바로 예측값을 구할 수 있다.

여기서 는 기대 빈도(expected frequency), 는 주변 열 빈도(marginal column frequency), 은 주변 행 빈도(marginal row frequency), 은 총 표본 크기(total sample size)이다.

이는 영가설 아래서 얻은 예측값이다. 이 예측값과 실제 관찰값의 차이가 영가설을 기각할 수 있을 만큼 충분히 큰가? 이것을 검증하는 기법이 카이자승 검정( test)이다.

여기서 는 각 칸의 관찰값(빈도)이고, 은 각 칸의 예측값(빈도)이다.

각 셀의 카이자승 값은 그 셀의 관찰값에서 예측값(영가설 아래)을 뺀 값을 제곱한 수를 그 셀의 예측값으로 나누면 된다. 각 셀의 카이자승 값들을 모두 합한 수가 전체 카이자승 값이다.  카이자승 분포()은 아래 그림에서처럼 자유도()의 크기에 따라 모양이 변한다. (아래 그림은 위키피디아에서 가져왔음.)

Chi-square pdf.svg

교차표에서 자유도를 구하는 공식은 다음과 같다.

위의 사례에서는 자유도는, (2 – 1)(2 – 1)=1이다.

엑셀에서는 바로 카이자승 값을 구할 수 없다. 위 공식들을 이용해서 구해야 한다. 다만 예측값의 교차표를 구하면, CHISQ.TEST 함수를 이용해서 바로 카이자승 값의 p- 값을 구할 수 있다. 아래는 그 두 가지 방법을 모두 이용해 구한 값들이다.

이 교차표의 카이자승 값의 p-값은 영가설을 충분히 기각할 수 있을 정도로 작다. 위에서 조건부 확률을 가지고 얻은 결과를 카이자승 검정을 통해서 다시 확인한 셈이다.

독립성 검정에 관한 예제 하나를 더 보자.

[예제 2]  맥주취향에 있어 남녀간의 차이가 있을까? 맥주 취향에 가벼운, 보통, 흑 세 가지 종류가 있다고 하자. 독립성 검정의 가설은 다음과 같다.

:맥주취향은 성별과 독립적이다.  : 맥주취향은 성별과 독립적이지 않다.

아래 데이터를 가지고 카이자승 검정을 해보자. 유의수준은 0.05로 하자.

(풀이)

  1. 원데이터를 엑셀에 입력하여 피벗테이블 기능을 사용해서 교차표를 만들었다.
  2. 공식 (1)을 이용하여 영가설 하의 기대빈도(도수)를 구한다(아래 그림에서 연노랑색칸에 있는 값들). 엑셀로 행렬을 계산할 수 있는 사람은 MMULT함수를 이용해서 계산을 빨리 할 수 있을 것이다(주황색칸에 있는 값들).

3. 공식 (2)를 이용해서 카이자승 값을 구한다. 각 칸의 기대값에서 관찰값을 뺀 차이를 구하고, 그 값을 제곱한다. 그리고 그 값을 기대값으로 나눈다. 그러면 각 칸의 카이자승 값을 구할 수 있다. 위 그림에서 연초록칸, 진초록칸, 하늘색칸 순서로 그 값이 계산되어 있다. 하늘색칸에 있는 값들이 각 칸의 카이자승이다. 그 값들을 모두 합하면 6.4468이고, 그것이 우리가 구하려고 하는 교차표의 검정통계량인 카이자승 값이다. 자유도를 계산하면, (2-1)*(3-1)=2이다. 엑셀의 CHISQ.DIST.RT 함수에 카이자승 값(6.4468)과 자유도(2)를 넣으면, p-값 0.03982가 구해진다.

영가설 하의 기대빈도를 구하면, CHISQ.TEST 함수를 이용하여 바로 p-값을 구할 수도 있다. CHISQ.TEST에는 관찰빈도 범위와 예측빈도 범위를 넣어주면 된다.

아니면, 스마트폰 어플을 이용할 수도 있다. 예컨대 어플 Probability Distributions에서 Chi-Square 분포를 선택한 후 자유도와 카이자승값을 입력하여 p-값을 구할 수도 있다. 어떤 방법을 선택하나 동일한 p-값을 구할 수 있다.

4. 검정통계량의 p-값이 유의수준 0.05보다 작기 때문에 영가설(즉, 독립성 가설)이 기각되며, 따라서 맥주에 관한 취향이 성별에 따라 다르다고 추정된다.

참고로 카이자승 검정은 비록 차이가 있다 없다는 점을 검증하지만 항상 단측 검정이다. F-검정 때처럼 분포가 비대칭적일 뿐 아니라 음수가 될 수 없기 때문에 오른쪽 단측 검정이 적합하다.  (2019-11-10)

가을 단상

앞뜰 단풍

커피를 마시며 바라보는 앞뜰이 붉고 노랗다. 길건너 서원 뜰의 단풍도 붉은 빛, 우리 집 울타리 남천도 붉은 빛이다. 거기에 잔디가 금빛으로 바뀌어 가며 가을 분위기를 더하고 있다.

늦가을 정원에서는 크게 할 일이 없다. 겨울을 맞이하기 위해 화분들을 따뜻한 실내로 옮기고 수전들이 얼지 않도록 중간 밸브를 잠그고 용처가 사라진 물 호스들을 잘 말아서 창고에 보관하는 정도의 소소한 일이 있을 뿐이다.

실내에서도 청소와 같은 일상적 일이 있을 뿐이다. 지난 겨울에 창호를 삼중창으로 대폭 교체해 단열을 강화했고, 거실에 냉난방기를 들여오고 늘어난 전기 수요에 대비해 태양광 발전기를 추가로 설치했다. 태양광 발전이 시간당 6kw가 되었으니 아마도 난방을 대부분 전기로 해도 되지 않을까 생각된다. 그렇게 되면 기름 보일러나 벽난로를 거의 쓰지 않아도 될 것이다. 기름 보일러는 비용이 많이 들고 벽난로는 관리에 손이 많이 간다.

집의 외양도 중요하고 정원의 풍경도 중요하지만 집이란 무엇보다 여름에 시원하고 겨울에 따뜻해야 한다. 물론 폭풍우에 안전해야 함은 말할 것도 없지만.

그런데 관리에 노력을 기울이지 않고 그러한 기본이 보장되는 집은 없다. 아무리 많은 돈을 들여서 지은 집이라도 몇 년 지나지 않아 틈이 생기고 낡은 구석이 생기기 마련이다. 그것이 집이 그 일부인 자연의 이치이다.

때문에 집짓기 못지 않게 보수와 유지가 중요하다. 내가 홀연히 떠나더라도 집이 잘 유지되도록 시스템을 만들어 놓겠다는 계획을 내년에는 모두 실행해 놓아야겠다. 궁극적으로는 모든 것이 하늘에 뜻과 후손들의 선택에 의해 좌우되겠지만 나는 내가 할 수 있는 역할을 다하고 가야할 것이다. 작은 집과 집안의 역사도 그렇게 이루어지는 것이이라.

계절도 가을이지만 내 삶도 가을이다. 계절이 바뀜이 슬퍼할 대상이 아니듯이 인생의 흐름도 슬퍼할 대상이 아니다. 모두 잠시 왔다가는 여행일 뿐이다. 아쉽지 않은 순간이 어디 있겠는가만 그렇다고 여행이 슬프기까지는 않은 것처럼. (2019-11-07)

분산분석(개정판)

앞에서 두 모집단의 평균비교가 단일모집단의 평균에 대한 모수추정과 가설검정의 확장판임을 보았다. 그렇다면 세 모집단 이상의 평균비교는 두 모집단 평균비교의 확장일 것이라고 손쉽게 추측할 수 있다.

그런데, 그 추측은 절반만 맞고 절반은 틀리다. 세개 이상의 모평균을 비교하는 일이 두 모평균 비교의 논리적 확장이지만, 기술적으로는 크게 다르다는 점에서 절반은 맞고 절반은 틀리다라고 말할 수 있다.

anova에 대한 이미지 검색결과

 

세 개 이상의 모평균을 비교하는 경우라도 두 개의 모평균 비교에 사용했던 t-검정(z-검정도 마찬가지이지만)을 적용할 수 있다. 모평균을 한 쌍씩 묶어서 t-검정을 실시한 다음 그 결과를 수학적으로 결합하면 될 것이다. 문제는 그렇게 할 경우 매 검정마다 제1종 오류()가 발생하게 되고 신뢰계수가 검정 횟수만큼 곱해지기 때문에 연구자가 통제하려는 제1종 오류가 크게 증가하게 된다.

예컨대 95% 신뢰수준으로 모수 추정이나 가설 검정을 하기 위해 세 차례 t-검정을 실시한다면, 신뢰계수는 0.95*0.95*0.95=0.857이 된다. 따라서 는 0.147이 될 것이다. 즉, 연구자가 원하는 만큼 제1종 오류를 통제할 수 없게 된다는 말이다.

그래서 세 개 이상의 모평균 비교에는 기술적으로 두 개의 모평균 비교와는 다른 방법이 적용된다. 핵심은 분산(VARIANCE)을 사용한다는 점이다. 그래서 이름이 분산분석이다. 자, 이제 차근차근 예제를 보면서 분산분석을 공부해 보자.      

[문제 1] 세 농장에서 옥수수를 생산하는데, 각각 살충제를 다른 방식으로 살포하였다. 재배를 마친 후 수확 상태를 조사해서 다음과 같은 결과를 얻었다. 이 데이터를 가지고 살충제의 살포 방법에 따라 옥수수의 수확량에 차이가 있다고 추정할 수 있을까?(김은정, 2017: 279 변형)

자연과학, 사회과학을 막론하고 경험 과학(empirical science)에서 지식을 얻는 방법은 실험과 관찰이다. 그런데 실험과 관찰을 찬찬히 뜯어보면 과학적 인식의 핵심은 비교(comparison)임을 알 수 있다.

실험에서는 처치 집단(treatment group)과 통제 집단(control group)을 비교하여 처치의 효과를 판단하고, 관찰에서도 어떤 기준값과 비교하거나 사례들을 비교하여 인과관계를 추론하거나, 차이(difference), 성과(outcome) 혹은 효과(effects)를 판단한다.

ANOVA(Analysis of Variance, 분산 분석)는, 집단들의 비교에 널리 사용되는 통계 도구이다. 기본적으로 ANOVA는 특정한 변수에 관해 집단들의 평균을 비교하며, 분산(variance)을 가지고 그 비교를 통계적으로 판단한다. 그래서 평균들을 비교함에도 불구하고 이름이 분산 분석이다.

[문제 1]을 보면, 세 곳의 농장에서 일종의 의사 실험(quasi-experiment)을 시행했다. 같은 살충제를 다른 방식으로 살포하고 어떤 방식이 더 좋은 지를 알아보는 조사이다. 그 방식이란 살충제 살포 시점이나 횟수에 관한 것이 아닐까 짐작된다. 살충제를 언제, 혹은 몇 번이나 살포하는가가 병충해 예방에 영향을 많이 미치기 때문이다.

농장 I, II, III은 각각 8군데의 밭이 있는데, 농장별로 살충제를 서로 다른 방식으로 살포하고 가을에 수확량을 조사했다. 세 농장의 수확량(100 평방미터당) 평균을 계산하면, 농장 I은 228.25 kg, 농장 II는 226.625 kg, 농장 III은 230.25 kg이다. 세 농장의 수확량 평균에 차이가 있음은 분명하다.

그러나 그 수치들만 봐서는 그 차이가, 살충제 살포방식이 달라서 나온 결과(차이)인지, 아니면 살충제 살포방식과는 상관없이 그냥 우연히 발생한 결과(차이)인지를 알 수가 없다. 그것을 통계적으로 판단할 수 있도록 도와주는 도구가 ANOVA이다.

ANOVA는 집단 간의 변이(between variability)집단 내의 변이(within variability)보다 충분히 크면, 집단들의 평균이 서로 다른 모집단에서 나온 것으로 추정하고, 조치(treatment, 독립변수: 이 사례에서는 살충제 살포방식)의 효과가 있다고 판단한다. 반대로 집단간의 변이가 집단 내의 변이보다 그다지 크지 않으면, 집단들의 평균이 하나의 공통 모집단으로부터 나온 것으로 추정하고, 조치의 효과가 없다고 판단한다.

집단 간의 변이와 집단 내의 변이의 비율은, 위 식에서처럼 집단 간 편차 제곱의 합(MSC, 처리 제곱의 평균이라고도 함)집단 내 편차 제곱의 합(MSE, 잔차 제곱의 평균이라고도 함)의 비율로 구한다.

MSC와 MSE는 다음과 같이 구할 수 있다.

그렇다면 문제는 SSC, SSE, , 를 구하는 것으로 압축된다. 그 값들은 아래 식들로 계산된다. SST는 총 제곱의 합, SSC는 처리 제곱의 합, SSE는 잔차 제곱의 합이다.

이 세 가지 제곱 합 사이에는 다음과 같은 관계가 성립한다. . 그래서 SST는 SSC와 SSE로 분해된다고 표현되기도 한다. SST는, 각 관측값에서 전체 평균을 뺀 편차를 제곱하여 더한 값이다.

(=j번째 집단의 i번째 관측값; =전체 평균; 은 집단 j의 관측값 수; k는 집단 수)

SSC는 각 집단의 평균에서 전체 평균을 뺀 편차에 각 집단의 관측수를 곱해서 모두 합한다.

(k=집단 수; j=j번째 집단; =j번째 집단의 관측값 수; =j번째 집단의 평균; =전체 평균)

SSE는 각 집단의 편차제곱의 합을 모두 더 한다.

(=j번째 집단의 분산) 혹은 공식을 가지고 구한다.

자유도는 아래 공식으로 구할 수 있다. 집단 간 제곱의 평균을 구하는 데 필요한 자유도는 집단의 수 빼기 1이며, 집단 내의 제곱의 평균을 구하는데는 총 관측 수에서 집단의 수를 빼면 된다.

, (k=집단 수; =전체 관측값 수)

이렇게 구한 F ratio, 즉, F 값은 F 분포를 이룬다. F 분포는 위의 두 가지 자유도(degree of freedom)에 의해 결정된다. 따라서 F 값, , 를 알면 p 값을 구할 수 있다. 아래 그림은 [문제 1]의 데이터를 가지고 세 가지의 편차를 구한 결과이다. (이 문제를 MS 엑셀을 사용해 풀어놓은 파일을 보려면 이 링크를 클릭하시오.)

여기서 전체 편차를 제곱하여 더하면 SST를 구할 수 있고, 그룹 간 편차를 제곱하여 더하면 SSC를, 그룹 내 편차를 제곱하여 더 하면 SSE를 구할 수 있다. MS 엑셀에서 함수 SUMSQ를 사용하면 쉽게 제곱 합을 구할 수 있다. 다음 그림에 보듯이 총 제곱합의 구하는 함수는 =SUMSQ(E2:G9)이다.

총 제곱합(SST)는 129.625, SSC(처리 제곱합)은 52.75, SSE(잔차 제곱합)은 76.875이다. 아래 그림에서 보듯이 이 편차제곱의 합들이 분산분석표의 두 번째 열을 구성한다. 이 그림은 엑셀이 제공하는 추가기능인 ‘데이터 분석’을 수행한 결과이다. 제곱합의 수치들이 정확히 일치함을 볼 수 있다.

처리제곱 평균(MSC)은 처리 제곱합을 그것의 자유도로 나누어 준 26.3757이고, 잔차제곱 평균(MSE)은 그것의 자유도 21로 나누어 준 3.660714이다(네 번째 열 참조). F 비(ratio)는 26.3757/3.660714 = 7.204878이다. 그것의 확률인 p-값은 함수 FDIST를 사용하면 구할 수 있다. p-값은 0.004145로 0.05보다 훨씬 작다. 이 결과를 가지고 우리는, 살충제의 살포방식이 옥수수 생산에 상당히 의미 있는 영향을 미친다고 결론을 내릴 수 있을 것이다. 즉, 농장 III에 적용한 방식이 가장 효과적이고, 농장 II에 적용한 방식이 가장 비효과적으로 판단한다. 실제 분산분석을 수행할 때 직접 평균, 편차, 제곱합 등을 구하는 경우는 없을 것이다. 통계 소프트웨어를 사용하면 순식간에 필요한 값들을 모두 얻을 수 있기 때문이다.

엑셀의 자체 추가기능인 데이터 분석에서도 일원 배치법 분산 분석을 적용하면 한꺼번에 모든 값을 얻을 수 있다. 다만 엑셀에서는 데이터 분석 기능을 모바일 버전에서는 사용할 수 없다는 함정이 있다. 때문에 자주 사용하는 함수들은 사용법을 익혀두면 편리할 것이다.

어떤 통계 도구도 그러하듯이 ANOVA도 적용하는데 갖춰야할 조건이 있다. ANOVA는 꼭 실험이라 아니라도 독립변수가 범주형이고, 종속변수(혹은 반응 변수)가 수치형이면 사용할 수 있다. 그리고 종속변수의 모집단이 정규분포를 따라야 한다. 다만 표본의 크기가 모두 같다면, 이 가정은 크게 중요하지 않다.

다음 두 문제를 직접 풀어보기 바란다.

[문제 2] 어떤 대학에서 학생들을 상대로 대학생들의 학습 능력을 연구한다고 하자. 연구자들은 그 대학에서 오래 공부할수록 학습 능력이 향상되는 지 알고 싶다. 그러기 위해 1학년, 2학년, 3학년에서 각각 8명씩 무작위 표본을 추출하여, 100점 만점의 학습 능력 테스트를 시행하였다. 다음 표는 그 결과이다. 이 데이터를 가지고 대학에서의 공부가 학생들의 학습 능력을 향상시킨다고 주장할 수 있을까?

[문제 3] Consumer Report는 미국 South Carolina 주 소재 풀 서비스 식당들의 식사 가격을 조사하였다. 세 가지 유형의 식당을 각 8곳씩 조사한 결과는 다음과 같다. 이 데이터를 가지고 세 가지 유형의 식당에서의 한 끼 식사 평균 가격이 다르다고 추정할 수 있을까?(Anderson, 2016: 542)

<참고 문헌> Anderson, David R, et.. (류귀열/김창규/최승은/김민중/이성철 역). 2016. <앤더슨의 통계학(Essentials of Modern Business Statistics)>. 한올. 김은정. 2017. <사회조사분석사>. 학진북스.

명예퇴직을 신청하다

지난 10월 28일 학교 당국에 명예퇴직서를 제출했다. 며칠 동안 고민을 한 끝에 그렇게 하는 것이 현재 나로서 최선이라는 결론을 내렸다.

한양대에 마흔둘에 입사해 육십다섯에 퇴직하니 남들보다 한참 늦게 들어가서 남들보다 조금 일찍 나오는 셈이다. 정보사회학과 학생들이 모두 졸업할 때까지 남아주지 못해 학생들에게 미안할 뿐 그 외에는 전혀 아쉬움이 없다. 내가 학과를 만들지는 않았지만 정보사회학과 생기면서 한양에 부임했고, 내가 학과를 없애지 않았지만 정보사회학과 없어지면서 한양을 떠난다.

한양에 들어가면서, 길어야 25년이 되지 않을 교수생활이니 좌고우면하지 말고 이곳에서 커리어의 승부를 내자는 내 결심이 별로 잘못되지 않았던 것 같다. 대학당국은 내게 충분한, 아니 분에 넘치는 자유와 존중을 주었고 학생들은 내 열정에 잘 호응해 주었다. 남부럽지 않은 호사였다. 대학원이 약한 점은 아쉬웠지만 어느 직장에 간들 그 정도의 아쉬움이 없겠는가.

지난 해 11월 21일 여기에 공적 생활을 마감한다는 글을 올리고(공적 생활을 마감하며….) 직업 이외의 공적 활동을 끝냈으니, 1년만에 직장 생활을 마감하는 글을 올리게 되었다. 내년 3월부터는 거의 사적인 생활만 남는다.

아마도 내게는 은퇴의 충격이 그렇게 크지 않을 것이다. 이미 8년 전부터 은퇴 후의 삶을 기획하고 추진해 왔으니, 충분하지는 않겠지만 나름 단단히 준비했다는 생각이다. 아름다우면서도 그닥 불편하지 않은 곳에 새로운 터전을 잡았고, 시골생활에 대한 적응을 충분히 했다. 넉넉하지는 않겠지만 적어도 자식들에게 재정적인 부담을 주지 않을 정도의 재정도 확보했다. 시골에서는 대도시에 비해 생활비가 훨씬 적게 든다는 점도 도움이 될 것이다. 은퇴 후에는 수입을 늘리려고 애쓰기 보다는 수입에 맞춰 사는 게 현명할 것인데 시골생활은 그점에서 크게 이롭다.

멀리 떨어진 직장에 다니면서 전원생활을 유지하기 쉽지 않았지만 12년을 그렇게 살았다. 국내 최고 명의라는 의사가 회복불능이며 머지않아 시력을 완전히 잃게 될 것이라는 진단을 내린 지 13년이 되었지만 나는 앞을 잘 보고 있다. 내 눈을 7~8년 동안 보살펴 준 지금의 주치의는 2년 전 내게 “난 당신이 녹내장이라는 사실도 의심스럽다”고 의아해 했다. 시신경이 급속히 죽어가는 현상이 멈춰 버린 것이다.

육십 전에 실명할 것이라는 두려움을 안고 살았는데 지금까지 앞을 잘 보면서 강의를 해왔고 이렇게 멀쩡히 글을 쓰고 있다. 거의 기적같은 일이 일어난 것이다. 그에 대해서는 깨끗한 공기와 맑은 물, 그리고 작은 스트레스의 전원생활을 빼고는 설명할 길이 없다. 한번도 녹내장 약을 쓴 적이 없고 수술을 받은 적도 없기 때문이다. 현대 의학이 내 눈에 해준 게 없다.

큰 질병에 관해서는 세 주체의 역할이 있다는 생각이다. 하느님이 하시는 역할, 의사가 하는 역할, 그리고 환자 자신이 하는 역할이 그것이다. 나는 환자로서의 역할을 충실히 했다. 의사는 별로 한 일이 없다. 그렇다면 오늘날 내 눈의 건강은 하느님의 선처였는지도 모르겠다.

아무튼 건강으로 인한 몇 차례의 고비를 잘 넘기고 교수생활을 마치게 되어 정말 기쁘다. 정년을 다 채우지는 못했지만 예상보다 훨씬 오래하지 않았는가. 하느님께 감사할 따름이다.

이제 전임 교수로서 한달 보름 정도의 강의가 남았다. 학생들에게도 내게도 즐거움이 가득한 수업이 되도록 해야겠다.  (2019-11-02)

10월 마지막 날의 정원

상록수인 남천이지만 가을이 되면 잎이 붉게 물든다. 단풍나무보다 먼저 단풍이 드는 셈이다.
킨세카이(장미)가 올해 거의 마지막 꽃을 피우고 있다. 눈이 내리면 꽃이 얼어붙고 그렇게 한 해가 끝날 것이다.
버베나파라솔의 꽃이 참 오래간다. 여름을 지나 가을이 끝나기까지 꽃을 보여줄 기세이다.
붉은 빛 버베나파리솔.
꽃 이름을 잊었다. 가을에 너무 잘 어울리는 빛깔이다.
노랑 국화. 가을 뭐니뭐니해도 국화의 계절이다.
겨울을 나게 하기 위해 제라륨 화분을 온실로 옮겼다. 오염된 흙을 쓴 탓에 고생고생해서 살아남은 꽃이다.
패랭이꽃인 것 같은데, 이 꽃도 여름부터 가을까지 화단을 지키고 있다.
꽃마차 화분에 심어놓은 펜타스도 한 달째 꽃을 피우고 있다. 겨울에는 꽃마차에 패인팅을 해줘야겠다.
용담은 늦가을에 피는 꽃이다. 붉은 빛 용담은 아직 피지 않았다.
국화도 예상보다 오래간다. 꽃집 주인이 2-3주 갈 것이라고 했는데 벌써 한달이 넘은 것 같다.
백일홍은 집 정원에 심을 꽃은 아닌 것 같다. 너무 번식력이 강해서 주위의 다른 꽃들을 모두 밀어버린다.
초대받지 않은 메리골드. 꽃이 참 오래 간다.
은목서의 꽃도 핀지 2주는 지났는데 아직 향기를 내뿜고 있다.
삼색제비꽃. 눈에 뜨지 않을 정도로 작은 꽃이지만 두 가지색의 꽃을 함께 지녀 묘하게 매력적이다.
수국 중 가장 오래 피어있는 핑크에나멜. 위태위태하면서도 비바람을 잘 넘겼다.
이 꽃의 이름도 잊어버렸다. 백일홍만큼이나 번식력이 좋아 내년에도 심을지 재고해 봐야겠다.
비록 지기 직전이지만 맨드라미가 아직 피어있다. 마치 충성스런 군사처럼 오래오래 화단을 지키고 있다.

두 평균의 비교(3): 등분산 가정 및 대응표본의 경우

등분산 가정의 경우

실제로 그런 경우는 아주 드물겠지만 비교하는 모집단의 분산(즉, 표준편차)이 같을 경우가 있을 것이다. 그런 경우는 아래와 같이 표시된다.

두 모집단의 평균 차이의 신뢰구간은 앞에서 공식 (7)을 가지고 추정되었다.

그런데, 만약 두 모집단의 분산이 동일하다면 공식 (7)이 아래처럼 단순화될 수 있다.

이를 간명하게 다시 쓰면,

그런데 현실에서는 모집단의 표준편차 가 알려져 있지 않으므로 추정치로 바뀌어야 한다. 그런데 그 추정치는 합동표본분산(pooled sample variance)이며 통상 로표시된다. 그러면 공식 (7-2)은 공식 (13)으로 바뀐다.

여기서는 를 어떻게 구하는가가 관건일 것이다. 아래 식처럼 합동표본분산은 각 표본의 편차제곱의 합을 더한 다음, 그값을 두 표본의 자유도 합계 로 나누어 구한다.

그리고 공식 (13)을 적용하려면 자유도를 구해야 한다. 자유도는 공식 (14)의 분모에 사용된 것과 동일하다.

가설검정에 필요한 검정통계량 t의 값은 다음과 같이 구할 수 있다. 식 (13)에서 표준오차는 아래와 같이 추정되었다.

그러면 t 검정통계량은 다음과 같다.

두 모집단의 표준편차가 동일하다는 가정이 충족되기는 매우 어렵다. 대부분의 경우 모집단의 표준편차가 다르기 때문이다. 그러나 두 모집단의 표준편차를 모를 경우, 공식 (7-1), (10-1), (11) 대신, 단순화된 공식 (13), (15), (17)을 사용해서 평균차이를 추정하거나 가설검정을 해도 무방할 것이다(Wonnacott & Wonnacott, 1985: 232). 어차피 두 모집단의 표준편차를 모르는데, 그 둘을 같다고 해도 가정해도 되지 않겠는가.

대응표본(paired sampes, matched smaples)의 경우

고등학교의 한 학급에서 중간고사 성적과 기말고사 성적을 비교한다고 하자. 그냥 학급 전체를 통으로 묶어서 중간고사 성적 평균과 기말고사 성적 평균을 비교할 수도 있겠지만, 학생 개인별로 중간고사 성적과 기말고사 성적을 비교한 결과를 종합하는 방법도 있을 것이다.

각 학생의 성적이 얼마나 변했는지를 보려면, 중간 성적과 기말 성적의 차이를 구하면 될 것이다.

모든 학생의 성적 차이(변동)를 구하면 그 차이 데이터는 하나의 표본으로 간주될 수 있다. 그렇다면 그것은 하나의 표본 평균으로 하나의 모집단 평균을 추정하는 경우와 동일할 것이다. 즉, 먼저 (성적 차이)의 평균인 를 구한다. 이 표본평균을 가지고 모집단 평균(라고하자)에 대한 구간추정을 할 수 있다.

가설검정을 위해서는 검정통계량 t의 값을 구해야 한다. 대응표본의 검정통계량 는,

그리고 대응표본의 자유도는 이다.

대응표본 설계는 독립표본 설계에 비해 이점이 많다. 왜냐하면 짝지음(pairing)은 다른 외생변수(extraneous variables)를 통제할 수 있는 대응(match)이기 때문이다.

(예제 1) 어떤 고등학교의 한 학급의 기말 성적과 중간 성적의 차이를 추정하고자 한다(95% 신뢰수준). A, B, C, D라는 학생의 성적이 있다.

학생 이름중간고사 성적기말고사 성적
A6454
B6654
C8970
D7762

먼저 데이터로부터 를 계산할 수 있다(아래 엑셀 결과 그림 참조). 자유도 3일 때 오른쪽 검정 0.025의 t-값은 3.18이다. 이 값들을 공식 (18)에 대입하면,

그 학급은, 중간 성적 평균이 기말 성적 평균보다 최저 8점, 최대 20점이 더 높거나, 아니면 그 사이 어느 점수이다.

연구자가 중간 성적 평균과 기말 성적 평균이 다른지를 알고 싶다면, 그것을 대립가설()로 놓고, 영가설은 그 반대인 중간 성적 평균과 기말 성적 평균이 같다()로 놓아 가설검정을 수행할 수 있을 것이다. 검정통계량 t를 구하기 위해 공식 (19)를 사용하면,

자유도 3인 t-분포에서 t-값 7.14의 양측검정 p-값은 0.006이다. 이 값이 유의수준 0.05보다 작으니 영가설이 기각된다. 따라서 그 학급의 중간 성적 평균과 기말 성적 평균은 다르다고 추정된다.

대응표본 가설 검정은 엑셀의 데이터 분석에서 ‘쌍체비교’ t-검정을 이용하여 수행될 수 있다. 아래는 그 결과이다. 공식 (19)를 이용해서 수작업으로 구한 t-값과 엑셀로 구한 t-값이 일치함을 볼 수 있다.

 

(예제 2) 어느 공장의 노동자들이 생산할 때 생산 방법 1과 생산 방법 2라는 두 가지 방법을 사용한다고 하자. 생산 방법 1로 생산한 제품의 모집단 평균 생산 시간을 이라 하고, 생산 방법 2로 생산한 제품의 모집단 평균 생산 시간을 라고 하자. 이중어느 생산 방법이 더 빠른가에 대해 알려진 것이 없으므로 두 방법의 모집단 평균 시간은 같다고 하자.그렇다면영가설은 이된다. 이 가설을 기각한다면 모집단의 평균 생산 시간은 다르다(대립가설)고 결론 낼 수 있을 것이다. 영가설과 대립가설은 다음과 같다. 신뢰수준 95%에서 가설을 검정하시오.

노동자생산방법 1의 생산시간(단위:분)생산방법 2의 생산시간(단위:분)
16.05.4
25.05.2
37.06.5
46.25.9
56.06.0
66.45.8

데이터로부터 를 얻었다. 이 값들을 공식 (19)에 대입하면,

자유도 5인 t-분포에서 t-값 2.19의 양측검정을 위한 p-값은 0.08이다. 이 값이 0.05보다 크므로 영가설을 기각할 수 없다. 따라서 두 생산방식의 평균 생산시간은 다르지 않다고 결론지을 수 있다. 엑셀의 데이터분석 중 ‘쌍체비교 t-검정’이용해도 동일한 검정통계량 t-값과 양측검정을 위한 p-값을 얻을 수 있다(아래 그림 참조).

두 모집단의 평균 차이에 대한 구간추정은 공식 (18)을 이용하여 다음과 같이 수행할 수 있다.

오차범위가 0.35이며, 두 생산방법의 모집단 평균 차이에 대한 95% 신뢰구간은 -0.05분부터 0.65분까지이다.

마지막으로 구간추정과 가설검정에 필요한 표본의 크기에 대해 한 마디 덧붙인다. 모집단의 표준편차를 알고 있는 경우에 z-분포를 적용했는데, 그 때에는 각 표본의 크기는 30 이상이 바람직하다. 표본 둘 중 하나 혹은 둘 다 30 미만이면 모집단의 분포가 정규분포에 근사한다는 가정이 필요하다.

모집단의 표준편차를 몰라서 t-분포를 적용할 때는, 비교적 작은 표본으로도 가능하다. 두 표본수의 합이 20 이상이면 비록 모집단이 정규분포를 따르지 않아도 좋은 결과를 기대할 수 있다. 단, 모집단이 심하게 편포되어 있으면 표본이 좀 커야 하며, 표본이 작다면 모집단이 정규분포에 근사하다는 조건이 충족되어야 할 것이다.

이상으로 두 모집단의 평균비교를 학습했다. 그것이 단일 모집단의 평균을 추정하는 논리와 다르지 않음을 느꼈으리라 생각한다. 비록 모집단이 두 개가 되니 여러가지 상황이나 계산이 다소 복잡해지기는 했지만 말이다. (2019-10-20)

두 평균의 비교(2): 두 표준편차를 모르는 경우

앞 포스팅에서 공식 (7)은 두 모집단의 표준편차를 알고 있을 신뢰구간을 추정한다.

두 모집단의 표준편차인 를 모를 때는 표본의 표준편차인 를 이용하여추정하고, 대신 를 사용한다. 그러면 두 모집단의 표준편차를 모를 때 두 모집단의 평균차이에 대한 구간추정은 아래식과 같을 것이다.

또한 앞 포스팅에서 공식 (10)은 두 모집단의 표준편차를 알고 있을 때 가설검정을 위한 식이다.

두 모집단의 표준편차를 모를 때는 식이 아래와 같이  바뀐다.

문제는 t-분포를 사용하려면 자유도를 알아야 하는 데 자유도를 계산하는 식이 아래처럼 복잡하다.

자유도 구하는 공식이 상당히 복잡하지만 염려할 필요는 없다. 그 공식을 사용해서 직접 구하는 경우는 거의 없을 것이니. 통계 소프트웨어가 적절한 자유도를 자동으로 계산해 줄 것이다. 공식 (7-1), (10-1), (11)을 사용하면 두 모집단의 표준편차를 모를 때 모평균 차이에 대한 신뢰구간을 구하거나 가설 검정을 수행할 수 있다. 예제를 가지고 공식을 적용해 보자.

(예제) 두 개의 큰 학급이 영어 시험을 치뤘다. 한 학급(학급 1)에서 뽑은 네 명의 성적은 64, 66, 89, 77이고, 다른 학급(학급 2)에서 뽑은 세 명의 성적은 56, 71, 53이었다. 두 학급의 성적 차이에 대한 95% 신뢰구간을 구하시오.

(해제) 학급 1의 표본평균()은 74.0점이고, 학급 2의 표본평균()은 60점이다. 공식 (7-1)을 적용한다.

다음에는 공식 (11)을 이용해서 자유도를 구해서 를 계산하자.

자유도가 5일 때 이다. 이 값을 식 (12)에 대입하면,

이 결과를 말로 표현하면, 학급 1의 평균은 학급 2의 평균보다 7이 작거나, 35가 크다. 혹은 그 사이 어딘가이다.  이 경우 표본들이 아주 작아서 표집오차가 크게 허용됨을 알 수 있다.

이번에는 가설 검정을 해보자. 두 모집단의 평균이 다르다는 연구 가설을 검증해 보자. 이 연구 가설은 대립가설이 되고, 이와 반대되는 명제인 두 모집단의 평균이 같다는 영가설이 될 것이다. 이 가설들은 아래와 같이 표기된다. 신뢰수준은 95%이다.

그러면, 위 공식 (10-1)을 적용할 수 있다.

자유도 5일 때 t-값이 1.75이면, 오른쪽 단측검정의  p-값은 0.07이다. 양측검정이니 이 값을 두 배하면, 0.14이다. 이는 유의수준 0.05보다 크다. 따라서 영가설을 기각할 수 없으며, 두 모집단의 평균이 다르다고 판단된다. 즉, 학급 1과 학급 2의 성적은 다르다고 추정된다.

평균비교는 MS 엑셀의 ‘데이터 분석’이라는 애드인(MS 자체 제공)을 이용하여 손쉽게 수행할 수 있다. ‘데이터 분석’의 하위 메뉴를 보면, t-검정과 z-검정이 있다. t-검정에는 ‘쌍체비교’, ‘등분산 가정 두 집단’, ‘이분산 가정 두 집단’이 있다. 이 예제는 ‘이분산 가정 두 집단’의 t-검정에 해당된다.

입력 창이 나타나면, 두 변수의 입력 범위를 넣고, ‘가설 평균차’에 0, ‘유의수준’에 0.05을 넣으면 된다. 그런 다음 확인을 누르면 바로 아래와 같은 결과를 얻을 것이다.

위 표를 보면, 자유도는 5, t-값은 1.75, 양측 검정 p-값은 0.14이다.

다음 포스팅에서는 등분산 가정 두 집단과 쌍체 비교 t-검정을 해보자. (2019-10-19)

두 모평균의 비교(1): 두 표준편차를 알고 있는 경우

현실에서 우리는 자주 두 모집단을 비교한다. 예컨대 우리는 두 반이나 두 학교의 모의고사  성적을 비교한다. 그럴 때 우리는 두 모집단의 성적 평균을 산출하여 비교하거나 두 모집단에서 표본을 추출하여 표본평균을 구하고 그것을 비교하여 모집단 성적 평균을 추정 한다.

두 모집단의 평균 비교는 앞에서 설명한 한 모평균의 구간 추정과 가설 검정의 첫 번째 확장이라고 볼 수 있다. 그렇다면, 두 모집단의 평균 비교에서, 1) 영가설에서 도출된 모수는 무엇인지, 2) 그 모수의 확률분포는 어떤 모습인지, 만약 그것이 t-분포를 이룬다면 자유도는 어떻게 구할 것인지, 3) 모표준편차를 모를 경우 표준오차를 어떻게 추정할 것인지, 4) 검정통계치를 어떻게 계산할 것인지, 5) 신뢰구간이나 가설 검정에 대한 최종 판단은 어떻게 할 것인지를 차근차근 알아보면 될 것이다.

다만 모집단이 두 개이기 때문에 발생하는 변이가 있다. 두 모집단의 평균을 비교할 때 대개의 경우 두 모집단은 서로 별개(독립적)로 존재한다. 그런데 두 모집단이 특별한 관계를 갖고 있는 경우도 있다. 모집단의 구성원은 동일한 데 그 구성원들이 두 가지 다른 행동이나 과업을 수행하여 마치 두 개의 모집단처럼 간주되는 경우가 바로 그것이다. 이 경우 표준오차를 어떻게 처리할 것인지에 대한 설명이 추가로 필요하다.

상호 독립적인 두 개의 모집단의 평균 비교: 두 모집단의 표준편차()를 알고 있는 경우

두 모집단의 평균은 통상 아래와 같이 그 차이를 가지고 비교될 수 있다.

이 차이가 추정되는 모집단 목표이다. 그것에 대한 합리적인 추정값은 아래 식에 표시된 것처럼각 모집단으로 부터 추출된 표본으로부터 구한 평균의 차이가 될 것이다.

우리가 알고 있는 단일 모평균의 신뢰구간을 구하는 공식을 응용하면 식 (2)를 가지고 식(1)의 신뢰구간을 아래와 같이 추정할 수 있다.  우리가 알고 있는 단일 모평균의 신뢰구간을 구하는 공식은 아래와 같다.

공식 (3)에서 은 표준오차(평균의 확률분포의 표준편차)이다. 공식 (3)을 이용해서 식 (2)로부터 식(1)을 추정하는 공식은 다음과 같이 쓸 수 있을 것이다.

표준오차가 에서 로 바뀌었다.두 모집단의 평균 비교를 위한 표준오차는 다음과 같이 구해진다.

는, 두 모집단이 독립적이라고 가정되었음으로  당연히 두 표본은 서로 독립적이고, 따라서 독립적인 두 확률변수의 선형결합이다. 따라서 그것의 분산(variance)은 아래와 같이 계산된다.

두 평균 차이의 분산은 각 평균 분산을 합한 값이다. 그런데 이므로  식 (5)는 아래와 같이 표시된다.

따라서,

즉, 평균 차이의 표준오차는 두 모집단 분산의 합을 양의 제곱근한 값이다.  이제 식 (6)을 공식 (4)에 대입하면 두 모집단 평균 차이에 대한 신뢰구간 공식이 구해진다.

두 모집단이 정규분포이거나 중심극한정리를 적용할 수 있을 만큼 표본의 크기ㅏ가 커서 의 표집분포가 정규근사 한다면 의 표집분포는 평균이 인 정규분포가 될 것이다.

공식을 구했으니, 예제를 풀어보자.

(예제) 홈스타일(HomeStyle)은 도심과 교외 쇼핑센터의 두 매장에서 가구를 판매하고 있다. 매장 관리자는 이 두 매장의 판매 패턴 차이가 두 지역의 인구통계학적 차이에 기인한다고 생각하였다. 그래서 두 매창 고객들의 평균 나이 차이에 대해 조사하라고 지시하였다. 이전에 실시한 인구통계조사를 통하여 두 모집단 표준편차가 임을 알고 있다. 도심 매장에서 추출한 표본의 크기는 36이고 평균은 40이며, 교외 매장에서 추출한 표본의 크기는 49이고 평균은 35이다. 두 매장의 쇼핑객 평균 나이의 차이에 대한 95% 신뢰구간을 구하시오.

(풀이) 모집단 1은 도심 매장 쇼핑객, 모집단 2는 교외 쇼핑객 이라고 하자.

= 모집단 1의 평균(도심 매장 쇼핑객의 평균 나이)

= 모집단 2의 평균(교외 매장 쇼핑객의 평균 나이)

이 데이터를 공식 (7)에 대입하면,

이므로 식 (8)은 아래와 같이 정리된다.

표본평균 차이는 5이고, 표준오차는 2.07이고,  오차범위가 4.06이다. 따라서 두 모집단 평균차이의 95% 신뢰구간 추정값은 0.94(살)에서 9.06(살)까지이다.

두 모집단 평균차이에 대한 가설검정을 알아보자. 단일 모평균에 대한 가설을 검정할 때, 표본평균에서 영가설로부터 도출된 모평균을 뺀 값이 표준오차의 몇 배인가를 보여주는 표본통계치 z나 t값을 구해서(식 (9) 참조) 그것의 p-값을 구하고, p-값과 유의수준을 비교하여 영가설에 대해 판단하였다.

두 모집단의 평균차이의 경우 가설검정은 신뢰구간 추정보다 다소 복잡하다. 우선 설명을 간명하게 하기 위해 라고하자. 그렇다면 세 가지 경우가 나올 것이다. 먼저 두 모집단의 평균이 같다는 영가설과 두모집단의 평균이 다르다는 대립가설을 설정할 수 있다. 양측 검정의 경우가 될 것이다.영가설이 기각되면 두 모집단의 평균 차이가 통계적으로 유의미하다고 판단된다.

다음에는 모집단 1의 평균이 모집단 2의 평균보다 같거나 크다는 영가설을 설정할 수 있다. 그러면 대립가설은 모집단 1의 평균이 모집단2의 평균보다 작다가 될 것이다.

끝으로 모집단 1의 평균이 모집단 2의평균보다 같거나 작다는 영가설을 설정할 수 있다. 그러면 대립가설은 모집단 1의 평균이 모집단 2의 평균보다 크다가 될 것이다.

위의 식 (9)를 원용하여  에 대한 가설검정에서의 검정통계치를 계산하는 공식이 아래와 같이 도출된다(두 모집단의 표준편차가 알려져 있는 경우).

표본통계치 값을 구하면 p-값이 산출된다.

위의 홈스타일 가구의 두 매장 사례를 가지고 가설 추정을 해보자. 만약 두 매장의 쇼핑객 평균 나이에 차이가 있는지를 알아본다면, “두 매장 쇼핑객 평균 나이가 다르다”를 대립가설로 두고, “두 매장 쇼핑객 평균 나이가 같다”를 영가설로 두는 양측 검정이 될 것이다.

우리가 가진 정보는 아래와 같다.

이 정보를 공식 (10)에 대입하여 표본통계치를 구한다.

z-값이 양수이므로 오른쪽 단측검정을 하면, p-값 = 0.008이다. 양측검정을 위해 이를 두 배하면 0.016이다. 이 값은 유의수준 0.05(95% 신뢰수준)보다 작다. 따라서 두 모집단의 평균이 같다는 영가설은 기각되고, 두 매장 쇼핑객의 평균 나이가 다르다고 결론을 내릴 수 있다. (2019-10-19)