카이자승과 독립성 검정(개정판)

[예제 1] 미국 동부 주요 대도시에 근무하는 경찰관 남녀의 승진 사례이다. 경찰관 1,200명 중 960명은 남자, 240명은 여자이다. 지난 2년 동안 324명이 승진하였다. 다음 표에 과거 2년간 경찰관의 승진 현황이 제시되어 있다. 승진 결과를 검토한 다음, 여경위원회는 240명의 여경 중 36명만이 승진하였다는 사실을 근거로 여성차별이 있다고 문제를 제기했다. 경찰인사관리위원회는 여성이 상대적으로 적게 승진한 것은 여성차별 때문이 아니라 여성 수가 상대적으로 적기 때문이라고 주장했다. 과연 누구의 주장이 옳을까? 통계학은 이 첨예한 갈등을 합리적으로 해결하는 데 기여할 수 있을까?

이 교차표를 접근하는데는 두 가지 방법이 있다. 이 교차표가 모집단의 수치를 보여주는 경우 조건부 확률(conditional probability)을 사용하면 되고, 이 교차표가 하나의 표본에 관한 정보로 간주된다면 카이자승() 을 가지고 독립성 검정을 하면 된다.

어느 데이터가 모집단(population)에 관한 것인가 혹은 표본(sample)에 관한 것인가는 근본적으로 연구자가 어떤 대상에 대해 주장을 제시하고 싶은가에 달려 있다. 예컨대 이 사례에서 연구자가 해당 경찰청의 과거 2년 동안에 발생한 승진 케이스들에 대해서만 성차별이 존재하는지를 따지겠다면, 이 데이터는 전수 데이터로 모집단에 관한 것이라고 간주될 수 있다. 반면에 연구자가 해당 경찰청의 데이터를 가지고 미국의 전체 경찰이나 미국 사회 전체에 존재하는 성차별에 관해 따지겠다면 이 데이터는 표본에 관한 것이라고 간주되어야 한다.

이 교차표를 가지고 그 두 접근을 모두 검토해 보자. 먼저 조건부 확률부터 논의하겠다.

최근 조건부 확률은 그 어느 때보다도 중요한 지식이 되었다. 현업에서 가설 검증보다는 예측이 훨씬 더 많이 요청되고 있으며, 예측에 널리 사용되는 베이즈 추론(Bayesian inference)의 논리적 토대가 조건부 확률이다. 현업에서 스스로 예측을 하거나, 최소한 남이 하는 예측을 이해하고 싶다면, 조건부 확률에 관련된 개념들을 꼼꼼하게 익혀둘 필요가 있다.

확률을 다룰 때는 먼저 사건을 정의해야 한다.

M = 경찰관이 남성; W = 경찰관이 여성; A = 경찰관이 승진;  =  경찰관이 승진하지 못함

= 무작위로 뽑힌 경찰관이 남성이고 승진;  = 무작위로 뽑힌 경찰관이 남성이고 승진하지 못함; = 무작위로 뽑힌 경찰관이 여성이고 승진; = 무작위로 뽑힌 경찰관이 여성이고 승진하지 못함

위의 표는 아래 확률들을 가지고 승진에 관한 결합확률표(joint probability table)로 전환될 수 있다. 

이러한 확률들은 두 사건의 곱사건의 확률로서 결합확률(joint probability)라고 부른다.

결합확률 주변에 있는 값들은 각 사건의 확률이다. 즉, P(M) = 0.80; P(A) = 0.20; P(A) = 0.27; P() = 0.73이다. 이러한 값들을 주변확률(marginal probability)이라고 부른다. 결합확률표에서 관련된 행이나 열의 결합확률을 합하면 주변확률을 구할 수 있다. 예컨대 이다. 이점을 잘 기억해두면 베이즈 추론에 도움이 될 것이다.

결합확률과 주변확률을 가지면 조건부 확률(conditional probability)을 구할 수 있다.  예컨대 어떤 경찰관이 남성일 경우 그가 승진할 확률, 을 구해보자.

도수를 사용해서 구하면, 288/960=0.3이 될 것이다. 확률을 이용해서 구해도 0.24/0.80=0.3으로 동일한 값이다. 확률을 이용한 조건부 확률의 계산을 일반화하면 다음과 같다.

조건부 확률은 결합확률을 주변확률로 나눈 값, 다른 말로 주변확률에 대한 결합확률의 비율이다.

경찰관이 여성인 경우 승진할 확률은 아래와 같다.

즉, 남성경찰관의 승진확률은 0.3으로 여성경찰관의 승진확률 0.15의 두 배이다. 이 결과는 경찰인사관리위원회의 주장보다 여경위원회의 주장을 지지한다.

만약 이 데이터가 표본이라면 조금 다른 방식으로 접근할 수 있다. 교차표에 나타난 차이가 우연적 결과이다 혹은 승진에 관해서 성차별이 없다(통계학적으로 표현하면, 경찰관의 성별과 승진이 독립 사건이다) 라는 가설을 검증하는 방법이다. 이를 영가설(null hypothesis)이라고 하는데, 만약 영가설이 기각되면 대립가설(alternative hypothesis)을 수용하게 된다. 이것이 바로 독립성 검정(test of independence)이다.

만약 경찰관의 성별과 승진이 독립 사건이라면 결합확률표는 어떤 모습일까? 남자 경찰관 중 승진자 비율, 여성 경찰관 중 승진자 비율, 그리고 전체 경찰관 중의 승진자 비율이 같을 것이다(아래 결합확률표 참조).

이를 일반화하여 표현하면 다음과 같다.

이를 빈도의 교차표로 나타내려면 각 결합확률이나 주변확률에 총사례수인 1200을 곱하면 된다.

빈도 교차표에서는 아래 공식을 이용해서 바로 예측값을 구할 수 있다.

여기서 는 기대 빈도(expected frequency), 는 주변 열 빈도(marginal column frequency), 은 주변 행 빈도(marginal row frequency), 은 총 표본 크기(total sample size)이다.

이는 영가설 아래서 얻은 예측값이다. 이 예측값과 실제 관찰값의 차이가 영가설을 기각할 수 있을 만큼 충분히 큰가? 이것을 검증하는 기법이 카이자승 검정( test)이다.

여기서 는 각 칸의 관찰값(빈도)이고, 은 각 칸의 예측값(빈도)이다.

각 셀의 카이자승 값은 그 셀의 관찰값에서 예측값(영가설 아래)을 뺀 값을 제곱한 수를 그 셀의 예측값으로 나누면 된다. 각 셀의 카이자승 값들을 모두 합한 수가 전체 카이자승 값이다.  카이자승 분포()은 아래 그림에서처럼 자유도()의 크기에 따라 모양이 변한다. (아래 그림은 위키피디아에서 가져왔음.)

Chi-square pdf.svg

교차표에서 자유도를 구하는 공식은 다음과 같다.

위의 사례에서는 자유도는, (2 – 1)(2 – 1)=1이다.

엑셀에서는 바로 카이자승 값을 구할 수 없다. 위 공식들을 이용해서 구해야 한다. 다만 예측값의 교차표를 구하면, CHISQ.TEST 함수를 이용해서 바로 카이자승 값의 p- 값을 구할 수 있다. 아래는 그 두 가지 방법을 모두 이용해 구한 값들이다.

이 교차표의 카이자승 값의 p-값은 영가설을 충분히 기각할 수 있을 정도로 작다. 위에서 조건부 확률을 가지고 얻은 결과를 카이자승 검정을 통해서 다시 확인한 셈이다.

독립성 검정에 관한 예제 하나를 더 보자.

[예제 2]  맥주취향에 있어 남녀간의 차이가 있을까? 맥주 취향에 가벼운, 보통, 흑 세 가지 종류가 있다고 하자. 독립성 검정의 가설은 다음과 같다.

:맥주취향은 성별과 독립적이다.  : 맥주취향은 성별과 독립적이지 않다.

아래 데이터를 가지고 카이자승 검정을 해보자. 유의수준은 0.05로 하자.

(풀이)

  1. 원데이터를 엑셀에 입력하여 피벗테이블 기능을 사용해서 교차표를 만들었다.
  2. 공식 (1)을 이용하여 영가설 하의 기대빈도(도수)를 구한다(아래 그림에서 연노랑색칸에 있는 값들). 엑셀로 행렬을 계산할 수 있는 사람은 MMULT함수를 이용해서 계산을 빨리 할 수 있을 것이다(주황색칸에 있는 값들).

3. 공식 (2)를 이용해서 카이자승 값을 구한다. 각 칸의 기대값에서 관찰값을 뺀 차이를 구하고, 그 값을 제곱한다. 그리고 그 값을 기대값으로 나눈다. 그러면 각 칸의 카이자승 값을 구할 수 있다. 위 그림에서 연초록칸, 진초록칸, 하늘색칸 순서로 그 값이 계산되어 있다. 하늘색칸에 있는 값들이 각 칸의 카이자승이다. 그 값들을 모두 합하면 6.4468이고, 그것이 우리가 구하려고 하는 교차표의 검정통계량인 카이자승 값이다. 자유도를 계산하면, (2-1)*(3-1)=2이다. 엑셀의 CHISQ.DIST.RT 함수에 카이자승 값(6.4468)과 자유도(2)를 넣으면, p-값 0.03982가 구해진다.

영가설 하의 기대빈도를 구하면, CHISQ.TEST 함수를 이용하여 바로 p-값을 구할 수도 있다. CHISQ.TEST에는 관찰빈도 범위와 예측빈도 범위를 넣어주면 된다.

아니면, 스마트폰 어플을 이용할 수도 있다. 예컨대 어플 Probability Distributions에서 Chi-Square 분포를 선택한 후 자유도와 카이자승값을 입력하여 p-값을 구할 수도 있다. 어떤 방법을 선택하나 동일한 p-값을 구할 수 있다.

4. 검정통계량의 p-값이 유의수준 0.05보다 작기 때문에 영가설(즉, 독립성 가설)이 기각되며, 따라서 맥주에 관한 취향이 성별에 따라 다르다고 추정된다.

참고로 카이자승 검정은 비록 차이가 있다 없다는 점을 검증하지만 항상 단측 검정이다. F-검정 때처럼 분포가 비대칭적일 뿐 아니라 음수가 될 수 없기 때문에 오른쪽 단측 검정이 적합하다.  (2019-11-10)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.