표와 그래프(3): 단순회귀분석

두 변수 사이의 관계를 보는 데 피어슨 상관계수는 무척 유용하다. 그러나 그 계수는 선형 관계(linear relationship)의 두 가지 측면만 보여준다. 즉, 그것은 두 변수가 같은 방향으로 움직이는가 아니면 서로 다른 방향으로 움직이는가, 그리고 함께 움직이는 정도가 강한가 약한가를 보여준다. 상관계수가 변수의 상관관계에 대해 유용한 정보임에 틀림없다.

그러나, 피어슨 상관계수는 손쉽게 얻을 수 있기는 하지만 몇 가지 한계를 지니고 있다. 첫째, 특별한 조치를 하지 않는 이상 그것은 상관관계에 영향을 줄 수 있는 다른 변수(들)를 통제하지 못한다. 소위 피어슨 상관계수는 기본적으로 영차 상관관계(zero-order correlations)만 보여준다. 두 변수 사이에서 보이는 상관관계가 제3의 다른 변수에 의해 발생된 결과일 수도 있는데, 피어슨 상관계수로는 그러한 관계를 밝힐 수도 배제할 수도 없다는 것이다. 둘째, 한 변수(독립변수)가 변화할 때 다른 변수(종속변수)가 얼마나 변화하는 지를 알려주지 못한다. 따라서 예측 도구 혹은 제어 도구로서는 크게 쓸모가 없다. 셋째, 범주적 변수들의 상관관계를 보는 데는 적용이 매우 제한된다. 특히 두 변수 중 하나만 다범주 명목 변수(multi-class nominal variable)여도 피어슨 상관계수가 적용될 수 없다. 그것이 불가능한 것은 아니지만 편법을 좀 써야한다. 다른 도구들이 있는 데 굳이 그렇게까지 무리해서 그것을 사용할 필요는 없을 것이다.

그래서 그래프 접근에서 피어슨 상관계수는 분석의 출발점은 되어주지만 분석의 종점이 되기는 어렵다. 그것은 유용하지만 충분하지는 않다는 말이다.

피어슨 상관계수가 지닌 약점을 극복하면서 그래프 접근을 완성시켜주는 도구는 회귀분석(regression analysis)이다. 그래프 학파가 회귀분석 학파라고 불릴 정도로 회귀분석은 그래프 접근의 대표 선수이다. 더구나 회귀분석을 하면 피어슨 상관계수가 덤으로 얻어지기도 한다.

회귀분석은 피어슨 상관계수와 마찬가지로 선형적합(linear fitting)–데이터의 분포에 모형을 적합하는 것을 모형적합, model fitting이라고 부른다–이다. 그것은 그래프에 모든 데이터를 좌표로 표시하고 그 분포를 통과하는 직선 중 예측오차가 가장 작은 직선–최적합선(the line of best fit)–을 찾아내는 게임이다.  아래 그래프에서 한 눈에 봐도 세 직선 중 빨간색 선이 데이터를 가장 잘 대표하는 것으로 판단된다.

best fitted line에 대한 이미지 검색결과

물론 최적합선을 찾는 작업이 현실에서는 그렇게 쉽지 않다. 데이터의 분포를 관통하는 수없이 많은 직선이 존재할 수 있기 때문이다. 그렇다면 어떻게 최적합선을 찾을 수 있는가?

통계학에서 최적합선을 찾기 위해 가장 널리 사용되는 방법은 최소자승법 혹은 최소제곱법(Ordinary Least Squares, OLS 혹은 Least Squares Method, LSM)이다. 한 마디로 그것은 종속변수의 예측값과 관찰값의 차이, 즉, 예측 오차(prediction errors)를 제곱하여 모두 더한 값이 가장 작은( )직선을 찾는 방법이다. 최소자승법 접근의 회귀분석에 대해 알아보자.

그래프 접근에서 핵심은 평균이다. 사실 통계학은 평균을 가지고 노는 게임이라고 해도 과언이 아니다. 특히 그래프 접근에서 그러하다.

사례를 가지고 회귀분석을 차근차근 분해해 보자. 미국의 레스토랑에서 웨이터나 웨이트리스의 수입원은 손님들의 팁이다. 여러분이 어떤 레스토랑에 웨이터나 웨이트리스로 취업했다고 한다면, 여러분의 최고 관심사는 손님들이 팁을 얼마나 줄 것인가일 것이다. 어떤 손님이 식사를 했을 때 팁을 얼마나 줄 것인가를 예측해 보자. 만약 아래 표가 여러분이 가진 데이터의 전부라고 하자.

이 때 한 손님으로부터 받게 될 팁을 어떻게 예측하면 좋을까? 아마도 여섯 번 받은 팁의 평균으로 예측하면 될 것이다. 그것은 10달러이다. 평균은 아주 거친 예측 도구이지만 다른 정보가 없으면 그것이라도 예측에 도움이 된다. 만약 우리에게 예측에 유용한 정보가 추가로 주어지면 그것(10달러)보다 더 잘 예측할 수 있을 것이다. “더 잘 예측한다”는 말은 예측 팁(예측값)과 실제로 받은 팁(관찰값)의 액수가 차이–그것을 예측 오차라고 부른다–가 평균적으로 더 작음을 의미한다.

예측오차의 크기를 말할 때는 예측오차의 제곱합을 사용한다. 예측오차가 평균과 관찰값의 차이기 때문에 그냥 합하면 0이 되어버려 쓸모가 없다. 또한 예측오차를 제곱을 하면, 오차값이 큰 사례일수록 예측오차의 크기에 더 많이 반영된다. 평균의 예측오차의 제곱합은 다음과 같은 공식으로 구할 수 있다.

공식 (1)은 평균의 예측오차 제곱합은 SSE(Sum of Squared Errors)라고 표시하며, 각 관찰값()에서 평균()을 뺀 값을 제곱한 다음 모두 더해서 얻는 것임을 보여준다.

위 표는 엑셀을 이용해서 계산한 결과이다. SSE가 120이다. 120이라는 숫자가 지닌 의미를 정확히 해석할 수는 없지만 예측오차가 상당히 커서 평균만 가지고 팁 액수를 정확히 예측할 수 없음은 짐작할 수 있다. 여기서 예측값()은 일률적으로 식사비의 평균()이다. 이를 그래프로 표현하면 아래와 같다.

이 그래프를 보면, 팁액수 10달러에 평균(예측)선(붉은 선)이 그려져 있고, 각 식사별 실제 팁값으로부터 (예측)오차가 표시되어 있다(파란색 반화살표 선). 평균으로 예측하면, 세 번째와 네 번째 식사의 팁값은 비교적 잘 예측했지만 나머지 식사들에 대해서는 예측이 크게 빗나갔다.

만약 우리가 각 식사에 관해 팁 액수 이외의 다른 유용한 정보를 구할 수 있다면 팁을 보다 정확히 예측할 수 있을 것이다. 예측에 “유용하다”는 말은 적어도 단순히 평균으로 예측한 경우보다 예측오차제곱, 즉, 예측오차가 상당히 작다는 의미이다.

연구자가 가게를 열심히 뒤졌더니 다행히 식사들의 전표가 발견되었다. 거기에는 아래와 같이 위 식사들의 식사비에 대한 데이터가 있었다. 현실에서 식사비는 기대 팁에 대한 가장 유용한(혹은 확실한) 예측 변수(predictor)이다.

선형 적합을 해서 최적합선(the line of best fit)을 구하려면, 먼저 독립변수(예측변수)를 x축에, 종속변수를 y축에 놓고 좌표를 그래프에 표시해서 데이터들이 선형으로 분포하고 있는지를 확인해 보아야 한다. 엑셀에서 데이터를 가지고 위 그래프를 얻었다. 이 그래프는 식사비가 증가하면 팁 액수도 함께 증가함을 보여준다. 즉, 이 그래프는 양의 기울기를 지닌 직선 중 어떤 것이 이 데이터에 대한 최적합선이 될 수 있음을 시사한다. 그것은 선형적합을 해볼만하다는 말이다.

그래프에서 직선은 일차함수로 표현된다. 종속변수 y 값을 예측하는 일차함수는 다음과 같이 나타낼 수 있다.

식 (2)는 각 y의 예측값()이 절편이 이고, 기울기가 인 x의 함수임을 나타낸다. 만약 우리가 데이터로부터 절편과 기울기를 구하면 예측 함수가 완성될 것이고, 그 함수에 x값()을 넣으면 y의 예측값()이 구해질 것이다.  그렇다면 위 일차함수의 절편과 기울기를 구하는 것이 관건이다. 이 일차함수를 단순회귀모형(simple regression model)–독립변수가 하나인 회귀모형–이라고 부르며, 기울기는 회귀계수(regression coefficient)라고 부른다. 최소자승법을 적용하면 그 값들은 아래 식과 같다.

공식 (3)의 분모는 독립변수 x의 오차제곱합이고, 분자는 x편차와 y편차의 곱을 모두 더한 값이다. 여러분에게 분자에 들어간 식이 익숙할 것이다. 그것은 다름아닌 공분산을 구하는 식에서 분모가 없어진 것이다. 마찬가지로 분모는 x의 분산을 구하는 공식에서 분모가 없어진 것이다. 사실 x와 y의 공분산을 x의 분산으로 나누면 식 (3)을 얻는다.  공분산과 분산을 구하는 식의 분모가 모두 자유도 ()이기 때문에 나누는 과정에서 상쇄되어 없어진 것으로 생각하면 된다. 다시 말해,  최소자승법의 회귀모형에서 회귀계수 은 독립변수와 종속변수의 공분산을 독립변수의 분산으로 나눈 값이다.

기울기가 식 (3)이면, 절편은 아래 공식이 된다.

엑셀을 이용해서 위 사례의 두 변수의 편차곱의 합, 편차제곱합을 구하고, 공식 (3)과 (4)를 적용해서 기울기와 절편을 구했다. 그렇게 구해서 만든 일차함수와 최적합선 그래프가 아래 그림에 제시되어 있다.

기울기 0.15는 식사비가 1달러 증가하면 팁이 약 15센트 증가한다는 의미이다.

이 모형은 얼마나 팁을 얼마나 정확히 예측하고 있을까? 회귀모형의 예측력을 회귀모형의 결정력(power of determination)이라고 부르는데, 그 결정력을 나타내는 도구는 결정계수(coefficient of determnation)라고 부르며 통상 라고 표기한다. 그렇다면 결정계수는 어떻게 구할 수 있을까?

단순회귀모형을 이용해서 종속변수 y(여기서는 팁 액수)의 예측값()을 구하면, 예측오차를 구할 수 있다. 각 관찰값에서 예측값을 빼면 될 것이다. 예측오차제곱합은 아래와 같이 구해진다.

예측값은 각 x값에서 회귀선 위의 y 값이다. 각 y값의 예측오차는 각 x값에서의 관찰값()으로부터 회귀선 위의 y 값()까지의 직선 거리이다.

위 그래프에 빨간색 선은 회귀선(regression line)이고, 파란색 반 화살표 선이 각 x 값에서의 예측오차이다. 식(5)는 그 예측오차를 제곱해서 모두 합한 것이 예측오차제곱합(SSE)임을 나타낸다.

평균만 알고 있을 때 SSE는 관찰값에서 평균을 뺀 오차를 제곱해서 합한 값이었다. 평균 자체가 y의 각 관찰값에 대한 예측값이었기 때문에 당연히 그랬다.

그러나, 독립변수가 추가된 회귀모형에서는 독립변수가 조금이라도 예측에 기여하는 한 회귀모형에 의한 예측값과 평균은 다르다. 회귀분석에서 SSE은 관찰값과 회귀모형에 의한 예측값의 차이를 제곱하여 모두 합한 값이다. 그것을 잔차제곱합(Sum of Squared Residuals)이라고도 부른다. 그리고 관찰값과 평균의 차이를 제곱하여 모두 합한 값은 SST(Sum of Squares Total, 총제곱합)이라고 부른다. 이점은 다소 혼동을 일으킬 수 있기 때문에 잘 기억해 두기 바란다.

평균만을 가지고 예측할 때는 SST = SSE이다. 하지만 회귀모형에 추가된 독립변수가 종속변수의 예측에 도움이 되는 한 SST는 SSE보다 클 것이다. 독립변수가 존재하는 어떤 회귀모형의 예측력도 평균만 가지고 하는 예측보다 더 빗나갈 수는 없다, 즉, 더 큰 예측 오차를 가질 수는 없다. 예측오차가 조금이라도 줄었을 것이다. 만약 그렇지 않다면 그런 결과를 낸 회귀모형은 통계적으로 유의미할 수 없다. 그것은 독립변수가 없는 것이나 마찬가지라는 말이 된다.

따라서 SST와 SSE의 차이는 종속변수에 대한 예측에 있어 회귀모형에 의해 개선된 부분이다. 그 차이를 SSR(Sum of Squares due to Regression, 회귀제곱합)이라고 부른다. SST, SSE, SSR 사이에는 다음과 같은 관계가 성립한다.

식 (6)을 말로 풀면, 총제곱합은 잔차제곱합과 회귀제곱합을 더한 값이다. 이미 분산분석(ANOVA)을 공부한 사람은 이것이 분산분석에서 나온 전체제곱합(SST)은 처리제곱합(SSC)과 잔차제곱합(SSE)을 더한 값이라는 식과 동일한 구조임을 금방 느낄 것이다.

위 그림은 엑셀에서 앞에서 설명한 모든 내용을 레스토랑 사례를 가지고 구현한 것이다(엑셀에서 직접 구동하고 싶은 독자는 그림을 클릭하면 엑셀 파일에 접근하여 다운로드 받을 수 있다).

엑셀 자체가 제공하는 애드인인 데이터 분석을 이용하면 손쉽게 회귀분석을 수행할 수 있으며, 위 그림의 아랫부분과 같은 결과를 얻을 것이다. 회귀분석 결과의 중간 부분(초록색 부분)을 보면 제목이 ‘분산분석’이고 실제로 전형적인 분산분석표(ANOVA table)이다. 거기에 있는 제곱합 열을 보면, 첫 번째 행의 89.9251은 회귀제곱합이고, 두 번째 행의 30.0749는 잔차제곱합이며, 세 번째 행의 120은 총제곱합이다. 그림의 윗 부분에 파란색으로 된 부분은 엑셀에서 위에 제시된 공식들을 이용해 차근차근 계산해서 얻은 결과이다. 거기에 제시된 값들이 초록색 부분에 제시된 제곱합들과 동일하다.

위에서 회귀모형의 결정력을 보여주는 결정계수 는 다음과 같은 식으로 구할 수 있다.

위 사례의 결정계수 값은 0.7494이다. 이는 총제곱합의 74.94%가, 사용된 회귀모형에 의해 설명되었다고 해석된다. 회귀모형(회귀선)이 데이터에 잘 적합하고 있는 것이다.

흥미있게도 이 결정계수의 양의 제곱근은 바로 피어슨 상관계수이다.

위 레스토랑 사례의 결정계수는 0.7494이고, 그것의 양의 제곱근은 0.8657이며, 그것이 식사비와 팁 액수의 피어슨 상관계수가 된다. 엑셀에서 CORREL 함수를 사용하여 계산한 피어슨 상관계수 값도 정확히 0.8657이다.

회귀모형의 효과는 분산분석에서처럼 F비를 사용하여 검증할 수 있다.

그리고 MSR과 MSE는 SSR과 SSE를 각각 해당 자유도로 나누어 주면 구해진다. 단순회귀모형에서  MSR을 구하는데 필요한 자유도는 1(독립변수의 갯수)이고, MSE를 구하는데 필요한 자유도는 (표본의 사례수에서 회귀계수의 갯수를 뺀 값)이다. 

위의 레스토랑 사례에서는 자유도가 1과 4이므로, MSR은 89.9251, MSE는 (30.0749/4=)7.5187이다. 그러면 F값은,

엑셀의 F.DIST.RT 함수를 이용해서 이 F 비의 p값을 구하면, 0.0259이다. 엑셀의 데이터분석 추가기능을 이용하면 위에 제시된 값들을 모두 손쉽게 구할 수 있다(위 그림 참조).

유의수준을 0.05으로 둔다면, 회귀모형의 효과가 없다는 영가설을 기각할 수 있다. 즉, 식사비로 구성된 회귀모형은 팁 액수를 예측하는 데 도움이 된다고 말할 수 있다.

그런데, 만약 이 자료를 표본데이터로 삼는다면, 그 표본에서 얻은 기울기가 유사한 레스토랑의 모집단에서 식사비와 팁에도 적용될 수 있을까? 다시 말해 회귀계수의 유의성 검정은 어떻게 할 수 있을까?

회귀계수는 그 자체 표집분포를 가지고 있다. 회귀계수 의 표집분포는 모평균()과 표준오차()를 지닌 정규분포를 갖는다. 회귀계수의 통계적 유의성은 통상 t 검정을 사용해서 검증한다. 회귀계수()은 아래 공식으로 검정통계량 t로 변환된다.

영가설 아래에서 식 (11)의 분자에 있는 은 0이다. (11)의 분모는 회귀계수 의 표준오차인데, 그것은 아래 식으로 구해진다.

식 (12)에서 분자는 예측값의 표준오차(standard error of the estimate)이며 다음과 같이 구해진다.

예측값의 표준오차는 위에서 식 (9)에서 구한 바로 그 MSE의 양의 제곱근이다. SSE는 (추정)회귀선과 y의 관찰값의 차이–즉, 잔차–의 제곱합이다. 그것은 추정회귀선 주변의 실제 관측값의 변동성을 보여주는 척도가 된다.  MSE(평균제곱오차)는 의 추정값()인데, SSE를 자유도로 나누어 구했다. MSE의 양의 제곱근을 구하면 예측값의 표준오차 가 되는 것이다.

이렇게 해서 t값을 구할 수 있으며, 단순회귀모형에서 이 검정통계량의 자유도는 이므로 그 두 가지 정보를 이용해서 t분포의 양측검정을 하면 p값을 구할 수 있다.

위 레스토랑 예에서는  의 p값이 0.0259이다. 따라서 유의수준 0.05에서 =0이라는 영가설이 기각된다. 따라서 식사비를 알면 팁액수를 예측할 수 있으며,식사비가 1달러 올라갈 때마다 팁은 약 15센트가 늘어나는 것으로 예측된다고 결론을 낼 수 있다.

사실 독립변수가 하나뿐인 단순회귀분석에서는 모형의 결정계수의 유의성을 검증하는 F검정의 결과와 독립변수의 회귀계수의 유의성을 검증하는 t 검정의 결과가 같다. 위 그림에 제시된 회귀분석 결과에서 분산분석 부분에 있는 회귀의 유의한 F 값과 그 아래 표에 있는 식사비의 p값이 동일하다.

그래서 회귀분석은 분산분석과 피어슨 상관계수를 학습하고 나서 배워야 한다. 회귀분석에는 분산분석과 상관계수의 지식이 크게 활용되기 때문이다. 사실 분산분석으로 수행하는 작업은 모두 회귀분석으로 처리할 수 있다. 집단의 구분을 수치적 변수로 변환하면, 분산분석 대신 회귀분석을 적용할 수 있다.

앞에서 회귀함수의 절편과 기울기를 구하는 식 (3)과 (4)을 도출과정 없이 그냥 제시했다. 최소자승법을 언급만 하고 적용 과정을 생략한 것이다. 글이 너무 길어져서 다음 글에서 최소자승법과 다중회귀분석을 함께 설명하겠다. (2019-11-24)

표와 그래프(2): 피어슨 상관계수

그래프에서 데이터를 표시하는 데는 좌표(coordinates)가 사용되고 변수 사이의 관계는 기본적으로 직선(a straight line)으로 묘사된다. 다시 말해 각 사례는 그것이 지닌 두 변수의 값으로 구성된 좌표로 그래프에 표시되고 연구자는 사례들의 분포에 직선을 적합(fitting)해서 그 데이터들의 분포를 가장 잘 대표하는 직선을 찾아내면, 연구자는 그 직선이 두 변수들의 관계를 가장 잘 나타내주는 것으로 간주한다.

예컨대 아래 표는 미국 샌프란시스코에 소재한 어떤 음향기기 판매점이 시행한 TV광고횟수와 매출액에 관한 데이터이다.

TV광고횟수와 매출액의 추이

이 데이터를 아래와 같이 그래프에 표시할 수 있다. x축에 TV광고횟수를, y축에 매출액을 둔다면, 그래프에서 각 주의 좌표는 (2, 50), (5, 57), (1, 41) 등이 될 것이다(아래 그래프 참조).

엑셀을 이용해서 이 데이터의 분포를 가장 잘 보여주는 직선을 적합하면 아래와 같다. 붉은 색의 점선이 엑셀이 적합해준 추세선이다. 이 직선은 두 변수 사이의 선형 관계를 “가장 잘 나타낸다”.

교차표 학파의 학자들이 교차표의 각 칸의 빈도를 예측하는 데 관심이 있다면, 그래프 학파의 학자들은 각 사례의 값을 예측하는 데 관심이 있다. 그들은 직선을 가지고 각 점의 좌표를 예측한다. 위 그래프에서 붉은 선(엑셀의 추세선)은 10개의 데이터 값(좌표)을 “가장 잘 대표(예측)하는” 직선이다. “가장 잘 나타낸다”, “가장 잘 대표한다”, “가장 잘 예측한다”는 말이 무슨 의미인지는 조금 후에 설명하겠다.

그래프 접근의 대표적인 도구는 상관계수(correlation coefficients)와 회귀분석(regression analysis)이다. 상관계수는 두 변수 사이에 존재하는 관계의 방향과 정도를 표시한다. 상관계수는 데이터가 예측선(직선)의 주위에 얼마나 모여 있는가를 나타낸다. 비록 그것이 예측선을 구체적으로 특정하지는 못하지만 말이다. 즉, 상관계수는 선형적 관계가 존재하는지를 보여준다.

관련 이미지

위 그림을 보면, 맨 좌측 그래프는 한 변수가 증가하면 다른 변수도 증가하는 모습이다. 양의 기울기를 가진 직선 주위에 데이터들이 모여 있어 그 직선이 데이터의 분포를 잘 대변하고 있다. 가운데 그래프는 한 변수가 증가하면 다른 변수는 감소하는 모습이다. 직선은 음의 기울기를 가지고 있고, 데이터는 직선 주위에 잘 모여 있어 이 경우도 직선이 데이터의 분포를 잘 나타내 준다. 맨 우측의 그래프는 어디로 선을 그어야 할 지가 막막하게 데이터가 분포하고 있다. 이 경우 어떤 직선을 그리더라도 그 직선 주위에 데이터가 몰려 있지 않을 것이다.

피어슨 상관계수(Pearson correlation coefficient, )는 이러한 관계를 하나의 숫자로 표현해 준다. 상관계수는 아래의 공식으로 구할 수 있다.

식 (1)에서 분모는 변수 x의 표준편차와 변수 y의 표준편차를 곱한 값이고, 분자는 x와 y의 공분산이다. 공분산은 아래 식으로 구해진다.

식 (2)에서 분모는 자유도이고, 분자는 x편차와 y편차의 곱을 모두 더한 값이다. 위 사례에서 공분산은 11이며, TV광고횟수의 표준편차는 1.4907이고, 매출액의 표준편차는 7.9303이다. 엑셀 함수 COVARIANCE.S를 적용하면 공분산이 구해지고, STDEV.S를 적용하면 각 변수의 표준편차가 구해진다. 식 (1)에 이 값들을 대입하면, TV광고횟수와 매출액의 상관계수는 0.93이다. 이 과정이 복잡하면, 연구자는 엑셀의 CORREL 함수를 적용하여 데이터에서 상관계수를 바로 계산할 수도 있다.  상관계수 0.93은 TV광고횟수와 매출액이라는 두 변수 사이에 높은 양의 상관관계가 있음을 보여준다.

그런데, 표본의 크기(10)가 아주 작다. 모집단에서는 음향기기 판매에 있어 TV광고횟수와 매출액 사이에 상관관계가 부재할 수도 있다. 이를 확인하려면 유의성 검정(significance test)를 해야한다.

피어슨 상관계수의 유의성 검정은 상관계수 값을 검정통계량   값으로 전환한 다음 검정을 수행하여 이루어진다. 아래 공식을 적용하면 상관계수 값으로부터 검정통계량 값을 구할 수 있다.

여기에 적용되는 자유도는 이다. 공식 (3)에 을 집어 넣으면,

자유도가 8이므로, 양측 검정의 p값은 9.38553e-05이다. 이 값은 엑셀의 T.DIST.2T 함수를 적용하면 얻어진다. 이 값은 유의수준 0.05보다 훨씬 작기 때문에, 모집단에서 TV광고횟수와 매출액 사이에 관계가 없다는  영가설()은 기각된다. 즉, 만약 이 표본 데이터가 무작위 표본(혹은 그에 근접하는 좋은 표본)이라면, 음향기기 판매 업체들이라는 모집단에서도 TV광고횟수는 매출액과 높은 양의 상관관계를 갖는다고 추정될 수 있을 것이다.  다음 글에서는 그래프 접근의 다른 도구인 회귀분석에 관해 알아보자. (2019-11-23)

표와 그래프(1): 통계학에서 ‘세상’을 보는 두 가지 방식

‘세상’은 관계로 구성된다. 인간 세상은 개인들, 집단들, 국가들 사이의 관계로 이루어져 있고, 자연계도 온갖 존재들 혹은 현상들 사이의 관계로 이루어져 있다.

과학은 그 관계에 내재하는 법칙이나 원리(그냥 간단히 법칙이라고 하자)를 밝힌다. 사회과학은 인간계를 연구하고, 자연과학은 자연계를 연구하지만 관계의 법칙을 탐구한다는 점에서 서로 다르지 않다.

그런데 현실에 존재하는 객체들 사이의 관계를 하나 하나 들여다 보아서는 아무리 오랜 시간 연구를 한다고 해도 법칙을 드러내기는 거의 불가능하다. 관계의 법칙은 개별적인 객체들 사이의 관계를 관통하는, 즉, 그 관계들 모두 혹은 대부분에 해당되는 것이기 때문이다. 자연인 A와 B, 기업체 가와 나, 인간 A와 늑대 등 같이 특수한 개체들 사이의 관계는 반드시 오만 가지의 법칙에다 우연적 요소까지 함께 작동하여 나타난다.

과학자들은 개체(entities) 대신 변수(variables)를 가지고 세상을 인식한다. 변수는 개체들이 지닌 속성(properties)이다. 다시 말해 개체들의 관계를 직접 보는 대신 개체들을 구성하는 속성들의 관계를 파악해서 개체들의 관계를 이해하려고 한다.

예컨대 사회과학자들은 인간을 구성하고 있는 성별, 나이, 학력, 인종, 종교, 출신지, 질병, 성향, 직업, 소득, 재산 등이라는 속성들, 즉, 변수들 사이의 관계에 주목한다. 그리고 그들은 그 변수들 사이의 관계에 존재하는 법칙적 현상을 밝히고자 한다. 그렇게 함으로써 궁극적으로 사람들 사이의 관계를 해명할 수 있으리라 기대한다.

통계학은 변수들 사이의 관계를 표(table) 혹은 그래프(graph)로 표시한다. 초등 수학 때부터 배운 표와 그래프가 바로 그것이다. 초등학교에서는 한 변수를 표나 그래프로 나타내는 방법을 배웠을 것이고, 중고등학교 혹은 대학에서는 두 변수 혹은 그 이상의 변수들의 관계를 표나 그래프로 나타내는 방법을 배웠을 것이다.

표는 칸(cell)으로 구성된다. 각 칸에는 변수의 범주들에 속하는 사례들의 숫자가 기재된다.

예컨대 어떤 중학교의 학생들이 총 300명인데, 그 중 남학생이 170명이고, 여학생이 130명이라고 하자. 그 학교 학생들을 성별이라는 변수로 표시한다면, 아래와 같은 표를 만들 수 있을 것이다.

성별빈도
남학생170
여학생130
합계300

이 표는 이 중학교에는 여학생보다 남학생의 수가 많음을 보여준다.

남학생과 여학생이 방과 후 활동 중 체육을 선택한 비율을 비교한다면, 그것은 성별방과 후 체육활동 참여라는 두 변수의 관계를 보는 것이 된다. 두 변수 이상의 관계를 나타내는 표는 교차표(cross-table)라고 한다. 만약 위 중학교에서 방과 후 체육활동에 130명의 남학생과 30명의 여학생이 참여한다면 다음과 같은 교차표가 만들어진다.

 방과 후 체육활동 참여합계
성별참여비참여
남학생130(76.47)40(23.53)170(56.67)
여학생30(23.08)100(76.92)130(43.33)
합계160(53.33)140(46.67)300(100.00)

행비율을 계산해 보면, 방과 후 체육활동에 전체 학생 중에는 53.33%가 참여하고 있는데, 남학생 중에는 76.47%가, 여학생 중에는 23.08%가 참여하고 있는 것으로 나타났다. 여학생보다 남학생이 훨씬 높은 비율로 방과 후 체육활동에 참여하고 있는 것이다. 이 학교에서는 방과 후 체육활동이 성별에 따라 다름을 알 수 있다. 통계학적으로 표현하면, 이 학교에서는 방과 후 체육활동 (참여)라는 변수가 성별이라는 변수에 의존적이다, 방과 후 체육활동이라는 변수와 성별이라는 변수가 서로 관계를 갖고 있다 혹은 방과 후 체육활동과 성별은 상호독립적이 아니다가 된다.

만약 연구자의 관심이 이 학교를 넘어서 우리나라 전체 중학교라는 모집단에 있다고 한다면, 이 교차표는 표본 데이터가 되고, 그 표본 데이터를 가지고 모집단의 관계(모수)를 추정하거나 “우리나라의 (전체) 중학교에서 방과 후 체육활동 참여 여부는 성별에 의해 영향을 받는다’ 혹은 “우리나라 중학교에서 방과 후 체육활동에는 남학생이 여학생보다 월등하게 높은 비율로 참여하고 있다”라는 가설을 검증할 수도 있다.

표 혹은 교차표에서 모수 추정이나 가설 검정은 이론으로부터 각 칸의 빈도를 예측(추정)하고, 그 예측값과 실제 관찰값을 비교하는 방식으로 수행될 수 있다. 카이자승을 이용한 독립성 검정이나 로그 선형 모형(Log-linear model)이 그러한 방식을 구체적으로 수행 가능하게 해주는 통계 기법이다. 표 접근법을 선호하는 학자들(교차표 학파라고 부르자)은 교차표의 각 칸에 들어갈 빈도를 예측하는 데 관심이 있다. 교차표 학파의 학자들은 만약 간단한 이론으로 각 칸의 관찰값과 거의 유사한 예측값을 얻을 수 있다면 그것은 멋진 이론이라고 생각한다.

원래 표(혹은 교차표)는 변수들이 명목 수준(nominal level)이거나 순서 수준(ordinal level), 즉, 범주적 변수(categorical variable)일 때 사용된다. 반면에 그래프는 변수들이 구간 수준(interval level)이나 비율 수준(ratio level), 즉, 수치적 변수(numerical variable)일 때 사용되도록 개발되었다.

그러나 현실에서 표와 그래프는 단순한 도구의 차이를 넘어서 세상에 대한 서로 다른 접근법이 되었다. 표를 좋아하는 학자들은 표를 가지고 세상(즉, 변수들의 관계)을 분석하려 들고,  그래프를 좋아하는 학자들은 그래프를 가지고 세상을 분석하려 든다. 그들은 변수의 측정 수준에 따른 구분을 별로 존중하지 않는다. 특히 양쪽의 방법이 발전하면서 그러한 구분 허물기가 더욱 심해졌다.

자신들의 방법을 적용하기 위해 교차표 학파의 학자들은 수치적 변수를 범주적 변수로 변환하고, 그래프 학파의 학자들은 범주적 변수를 수치적 변수로 변환한다. 그들은 그 과정에서 데이터의 정보를 잃거나 데이터를 왜곡할 수도 있지만 그렇게 함으로써 얻어지는 효과가 그 상실을 보상하고도 남는다고 생각한다.

학자들의 고집은 못말린다. 그들은 자신들의 생각을 구현할 능력이 있기(혹은 그렇다고 착각하고 있기) 때문에 학문의 영역에 양보란 없다. 거기에는 오직 승리와 패배만 있을 뿐이다. 다음 글에서는 그래프 학파에 대해서 살펴보자. (2019-11-23)

카이자승과 독립성 검정(개정판)

[예제 1] 미국 동부 주요 대도시에 근무하는 경찰관 남녀의 승진 사례이다. 경찰관 1,200명 중 960명은 남자, 240명은 여자이다. 지난 2년 동안 324명이 승진하였다. 다음 표에 과거 2년간 경찰관의 승진 현황이 제시되어 있다. 승진 결과를 검토한 다음, 여경위원회는 240명의 여경 중 36명만이 승진하였다는 사실을 근거로 여성차별이 있다고 문제를 제기했다. 경찰인사관리위원회는 여성이 상대적으로 적게 승진한 것은 여성차별 때문이 아니라 여성 수가 상대적으로 적기 때문이라고 주장했다. 과연 누구의 주장이 옳을까? 통계학은 이 첨예한 갈등을 합리적으로 해결하는 데 기여할 수 있을까?

이 교차표를 접근하는데는 두 가지 방법이 있다. 이 교차표가 모집단의 수치를 보여주는 경우 조건부 확률(conditional probability)을 사용하면 되고, 이 교차표가 하나의 표본에 관한 정보로 간주된다면 카이자승() 을 가지고 독립성 검정을 하면 된다.

어느 데이터가 모집단(population)에 관한 것인가 혹은 표본(sample)에 관한 것인가는 근본적으로 연구자가 어떤 대상에 대해 주장을 제시하고 싶은가에 달려 있다. 예컨대 이 사례에서 연구자가 해당 경찰청의 과거 2년 동안에 발생한 승진 케이스들에 대해서만 성차별이 존재하는지를 따지겠다면, 이 데이터는 전수 데이터로 모집단에 관한 것이라고 간주될 수 있다. 반면에 연구자가 해당 경찰청의 데이터를 가지고 미국의 전체 경찰이나 미국 사회 전체에 존재하는 성차별에 관해 따지겠다면 이 데이터는 표본에 관한 것이라고 간주되어야 한다.

이 교차표를 가지고 그 두 접근을 모두 검토해 보자. 먼저 조건부 확률부터 논의하겠다.

최근 조건부 확률은 그 어느 때보다도 중요한 지식이 되었다. 현업에서 가설 검증보다는 예측이 훨씬 더 많이 요청되고 있으며, 예측에 널리 사용되는 베이즈 추론(Bayesian inference)의 논리적 토대가 조건부 확률이다. 현업에서 스스로 예측을 하거나, 최소한 남이 하는 예측을 이해하고 싶다면, 조건부 확률에 관련된 개념들을 꼼꼼하게 익혀둘 필요가 있다.

확률을 다룰 때는 먼저 사건을 정의해야 한다.

M = 경찰관이 남성; W = 경찰관이 여성; A = 경찰관이 승진;  =  경찰관이 승진하지 못함

= 무작위로 뽑힌 경찰관이 남성이고 승진;  = 무작위로 뽑힌 경찰관이 남성이고 승진하지 못함; = 무작위로 뽑힌 경찰관이 여성이고 승진; = 무작위로 뽑힌 경찰관이 여성이고 승진하지 못함

위의 표는 아래 확률들을 가지고 승진에 관한 결합확률표(joint probability table)로 전환될 수 있다. 

이러한 확률들은 두 사건의 곱사건의 확률로서 결합확률(joint probability)라고 부른다.

결합확률 주변에 있는 값들은 각 사건의 확률이다. 즉, P(M) = 0.80; P(A) = 0.20; P(A) = 0.27; P() = 0.73이다. 이러한 값들을 주변확률(marginal probability)이라고 부른다. 결합확률표에서 관련된 행이나 열의 결합확률을 합하면 주변확률을 구할 수 있다. 예컨대 이다. 이점을 잘 기억해두면 베이즈 추론에 도움이 될 것이다.

결합확률과 주변확률을 가지면 조건부 확률(conditional probability)을 구할 수 있다.  예컨대 어떤 경찰관이 남성일 경우 그가 승진할 확률, 을 구해보자.

도수를 사용해서 구하면, 288/960=0.3이 될 것이다. 확률을 이용해서 구해도 0.24/0.80=0.3으로 동일한 값이다. 확률을 이용한 조건부 확률의 계산을 일반화하면 다음과 같다.

조건부 확률은 결합확률을 주변확률로 나눈 값, 다른 말로 주변확률에 대한 결합확률의 비율이다.

경찰관이 여성인 경우 승진할 확률은 아래와 같다.

즉, 남성경찰관의 승진확률은 0.3으로 여성경찰관의 승진확률 0.15의 두 배이다. 이 결과는 경찰인사관리위원회의 주장보다 여경위원회의 주장을 지지한다.

만약 이 데이터가 표본이라면 조금 다른 방식으로 접근할 수 있다. 교차표에 나타난 차이가 우연적 결과이다 혹은 승진에 관해서 성차별이 없다(통계학적으로 표현하면, 경찰관의 성별과 승진이 독립 사건이다) 라는 가설을 검증하는 방법이다. 이를 영가설(null hypothesis)이라고 하는데, 만약 영가설이 기각되면 대립가설(alternative hypothesis)을 수용하게 된다. 이것이 바로 독립성 검정(test of independence)이다.

만약 경찰관의 성별과 승진이 독립 사건이라면 결합확률표는 어떤 모습일까? 남자 경찰관 중 승진자 비율, 여성 경찰관 중 승진자 비율, 그리고 전체 경찰관 중의 승진자 비율이 같을 것이다(아래 결합확률표 참조).

이를 일반화하여 표현하면 다음과 같다.

이를 빈도의 교차표로 나타내려면 각 결합확률이나 주변확률에 총사례수인 1200을 곱하면 된다.

빈도 교차표에서는 아래 공식을 이용해서 바로 예측값을 구할 수 있다.

여기서 는 기대 빈도(expected frequency), 는 주변 열 빈도(marginal column frequency), 은 주변 행 빈도(marginal row frequency), 은 총 표본 크기(total sample size)이다.

이는 영가설 아래서 얻은 예측값이다. 이 예측값과 실제 관찰값의 차이가 영가설을 기각할 수 있을 만큼 충분히 큰가? 이것을 검증하는 기법이 카이자승 검정( test)이다.

여기서 는 각 칸의 관찰값(빈도)이고, 은 각 칸의 예측값(빈도)이다.

각 셀의 카이자승 값은 그 셀의 관찰값에서 예측값(영가설 아래)을 뺀 값을 제곱한 수를 그 셀의 예측값으로 나누면 된다. 각 셀의 카이자승 값들을 모두 합한 수가 전체 카이자승 값이다.  카이자승 분포()은 아래 그림에서처럼 자유도()의 크기에 따라 모양이 변한다. (아래 그림은 위키피디아에서 가져왔음.)

Chi-square pdf.svg

교차표에서 자유도를 구하는 공식은 다음과 같다.

위의 사례에서는 자유도는, (2 – 1)(2 – 1)=1이다.

엑셀에서는 바로 카이자승 값을 구할 수 없다. 위 공식들을 이용해서 구해야 한다. 다만 예측값의 교차표를 구하면, CHISQ.TEST 함수를 이용해서 바로 카이자승 값의 p- 값을 구할 수 있다. 아래는 그 두 가지 방법을 모두 이용해 구한 값들이다.

이 교차표의 카이자승 값의 p-값은 영가설을 충분히 기각할 수 있을 정도로 작다. 위에서 조건부 확률을 가지고 얻은 결과를 카이자승 검정을 통해서 다시 확인한 셈이다.

독립성 검정에 관한 예제 하나를 더 보자.

[예제 2]  맥주취향에 있어 남녀간의 차이가 있을까? 맥주 취향에 가벼운, 보통, 흑 세 가지 종류가 있다고 하자. 독립성 검정의 가설은 다음과 같다.

:맥주취향은 성별과 독립적이다.  : 맥주취향은 성별과 독립적이지 않다.

아래 데이터를 가지고 카이자승 검정을 해보자. 유의수준은 0.05로 하자.

(풀이)

  1. 원데이터를 엑셀에 입력하여 피벗테이블 기능을 사용해서 교차표를 만들었다.
  2. 공식 (1)을 이용하여 영가설 하의 기대빈도(도수)를 구한다(아래 그림에서 연노랑색칸에 있는 값들). 엑셀로 행렬을 계산할 수 있는 사람은 MMULT함수를 이용해서 계산을 빨리 할 수 있을 것이다(주황색칸에 있는 값들).

3. 공식 (2)를 이용해서 카이자승 값을 구한다. 각 칸의 기대값에서 관찰값을 뺀 차이를 구하고, 그 값을 제곱한다. 그리고 그 값을 기대값으로 나눈다. 그러면 각 칸의 카이자승 값을 구할 수 있다. 위 그림에서 연초록칸, 진초록칸, 하늘색칸 순서로 그 값이 계산되어 있다. 하늘색칸에 있는 값들이 각 칸의 카이자승이다. 그 값들을 모두 합하면 6.4468이고, 그것이 우리가 구하려고 하는 교차표의 검정통계량인 카이자승 값이다. 자유도를 계산하면, (2-1)*(3-1)=2이다. 엑셀의 CHISQ.DIST.RT 함수에 카이자승 값(6.4468)과 자유도(2)를 넣으면, p-값 0.03982가 구해진다.

영가설 하의 기대빈도를 구하면, CHISQ.TEST 함수를 이용하여 바로 p-값을 구할 수도 있다. CHISQ.TEST에는 관찰빈도 범위와 예측빈도 범위를 넣어주면 된다.

아니면, 스마트폰 어플을 이용할 수도 있다. 예컨대 어플 Probability Distributions에서 Chi-Square 분포를 선택한 후 자유도와 카이자승값을 입력하여 p-값을 구할 수도 있다. 어떤 방법을 선택하나 동일한 p-값을 구할 수 있다.

4. 검정통계량의 p-값이 유의수준 0.05보다 작기 때문에 영가설(즉, 독립성 가설)이 기각되며, 따라서 맥주에 관한 취향이 성별에 따라 다르다고 추정된다.

참고로 카이자승 검정은 비록 차이가 있다 없다는 점을 검증하지만 항상 단측 검정이다. F-검정 때처럼 분포가 비대칭적일 뿐 아니라 음수가 될 수 없기 때문에 오른쪽 단측 검정이 적합하다.  (2019-11-10)

분산분석(개정판)

앞에서 두 모집단의 평균비교가 단일모집단의 평균에 대한 모수추정과 가설검정의 확장판임을 보았다. 그렇다면 세 모집단 이상의 평균비교는 두 모집단 평균비교의 확장일 것이라고 손쉽게 추측할 수 있다.

그런데, 그 추측은 절반만 맞고 절반은 틀리다. 세개 이상의 모평균을 비교하는 일이 두 모평균 비교의 논리적 확장이지만, 기술적으로는 크게 다르다는 점에서 절반은 맞고 절반은 틀리다라고 말할 수 있다.

anova에 대한 이미지 검색결과

 

세 개 이상의 모평균을 비교하는 경우라도 두 개의 모평균 비교에 사용했던 t-검정(z-검정도 마찬가지이지만)을 적용할 수 있다. 모평균을 한 쌍씩 묶어서 t-검정을 실시한 다음 그 결과를 수학적으로 결합하면 될 것이다. 문제는 그렇게 할 경우 매 검정마다 제1종 오류()가 발생하게 되고 신뢰계수가 검정 횟수만큼 곱해지기 때문에 연구자가 통제하려는 제1종 오류가 크게 증가하게 된다.

예컨대 95% 신뢰수준으로 모수 추정이나 가설 검정을 하기 위해 세 차례 t-검정을 실시한다면, 신뢰계수는 0.95*0.95*0.95=0.857이 된다. 따라서 는 0.147이 될 것이다. 즉, 연구자가 원하는 만큼 제1종 오류를 통제할 수 없게 된다는 말이다.

그래서 세 개 이상의 모평균 비교에는 기술적으로 두 개의 모평균 비교와는 다른 방법이 적용된다. 핵심은 분산(VARIANCE)을 사용한다는 점이다. 그래서 이름이 분산분석이다. 자, 이제 차근차근 예제를 보면서 분산분석을 공부해 보자.      

[문제 1] 세 농장에서 옥수수를 생산하는데, 각각 살충제를 다른 방식으로 살포하였다. 재배를 마친 후 수확 상태를 조사해서 다음과 같은 결과를 얻었다. 이 데이터를 가지고 살충제의 살포 방법에 따라 옥수수의 수확량에 차이가 있다고 추정할 수 있을까?(김은정, 2017: 279 변형)

자연과학, 사회과학을 막론하고 경험 과학(empirical science)에서 지식을 얻는 방법은 실험과 관찰이다. 그런데 실험과 관찰을 찬찬히 뜯어보면 과학적 인식의 핵심은 비교(comparison)임을 알 수 있다.

실험에서는 처치 집단(treatment group)과 통제 집단(control group)을 비교하여 처치의 효과를 판단하고, 관찰에서도 어떤 기준값과 비교하거나 사례들을 비교하여 인과관계를 추론하거나, 차이(difference), 성과(outcome) 혹은 효과(effects)를 판단한다.

ANOVA(Analysis of Variance, 분산 분석)는, 집단들의 비교에 널리 사용되는 통계 도구이다. 기본적으로 ANOVA는 특정한 변수에 관해 집단들의 평균을 비교하며, 분산(variance)을 가지고 그 비교를 통계적으로 판단한다. 그래서 평균들을 비교함에도 불구하고 이름이 분산 분석이다.

[문제 1]을 보면, 세 곳의 농장에서 일종의 의사 실험(quasi-experiment)을 시행했다. 같은 살충제를 다른 방식으로 살포하고 어떤 방식이 더 좋은 지를 알아보는 조사이다. 그 방식이란 살충제 살포 시점이나 횟수에 관한 것이 아닐까 짐작된다. 살충제를 언제, 혹은 몇 번이나 살포하는가가 병충해 예방에 영향을 많이 미치기 때문이다.

농장 I, II, III은 각각 8군데의 밭이 있는데, 농장별로 살충제를 서로 다른 방식으로 살포하고 가을에 수확량을 조사했다. 세 농장의 수확량(100 평방미터당) 평균을 계산하면, 농장 I은 228.25 kg, 농장 II는 226.625 kg, 농장 III은 230.25 kg이다. 세 농장의 수확량 평균에 차이가 있음은 분명하다.

그러나 그 수치들만 봐서는 그 차이가, 살충제 살포방식이 달라서 나온 결과(차이)인지, 아니면 살충제 살포방식과는 상관없이 그냥 우연히 발생한 결과(차이)인지를 알 수가 없다. 그것을 통계적으로 판단할 수 있도록 도와주는 도구가 ANOVA이다.

ANOVA는 집단 간의 변이(between variability)집단 내의 변이(within variability)보다 충분히 크면, 집단들의 평균이 서로 다른 모집단에서 나온 것으로 추정하고, 조치(treatment, 독립변수: 이 사례에서는 살충제 살포방식)의 효과가 있다고 판단한다. 반대로 집단간의 변이가 집단 내의 변이보다 그다지 크지 않으면, 집단들의 평균이 하나의 공통 모집단으로부터 나온 것으로 추정하고, 조치의 효과가 없다고 판단한다.

집단 간의 변이와 집단 내의 변이의 비율은, 위 식에서처럼 집단 간 편차 제곱의 합(MSC, 처리 제곱의 평균이라고도 함)집단 내 편차 제곱의 합(MSE, 잔차 제곱의 평균이라고도 함)의 비율로 구한다.

MSC와 MSE는 다음과 같이 구할 수 있다.

그렇다면 문제는 SSC, SSE, , 를 구하는 것으로 압축된다. 그 값들은 아래 식들로 계산된다. SST는 총 제곱의 합, SSC는 처리 제곱의 합, SSE는 잔차 제곱의 합이다.

이 세 가지 제곱 합 사이에는 다음과 같은 관계가 성립한다. . 그래서 SST는 SSC와 SSE로 분해된다고 표현되기도 한다. SST는, 각 관측값에서 전체 평균을 뺀 편차를 제곱하여 더한 값이다.

(=j번째 집단의 i번째 관측값; =전체 평균; 은 집단 j의 관측값 수; k는 집단 수)

SSC는 각 집단의 평균에서 전체 평균을 뺀 편차에 각 집단의 관측수를 곱해서 모두 합한다.

(k=집단 수; j=j번째 집단; =j번째 집단의 관측값 수; =j번째 집단의 평균; =전체 평균)

SSE는 각 집단의 편차제곱의 합을 모두 더 한다.

(=j번째 집단의 분산) 혹은 공식을 가지고 구한다.

자유도는 아래 공식으로 구할 수 있다. 집단 간 제곱의 평균을 구하는 데 필요한 자유도는 집단의 수 빼기 1이며, 집단 내의 제곱의 평균을 구하는데는 총 관측 수에서 집단의 수를 빼면 된다.

, (k=집단 수; =전체 관측값 수)

이렇게 구한 F ratio, 즉, F 값은 F 분포를 이룬다. F 분포는 위의 두 가지 자유도(degree of freedom)에 의해 결정된다. 따라서 F 값, , 를 알면 p 값을 구할 수 있다. 링크를 클릭하면, [문제 1]의 데이터를 가지고 MS 엑셀을 사용해서  세 가지의 편차를 구해놓은 결과를 볼 수 있다.

여기서 전체 편차를 제곱하여 더하면 SST를 구할 수 있고, 그룹 간 편차를 제곱하여 더하면 SSC를, 그룹 내 편차를 제곱하여 더 하면 SSE를 구할 수 있다. MS 엑셀에서 함수 SUMSQ를 사용하면 쉽게 제곱 합을 구할 수 있다. 총 제곱합의 구하는 함수는 =SUMSQ(E2:G9)이다. 총 제곱합(SST)는 129.625, SSC(처리 제곱합)은 52.75, SSE(잔차 제곱합)은 76.875이다. 아래 그림에서 보듯이 이 편차제곱의 합들이 분산분석표의 두 번째 열을 구성한다. 이 그림은 엑셀이 제공하는 추가기능인 ‘데이터 분석’을 수행한 결과이다. 제곱합의 수치들이 정확히 일치함을 볼 수 있다.

처리제곱 평균(MSC)은 처리 제곱합을 그것의 자유도로 나누어 준 26.3757이고, 잔차제곱 평균(MSE)은 그것의 자유도 21로 나누어 준 3.660714이다(네 번째 열 참조). F 비(ratio)는 26.3757/3.660714 = 7.204878이다. 그것의 확률인 p-값은 함수 FDIST를 사용하면 구할 수 있다. p-값은 0.004145로 0.05보다 훨씬 작다. 이 결과를 가지고 우리는, 살충제의 살포방식이 옥수수 생산에 상당히 의미 있는 영향을 미친다고 결론을 내릴 수 있을 것이다. 즉, 농장 III에 적용한 방식이 가장 효과적이고, 농장 II에 적용한 방식이 가장 비효과적으로 판단한다. 실제 분산분석을 수행할 때 직접 평균, 편차, 제곱합 등을 구하는 경우는 없을 것이다. 통계 소프트웨어를 사용하면 순식간에 필요한 값들을 모두 얻을 수 있기 때문이다.

엑셀의 자체 추가기능인 데이터 분석에서도 일원 배치법 분산 분석을 적용하면 한꺼번에 모든 값을 얻을 수 있다. 다만 엑셀에서는 데이터 분석 기능을 모바일 버전에서는 사용할 수 없다는 함정이 있다. 때문에 자주 사용하는 함수들은 사용법을 익혀두면 편리할 것이다.

어떤 통계 도구도 그러하듯이 ANOVA도 적용하는데 갖춰야할 조건이 있다. ANOVA는 꼭 실험이라 아니라도 독립변수가 범주형이고, 종속변수(혹은 반응 변수)가 수치형이면 사용할 수 있다. 그리고 종속변수의 모집단이 정규분포를 따라야 한다. 다만 표본의 크기가 모두 같다면, 이 가정은 크게 중요하지 않다.

다음 두 문제를 직접 풀어보기 바란다.

[문제 2] 어떤 대학에서 학생들을 상대로 대학생들의 학습 능력을 연구한다고 하자. 연구자들은 그 대학에서 오래 공부할수록 학습 능력이 향상되는 지 알고 싶다. 그러기 위해 1학년, 2학년, 3학년에서 각각 8명씩 무작위 표본을 추출하여, 100점 만점의 학습 능력 테스트를 시행하였다. 다음 표는 그 결과이다. 이 데이터를 가지고 대학에서의 공부가 학생들의 학습 능력을 향상시킨다고 주장할 수 있을까?

 

[문제 3] Consumer Report는 미국 South Carolina 주 소재 풀 서비스 식당들의 식사 가격을 조사하였다. 세 가지 유형의 식당을 각 8곳씩 조사한 결과는 다음과 같다. 이 데이터를 가지고 세 가지 유형의 식당에서의 한 끼 식사 평균 가격이 다르다고 추정할 수 있을까?(Anderson, 2016: 542)

 

<참고 문헌>

Anderson, David R, et.. (류귀열/김창규/최승은/김민중/이성철 역). 2016. <앤더슨의 통계학(Essentials of Modern Business Statistics)>. 한올.

김은정. 2017. <사회조사분석사>. 학진북스.

두 평균의 비교(3): 등분산 가정 및 대응표본의 경우

등분산 가정의 경우

실제로 그런 경우는 아주 드물겠지만 비교하는 모집단의 분산(즉, 표준편차)이 같을 경우가 있을 것이다. 그런 경우는 아래와 같이 표시된다.

두 모집단의 평균 차이의 신뢰구간은 앞에서 공식 (7)을 가지고 추정되었다.

그런데, 만약 두 모집단의 분산이 동일하다면 공식 (7)이 아래처럼 단순화될 수 있다.

이를 간명하게 다시 쓰면,

그런데 현실에서는 모집단의 표준편차 가 알려져 있지 않으므로 추정치로 바뀌어야 한다. 그런데 그 추정치는 합동표본분산(pooled sample variance)이며 통상 로표시된다. 그러면 공식 (7-2)은 공식 (13)으로 바뀐다.

여기서는 를 어떻게 구하는가가 관건일 것이다. 아래 식처럼 합동표본분산은 각 표본의 편차제곱의 합을 더한 다음, 그값을 두 표본의 자유도 합계 로 나누어 구한다.

그리고 공식 (13)을 적용하려면 자유도를 구해야 한다. 자유도는 공식 (14)의 분모에 사용된 것과 동일하다.

가설검정에 필요한 검정통계량 t의 값은 다음과 같이 구할 수 있다. 식 (13)에서 표준오차는 아래와 같이 추정되었다.

그러면 t 검정통계량은 다음과 같다.

두 모집단의 표준편차가 동일하다는 가정이 충족되기는 매우 어렵다. 대부분의 경우 모집단의 표준편차가 다르기 때문이다. 그러나 두 모집단의 표준편차를 모를 경우, 공식 (7-1), (10-1), (11) 대신, 단순화된 공식 (13), (15), (17)을 사용해서 평균차이를 추정하거나 가설검정을 해도 무방할 것이다(Wonnacott & Wonnacott, 1985: 232). 어차피 두 모집단의 표준편차를 모르는데, 그 둘을 같다고 해도 가정해도 되지 않겠는가.

대응표본(paired sampes, matched smaples)의 경우

고등학교의 한 학급에서 중간고사 성적과 기말고사 성적을 비교한다고 하자. 그냥 학급 전체를 통으로 묶어서 중간고사 성적 평균과 기말고사 성적 평균을 비교할 수도 있겠지만, 학생 개인별로 중간고사 성적과 기말고사 성적을 비교한 결과를 종합하는 방법도 있을 것이다.

각 학생의 성적이 얼마나 변했는지를 보려면, 중간 성적과 기말 성적의 차이를 구하면 될 것이다.

모든 학생의 성적 차이(변동)를 구하면 그 차이 데이터는 하나의 표본으로 간주될 수 있다. 그렇다면 그것은 하나의 표본 평균으로 하나의 모집단 평균을 추정하는 경우와 동일할 것이다. 즉, 먼저 (성적 차이)의 평균인 를 구한다. 이 표본평균을 가지고 모집단 평균(라고하자)에 대한 구간추정을 할 수 있다.

가설검정을 위해서는 검정통계량 t의 값을 구해야 한다. 대응표본의 검정통계량 는,

그리고 대응표본의 자유도는 이다.

대응표본 설계는 독립표본 설계에 비해 이점이 많다. 왜냐하면 짝지음(pairing)은 다른 외생변수(extraneous variables)를 통제할 수 있는 대응(match)이기 때문이다.

(예제 1) 어떤 고등학교의 한 학급의 기말 성적과 중간 성적의 차이를 추정하고자 한다(95% 신뢰수준). A, B, C, D라는 학생의 성적이 있다.

학생 이름중간고사 성적기말고사 성적
A6454
B6654
C8970
D7762

먼저 데이터로부터 를 계산할 수 있다(아래 엑셀 결과 그림 참조). 자유도 3일 때 오른쪽 검정 0.025의 t-값은 3.18이다. 이 값들을 공식 (18)에 대입하면,

그 학급은, 중간 성적 평균이 기말 성적 평균보다 최저 8점, 최대 20점이 더 높거나, 아니면 그 사이 어느 점수이다.

연구자가 중간 성적 평균과 기말 성적 평균이 다른지를 알고 싶다면, 그것을 대립가설()로 놓고, 영가설은 그 반대인 중간 성적 평균과 기말 성적 평균이 같다()로 놓아 가설검정을 수행할 수 있을 것이다. 검정통계량 t를 구하기 위해 공식 (19)를 사용하면,

자유도 3인 t-분포에서 t-값 7.14의 양측검정 p-값은 0.006이다. 이 값이 유의수준 0.05보다 작으니 영가설이 기각된다. 따라서 그 학급의 중간 성적 평균과 기말 성적 평균은 다르다고 추정된다.

대응표본 가설 검정은 엑셀의 데이터 분석에서 ‘쌍체비교’ t-검정을 이용하여 수행될 수 있다. 아래는 그 결과이다. 공식 (19)를 이용해서 수작업으로 구한 t-값과 엑셀로 구한 t-값이 일치함을 볼 수 있다.

 

(예제 2) 어느 공장의 노동자들이 생산할 때 생산 방법 1과 생산 방법 2라는 두 가지 방법을 사용한다고 하자. 생산 방법 1로 생산한 제품의 모집단 평균 생산 시간을 이라 하고, 생산 방법 2로 생산한 제품의 모집단 평균 생산 시간을 라고 하자. 이중어느 생산 방법이 더 빠른가에 대해 알려진 것이 없으므로 두 방법의 모집단 평균 시간은 같다고 하자.그렇다면영가설은 이된다. 이 가설을 기각한다면 모집단의 평균 생산 시간은 다르다(대립가설)고 결론 낼 수 있을 것이다. 영가설과 대립가설은 다음과 같다. 신뢰수준 95%에서 가설을 검정하시오.

노동자생산방법 1의 생산시간(단위:분)생산방법 2의 생산시간(단위:분)
16.05.4
25.05.2
37.06.5
46.25.9
56.06.0
66.45.8

데이터로부터 를 얻었다. 이 값들을 공식 (19)에 대입하면,

자유도 5인 t-분포에서 t-값 2.19의 양측검정을 위한 p-값은 0.08이다. 이 값이 0.05보다 크므로 영가설을 기각할 수 없다. 따라서 두 생산방식의 평균 생산시간은 다르지 않다고 결론지을 수 있다. 엑셀의 데이터분석 중 ‘쌍체비교 t-검정’이용해도 동일한 검정통계량 t-값과 양측검정을 위한 p-값을 얻을 수 있다(아래 그림 참조).

두 모집단의 평균 차이에 대한 구간추정은 공식 (18)을 이용하여 다음과 같이 수행할 수 있다.

오차범위가 0.35이며, 두 생산방법의 모집단 평균 차이에 대한 95% 신뢰구간은 -0.05분부터 0.65분까지이다.

마지막으로 구간추정과 가설검정에 필요한 표본의 크기에 대해 한 마디 덧붙인다. 모집단의 표준편차를 알고 있는 경우에 z-분포를 적용했는데, 그 때에는 각 표본의 크기는 30 이상이 바람직하다. 표본 둘 중 하나 혹은 둘 다 30 미만이면 모집단의 분포가 정규분포에 근사한다는 가정이 필요하다.

모집단의 표준편차를 몰라서 t-분포를 적용할 때는, 비교적 작은 표본으로도 가능하다. 두 표본수의 합이 20 이상이면 비록 모집단이 정규분포를 따르지 않아도 좋은 결과를 기대할 수 있다. 단, 모집단이 심하게 편포되어 있으면 표본이 좀 커야 하며, 표본이 작다면 모집단이 정규분포에 근사하다는 조건이 충족되어야 할 것이다.

이상으로 두 모집단의 평균비교를 학습했다. 그것이 단일 모집단의 평균을 추정하는 논리와 다르지 않음을 느꼈으리라 생각한다. 비록 모집단이 두 개가 되니 여러가지 상황이나 계산이 다소 복잡해지기는 했지만 말이다. (2019-10-20)

두 평균의 비교(2): 두 표준편차를 모르는 경우

앞 포스팅에서 공식 (7)은 두 모집단의 표준편차를 알고 있을 신뢰구간을 추정한다.

두 모집단의 표준편차인 를 모를 때는 표본의 표준편차인 를 이용하여추정하고, 대신 를 사용한다. 그러면 두 모집단의 표준편차를 모를 때 두 모집단의 평균차이에 대한 구간추정은 아래식과 같을 것이다.

또한 앞 포스팅에서 공식 (10)은 두 모집단의 표준편차를 알고 있을 때 가설검정을 위한 식이다.

두 모집단의 표준편차를 모를 때는 식이 아래와 같이  바뀐다.

문제는 t-분포를 사용하려면 자유도를 알아야 하는 데 자유도를 계산하는 식이 아래처럼 복잡하다.

자유도 구하는 공식이 상당히 복잡하지만 염려할 필요는 없다. 그 공식을 사용해서 직접 구하는 경우는 거의 없을 것이니. 통계 소프트웨어가 적절한 자유도를 자동으로 계산해 줄 것이다. 공식 (7-1), (10-1), (11)을 사용하면 두 모집단의 표준편차를 모를 때 모평균 차이에 대한 신뢰구간을 구하거나 가설 검정을 수행할 수 있다. 예제를 가지고 공식을 적용해 보자.

(예제) 두 개의 큰 학급이 영어 시험을 치뤘다. 한 학급(학급 1)에서 뽑은 네 명의 성적은 64, 66, 89, 77이고, 다른 학급(학급 2)에서 뽑은 세 명의 성적은 56, 71, 53이었다. 두 학급의 성적 차이에 대한 95% 신뢰구간을 구하시오.

(해제) 학급 1의 표본평균()은 74.0점이고, 학급 2의 표본평균()은 60점이다. 공식 (7-1)을 적용한다.

다음에는 공식 (11)을 이용해서 자유도를 구해서 를 계산하자.

자유도가 5일 때 이다. 이 값을 식 (12)에 대입하면,

이 결과를 말로 표현하면, 학급 1의 평균은 학급 2의 평균보다 7이 작거나, 35가 크다. 혹은 그 사이 어딘가이다.  이 경우 표본들이 아주 작아서 표집오차가 크게 허용됨을 알 수 있다.

이번에는 가설 검정을 해보자. 두 모집단의 평균이 다르다는 연구 가설을 검증해 보자. 이 연구 가설은 대립가설이 되고, 이와 반대되는 명제인 두 모집단의 평균이 같다는 영가설이 될 것이다. 이 가설들은 아래와 같이 표기된다. 신뢰수준은 95%이다.

그러면, 위 공식 (10-1)을 적용할 수 있다.

자유도 5일 때 t-값이 1.75이면, 오른쪽 단측검정의  p-값은 0.07이다. 양측검정이니 이 값을 두 배하면, 0.14이다. 이는 유의수준 0.05보다 크다. 따라서 영가설을 기각할 수 없으며, 두 모집단의 평균이 다르다고 판단된다. 즉, 학급 1과 학급 2의 성적은 다르다고 추정된다.

평균비교는 MS 엑셀의 ‘데이터 분석’이라는 애드인(MS 자체 제공)을 이용하여 손쉽게 수행할 수 있다. ‘데이터 분석’의 하위 메뉴를 보면, t-검정과 z-검정이 있다. t-검정에는 ‘쌍체비교’, ‘등분산 가정 두 집단’, ‘이분산 가정 두 집단’이 있다. 이 예제는 ‘이분산 가정 두 집단’의 t-검정에 해당된다.

입력 창이 나타나면, 두 변수의 입력 범위를 넣고, ‘가설 평균차’에 0, ‘유의수준’에 0.05을 넣으면 된다. 그런 다음 확인을 누르면 바로 아래와 같은 결과를 얻을 것이다.

위 표를 보면, 자유도는 5, t-값은 1.75, 양측 검정 p-값은 0.14이다.

다음 포스팅에서는 등분산 가정 두 집단과 쌍체 비교 t-검정을 해보자. (2019-10-19)

두 모평균의 비교(1): 두 표준편차를 알고 있는 경우

현실에서 우리는 자주 두 모집단을 비교한다. 예컨대 우리는 두 반이나 두 학교의 모의고사  성적을 비교한다. 그럴 때 우리는 두 모집단의 성적 평균을 산출하여 비교하거나 두 모집단에서 표본을 추출하여 표본평균을 구하고 그것을 비교하여 모집단 성적 평균을 추정 한다.

두 모집단의 평균 비교는 앞에서 설명한 한 모평균의 구간 추정과 가설 검정의 첫 번째 확장이라고 볼 수 있다. 그렇다면, 두 모집단의 평균 비교에서, 1) 영가설에서 도출된 모수는 무엇인지, 2) 그 모수의 확률분포는 어떤 모습인지, 만약 그것이 t-분포를 이룬다면 자유도는 어떻게 구할 것인지, 3) 모표준편차를 모를 경우 표준오차를 어떻게 추정할 것인지, 4) 검정통계치를 어떻게 계산할 것인지, 5) 신뢰구간이나 가설 검정에 대한 최종 판단은 어떻게 할 것인지를 차근차근 알아보면 될 것이다.

다만 모집단이 두 개이기 때문에 발생하는 변이가 있다. 두 모집단의 평균을 비교할 때 대개의 경우 두 모집단은 서로 별개(독립적)로 존재한다. 그런데 두 모집단이 특별한 관계를 갖고 있는 경우도 있다. 모집단의 구성원은 동일한 데 그 구성원들이 두 가지 다른 행동이나 과업을 수행하여 마치 두 개의 모집단처럼 간주되는 경우가 바로 그것이다. 이 경우 표준오차를 어떻게 처리할 것인지에 대한 설명이 추가로 필요하다.

상호 독립적인 두 개의 모집단의 평균 비교: 두 모집단의 표준편차()를 알고 있는 경우

두 모집단의 평균은 통상 아래와 같이 그 차이를 가지고 비교될 수 있다.

이 차이가 추정되는 모집단 목표이다. 그것에 대한 합리적인 추정값은 아래 식에 표시된 것처럼각 모집단으로 부터 추출된 표본으로부터 구한 평균의 차이가 될 것이다.

우리가 알고 있는 단일 모평균의 신뢰구간을 구하는 공식을 응용하면 식 (2)를 가지고 식(1)의 신뢰구간을 아래와 같이 추정할 수 있다.  우리가 알고 있는 단일 모평균의 신뢰구간을 구하는 공식은 아래와 같다.

공식 (3)에서 은 표준오차(평균의 확률분포의 표준편차)이다. 공식 (3)을 이용해서 식 (2)로부터 식(1)을 추정하는 공식은 다음과 같이 쓸 수 있을 것이다.

표준오차가 에서 로 바뀌었다.두 모집단의 평균 비교를 위한 표준오차는 다음과 같이 구해진다.

는, 두 모집단이 독립적이라고 가정되었음으로  당연히 두 표본은 서로 독립적이고, 따라서 독립적인 두 확률변수의 선형결합이다. 따라서 그것의 분산(variance)은 아래와 같이 계산된다.

두 평균 차이의 분산은 각 평균 분산을 합한 값이다. 그런데 이므로  식 (5)는 아래와 같이 표시된다.

따라서,

즉, 평균 차이의 표준오차는 두 모집단 분산의 합을 양의 제곱근한 값이다.  이제 식 (6)을 공식 (4)에 대입하면 두 모집단 평균 차이에 대한 신뢰구간 공식이 구해진다.

두 모집단이 정규분포이거나 중심극한정리를 적용할 수 있을 만큼 표본의 크기ㅏ가 커서 의 표집분포가 정규근사 한다면 의 표집분포는 평균이 인 정규분포가 될 것이다.

공식을 구했으니, 예제를 풀어보자.

(예제) 홈스타일(HomeStyle)은 도심과 교외 쇼핑센터의 두 매장에서 가구를 판매하고 있다. 매장 관리자는 이 두 매장의 판매 패턴 차이가 두 지역의 인구통계학적 차이에 기인한다고 생각하였다. 그래서 두 매창 고객들의 평균 나이 차이에 대해 조사하라고 지시하였다. 이전에 실시한 인구통계조사를 통하여 두 모집단 표준편차가 임을 알고 있다. 도심 매장에서 추출한 표본의 크기는 36이고 평균은 40이며, 교외 매장에서 추출한 표본의 크기는 49이고 평균은 35이다. 두 매장의 쇼핑객 평균 나이의 차이에 대한 95% 신뢰구간을 구하시오.

(풀이) 모집단 1은 도심 매장 쇼핑객, 모집단 2는 교외 쇼핑객 이라고 하자.

= 모집단 1의 평균(도심 매장 쇼핑객의 평균 나이)

= 모집단 2의 평균(교외 매장 쇼핑객의 평균 나이)

이 데이터를 공식 (7)에 대입하면,

이므로 식 (8)은 아래와 같이 정리된다.

표본평균 차이는 5이고, 표준오차는 2.07이고,  오차범위가 4.06이다. 따라서 두 모집단 평균차이의 95% 신뢰구간 추정값은 0.94(살)에서 9.06(살)까지이다.

두 모집단 평균차이에 대한 가설검정을 알아보자. 단일 모평균에 대한 가설을 검정할 때, 표본평균에서 영가설로부터 도출된 모평균을 뺀 값이 표준오차의 몇 배인가를 보여주는 표본통계치 z나 t값을 구해서(식 (9) 참조) 그것의 p-값을 구하고, p-값과 유의수준을 비교하여 영가설에 대해 판단하였다.

두 모집단의 평균차이의 경우 가설검정은 신뢰구간 추정보다 다소 복잡하다. 우선 설명을 간명하게 하기 위해 라고하자. 그렇다면 세 가지 경우가 나올 것이다. 먼저 두 모집단의 평균이 같다는 영가설과 두모집단의 평균이 다르다는 대립가설을 설정할 수 있다. 양측 검정의 경우가 될 것이다.영가설이 기각되면 두 모집단의 평균 차이가 통계적으로 유의미하다고 판단된다.

다음에는 모집단 1의 평균이 모집단 2의 평균보다 같거나 크다는 영가설을 설정할 수 있다. 그러면 대립가설은 모집단 1의 평균이 모집단2의 평균보다 작다가 될 것이다.

끝으로 모집단 1의 평균이 모집단 2의평균보다 같거나 작다는 영가설을 설정할 수 있다. 그러면 대립가설은 모집단 1의 평균이 모집단 2의 평균보다 크다가 될 것이다.

위의 식 (9)를 원용하여  에 대한 가설검정에서의 검정통계치를 계산하는 공식이 아래와 같이 도출된다(두 모집단의 표준편차가 알려져 있는 경우).

표본통계치 값을 구하면 p-값이 산출된다.

위의 홈스타일 가구의 두 매장 사례를 가지고 가설 추정을 해보자. 만약 두 매장의 쇼핑객 평균 나이에 차이가 있는지를 알아본다면, “두 매장 쇼핑객 평균 나이가 다르다”를 대립가설로 두고, “두 매장 쇼핑객 평균 나이가 같다”를 영가설로 두는 양측 검정이 될 것이다.

우리가 가진 정보는 아래와 같다.

이 정보를 공식 (10)에 대입하여 표본통계치를 구한다.

z-값이 양수이므로 오른쪽 단측검정을 하면, p-값 = 0.008이다. 양측검정을 위해 이를 두 배하면 0.016이다. 이 값은 유의수준 0.05(95% 신뢰수준)보다 작다. 따라서 두 모집단의 평균이 같다는 영가설은 기각되고, 두 매장 쇼핑객의 평균 나이가 다르다고 결론을 내릴 수 있다. (2019-10-19)

가설검정의 원리(요약)

조사연구자는 어떤 모집단의 구조나 특성 혹은 트렌드에 관심을 갖는다. 그것을 전문가들은 흔히 모수(퍼라미터, parameter)라고 부른다. 모수를 추정하거나 모수에 대한 가설을 검정하는 작업은 모두, 한 마디로 모수를 알아내려는 노력이다. 모수를 파악한다는 것은, 사회과학자들에게는 사회조직과 사회 전체를 이해하는 것을 의미하며, 자연과학자들에게는 자연과 우주를 이해하는 것을 의미한다. 모수 추정과 가설 검정은 그만큼 커다란 무게를 지닌다.

가설(hypothesis)이란, 조사연구자가 연구 대상 모집단에 대해 갖고 있는 인식–그것은 이론일수도 있고, 선입견일 수도 있으며, 막연한 추측일 수도 있다–을 압축적으로 표현한 명제이다. 가설이 진실(truth) 혹은 현실(reality)로 인정받기 위해서는 반드시 경험적 데이터(혹은 사실들, facts)에 의해 검증되어야 한다. 그것이 실증과학의 입장이다.

특히 신실증주의 과학관에 의하면 어떤 연구 가설이나 이론도 경험적 데이터에 의해 직접 증명될 수 없다. 경험적 데이터는 오직 우회적인 방법에 의해서만 가설에 대해 발언할 수 있을 뿐이다. 우회적 방법이란, 연구 가설(그것을 대립가설, alterative hypothesis 로 둔다)에 반대되는 영가설(null hypothesis), 을 설정하고, 그 다음 경험적 데이터를 가지고 그 영가설을 검증하여 연구가설(대립 가설)을 에 대한 판단을 내리는 방식을 말한다.

관련 이미지

대부분의 경우 조사연구자는 모집단 전체를 조사할 수 없다. 거기에 들어가는 막대한 비용이나 시간을 감당하기 어렵기 때문이다. 그래서 소규모의 표본을 추출하여 설문조사를 하거나 실험을 시행하여 경험적인 데이터를 수집한다.

표본 데이터가 수집되면, 표본통계치를 구하여 영가설을 검증한다. 모평균에 대한 가설을 검증하는 경우를 살펴보면, 표본평균()을 구하고, 그 표본통계치가 (표본평균의) 표집분포의 중심으로부터 얼마나 멀리 떨어져 있는지를 계산한다. 그리고 그 거리()가 표준오차()의 몇 배인가를 계산한다. 그것이 표본통계치 z-값이다. 표집분포의 중심은 영가설로부터 추정된 이며, 표준오차는, 모집단의 표준편차()를 알고 있는 경우 공식  을 사용하여 구할 수 있다. z-값은 아래 공식으로 구해진다.

z-값을 구하면, 통계 소프트웨어를 이용하여 손쉽게 p-값을 구할 수 있다. p-값은 영가설이 참일 때 그것을 기각할 확률(제1종 오류)이다. 다시 말하면, 그것은 영가설이 참일 때, 표본조사를 통해서 우리 손에 들어온 표본통계치를 얻을 확률이다.

조사연구자는 미리 자신이 어느 정도의 확신을 갖고 영가설에 대한 판단을 내릴 것인지를 결정해 둔다. 즉, 분석을 시작하기 전에 신뢰수준을 결정해 둔다. 통상 95% 신뢰수준을 선택한다. 그러면 신뢰계수가 0.95이고, 유의수준()은 0.05이다. 유의수준은 영가설에 대한 판단을 내릴 때 조사연구자가 통제하는 제1종 오류이다. 즉, 표본통계치의 제1종 오류(p-값)가 그 기준을 넘지 않으면 영가설을 기각한다. 영가설이 참일 가능성이 작기 때문이다. 이를 간략히 표현하면,

1) 유의수준() 설정(통상 0.05)

2) p-값 계산: 아래 순서로 구한다.

3) 수준과 -값을 비교하여 영가설에 대해 판단한다.

p-value and hypothesis testing에 대한 이미지 검색결과

위의 두 번째 단계에서 모분산(모표준편차 )을 모르면 -분포를 사용해야 하기 때문에 -값을 구한다. 양측검정을 해야 하는 경우에는 -값의 단측검정에 해당되는 p-값을 구하고 그것을 2배한다.

위의 세 번째 단계에서 p-값 < 수준이면, 영가설을 기각하고, 반대로 p-값 > 수준이면, 영가설 기각에 실패한다.

이상으로 가설검정과 p-값에 대한 설명을 마친다. 편의상 모평균의 검정만을 다루었지만 이 논리는 모든 모수의 통계적 유의성(statistical significance) 검정에 적용된다. 즉, 모비율의 유의성 검정, 분산분석, 상관계수의 유의성 검정, 회귀계수의 유의성 검정, 카이자승() 검정 등 어떤 유의성 검정에서도, 유의수준을 설정하고,  p-값을 계산한 다음, 유의수준과 p-값을 비교하여 통계적 유의성을 판단한다. p-값을 구하는 과정이 다를 뿐이다.

한 마디로, 유의수준과 p-값의 비교는, 표본조사에서 발견된 차이가 단순히 표집으로 인해 우연히 발생한 것인지 아니면 정말로 모집단에 존재하는 차이 때문인지를 보여준다. 그것이 모든 가설 검정과 (통계적) 유의성 검정을 관통하는 핵심적 원리이다. (2019-10-17)

제1종오류, 임계값 방식: 가설검정의 원리(보론)

추리통계에서 p-값의 중요성은 아무리 강조해도 지나치지 않다. 앞 포스팅에서 p-값(p-value)이란 영가설()이 참일 때 표본통계치() 혹은 그 이상의 값을 얻을 확률이라고 설명했다. 또한 p-값은 영가설이 참일 때 그것을 기각할 확률이라고도 하고, 짧게는 영가설이 참일 확률이라고도 말한다.

앞 포스팅에서 필자는 통계학에서 우리는 영가설()에 대한 검정을 통해서 우리의 주장(대립가설)을 우회적으로 검증한다고 지적했다. 그런데 데이터를 가지고 영가설을 검정할 때 우리는 항상 오류를 범할 가능성을 안고 있다. 아래 표에서처럼 영가설()이 참인데 기각으로 결론을 낼 수 있고, 영가설이 거짓인데 채택으로 결론을 낼 수도 있다.

영가설이 참임에도 그것을 기각하는 오류를 제1종 오류라고 부르며, 영가설이 거짓임에도 그것을 채택하는 오류를 제2종 오류라고 부른다.

영가설이 참일 때 제1종 오류를 범할 확률을 유의수준(significance level)이라고 한다. 유의수준은 그리스 문자 로 표시한다. 유의수준은 연구자가 임의로 설정한다. 연구자는 유의수준의 설정으로 제1종 오류를 범할 확률을 통제한다.

연구자는 신뢰수준(confidence level)을 선택하는데, 사실 그것이 오류의 허용 수준을 함축하고 있다. 통상 Ronald Fisher의 예를 따라서 95% 신뢰수준, 즉, 스무번에 한번 정도의 추정 오류를 허용하면서 판단을 내리고자 한다. 신뢰수준이 95%이면 신뢰계수(confidence coefficient)가 0.95이며, 유의수준은 가 된다. 사안에 따라서는 90% 신뢰수준이나 99% 신뢰수준이 설정되기도 한다. 신뢰수준이 90%이면 유의수준이 0.10이고, 신뢰수준이 99%이면 유의수준은 0.01이다.

p-값은 하나의 표본에서 계산된 통계치(예컨대 )를 가지고 영가설을 검증할 때  연구자가 안게 되는 제1종 오류의 크기를 의미한다. 만약 이 오류의 크기(혹은 수준)–영가설이 참일 때 기각할 가능성–가 연구자가 선택한 유의수준보다 작으면 영가설을 기각한다. 다시 말해 유의수준과 p-값은 모두 제1종오류를 가리킨다. 유의수준()은 영가설에 대한 판단을 위해 연구자가 선택한 제1종오류의 수준이고, p-값은 표본통계치로부터 추정된 제1종오류의 크기이다. 가설검정에서는 그 두 가지를 비교하여 영가설에 대한 판단을 내리고 결국 그 과정을 통해서 연구자가 증명하려는 대립가설에 대한 판단을 내리게 되는 것이다.

지난 주에 발뒷꿈치의 통증이 한 달 이상 낫지 않아 류마티스 전문 내과에 다녀왔다. 그 전에 통증의학과와 다른 내과에 갔는데, 통증이 재발했기 때문이다. 병원을 다녀와 염증치료제와 진통제를 2주 이상 복용했는데, 틍증이 가라 앉는 듯하다가 처음과 같은 수준으로 재발하자 나는 통풍 때문인 것으로 확신했다. 일반 염증이라면 그런 방식으로 재발될 리가 없었다. 마음 속에서 99% 정도로 확신했다. 내 판단이 틀릴 가능성을 1% 미만으로 본 것이었다.

그런데 류마티스 전문의가 내게 말했다. 발뒷꿈치가 아플 때 그 환자에게 통풍이 있는 경우 열에 아홉은 통풍 때문이라는 것이었다. “열에 아홉”이란 자신의 판단에 10% 오류(통풍으로 인한 것이 아닐 가능성)를 허용하는 것이다. 나는 “백에 아흔아홉”정도의 확신이 있었다. 피검사와 x-레이 검사를 받았고 통풍인 것으로 진단되었다. 나로서는 전혀 놀라운 결과가 아니었다.

두 명의 의사는 오진을 했다. 진료 중 내가 통풍 증세가 있음을 고지했음에도 그들은 환자인 내 말을 무시했다. 마지막 의사는 내 말을 존중했지만 제1종 오류를 너무 크게 두었다. 그런데도 그는 엄청나게 확신을 갖고 나를 대했다.

유의수준이란 뭐 그런 것이다. 어느 정도 확신을 갖고 판단할 것인지, 다른 말로 하면 오류의 가능성을 얼마나 허용하면서 판단할 것인지를 선택하는 것이다. 제1종 오류만 통제하여 실시하는 가설 검정을 유의성 검정(significance tests)이라고 한다. 대부분의 가설 검정이 유의성 검정이다.

대부분의 가설 검정에서 제1종 오류만 통제하고 제2종 오류를 범할 확률은 통제하지 않는다. 영가설이 거짓임에도 채택할 확률이 제2종 오류이다. 제1종 오류와 제2종 오류 사이에는 trade-off관계가 있다. 제1종 오류를 줄이다보면 제2종 오류의 가능성이 커진다는 의미이다. 그러나 통상 제2종 오류는 명시적으로 통제하지 않는다. 다만 제2종 오류를 범할 위험성을 피하기 위해 통계학자들은 ‘채택’과 같은 직접적인 표현을 사용하지 않고 “기각할 수 없다”다고 표현한다. 가설 검정에서는 “영가설을 기각한다” 와 “영가설을 기각에 실패하다(혹은 기각할 수 없다)”는 두 가지 결론만을 사용한다.

표본통계치(예컨대 )로부터 z-값이나 t-값을 구하면, 오른쪽 단측검정에서는 그것보다 클 확률(p-값), 왼쪽 단측검정에서는 그것보다 작을 확률(p-값)을 구하여, 그것이, 선택한 유의수준보다 작으면 영가설을 기각한다. 제1종 오류, 즉, 영가설이 참인데 기각할 확률이 너무 작기 때문이다. p-값을 영가설이 참일 확률로 이해하면, 완전히 정확한 표현은 아니지만 기억하기 편리하다.

one-tailed test에 대한 이미지 검색결과관련 이미지

유의수준의 z-값(혹은 t-값)을 임계값(critical value)이라고 한다. 예컨대 모집단의 표준편차 를 알고 있을 때, 유의수준이 0.05이면, 임계값(z-값)은 오른쪽 단측검정에서는 1.645, 왼쪽 단측검정에서는 -1.645이며, 유의수준이 0.01이면, 임계값은 오른쪽 단측검정에서 2.33, 왼쪽 단측검정에서 -2.33이다. 오른쪽 단측검정에서는 1.645보다 큰 영역을 기각역(rejection region)이라고 하고, 왼쪽 단측검정에서는 -1.645보다 작은 영역이 기각역이 된다(위 그림 참조). 즉, z-값(혹은 t-값)이 그 영역에 속하면 영가설이 기각된다. 영가설이 참일 때 그러한 z-값(혹은 t-값)얻을 가능성이 희박한 것이니, 영가설이 참일 가능성이 매우 낮은 것이다(아래 그림 참조).

관련 이미지

물론 앞에서 보았듯이 임계값 방식 대신 p-값 방식을 사용해도 된다. 그러면 아래 그림처럼 표시될 수 있을 것이다. 앞 포스팅들에서 충분히 소개했으므로 추가 설명은 생략한다.

rejection region에 대한 이미지 검색결과

 

양측검정의 경우 임계값 방식에서는 유의수준 0.05일 때 임계값은 1.96, 유의수준 0.01일 때 임계값은 2.58이다. 따라서 표본통계치가 그 임계값보다 작으면 영가설을 기각하고,  크면 영가설 기각에 실패한다(아래 그림 참조).

two-tailed test에 대한 이미지 검색결과

임계값 방식의 경우 단측검증과 양측검증을 함께 놓고 보면 아래 그림과 같다.

two-tailed test에 대한 이미지 검색결과

 

p-값 방식을 사용하면, 단측검정의 p-값을 2배하여 유의수준()과 비교하여 영가설에 대한 판단을 내린다(아래 그림 참조).

관련 이미지

 

임계값 방식을 취하던 p-값 방식을 취하던 상관 없다. 다만 오늘날은 p-값 방식을 더 많이 사용하는 추세이다. 이상으로 가설 검정에 대한 논의를 모두 마친다. (2019-10-12)