표와 그래프(1): 통계학에서 ‘세상’을 보는 두 가지 방식

‘세상’은 관계로 구성된다. 인간 세상은 개인들, 집단들, 국가들 사이의 관계로 이루어져 있고, 자연계도 온갖 존재들 혹은 현상들 사이의 관계로 이루어져 있다.

과학은 그 관계에 내재하는 법칙이나 원리(그냥 간단히 법칙이라고 하자)를 밝힌다. 사회과학은 인간계를 연구하고, 자연과학은 자연계를 연구하지만 관계의 법칙을 탐구한다는 점에서 서로 다르지 않다.

그런데 현실에 존재하는 객체들 사이의 관계를 하나 하나 들여다 보아서는 아무리 오랜 시간 연구를 한다고 해도 법칙을 드러내기는 거의 불가능하다. 관계의 법칙은 개별적인 객체들 사이의 관계를 관통하는, 즉, 그 관계들 모두 혹은 대부분에 해당되는 것이기 때문이다. 자연인 A와 B, 기업체 가와 나, 인간 A와 늑대 등 같이 특수한 개체들 사이의 관계는 반드시 오만 가지의 법칙에다 우연적 요소까지 함께 작동하여 나타난다.

과학자들은 개체(entities) 대신 변수(variables)를 가지고 세상을 인식한다. 변수는 개체들이 지닌 속성(properties)이다. 다시 말해 개체들의 관계를 직접 보는 대신 개체들을 구성하는 속성들의 관계를 파악해서 개체들의 관계를 이해하려고 한다.

예컨대 사회과학자들은 인간을 구성하고 있는 성별, 나이, 학력, 인종, 종교, 출신지, 질병, 성향, 직업, 소득, 재산 등이라는 속성들, 즉, 변수들 사이의 관계에 주목한다. 그리고 그들은 그 변수들 사이의 관계에 존재하는 법칙적 현상을 밝히고자 한다. 그렇게 함으로써 궁극적으로 사람들 사이의 관계를 해명할 수 있으리라 기대한다.

통계학은 변수들 사이의 관계를 표(table) 혹은 그래프(graph)로 표시한다. 초등 수학 때부터 배운 표와 그래프가 바로 그것이다. 초등학교에서는 한 변수를 표나 그래프로 나타내는 방법을 배웠을 것이고, 중고등학교 혹은 대학에서는 두 변수 혹은 그 이상의 변수들의 관계를 표나 그래프로 나타내는 방법을 배웠을 것이다.

표는 칸(cell)으로 구성된다. 각 칸에는 변수의 범주들에 속하는 사례들의 숫자가 기재된다.

예컨대 어떤 중학교의 학생들이 총 300명인데, 그 중 남학생이 170명이고, 여학생이 130명이라고 하자. 그 학교 학생들을 성별이라는 변수로 표시한다면, 아래와 같은 표를 만들 수 있을 것이다.

성별빈도
남학생170
여학생130
합계300

이 표는 이 중학교에는 여학생보다 남학생의 수가 많음을 보여준다.

남학생과 여학생이 방과 후 활동 중 체육을 선택한 비율을 비교한다면, 그것은 성별방과 후 체육활동 참여라는 두 변수의 관계를 보는 것이 된다. 두 변수 이상의 관계를 나타내는 표는 교차표(cross-table)라고 한다. 만약 위 중학교에서 방과 후 체육활동에 130명의 남학생과 30명의 여학생이 참여한다면 다음과 같은 교차표가 만들어진다.

 방과 후 체육활동 참여합계
성별참여비참여
남학생130(76.47)40(23.53)170(56.67)
여학생30(23.08)100(76.92)130(43.33)
합계160(53.33)140(46.67)300(100.00)

행비율을 계산해 보면, 방과 후 체육활동에 전체 학생 중에는 53.33%가 참여하고 있는데, 남학생 중에는 76.47%가, 여학생 중에는 23.08%가 참여하고 있는 것으로 나타났다. 여학생보다 남학생이 훨씬 높은 비율로 방과 후 체육활동에 참여하고 있는 것이다. 이 학교에서는 방과 후 체육활동이 성별에 따라 다름을 알 수 있다. 통계학적으로 표현하면, 이 학교에서는 방과 후 체육활동 (참여)라는 변수가 성별이라는 변수에 의존적이다, 방과 후 체육활동이라는 변수와 성별이라는 변수가 서로 관계를 갖고 있다 혹은 방과 후 체육활동과 성별은 상호독립적이 아니다가 된다.

만약 연구자의 관심이 이 학교를 넘어서 우리나라 전체 중학교라는 모집단에 있다고 한다면, 이 교차표는 표본 데이터가 되고, 그 표본 데이터를 가지고 모집단의 관계(모수)를 추정하거나 “우리나라의 (전체) 중학교에서 방과 후 체육활동 참여 여부는 성별에 의해 영향을 받는다’ 혹은 “우리나라 중학교에서 방과 후 체육활동에는 남학생이 여학생보다 월등하게 높은 비율로 참여하고 있다”라는 가설을 검증할 수도 있다.

표 혹은 교차표에서 모수 추정이나 가설 검정은 이론으로부터 각 칸의 빈도를 예측(추정)하고, 그 예측값과 실제 관찰값을 비교하는 방식으로 수행될 수 있다. 카이자승을 이용한 독립성 검정이나 로그 선형 모형(Log-linear model)이 그러한 방식을 구체적으로 수행 가능하게 해주는 통계 기법이다. 표 접근법을 선호하는 학자들(교차표 학파라고 부르자)은 교차표의 각 칸에 들어갈 빈도를 예측하는 데 관심이 있다. 교차표 학파의 학자들은 만약 간단한 이론으로 각 칸의 관찰값과 거의 유사한 예측값을 얻을 수 있다면 그것은 멋진 이론이라고 생각한다.

원래 표(혹은 교차표)는 변수들이 명목 수준(nominal level)이거나 순서 수준(ordinal level), 즉, 범주적 변수(categorical variable)일 때 사용된다. 반면에 그래프는 변수들이 구간 수준(interval level)이나 비율 수준(ratio level), 즉, 수치적 변수(numerical variable)일 때 사용되도록 개발되었다.

그러나 현실에서 표와 그래프는 단순한 도구의 차이를 넘어서 세상에 대한 서로 다른 접근법이 되었다. 표를 좋아하는 학자들은 표를 가지고 세상(즉, 변수들의 관계)을 분석하려 들고,  그래프를 좋아하는 학자들은 그래프를 가지고 세상을 분석하려 든다. 그들은 변수의 측정 수준에 따른 구분을 별로 존중하지 않는다. 특히 양쪽의 방법이 발전하면서 그러한 구분 허물기가 더욱 심해졌다.

자신들의 방법을 적용하기 위해 교차표 학파의 학자들은 수치적 변수를 범주적 변수로 변환하고, 그래프 학파의 학자들은 범주적 변수를 수치적 변수로 변환한다. 그들은 그 과정에서 데이터의 정보를 잃거나 데이터를 왜곡할 수도 있지만 그렇게 함으로써 얻어지는 효과가 그 상실을 보상하고도 남는다고 생각한다.

학자들의 고집은 못말린다. 그들은 자신들의 생각을 구현할 능력이 있기(혹은 그렇다고 착각하고 있기) 때문에 학문의 영역에 양보란 없다. 거기에는 오직 승리와 패배만 있을 뿐이다. 다음 글에서는 그래프 학파에 대해서 살펴보자. (2019-11-23)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.