사회통계(7): 통계학 교육의 전복이 요구된다

대학에서 사회통계 혹은 통계학을 가르치는 가장 중요한 이유는 학생들에게 데이터를 전문적으로 분석할 수 있는 능력을 갖추어 주기 위해서이다. 그것은 과거에도 그랬고, 현재도 그러하며, 미래에도 그럴 것이다. 그런 관점에서 보면 사회통계 교육에 빨강 불이 켜졌다. 통계학 교육이 전복되어야 한다는 과격한 표현이 어울릴 정도로 극적인 변화가 필요하다는 말이다.

지금까지 사회통계학이나 통계학 교육의 중점은 모수 추정과 가설 검증에 있었다. 작은 규모의 표본조사를 통해 데이터를 수집하고 그것으로 모집단의 모수를 추정하거나 가설을 검증하는 방식이었다. 따라서 기술통계(descriptive statistics)는 고급의 통계 기법을 배우기 위한 예비 지식 혹은 보조 수단 정도로 취급했다. 그런 방식으로는 모수 추정이나 가설 검증이 불가능하다고 여겼기 때문이다. 학생들은 물론이고 교수자도 기술통계를 진지하게 다루지 않았다.

그런데 시대가 바뀌었다! 정확히 말하자면, 데이터 환경이 바뀌고 분석 도구가 바뀌었다. 대량의 데이터가 이용가능하고 엄청난 컴퓨터 자원에 손쉽게 접근할 수 있게 되었다. 한 마디로 ‘빅데이터’ 시대가 도래했다!

게다가 현실에서는 모수 추정이나 가설 검증이 아니라 예측이 대세가 되고 있다. 집단 수준의 예측 뿐 아니라 개인 수준의 예측까지 일반적이 되고 있다.

이런 상황에서 종래의 모수 추정이나 가설 검증 기법들은 불필요하거나 적합성을 잃고 있다. 표집 데이터가 아니라 전수 데이터가 이용 가능한 경우가 크게 늘었고, 그런 경우에는 모수 추정이나 가설 검증이 불필요하다. 또한 현재의 통계 분석 도구들은 대부분 표본의 크기가 2천이나 3천 정도임을 가정하고 개발되었다. 예컨대 널리 사용되는 카이자승이나 p-값이 그러하다. 그런 도구들은 사례수가 크게 많아지면 검정력을 상실한다.

따라서 통계학 혹은 통계학 교육의 무게 중심은 기술통계로 이동되어야 한다. 그것이야말로 학생들이 사회에 나가면 널리 사용할 도구들이기 때문이다. 기술통계에 대한 교육의 강화 뿐만이 아니다. 보다 더 큰 관점에서 볼 때 사회통계 교육에 다음과 같은 변화가 필요하다고 판단된다.

  1. 데이터(data)에 대한 개념적 인식 전환이 요구된다.
  2. 기술통계(descriptive statistics)에 대한 교육이 크게 강화되어야 한다.
  3. 시각화(visualization) 교육이 크게 강화되어야 한다.
  4. 확률이론(probability theory)과 확률분포(probability distribution)에 대한 교육이 크게 강화, 확대되어야 한다.
  5. 베이즈 추론(Bayesian inference)에 대한 교육이 확대 혹은 추가되어야 한다.
  6. 상관성 척도(measurement of relations)들에 대한 교육이 크게 확대되어야 한다.
  7. 회귀분석의 적합(fitting regression models) 방법을 다양화해야 한다.
  8. 데이터 마이닝(data mining)과 예측 분석(predictive analytics)이 추가되어야 한다.

데이터에 대한 개념적 인식 전환에 관해서는 앞선 포스팅에서 이미 논의했으니, 여기서는 기술통계에 대한 교육을 강화해야 한다는 점에 대해 집중적으로 논의해 보자.

변하는 사회현상(변수라고 하자)은 무엇이나 분포(distribution)를 가진다. 통계학은 그 분포를 정확하고 간명하게 묘사할 수 있게 해준다. 평균, 중앙값, 최빈값과 같은 대표값은 변수의 분포의 중심이 어디에 있는 지를 보여주고[그 때문에 중앙 집중 경향(central tendency)이라고도 불린다], 범위, 표준편차, 분산, IQR(사분위 범위) 같은 산포도는 변수가 중앙 집중 경향을 중심으로 얼마나 퍼져 있는지를 보여주며, 왜도(skewness)나 첨도(kurtosis) 같은 비대칭도는 변수의 분포가 어느 쪽으로 치우쳐 있는지 혹은 얼마나 중심에 집중되어 있는지를 보여준다.

Image result for moving averages

이 중 가장 중요한 척도는 평균이다. 평균은 범주형 변수에는 사용될 수 없지만 가장 널리 사용되는 척도이다. 그리고 평균은 데이터의 성격과 용도에 따라서 산술평균, 가중평균, 절삭 평균, 기하평균, 조화평균, 평방평균, 이동평균 등 다양한 종류가 사용된다.

그리고 평균은 거의 모든 고급 통계 기법들의 출발점이다. 분산분석, 상관분석, 회귀분석 등은 평균으로부터의 거리, 즉, 편차를 가지고 하는 게임이라고 해도 과언이 아니다. 평균에 대해서만도 적어도 한 주 정도의 수업이 필요하리라 생각된다. (참고로 평균에 관해 예리한 지식을 갖고 있으면 동료들에게 깊은 인상을 줄 수 있을 것이다.)

그러나 기술통계가 위와 같은 한 변수의 분포에 그치는 것은 아니다. 우리가 관심을 갖는 사회현상이 하나의 변수가 아니라 두 변수 혹은 여러 개 변수 사이의 관계일 때도 많다. 승진에 있어서의 성차별, 교육 수준에 따른 소득분포, 특정 지역 출신에 대한 차별, 부모의 사회계층과 자식의 사회계층, 학습 시간과 성적, 연령에 따른 투표성향  등 사실 사회과학의 관심 대상은 변수 사이의 관계인 경우가 많다.

따라서 기술통계에는 변수간의 관계를 보여주는 도구들도 포함되어야 한다. 공분산, 상관계수, 교차표, 결합확률, 조건부 확률, 승산(odds)과 승산비(odds ratio) 등이 그런 기술통계 도구들이다.

Image result for odds

별도로 포스팅 하기 위해 현재의 논의에서는 제외했지만, 시각화(visualization)는 기본적으로 기술통계에 속한다. 기술통계량과 시각화를 합친 기술통계에 대한 강의만으로도 한 학기 수업을 할애해야 할 것으로 생각된다.

그것은 충분히 가치 있는 교육이 될 것이다. 기술통계 도구들을 제대로 활용할 수 있어야 한다는 시대적 요청에도 맞고, 상위 과목이 되는 고급통계, 데이터 마이닝, 예측분석의 효과적인 교육을 위해서 탄탄한 기초를 필요하다는 측면에서도 그렇다.

더 이상 기술통계를 저급한 지식으로 취급하거나 고급 통계를 위한 기초나 보조 수단으로만 인식되어서는 안 될 것이다. 어쩌면 대부분의 업무에서 기술통계는 추리통계보다 훨씬 중요한 통계 지식이 될 것이다.  (윤영민, 2017-08-22)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다