사회통계입문(1): 데이터 대 정보

[문제 1] 다음 두 테이블(table, 표)의 특성은 어떻게 다를까? 앞의 것은 통계청이 운영하는 ‘국가통계포털’에서 다운로드받은 인구 자료이고, 뒤의 것은 성균관대학교가 운영하는 SRC에서 다운로드 받은 한국종합사회조사(KGSS) 자료이다.

%ec%97%b0%eb%a0%b9%ec%9d%b8%ea%b5%ac%ed%91%9c

kgss%eb%8d%b0%ec%9d%b4%ed%84%b0

[문제 2] 오늘날의 사회가 가진 특징을 가장 잘 보여주는 단어는?

[문제 1]의 답은, 두 테이블은 모두 엑셀 형식으로 되어 있지만, 앞 테이블은 가공된 데이터로서 정보(information)적 성격이 강하고, 뒤 테이블은 가공되지 않은 원시 데이터(raw data)이다. 앞 테이블은 가공/분석에 제약이 많은 반면, 뒤 테이블은 가공/분석이 자유롭다.

[문제 2]의 답은 데이터이다. 아마도 10년 전이라면 정보(information) 혹은 네트워크(network)가 가장 유력한 해답이었을 것이다. 그러나 지금은 데이터(Data)가 강력한 후보이다. 그것은 마치 원유나 옥수수처럼 온갖 목적에 맞게 가공될 수 있기 때문이다.

(“Settling the eternal semantic debate: what is knowledge, what is information…”에서 인용)

위의 DIKW 피라미드는 데이터, 정보, 지식, 지혜의 관계를 보여주는 모형으로 널리 사용된다. 그러나 이 모형은 현실을 크게 왜곡할 수 있다. 특히 데이터 관점에서 볼 때 그러하다.

이 모형은 데이터보다 정보가 유용하다는 인상을 줄 수 있다. 특정한 목적에 맞게 데이터가 가공되거나 선별된 것이 정보이다. 그렇게 해서 그림에서처럼 정보는 데이터에 가치가 추가되었다고 해석될 수 있다. 그러나 그것은 대단히 부분적으로만 진실이다. 데이터가 맥락화되면(contextualized), 특정한 목적을 위해서는 유용성을 얻겠지만 일반적 용도로 보면 오히려 가치를 잃는다.

활용가능성의 측면에서 데이터는 정보, 지식, 혹은 지혜보다 훨씬 커다란 잠재적 가치가 갖고 있다는 말이다. 그것은 마치 원유, 석탄, 옥수수, 쌀 같은 원자재가 높은 잠재적 가치를 지니는 것이나 마찬가지이다. 일단 특정한 목적을 위해 가공되면 다른 목적에는 사용할 수 없게 되곤 한다.

통계학이나 데이터과학에서 데이터는 흔히 테이블(table)로 저장된다. 그렇다고 데이터가 곧 테이블은 아니다. 테이블은 데이터일 수도 있고 정보일 수도 있다. 다시 말해 테이블은 가공되지 않은 원시 데이터(raw data)일 수도 있고, 데이터를 가공한 결과인 정보(information)일 수도 있다.

MS 엑셀은 이 점을 잘 느끼게 해준다.  아래 그림은 엑셀 스프레드 시트에 데이터를 입력한 모습이다(여러분도 엑셀을 열어 그대로 입력하고 따라해 보시오). 이 데이터를 테이블로 만들려면 엑셀 메뉴 중 ‘삽입’에서 ‘표’를 선택하면 된다. 그리고 그 데이터나 데이터-테이블을 특정한 용도에 맞는 테이블로 변환하려면 ‘삽입’에서 ‘피벗 테이블‘을 클릭하면, 데이터를 다양한 방식으로 정리해서 표로 만들 수 있다. 그렇게 해서 만든 표는 데이터가 아니라 정보이다. 데이터를 데이터-테이블이나 피벗 테이블로 변환하면 한편으로는 엑셀의 다양한 기능을 적용할 수 있지만, 다른 한편으로는 데이터는 자유를 잃는다. 다른 프로그램에서 사용될 때 불가능하거나 불편해진다는 말이다.

data

책, 연구보고서, 신문, 잡지 등에 제시되는 테이블은 거의 모두 정보이다. 그 정보를 좀 다른 용도로 재가공하거나 재분석하려면 그 정보가 생산된 데이터, 즉, 원시데이터를 구해야 한다. 연구자들은 raw data에 굶주려 있다. 그들은 정보가 아니라 데이터를 먹고 산다. 그들은 외친다.

Data를 달라! Raw data를 달라!

(윤영민, 2017-08-13)

데이터과학: 데이터 마이너와 사회학자의 동상이몽

데이터 마이닝(data mining)은 많은 양의 데이터를 분석한다. 사회학(sociology)도  데이터 마이닝 못지 않게 데이터를 많이 다룬다. 두 분야 모두 경험 과학(empirical science)이다. 그런데 조금만 진지하게 들여다보면 두 학문이 세상을 보는 관점, 접근방법, 그리고 추구하는 가치가 크게 다름을 알 수 있다.

데이터 마이닝은 데이터 속에서 유용한 패턴(patterns)을 찾는다. 그것이 인과적 관계이냐 단순한 상관관계이냐는 중요하지 않다. 데이터 마이너는 데이터를 이용해 모형(혹은 알고리즘)을 만들어 예측(prediction)을 수행하며, 모형을 검증하고 개선한다. 데이터 마이닝에서 가장 중요한 가치는 유용성(usefulness)이다. 연구가 기업이나 기관을 운영하는데 도움이 되어야 한다.

text_data_mining

사회학은 데이터 속에서 유용한 증거(evidence)를 찾는다. 데이터를 이용해 이론(가설 혹은 인과관계)을 검증하고 이론을 향상시킴으로써 현실에 대한 이해를 깊게 한다. 사회학에서 가장 중요한 가치는 이해(understanding) 혹은 실천(practice)이다. 궁극적으로 사회학 연구는 사회 질서를 유지하거나 변화시키는데 도움이 되어야 한다고 믿는다.

이런 점에서 데이터 마이닝은 데이터중심 접근(data-centered approach)이고, 사회학은 이론지도 접근(theory-guided approach)이라고 말할 수 있다. 두 학문 분야를 넘나들고 있는 학자나 학생이라면 이 차이를 명쾌하게 인식할 필요가 있다. 특히 사회학도는 ‘빅데이터’의 파도 속에서 자칫 자신의 정체성을 잃을 수도 있다.

데이터 마이닝은 세 가지 특징을 갖는다.

1) 상관성(correlation) 기반의 모형이면 족하다. 풍부한 데이터 환경에서 엄밀한 인과모형에 의존하지 않고도 얼마든지 탁월한 예측을 할 수 있다. 인터넷 서점 아마존이나 검색 기업 구글이 성공한 요인을 상기하면 이 점이 이해 될 것이다.

2) 알고리즘(algorithm)의 효율성(efficiency)과 예측력(predictability)을 높이는 것이 핵심이다. 획기적인 발상이든 시행착오를 통한 재설계이든 보다 우수한 알고리즘을 적용해 누가 얼마나 정확히, 그리고 신속하게 해답을 제시하는가가 관건이다. 검색엔진들의 경쟁을 상기해 보라. 사용자들의 입맛에 맞는 정보를 얼마나 신속하게 제공하는가가 경쟁 포인트이다.

3) 데이터 마이닝의 가장 큰 함정은 과적합(over-fitting)이다. 최대한 많은 설명 요인을 모형에 집어넣다보면 모형의 설명력은 높아지지만 모형의 일반성이 떨어지게 된다. 이 때문에 데이터 마이닝에서는 사회학에서 거의 사용하지 않는 표본 분할이 애용된다. 데이터를 훈련 표본(training sample)과 검증 표본(testing sample)으로 나누어 과적합의 함정에서 벗어나고자 한다.

사회학도 세  가지 특징을 갖는다고 말할 수 있다.

social research

1) 인과성(causality) 기반의 모형을 추구한다. 분석모형에 설명 요인이 여러 개 들어가면 이론화가 아직 덜 되었다고 간주한다. 모형이 얼마나 많은 설명력을 갖는가가 중요한 것이 아니라 하나라도 제대로 원인을 발견하는 것이 중요하다.

2) 모형의 정확성(correctness), 단순성(simplicity), 그리고 정의(justice)를 둘러싼 게임이다. 진리를 발견하고, 세상을 움직이는 핵심적인 요소를 파악하고, 보다 나은 세상을 만들어 가는데 이론과 모형이 도움이 되어야 한다. 아마도 가장 단순한 사회학 모형은 칼 마르크스의 이론일 것이다. 계급투쟁이라는 창으로 세상을 바라본다.

3) 사회학의 가장 큰 함정은 과소적합(under-fitting)(혹은 모형 구성오류(misspecification)이다. 모형을 최대한 단순하게 만들려고 하거나 연구자가 관심을 갖는 요인에만 집착하다보면 분석모형이 중요한 요인을 빠트리게 되어서 생기는 문제이다. 한 마디로 모형이 잘못되어 있는 것이다. 모형이 잘못되어 있으면 아무리 많은 데이터를 사용해도 오차를 줄일 수 없다.

데이터 마이너(data miner)사회학자(sociologist)는 모두 데이터과학자일 수 있다. 그러나 데이터 마이너와 사회학자는 추구하는 목표가 크게 다르다. (2016/9/22)