사회통계입문(1): 데이터 대 정보

오늘날의 사회가 지닌 특징을 가장 잘 보여주는 단어는 데이터(data)이다. 아마도 10년 전이라면 정보(information) 혹은 네트워크(network)가 가장 유력한 해답이었을 것이다. 그러나 지금은 데이터가 강력한 후보이다. 그것은 마치 원유나 옥수수처럼 온갖 목적에 맞게 가공될 수 있기 때문이다.

(“Settling the eternal semantic debate: what is knowledge, what is information…”에서 인용)

위의 DIKW 피라미드는 데이터, 정보, 지식, 지혜의 관계를 보여주는 모형으로 널리 사용된다. 그러나 이 모형은 현실을 크게 왜곡할 수 있다. 특히 데이터 관점에서 볼 때 그러하다.

이 모형은 데이터보다 정보가 유용하다는 인상을 줄 수 있다. 특정한 목적에 맞게 데이터가 가공되거나 선별된 것이 정보이다. 그렇게 해서 그림에서처럼 정보는 데이터에 가치가 추가되었다고 해석될 수 있다. 그러나 그것은 대단히 부분적으로만 진실이다. 데이터가 맥락화되면(contextualized), 특정한 목적을 위해서는 유용성을 얻겠지만 일반적 용도로 보면 오히려 가치를 잃는다.

활용가능성의 측면에서 데이터는 정보, 지식, 혹은 지혜보다 훨씬 커다란 잠재적 가치가 갖고 있다는 말이다. 그것은 마치 원유, 석탄, 옥수수, 쌀 같은 원자재가 높은 잠재적 가치를 지니는 것이나 마찬가지이다. 일단 특정한 목적을 위해 가공되면 다른 목적에는 사용할 수 없게 되곤 한다.

통계학이나 데이터과학에서 데이터는 흔히 테이블(table)로 저장된다. 그렇다고 데이터가 곧 테이블은 아니다. 테이블은 데이터일 수도 있고 정보일 수도 있다. 다시 말해 테이블은 가공되지 않은 원시 데이터(raw data)일 수도 있고, 데이터를 가공한 결과인 정보(information)일 수도 있다.

MS 엑셀은 이 점을 잘 느끼게 해준다.  링크는 엑셀 스프레드 시트에 데이터를 입력한 모습이다(여러분도 엑셀을 열어 그대로 입력하고 따라해 보시오). 이 데이터를 테이블로 만들려면 엑셀 메뉴 중 ‘삽입’에서 ‘표’를 선택하면 된다. 그리고 그 데이터나 데이터-테이블을 특정한 용도에 맞는 테이블로 변환하려면 ‘삽입’에서 ‘피벗 테이블‘을 클릭하면, 데이터를 다양한 방식으로 정리해서 표로 만들 수 있다. 그렇게 해서 만든 표는 데이터가 아니라 정보이다. 데이터를 데이터-테이블이나 피벗 테이블로 변환하면 한편으로는 엑셀의 다양한 기능을 적용할 수 있지만, 다른 한편으로는 데이터는 자유를 잃는다. 다른 프로그램에서 사용될 때 불가능하거나 불편해진다는 말이다.

책, 연구보고서, 신문, 잡지 등에 제시되는 테이블은 거의 모두 정보이다. 그 정보를 좀 다른 용도로 재가공하거나 재분석하려면 그 정보가 생산된 데이터, 즉, 원시데이터를 구해야 한다. 연구자들은 raw data에 굶주려 있다. 그들은 정보가 아니라 데이터를 먹고 산다. 그들은 외친다.

Data를 달라! Raw data를 달라!

(윤영민, 2017-08-13)

“사회통계입문(1): 데이터 대 정보”에 대한 2개의 댓글

  1. 교수님 안녕하세요?
    학창시절 배웠던 통계 용어가 가물거려서 인터넷을 검색하다가 여기에까지 오게되었습니다. 궁금하던 내용들이 너무도 쉽게 설명되어 있어서 즐겨찾기할 것 같습니다. 감사드립니다. 그런데 글 사이에 삽입된 그림이나 사진들이 전부 엑스박스로 표시된 채 보이지 않습니다. 어떻게하면 볼 수 있을까요?

    1. 반갑구나. 수학-통계학 주제에 포스팅된 글들을 모두 수정했다. 지적해줘서 고맙다. 그런데 너무 오래되서 원래 그림을 올릴 수 없는 경우에는 그림을 빼거나 다른 그림으로 대체했다. 도움이 되길 바란다.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.