정보와 데이터, 그리고 정보사회학(2)

개념들 사이에 ‘정보(information)’와 ‘데이터(data)’만큼 헷갈리는 관계도 드물 것이다. 그 둘은 서로 뗄 수 없이 의존적이기도 하고, 마치 시대를 두고 헤게모니 쟁탈전을 하듯 서로 경쟁적이기도 하며, 때로는 서로 넘나들며 사용되는 유사어처럼 보이기도 한다. 무엇이 진실일까?

information data 이미지 검색결과"

데이터와 정보의 관계에서 가장 널리 인용되는 DIKW 모형(Data-Information-Knowledge-Wisdom model)에 따르면, 데이터가 추상되어 유용성을 획득하면 정보가 된다. 데이터는 객체나 사건에 관한 묘사이다. 데이터가 어떻게 추상되는지는 확실치 않지만 데이터와 정보가 구분되는 것만은 분명하다. 비교적 최근에 등장한 지식기반의 정보이론(knowlege-based theory of information)에 따르면, 지식 프레임에 데이터가 주어지면 의사결정이나 행동에 도움이 되는 정보가 생산된다. 다시 말해 데이터는 지식에 의해 수집되거나 생성되며, 지식에 의해 해석되어 의사결정이나 행동에 사용될 수 있는 정보가 생산된다. 여기서도 데이터는 정보와 분명히 구분된다.

그런데 수학적 정보이론에 따르면, 특정한 목적을 위해 송신자에서 수신자로 전달되는 내용이 정보이고, 정보는 그것이 지닌 불확실성의 양으로 측정될 수 있다. 이 때 ‘정보’를 ‘데이터’라는 용어로 대체해도 별로 문제될 것이 없다. 정보라고 불리던 데이터라고 불리던 측정 단위는 비트(bit)이다.

mathmatical theory of information 이미지 검색결과"

과거에 데이터는 객관성이 강조되었다. 자연과학이든 사회과학이든 데이터는 주로 과학실험이나 사회조사와 같은 과학적 방법에 의해 생산되었고, 과학적 방법의 핵심은 비개입적, 비관여적, 이상적으로 말하자면 무작위적(random)이어야 했다. 객관적이지 않은 데이터–예컨대 행정 데이터, 고객 데이터–는 그것의 가치를 인정받지 못했다.

그러나 빅데이터 시대가 데이터에 대한 사람들의 인식을 바꾸어 놓았다. 행정 기록, 교통 데이터, 거래 정보, 고객 정보 등과 같은 빅데이터를 다루는 데이터마이닝과 데이터과학은 객관성에 더 이상 집착하지 않는다. 현실 문제를 푸는데 도움이 된다면, 수익을 올리는 데 도움이 된다면 어떤 데이터든 마다 하지 않는다.

그래서 데이터에 관한 새로운 개념이 요구된다. 빅데이터 시대에 있어 데이터는 최소한 세 가지 속성을 갖는 것으로 생각된다.

첫째, 의도성이다. 데이터는 묘사(description)이다. 객체나 사건은 목적이나 의도 없이 존재할 수 있지만, 그것에 대한 묘사는 결코 그럴 수 없다. 묘사는 관찰의 결과이고, 객체나 사건에 대한 관찰은 반드시 누군가의 의도에 따라 이루어 지기 때문이다.

둘째, 고비용이다. 데이터가 생성되기 위해서는 누군가가 데이터의 수집을 기획하고 설계해야 하며, 그런 다음 사람이나 기계에 의해 데이터가 수집되고, 그 데이터는 정제된 후 데이터셋 혹은 데이터베이스로 구축된다. 데이터의 규모가 커지만 그것의 수집, 저장, 처리, 분석에 막대한 비용이 소요된다.

셋째, 기계 의존성이다. 데이터의 규모가 크면, 사람에 의해 수집되거나 처리되지 않는다. 빅데이터의 수집, 전송, 저장, 그리고 심지어 분석마저도 예외 없이 기계적으로 이루어진다. 그 과정에서 인간이 끼어들 여지가 별로 없다.

big data 이미지 검색결과"

그런데 위 세 가지를 데이터가 아니라 정보의 속성이라고 주장한들 무슨 문제가 있겠는가. 어쩌면 그것은 유용성을 가지고 데이터와 정보를 구분짓던 DIKW 모형이나 지식기반의 정보이론이 빅데이터 환경에 적합하지 않음을 의미할 수 있다.

만약 정보와 데이터가 서로 넘나들 수 있는 유사 개념으로 간주된다면, 그것을 연구하는 학문 분야를 정보사회학이라고 부르던 데이터사회학이라고 부르던 무슨 차이가 있겠는가. 그런 경우 새로운 학문 분야를 만들기 보다는 이미 제도화 과정에 있는 정보사회학의 영역을 확장하는 것이 낫지 않을까? (2020-01-20)