데이터 강국으로 가는 길(1)

지난 주에 발족한 ‘AI-데이터 얼라이언스’라는 민간 단체의 운영위원장을 맡았다. 두 해 전 모든 공적 활동에서 은퇴했기 때문에 그 자리의 제안을 거절해야 했다.

그러나, 20년 전 전자정부 때가 떠올랐다. 고민하다 결국 미력이라도 보태지 않을 수 없는 상황이라고 판단하고 참여를 결심했다.

정부가 대규모로 추진하는 ‘한국판 뉴딜’ 정책이 성공하려면, 민간 부분에서의 인풋이 필수적이다. 그 정책의 목표가 일자리 창출을 통한 경제회복에 있고, 일자리 창출은 궁극적으로 민간 기업과 기관의 역할이 될 것이기 때문이다.

단체의 핵심 멤버들과 사무국 직원들이 우수해서 내 역할을 최소화할 수 있을 것 같다. 이익 단체를 넘어서 공익을 추구하는 시민적 기구가 될 수 있기를 기원한다.

발족과 동시에 개최한 토론회에서는 좋은 발제와 열띤 토론이 있었다. 그 내용을 사무국이 보고서 형태로 잘 만들었다. 이렇게 해야 어려운 시간을 내서 참석한 분들의 소중한 발언이 헛되지 않을 것이다. 이 문서를 참여자들에게 회람하고 피드백을 받아 수정을 한 다음 최종적으로 함께 공유하고 관계 기관에 전달하게 될 것이다.

보고서의 드래프트를 아래에 공유한다. (2020-07-01)

AI·빅데이터 포럼 Review Report_draft(20200630)_marked

정보와 데이터, 그리고 정보사회학(2)

개념들 사이에 ‘정보(information)’와 ‘데이터(data)’만큼 헷갈리는 관계도 드물 것이다. 그 둘은 서로 뗄 수 없이 의존적이기도 하고, 마치 시대를 두고 헤게모니 쟁탈전을 하듯 서로 경쟁적이기도 하며, 때로는 서로 넘나들며 사용되는 유사어처럼 보이기도 한다. 무엇이 진실일까?

information data 이미지 검색결과"

데이터와 정보의 관계에서 가장 널리 인용되는 DIKW 모형(Data-Information-Knowledge-Wisdom model)에 따르면, 데이터가 추상되어 유용성을 획득하면 정보가 된다. 데이터는 객체나 사건에 관한 묘사이다. 데이터가 어떻게 추상되는지는 확실치 않지만 데이터와 정보가 구분되는 것만은 분명하다. 비교적 최근에 등장한 지식기반의 정보이론(knowlege-based theory of information)에 따르면, 지식 프레임에 데이터가 주어지면 의사결정이나 행동에 도움이 되는 정보가 생산된다. 다시 말해 데이터는 지식에 의해 수집되거나 생성되며, 지식에 의해 해석되어 의사결정이나 행동에 사용될 수 있는 정보가 생산된다. 여기서도 데이터는 정보와 분명히 구분된다.

그런데 수학적 정보이론에 따르면, 특정한 목적을 위해 송신자에서 수신자로 전달되는 내용이 정보이고, 정보는 그것이 지닌 불확실성의 양으로 측정될 수 있다. 이 때 ‘정보’를 ‘데이터’라는 용어로 대체해도 별로 문제될 것이 없다. 정보라고 불리던 데이터라고 불리던 측정 단위는 비트(bit)이다.

mathmatical theory of information 이미지 검색결과"

과거에 데이터는 객관성이 강조되었다. 자연과학이든 사회과학이든 데이터는 주로 과학실험이나 사회조사와 같은 과학적 방법에 의해 생산되었고, 과학적 방법의 핵심은 비개입적, 비관여적, 이상적으로 말하자면 무작위적(random)이어야 했다. 객관적이지 않은 데이터–예컨대 행정 데이터, 고객 데이터–는 그것의 가치를 인정받지 못했다.

그러나 빅데이터 시대가 데이터에 대한 사람들의 인식을 바꾸어 놓았다. 행정 기록, 교통 데이터, 거래 정보, 고객 정보 등과 같은 빅데이터를 다루는 데이터마이닝과 데이터과학은 객관성에 더 이상 집착하지 않는다. 현실 문제를 푸는데 도움이 된다면, 수익을 올리는 데 도움이 된다면 어떤 데이터든 마다 하지 않는다.

그래서 데이터에 관한 새로운 개념이 요구된다. 빅데이터 시대에 있어 데이터는 최소한 세 가지 속성을 갖는 것으로 생각된다.

첫째, 의도성이다. 데이터는 묘사(description)이다. 객체나 사건은 목적이나 의도 없이 존재할 수 있지만, 그것에 대한 묘사는 결코 그럴 수 없다. 묘사는 관찰의 결과이고, 객체나 사건에 대한 관찰은 반드시 누군가의 의도에 따라 이루어 지기 때문이다.

둘째, 고비용이다. 데이터가 생성되기 위해서는 누군가가 데이터의 수집을 기획하고 설계해야 하며, 그런 다음 사람이나 기계에 의해 데이터가 수집되고, 그 데이터는 정제된 후 데이터셋 혹은 데이터베이스로 구축된다. 데이터의 규모가 커지만 그것의 수집, 저장, 처리, 분석에 막대한 비용이 소요된다.

셋째, 기계 의존성이다. 데이터의 규모가 크면, 사람에 의해 수집되거나 처리되지 않는다. 빅데이터의 수집, 전송, 저장, 그리고 심지어 분석마저도 예외 없이 기계적으로 이루어진다. 그 과정에서 인간이 끼어들 여지가 별로 없다.

big data 이미지 검색결과"

그런데 위 세 가지를 데이터가 아니라 정보의 속성이라고 주장한들 무슨 문제가 있겠는가. 어쩌면 그것은 유용성을 가지고 데이터와 정보를 구분짓던 DIKW 모형이나 지식기반의 정보이론이 빅데이터 환경에 적합하지 않음을 의미할 수 있다.

만약 정보와 데이터가 서로 넘나들 수 있는 유사 개념으로 간주된다면, 그것을 연구하는 학문 분야를 정보사회학이라고 부르던 데이터사회학이라고 부르던 무슨 차이가 있겠는가. 그런 경우 새로운 학문 분야를 만들기 보다는 이미 제도화 과정에 있는 정보사회학의 영역을 확장하는 것이 낫지 않을까? (2020-01-20)