정보에 관한 지식기반 이론

2010년에 발표된 정보에 관한 지식기반 이론(Konwledge-Based Theory of Information, 이하 KBI)은 DIKW 모형을 개념적으로 계승하면서 한 단계 더 나이가 데이터, 정보, 지식 사이의 관계를 정교하게 규정하고 있다. KBI는 지식과 데이터가 상호작용하여 정보를 생성한다는 의미에서 상호작용적 모형(interactive model)이라고도 불린다.

KBI는 정보가 지식과 데이터로부터 생성된다는 인식에서 출발한다. 데이터는 상황에 관한 선결조건(pre-conditions) 혹은 투입값(input values)이며, 그것을 기반으로 정보가 생산된다. 정보는 주어진 상황에서 행위자가 의사결정 혹은 행동의 선택을 가능하게 하는 요소이다.  지식은 데이터로부터 정보가 생산되는 과정 혹은 프레임워크이다(아래 그림 참조).

KBI에서, 데이터는 “객체나 사건에 관한 서술 혹은 측정 결과”이다.  예컨대 “A형 부품이 17개 남아 있다” 혹은 “비가 내리고 있다”가 데이터이다. 이 데이터만으로서는 의사결정이나 행동을 선택하는데 필요한 정보가 생성될 수 없다. 거기에는 반드시 지식이 필요하다.

지식은 “구성물 사이의 관계에 대한 정당화된 진실된 믿음이다(is justified true belief of the relationship between constructs).” 이 정의를 풀어보면, 지식은 믿음의 한 유형인데, 그것은 진실이거나 진실에 접근하는 것이어야 하며,  전문가나 권위자에 의해 인정된 것이어야 한다. 다시 말해, 지식은 객관적으로 검증된 믿음, 권위있는 전문가들에 의해 인정된(혹은 합의된) 믿음이다.

그리고 지식은 구성물 사이의 관계에 대한 믿음이다. 지식의 가장 흔한 형식은 If-Then 짝이다. 예컨대 어떤 새가 백조라면, 그 새는 하얄 것이다라는 명제는 지식이다. 

정보는 지식 프레임워크(framework)를 토대로 데이터로부터 생산된 의미(meaning)이다. 의미란 어떤 경험에 부여된 해석을 말한다. 정보에 의해 선택, 판단, 혹은 불확실성의 감소가 일어난다.

아래 사례들을 보면, 지식, 데이터, 정보에 대한 KBI의 핵심적인 주장이 이해될 것이다.

(사례 1)

지식: 만약 A형의 부품의 재고가 20개 이하이면, 부품 부족을 예방하기 위해 A형의 부품을 주문해야 한다.

데이터: A형의 부품이 17개 남아 있다.

위의 지식과 데이터가 결합되면, A형 부품을 3개 이상 주문해야 한다는 정보가 생성된다. 

(사례 2)

지식: 만약 비가 내리고, 당신이 비를 맞기 싫어한다면, 외출하기 전에 우산을 챙겨야 한다.

데이터: 비가 내리고 있다.

정보: 위 지식과 데이터가 결합되면, 우산을 챙기라는 정보가 생산된다.

 KBI를 자율주행 자동차에 적용해 보면, 우선 자동차는 교통데이터, 도로데이터, 기후데이터, 사건데이터 등을 처리할 수 있는 데이터분석 모형이 필요할 것이다. 그리고 도로 상황, 교통 상황, 기후 상황, 사건 상황에 관한 데이터를 실시간으로 받을 수 있는 센서(sensor)나 네트워크이 필요할 것이다. 데이터 분석 모형은 지식 프레임워크에 해당되고, 센서에서 입력되는 신호는 데이터이다. 데이터 분석 모형이 센서 데이터를 받으면 실시간으로 액츄에이터(actuator)가 행동할 수 있는 정보를 생산할 것이다. 그 기능을 모두 갖춘 AI가 자동차에 내장되면 자율주행 자동차가 만들어 질 것이다.   

참고문헌: Kettinger, William J and Yuan Li (2010). “The infological equation extended: towards conceptual clarity in the relationship between data, information and knowledge,” European Journal of Information Systems, 19(4): 409-421.

정보와 데이터, 그리고 정보사회학(2)

개념들 사이에 ‘정보(information)’와 ‘데이터(data)’만큼 헷갈리는 관계도 드물 것이다. 그 둘은 서로 뗄 수 없이 의존적이기도 하고, 마치 시대를 두고 헤게모니 쟁탈전을 하듯 서로 경쟁적이기도 하며, 때로는 서로 넘나들며 사용되는 유사어처럼 보이기도 한다. 무엇이 진실일까?

information data 이미지 검색결과"

데이터와 정보의 관계에서 가장 널리 인용되는 DIKW 모형(Data-Information-Knowledge-Wisdom model)에 따르면, 데이터가 추상되어 유용성을 획득하면 정보가 된다. 데이터는 객체나 사건에 관한 묘사이다. 데이터가 어떻게 추상되는지는 확실치 않지만 데이터와 정보가 구분되는 것만은 분명하다. 비교적 최근에 등장한 지식기반의 정보이론(knowlege-based theory of information)에 따르면, 지식 프레임에 데이터가 주어지면 의사결정이나 행동에 도움이 되는 정보가 생산된다. 다시 말해 데이터는 지식에 의해 수집되거나 생성되며, 지식에 의해 해석되어 의사결정이나 행동에 사용될 수 있는 정보가 생산된다. 여기서도 데이터는 정보와 분명히 구분된다.

그런데 수학적 정보이론에 따르면, 특정한 목적을 위해 송신자에서 수신자로 전달되는 내용이 정보이고, 정보는 그것이 지닌 불확실성의 양으로 측정될 수 있다. 이 때 ‘정보’를 ‘데이터’라는 용어로 대체해도 별로 문제될 것이 없다. 정보라고 불리던 데이터라고 불리던 측정 단위는 비트(bit)이다.

mathmatical theory of information 이미지 검색결과"

과거에 데이터는 객관성이 강조되었다. 자연과학이든 사회과학이든 데이터는 주로 과학실험이나 사회조사와 같은 과학적 방법에 의해 생산되었고, 과학적 방법의 핵심은 비개입적, 비관여적, 이상적으로 말하자면 무작위적(random)이어야 했다. 객관적이지 않은 데이터–예컨대 행정 데이터, 고객 데이터–는 그것의 가치를 인정받지 못했다.

그러나 빅데이터 시대가 데이터에 대한 사람들의 인식을 바꾸어 놓았다. 행정 기록, 교통 데이터, 거래 정보, 고객 정보 등과 같은 빅데이터를 다루는 데이터마이닝과 데이터과학은 객관성에 더 이상 집착하지 않는다. 현실 문제를 푸는데 도움이 된다면, 수익을 올리는 데 도움이 된다면 어떤 데이터든 마다 하지 않는다.

그래서 데이터에 관한 새로운 개념이 요구된다. 빅데이터 시대에 있어 데이터는 최소한 세 가지 속성을 갖는 것으로 생각된다.

첫째, 의도성이다. 데이터는 묘사(description)이다. 객체나 사건은 목적이나 의도 없이 존재할 수 있지만, 그것에 대한 묘사는 결코 그럴 수 없다. 묘사는 관찰의 결과이고, 객체나 사건에 대한 관찰은 반드시 누군가의 의도에 따라 이루어 지기 때문이다.

둘째, 고비용이다. 데이터가 생성되기 위해서는 누군가가 데이터의 수집을 기획하고 설계해야 하며, 그런 다음 사람이나 기계에 의해 데이터가 수집되고, 그 데이터는 정제된 후 데이터셋 혹은 데이터베이스로 구축된다. 데이터의 규모가 커지만 그것의 수집, 저장, 처리, 분석에 막대한 비용이 소요된다.

셋째, 기계 의존성이다. 데이터의 규모가 크면, 사람에 의해 수집되거나 처리되지 않는다. 빅데이터의 수집, 전송, 저장, 그리고 심지어 분석마저도 예외 없이 기계적으로 이루어진다. 그 과정에서 인간이 끼어들 여지가 별로 없다.

big data 이미지 검색결과"

그런데 위 세 가지를 데이터가 아니라 정보의 속성이라고 주장한들 무슨 문제가 있겠는가. 어쩌면 그것은 유용성을 가지고 데이터와 정보를 구분짓던 DIKW 모형이나 지식기반의 정보이론이 빅데이터 환경에 적합하지 않음을 의미할 수 있다.

만약 정보와 데이터가 서로 넘나들 수 있는 유사 개념으로 간주된다면, 그것을 연구하는 학문 분야를 정보사회학이라고 부르던 데이터사회학이라고 부르던 무슨 차이가 있겠는가. 그런 경우 새로운 학문 분야를 만들기 보다는 이미 제도화 과정에 있는 정보사회학의 영역을 확장하는 것이 낫지 않을까? (2020-01-20)

정보와 데이터, 그리고 정보사회학(1)

이땅에 정보사회학이라는 학문 제도가 도입된 지도 벌써 25년 가까이 흘렀다. 요즘같은 광속의 시대에 있어 25년은 참으로 긴 세월이다.

그 사반세기 동안 정보사회학의 연구 대상이 되는 정보기술과 사회 혹은 정보기술과 인간의 접점에 커다란 변화가 일어났다. 정보사회학은 지속적으로 그 접점을 해명하고 예측했으며, 나아가 문제 해결에 참여하기도 했다.

25년 전에는 정보(information)가 세상을 밝히는 키워드였다. 새넌(Claude Shannon)의 수학적 ‘정보’이론 덕분에 디지털 세상이 열렸고 생명과학자들은 ‘정보’의 생성과 전달이 생명의 핵심인 RNA나 DNA의 주요한 기능이라고 주장했다.  정보, 정보기술, 정보시스템, 정보산업, 정보기술(IT) 업체 같은 용어들이 시대를 끌고 갔고 정보라는 수식어는 시대적 유행이 되었다. ‘정보’는 곧 ‘첨단’이란 의미로 수용되었다.

그런데 수년 전부터 사정이 바뀌었다. 어느새 ‘정보’는 다소 진부한 혹은 낙후된 인상을 주는 용어로 퇴색되었다. ‘정보’ 자리에는 ‘데이터’ 혹은 ‘빅데이터’가 들어섰다.

사실 사회적 기원을 따져보면 ‘정보’보다는 ‘데이터’가 더 오래 더 널리 사용되었다. 사회조사와 통계학의 역사를 따져본다면 현대적 의미의 데이터 활용은 적어도 1백년은 쉽사리 거슬러 올라갈 수 있을 것이다.  전국적인 규모의 여론조사나 인구센서스가 시작된 지 1백년 정도 되었고 자연과학 뿐 아니라 사회과학에서 통계학이 정통의 분석 도구로 자리잡기 시작한 것도 그 정도는 되었으니 말이다.

그렇다고 데이터가 오늘날처럼 높은 문명적 지위를 가졌던 것은 아니다. 데이터는 귀했고 통계학은 인구 예측과 관리, 행정, 군사, 과학 실험, 사회조사, 공장 관리, 그리고 일부 기업 경영 등에서 전문가들이 사용하는 도구에 지나지 않았다.

이미 적지 않은 전문가, 학자, 언론, 행정가, 심지어 정치가들이 ‘정보’ 대신 ‘데이터’라는 용어를 사용하려는 경향을 보이고 있다. 아래 구글 트렌드 그래프는 사람들의 관심이 ‘정보’에서 ‘데이터’로 이동해왔음을 잘 보여주고 있다. 그래프는 전세계에서 ‘정보’와 ‘데이터’라는 용어를 검색한 빈도를 표시하고 있다.

붉은 선은 ‘정보’, 파란 선은 ‘데이터’의 검색 수준을 나타낸다. 구글의 데이터 기록이 시작된 2004년에 ‘정보’의 검색 빈도를 100으로 본다면 ‘데이터’는 약 70% 수준이었다. 그러나 이미 ‘정보’의 인기는 시들기 시작했고 현재까지 지속적으로 하강하고 있다. 반면에 2004년 이후 ‘데이터’의 인기도 다소 하향하기 시작했지만 2007년 혹은 2008년 이후 소강상태를 보이다 2013년 무렵부터는 완만하게 상승하고 있다. 대체로 2007년경을 전후해서 ‘정보’와 ‘데이터’의 위상이 뒤바뀌기 시작한 것으로 보인다.  구글 검색 통계로 본 2020년 현재 ‘정보’의 인기는 2004년 수준에 비하면 10분의 1정도로 하락했으며, ‘데이터’의 인기는 ‘정보’의 그것의 거의 세 배 수준에 달하고 있다.

‘정보사회학’의 개명이 필요한 것일까? 대중의 관심과 인기를 기준으로 한다면, 동일한 분야의 학문명으로 ‘정보사회학’을 버리고 ‘데이터사회학’을 취하는 것이 답일 것도 같다.

그러나 정보사회학은 ‘정보’의 사회학, 정보’에 관한 사회학적 연구가 아니다. 그것은 하나의 사회제도(social institution)이다. 학문이나 사회학이 사회제도인것처럼 정보사회학도 하나의 사회제도이다. 그것의 연구 대상은 정보를 넘어서 정보기술, 정보시스템, 정보산업은 물론이고 데이터, 빅데이터, 데이터 마이닝, 심지어 AI에까지도 확장될 수 있다. 사회제도란 조직, 재정적 자원, 그리고 충성을 다하는 구성원들이 있는 안정된 사회구조이다. 사회제도는 환경의 변화에도 잘 적응하고 잘 버틴다. 가부장제도, 결혼, 혹은 국가라는 사회제도를  생각해보라. 적어도 2천년 이상 유지되고 있지 않는가.

정보사회학은 제도화에 나선 지 25년 정도밖에 되지 않았다. 하나의 사회제도로서는 이제 시작단계에 불과하지만 문제는 그 25년이 엄청난 격동의 시간이었다는 사실이다. 그 사이에 세상을 보는 지배적인 프레임이 ‘정보’에서 ‘데이터’로 이동해 버렸다.

그러한 시대적 전환은 정보사회학에게 던져진 거대한 도전이자 기회이다. 정보사회학은 기술 변화의 파고에 좌초될 수도 있고 반대로 새롭게 태어나거나 영역이 확장될 수도 있다.

현재로서는 정보사회학의 미래가 밝지 않다. 정보사회학에 충성을 다하면서 유능한 구성원들이 별로 눈에 띄지 않기 때문이다.

그렇다고 절망하기는 너무 이른 것 같다. 정보사회학말고 어느 사회과학이 비판적 관점에서 인터넷, 소셜미디어, 스마트폰, 빅데이터, 데이터 마이닝, 데이터분석, AI 등을 체계적으로 분석할 것인가.

사회제도는 생물과 같다. 탄생, 성장, 쇠퇴, 소멸을 겪는다는 의미에서 말이다. 누구도 한 사회제도의 라이프 사이클을 예단할 수 없다. 정보사회학에 대해서도 마찬가지이리라. (2020-01-19)

사회통계입문(1): 데이터 대 정보

오늘날의 사회가 지닌 특징을 가장 잘 보여주는 단어는 데이터(data)이다. 아마도 10년 전이라면 정보(information) 혹은 네트워크(network)가 가장 유력한 해답이었을 것이다. 그러나 지금은 데이터가 강력한 후보이다. 그것은 마치 원유나 옥수수처럼 온갖 목적에 맞게 가공될 수 있기 때문이다.

(“Settling the eternal semantic debate: what is knowledge, what is information…”에서 인용)

위의 DIKW 피라미드는 데이터, 정보, 지식, 지혜의 관계를 보여주는 모형으로 널리 사용된다. 그러나 이 모형은 현실을 크게 왜곡할 수 있다. 특히 데이터 관점에서 볼 때 그러하다.

이 모형은 데이터보다 정보가 유용하다는 인상을 줄 수 있다. 특정한 목적에 맞게 데이터가 가공되거나 선별된 것이 정보이다. 그렇게 해서 그림에서처럼 정보는 데이터에 가치가 추가되었다고 해석될 수 있다. 그러나 그것은 대단히 부분적으로만 진실이다. 데이터가 맥락화되면(contextualized), 특정한 목적을 위해서는 유용성을 얻겠지만 일반적 용도로 보면 오히려 가치를 잃는다.

활용가능성의 측면에서 데이터는 정보, 지식, 혹은 지혜보다 훨씬 커다란 잠재적 가치가 갖고 있다는 말이다. 그것은 마치 원유, 석탄, 옥수수, 쌀 같은 원자재가 높은 잠재적 가치를 지니는 것이나 마찬가지이다. 일단 특정한 목적을 위해 가공되면 다른 목적에는 사용할 수 없게 되곤 한다.

통계학이나 데이터과학에서 데이터는 흔히 테이블(table)로 저장된다. 그렇다고 데이터가 곧 테이블은 아니다. 테이블은 데이터일 수도 있고 정보일 수도 있다. 다시 말해 테이블은 가공되지 않은 원시 데이터(raw data)일 수도 있고, 데이터를 가공한 결과인 정보(information)일 수도 있다.

MS 엑셀은 이 점을 잘 느끼게 해준다.  링크는 엑셀 스프레드 시트에 데이터를 입력한 모습이다(여러분도 엑셀을 열어 그대로 입력하고 따라해 보시오). 이 데이터를 테이블로 만들려면 엑셀 메뉴 중 ‘삽입’에서 ‘표’를 선택하면 된다. 그리고 그 데이터나 데이터-테이블을 특정한 용도에 맞는 테이블로 변환하려면 ‘삽입’에서 ‘피벗 테이블‘을 클릭하면, 데이터를 다양한 방식으로 정리해서 표로 만들 수 있다. 그렇게 해서 만든 표는 데이터가 아니라 정보이다. 데이터를 데이터-테이블이나 피벗 테이블로 변환하면 한편으로는 엑셀의 다양한 기능을 적용할 수 있지만, 다른 한편으로는 데이터는 자유를 잃는다. 다른 프로그램에서 사용될 때 불가능하거나 불편해진다는 말이다.

책, 연구보고서, 신문, 잡지 등에 제시되는 테이블은 거의 모두 정보이다. 그 정보를 좀 다른 용도로 재가공하거나 재분석하려면 그 정보가 생산된 데이터, 즉, 원시데이터를 구해야 한다. 연구자들은 raw data에 굶주려 있다. 그들은 정보가 아니라 데이터를 먹고 산다. 그들은 외친다.

Data를 달라! Raw data를 달라!

(윤영민, 2017-08-13)