데이터를 다시 생각한다(1): 공학적 관점

지난 10여 년 사이 발생한 가장 뚜렷한 사회변화 중 하나는 인류에게 대단히 낯선, 데이터 기반 사회(Data-based society)가 출현하고 있다는 사실이다. 고 Peter Drucker가 예견했던 지식사회도, 필자를 포함해 수많은 학자들이 설파한 정보사회도, 마뉴엘 카스텔(Manuel Castells)이 전망한 네트워크사회도 아닌 데이터 기반 사회–그냥 짧게 줄여서 데이터 사회(data society)라고 부르자–가 등장하고 있는 것이다.

Related image

앞 포스팅들에서 길게 논의했던 새로운 개념의 “지능(intelligence)”도 근본적으로는 데이터 사회의 한 측면이다. 인간, 사회조직, 자연, 심지어 우주에 관한 데이터의 폭발적 증가는 인류가 지금까지 경험해 보지 못한 새로운 모습의 사회를 탄생시키고 있다. 지능이 개인과 조직, 그리고 사회가 생존하는 데 있어 가장 중요한 생존 요인 중 하나가 된 것이 바로 데이터 때문이다.

이제 데이터(data)에 관해 얘기해 보자. 데이터를 제대로 규정하지 않고 데이터 사회를 논할 수는 없지 않겠는가.

데이터에 대한 정의는 학문 영역에 따라 상당히 다르다. 그것은 데이터를 전혀 다른 대상으로 간주하기 때문이라기보다 서로 다른 맥락에서 데이터를 바라보기 때문이거나 데이터의 서로 다른 측면을 분석하기 때문일 것이다. 데이터를 크게 공학적 관점과 인문/사회과학적 관점으로 나누어 살펴보자.

공학 중 데이터에 관해 가장 정교한 규정을 제시하는 분야는 경영정보학(MIS)이 아닐까 싶다. 경영정보학은 데이터가 핵심인 데이터베이스(D/B), 정보시스템(IS), 지식관리시스템(KMS), ERP(Enterprise Resource Planning), 데이터 마이닝(data mining), BI(Bussiness Intelligence) 등을 모두 다루어야 하기 때문일 것이다. 경영정보학에 의한 규정은 인접분야인 컴퓨터과학(computer science), 문헌정보학(library and information science), 교육공학(educational technology) 등과 공유된다.

경영정보학에서는 크게 세 가지 서로 다른 데이터 프레임워크(혹은 이론)가 제시되었다. 그중 가장 오랫동안, 그리고 가장 널리 수용되는 데이터 프레임워크는 가치 사슬 모형(value chain model), 흔히 DIKW 계층 모형이라고 알려진 것이다.

Image result

이 모형에서 데이터(data)는, 통상 가공되지 않은 상태의, 객체(objects)나 사건(events)에 대한 묘사(description) 혹은 사실(facts)을 의미하며, 정보(information)는 데이터를 가공한(processed: 분류, 요약, 혹은 이전되었다는 의미) 것으로, 맥락이 부여된(contextualized) 데이터이다. 따라서 데이터와 달리 정보는 의미(meaning)를 가지며, 특정한 용도에 유용하다. 또한 정보가 체계적으로 조직되면(organized) 지식(knowledge)이 되고, 지식이 고도로 추상화되면 지혜(wisdom)이 된다.

이 피라미드의 상부로 올라갈수록 가치(value)가 상승하는 것으로 간주된다. 이 때문에 이 모형은 가치 사슬 모형이라고 불린다.

이 피라미드 모형은 나름대로 유용하다. 데이터-정보-지식-지혜의 관계에 대해 최소한의 가이드라인이 되어주며, 나아가 연구자들에게, 지식, 정보, 데이터 중 어떤 것을 다루더라도 다른 두 가지와의 관계를 고려해야 하고, 앎(knowing)에 관한 어떤 모형도 이 세 가지 사이의 관계에 대해 명쾌한 해석 혹은 입장을 포함하고 있어야 함을 알려준다(Kettinger and Li, 2010).

지혜는 지식과 특별히 구분되지 않거나, 지나치게 추상적이기 때문에 실무 차원에서는 논외로 하는 경우가 많다. 예컨대 “이웃을 사랑하라” 혹은 “타인에게 자비를 베풀라”는 훌륭한 지혜이겠지만 현실 비즈니스에서 적용되기는 어렵지 않겠는가.

Related image

이 모형의 약점은 핵심 개념인 데이터, 정보, 지식 사이의 상관관계가 명백하지 않다는 사실이다. 특히 데이터와 정보, 그리고 정보와 지식의 개념적 관계가 애매하여, 연구자들 사이에 해석이 분분하다(Alavi and Leidner, 2001).

Tuomi (1999)는 가치 사슬 모형을 거꾸로 뒤집어 놓은 구체화 모형(materialization model)을 제안했다. 가치 사슬 모형과는 반대로 데이터는 정보로부터, 정보는 지식으로부터 생성된다는 인식이다. 지식이 데이터와 정보에 대한 인식의 출발점이라는 것이다. 이 모형의 가장 중요한 특징은 지식이 데이터와 정보로부터가 아니라 다른 원천으로부터 생성된다는 인식이다. Tuomi에 의하면, 노나카 이쿠지로(Nonaka Ikuziro)가 말하는 암묵적 지식(tacit knowledge)과 명시적 지식(explicit knowledge) 사이의 다이내믹한 상호작용은 지식이 생성되는 한 가지 방식이다.

잠재적 지식이 개념적으로 명료하게 표현되고(articulated), 구조화되면(sturctured), 지식은 정보가 되며(그렇다면 정보는 다름 아닌 명시적 지식!), 그렇게 만들어진 구조에 데이터를 수집해서 집어넣어 정보를 구체적으로 표현할 수 있다(아래 그림을 참조).

이 과정을 구체적인 사례를 갖고 보면 아래 그림과 같다. 보일-샤를의 법칙과 아보가드로의 법칙이라는 화학적 지식을 결합하여 이상기체 상태방정식(PV = nRT)를 도출하면 그것이 정보이다. 그리고 그 정보를 응용하면 체온계를 만들 수 있다. 그 체온계로 체온을 재면, 체온이 의미를 지닌 숫자–예컨대 36.5도–로 구체화되어 표현된다.이 과정에 의하면, 정보란 데이터에 의미를 추가해서 생성되는 것이 아니라, 지식으로부터 도출된다. 그리고 정보를 구조화하면 의미를 지닌 데이터가 창출될 수 있다.

세 번째로 소개할 데이터-정보-지식 프레임워크는 상호작용 모형(interactive model)이다. 이것은 정보가 지식과 데이터의 상호작용에 의해 생성된다는 발상으로 지식 기반의 정보이론(knowledge-based theory of information, KBI)이라고 불린다((Kettinger and Li, 2010). 이 모형의 핵심적인 인식은, 정보는 데이터와 지식의 결합 함수이며, 낮은 수준의 정보는 높은 수준의 정보를 생산하는 데 투입으로 사용된다(information is the joint function of data and knowledge, and lower level information is used as input to produce higher-level information)이다.

이 모형에서도 지식이 대단히 중요한 위치를 차지하고 있다. 지식은 구성물 사이의 관계에 대한 정당화된 진실한 믿음(justified true belief of the relationship between constructs)이다.

이 명제는 네 가지 의미를 내포하고 있다. 1) 지식은 믿음(belief)이다. 그런데 그 믿음은 추가적인 증거에 의해 일반화되거나(generalizable) 검증될 수 있는(verifiable) 것이어야 한다. 2) 지식은 진실이거나, 어떤 상황에서 진실에 접근해야 하며, 그리하여 실질적 목적을 위해서 의문의 여지가 없는 것으로 받아들여져야 한다. 3) 지식의 진실성은, 자격을 갖춘 엘리트(전문가, 권위자)에 의해 정당화되거나 인정되어야 한다. 이점이 지식을 정당화되지 못한 믿음과 구별시켜준다. 4) 지식은, 수단-목적 짝(mean-end pairs), 조건-행동 짝(condition-action)과 같이 구성물 사이의 관계(relationship between constructs)에 대한 믿음이다. 지식의 가장 흔한 형식은 IF-THEN 짝이다(사회학, 통계학에서는 가설 형식이라고 부름). 지식은 지식틀(knowledge frames), 지식지도(knowledge maps), 시맨틱 네트워크(semantic networks) 등과 같은 형식을 취할 수도 있다.

데이터는 객체나 사건에 관한 서술이나 측정값이다. 그것은 통상 객체나 사건의 속성(attributes of objects or events)들을 측정하는, 상호연관된 데이터 항목들의 집합(a set of interrelated data items)을 말한다.

S1: A 형 부품 17개가 남아 있다.

S2: 비가 내리고 있다.

이 두 진술은 ‘there-is(~있다)’ 유형으로, 어떤 존재하는 객체나 사건에 대한 사실(facts)에 관한 진술로 데이터이다. 데이터는 상황에 관한 선결조건(pre-conditions) 혹은 투입 값(input values)을 규정하고, 그것을 기반으로, 그 상황에서의 의사결정 혹은 행동의 선택을 가능하게 하는 정보가 생산된다. 그러나 데이터만으로는 행동이나 의사결정에 요청되는 정보를 낳을 수 없다.

정보는 지식 프레임워크를 토대로 데이터로부터 생산된 의미(meaning)이다. 지식 프레임워크는 목적 지향적 행동들을 위한 조건적인 준비의 상태의 선택과 결합되어 있다(Information is the meaning produced from data based on a knowledge framework that is associated with the selection of the state of conditional readiness for goal-directed activities).

이 규정은 의미(meaning)가 정보의 본질적 속성이라는 정보시스템 연구의 전통적인 관점을 반영하고 있다. 메시지의 의미를, 조건적 준비의 상태에 대해 수신자가 지닌 범위에 대한 선택적 기능이라고 볼 수 있다. 정보에 의해 선택, 판단, 혹은 불확실성 감소가 일어난다는 것이다.

예를 가지고 살펴보자. 위의 S1 데이터 명제와 관련된 아래와 같은 지식 명제를 생각할 수 있을 것이다.

S3:  만약 A형의 부품의 재고가 20개 이하이면, 부품 부족을 방지하기 위해 A형의 부품을 주문해야 한다.

지식 S3가 데이터 S1을 만나면, “A형 부품을 적어도 3개 이상 주문해야 한다”는 정보가 생성된다.

이 기본 모형은 좀 더 확대될 수 있다. 비와 외출에 관해서 두 가지 이론이 있다고 하자. 하나는 “S4: 비가 내리면 외출을 삼가한다.”, 그리고 다른 하나는 “S5: 비가 내리면 우산을 갖고 나간다.”라고 하자. 이 이론들이 S2(비가 내리고 있다)라는 데이터를 만나면, 그것이 이론 S4와 결합할 경우, “외출을 하지 않는다”라는 정보가 도출된다. 반면에, 이론 S5와 결합할 경우, “우산을 갖고 나간다”라는 정보가 도출된다. 동일한 데이터라도 적용되는 지식에 따라서 정보가 달라짐을 알 수 있다(아래 그림 참조).

KBI 이론에 따르면, 데이터가 정보의 주요 원천이기는 하지만, 정보는 또다른 원천으로부터도 생성된다. 그것은 다른 사람이 갖고 있는 정보(other people’s information)이다. 그런데 다른 사람의 정보는 이미 그 사람의 지식과 데이터의 결합에 의해 생성된 것이다.

이 모형은 데이터로부터의 정보가 생산되기 위해서는 지식을 필요로 하며, 지식이 변하면 정보도 달라짐을 시사한다. 가설적 수준의 이론이지만 대단히 흥미있는 모형이다. 이 모형은 다음에 소개할 사회과학적 관점과도 잘 어울리는 장점을 갖고 있다. (윤영민, 2018-03-05).

<참고문헌>

Alavi, M and Leidner DE (2001). “Knowledge management and knowledge management system: conceptual foundations and research issues.” MIS Quarterly 25(1): 107-136.

Kettinger, William J and Yuan Li (2010). “The infological equation extended: towards conceptual clarity in the relationship between data, information and knowledge,” European Journal of Information Systems, 19(4): 409-421.

Tuomi, I (1999). “Data is more than knowledge: implications of the reversed knowledge hierarchy for knowledge management and organizational memory.” Journal of Management Information Systems 16(3): 103-177.

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다