정보에 관한 지식기반 이론

2010년에 발표된 정보에 관한 지식기반 이론(Konwledge-Based Theory of Information, 이하 KBI)은 DIKW 모형을 개념적으로 계승하면서 한 단계 더 나이가 데이터, 정보, 지식 사이의 관계를 정교하게 규정하고 있다. KBI는 지식과 데이터가 상호작용하여 정보를 생성한다는 의미에서 상호작용적 모형(interactive model)이라고도 불린다.

KBI는 정보가 지식과 데이터로부터 생성된다는 인식에서 출발한다. 데이터는 상황에 관한 선결조건(pre-conditions) 혹은 투입값(input values)이며, 그것을 기반으로 정보가 생산된다. 정보는 주어진 상황에서 행위자가 의사결정 혹은 행동의 선택을 가능하게 하는 요소이다.  지식은 데이터로부터 정보가 생산되는 과정 혹은 프레임워크이다(아래 그림 참조).

KBI에서, 데이터는 “객체나 사건에 관한 서술 혹은 측정 결과”이다.  예컨대 “A형 부품이 17개 남아 있다” 혹은 “비가 내리고 있다”가 데이터이다. 이 데이터만으로서는 의사결정이나 행동을 선택하는데 필요한 정보가 생성될 수 없다. 거기에는 반드시 지식이 필요하다.

지식은 “구성물 사이의 관계에 대한 정당화된 진실된 믿음이다(is justified true belief of the relationship between constructs).” 이 정의를 풀어보면, 지식은 믿음의 한 유형인데, 그것은 진실이거나 진실에 접근하는 것이어야 하며,  전문가나 권위자에 의해 인정된 것이어야 한다. 다시 말해, 지식은 객관적으로 검증된 믿음, 권위있는 전문가들에 의해 인정된(혹은 합의된) 믿음이다.

그리고 지식은 구성물 사이의 관계에 대한 믿음이다. 지식의 가장 흔한 형식은 If-Then 짝이다. 예컨대 어떤 새가 백조라면, 그 새는 하얄 것이다라는 명제는 지식이다. 

정보는 지식 프레임워크(framework)를 토대로 데이터로부터 생산된 의미(meaning)이다. 의미란 어떤 경험에 부여된 해석을 말한다. 정보에 의해 선택, 판단, 혹은 불확실성의 감소가 일어난다.

아래 사례들을 보면, 지식, 데이터, 정보에 대한 KBI의 핵심적인 주장이 이해될 것이다.

(사례 1)

지식: 만약 A형의 부품의 재고가 20개 이하이면, 부품 부족을 예방하기 위해 A형의 부품을 주문해야 한다.

데이터: A형의 부품이 17개 남아 있다.

위의 지식과 데이터가 결합되면, A형 부품을 3개 이상 주문해야 한다는 정보가 생성된다. 

(사례 2)

지식: 만약 비가 내리고, 당신이 비를 맞기 싫어한다면, 외출하기 전에 우산을 챙겨야 한다.

데이터: 비가 내리고 있다.

정보: 위 지식과 데이터가 결합되면, 우산을 챙기라는 정보가 생산된다.

 KBI를 자율주행 자동차에 적용해 보면, 우선 자동차는 교통데이터, 도로데이터, 기후데이터, 사건데이터 등을 처리할 수 있는 데이터분석 모형이 필요할 것이다. 그리고 도로 상황, 교통 상황, 기후 상황, 사건 상황에 관한 데이터를 실시간으로 받을 수 있는 센서(sensor)나 네트워크이 필요할 것이다. 데이터 분석 모형은 지식 프레임워크에 해당되고, 센서에서 입력되는 신호는 데이터이다. 데이터 분석 모형이 센서 데이터를 받으면 실시간으로 액츄에이터(actuator)가 행동할 수 있는 정보를 생산할 것이다. 그 기능을 모두 갖춘 AI가 자동차에 내장되면 자율주행 자동차가 만들어 질 것이다.   

참고문헌: Kettinger, William J and Yuan Li (2010). “The infological equation extended: towards conceptual clarity in the relationship between data, information and knowledge,” European Journal of Information Systems, 19(4): 409-421.

사회제도

사회제도(social institution)처럼 다양한 의미를 갖는 용어도 드물 것이다. 사회제도는 법제도, 경제제도, 정치제도, 군사제도 등에 대응하는 개념으로 사용되기도 하고 그것들을 모두 포함하는 포괄적 개념으로 사용되기도 한다.

institutions and organizations 이미지 검색결과"

제도에 대한 다양한 관점과 인식을 반영하여 리차드 스콧(W. Richard Scott)은 매우 포괄적인 정의를 제시한다.

제도는 규제적, 규범적, 그리고 문화-인지적 요소들로 구성되며, 그것들과 관련된 활동 및 자원과 함께 사회생활에 안정과 의미를 제공한다(Institutions comprise regulative, normative, and cultural-cognitive elements that, together with associated activities and resources, provide stability and meaning to sical life)(Scott, 2014: 56).

이 정의에 따르면, 제도는 여러가지 측면을 지니고 있으며, 내구성을 지닌 사회구조이다. 무엇보다는 제도는 그것이 지향하는 가치 체계와 규범 질서를 갖고 있어, 구성원–사람도 되고 조직도 될 것이다–의 의사결정과 행동에 있어 방향과 의미를 부여해준다.  그리고 그러한 상징체계들이 작동하기 위해서는 인력과 물적 자원이 필요하다.  정의상 제도는 안정적이지만, 그렇다고 변화되지 않은 것은 아니다. 내적 동인이 제도에 변화를 가져오기도 하고 외부 충격이나 환경 변화에 의해 변화가 일어나기도 한다.

국가, 정부, 민주주의, 관료제, 결혼, 가족, 가부장제, 시장, 기업, 자본주의, 학교, 대학, 마을, 사회학, 정치학, 물리학, 생물학, 언론, 공영방송, 신문, 도서관, 우체국, 교회, 정시, 수시, 징병제, 모병제, 상비군 등이 모두 제도 혹은 사회제도이다. 정치제도, 경제제도, 언론제도, 우편제도, 교육제도, 공동체 제도, 학문제도, 입시제도, 군사제도 등이 모두 제도 혹은 사회제도의 유형이 될 수 있다. 제도는 그 안에 제도(들)를 가질 수도 있으며, 다수의 조직들이 포함될 수 있다.

참고로 우리말로 ‘제도’에 해당되는 영어 단어는 institution이지만, institution은 ‘제도’말고도 ‘기관'(예: 행정기관), ‘시설'(예: 복지시설) 이라는 의미로도 사용된다.

참고: Scott, W. Richard. 2014. Institutions and Organizations (4th Edition). Sage Publications, Inc. (2020-01-25)

작별의 꽃

김종량 이사장이 란을 보내주었다. 작별의 꽃이다. 사립대에서 교수에 대한 인사권은 재단 이사장에게 있다. 그래서 김 이사장이 란을 보냈을 것이다.

23년 전 한양대학교에 교수로 임용될 때 김 이사장은 총장이었다. 면접 때 그가 내게 했던 질문이 기억난다. 내 이력서에 적힌 신문 컬럼 리스트를 보고 그가 내게 물었다.

“이 컬럼들은 윤 박사가 모두 직접 쓴 것인가요?”

나는 그 질문에 적잖이 당혹했지만 짧지만 확고하게 대답했다.

“예.”

그렇게 그와의 인연, 그리고 한양대와의 인연이 시작되었다.

임용된 지 2년 반쯤 되었을 때 그는 나를 불러서 한양대의 인터넷 서비스를 획기적으로 바꿔달라고 요구했다. 그래서 나는 ‘인터넷 한양’이라는 부서를 부총장 직속기구로 만들고 그 조직의 장이 되었다.

나는 안산 캠퍼스에서 학생들을 가르치고 인터넷 한양 업무는 서울캠퍼스에서 수행해야했기 때문에 육체적으로 너무 힘들었다. 김 총장은 내게 잠실에 있는 학교 아파트 한 채를 내주었다.  4년 동안 내가 한양대 인터넷을 업그레이드 시키는데 있어 김 총장은 아낌없이 지원해주었다.

그러나 그 동안 학과 운영과 수업이 뒷전에 되어버린 탓에 나는 학생들에게 무척 미안했다. 심리적인 압박을 견디지 못했던 나는 총장의 간곡한 요청을 뿌리치고 보직을 그만 두었다. 건강 문제도 있기는 했지만 무엇보다 학생들을 제대로 가르치기 위해서였다.

그렇게 나는 총장의 ‘애정’을 ‘배신’했고 그와의 ‘각별’했던 인연이 끝이 났다. 그 후 지금까지 나는 한양의 1천5백명의 교수 중 평범한 1인이 되었다.

돌이켜보니 한양을 위해 내가 좀 더 기여할 수도 있었을텐데 하는 아쉬움이 든다.  인터넷을 변신시킨 것말고 나는 어떤 점에서도 그의 기대에 부응하지 못했다. 이사장께는 진심으로 죄송한 마음이다.

그래서 저 작별의 난은 내게 다소 각별한 느낌이 든다. 이사장은 그저 이번에 퇴직하는 교수들에게 자신의 이름으로 난을 보내도록 지시했을 뿐이겠지만 말이다. (2020-01-24)

DIKW 모형

데이터, 정보, 지식 사이의 관계를 이해하는 데 있어 아마도 가장 오래, 가장 널리 가이드 역할을 해온 개념적 틀은 DIKW 모형이다. DIKW는 Data(데이터), Information(정보), Knowledge(지식), Wisdom(지혜)의 머릿글자로 구성된 이름이다. 이 모형에 따르면, 데이터사물이나 사건에 대한 묘사(description)이며, 가공되지 않은 상태의 사실(facts)이다. 그리고 특정한 목적을 위해 데이터가 처리되면(혹은 추상되면) 그 목적에 유용한 정보가 된다. 나아가 정보가 체계화되면 지식이 되며, 지식이 고도로 추상화되면 지혜가 된다.

     

데이터-정보-지식-지혜는 위 그림과 같은  피라미드 구조를 가졌다고 해서 DIKW 피라미드 혹은 지식 피라미드라고 불리며, 데이터에서 지혜로 올라갈수록 가치가 올라간다고 해서 가치 위계 모형(value hierarchy model) 혹은 가치사슬모형(value chain model)이라고도 불린다. 이 모형은 데이터, 정보, 지식 사이의 관계에 대한 개괄적인 모습을 보여주는데 자주 사용되었다. 

위 그림에서처럼 이 모형은 데이터보다는 정보의 가치가 높고, 정보보다는 지식, 그리고 지식보다는 지혜의 가치가 높으며, 데이터에서 지혜로 올라갈수록 의미(meaning)도 크다고 규정한다. 

이 모형은 MIS(경영정보학), 컴퓨터과학, 문헌정보학, 교육학 등 여러 학문 분야에서 폭넓게 이용된다. 네 가지 요소 중 그 지위가 애매한 ‘지혜’를 제쳐 놓고 본다면, 이 피라미드 모형은 나름대로 유용하다. 그것은 우리에게, 지식, 정보, 데이터 중 어떤 것을 다루더라도 다른 두 가지와의 관계를 고려해야 하며, 앎(knowing)에 관한 어떤 모형도 이 세 가지 사이의 관계에 대해 명쾌한 해석 혹은 입장을 포함하고 있어야 함을 알려주고 있다.

그러나, 이 모형이 지니는 가치는 그 수준에서 그치는 것 같다.  무엇보다 데이터, 정보, 지식 사이의 관계, 특히 데이터와 정보, 정보와 지식 사이의 관계가 애매하기 때문이다. 데이터가 “처리되어” 혹은 “추상되어” 정보가 된다고 하지만, 데이터의 ‘처리’ 혹은 ‘추상’이 정확히 어떤 원리에 따라서 어떻게 이루어지는가가 불분명하다.

더구나 빅데이터의 시대에 있어 정말로 정보나 지식이 데이터보다 가치가 높은 지도 의문이다.  데이터 마이닝이나 데이터과학을 통해서 빅데이터는 특정한 정보나 지식보다 더 큰 가치 혹은 더 다양한 가치를 창출해 낼 수 있다. 즉, 가치 생성의 측면에서 데이터가 정보나 지식보다 더 큰 잠재성을 가질 수도 있다. 때문에 데이터에서 추상화된 정보나 지식보다 데이터 자체가 더 큰 값에 거래되곤 한다. (2020-01-23)

정보와 데이터, 그리고 정보사회학(2)

개념들 사이에 ‘정보(information)’와 ‘데이터(data)’만큼 헷갈리는 관계도 드물 것이다. 그 둘은 서로 뗄 수 없이 의존적이기도 하고, 마치 시대를 두고 헤게모니 쟁탈전을 하듯 서로 경쟁적이기도 하며, 때로는 서로 넘나들며 사용되는 유사어처럼 보이기도 한다. 무엇이 진실일까?

information data 이미지 검색결과"

데이터와 정보의 관계에서 가장 널리 인용되는 DIKW 모형(Data-Information-Knowledge-Wisdom model)에 따르면, 데이터가 추상되어 유용성을 획득하면 정보가 된다. 데이터는 객체나 사건에 관한 묘사이다. 데이터가 어떻게 추상되는지는 확실치 않지만 데이터와 정보가 구분되는 것만은 분명하다. 비교적 최근에 등장한 지식기반의 정보이론(knowlege-based theory of information)에 따르면, 지식 프레임에 데이터가 주어지면 의사결정이나 행동에 도움이 되는 정보가 생산된다. 다시 말해 데이터는 지식에 의해 수집되거나 생성되며, 지식에 의해 해석되어 의사결정이나 행동에 사용될 수 있는 정보가 생산된다. 여기서도 데이터는 정보와 분명히 구분된다.

그런데 수학적 정보이론에 따르면, 특정한 목적을 위해 송신자에서 수신자로 전달되는 내용이 정보이고, 정보는 그것이 지닌 불확실성의 양으로 측정될 수 있다. 이 때 ‘정보’를 ‘데이터’라는 용어로 대체해도 별로 문제될 것이 없다. 정보라고 불리던 데이터라고 불리던 측정 단위는 비트(bit)이다.

mathmatical theory of information 이미지 검색결과"

과거에 데이터는 객관성이 강조되었다. 자연과학이든 사회과학이든 데이터는 주로 과학실험이나 사회조사와 같은 과학적 방법에 의해 생산되었고, 과학적 방법의 핵심은 비개입적, 비관여적, 이상적으로 말하자면 무작위적(random)이어야 했다. 객관적이지 않은 데이터–예컨대 행정 데이터, 고객 데이터–는 그것의 가치를 인정받지 못했다.

그러나 빅데이터 시대가 데이터에 대한 사람들의 인식을 바꾸어 놓았다. 행정 기록, 교통 데이터, 거래 정보, 고객 정보 등과 같은 빅데이터를 다루는 데이터마이닝과 데이터과학은 객관성에 더 이상 집착하지 않는다. 현실 문제를 푸는데 도움이 된다면, 수익을 올리는 데 도움이 된다면 어떤 데이터든 마다 하지 않는다.

그래서 데이터에 관한 새로운 개념이 요구된다. 빅데이터 시대에 있어 데이터는 최소한 세 가지 속성을 갖는 것으로 생각된다.

첫째, 의도성이다. 데이터는 묘사(description)이다. 객체나 사건은 목적이나 의도 없이 존재할 수 있지만, 그것에 대한 묘사는 결코 그럴 수 없다. 묘사는 관찰의 결과이고, 객체나 사건에 대한 관찰은 반드시 누군가의 의도에 따라 이루어 지기 때문이다.

둘째, 고비용이다. 데이터가 생성되기 위해서는 누군가가 데이터의 수집을 기획하고 설계해야 하며, 그런 다음 사람이나 기계에 의해 데이터가 수집되고, 그 데이터는 정제된 후 데이터셋 혹은 데이터베이스로 구축된다. 데이터의 규모가 커지만 그것의 수집, 저장, 처리, 분석에 막대한 비용이 소요된다.

셋째, 기계 의존성이다. 데이터의 규모가 크면, 사람에 의해 수집되거나 처리되지 않는다. 빅데이터의 수집, 전송, 저장, 그리고 심지어 분석마저도 예외 없이 기계적으로 이루어진다. 그 과정에서 인간이 끼어들 여지가 별로 없다.

big data 이미지 검색결과"

그런데 위 세 가지를 데이터가 아니라 정보의 속성이라고 주장한들 무슨 문제가 있겠는가. 어쩌면 그것은 유용성을 가지고 데이터와 정보를 구분짓던 DIKW 모형이나 지식기반의 정보이론이 빅데이터 환경에 적합하지 않음을 의미할 수 있다.

만약 정보와 데이터가 서로 넘나들 수 있는 유사 개념으로 간주된다면, 그것을 연구하는 학문 분야를 정보사회학이라고 부르던 데이터사회학이라고 부르던 무슨 차이가 있겠는가. 그런 경우 새로운 학문 분야를 만들기 보다는 이미 제도화 과정에 있는 정보사회학의 영역을 확장하는 것이 낫지 않을까? (2020-01-20)

정보와 데이터, 그리고 정보사회학(1)

이땅에 정보사회학이라는 학문 제도가 도입된 지도 벌써 25년 가까이 흘렀다. 요즘같은 광속의 시대에 있어 25년은 참으로 긴 세월이다.

그 사반세기 동안 정보사회학의 연구 대상이 되는 정보기술과 사회 혹은 정보기술과 인간의 접점에 커다란 변화가 일어났다. 정보사회학은 지속적으로 그 접점을 해명하고 예측했으며, 나아가 문제 해결에 참여하기도 했다.

25년 전에는 정보(information)가 세상을 밝히는 키워드였다. 새넌(Claude Shannon)의 수학적 ‘정보’이론 덕분에 디지털 세상이 열렸고 생명과학자들은 ‘정보’의 생성과 전달이 생명의 핵심인 RNA나 DNA의 주요한 기능이라고 주장했다.  정보, 정보기술, 정보시스템, 정보산업, 정보기술(IT) 업체 같은 용어들이 시대를 끌고 갔고 정보라는 수식어는 시대적 유행이 되었다. ‘정보’는 곧 ‘첨단’이란 의미로 수용되었다.

그런데 수년 전부터 사정이 바뀌었다. 어느새 ‘정보’는 다소 진부한 혹은 낙후된 인상을 주는 용어로 퇴색되었다. ‘정보’ 자리에는 ‘데이터’ 혹은 ‘빅데이터’가 들어섰다.

사실 사회적 기원을 따져보면 ‘정보’보다는 ‘데이터’가 더 오래 더 널리 사용되었다. 사회조사와 통계학의 역사를 따져본다면 현대적 의미의 데이터 활용은 적어도 1백년은 쉽사리 거슬러 올라갈 수 있을 것이다.  전국적인 규모의 여론조사나 인구센서스가 시작된 지 1백년 정도 되었고 자연과학 뿐 아니라 사회과학에서 통계학이 정통의 분석 도구로 자리잡기 시작한 것도 그 정도는 되었으니 말이다.

그렇다고 데이터가 오늘날처럼 높은 문명적 지위를 가졌던 것은 아니다. 데이터는 귀했고 통계학은 인구 예측과 관리, 행정, 군사, 과학 실험, 사회조사, 공장 관리, 그리고 일부 기업 경영 등에서 전문가들이 사용하는 도구에 지나지 않았다.

이미 적지 않은 전문가, 학자, 언론, 행정가, 심지어 정치가들이 ‘정보’ 대신 ‘데이터’라는 용어를 사용하려는 경향을 보이고 있다. 아래 구글 트렌드 그래프는 사람들의 관심이 ‘정보’에서 ‘데이터’로 이동해왔음을 잘 보여주고 있다. 그래프는 전세계에서 ‘정보’와 ‘데이터’라는 용어를 검색한 빈도를 표시하고 있다.

붉은 선은 ‘정보’, 파란 선은 ‘데이터’의 검색 수준을 나타낸다. 구글의 데이터 기록이 시작된 2004년에 ‘정보’의 검색 빈도를 100으로 본다면 ‘데이터’는 약 70% 수준이었다. 그러나 이미 ‘정보’의 인기는 시들기 시작했고 현재까지 지속적으로 하강하고 있다. 반면에 2004년 이후 ‘데이터’의 인기도 다소 하향하기 시작했지만 2007년 혹은 2008년 이후 소강상태를 보이다 2013년 무렵부터는 완만하게 상승하고 있다. 대체로 2007년경을 전후해서 ‘정보’와 ‘데이터’의 위상이 뒤바뀌기 시작한 것으로 보인다.  구글 검색 통계로 본 2020년 현재 ‘정보’의 인기는 2004년 수준에 비하면 10분의 1정도로 하락했으며, ‘데이터’의 인기는 ‘정보’의 그것의 거의 세 배 수준에 달하고 있다.

‘정보사회학’의 개명이 필요한 것일까? 대중의 관심과 인기를 기준으로 한다면, 동일한 분야의 학문명으로 ‘정보사회학’을 버리고 ‘데이터사회학’을 취하는 것이 답일 것도 같다.

그러나 정보사회학은 ‘정보’의 사회학, 정보’에 관한 사회학적 연구가 아니다. 그것은 하나의 사회제도(social institution)이다. 학문이나 사회학이 사회제도인것처럼 정보사회학도 하나의 사회제도이다. 그것의 연구 대상은 정보를 넘어서 정보기술, 정보시스템, 정보산업은 물론이고 데이터, 빅데이터, 데이터 마이닝, 심지어 AI에까지도 확장될 수 있다. 사회제도란 조직, 재정적 자원, 그리고 충성을 다하는 구성원들이 있는 안정된 사회구조이다. 사회제도는 환경의 변화에도 잘 적응하고 잘 버틴다. 가부장제도, 결혼, 혹은 국가라는 사회제도를  생각해보라. 적어도 2천년 이상 유지되고 있지 않는가.

정보사회학은 제도화에 나선 지 25년 정도밖에 되지 않았다. 하나의 사회제도로서는 이제 시작단계에 불과하지만 문제는 그 25년이 엄청난 격동의 시간이었다는 사실이다. 그 사이에 세상을 보는 지배적인 프레임이 ‘정보’에서 ‘데이터’로 이동해 버렸다.

그러한 시대적 전환은 정보사회학에게 던져진 거대한 도전이자 기회이다. 정보사회학은 기술 변화의 파고에 좌초될 수도 있고 반대로 새롭게 태어나거나 영역이 확장될 수도 있다.

현재로서는 정보사회학의 미래가 밝지 않다. 정보사회학에 충성을 다하면서 유능한 구성원들이 별로 눈에 띄지 않기 때문이다.

그렇다고 절망하기는 너무 이른 것 같다. 정보사회학말고 어느 사회과학이 비판적 관점에서 인터넷, 소셜미디어, 스마트폰, 빅데이터, 데이터 마이닝, 데이터분석, AI 등을 체계적으로 분석할 것인가.

사회제도는 생물과 같다. 탄생, 성장, 쇠퇴, 소멸을 겪는다는 의미에서 말이다. 누구도 한 사회제도의 라이프 사이클을 예단할 수 없다. 정보사회학에 대해서도 마찬가지이리라. (2020-01-19)

친구의 마음

몇 달 전 전주에 사는 친구가 집에 놀러왔다. 그는 거실 벽의 그림을 보더니 너무 어둡다고 밝은 그림으로 바꾸어 거는 게 어떠냐고 제안했다. 아내와 내가 좋아하는 그림이지만 플란테이션 노동자의 고통스런 얼굴을 커피 찌꺼기로 형상화한 부조여서 분위기가 좀 어두웠다. 내가 좋은 생각이라고 응수했더니 자기가 소장한 그림 중 하나를 장기대여해주겠다고 했다. 나는 웃으면서 “그러면 좋지요”라고 건성으로 응답했다.

작가 미상

그런데 그 친구가 엊그제 전화를 하더니 카톡으로 사진을 보냈으니 그림 둘 중 하나를 고르라는 것이었다. 아내와 상의해서 포구 그림을 선택했다.

어제 그가 그림을 가지고 와서 함께 걸었다. 거실이 한층 환해보였다.

마침 김치를 담은 날이어서 수육을 삶아 새 김치와 어리굴젓에 친구 부부와 막걸리를 한잔 했다. 늙은 나이에 마음을 나눌 수 있는 몇몇 친구가 있다는 건 얼마나 감사할 일인지….(2019-12-20)

어떤 사회학자의 죽음

새벽에 눈을 뜨고 갑자기 한신갑의 근황이 궁금했다. 정말 뜬금없는 일이었다. 안지는 오래되었지만 단 한번도 친근한 관계가 아니었기 때문이다. 내가 그를 마지막 본 것은 몇년 전 공항 대합실에서 둘째의 귀국을 기다릴 때였다. 그는  악수조차 건네지 않고 알 수 없는 미소를 지으며 사라졌다. 우리는 그 정도로 대면대면한 사이였다. 그런데 꼭두 새벽에 그의 안부가 궁금해 진 것이다.

네이버에서 검색하니 “2019년 9월 12일자로 한신갑(서울대교수)씨 별세”라는 부고 기사가 떴다. 그 부고를 믿을 수 없어 구글에서도 검색을 했다. 서울대 사회학과 홈페이지에 “고 한신갑 교수”라고 뜨는 걸 보니 그가 세상을 떠난 게 분명했다. 나보다 여섯 살이나 아래인데….그의 사인이 궁금했지만 어디서도 찾을 수 없었다.

1986년 미국 South Carolina 주 Columbia에 있는 USC에 유학을 가니 사회학과에 나보다 1년 먼저 유학을 와 있었다. 그와 나는 그곳의 석사과정에 1년을 함께 재학했다. 함께 강의를 수강한 적은 없고 유학생들이 모여서 식사를 할 때 자리를 같이 하는 정도였다. 이유를 알 수 없었지만 우리는 거리가 멀었다.

나중에 그가 코넬대 교수로 가 있다가 귀국해 서울대학교에 부임했다는 소식을 들었다. 그 후 언젠가 학회 세미나에서 한 번 같은 발표장에 자리한 적이 있었지만, 악수를 하고 몇 마디 인삿말을 주고받은 다음 바로 헤어졌다.

그런데 몇 년 전 그에 관한 뉴스가 나오기 시작했다. 대학원생 성희롱, 갑질, 연구비 횡령에 관한 기사였다. 서울대 사회학과 대학원생들이 단체로 들고 일어나서 그의 해임을 촉구한다는 것이었다.

한번은 대학원생들이 그의 잘못에 대해 상세하게 적은 글을 읽었다. 정확히 기억할 수는 없지만 적어도 스무 가지가 넘는 죄상이 깨알 같이 적혀 있었다. 그가 학생들에게 정말 못되게 굴었구나 하는 생각이 들었다. 과거 함께 대학원에 다닐 때를 떠올려 보니 놀라운 일은 아니었다. 그래도 20여 년의 세월이 못된 성질을 바꿀 수도 있었을텐데하는 안타까움도 들었다.

그러나 나는 대자보에 학생들이 써서 올린 그의 죄상에 대해 절반은 공감할 수 없었다. 학생들의 비난이 많이 지나치다는 느낌이 들었다. 그의 성격이 좀 못되기는 하지만 그가 그 정도로 형편없는 인간이라고 생각되지는 않았기 때문이다.

그는 대학으로부터 정직 3개월의 징계를 받았다. 그리고 그가 복직하려고 할 때 학생들은 물론이고 동료 교수들마저 반대 성명을 발표했다는 소식을 들었다. 그 때 나는 나 같으면 그냥 학교를 그만 둘텐데 하는 생각을 했다.

그리고 오늘 아침 때늦게 그의 부고 기사를 본 것이었다. 사망 원인은 알 수 없지만 자살이거나 스트레스로 인한 돌연사가 아닐까 추측된다. 그 정도의 스트레스에 시달린다면 나 같아도 죽었을 것이다.

그는 대학원에서 수리사회학을 공부하고 사회연결망분석의 전문가가 되었다. 사회연결망분석은 당시 똘똘한 미국 사회학 대학원생들에게 인기 있는 분야였다. (나도 잠시 그 분야를 탐색하다가 지나치게 비이론적이고 데이터 의존적이라서 손을 뗐다. 전혀 흥미가 나지 않았다.) 지난 10여 년 사이 빅데이터 시대가 되고나고 그 분야는 온갖 학문 전공에서 크게 부상하였다. 그는 자신의 시대가 왔다고 도래했다고 착각했을 수도 있다.

한 사람이 일생 동안 이룰 수 있는 일은 별로 많지 않은 것 같다. 그가 다소 요란스럽게 보낸 학자로서의 일생 동안 성취한 것이 무엇인가. 긴 인류 역사에서 한 톨의 모래만큼이나 될까. 기껏해야 한번의 파도만으로도 흔적 없이 쓸려가버리는 모래성에 불과할 것이다.

나라고 다를까? 누구라고 다를까? 어쩌면 인간의 삶이 본질적으로 그토록 허무한 것인지도 모른다.

사이가 가깝지는 않았지만 늦게나마 그의 명복을 빈다. (2019-12-16)

떠남…(2) 대학에서의 수업 마지막 날

관련 이미지

새벽 4시에 눈을 떴다. 마지막 수업을 하는 날. 가르치고 싶은 게 좀 많이 남아서 정교하게 수업 시나리오를 짰다. 1분도 허비할 수가 없다. 마지막 공연이다!

이 공연이 끝나면 나는 영원히 해방될 것이다. 지구 여행에서 피할 수 없는 ‘직업’과 ‘노동’이라는 무게로부터 말이다.

남보다 1년 빠른 7살에 국민학교(초등학교)에 입학해서, 대학도 남보다 1년 빠른 19살에 입학하였으나 고 박정희 대통령  덕분(?)에 남보다 한참 늦은 29살에야 대학을 졸업했다. 그 후 직장 생활 2년 6개월 하고 남보다 한참 늦은 32살에 유학을 가서 대학원 공부를 시작했고, 남보다 한참 늦은 39살에 박사 학위를 받았다. 머리가 나빠서 공부를 오래하게 되었지만, 사회학 분야의 세계 최고 대학원에서 걸출한 학자들로부터 직접 학문과 삶을 배우는 행운을 안았다.

그 후 예상치 않게 3년 동안이나 시간 강사와 임시직 연구원을 전전하는 시련의 시간을 보내고 남보다 한참 늦은 42살에야 겨우 대학 정규직 교원이 되었다. 나를 더욱 강하고 겸손하게 만들고자 하는 신의 배려였던가. 그렇게 어렵사리 들어간 대학교수직을 지병으로 인해 몇 차례 위기를 겪고 이제 남보다 1년 반 빠르게 물러난다.

교수가 된 후 6개월만에 학과장이 되었고, 2년반만에 부처장이 되었으며, 3년반만에 차관급 대통령 자문위원이 되었다. 남들은 대학 재직 30년이 넘어야 받는 홍조근정훈장을 대학 재직 5년만에 대통령으로부터 직접 수여받았다. 교수가 된 이후에는 모든 것이 초고속이었던 셈이다.

사단법인 한국정보사회학회를 창립했고, 재단법인 아시아미래재단을 만들었으며, 사단법인 한국데이터사이언스학회를 설립했다. 유네스코한국위원회의 위원으로 5년 이상 봉사했고, 크리스찬 아카데미 등 시민단체 활동에도 열심히 참여했다.

저술에 있어서는 2편의 저서가 문화관광부와 대한민국 학술원에 의해 우수도서로 선정되는 영광을 안았고, 10여 편의 저서와 20여 편 이상의 논문, 그리고 기억할 수 없을 만큼 많은 수의 연구보고서를 썼다.

신문 컬럼도 많이 썼다. 어느 중앙 일간지에는 내 이름의 기명 컬럼을 20회 연재했고, 명사컬럼 필진으로도 참여했다, 많을 때는 한 해 50개 이상의 신문 컬럼을 기고했다. 고향에 계신 부모님을 위해 TV 좌담, 라디오 프로그램의 신념 대담 등 방송에도 가끔 출연했다.

정권 후반 자식들 문제로 어려움을 겪는 DJ가 안타까워 정부 일에 끌려들어갔다. DJ는 내가 초등학생 때부터 매료된 정치인이었다. 그래서 본의 아니게 사회학자가 전자정부 전문가가 되었다. 전자정부는 대통령으로서 DJ가 추진한 마지막 사업이었다.

국민의 정부와 참여정부에서 전자정부 일을 하는 동안 20개 이상의 정보 시스템 구축을 도왔다. 공인인증서 보급 및 국가 암호기반 구축, G4C(민원 24), 국민신문고, 나이스 등에 깊이 관여했다. 특히 많은 세금을 들여서 구축한 나이스(교육행정정보시스템)를 오픈하지 못하고 있을 때 정부의 요청을 받고 그 문제를 해결하는 데 있어 핵심적인 역할을 했던 기억이 새롭다. 덕분에 2018년에는 전자정부 50년 명예의 전당에 헌정되는 영예를 안았다.

2002년 대선 때는 노무현 후보의 당선을 위해 꽤나 많은 공을 들였다. 그러나 정치가와 행정직이 자유로운 내 영혼에 어울리지 않음을 깨닫고 일찍 손을 털었다.

크게 화려할 것은 없었지만 짧은 지구여행 동안 하느님이 내게 주신 능력과 기회를 최대한 살려서 원없이 달렸고 많은 행운을 누렸다. 이 여정을 허락해준 하느님과 부모님, 날 버리지 않고 38년 동안 고락을 함께 해준 아내, 결함 투성이의 아빠를 잘 참아준 세 아이에게 감사할 따름이다.

이제, 그 모든 추억과 부담을 뒤로 하고 은퇴자의 삶을 시작한다. 해방이다!

 

표와 그래프(7): 행렬로 푸는 최소자승 회귀모형

(2) 선형대수에 다소 익숙한 독자를 위한 설명

다중회귀분석에는 행렬(matrix) 계산이 필요하다. 단순회귀모형에 예측변수나 통제변수가 추가되면 회귀모형의 항(term)이 늘어나고 여러 개의 회귀계수를 추정해야 하기 때문이다. 정규방정식 도출과정에 필요한 값들을 아래와 같이 정의하고 시작하자.

   

잔차 차원의 열벡터, 회귀계수(절편 포함)    차원의 열벡터, 독립변수 차원의 행렬이다. 의 첫 열의 성분이 1인 것은 상수항을 표시하기 위함이다. 끝으로   차원의 열벡터이다.

행렬을 사용하면 잔차제곱합은 식 (1)과 같이 표현된다. 잔차제곱합은 벡터 의 전치행렬(행벡터)과 벡터 (열벡터)의 곱이다.

그런데, 이고, 이므로,

식 (2)를 식 (1)에 대입하면,

그런데 식 (3)에서  의 차원이 이므로 대칭행렬이다. 따라서 그것의 전치행렬인 는 그 자신과 같다. 그런데이므로 로 쓸 수있다.

최소자승법을 적용하려면 식 (3)을 에 관해 미분한 값을 0으로 만드는  값을 구한다.

식 (4)에서 는 가 대칭행렬이므로 이차형식(quatratic form)이다. 이차형식의 미분은 앞 전치 벡터 부분을 2로 바꾸어 주면 되므로  이다.

최소자승의 조건은 식 (5)로 간단히 정리된다.

식 (5)의 첫 항을 우변으로 넘겨서 다시 쓰면,

양변을 2로 나누면,

양변에 의 역행렬을 곱해주면(는 정방행렬이 아니므로 역행렬이 존재하지 않으므로, 의 역행렬을 곱해준다),

그러므로

식 (6)은 유명한(?) 회귀모형의 정규방정식이다. 그것은 최소자승법에 의한 회귀계수 추정값은 X의 대칭행렬(X의 전치행렬과 X 행렬의 곱)의 역행렬에 X의 전치행렬과 Y 벡터를 곱하면 구할 수 있음을 의미한다. 단순회귀모형를 가지고 보면, 식 (6)은  표와 그래프(4): 최소자승 회귀분석에서 나온 식 (7)과 (8)의 정규방정식을 행렬로 표현한 것이다. 그런데  행렬접근을 하면, 대수적 접근과 달리 독립변수가 몇 개든 회귀계수를 구하는 데 이 공식 하나면 충분하다.그것은 행렬이 주는 큰 혜택이다. 데이터를 가지고 이 행렬의 연산을 수행하면 회귀계수 값을 구할 수 있다.

예측변수가 3개 이상이 되면 대수를 사용해 회귀모형을 찾기가 무척 어렵다. 따라서 그 과정에 행렬이 사용되어야 한다.

그런데 회귀모형 계산 과정을 완전히 이해하지 못한다고 현실에서 다중회귀분석을 사용할 수 없는 것은 아니다. 다중회귀모형을 개념적으로 이해하는데 회귀계수의 도출 과정에 대한 이해가 꼭 필요한 것도 아니고, 회귀계수를 계산하는데도 그 과정이나 공식에 대한 이해가 꼭 필요한 것도 아니다. 회귀계수를 찾는 과정을 수학적으로 잘 이해하면 자신이 사용하는 통계기법의 전체를 이해하지 못해 가졌던 찝찝함을 떨쳐 버릴 수 있어 좋기는 하지만 말이다.

또한 행렬 접근은 독립변수의 갯수가 증가하고 표본의 크기가 커지면 부딪치게 되는 소위 ‘차원의 저주’를 이해하는데도 도움이 된다. 독립변수의 갯수가 증가하면 X 벡터의 차원이 증가하며, 표본의 크기가 크게 증가하면 방정식의 갯수(사례수와 같다)도 그만큼 많이 증가한다. 그렇게 되면 아래의 행렬은 엄청나게 커지게 된다.

독립변수(혹은 예측변수)의 갯수(p)가 1천개이고, 표본의 크기(n)가 3천만 개라고 상상해 보라. 1천개의 항을 가진 방정식 3천만 개를 가지고 해를 찾아야 하지 않겠는가. 그 계산은 고성능 PC조차도 크게 힘겹다. 때문에 빅데이터 분석에서 회귀 모형(알고리즘)이 인기가 좋지만 표본의 사례를 모두 써야하는 최소자승법 대신 일부 사례만 가지고도 적합선을 찾을 수 있는 경사하강법이 사용된다.

그렇다고 최소자승 회귀모형이 시대에 뒤떨어진 것이라고 말할 수는 없다. 아직도 그리고 앞으로도 오랫동안 많은 분야에서 최소자승 회귀모형이 사용될 것이다. 대학에서 그것을 공부할만한 가치가 충분하다고 생각된다.

9개 사례로 된 미니 표본을 가지고 행렬로 회귀계수를 구해 보자. 아래 그림을 클릭하면 사례가 담긴 엑셀 파일을 사용할 수 있다.

인구 1천명 당 흑인 수(B)와 하층 인구의 비율(LSTAT)을 가지고 미국의 도시 집값의 중간 가격(MEDV)을 예측하는 모형을 구해보는 사례이다.

1) 계산을 수행하기 전에 먼저 데이터셋에 상수 필드를 추가한다(붉은 색으로 된 필드이다). 절편 열을 독립변수 행렬에 추가하기 위해서이다.

2) 식 (6)을 적용하기 위해 독립변수 행렬 X의 전치행렬을 구한다. 전치한 결과가 들어갈 범위를 선택하고 =TRANSPOSE(A1:C10)를 친 다음 Cntl+Shift+Enter를 누른다.

3) 그렇게 해서 구한 X의 전치행렬과 행렬 X를 곱한다. 곱한 결과가 들어갈 범위를 선택하고, MMULT 함수를 사용하여 결과를 구한다.

4) 그 행렬의 역행렬을 구한다. 역행렬이 들어갈 범위를 선택하고, MINVERSE 함수를 사용하여 결과를 구한다.

5) 그 역행렬에 X의 전치행렬을 곱한다. 곱한 결과가 들어갈 범위를 선택하고, MMULT 함수를 사용하여 결과를 구한다.

6) 그렇게 구한 행렬에 Y 벡터를 곱한다. 들어갈 범위를 선택하고, MMULT 함수를 사용하여 결과를 구한다.

행렬을 이용하면 절편과 회귀계수들이 한번에 구해진다. LSTAT의 회귀계수는 -0.57688, B의 회귀계수는 -0.19531, Y 절편은 110.2711이다. 엑셀의 ‘데이터분석’ 애드인의 회귀분석 기능을 사용하면 동일한 결과를 얻을 수 있을 것이다.

현실에서 이러한 과정으로 회귀모형을 구할 가능성은 없다. 표본의 크기가 20~30만 되도 계산 과정이 너무 번잡해 진다. 정규방정식을 사용하면, 다중회귀모형의 회귀계수 값이 그러한 과정을 거쳐서 계산된다는 점을 이해하는 것으로 충분하다. (2019-12-07)