사회통계입문(2): 데이터(data)란?

[문제] 아래 세 사진의 공통점은?

위 세 사진의 공통점은 모두 데이터(data)라는 사실이다.  첫 번째 사진은 영화 ‘스타트랙’의 배역 중 1인인 ‘데이터’라는 이름의 A.I.이고, 두 번째 사진은 네플릭스가 투자하여 제작하고, 개봉하자마자 스마트폰에서 스트리밍 서비스를 시작한 영화 ‘옥자’의 포스터이다. 영화 ‘옥자’는 그 자체가 데이터이기 때문에 가능한 일이었다. 세 번째 사진은 스마트폰 속의 은행인 카카오뱅크이다. 카뱅은 오프라인 지점이 없는 은행이다. 카뱅은 그 자체가 데이터이다.

오랫동안 데이터란 어떤 조사 대상–존재, 심리상태, 사건, 현상 등–의 흔적, 편린, 혹은 특성을 가르키는 용어였다. 즉, 데이터는 “~~에 대한 것”이었다. 그러나 데이터 기반 사회에서 테이터는 더 이상 “~~에 대한 것”에 그치지 않는다. 스타트랙의 배역이나 카카오뱅크처럼 데이터는 어떤 존재 자체일 수도 있고, 사이버 성희롱처럼 사건 자체일 수도 있으며, 뇌파로 기록된 심리 자체일 수도 있고, 인터넷 거래, SNS의 댓글이나 ‘좋아요’ 같은 현상 자체일 수도 있다. 데이터 분석이나 활용에 앞서 데이터에 대한 인식의 전환이 요구된다.

빅데이터, 상관관계, 예측….거품?

%eb%b9%85%eb%8d%b0%ec%9d%b4%ed%84%b0%eb%8a%94%ea%b1%b0%ed%92%88%ec%9d%b4%eb%8b%a4

결론부터 말하겠다. 우리나라에서 ‘빅데이터’는 시작부터 거품이었다. 그러나  ‘빅데이터’를 둘러싼 온갖 거품을 걷어내고 나더라도 기존의 계량적 사회과학 페러다임에 대해 ‘빅데이터’로 불리는 새로운 데이터 환경이 제기하는 도전은 여전히 유효하다.

아마존(amazon.com)을 가지고 이야기를 시작하자.  아마존은 추천 엔진(recommendation engine)이라는 기술-문화적 아이템을 세상에 내놓았다. 그렇다고 아마존이 사업 초기부터 추천 엔진을 사용하지는 않았다. 처음에 아마존 웹사이트는 전문가들이 작성한 서평(추천)을 게시했다. 그 서평은 인기가 있었고 책 판매에 상당한 효과를 가져왔다. 하지만 그 성과에 만족하지 않았던 아마존의 CEO 제프 베조스(Jeff Bezos)는 고객들 자신의 구매 선호를 기반으로 책을 추천하면 어떨까 상상했다. 그렇게 해서 아마존의 책 추천 엔진이 개발되었다. 오래지 않아 알고리즘에 의한 책 추천은 전문가에 의한 책 추천을 완전히 대체하였으며, 아마존의 성공에 자극을 받은 대형 인터넷 쇼핑 사이트들도 앞다투어 추천 시스템을 도입하였다.

아마존의 추천 엔진은 품목-대-품목 협업 필터링(Item-to-item collaborative filtering)이라는 알고리즘을 사용한다. 설명을 단순화하기 위해 아마존에 네 권의 책(A,B,C,D)만 있고 사용자가 두 명(User 1, 2)만 있다고 하자. 만약 새로운 사용자(User 3)가 A라는 책을 보았다면 그에게 어떤 다른 책을 추천하면 좋을까? 아마존의 추천 엔진은 기존 사용자들(User 1, 2)의 책 탐색 기록 정보를 이용해서 A와 가장 상관성이 높은 책들을 추천한다(아래 그림 참조).

recommendation_flow_i2i3
이 그림은 Software Programming blog의 How does the Amazon recommendation system work?에서 가져왔음. https://kunuk.wordpress.com/2012/03/04/how-does-the-amazon- recommendation-system-work-analyze-the-algorithm-and-make-a-prototype-that-visualizes-the-algorithm/

이 과정을 수학적으로 설명하면, <그림 1>에서 User 1은 [B, C, B] 순으로 검색했고, User 2는 [C, A, B] 순으로 검색했다. 이 정보를 가지고 품목-대-품목 행렬을 구하면 우측의 상단과 같다. 이 행렬을 가지고 두 벡터(vector) 끼리의 코사인 유사도(Cosine Similarity, CosSim)를 구한다. 아래 식(1)에서처럼 두 벡터의 내적(inner product)을 두 벡터의 노름(norm, 벡터의 크기)의 곱으로 나누어 코사인값을 구하면 된다.

이렇게 구한 유사도는 –1에서 1까지 값을 갖는다. 코사인 유사도 –1은 두 벡터가 서로 완전히 반대 방향인 경우, 코사인 유사도 1은 두 벡터가 완전히 방향이 같은 경우, 그리고 코사인 유사도 0은 두 벡터가 서로 독립적인 경우를 가리킨다. 정보나 책 검색에서 빈도가 음의 값을 가질 수 없으므로 코사인 유사도는 0에서 1까지의 값을 갖는다.

굳이 코사인 유사도를 구하는 공식을 가져온 이유는 그것이 상관성 척도임을 보여주기 위해서이다. 사회과학에서 사용하는 피어슨 상관(Pearson correlation)은 아래와 같은 식으로 구할 수 있다.

식(1)과 식(2) 를 비교해 보면 가 로, 는 로 대치되었을 뿐임을 알 수 있다. 결국, 이 된다. 각 벡터의 평균을 뺀 값으로 계산된 유사도가 피어슨 상관이다(O’Conner, 2012).

아마존 추천엔진의 사례는 다섯 가지를 시사한다.

첫째, 인과성의 발견이 더 이상 사회과학의 금과옥조가 될 수 없다. 당연히 세상을 이해하려면 인과성의 발견이 계속되어야 한다. 그것은 사회과학자에 주어진 사명이다.  그러나 오직 인과성이라는 창을 통해서만 세상을 이해하고 사회현상(심지어 자연현상)을 예측할 수 있다는 주장은 사회과학자들의 아집과 환상에 불과하다.

아마존이 인터넷 비즈니스 초기에 도입한 전문가 서평(추천)은 인과관계에 근거한 비즈니스 모형이라고 할 수 있다.  만약 책 추천을 위한 인과 모형을 만든다면, 그것은 고객의 개인 속성(나이, 학력, 전공 분야, 직업, 성별, 혼인상태, 취미 등)과 외부 요인(전문가 서평, 광고 등)으로 구성되었을 것이다.  아마존은 상관 모형을 택해서 전혀 다른 길을 갔다.  그리고 상관관계 기반의 추천 시스템은 아마존의 사업 성공에 크게 기여하였다.

둘째, 아마존의 추천 엔진은 ‘빅데이터'(양, 속도, 형태의 어느 기준으로도 봐도 빅데이터임에 틀림없다)에 의존하고 있다. 위에 든 예는 4권의 책과 3명의 고객만을 가정했지만, 현실에서는  4백만권의 책과 3천만명의 고객일지도 모른다. 그렇게 되면 품목-대-품목 행렬이 얼마나 크겠는가. 그리고 요즘 아마존은 심지어 고객들의 클릭 데이터까지 실시간으로 책 추천에 반영하려고 하고 있다. 아마존에게 있어 ‘빅데이터’는 거품이 아니라 가장 중대한 사업 문제를 해결하는 열쇠이다.

셋째, ‘빅데이터’는 대단히 실용적인 동기에서 출발했다. 아마존은 개별 사용자의 관심이나 선호에 대해 예측함으로써 서비스 사용자가 안게 되는 정보과잉(information overloading)의 문제를 풀려고 했다. 아마존은 사용자가 책을 찾는데 시간과 노력을 많이 투입할 수 없다는 가정 아래 데이터 분석을 통해서 사용자에게 가장 적합한 책을 선별해서 제시하려고 했다. 한 마디로 ‘빅데이터’에서는 과학적 발견(설명)보다는 실용성(예측)이 우선적인 목표가 되어왔다. 아마존의 사례는 상관관계 기반의 추천 모형이 사업 목적에 매우 잘 부합되도록 작동하고 있음을 보여준다.

넷째, 사람이 아니라 컴퓨터 알고리즘이 고객에게 상품을 추천한다. 빅데이터 덕분에(혹은 빅데이터 때문에) 데이터의 수집, 처리, 분석을 이제 사람 뿐만 아니라 컴퓨터가 수행하는 시대가 되었다. ‘빅데이터’의 진화 방향은 분명하다. 언젠가 데이터의 수집, 처리, 분석, 대응이 거의 모두 자동화될 것이다. 이미 상품 추천, 검색, 번역 등의 온라인 서비스 뿐 아니라 무인자동차 같은 오프라인 제품까지 모두 ‘빅데이터’를 활용하고 있지 않는가.

다섯째, ‘빅데이터’에서는 ‘예측(prediction)’이라는 개념이 상당히 다른 의미로 사용된다. 전통적으로 예측은 대체로 거시적 현상에 대한 전망(forecasting)이나 시나리오를 의미했다. 빅데이터 시대에 예측은 아주 미시적인 개인(individuals) 단위까지 행해진다.  즉, 선거, 스포츠 경기, 도박, 증권시장 등에 대해 전망할 뿐 아니라 고객 개인의 선호, 욕망, 태도, 행동 등에 대해서도 예견한다. ‘예측’은 그렇게 넒은 의미를 지니고 있으며, 예측이 이루어지는 기반도 인과관계를 넘어서 시계열 패턴, 상관관계, 베이즈(Bayes) 추론 등으로 확대되고 있다.   

우리 사회에서 ‘빅데이터’는 상당부분 거품이었음에 분명하다(그점에 관해서는 내가 다른 곳에서 논의하였다. ‘유행의 함정’ 참조). 그러나 그럼에도 불구하고 거품을 걷어내고 나면 거기에는 놀라운 진실이 발견된다. 그것은 전통적인 사회과학자들을 무척 불편하게 만들 진실이다. 현재 진행되고 있는 데이터 환경의 변화는 사회과학에게는 대지진 격이다. <빅데이터는 거품이다>라는 섣부른 비판으로 비껴갈 수 없는 흐름이다. 신중하게 대처하지 않으면 실증 사회과학은 존재 기반의 대부분을 잃게 될 지도 모른다. (윤영민, 2016/10/21)

<참고문헌>

O’Conner, Brendan. 2012. “Cosine Similarity, Pearson Correlation, and OLS Coefficients.” AI and Social Science (blog).  https://brenocon.com/blog/2012/03/cosine-similarity-pearson-correlation-and-ols-coefficients/

유행의 함정

gartner

유행은 하나의 사회구조이다. 그것은 새로운 시장 수요를 창출하는 기제이다. 자연스런 유행이란 없다. 그것은 철저히 의도되고 기획된 결과이다.

오늘날 음악, 문학, 헤어스타일, 음식, 옷, 신발, 가방 따위의 가벼운 것부터 TV, 냉장고, 에어컨, 자동차, 집과 같이 좀 무거운 것까지 유행의 프레임을 벗어난 사물이나 사회현상을 찾기 어렵다.

대체로 유행은 별 문제가 아니다. 그것에 자원 낭비와 같은 부정적 측면이 있지만 사회를 리프레쉬하는 긍정적인 측면도 있기 때문이다.

그런데 대단히 심각한 사회적 결과를 초래하는 유행이 있다. 바로 지식의 유행, 테크놀로지의 유행이다. 전문가들은 그것을 ‘트렌드’라고 점잖게 표현하지만 그것은 완곡어법일 뿐 본질은 ‘유행’이다.

우리 사회에서 지식-테크놀로지 유행은 대체로 그 패턴이 구조화되어 있다. [세계굴지 (미국) 컨설팅 기업의 트렌드 예측 –> 정부의 정책화 –> 학계와 업계의 백업과 추종 –> 새로운 유행의 대두 혹은 새 정부의 출범과 기존 유행의 극적 퇴출]이 반복된다.

예컨대 정보화, 전자정부, 그룹웨어, ERP, 유비쿼터스, Web 2.0/3.0, 빅데이터, 데이터사이언스, IoT(사물인터넷), IoE, 스마트 정부, 스마트 시티, 인공지능….길면 5년(정권과 수명이 같다), 짧으면 심지어 1~2년만에 ‘트렌드’가 지나간다.

‘트렌드’에 준비가 되어있을 리 만무한 정부는 해외 업체들의 벤더가 그려주는 그림에 의존해서 정책을 입안하고 아우라를 제공할 ‘전문가’를 허겁지겁 수배한다. 우연히 그 분야를 전공했거나 재빨리 ‘트렌드’를 공부한 학자와 전문가들이 그 수용에 대응하며 소위 ‘뜨게’ 된다. 권력에 신속하게 반응하는 기관들은 정책 연구는 물론이고 학술 연구까지 그 ‘트렌드’에 맞추어 배분한다. 지나간 ‘트렌드’에 집착하면 정부 연구비를 포기해야 한다. ‘철 지난’ 주제에 배분될 연구비는 없다.

지난 20여년 동안 행정기관이나 정부투자기관의 단위 조직, 대학의 단과대학, 학과, 연구실의 명칭이 어떻게 변해왔는가를 일별해 보면 이 현상을 쉽게 확인할 수 있다. 전문가라도 대학 연구실의 이름만 봐가지고는 그곳이 무엇을 연구하는 공간인지를 짐작하기 어렵다.

한 국가의 지식생산체계가 유행에 휘둘리는 모습은 희극이며 동시에 비극이다. 우리 사회가 지적 사대성과 천박성을 벗어나지 못하는 것은 단순히 일부 사람의 잘못 때문이 아니다. 그것은 조선 시대까지도 거술러 올라갈 수 있는 역사를 갖고 있다. 내재적 요구와 성찰이 아니라 외부로부터 오는 요구와 자극에 반응하며 살아온 지배계층의 문화가 끈질기게 지속되고 있는 것이다. 정책적 의사결정의 기준점이, 청국이 어떻게 하는가였다가 일본이 어떻게 하는가로 바뀌고, ‘해방’ 이후에는 미국이 어떻게 하는가가 추가되었을 뿐이다.

이러한 지적 유행의 최대 희생자는 학문, 자생 벤처, 그리고 대학원생들이다. 그들이 새로운 ‘트렌드’에 적응할 때 쯤이면 해당 ‘트렌드’가 종료되어 있기 때문이다. 한 ‘트렌드’가 뿌리를 내리기 전에 다른 ‘트렌드’를 쫓아가야 하는 비극적 상황에 학문에서 ‘기초’는 사라지고 ‘응용’만 남는다. 그나마 ‘응용’도 단기 승부에서 끝나버리지만 말이다.

언제쯤이나 이렇게 한심한 지적 식민지성을 벗어날 수 있을런 지….하기야 나도 한 때 그 ‘유행’의 수혜자였으니 동업자들을 위해 입을 다물고 있어야 할 지도 모르겠다. (윤영민, 2016/08/27 Facebook  전제)

데이터과학: 데이터 마이너와 사회학자의 동상이몽

데이터 마이닝(data mining)은 많은 양의 데이터를 분석한다. 사회학(sociology)도  데이터 마이닝 못지 않게 데이터를 많이 다룬다. 두 분야 모두 경험 과학(empirical science)이다. 그런데 조금만 진지하게 들여다보면 두 학문이 세상을 보는 관점, 접근방법, 그리고 추구하는 가치가 크게 다름을 알 수 있다.

데이터 마이닝은 데이터 속에서 유용한 패턴(patterns)을 찾는다. 그것이 인과적 관계이냐 단순한 상관관계이냐는 중요하지 않다. 데이터 마이너는 데이터를 이용해 모형(혹은 알고리즘)을 만들어 예측(prediction)을 수행하며, 모형을 검증하고 개선한다. 데이터 마이닝에서 가장 중요한 가치는 유용성(usefulness)이다. 연구가 기업이나 기관을 운영하는데 도움이 되어야 한다.

text_data_mining

사회학은 데이터 속에서 유용한 증거(evidence)를 찾는다. 데이터를 이용해 이론(가설 혹은 인과관계)을 검증하고 이론을 향상시킴으로써 현실에 대한 이해를 깊게 한다. 사회학에서 가장 중요한 가치는 이해(understanding) 혹은 실천(practice)이다. 궁극적으로 사회학 연구는 사회 질서를 유지하거나 변화시키는데 도움이 되어야 한다고 믿는다.

이런 점에서 데이터 마이닝은 데이터중심 접근(data-centered approach)이고, 사회학은 이론지도 접근(theory-guided approach)이라고 말할 수 있다. 두 학문 분야를 넘나들고 있는 학자나 학생이라면 이 차이를 명쾌하게 인식할 필요가 있다. 특히 사회학도는 ‘빅데이터’의 파도 속에서 자칫 자신의 정체성을 잃을 수도 있다.

데이터 마이닝은 세 가지 특징을 갖는다.

1) 상관성(correlation) 기반의 모형이면 족하다. 풍부한 데이터 환경에서 엄밀한 인과모형에 의존하지 않고도 얼마든지 탁월한 예측을 할 수 있다. 인터넷 서점 아마존이나 검색 기업 구글이 성공한 요인을 상기하면 이 점이 이해 될 것이다.

2) 알고리즘(algorithm)의 효율성(efficiency)과 예측력(predictability)을 높이는 것이 핵심이다. 획기적인 발상이든 시행착오를 통한 재설계이든 보다 우수한 알고리즘을 적용해 누가 얼마나 정확히, 그리고 신속하게 해답을 제시하는가가 관건이다. 검색엔진들의 경쟁을 상기해 보라. 사용자들의 입맛에 맞는 정보를 얼마나 신속하게 제공하는가가 경쟁 포인트이다.

3) 데이터 마이닝의 가장 큰 함정은 과적합(over-fitting)이다. 최대한 많은 설명 요인을 모형에 집어넣다보면 모형의 설명력은 높아지지만 모형의 일반성이 떨어지게 된다. 이 때문에 데이터 마이닝에서는 사회학에서 거의 사용하지 않는 표본 분할이 애용된다. 데이터를 훈련 표본(training sample)과 검증 표본(testing sample)으로 나누어 과적합의 함정에서 벗어나고자 한다.

사회학도 세  가지 특징을 갖는다고 말할 수 있다.

social research

1) 인과성(causality) 기반의 모형을 추구한다. 분석모형에 설명 요인이 여러 개 들어가면 이론화가 아직 덜 되었다고 간주한다. 모형이 얼마나 많은 설명력을 갖는가가 중요한 것이 아니라 하나라도 제대로 원인을 발견하는 것이 중요하다.

2) 모형의 정확성(correctness), 단순성(simplicity), 그리고 정의(justice)를 둘러싼 게임이다. 진리를 발견하고, 세상을 움직이는 핵심적인 요소를 파악하고, 보다 나은 세상을 만들어 가는데 이론과 모형이 도움이 되어야 한다. 아마도 가장 단순한 사회학 모형은 칼 마르크스의 이론일 것이다. 계급투쟁이라는 창으로 세상을 바라본다.

3) 사회학의 가장 큰 함정은 과소적합(under-fitting)(혹은 모형 구성오류(misspecification)이다. 모형을 최대한 단순하게 만들려고 하거나 연구자가 관심을 갖는 요인에만 집착하다보면 분석모형이 중요한 요인을 빠트리게 되어서 생기는 문제이다. 한 마디로 모형이 잘못되어 있는 것이다. 모형이 잘못되어 있으면 아무리 많은 데이터를 사용해도 오차를 줄일 수 없다.

데이터 마이너(data miner)사회학자(sociologist)는 모두 데이터과학자일 수 있다. 그러나 데이터 마이너와 사회학자는 추구하는 목표가 크게 다르다. (2016/9/22)

지진: 예측불가능한 위험

나는 지질학자가 아니다. ‘예측’,’위험’, ‘위험사회’ 따위를 가르치는 사회학자로서 지진에 대해 관심을 갖고 있을 뿐이다. 그러나 현재 진행 중인 지진이 워낙 중대한 위험이기 때문에 몇 가지 얘기하고자 한다. 나라가 위험에 처했을 때 당신은 무엇을 했는가라는 추궁에 대해 알리바이라도 만들어 두고 싶은 마음도 있다.

1. 학자와 전문가를 닥달하지 말자. 지진을 예측하거나 예상할 수 있는 그들의 능력은 매우 제한되어 있다. 학자와 전문가들은 19세기 이래 지진 발생을 예측하려고 노력해 왔지만 실패했다. 미국지질연구소에 근무하는 최고의 지진 전문가 중 한명인 수잔 휴(Susan Hough) 박사는 아예 지진의 예측은 마치 예수의 성배를 쫓는 것마냥 허망한 것이라고 말한다.

k8990

2. 지진 예측에 대해 환상을 갖지 말자. 빅데이터 기술도 지진 예측에는 도움이 되지 않는다. 지질학이든 통계학이든 학문은 아주 장기 예상(forecasting)을 하거나(이것은 크게 도움이 되지 않는다), 지진 발생 직전에 예후를 분석하는데 다소 도움이 될 뿐이다(이것도 사실 지진의 피해를 줄이는데 별로 효과가 없다). 지진이 발원하는 지하세상(지진은 지하 수킬로미터부터 수백킬로미터에서 발생한다)에 대한 정보는 누구에게도 없다. 정보 자체가 빈약한데 빅데이터기술이 무슨 소용이 있겠는가. 지진이 언제, 어디서, 어떤 규모로 발생할 지는 ‘수수께끼’라고 말하는 것이 진실에 가깝다. 지진이 발생해도 그것이 본진인지, 전진인지, 혹은 여진인지조차 확실히 알 수 없는 것이 현실이다.

3. 진도를 표시하는 숫자가 작다고 가볍게 보면 안된다. 진도 1차이는 에너지 방출량으로 보면 32배 차이가 난다. 진도 4.5보다 진도 5.5가 32배 크고, 진도 6.5는 진도 5.5보다 32배가 크다. 히로시마원자폭탄은 에너지 방출량으로 보면 6을 약간 넘는 지진이었고, 북한의 최근 핵실험은 5 정도의 지진이었다. 피해 규모는 진원의 깊이에 따라서도 크게 다르다. 최근 이탈리아 중부지역에서 발생한 6.2 규모의 지진은 엄청난 피해를 초래했다. 지표면에서 비교적 가까운 지하 4km 지점에서 발생했기 때문이다.

지진강도와에너지방출수준

4. 북한 핵실험이 남한의 지진 단층에 어떤 영향을 주는 지는 속단할 수 없다. 아직 그 인과관계에 대한 연구가 없다. 북한의 핵실험의 규모가 더 커지면 우리 지진 단층에 어떤 영향을 줄 지 시뮬레이션을 충분히 해야 한다. 정치적으로 문제를 풀면 더 좋을 것이다.

5. 원전이나 방폐장의 내진 설계를 믿지 말자. 6.5 진도에 대비한 설계라는데 이번 지진을 통해서 경주 지역에서 6.5 이상의 지진이 발생할 가능성이 크게 높아졌다. 2011년 역사상 최악의 원전사고로 기록된 일본 후쿠시마 핵발전소 사고 사례가 도움이 된다. 일본의 지진 전문가들은 도호쿠 지방에 9.0 이상의 지진이 발생할 확률을 제로로 보았다. 그래서 후쿠시마 핵발전소의 원자로를 8.6 규모의 지진에 견디도록 설계했다고 한다. 그런데 진도 9.1 지진이 발생했다. 우리나라에 7.0 이상의 지진이 발생할 확률은 이번 지진을 겪으면서 이전보다 적어도 열배 이상 높아졌을 것이다(시간이 있으면 직접 계산해 볼 수도 있을텐데, 그 정도는 지진 전문가들에게 맡겨두겠다).

6. 위험에 대한 대비는 정치적, 사회적, 그리고 개인적 선택이다. 위험은 현재화 될 수도 있고 안될 수도 있기 때문이다. 앞으로 100년 동안 6.5 이상의 지진이 한반도에서 발생하지 않을 수도 있다. 반면에 10년 안에 6.5 이상의 지진이 발생할 수도 있다. 어떻게 될 지는 아무도 모른다는 것만이 진실이다. 그런 상황에서 우리가 할 수 있는 선택은?

경제적으로 여유가 있다면(우리는 그런 나라에 속한다), 원전의 내진 설계를 다시 해야 한다. 물론 가장 좋은 대안은 핵발전을 중지하는 것이겠지만. 그리고 경제적으로 여유가 있다면, 낡은 주택과 아파트는 모두 내진 진단을 받아야 하며, 필요하다고 판단되면 보강하거나 다시 지어야 할 것이다. 나는 개인적으로 우리나라의 건축물의 내진 설계를 믿지 않는다. 내진 설계 전문가가 얼마나 있는지도 의문이고 건설과 토목 분야에 부정부패가 너무 심하기 때문에 감리가 제대로 되었는지도 의문이다.

다행히 한반도에서 발생하는 지진은 최악의 수준은 아닐 것이다. 잘 대비하면 재난을 충분히 피할 수 있으리라 믿는다. (윤영민, FB 9/20 포스팅 전재)

신자연주의론 메모(3): 모든 시험이 폐지되다

2025년 나라가 대혼란에 빠졌다. 시험이라는 제도가 정당성을 완전히 상실했기 때문이다.

examination

시험이 무엇이던가. 고려 광종 때 최초로 과거제도가 도입된 이래 시험은 1천년 이상 우리 사회에서 국가가 인재를 등용하는 가장 중요한 방법이었다. 비록 문제가 없었던 것은 아니었지만 시험은 어떤 방법보다도 객관적이며 공정하게 사람의 능력을 평가하는 방법으로 인정받아왔으며, 개천에서 용이 나는 기적도 가능하게 만드는 사회적 개방성의 상징이었다. 대부분의 사람들에게 학교는 시험을 위해 존재했고, 공부란 시험을 위한 학습에 다름이 아니었다.

그런데 그 제도가 역사의 뒤안길로 사라지는 것이다. 아직 인재 등용의 새로운 방안도, 사회적 공정성을 구현해 줄 새로운 제도도, 사람을 객관적으로 평가할 새로운 수단도 굳건하게 자리잡지 못했는데, ‘갑작스럽게’ 시험이 그 역할을 할 수 없게 되어 버렸다. 시험의 정당성이 흔들리자 대부분의 사람들은 시험이 우리 사회와 우리 문화에 있어 얼마나 중요한 ‘게임’이었는지를 새삼 깨닫게 되었다.

컨닝3

시험의 위기는 어떤 이유론가 부정행위가 만연하기 때문에 생겨난 것이 아니었다. 그것은 한 마디로 게임의 규칙이 더 이상 지켜질 수 없었기 때문이었다. 전통적인 의미에서 부정행위는 아니지만 수험생의 학습곡선을 100배쯤 향상시킬 수 있는 여러가지 방법이 이용가능해졌다. I.Q.로 말하자면, 100~200 정도의 수험생들이 1,000이 넘는 수험생들과  경쟁해야 하는 상황이 되었다!

시험은 학식, 암기력, 계산능력, 추론 능력, 순발력, 집중력(거기에 시험을 준비하는데 필요한 인내심을 추가할 수도 있을 것이다) 등에 기반하여 학업 성취와 능력을 평가한다. 운이 좋은 사람은 뛰어난 유전자와 후원을 얻기도 하지만 그 정도의 불평등은 용인되었다. 그리고 컨닝 페이퍼를 볼펜에 숨기는 정도의 ‘전통적인’ 부정행위는 결정적인 시험이 아닌 다음에야 대체로 눈감아 줄 수 있었다. 그런 편법의 존재에도 불구하고 수험생 자신의 노력 없이는 시험을 성공적으로 치룰 수 없다는 믿음이 있었기 때문이었다.


limitless (1)
그런데 2011년에 개봉된 영화 ‘리미트리스(Limitless)’가 현실이 되었다. 영화에서 주인공은 명색이 소설 작가이지만 몇 달 동안 글 한 줄 쓰지 못한 채 폐인처럼 살아가고 있었다. 그런데 그가 옛 애인의 오빠에게서 얻은 두뇌 강화제 NZT 48 한 알을 먹고  완전히 다른 삶을 경험하게 된다. 갑자기 에너지가 주체할 수 없게 샘솟고 과거 언젠가 공부했던 지식이나 인터넷에서 스쳐간 정보와 지식이 모두 살아나서 적시에 머리에 떠오른다. 그는 출판사의 편집자가 놀랠 정도의 탁월한 작품을 일주일 만에 탈고하고 곧 주식투자의 신으로 떠오른다.

2020년대에 NZT 48은 흔해 빠진 약이 되었다. 그만큼 드라마틱한 변화를 가져오지는 않지만  이미 지금도 유사한 두뇌강화제–일명 스마트 알약–가 팔리고 있다. 그 중에 하나가 모다피닐(Modafinil)이다. 원래 기면증(수면장애) 치료제로 개발되었지만 그것이 기억력이나 집중력을 강화하는데 효과가 있음이 입증되었다.

modafinil-uk-buy

그런 귀한 약을 우리 강남 아줌마들이 가만 두겠는가. 이미 ‘총명주사’라는 이름으로 사용되고 있다(http://www.whitepaper.co.kr/news/articleView.html?idxno=67046). 강남 아줌마가 아니라도 그렇다. 누구라고 그 강력한 유혹을 뿌리칠 수 있겠는가. 아직 부작용에 대한 논란이 있기는 하지만 조만간 부작용이 거의 없는 스마트 알약이 등장할 것임에 분명하다. 기업들이 그 엄청난 수요에 눈감을 수 있겠는가.

작년 여름 하버드와 옥스포드 공동 연구팀은 모다피닐의 효과를 검증한 논문 “모다피닐이 건강한 수면패턴을 가진 사람들의 인지능력 향상에 미치는 영향”을 ‘신경정신약리학’회지에 발표했다. 일반인들의 인지능력을 크게 강화시킨다는 것이었다 (http://www.hankookilbo.com/v/5339d19063794153a692b0e22abf80d4).

스마트 알약이 I.Q.를 10쯤 높여준다면 그런대로 감당할 수 있을 것이다. 그런데 만약 I.Q.를 열배쯤 높여준다면 어떻게 될까. 그리고 인간 향상(human enhancement)이 그러한 화학적 방법 뿐 아니라 DNA 조작과 같은 생물학적 방법, 나노 로봇이나 칩(chip) 이식과 같은 물리적 방법 등을 통해 전방위적으로 일어난다면 어떻게 될까. 법으로 그 사용을 규제할 수 있을까.

10년 후쯤이면 모든 시험에서 ‘공정한 경쟁의 원칙’ 같은 것은 이미 시대착오적 게임규칙이 되어버릴 지도 모른다. 10년은 대통령 두 번 뽑는 기간에 불과하다.

그 시대에 학교에서 학습 성취도  평가는 어떻게 하고, 입학 시험, 입사 시험, 공무원 시험, 그리고 온갖 자격 시험은 어떻게 할 것인가. 보다 근본적으로 학생들의 학습곡선이 지금보다 100배쯤 나아진 시대에 학교 교육은 어떻게 바뀌어야 할까.

toffler-large_trans++GqOnpus_Z0s4GBSeV2ZKDW5mpjozaZY-a_3JvI35G_U

며칠 전 타계한 앨빈 토플러 박사의 충고가 새롭게 다가온다.

“한국 학생들은 하루 15시간 동안 학교와 학원에서 미래에 필요하지도 않은 지식과 존재하지도 않을 직업을 위해 시간을 낭비하고 있다.”

특이점이 채 오기도 전에 우리는 시험이 사라지는 시대를 맞이할 것이다. I.Q. 500 (1,000이라고 해도 좋다)의 트랜스 휴먼(trans-human)이 흔해지는 시대에 우리 사회는 어떻게 재설계되어야할까. 교육학자들, 사회학자들, 잠자리가 편한가. (2016/07/5)

신자연주의론 메모(2): 인간이 안고 있는 숙제들

인간은 개인적으로나 사회적으로 어떤 문제들을 안고 있을까? 전쟁, 폭력, 살인, 기아, 빈곤, 질병, 노화, 죽음, 고독, 착취, 억압, 배제, 장시간 노동, 실업, 사회갈등, 환경오염….또 무엇이 있나.

그 문제들의 발생 원인은 크게 사회적 요인과 비사회적 요인, 두 가지이다. 그런데 잘 살펴보면 인간이 직면한 중대한 문제들은 거의 예외없이 사회적 요인과 비사회적 요인이 뒤섞여 발생함을 알 수 있다.  예컨대 가장 비사회적 요인 때문에 발생할 것으로 생각되는 죽음을 보자.

조너던 실버타운(<늙는다는 건 우주의 일>, 2016)에 의하면, 공중보건, 의학, 삶의 질 향상 덕분에 인간의 기대수명은 지난 200년간  거의 두 배로 늘었으며, 유전자가 개인의 수명에 25~35% 정도 관여한다고 한다.

우리나라 사람들의 사망 원인을 보면(아래 표 참조), 남녀 순위가 약간 다르기는 하지만, 암, 심장질환, 뇌혈관질환, 자살, 폐렴, 당뇨병이  가장 큰 원인이다.

사망원인통계

이 원인들은 유전적 요인, 환경적 요인, 그리고 사회적 요인에 의해 주로 결정된다. 즉, 조상으로부터 어떤 유전자를 물려 받았는지, 물리적으로 어떤 환경에서 살아 왔는지, 어떤 직업을 갖고 있었으며, 어느 정도의 재산과 소득을 누리고 있었는지, 어떻게 일상생활을 해왔으며, 그리고 어떤 대인관계를 갖고 있었는지 등에 의해 결정될 것이다.

유전학이 발전하면 사망 원인들의 유전적 요인을 효과적으로 제어할 수 있을 것이고, 나노테크놀로지의 발전은 그러한 질병들을 획기적으로 예방하거나 치료할 수 있을 것이다. 아마도 과학 발전은 물리적 환경까지도 획기적으로 개선할 수 있을 것이다.

그런데 과학기술의 발전이 전쟁, 폭력, 살인, 갈등, 사기, 절도, 억압, 착취 등과 같은 사회적 요인도 마법처럼 덩달아 사라지게 할까? 과학기술이 발달하면 언젠가–한 20~30년 후쯤이면–세월호 침몰, 미국 올랜도의 총기 난사, 터키 국제공항의 자살테러, 방글라데시 다카 도심의 인질 테러 등에서 목격되는 사람들의 비극적 죽음이 사라지게 될까?

아마도 그렇게 믿는 사람은 바보가 아니면 몽상가일 것이다. <특이점이 온다>에서 레이 커즈와일(Ray Kurzweil)은 우리더러 그렇게 믿으라고 역설하고 있다.

1 Copy of Primo Posthuman_1

유전학과 나노테크놀로지의 발달은 머지않아 100세 건강수명(healthspan) 시대를 실현시켜 줄 것이다. 기껏해야 60~70세 정도의 수명을 전제로 설계된 현재의 사회와 문명에게 100세 건강수명은 중대한 도전을 초래할 것이다.

사람들은 무엇을 먹고, 무엇을 입고, 무엇을 하면서 100년 동안 살아갈 것인가. 사람들이 100년 동안 행복하게 살 수 있는 여건을 마련하기란 어느 사회, 어느 정부에도 힘겨운 과제임에 분명하다. 그것은 수명을 연장하는 것보다 훨씬 어려운 문제일 것이다.

죽음 이외의 다른 중대 문제들도 마찬가지이다. 전쟁, 폭력, 살인, 기아, 사기, 부정부패, 빈곤, 고독, 불평등, 착취, 억압, 배제, 장시간 노동, 사회갈등, 환경오염 등 어느 문제를 살펴보아도 대동소이하다. 과학기술 덕분에 생산력이 급증하고, 생산성이 획기적으로 높아지면 그 문제들이 해결될까?

God-and-scientist

과학과 과학자들이 다음 세기의 구세주가 될까? 커즈와일은 그럴 것이라고 믿는 것 같다.

그런데 울리히 벡(Ulrich Beck)의 위험사회론이 잘 지적하듯이 지난 2백여 년 동안 과학자들은 문제를 푸는 것만큼 문제를 새롭게 만들어 왔다. 원자핵, 신무기, 생화학무기, 인터넷 중독, 사이버 테러 등을 생각해 보라. 향후 1백년 동안 과학자들이 과거보다 사회적으로 더 책임있는 모습이 되리라 믿을만한 특별한 이유가 있는가.

과학이 빈곤, 질병, 죽음과 같은 숙제를 푸는 데 크게 기여하리라는 점은 의심되지 않는다. 그러나 새로운 과학기술 문명이 만들어 내는 난제의 해결은 과학이 아니라 결국 정치, 사회, 문학, 철학, 예술, 그리고 종교에게 맡겨지지 않을까.(2016/07/04)

신자연주의론 메모(1): 특이점 그리고 그 이후

SAMSUNG CSC
김영사. 2007.

레이 커즈와일(Ray Kurzweil)은 뛰어날 뿐 아니라 담대하다. 그는 수학, 물리, 화학, 생물, 천문, 심리, 의학, 전산학 등의 첨단 연구를 종횡무진 인용할 뿐 아니라 자신의 입장을 주저없이 명쾌하게 제시한다. 사실 보수적이고 분절적인 학계에서는 그 두 가지 모두 위험천만한 행동인데 말이다.

2005년 출간 이래 <특이점이 온다>는 커다란 반향을 불러 일으켰다. 지난 10여년 동안에 출판된 책 중 가장 심대한 사회적 영향을 가져오지 않았나 싶다. 많은 찬사와 비판이 쏟아졌으며, 그 책으로 인해 Singularity University라는 초유의 기관이 설립되고 첨단기업들의 AI 연구가 크게 활성화되었다. 우리나라에서도 한글판이 10년 동안 9쇄나 인쇄되었으니 그 영향이 작지 않았다고 할 것이다. 물론 내용이 쉽지 않은데다 840쪽이나 되는 책을 독자들이 얼마나 충실히 읽었는지는 모르겠지만.

열흘 전쯤 일본 소프트뱅크의 손정의 회장이 특이점(singularity)을 언급하면서 내년으로 예정된 은퇴를 취소하겠다고 발표했다. 10년 정도 특이점의 도래에 대비한 사업을 주도하고 물러나겠다는 것이었다.

책은 저자의 주장을 뒷받침하는 자료로 가득하다.  하지만 저자의 분석 모형은 몇 가지 요소로 요약된다:

1) 인간 중심: 인간은 우주 진화의 정점. 인간은 21세기 중엽까지는 첨단 과학기술로 진화의 새로운 단계를 열 것이고, 궁극적으로 우주 전체를 지능적 존재로 탈바꿈시킬 것이다.

2) 지능 제일: 우주를 지배하는 최고의 힘은 지능(intelligence). 기억, 분석, 추론, 상상, 사랑, 공감 등은 모두 지능의 측면들이다. 진화는 보다 강력한 지능을 추구하는 단일한 경쟁이다. 지능은 인류와 지구가 직면한 문제, 나아가 우주에 존재하는 모든 문제에 해답을 줄 것이다.

3) 기술 진화: 지능은 과학기술의 발달로 집약되며, 과학기술의 발전은 가속적이다. 21세기는 GNR(Genetics, Nano technology, Robotics) 혁명의 무대. 2020년~2030년 정도이면 유전학은 질병과 노화를 대부분 해결하며 발전의 정점에 도달할 것이다. 2030~2040년에는 나노기술이 생물이라는 범주에서 벗어나지 못하는 유전학의 한계를 돌파할 수 있게 해 줄 것이다. 그것은 인간의 몸과 뇌, 그리고 인간이 사는 세상을 분자 수준으로 정교하게 재설계하고 재조립하게 해 줄 것이다. 가장 강력한 혁신은 로봇공학에 의해 실현된다. 인간은 인간을 뛰어넘는 인공지능(Artificial Intelligence)을 창조할 것이며 그 이후의 진화는 인공지능의 몫이다. 2040년~2050년에 인류는 특이점(singularity)에 도달한다. 생물과 비생물의 구분, 인간과 로봇의 구분, 현실과 가상의 구분이 사라지며, 인간에 대한 해독이 끝나고 인간은 전혀 새로운 존재양식을 갖게 된다. 특이점 이후 인간은 자신의 정체성, 신체 구성, 수명, 쾌락 수단 등을 자유롭게 선택하게 된다.

4) 유물론: 생명의 본질은 정보이며, 생명체는 정보를 처리하는 일종의 컴퓨터이다. 몇 가지 중대한 혁신이 이루어지면서 박테리아 수준의 생물체가 탄생했고, 생물체는 수십억 년 동안 진화를 거듭해 고도로 지능적인 인간에 도달했다. 인간은 특별한 존재이다. 과학기술을 발전시켜 스스로 자신을 뛰어넘는 존재로 진화한다. 과학기술 덕분에 질병, 노화, 죽음의 문제가 해결되면서 신과 종교는 불필요해진다. 죽음이 더 이상 미화될 필요가 없기 때문이다. 죽음은 예방될 수 있는 정보의 손실일 뿐이다.

<특이점이 온다>는 S.F.도 아니고 철학서도 아니다. 과학자이며, 발명가이고, 사업가인 한 천재가 제시한 미래 예측이다.  그리고 그것은 21세기의 인류 문명을 이끄는 기업과 기관들의 사업 로드맵에 반영되고 있다. 사실 그점이 이 책을 다른 미래전망서와 구분짓고 있다. 그 책은 단지 미래를 예측만 하는 것이 아니라 미래를 창조하고 있는 것이다.

특이점의 구체적인 범위와 도래 시점은 논란의 대상이고, 그의 예측은 맞는 것만큼이나 빗나가고 있기도 하다. 그러나 과연 특이점의 도래를 완전히 부정할 수 있을까. 과학기술은 커즈와일이 예견한 방향으로 빠른 속도로 발전하고 있고,  그에게서 영감을 받은 사업가들은 새로운 시대를 선점하기 위해 분주하다.

특이점은 올 것이다. 그가 묘사한 것처럼은 아닐지라도. 그가 얼마나 정확히 예측했느냐는 그다지 중요하지 않다. 문제는 과학기술의 발달이 가져올 대전환–그것을 무엇이라고 부르던–을 어떻게 바라보고 어떻게 예비할 것인가이다.

나는 과학기술의 발전을 적극 수용하지만 그의 기계론적 우주관–그것은 다수의 과학자들이 암묵적으로 취하고 있는 우주관이기도 하다–에는 동의하지 않는다. 그렇다면 어떤 대안이 있는가. 얘기해 보자. (2016/07/04)

식물은 인간의 소통 상대가 될 수 있을까?

SAMSUNG CSC
2016.5. 행성B 출간

사람이 꽃이나 나무와 소통할 수 있다는 사실은 내게 의문의 여지가 없었다. 궁금한 점은 어떻게, 얼마나 깊이 있는, 그리고 양방향적 의사소통이 가능한가였다. 이 책은 그러한 궁금증을 푸는 데 많은 도움이 되었으며,  인간의 관계망에 식물을 포함해야 한다는 내 주장을 뒷받침하는 자료를 담고 있다.

“지능(intelligence)이 문제해결능력을 의미한다”면(187), 식물은 단연 높은 지능을 보유하고 있다고 말할 수 있다. 지난 5억년 동안 어떤 환경에서도 살아남고, 영토를 확장하며, 후손을 퍼뜨리는 데 있어 식물은 탁월한 능력을 보여주었다. 그것이 단지 ‘자동반응’ 덕분이라는 해석은 설득력이 없다. 식물이 고도의 판단, 구상, 대처에 필요한 지적 능력을 갖고 있기 때문에 그것이 가능했다는 설명이 훨씬 설득력이 있다.

식물은 고정상태에서 생존하기 위해 다양한 능력을 발전시켰다. 특히 근단(뿌리의 말단)은 고도의 지각, 판단, 명령을 시행하는 일종의 군집지성(swarm intelligence)으로 동물의 두뇌와 유사한 기능을 수행한다. 식물은 동물과 같은 장기를 지니는 대신에 신체 전체에 기능을 분산시키는 모듈식 구조를 지니고 있으며, 움직임이 워낙 서서히 일어난다는 점에서 인간과 크게 다르다. 때문에 많은 사람들은 식물을 마치 무생물처럼 인식한다.  그러나 이 책은 사실 식물이 고도로 지적인 행동을 하고 있음을 풍부한 과학적 증거를 가지고 보여주고 있다.

인간처럼 생기지 않고, 인간처럼 사고하지 않는다고 지적인 존재가 아니라고 생각하는 것은 현명한 태도가 아니다. 우리가 조금만 인내심을 갖고 공감하려는 노력을 기울이면 식물은 우리와 함께 즐겁게 소통하고 공존하는 존재가 될 수 있을 것이다.

꽃과 나무를 마치 무생물인 것처럼 대하는 사상과 태도가, 지적인 생명체로서 꽃과 나무를 대하는 그것보다 나은 점이 무엇인가. 성장, 산업 발전, 풍요의 성취?

지구에서 바이오매스(biomass)의 99.7%를 점하는 식물을 무시하고 약탈의 대상으로만 보는 한 생명존중의 사상과 삶은 인간 중심의 오만과 자기 모순에서 결코 벗어날 수 없을 것이다. 그리고 그 결과는 인류에게 견디기 어려운 환경적 재앙이 될 것이다.

커피 그라인더 구입

SAMSUNG CSC
Zassenhaus La Paz mill

18년 전 남대문 시장에서 구입한 커피 그라인더를 퇴역시키기가 쉽지 않았다.

2년 전 일본제 Kalita를 구해서 몇 번 사용했으나, 뚜껑이 없어 원두가 튀어나오고, 커피분 담는 상자가 너무 작아 분이 넘치는 불편이 있어 사용을 포기했다.

최근에 손이 아파서 커피 갈기가 어려워 자동 그라인더를 구입했다. 편하기는 한 데 커피 맛이 현저히 떨어져서 결국 다시 수동 그라인더로 돌아왔다.

지난 금요일(6/3) 남대문 시장에 가서 독일 자센하우스 라파즈 밀을 구했다. 수입상가(옛날 도깨비시장) 지하 1층 161호 우신상사(02-319-5770)에서 24만원 달라는 것을 흥정을 해서 겨우 2만원 깍고 현찰로 구입했다.

상품이 격조가 있다. 뚜껑은 황동, 내부 부품은 7천도의 고열에서 생산된 탄소강철, 목재 부분은 너도밤나무라고 한다. 자센하우스 커피 그라인더 중 가장 고가 제품이다.

몇 번 사용했는데 아직 손에 익지 않다. 원두가 잘 흘러내려가지 않아 공회전이 자주 발생한다. 잘 되다 안되다 하니 며칠 더 사용해보고 문제가 해결되지 않으면 교환을 해야할 듯 싶다.

커피 맛은 훌륭하다. 라파즈 밀은 미분이 많이 나와 쓴 맛이 발생한다는 지적도 있는데 우리에게 그런 문제는 없는 것 같다.

사람도 물건도 한번 인연을 맺으면 오래 가야한다. 지난 번 독일산 그라인더를 18년 사용했으니 이번 제품도 그렇게 오랜 사용되지 않을까 생각한다. 어쩌면 내 생애 마지막 커피그라인더가 될 수도 있겠다.