빅데이터, 상관관계, 예측….거품?

%eb%b9%85%eb%8d%b0%ec%9d%b4%ed%84%b0%eb%8a%94%ea%b1%b0%ed%92%88%ec%9d%b4%eb%8b%a4

결론부터 말하겠다. 우리나라에서 ‘빅데이터’는 시작부터 거품이었다. 그러나  ‘빅데이터’를 둘러싼 온갖 거품을 걷어내고 나더라도 기존의 계량적 사회과학 페러다임에 대해 ‘빅데이터’로 불리는 새로운 데이터 환경이 제기하는 도전은 여전히 유효하다.

아마존(amazon.com)을 가지고 이야기를 시작하자.  아마존은 추천 엔진(recommendation engine)이라는 기술-문화적 아이템을 세상에 내놓았다. 그렇다고 아마존이 사업 초기부터 추천 엔진을 사용하지는 않았다. 처음에 아마존 웹사이트는 전문가들이 작성한 서평(추천)을 게시했다. 그 서평은 인기가 있었고 책 판매에 상당한 효과를 가져왔다. 하지만 그 성과에 만족하지 않았던 아마존의 CEO 제프 베조스(Jeff Bezos)는 고객들 자신의 구매 선호를 기반으로 책을 추천하면 어떨까 상상했다. 그렇게 해서 아마존의 책 추천 엔진이 개발되었다. 오래지 않아 알고리즘에 의한 책 추천은 전문가에 의한 책 추천을 완전히 대체하였으며, 아마존의 성공에 자극을 받은 대형 인터넷 쇼핑 사이트들도 앞다투어 추천 시스템을 도입하였다.

아마존의 추천 엔진은 품목-대-품목 협업 필터링(Item-to-item collaborative filtering)이라는 알고리즘을 사용한다. 설명을 단순화하기 위해 아마존에 네 권의 책(A,B,C,D)만 있고 사용자가 두 명(User 1, 2)만 있다고 하자. 만약 새로운 사용자(User 3)가 A라는 책을 보았다면 그에게 어떤 다른 책을 추천하면 좋을까? 아마존의 추천 엔진은 기존 사용자들(User 1, 2)의 책 탐색 기록 정보를 이용해서 A와 가장 상관성이 높은 책들을 추천한다(아래 그림 참조).

recommendation_flow_i2i3
이 그림은 Software Programming blog의 How does the Amazon recommendation system work?에서 가져왔음. https://kunuk.wordpress.com/2012/03/04/how-does-the-amazon- recommendation-system-work-analyze-the-algorithm-and-make-a-prototype-that-visualizes-the-algorithm/

이 과정을 수학적으로 설명하면, <그림 1>에서 User 1은 [B, C, B] 순으로 검색했고, User 2는 [C, A, B] 순으로 검색했다. 이 정보를 가지고 품목-대-품목 행렬을 구하면 우측의 상단과 같다. 이 행렬을 가지고 두 벡터(vector) 끼리의 코사인 유사도(Cosine Similarity, CosSim)를 구한다. 아래 식(1)에서처럼 두 벡터의 내적(inner product)을 두 벡터의 노름(norm, 벡터의 크기)의 곱으로 나누어 코사인값을 구하면 된다.

이렇게 구한 유사도는 –1에서 1까지 값을 갖는다. 코사인 유사도 –1은 두 벡터가 서로 완전히 반대 방향인 경우, 코사인 유사도 1은 두 벡터가 완전히 방향이 같은 경우, 그리고 코사인 유사도 0은 두 벡터가 서로 독립적인 경우를 가리킨다. 정보나 책 검색에서 빈도가 음의 값을 가질 수 없으므로 코사인 유사도는 0에서 1까지의 값을 갖는다.

굳이 코사인 유사도를 구하는 공식을 가져온 이유는 그것이 상관성 척도임을 보여주기 위해서이다. 사회과학에서 사용하는 피어슨 상관(Pearson correlation)은 아래와 같은 식으로 구할 수 있다.

식(1)과 식(2) 를 비교해 보면 가 로, 는 로 대치되었을 뿐임을 알 수 있다. 결국, 이 된다. 각 벡터의 평균을 뺀 값으로 계산된 유사도가 피어슨 상관이다(O’Conner, 2012).

아마존 추천엔진의 사례는 다섯 가지를 시사한다.

첫째, 인과성의 발견이 더 이상 사회과학의 금과옥조가 될 수 없다. 당연히 세상을 이해하려면 인과성의 발견이 계속되어야 한다. 그것은 사회과학자에 주어진 사명이다.  그러나 오직 인과성이라는 창을 통해서만 세상을 이해하고 사회현상(심지어 자연현상)을 예측할 수 있다는 주장은 사회과학자들의 아집과 환상에 불과하다.

아마존이 인터넷 비즈니스 초기에 도입한 전문가 서평(추천)은 인과관계에 근거한 비즈니스 모형이라고 할 수 있다.  만약 책 추천을 위한 인과 모형을 만든다면, 그것은 고객의 개인 속성(나이, 학력, 전공 분야, 직업, 성별, 혼인상태, 취미 등)과 외부 요인(전문가 서평, 광고 등)으로 구성되었을 것이다.  아마존은 상관 모형을 택해서 전혀 다른 길을 갔다.  그리고 상관관계 기반의 추천 시스템은 아마존의 사업 성공에 크게 기여하였다.

둘째, 아마존의 추천 엔진은 ‘빅데이터'(양, 속도, 형태의 어느 기준으로도 봐도 빅데이터임에 틀림없다)에 의존하고 있다. 위에 든 예는 4권의 책과 3명의 고객만을 가정했지만, 현실에서는  4백만권의 책과 3천만명의 고객일지도 모른다. 그렇게 되면 품목-대-품목 행렬이 얼마나 크겠는가. 그리고 요즘 아마존은 심지어 고객들의 클릭 데이터까지 실시간으로 책 추천에 반영하려고 하고 있다. 아마존에게 있어 ‘빅데이터’는 거품이 아니라 가장 중대한 사업 문제를 해결하는 열쇠이다.

셋째, ‘빅데이터’는 대단히 실용적인 동기에서 출발했다. 아마존은 개별 사용자의 관심이나 선호에 대해 예측함으로써 서비스 사용자가 안게 되는 정보과잉(information overloading)의 문제를 풀려고 했다. 아마존은 사용자가 책을 찾는데 시간과 노력을 많이 투입할 수 없다는 가정 아래 데이터 분석을 통해서 사용자에게 가장 적합한 책을 선별해서 제시하려고 했다. 한 마디로 ‘빅데이터’에서는 과학적 발견(설명)보다는 실용성(예측)이 우선적인 목표가 되어왔다. 아마존의 사례는 상관관계 기반의 추천 모형이 사업 목적에 매우 잘 부합되도록 작동하고 있음을 보여준다.

넷째, 사람이 아니라 컴퓨터 알고리즘이 고객에게 상품을 추천한다. 빅데이터 덕분에(혹은 빅데이터 때문에) 데이터의 수집, 처리, 분석을 이제 사람 뿐만 아니라 컴퓨터가 수행하는 시대가 되었다. ‘빅데이터’의 진화 방향은 분명하다. 언젠가 데이터의 수집, 처리, 분석, 대응이 거의 모두 자동화될 것이다. 이미 상품 추천, 검색, 번역 등의 온라인 서비스 뿐 아니라 무인자동차 같은 오프라인 제품까지 모두 ‘빅데이터’를 활용하고 있지 않는가.

다섯째, ‘빅데이터’에서는 ‘예측(prediction)’이라는 개념이 상당히 다른 의미로 사용된다. 전통적으로 예측은 대체로 거시적 현상에 대한 전망(forecasting)이나 시나리오를 의미했다. 빅데이터 시대에 예측은 아주 미시적인 개인(individuals) 단위까지 행해진다.  즉, 선거, 스포츠 경기, 도박, 증권시장 등에 대해 전망할 뿐 아니라 고객 개인의 선호, 욕망, 태도, 행동 등에 대해서도 예견한다. ‘예측’은 그렇게 넒은 의미를 지니고 있으며, 예측이 이루어지는 기반도 인과관계를 넘어서 시계열 패턴, 상관관계, 베이즈(Bayes) 추론 등으로 확대되고 있다.   

우리 사회에서 ‘빅데이터’는 상당부분 거품이었음에 분명하다(그점에 관해서는 내가 다른 곳에서 논의하였다. ‘유행의 함정’ 참조). 그러나 그럼에도 불구하고 거품을 걷어내고 나면 거기에는 놀라운 진실이 발견된다. 그것은 전통적인 사회과학자들을 무척 불편하게 만들 진실이다. 현재 진행되고 있는 데이터 환경의 변화는 사회과학에게는 대지진 격이다. <빅데이터는 거품이다>라는 섣부른 비판으로 비껴갈 수 없는 흐름이다. 신중하게 대처하지 않으면 실증 사회과학은 존재 기반의 대부분을 잃게 될 지도 모른다. (윤영민, 2016/10/21)

<참고문헌>

O’Conner, Brendan. 2012. “Cosine Similarity, Pearson Correlation, and OLS Coefficients.” AI and Social Science (blog).  https://brenocon.com/blog/2012/03/cosine-similarity-pearson-correlation-and-ols-coefficients/

인간 vs 인공지능, 진실은 어디에?

cyborg1-sjtek-umeshcom-10-728

10여년 전 <나는 왜 사이보그가 되었는가>라는 역서가 출간되었다. 영국의 리딩대학교(University of Reading)의 저명한 인공지능 연구자인 케빈 워릭 교수의 저서였다. 5백쪽이 넘는 책을 단숨에 읽었다. 그리고 다음 학기에 내 수업의 교재 중 하나로 채택했다.

그는 팔에 실리콘 칩으로 된 트랜스폰더를 이식했다. 그리고는 영국에서 인터넷을 통해서 미국에 있는 부인에게 신호를 전달하는데 성공했다. 덕분에 그에게는 최초의 인간-사이보그(cyborg)라는 별칭이 붙었다.

그 책을 읽힌 다음 나는 수업시간에 학생들에 물었다.

“자신이 90% 이상 사이보그라고 생각하는 사람 손 드세요?”

“자신이 70% 이상 사이보그라고 생각하는 사람은?”

“자신이 50% 이상 사이보그라고 생각하는 사람은?”

“자신이 30% 이상 사이보그라고 생각하는 사람은?”

“자신이 결코 사이보그라고 생각하지 않은 사람은?”

절대 다수의 학생들이 자신은 30% 이상 사이보그라고 대답했다. 워릭 교수는 결코 인간 최초의 사이보그가 아니었다. 사이보그가 되는데 몸에 굳이 칩을 이식할 필요가 없었다. 칩은 다만 상징일뿐.

통신 네트워크는 이미 매클루언적 의미에서 우리의 신체적(그리고 정신적) 연장(extension of body)이다. 인터넷과 스마트폰이 발명된 이후 우리는 아침에 눈 뜨면서부터 밤에 잠자리에 들 때까지 끊임없이 ‘접속’ 되어 있다. 그리고 우리의 두뇌 기능은 상당 부분 네트워크에 아웃소싱되어 인터넷과 스마트폰 없이는 우리는 제대로 생각할 수조차 없다. 그래도 단지 몸에 기계를 이식하지 않았다는 이유만으로 우리가 사이보그가 아니라고 자위할 것인가.

이세돌과 알파고의 대결에 관한 수많은 논의들 속에서 나는 다시 한번 인간과 기계 사이에 대한 범주착오(category mistake)를 본다. 알파고는 바둑에서 승리만을 미션으로 수행하는 인공지능이다. 인공지능이 아무리 뛰어난 계산, 판단, 추론 그리고 행동을 한다고 해도 그것은 프로그램된 존재(programmed being)이다.

그런데 우리는 프로그램된 존재가 아닌가? 유치원 때부터, 아니 심지어 어떤 아이들은 그보다 더 일찍부터 생존경쟁에서 이기도록 프로그램되고 있지 않는가? 지금 우리가 아이들에게 심어주려고 하는 알고리즘들은 오직 승리라는 목적만을 위해 사용되도록 개발된 것들이 아닌가? 우리가 가정과 학교에서 생존의 전사를 길러내고 있고 있음을 누가 부정할 것인가.

인공지능의 응용에서 가장 앞서 가는 업체 중 하나인 보스턴 다이내믹스(Boston Dynamics)가 생산하는 로봇이 어디에 일차적으로 사용될 것인가? 아마도 그것은 전투일 것이다.

Lance Cpl. Brandon Dieckmann, (front), native of Las Vegas and Pfc. Huberth Duarte, from Riverside, Calif., and infantrymen with India Company, 3rd Battalion, 3rd Marine Regiment, prepare to walk with the Legged Squad Support System through a grassy area at Kahuku Training Area on Oahu, Hawaii, July 12, 2014, during the Rim of the Pacific 2014 exercise. The LS3 is experimental technology being tested by the Marine Corps Warfighting Lab during the Advanced Warfighting Experiment. It is programmed to follow an operator through terrain, carrying heavy loads like water and food to Marines training. There are multiple technologies being tested during RIMPAC, the largest maritime exercise in the Pacific region. This year's RIMPAC features 22 countries and around 25,000 people. (U.S. Marine Corps photo by Cpl. Matthew Callahan/RELEASED)
The LS3 is experimental technology being tested by the Marine Corps Warfighting Lab during the Advanced Warfighting Experiment. It is programmed to follow an operator through terrain, carrying heavy loads like water and food to Marines training. There are multiple technologies being tested during RIMPAC, the largest maritime exercise in the Pacific region. This year’s RIMPAC features 22 countries and around 25,000 people. (U.S. Marine Corps photo by Cpl. Matthew Callahan/RELEASED)

장 보드리야르(Jean Baudrillard)의 인식 방법을 빌리자면, 알파고와, TV와 인터넷을 통해서 전세계에 중계된 이세고와 알파고의 바둑 대결은, 이미 우리 자신이 프로그램된 존재이고 우리 사회가 그런 전사들이 지배하는 황폐화된 전장임을 은폐하는 쇼가 아닐까? 기술비평가들은, 그리고 그 비평가들의 언설을 통해서 우리는 짐짓 진지하게 인간성(humanity)을 다시 생각한다. 그런데 그것은 하나의 의례(ritual)로 끝날 뿐이다. 언제 그랬냐는듯이 우리는 다시 생존의 ‘전장’으로 내몰리고 기꺼이 전투 모드로 돌아온다. 하나의 슬픈 코메디다.

미래 사회에서 우리를 지배하는 존재는 인간도 인공지능도 아닐 것이다. 그것은 거대한 시스템(system)이리라. 오직 최고의 이윤과 효율성만을 덕성으로 인정하는 비정한 시스템 말이다. 창의성도, 사랑도, 공감도, 인격도, 자연도, 인문학도, 심지어 비극마저도 돈이 될 때만 그 가치를 인정받는 시스템. 이미 그 시스템은 프로토타입(prototype) 수준을 넘어 우리 사회의 실제(reality)가 되어 있다.

진실로 우리가 인간이기를 바란다면 그 시스템에 싸움을 걸어야 할 것이다. 그런데 우리는 진실로 인간이기를 바라기나 하는 걸까? (2016/3/31, 윤영민)

bladerunnerroybatty
영화 Blade Runner의 한 장면. 인조인간 레플리컨트(replicant)와 레플리컨트를 사냥하는 인간 블레이드 러너 중 누가 더 인간적인가를 생각하게 하는 장면이다. (블레이드 러너 조차 인조인간이 아닌가하는 해석도 있다.)

사회과학과 공학의 융합이 성공하려면….

Raffaello,_concilio_degli_dei_02
위키피디아에서 가져옴[Assembly of twenty gods, predominantly the Twelve Olympians, as they receive Psyche (Loggia di Psiche, 1518–19, by Raphael and his school, at the Villa Farnesina)]
요즈음 학술적이든 실무적이든 융합 연구가 대세이다. 융합! 멋진 말이다. 그러나 융합적 연구는 아차 하면 ‘신들의 대리 전쟁’이 되고 만다.

빅데이터를 연구하는 데이터과학(data science)이 좋은 예가 될 것이다. 데이터과학 연구에는, 영역 전문가(domain expert), 연구자(researcher), 컴퓨터과학자(computer scientist), 그리고 시스템 운영자(system administrator)라는 네 가지 역할이 필요하다. 앞 두 가지 역할이 통상 사회과학이나 통계학 전공자가 수행한다면, 뒤 두 가지 역할은 대체로 컴퓨터과학 전공자가  수행한다. 즉, 사회과학과 컴퓨터과학의 융합이 이루어 진다.

사회과학과 컴퓨터과학(혹은 공학) 사이의 융합에서 가장 근본적인 어려움 혹은 혼란은 무엇일까? 그것은 융합 과정에서 서로 다른 학문 분과들에 고유한 가치와 질서가 심각하게 상호 충돌한다는 사실이다.

사회과학은 광고, 저널리즘, 경영 같은 응용분야마저도 사회적 규칙성의 발견이 지상 목표이고, 가설-검증이 표준적인 접근방법이다. 반면에 컴퓨터과학(공학)에서는 과업수행(혹은 그것의 시간 단축)을 가능하도록 만들어주는 알고리즘(혹은 프로그램)의 개발이 표준적인 접근방법이다.

그래서 사회과학에서는 치밀하고 엄격한 과학적 방법으로 진리에 접근하였는가, 혹은 그런 연구를 수행할 수 있는 연구자인가가 과제 심사의 평가 기준이 되고, 컴퓨터과학에서는 상대적으로 얼마나 우수한 알고리즘 혹은 프로그램을 개발하였는가 혹은 그럴만한 능력을 가졌는가가 과제 심사의 평가 기준이 된다.

두 학문 분야의 평가기준이 참으로 다르다. 그런데 이 차이는 현실에서 심각한 갈등을 낳곤 한다. 만약 평가 심사자가 사회과학자인 경우 과제를 지원하거나 수행한 컴퓨터과학자들은 무척 난감해질 것이고, 반대로 평가 심사자가 컴퓨터과학자인 경우 과제를 지원하거나 수행한 사회과학자들이 곤경에 처할 가능성이 매우 높다.

이학문간의 협업을 통해서 사회연구를 수행하는 것은 아테나(Αθηνά)를 섬기는 사람들과 헤르메스(Ερμής)를 섬기는 사람들이 함께 제사를 지내는 것이나 크게 다르지 않다. 제사장이 다른 신을 섬기는 사람을 만나면 사람들은 심각한 어려움에 봉착할 것이다. 자신들의 숭배하는 가치와 질서를 부정당하게 될 것이기 때문이다.

1백여 년전 독일의 사회학자 막스 베버(Max Weber)는 어떤 대학에서 행한 강연에서 학문 사이의 그러한 갈등을 신들의 전쟁에 비유했다.

“어떻게 프랑스 문화의 가치를 독일문화의 가치와 비교해서 <학문적으로(과학적으로)> 그 우열을 결정할 수 있을 지 나는 모릅니다. 여기에서도 역시 서로 다른 신들이 싸우고 있으며, 그리고 이 싸움은 영원히 계속될 것입니다….옛날의 많은 신들은, 이제 그 주술적 힘은 잃어버리고 그래서 비인격적인 힘의 형태로, 그들의 무덤에서 기어 나와서 우리 삶을 지배하고자 하며 또다시 서로간의 영원한 투쟁을 시작하고 있습니다(Weber, 1918/1997: 235-236쪽).”

어쩌면 베버(1997: 235)의 지적처럼, “우리가 할 수 있는 것이라고는 단지, 어느 하나의 학문에서는 무엇이 신적인 것으로, 또 다른 학문에서는 또 다른 무엇이 신적인 것으로 간주되는지”를 이해하고 인정하는 것일 뿐이리라.

융합은 서로 다른 신을 추종하는 전문가들 사이의 화합과 협력이다. 그런데 연구자들 상호간의 몰이해로 인해 융합은 쉽게 신들의 대리전으로 귀결되고 만다. 융합적 혁신과 지성은 무엇보다 신들의 화해와 공존을 실현해야 가능하다.

그 갈등을 예방하는 방법은 첫째, 상대 학문에 내재한 가치와 규범을 이해하고 인정하며, 둘째, 연구 과제의 성격에 따라 그에 타당한 평가 기준을 적용하는 것이 아닐까 한다.