빅데이터, 상관관계, 예측….거품?

%eb%b9%85%eb%8d%b0%ec%9d%b4%ed%84%b0%eb%8a%94%ea%b1%b0%ed%92%88%ec%9d%b4%eb%8b%a4

결론부터 말하겠다. 우리나라에서 ‘빅데이터’는 시작부터 거품이었다. 그러나  ‘빅데이터’를 둘러싼 온갖 거품을 걷어내고 나더라도 기존의 계량적 사회과학 페러다임에 대해 ‘빅데이터’로 불리는 새로운 데이터 환경이 제기하는 도전은 여전히 유효하다.

아마존(amazon.com)을 가지고 이야기를 시작하자.  아마존은 추천 엔진(recommendation engine)이라는 기술-문화적 아이템을 세상에 내놓았다. 그렇다고 아마존이 사업 초기부터 추천 엔진을 사용하지는 않았다. 처음에 아마존 웹사이트는 전문가들이 작성한 서평(추천)을 게시했다. 그 서평은 인기가 있었고 책 판매에 상당한 효과를 가져왔다. 하지만 그 성과에 만족하지 않았던 아마존의 CEO 제프 베조스(Jeff Bezos)는 고객들 자신의 구매 선호를 기반으로 책을 추천하면 어떨까 상상했다. 그렇게 해서 아마존의 책 추천 엔진이 개발되었다. 오래지 않아 알고리즘에 의한 책 추천은 전문가에 의한 책 추천을 완전히 대체하였으며, 아마존의 성공에 자극을 받은 대형 인터넷 쇼핑 사이트들도 앞다투어 추천 시스템을 도입하였다.

아마존의 추천 엔진은 품목-대-품목 협업 필터링(Item-to-item collaborative filtering)이라는 알고리즘을 사용한다. 설명을 단순화하기 위해 아마존에 네 권의 책(A,B,C,D)만 있고 사용자가 두 명(User 1, 2)만 있다고 하자. 만약 새로운 사용자(User 3)가 A라는 책을 보았다면 그에게 어떤 다른 책을 추천하면 좋을까? 아마존의 추천 엔진은 기존 사용자들(User 1, 2)의 책 탐색 기록 정보를 이용해서 A와 가장 상관성이 높은 책들을 추천한다(아래 그림 참조).

recommendation_flow_i2i3
이 그림은 Software Programming blog의 How does the Amazon recommendation system work?에서 가져왔음. https://kunuk.wordpress.com/2012/03/04/how-does-the-amazon- recommendation-system-work-analyze-the-algorithm-and-make-a-prototype-that-visualizes-the-algorithm/

이 과정을 수학적으로 설명하면, <그림 1>에서 User 1은 [B, C, B] 순으로 검색했고, User 2는 [C, A, B] 순으로 검색했다. 이 정보를 가지고 품목-대-품목 행렬을 구하면 우측의 상단과 같다. 이 행렬을 가지고 두 벡터(vector) 끼리의 코사인 유사도(Cosine Similarity, CosSim)를 구한다. 아래 식(1)에서처럼 두 벡터의 내적(inner product)을 두 벡터의 노름(norm, 벡터의 크기)의 곱으로 나누어 코사인값을 구하면 된다.

이렇게 구한 유사도는 –1에서 1까지 값을 갖는다. 코사인 유사도 –1은 두 벡터가 서로 완전히 반대 방향인 경우, 코사인 유사도 1은 두 벡터가 완전히 방향이 같은 경우, 그리고 코사인 유사도 0은 두 벡터가 서로 독립적인 경우를 가리킨다. 정보나 책 검색에서 빈도가 음의 값을 가질 수 없으므로 코사인 유사도는 0에서 1까지의 값을 갖는다.

굳이 코사인 유사도를 구하는 공식을 가져온 이유는 그것이 상관성 척도임을 보여주기 위해서이다. 사회과학에서 사용하는 피어슨 상관(Pearson correlation)은 아래와 같은 식으로 구할 수 있다.

식(1)과 식(2) 를 비교해 보면 가 로, 는 로 대치되었을 뿐임을 알 수 있다. 결국, 이 된다. 각 벡터의 평균을 뺀 값으로 계산된 유사도가 피어슨 상관이다(O’Conner, 2012).

아마존 추천엔진의 사례는 다섯 가지를 시사한다.

첫째, 인과성의 발견이 더 이상 사회과학의 금과옥조가 될 수 없다. 당연히 세상을 이해하려면 인과성의 발견이 계속되어야 한다. 그것은 사회과학자에 주어진 사명이다.  그러나 오직 인과성이라는 창을 통해서만 세상을 이해하고 사회현상(심지어 자연현상)을 예측할 수 있다는 주장은 사회과학자들의 아집과 환상에 불과하다.

아마존이 인터넷 비즈니스 초기에 도입한 전문가 서평(추천)은 인과관계에 근거한 비즈니스 모형이라고 할 수 있다.  만약 책 추천을 위한 인과 모형을 만든다면, 그것은 고객의 개인 속성(나이, 학력, 전공 분야, 직업, 성별, 혼인상태, 취미 등)과 외부 요인(전문가 서평, 광고 등)으로 구성되었을 것이다.  아마존은 상관 모형을 택해서 전혀 다른 길을 갔다.  그리고 상관관계 기반의 추천 시스템은 아마존의 사업 성공에 크게 기여하였다.

둘째, 아마존의 추천 엔진은 ‘빅데이터'(양, 속도, 형태의 어느 기준으로도 봐도 빅데이터임에 틀림없다)에 의존하고 있다. 위에 든 예는 4권의 책과 3명의 고객만을 가정했지만, 현실에서는  4백만권의 책과 3천만명의 고객일지도 모른다. 그렇게 되면 품목-대-품목 행렬이 얼마나 크겠는가. 그리고 요즘 아마존은 심지어 고객들의 클릭 데이터까지 실시간으로 책 추천에 반영하려고 하고 있다. 아마존에게 있어 ‘빅데이터’는 거품이 아니라 가장 중대한 사업 문제를 해결하는 열쇠이다.

셋째, ‘빅데이터’는 대단히 실용적인 동기에서 출발했다. 아마존은 개별 사용자의 관심이나 선호에 대해 예측함으로써 서비스 사용자가 안게 되는 정보과잉(information overloading)의 문제를 풀려고 했다. 아마존은 사용자가 책을 찾는데 시간과 노력을 많이 투입할 수 없다는 가정 아래 데이터 분석을 통해서 사용자에게 가장 적합한 책을 선별해서 제시하려고 했다. 한 마디로 ‘빅데이터’에서는 과학적 발견(설명)보다는 실용성(예측)이 우선적인 목표가 되어왔다. 아마존의 사례는 상관관계 기반의 추천 모형이 사업 목적에 매우 잘 부합되도록 작동하고 있음을 보여준다.

넷째, 사람이 아니라 컴퓨터 알고리즘이 고객에게 상품을 추천한다. 빅데이터 덕분에(혹은 빅데이터 때문에) 데이터의 수집, 처리, 분석을 이제 사람 뿐만 아니라 컴퓨터가 수행하는 시대가 되었다. ‘빅데이터’의 진화 방향은 분명하다. 언젠가 데이터의 수집, 처리, 분석, 대응이 거의 모두 자동화될 것이다. 이미 상품 추천, 검색, 번역 등의 온라인 서비스 뿐 아니라 무인자동차 같은 오프라인 제품까지 모두 ‘빅데이터’를 활용하고 있지 않는가.

다섯째, ‘빅데이터’에서는 ‘예측(prediction)’이라는 개념이 상당히 다른 의미로 사용된다. 전통적으로 예측은 대체로 거시적 현상에 대한 전망(forecasting)이나 시나리오를 의미했다. 빅데이터 시대에 예측은 아주 미시적인 개인(individuals) 단위까지 행해진다.  즉, 선거, 스포츠 경기, 도박, 증권시장 등에 대해 전망할 뿐 아니라 고객 개인의 선호, 욕망, 태도, 행동 등에 대해서도 예견한다. ‘예측’은 그렇게 넒은 의미를 지니고 있으며, 예측이 이루어지는 기반도 인과관계를 넘어서 시계열 패턴, 상관관계, 베이즈(Bayes) 추론 등으로 확대되고 있다.   

우리 사회에서 ‘빅데이터’는 상당부분 거품이었음에 분명하다(그점에 관해서는 내가 다른 곳에서 논의하였다. ‘유행의 함정’ 참조). 그러나 그럼에도 불구하고 거품을 걷어내고 나면 거기에는 놀라운 진실이 발견된다. 그것은 전통적인 사회과학자들을 무척 불편하게 만들 진실이다. 현재 진행되고 있는 데이터 환경의 변화는 사회과학에게는 대지진 격이다. <빅데이터는 거품이다>라는 섣부른 비판으로 비껴갈 수 없는 흐름이다. 신중하게 대처하지 않으면 실증 사회과학은 존재 기반의 대부분을 잃게 될 지도 모른다. (윤영민, 2016/10/21)

<참고문헌>

O’Conner, Brendan. 2012. “Cosine Similarity, Pearson Correlation, and OLS Coefficients.” AI and Social Science (blog).  https://brenocon.com/blog/2012/03/cosine-similarity-pearson-correlation-and-ols-coefficients/

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다