데이터과학: 데이터 마이너와 사회학자의 동상이몽

데이터 마이닝(data mining)은 많은 양의 데이터를 분석한다. 사회학(sociology)도  데이터 마이닝 못지 않게 데이터를 많이 다룬다. 두 분야 모두 경험 과학(empirical science)이다. 그런데 조금만 진지하게 들여다보면 두 학문이 세상을 보는 관점, 접근방법, 그리고 추구하는 가치가 크게 다름을 알 수 있다.

데이터 마이닝은 데이터 속에서 유용한 패턴(patterns)을 찾는다. 그것이 인과적 관계이냐 단순한 상관관계이냐는 중요하지 않다. 데이터 마이너는 데이터를 이용해 모형(혹은 알고리즘)을 만들어 예측(prediction)을 수행하며, 모형을 검증하고 개선한다. 데이터 마이닝에서 가장 중요한 가치는 유용성(usefulness)이다. 연구가 기업이나 기관을 운영하는데 도움이 되어야 한다.

text_data_mining

사회학은 데이터 속에서 유용한 증거(evidence)를 찾는다. 데이터를 이용해 이론(가설 혹은 인과관계)을 검증하고 이론을 향상시킴으로써 현실에 대한 이해를 깊게 한다. 사회학에서 가장 중요한 가치는 이해(understanding) 혹은 실천(practice)이다. 궁극적으로 사회학 연구는 사회 질서를 유지하거나 변화시키는데 도움이 되어야 한다고 믿는다.

이런 점에서 데이터 마이닝은 데이터중심 접근(data-centered approach)이고, 사회학은 이론지도 접근(theory-guided approach)이라고 말할 수 있다. 두 학문 분야를 넘나들고 있는 학자나 학생이라면 이 차이를 명쾌하게 인식할 필요가 있다. 특히 사회학도는 ‘빅데이터’의 파도 속에서 자칫 자신의 정체성을 잃을 수도 있다.

데이터 마이닝은 세 가지 특징을 갖는다.

1) 상관성(correlation) 기반의 모형이면 족하다. 풍부한 데이터 환경에서 엄밀한 인과모형에 의존하지 않고도 얼마든지 탁월한 예측을 할 수 있다. 인터넷 서점 아마존이나 검색 기업 구글이 성공한 요인을 상기하면 이 점이 이해 될 것이다.

2) 알고리즘(algorithm)의 효율성(efficiency)과 예측력(predictability)을 높이는 것이 핵심이다. 획기적인 발상이든 시행착오를 통한 재설계이든 보다 우수한 알고리즘을 적용해 누가 얼마나 정확히, 그리고 신속하게 해답을 제시하는가가 관건이다. 검색엔진들의 경쟁을 상기해 보라. 사용자들의 입맛에 맞는 정보를 얼마나 신속하게 제공하는가가 경쟁 포인트이다.

3) 데이터 마이닝의 가장 큰 함정은 과적합(over-fitting)이다. 최대한 많은 설명 요인을 모형에 집어넣다보면 모형의 설명력은 높아지지만 모형의 일반성이 떨어지게 된다. 이 때문에 데이터 마이닝에서는 사회학에서 거의 사용하지 않는 표본 분할이 애용된다. 데이터를 훈련 표본(training sample)과 검증 표본(testing sample)으로 나누어 과적합의 함정에서 벗어나고자 한다.

사회학도 세  가지 특징을 갖는다고 말할 수 있다.

social research

1) 인과성(causality) 기반의 모형을 추구한다. 분석모형에 설명 요인이 여러 개 들어가면 이론화가 아직 덜 되었다고 간주한다. 모형이 얼마나 많은 설명력을 갖는가가 중요한 것이 아니라 하나라도 제대로 원인을 발견하는 것이 중요하다.

2) 모형의 정확성(correctness), 단순성(simplicity), 그리고 정의(justice)를 둘러싼 게임이다. 진리를 발견하고, 세상을 움직이는 핵심적인 요소를 파악하고, 보다 나은 세상을 만들어 가는데 이론과 모형이 도움이 되어야 한다. 아마도 가장 단순한 사회학 모형은 칼 마르크스의 이론일 것이다. 계급투쟁이라는 창으로 세상을 바라본다.

3) 사회학의 가장 큰 함정은 과소적합(under-fitting)(혹은 모형 구성오류(misspecification)이다. 모형을 최대한 단순하게 만들려고 하거나 연구자가 관심을 갖는 요인에만 집착하다보면 분석모형이 중요한 요인을 빠트리게 되어서 생기는 문제이다. 한 마디로 모형이 잘못되어 있는 것이다. 모형이 잘못되어 있으면 아무리 많은 데이터를 사용해도 오차를 줄일 수 없다.

데이터 마이너(data miner)사회학자(sociologist)는 모두 데이터과학자일 수 있다. 그러나 데이터 마이너와 사회학자는 추구하는 목표가 크게 다르다. (2016/9/22)

협력이란?

martin_nowak1

우리는 협력을 어떤 의미로 쓰고 있을까? 아마도 일반적으로 “힘을 합쳐서 서로 도움”(네이버 국어 사전)의 의미로 사용할 것이다.

그러나 모든 사람이 협력을 동일한 의미로 사용하는 것은 아니다. 이 점은 대단히 중요하다. 동일한 용어를 다른 의미로 사용함으로써 소통이 어려워질 뿐 아니라 협력을 제대로 이해할 수 없게 되기 때문이다.

일반적 정의에서 가장 크게 벗어난 정의는 진화생물학에서 발견된다. 위 사진의 논문 2-3줄에 흥미있는 협력의 정의가 제시되어 있다. 이 논문은 마틴 노왁(Martin Nowak)의 “협력의 진화를 위한 다섯가지 규칙(Five Rules for the Evolution of Cooperation)”(Science 2006, Dec. 8; 전체 논문은 첨부 파일 참조)이다.  이 글에서 “협력은 이기적 복제자들이 서로 돕기 위해 자신들의 재생산 잠재력을 일부 포기함을 의미한다(Cooperation means that the selfish replicators forgo some of their reproductive potential to help one another).” 여기서 복제자(replicator)는 진화생물학에서 진화의 단위(evolution unit)를 가리킨다.

이 논문에서 노왁은 경쟁이 지배하는 자연도태 환경에서 어떻게 자신을 희생하는 협력이 가능한가를 탐구한다. 저자는 혈연선택, 직접 호혜성, 간접 호혜성, 네트워크 호혜성, 집단선택 각 이론이 제시하는 협력 조건을 각각 한 줄의 부등식으로 표시한다. 예컨대 일개미가 자신 스스로의 번식을 포기하고 여왕 개미에게 번식을 전담하게 하는 것은 협력으로 간주된다. 윌리엄 해밀턴은 일개미의 그러한 협력 행동이 유전자의 관점에서 이해될 수 있다고 주장한다. 그는 어떠어떤 이유로 일개미는 자기가 낳은 자식에게는 50%의 유전자밖에 남겨주지 못하지만, 여왕 개미를 도와서 일개미를 낳게 하면 자기 유전자의 75%를 남길 수 있기 때문에 스스로의 진화를 포기한다고 해석한다.

우리 인간도 개미처럼 유전자 주인의 운반자에 불과하다면 그것은 대단히 강력한 해석이 된다. 그러나, 유전자 신화를 믿지 않는다면 진화생물학적 개념 정의는 수용하기 힘들다. 사회학적으로 협력이란 목표 혹은 목적 없이도 발생할 수 있는 사회적 행동이다.

협력이 왜 일어나는가를 해명하는 것이 전부라면 협력을 어떻게 정의하던 크게 중요하지 않다. 그러나 협력을 어떻게 촉진할 것인가까지를 염두에 둔다면 진화생물학–특히 게임이론적 접근–적 정의는 연구에 방해가 된다. 왜냐하면 오늘날 우리가 목격하고 경험하는 수많은 협력은 목적 지향적이나 목표 지향적이 아니라 과정 지향적이기 때문이다.

왜 협력하는가? 그렇게 하는 것이 즐겁고 행복하기 때문이다. 협력에 이유가 더 필요한가? 협력 연구자의 과제는 협력을 “즐겁게 행복하게” 만드는 요소를 찾아내는 것이 되리라.