데이터를 다시 생각한다(2): 사회과학적 관점

어떤 사회 제도(social institutions)나 존재 이유와 내부 질서(혹은 구조)를 갖고 있다. 하나의 사회제도로서 과학—사회과학을 포함—도 그렇다. 과학의 존재 이유는 진리(truth)(다르게 표현하면, 지식, knowledge)의 탐구이며, 과학의 내부 질서는 주로 고유한 연구방법–다시 말해 과학적 지식이 생성되는 방법–에 달려 있다.

과학적 지식은 연역적 추론(deductive reasoning), 귀납적 추론(inductive reasoning), 혹은 유추(analogy)와 같은 방법으로 생성된다. 삼단논법에 보듯이 보편적 전제로부터 개별적 결론이 도출될 수도 있고(연역적 추론), 개별적 사실들로부터 일반적 원리를 끌어낼 수도 있으며(귀납적 추론), 한 사물이나 현상을 보고 다른 사물이나 현상에 대해 추측할 수도 있다(유추).

과학에서는 어떤 이론이나 가설도 경험적 검증을 거쳐야 지식으로 인정받게 된다. 가설(hypothesis)을 세우고(그것은 이론으로부터 도출될 수도 있고 선행연구의 발견으로부터 가져올 수도 있다), 관찰, 실험, 인터뷰 등 과학적이라고 인정되는 방법으로 데이터를 수집한 다음, 그것을 가지고 가설을 검증한다. 가설 검증 과정에서 연역적 추론, 귀납적 추론, 유추 등이 사용된다.

가설은 데이터에 의해 지지되거나(supported) 기각되며(rejected), 기각된 경우에는, 새로운 방법이나 새로운 데이터를 가지고 가설을 재검증하거나 가설을 수정하여 다시 검증하기도 한다. 가설이 한번에 검증되는 경우는 없으며 반복적인 검증을 통과해야 한다. 그런 의미에서 모든 이론과 가설–다시 말해, 지식–은 잠정적(temporary)이라고 말할 수 있다.

사회과학에서 연구자는, 먼저 연구 문제(research question)와 가설(hypothesis)을 가지며, 그런 다음 그것을 검증해줄, 현실을 대표한다고 믿어지는 데이터(data)를 구한다. 데이터란 사람, 집단, 사회현상 따위에 관한 사실(facts) 혹은 정보(information)를 말한다.

빅데이터 시대 이전까지 일반적으로 데이터는 연구자가 연구를 위해 의도적으로 수집한 것이었다. 연구 목적에 부합되도록 조사를 기획하고 실험, (참여) 관찰, 설문조사와 같은 방법을 통해서 데이터를 수집하였다. 사회과학에서 데이터란 그러한 데이터를 의미하였으며, 엄밀하게 계획되고 설계된 절차를 통해서 수집된 데이터만이 학문적으로 인정받을 수 있었다.

Image result for big data social science research

사회과학 연구에 있어 빅데이터가 제기하는 가장 근본적인 문제 중 하나는 데이터에 관한 그러한 전통적인 인식에 대한 것이다. 빅데이터는 데이터가 단순히 양적으로 증가했다는 의미를 넘어서 데이터가 질적으로 달라졌음을 함축한다. 이는 데이터가 무엇인가에 대해 다시 생각해보아야 하고 데이터의 학문적 타당성에 대해서도 다시 살펴보아야 함을 의미한다.

사회과학의 연구 대상은 개인, 집단, 사회조직, 사회제도, 사회적 상호작용, 사회운동, 혁명, 전쟁, 의례와 관행, 가치와 규범, 의식과 태도 따위이다. 과거에도 그랬고, 현재도 그러하며, 미래에도 그러할 것이다. 문제는 데이터가 ~에 대한 것을 넘어서 ~자체가 되었다는 사실이다(Purdam and Elliot, 2015).

예컨대 개인(individual)을 생각해보자. 과거에 개인 데이터(personal data)란 개인의 속성(attributes), 자산, 습관, 취미, 관심, 태도, 행동 등을 알려주는 고정적인 것이거나 상당히 안정적인 것이었다. 그리고 이름, 성별, 나이, 주소, 전화번호, 주민등록번호, 출생지, 직업, 가족관계, 소득, 교육수준, 종교, 국적, 병역 사항, 은행잔고, 부동산 소유 현황, 혈액형, 병력, 지지정당, 노조가입 여부, 지문, 흡연량, 음주량 따위가 개인 데이터였다.

그런데 인터넷, 스마트폰, CCTV, 센서 등 디지털 기술이 확산되면서 개인을 규정하는데 있어 훨씬 동적이며 가변적인 데이터가 추가되었다. 통화기록, 문자메시지 송수신 기록, 로그파일, 쿠키, 전자우편, 블로그, 트위터, 페이스북 같은 소셜 미디어상의 상호작용, CCTV 영상, 자동차 블랙박스 영상, 은행 ATM 사용기록, 인터넷 쇼핑 기록, 인터넷 뱅킹 기록 등 개인의 온라인 행동은 물론이고 오프라인 행동까지 실시간으로 기록되면서 엄청난 양의 데이터가 개인을 규정하는데 활용되고 있다.

Image result for personal data

개인의 일상이 광범위하게 기록되고, 그렇게 수집된 데이터로부터 개인의 생각을 추정하고 행동을 예측할 수 있게 됨에 따라 개인 데이터는 점점 개인 자체와 일치해 가고 있다. 더구나 개인은 자기 스스로가 생각하거나 주장하는 정체성(identity)이 아니라, 신용카드 이용처럼 일상 속에서 자신이 직접 생성하거나 생성에 동의한 데이터, 기계에 의해 모니터링된 데이터, 인터넷, 스마트폰, 자동화기계를 사용하면서 남긴 흔적 등에 의해 추정되거나 결정된 정체성에 의해 규정된다. 나는 더 이상 내 자신이 규정한 ‘나’가 아니라 개인 데이터를 기반으로 사회가 규정해준 ‘나’가 된 것이다. 그런 의미에서 개인은 데이터로 존재하고 살아간다고 말할 수 있다.

사회과학의 연구 대상 중 개인만 그러겠는가. 집단, 사회조직, 국가, 민족과 같은 사회적 행위자는 물론이고, 세계, 시장, 문화, 사회관계, 사회운동, 혁명, 전쟁, 갈등, 협력 등 어떤 사회현상에 있어서도 데이터는 그것에 대한 것이 아니라 그것 자체의 중요한 구성 요소가 되었다. 사회연구는 데이터의 이러한 새로운 성격을 충분히 고려해야 할 것이다.

그렇다면 빅데이터는 기존의 데이터와 어떻게 다를까? Laney (2001)는 빅데이터가 세 가지 차원에서 기존의 데이터와 구별된다고 지적했다. 첫째, 데이터의 양이 과거와 비교할 수 없을 정도로 크고(규모, volume), 둘째, 숫자, 문자, 영상, 동영상, 거래기록 등 데이터의 형식이 매우 다양하며(종류, variety), 셋째, 데이터가 대단히 빠르게 생성된다(속도, velocity). 물론 모든 데이터가 이 세 가지 속성을 모두 갖는 것은 아니다. 예컨대 CCTV 데이터는 실시간이고 대규모이지만 형식은 동영상으로만 되어 있으며, 인터넷 사이트 접속 로그 파일은 실시간이고 대규모이지만 형식은 숫자와 문자만으로 되어 있다.

Laney의 정의가 널리 알려 있기는 하지만 모든 연구자가 그의 정의를 취하지는 않는다. 연구자에 따라 빅데이터의 특정한 성격이 강조되기도 한다. 어떤 학자는 사건이나 상호작용이 발생하면서 바로 기록되는 실시간 데이터(real-time data)라는 점에 주목하고, 어떤 학자는 연구자의 개입 없이 발견되는 데이터(found data)라는 점을, 어떤 학자는 비정형 데이터(unstructured data)가 증가하고 있음에 주목하고, 또 어떤 학자는 데이터가 인간이 아니라 점점 센서(censor)에 의해 생성된다는 사실에 주목한다(Connelly et. al. 2016).

사회과학 연구의 관점에서 보자면, 전통적으로 사용되는 데이터와 최근의 빅데이터는 다음과 같이 대비될 수 있다. 전자가 의도적으로(intentionally) 생성된 반면 후자는 연구를 목적으로 생성되지 않는다. 그래서 어떤 전문가는 전자를 ‘기획된 데이터(designed data)’라고 부르고, 그에 대비해서 후자를 ‘유기적 데이터(organic data)’라고 부른다. 또한 어떤 학자는 전자를 ‘제조된 데이터(made data)’라고 부르고, 그에 대비해서 후자를 ‘발견된 데이터(found data)’라고 부른다.

Image result for big data's effects on social science research

Purdam and Elliot( 2015)은 데이터에 관한 체계적이고 유용한 분류를 제공해 준다. 그들은 데이터가 어떻게 생성되었는가에 따라서 다음과 같이 여덟 가지 유형으로 분류한다.

① 정통의 의도된 데이터(orthodox intentional data): 설문조사, FGI, 실험

② 참여적 의도된 데이터(participative intentional data): crowdsourced data

③ 결과적 데이터(consequential data): 행정기록, 전자의료기록, 상업적 거래 데이터, 온라인 게임 경기 기록

④ 자기 발간 데이터(self-published data): 긴 형식의 블로그 포스팅, 온라인 이력서, 온라인 프로필

⑤ 소셜 미디어 데이터(social media data): 트위터, 페이스북, 온라인 게임 대화

⑥ 데이터 흔적(data traces): 온라인 검색 로그 파일, 온라인 구매 로그 파일

⑦ 발견된 데이터(found data): 공개 공간(public spaces)에 대한 관찰

⑧ 인공 데이터(synthetic data): 시뮬레이션 데이터, 합성 데이터

Mayer-Schoenberger & Cukier(2013: 78)는, 오늘날 점점 인간 뿐 아니라 컴퓨터에 의해 분류되고 분석될 수 있도록 사회적 존재나 현상이 디지털화되고 계량화되는 현상을 데이터화(datafication)라고 불렀다. 책 속의 단어들이 컴퓨터가 읽을 수 있는 데이터가 되고, 사람이나 사물의 위치가 컴퓨터가 처리하는 데이터가 되며, 사람들 사이의 상호작용(예: 트위터, 페이스북)이 컴퓨터로 분석되는 데이터가 된다. 데이터화는 사회과학 연구에 있어 데이터의 유형만큼이나 다양한 데이터 출처가 존재하게 만들고 있다.

Image result for data in star trek

데이터 분석 및 마케팅 전문가인 Lynda Partner(2016)의 지적처럼, 어쩌면 이제 “데이터가 모든 것이고, 모든 것이 데이터”인 세상일 지도 모른다. 학자와 전문가들은 정보시스템, 데이터 시스템, 지식관리시스템, ERP, 가설 검증, 예측, 분류라는 응용적 측면에서 데이터를 바라보지만, 데이터는 이미 인문학적 사유의 대상으로 넘어가고 있는 지도 모른다. 이미 30여 년 전 TV 시리즈인 스타 트렉(Star Trek)은 ‘데이터’라는 출연 인물(?)을 통해서 그러한 가능성을 보여주었고, 20여 년 영화 매트릭스(Matrix)는 모든 것이 데이터로 존재하는 세상인 가상공간을 실감나게 보여주었지 않았던가.  (윤영민, 2018-03-05)

<참고 문헌>

Connelly, Roxanne, Christopher J. Playford, Vernon Gayle, and Chris Dibben. 2016. “The Role of Administrative Data in the Big Data Revolution in Social Science Research”, Social Science Research 59. Pp.1-12.

Laney, D., 2001. “3D Data Management: Controlling Data Volume, Velocity and Variety.” META Group Research Note 6.

Mayer-Schoenberger, Viktor and Kenneth Cukier. 2013. Big Data: A Revolution that will Transform How We Live, Work, and Think. Boston: Houghton Mifflin Harcourt.

Partner, Lynda. 2016. “Data is everthing, and everything is data.” https://blog.pythian.com/data-everything-everything-data/

Purdam, Kingsley & Mark Elliot. 2015. “The Changing Social Science Data Landscape”, Halfpenny, J. Peter & Rob Procter (ed.). Innovations in Digital Research Methods. Chap. 2. London: Sage. Pp.25-58.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.