지능이라는 이름의 게임(11): 집단지능과 블록체인(3)

이번에는 구글의 검색 엔진을 살펴보자. 내부 개발자가 아닌 다음에는 현재 구글의 검색 엔진이 정확히 어떻게 구성되어 있는지를 정확히 알 수 없다. 구글이 검색엔진 알고리즘을 공개하지 않을 뿐 아니라 그것이 지속적으로 변하고 있기 때문이다.

구글의 검색엔진은 2000년 페이지랭크(PageRank) 알고리즘으로 시작한 이후 계속 갱신되어 왔으며 2013년에 허밍버드(Hummingbird) 알고리즘으로 전환된 후에는 큰 틀이 유지되고 있는 것으로 알려졌다. 구글의 발표에 의하면 검색엔진 알고리즘에는 200여 개의 요소가 투입되고 있다. 외부에 알려진 요소로는, 랭크브레인(RankBrain), 페이지랭크(PageRank), 웹사이트 품질, 검색어의 위치(제목/URL), 검색어의 동의어 존재 여부, 서버의 위치, 컨텐츠 발행 날짜 등이 있다. 그 알고리즘은 사용자가 무엇을 원하는지를 추측한 다음, 가장 적합한 정보 순으로, 최대한 신속하게 검색결과가 제시되도록 작동한다.(주석 1)

구글의 검색엔진 알고리즘은 계속 진화해 왔지만 구글의 접근방식을 이해하는 데는 아직도 페이지랭크 알고리즘을 살펴보는 것이 가장 효과적이다. 페이지랭크 알고리즘은 크게 변화되지 않았으며 아직도 구글 검색엔진 알고리즘의 중요한 요소로 남아 있다. 웹페이지의 페이지랭크 (점수)를 계산하는 원리는 아래 식(1)로 간단히 나타낼 수 있다.

웹페이지 A의 페이지랭크 는 기본적으로 웹페이지 A에 링크를 건 웹페이지 B, C, D 등의 페이지랭크[ ]를 합한 것이다. 식(1)에서 나머지 요소들은 그렇게 단순한 합을 점수로 했을 때 발생하는 문제를 해결하기 위해 추가되었다. (주석 2)

이 식을 곰곰히 살펴보면, 해당 검색어(들)를 갖고 있는 웹페이지의 등급—그것도 링크라는 상당히 엉뚱한 기준을 가지고 매긴—이 검색 결과를 제시하는 순서를 결정한다(현재는 페이지랭크 외에도 많은 정보들이 고려되어 최종적인 나열 순위가 결정된다). 한 웹페이지의 페이지랭크는 다른 웹페이지와의 관계(링크 여부)와, 그 웹페이지를 링크한 웹페이지의 영향력(페이지랭크)에 의해 결정된다.

관련 이미지

한 마디로 페이지랭크는 일종의 인기도이다. 웹페이지들이 각 웹페이지를 두고 링크(link)를 거는 방식으로 일종의 인기투표를 한 결과라고 할 수 있다. 이는 구글의 검색 엔진이, 웹사이트들(결국 그것은 운영자들)의 지혜를 기술적으로 취합해서 효율적인 정보검색이라는 사용자들의 ‘공동’ 과제를 해결하는 집단지능임을 의미한다.

IBM의 Chef Watson은 인지적 컴퓨팅(cognitive computing)이라는 방법을 사용해서 요리 아이디어와 요리법이라는 사람들의 일상적인 숙제를 해결해주고 있다. 이 사례도 대단히 흥미 있지만 생략하고 다음 포스팅부터는 블록체인을 살펴보자.

 

주석 1: 구글의 검색엔진이 변해온 과정을 보려면 MOZ 웹사이트의 Google Algorithm Change History를 참조. 랭크브레인 알고리즘에 관해서는 Search Engine Land blog의 FAQ: All about the Google RankBrain algorithm을 참조.  PageRank에 대한 알기 쉽고 상세한 수학적 설명은 코넬대학교가 운영하는 The Mathematics of Web Search에서 찾을 수 있음. 이 사이트는 PageRank를 이해하는데 필요한 선형대수(linear algebra)에 대한 설명도 제공함.

주석2: 는 damping factor인데, “어떤 무작위로 웹서핑을 하는 사람이 현재의 페이지에서 다른 페이지로 가는 링크를 클릭할 확률”이다. 은 모든 웹페이지의 숫자이며, 는 B라는 페이지가 가지고 있는 링크(outbound links)의 총 개수이다. 이 요소들에 대한 쉬운 설명은 ‘조성문의 실리콘밸리 이야기’ 블로그의 “‘쉽게 설명한’ 구글의 페이지랭크 알고리즘”을 참조.

지능이라는 이름의 게임(10): 집단지능과 블록체인(2)

초기에 아마존 웹사이트는 전문가들이 작성한 서평과 추천을 게시했다. 그 서평과 추천은 인기가 있었고 책 판매에 상당한 성과를 가져왔다. 그러나 그런 방식의 효과에 만족할 수 없었던 제프 베조스(Jeff Bezos)는 고객들 자신의 구매 선호를 기반으로 돌아가는 알고리즘을 개발했다. 오래지 않아 알고리즘에 의한 추천은 사람에 의한 추천을 완전히 대체하였다(Mayer-Schönberger & Cukier, 2013).

아마존의  책 추천에는 품목-대-품목 협업 필터링(Item-to-item collaborative filtering)이라는 알고리즘이 사용된다. 그것은 기존의 추천 시스템들이 지니고 있던 여러 가지 한계를 극복한 것이었다(Linden et. al., 2003).

예컨대 전통적인 협업 필터링(traditional collaborative filtering)은, 고객들 사이의 상관성(흔히 코사인 유사도를 사용한다)을 구해둔 다음, 어떤 고객이 웹사이트을 방문하면, 그 고객과 가장 유사한 몇 명의 고객들을 추려서 그들이 가장 많이 구입했거나 선호하는 상품을 추천하는 방식이다. 고객들 사이의 상관성은 고객들의 상품 구매 기록과 상품 평가 기록을 가지고 계산한다. 이 알고리즘은, 규모가 작은 웹사이트에서는 그런대로 잘 작동하지만 고객의 숫자가 1천만 명을 넘고 상품의 종류가 1백만 가지를 넘어서면 막대한 컴퓨팅 비용을 초래하는 여러가지 문제가 대두된다(Linden et. al., 2003: 76-77).

전통적인 협업 필터링처럼 군집 모형(cluster models)도, 웹사이트를 방문한 고객에게 유사 고객들(similar customers)의 선호를 기반으로 상품을 추천한다. 이 알고리즘은, 고객들을 많은 그룹들로 세분해 둔 다음, 새 고객이 방문하면 그를 그 그룹들 중 하나 혹은 몇 개로 분류한다. 그룹들은 군집화 알고리즘이나 비지도학습 알고리즘을 사용해서 생성된다.

군집 모형은 전통적인 협업 필터링에 비해 큰 규모의 웹사이트에서도 효율적으로 작동한다. 그러나 이 알고리즘은 전체 고객들의 정보 대신 제한된 수의 그룹들의 정보만으로 추천하기 때문에 추천의 정확성이 떨어지는 문제가 있다(Linden et. at., 2003: 77).

이 알고리즘들과는 달리 검색 기반 방법(search-based methods)은,  어떤 고객의 상품 구매나 평가 기록에 근거해서 유사한 상품을 추천한다. 즉, 고객에게 그가 구매했거나 긍정적으로 평가한 컨텐츠의 동일한 저자, 작가, 감독, 장르 등의 인기 상품을 추천하는 것이다. 이 방식은 고객의 구매나 평가 기록에 포함된 상품이 소수일 때는 잘 작동하지만 그 숫자가 크게 늘어나면 그러한 상품들을 추천하는 것이 현실적으로 불가능해진다(Linden et. al., 2003: 78).

아마존의 품목-대-품목 협업 필터링은 고객들의 경험 데이터를 이용하되, 그것을 상품들 사이의 상관관계로 전환해서 사용한다. 설명을 단순화하기 위해 아마존에 네 권의 책(A,B,C,D)만 있고 사용자가 두 명(사용자 1, 2)만 있다고 하자.

만약 새로운 방문자(사용자 3)가 A라는 책을 보았다면 그에게 어떤 다른 책을 추천하면 좋을까? 아마존의 추천 엔진은 다른 사용자들의 책 탐색 기록 정보를 이용해서 A와 가장 상관성이 높은 책 B와 C를 추천한다.

이 그림은 Software Programming blog의 How does the Amazon recommendation system work?을 손질한 것임.

이 과정을 수학적으로 설명해 보자. <그림 1>에서 사용자 1은 [B, C, B] 순으로 검색했고, 사용자 2는 [C, A, B] 순으로 검색했다. 이 정보를 가지고 품목-대-품목 행렬을 구하면 우측의 상단과 같다. 이 행렬을 가지고 두 벡터(vector) 끼리의 코사인 유사도(Cosine Similarity, CosSim)를 구한다. 아래 식에서처럼 두 벡터의 내적(inner product)을 두 벡터의 노름(norm, 벡터의 크기)의 곱으로 나누어 코사인값을 구하면 된다.

위 식에서 보듯이 두 벡터의 내적은 두 변수값의 곱()의 합이고,  벡터의 노름은 각 변수값의 제곱 합(, )의 양의 제곱근이다.

이렇게 구한 유사도는 –1에서 1까지 값을 갖는다. 코사인 유사도 –1은 두 벡터가 서로 완전히 반대 방향인 경우, 코사인 유사도 1은 두 벡터가 완전히 방향이 같은 경우, 그리고 코사인 유사도 0은 두 벡터가 서로 독립적인 경우를 가리킨다. 정보나 책의 검색에서 빈도가 음의 값을 가질 수 없으므로 코사인 유사도는 0에서 1까지의 값을 갖는다.

위의 경우 아마존의 검색 엔진은 책 A와 코사인 유사도가 가장 큰 책 B와 C를 추천한다. 즉, 아마존 검색 엔진은 사용자가 누구인가에 관계없이 책들의 상관성만 가지고 책을 추천한다.

책들 사이의 상관성은 오프라인에서 이미 계산해 두고 있기 때문에 아마존은  고객들에게 책을 비롯한 수많은 상품들을 더욱 빠르고, 더욱 정확하게 추천할 수 있다. 품목-대-품목 협업 필터링은 고객들의 구매, 클릭, 평가 등의 경험을 취합하여 온라인 상품 구매에서 고객들이 안고 있는 불확실성 문제를 해결하는 집단지능인 것이다.

단시간 내에 전세계 검색 시장의 최강자로 떠오른 구글(Google.com)의 검색엔진도 집단지능의 흥미 있는 사례이다. 다음 포스팅에서는 내친 김에 구글 검색 엔진의 원리도 살펴보자. (윤영민, 2018-05-12)

참고 문헌

Mayer-Schönberger,  Victor, & Kenneth Cukier. 2013. Big Data: A Revolution that will transform how we live, work, and think. Boston: An Eamon Dolan Book.

Linden, Greg, Brent Smith, & Jeremy York. 2003. “Amazon.com Recommendations: Item-to-item collabrative filterning.” IEEE Internet Computing, January-Feburary: 76-80.

지능이라는 이름의 게임(9): 집단지능과 블록체인(1)

‘지능이라는 게임’ 시리즈 포스팅의 (1)부터 (8)은 유기적 지능(organic intelligence)을 집중적으로 살펴보았고, 기계적 지능(mechanical intelligence)에 대해서도 약간 언급했다. 기계적 지능에 관해서는 나중에 기계학습(machine learning)이라는 소주제로 좀 더 자세히 살펴보기로 하고, 현대적 지능의 세 번째 유형인 사회적 지능(social intelligence)에 논의해 보자.  거기에 특별한 이유가 있는 것은 아니다. 필자는 블록체인을 집단지능의 하나로 보고 있고, 학교 수업에서 블록체인을 다루기 때문에 시간을 효율적으로 쓰기 위해서이다.

collective intelligence에 대한 이미지 검색결과

사회적 지능의 대표적인 모습은 집단지능(collective intelligence, 흔히 집단지성이라고 불림)이다. 집단지능은, 많은 사람들의 정보, 지식, 지혜, 추정, 혹은 판단을 모아서, 혹은 많은 사람들의 자발적 기여를 통해서 공동의 관심사 혹은 문제에 대한 해결을 도모하는 현상을 말한다. (전산학에서는 집단지능을 응용 프로그래밍의 하나로 보고 있다. 그 예로 Programming Collective Intelligence 을 참조하시오.)

그렇게 정의하면, 모든 사회조직은 집단지능이라고 해석될 수 있다. 국가, 기업, 시민단체, 이익단체, 마을 공동체 등이 모두 공동의 문제를 해결하기 위한 집단적 노력이라는 점에서 집단지능이라고 불릴 수 있을 것이다.

그런데 21세기적 집단지능에는 과학기술(technology)이 추가된다. 많은 사람들의 기여를 취합하거나, 조정하고, 나아가 그 결과를 제시하는데 과학기술이 적용된다. 그런  의미에서 21세기 집단지능은 사회적 지능이라기보다 사회-기술적 지능(socio-technological intelligence)라고 분류하는 편이 정확할 지도 모르겠다. 그러한 집단지능의 변천을 추적해 보면 아래 그림과 같다.

인터넷을 이용한 집단지능의 효시로는 아마도 미국 아이오와 대학교(University of Iowa)의 교수진이 운영하는 Iowa Electronic Markets (IEM)을 들 수 있을 것이다. 그것은 소위 예측시장(prediction markets)의 효시이기도 하다(예측시장의 훨씬 흥미있고 대중적인 사례로 Hollywood Stock Exchange, HSX가 있음).

IEM에서 참가자들은 소액의 돈으로 해당 선거의 후보에 해당하는 주식을 산다. 실제로 해당 선거가 끝나면, 선거 결과에 따라서 배당을 받는다. 당연히 자신이 구입한 주식에 해당하는 후보가 선거에서 이기면 배당이 된다. 따라서 참가자들은 진지하게 선거 결과를 예측하고 당선 가능성이 높은 후보에게 배팅(?)한다. 그리고 IEM 시스템은 그것들을 기술적으로 취합해서 선거 결과를 예측한다.

IEM에서는 지난 30년 동안 미국의 대통령, 정당의 대통령 후보, 주지사, 상원의원, 하원의원, 시장 등 각종 공직자 선거에 대한 주식거래가 이루어졌고, 선거 결과를 예측했다. IEM의 예측 성공률은 상당히 높아 유명 여론조사 기관들의 출구조사에 결코 뒤지지 않는다(관련 논문을 참고하시오).

리눅스(Linux)는 집단지능의 대표적인 사례로 널리 알려져 있다. 그러나 아마도 상업적 영향력이라는 측면에서 추천엔진(recommenders)만한 집단지능을 찾아보기 힘들 것이다. 특히 Amazon.com의 추천 시스템은 이전의 추천 시스템들과 달리 대규모의 쇼핑몰에서도 효율적으로 사용될 수 있음이 입증되었고, 음악이나 영화 사이트, 인터넷 쇼핑몰 그리고 SNS까지 너도나도 유사한 추천엔진을 도입해서 고객들에게 ‘개인화’ 서비스 혹은 ‘맞춤’ 서비스를 제공하고 있다.

다음 포스팅에서는 아마존 추천엔진이 어떤 원리로 작동하는가를 살펴보자. (윤영민, 2018-05-11)

행복한 토론을 위한 몇 가지 기술

최근 한반도를 둘러싸고 국가들 사이의 회담이 연이어 진행되고 있다. 정상회담, 당국자 회담, 실무회의 등 여러 수준의 대화가 역사상 전례를 찾기 어려울 정도로 숨가쁘게 열리고 있다. 그 모습을 보면서 우리는 대화가 개인 뿐 아니라 집단에게도 생존과 번영을 위한 최고의 수단이 될 수 있다는 사실을 다시 한번 확인한다.

그런데 대화가, 상호 이해나 타협 혹은 의사결정에 도달하는 수단일 뿐 아니라 지식의 생산(즉, 연구)이나, 지식과 깨달음의 습득(즉, 학습)에도 대단히 효과적인 방법이라는 사실을 흔쾌히 인정하는 사람들이 별로 보이지 않는다. 아직도 우리 사회에는 연구나 학습이 개별적으로 수행하는 것이라고 간주되는 경향이 있다.

그런 분위기를 개선하는데 쓸모가 있으리라 생각되어, 6년 전 페이스북의 ‘정보사회학’ 페이지에 올렸던 글을 약간 손질하여 전재한다. 당시에는 온라인 대화에 특정해서 논의하였지만 거기에 제시된 내용은 오프라인 대화에도 적용될 수 있을 것이다.

아직 권위주의적 혹은 신분계층적 잔재가 남아 있는 우리 사회에서 생산적인 대화가 쉽지 않음은 별로 놀랍지 않다. 우리 사회에는 대화를 통해서 상호 이해와 합의에 도달하는 토론(discussion)이 발달하지 못했고, ‘함께 생각하는(thinking together)’ 수단(혹은 과정)으로서의 대화(dialogue)가 보기 드물다는 의미에서 그렇다. 방송에 시사토론 프로그램이 인기를 끌면서 몇몇 논쟁적 지식인이 연예인 수준의 명사로 등극하고, 유튜브상의 수많은 대안 미디어 덕분에 적지 않은 스타 지식인들이 출현했지만, 대화 그리고 대화적 지식인은 여전히 우리에게 낯선 문화이다.

우리 사회에서는 도대체 ‘함께 생각한다’는 것 자체가 부정되는 분위기이다. 우리에게는 아직도 생각한다는 것은 홀로 명상을 한다거나 글을 쓰는 행위와 동일시된다. 대화를 통해 함께 생각하기(이하에서는 다이어로그라고 부름) 위해서는 상당한 훈련이 필요한데, 가정에서도, 학교에서도, 그리고 직장(일부 교육을 제외)이나 대중매체 같은 사회에서도 다이어로그하는 훈련을 시켜주지 않는다.

대화에는 한담(閑談), 난장(亂場)적 대화, 논쟁, 토론, 다이어로그(對談) 등 다양한 형태가 있다. 그런데 우리 사회에서는 앞 세 가지는 잘 발달한 반면 뒤 두 가지는 좀 약한 편이다. 난장적 대화(Carnivalesque)는 전통적으로 판소리 가사에서 쉽게 찾아볼 수 있고 요즘에는 유튜브의 시사토론 미디어에서도 발견된다. 그것은 풍자와 해학이 넘치는 대화이다. 논쟁(debate)도 서구사회 이상으로 발달했다. 조선시대 양반들은 벼슬자리는 물론이고 심지어 목숨까지 걸면서 정치적 논쟁을 했고, 요즘도 TV 시사토론 프로그램이나 인터넷상에는 직업적 ‘논객’들이 적지 않다.

논쟁(debate)은 나름대로 사회적 가치가 있다. 한 사회에 내재한 상이한 입장과 견해를 극적으로 드러내주는데 논쟁만한 대화 형식이 없다. 또한 논쟁은 논리 발달을 촉진하고 게다가 첨예한 논쟁은 시청자에게 말싸움을 구경하는 재미를 주고, 덕분에 방송국은 저비용으로 취약 시간대 방송을 커버하고 운이 좋으면 제법 괜찮은 시청률을 올릴 수도 있다.

그러나 논쟁은 치명적인 한계를 지니고 있다. 대화의 목표가 승리(혹은 설득)이기 때문에 찬반 발언은 당파성을 띄게 되고 참여자는 상대의 논리적 허점을 찾아내어 공격해야 한다. 상대편의 의견에 동의하는 것은 패배이다. 논쟁은 보통 우리가 말싸움이라고 부르는 경기이다. 거기에서는 다양한 의견이 나오기 어려우며 상호 이해와 합의를 기대할 수 없고 지식의 생성이나 자기발견적 학습도 거의 일어나지 않는다. 심지어 사회적으로는 분열을 조장하기도 한다. 거기에서는 쟁점이 실제의 차이보다 훨씬 단순화되고 과장되며 감정적인 응어리까지 남기기 때문이다.

논쟁은, 참가자들이 자유롭게 자신의 의견을 개진하면서도 상호이해와 합의에 도달하는 토론과 구분되며, 더구나 참가자들의 기여를 최대한 끌어내면서 교육(혹은 학습) 효과를 내거나, 아이디어를 창출하고 의사결정을 해내는 다이어로그와는 판연히 다르다. 그렇다면 지식생성과 학습을 위한 다이어로그를 성공적으로 일어나게 하려면 어떻게 해야 할까?

만약 우리가 정말로 ‘함께 생각하기(thinking together)’의 놀라운 효과를 기대한다면, 무엇보다 세 가지 전제 조건을 충족시켜야 한다. 첫째, 대화 참여자들이 서로 존중해야 한다. 다른 참여자들의 능력에 대해 무한 신뢰를 보내야 하는 것이다. 그것이 결코 쉬운 일은 아니지만 반드시 그리해야 한다. 그래야만 참여자들의 잠재력이 성공적으로 표출될 수 있다. 서로 무시하고 경시하는 순간 함께 생각하기는 물 건너 간다. 참여자들은, 내 의견이 귀하게 받아들여지고 있구나 하는 느낌을 가질 수 있어야 한다.

둘째, 공동의 목표가 설정되어야 한다. 꼭 명시적인 대화를 통해서 공동의 목표가 설정될 필요는 없겠지만 그렇다고 그것이 일방적으로 주어질 수는 없다. 설령 묵시적일지라도 대화 참여자들이 대화의 목표를 충분히 공감하고 수용할 있어야 한다. 그것이 일회의 대화가 아니라 보다 넓은 의미의 공동체로서의 목표일 수도 있다. 예컨대 SNS가 무엇인지 이해하는 것이 목표가 될 수도 있겠고 지역발전이 목표가 될 수도 있을 것이다.

셋째, 진정성을 갖추어야 한다. 대화 참여자들은 자신의 소중한 시간과 노력이 자신도 모르게 다른 목적으로 이용되는 것을 원하지 않는다. 그러기 위해서는 모든 목표와 용도가 명시적이며(explicit) 공공적(public)이어야 한다. 이는 대화 주도자에게 해당되는 요건이다. 일반적인 대화 참여자들이 대화를 통해서 자신을 알리거나 자신의 입지를 만들어가려는 의도까지 배제될 필요는 없을 것이다.

이 세 가지 요건을 갖추면 다이어로그가 이루어질 수 있다. 그렇다고 성공이 보장되는 것은 아니다. 다음은 Lawrence M. Miller의 “Dialogue: learning to Think Together(2004)”를 참고하여 작성된, 다이어로그가 성공하기 위해 실천되어야 할 요소들이다.

1) 경청하라(Practice Deep Listening): 논쟁할 때는 상대방의 논리적 허점을 발견하기 위해 귀를 기울이지만 다이어로그에서는 상대방의 말을 제대로 이해하기 위해서 경청한다. Miller의 글 중 가장 인상적인 부분이다. “다이어로그는 작가적 경청을 필요로 한(Dialogue requires the listening of the writer). 즉, 다른 사람의 목소리를 듣는 능력, 다른 사람의 스토리를 듣는 능력, 각 스토리에 의미를 부여하는 디테일에 즐거움을 느끼는 능력이 필요하다(Miller, 2004: 9).”

2) 질의하라(Practice Inquiring versus Acquiescing): Miller의 지적처럼 “질문은 학습의 근본적인 수단이다.” 여기까지는 대단할 게 없고 다음이 중요하다. 논쟁과 달리 상대방을 곤경에 몰아넣기 위해서 질문하는 것이 아니라 대화에서 상대방의 기여를 최대한 이끌어내기 위해 질문을 해야 한다. 예컨대 누군가가 어떤 제안을 했다면, 그 제안의 완성도를 높이고 실현가능성을 높이기 위한 질문을 할 수 있을 것이다. 다이어로그는 대화의 상대를 성장시키면서 내가 성장하는 기회이다.

3) 판단을 유보하라(Practice Suspending Judgment): 논쟁에서는 판단이 빨라야 한다. 전광석화처럼 상대의 허점을 치고 나가야 하기 때문이다. 그러나 다이어로그에서는 누군가의 발언에 대해 서둘러 평가하려고 해서는 안된다. 충분한 반대 증거가 나올 때까지는 판단을 보류해야 한다. 자신이 다른 사람보다 많은 경험을 했고, 다른 사람보다 지식이 많으며, 다른 사람보다 머리가 좋다고 생각하는 사람들은 보통 판단이 빠르다. 그것이 장점인 경우도 많겠지만 다이어로그에서는 단점이 된다. 다이어로그에서는 자신의 생각이 틀릴 수도 있다는 겸손이 최고의 미덕이다. 겸손이야말로 다른 사람이 함께 그림을 그릴 수 있는 여백을 준다.

수업이나 온라인 다이어로그에서는 겸손이 특별히 중요하다. 참여자들은 자신이 어떻게 평가 받을 지에 대해 두려운 생각을 갖기 쉽기 때문이다. 참가자들이 편안히 자신의 생각을 발표할 수 있는 분위기를 만들기 위해서 겸손은 아무리 강조해도 지나치지 않을 것이다.

4) 상대를 부인하는 유형화를 피하라(Avoid Dismissive Categorizing): 이 또한 뼈아픈 말이다. 그것은 논쟁에서는 가장 자주 사용되는 공격법이다. 좌빨, 수구꼴통, 진보, 보수…정말 우리 사회의 대화에서는 부인적 유형화가 아주 심하다. 사람이든 발언이든 부인적 유형화를 해버리면 그 다음부터 다이어로그는 회복 불능 상태에 들어간다. 일단 상대에게 색칠을 해버리면 그의 모든 발언이 긍정적으로 해석되기 어렵다. 특별한 경우가 아니고서는 상대나 상대의 발언에 대한 유형화는 피해야 한다.

5) 당신의 진정한 목소리를 찾아라(Seek Your Authentic Voice): 머리 속에 떠오르는 생각을 모두 말할 필요는 없을 것이다. 남의 말을 이해한 다음 자신의 생각을 새겨본다. 말하기 전에 먼저 곰곰이 자신의 생각을 살펴보는 노력이 필요하다. 사실 우리는 대화 중인 주제에 관해 자신의 입장이나 생각이 무엇인지 잘 모르는 경우가 많다. 자신의 입장을 찾았다고 생각되면 지체 없이 그리고 당당히 발언해야 한다. 대화의 흐름이 빠르면 말할 기회를 놓치기 쉽다. 그리고 일단 흘러가고 다면 대화의 초점을 되돌리기가 무척 어렵다.

다이어로그를 시작할 때 대다수의 참여자들은 주제에 관한 잘 모를 수 있고, 참여자들의 사전적인 지식의 편차가 아주 클 수도 있다. 그러나 다이어로그가 진행되면서 참여자 개개인에게 정보와 깨달음이 빠르게 쌓여간다. 뿐만 아니라 다이어로그의 최대의 성과는 혼자라면 얻기 어려운 깨달음-지식-을 함께 얻게 되는 것이다. 집단지성의 성취라고 할 수 있다.

어떤 다이어로그가, 최적 상태에 도달하기 전에 끝나버리는 ‘집단사고(group think)’에 머물지, 아니면 참여자 개개인의 지적 능력을 초월하는 ‘집단지성(collective intelligence)’을 성취할 지는 쉽게 예단할 수 없다. 그러나 위에서 언급한 세 가지 전제조건을 충족하고, 다섯 가지 원칙을 잘 지킨다면 다이어로그를 성공시킬 수 있지 않을까 생각된다. (윤영민, 2018-05-04)

대학에서의 사회과학 수업, 어떻게 해야 하나?

Image result for professor students

대학의 사회과학 수업에서 교수는 자신이 강의하는 사회 문제나 쟁점에 대해 ‘정답’을 제시하지 않는다. 대학 수업에서는 중고등학교 때처럼 표준화된 교과서식 해답을 기대할 수 없다는 말이다. 그것은 사회 문제에 대해서는 정답이 없기 때문이기도 하지만 또 다른 이유도 있다.

강의하는 교수가 분석 문제나 쟁점에 대해 자신의 의견이나 입장을 갖고 있지 않은 것은 아니다. 다만 교수는 자신의 목소리(주장) 톤을 최대한 낮춘다. 그래야 학생들이 사회 현상에 대해 다양한 이론과 입장을 분석할 수 있도록 도와줄 수 있기 때문이다.

Image result for captive audience

강의실이, 교수가 학생이라는 포박된 청중(captive audience)에게 자신의 주장을 일방적으로 쏟아내는 공간이 되어서는 안된다. 그렇게 되면, 강의는 추종자, 비판자, 그리고 무관심한 자를 생산하는 설득 행위가 되어 버린다. 강의가 일종의 상품 광고로 전락해 버리는 것이다.

실제로 대학에서 교수는 학생들로 하여금 사회 문제나 쟁점에 관련된 다양한 관점, 입장, 이론, 사실 등을 검토하도록 요구한다. 교수들은, 학생이 무슨 의견이나 입장을 갖고 있는가보다 학생이 자신의 의견, 입장, 혹은 느낌을 얼마나 기품있게 제시할 수 있는가에 주목한다. 학생에게 그러한 능력을 길러주는 것이 대학 교육의 중요한 목표이기도 하다.

Image result for articulation of arguments

대학 강의실은, 교수의 ‘정견’ 발표장이 아니듯, 학생들이 기존에 갖고 있던 생각–그것은 흔히 선입견이나 편견이곤 한다–을 확인하거나 강화하는 장소가 아니다. 물론 이 말은 학생들이 자신의 신념이나 의견을 주장해서는 안되는다는 의미가 전혀 아니다. 그보다는 교수나 다른 학생들의 의견과 입장을 존중하는 열린 자세를 강조하는 말이다.

대학에서 학생들은 서로 다른 생각이나 입장을 가진 타인(교수, 학생 등)을 만나서 자신의 생각을 형성하고, 발전시키며, 수정한다. 수업에서 그런 깨달음을 얻으려면 학생들은 남을 존중하는 자세를 갖고 토론에 임해야 한다. 물론 이는 교수에게도 마찬가지로 적용되는 원칙이다. 교수도 학생들을 존중해야 한다는 말이다.

매년 신입생을 마주하면, 나 스스로 대학교육의 존재 이유가 무엇인지, 교수와 학생은 어떤 관계인지에 대해 생각해 보게 된다. 좋은 반성의 기회이다. (윤영민, 2018-04-15)

 

뉴런-시냅스에서의 정보 전달

인체의 신경계(neural system)는 시각, 후각, 청각, 촉각 등 감각기관을 통해서 감지된 신호(자극, 정보)가 두뇌에 전달되고 두뇌의 대응 지시가 다시 감각기관에 전달되어 우리의 신체가 내외부에서 받는 신호에 대해 신속하고 적절하게 반응할 수 있게 해주는 신체 내의 체계이다. 신경계의 신호전달을 담당하는 세포가 뉴런(neuron, 신경세포)이다. 뉴런이 다른 뉴런에게 신호를 전달하는 과정을 간략히 정리하면 다음과 같다.

Image result for neuron

뉴런의 세포체(cell body)는 두 가지의 연장체(extension)를 지니고 있다. 다른 뉴런으로부터 신호를 받아들이는 수상돌기(dendrite)와 다른 뉴런에게 신호를 내보내는 축삭(axon)이 그것이다. 수상돌기는 통상 짧지만 축삭은 긴 경우 1 m 이상이나 된다.

Image result for how does neuron dendrite receive signals

수상돌기에는 이온 수용체들(ion receptors)이 달려 있다. 시냅스 전 뉴런(presynaptic neuron)의 축삭 종말에 활성 전위(action potential)가 이 도달하면 거기에서 글루타민산염(Glutamate)이 방출되고 그것은 시냅스 후 뉴런(postsynaptic neuron)에 해당 신호를 받아들일 수 있는 이온 수용체가 열리도록 작용한다. 만약 시냅스 전 뉴런이 흥분 뉴런(excitory neuron)이면 나트륨을 받아들이는 이온 수용체가 열려서 나트륨()을 받아들이며, 그렇게 되면 수상돌기 끝에서 막탈분극화(membrane depolarization)가 일어난다.

Image result for membrane depolarization

정지상태(resting state)에 있던 수상돌기 멤브래인(membrane)의 전극은 세포 안쪽이 음극(-), 세포 바깥쪽이 양극(+)으로 되어 있는데, 이온 채널(pump)이 열려서 양극의 나트륨 이온이 경계막 안쪽으로 흘러들어오면 막탈분극화가 일어난다. 점점 양쪽의 전극이 약화되고 종래에 경계막 안쪽은 양극(+)으로, 경계막 바깥쪽은 음극(-)으로 바뀐다. 그러면 옆쪽 부분의 전극이 아직 음극(-)이므로 전위차가 발생하고 신호 이동이 일어난다. 그런 다음 옆쪽 이온 채널이 열리면 그곳에도 나트륨 이온이 경계막 안으로 흘러들어오고 그곳에서도 막탈분극화가 일어난다.

Related image

그러는 동안에 신호 전달을 마친 부분에서는 이온 채널을 통해서 칼륨() 이온이 경계막 바깥으로 배출되며 경계막 내부가 다시 원상태인 음극으로 되돌아가는 막재분극화(membrane repolarization)가 일어난다.  [만약 시냅스 전 뉴런이 억제 뉴런(inhibitory neuron)이면 염화이온(chloride ion, )이 배출되며 시냅스 후 뉴런에서는 그것을 받아들이는 이온 수용체가 열려서 수상돌기 끝에서 막분극화를 강화하여 막탈분극화가 일어날 가능성이 작아진다. 즉, 신호가 전달될 가능성이 작아진다.]

Image result for inhibitory neuron CI

이러한 과정이 반복되면서 수상돌기에서 세포체로 신호가 전달되며, 신호가 충분히 강하면 세포막에서 축삭으로 신호가 전달되면서[여러 수상돌기로부터 온 신호가 합쳐져서 충분히 강하면 축삭소구(hillrock)에서 활성 전위(action potential)가 발사된다] 막탈분극화-막재분극화가 반복되고 종국에 활성 전위(신호)가 축삭 종말(axon terminal)에 도달한다. 축삭 종말에서 신호가 전달되면 주머니에 쌓여 있는 신경전달물질(neurotransmitter)이 시냅스 틈(synapse cleft)으로 분비되며, 그것이 다음 뉴런의 수상돌기에 있는 수용체(receptors)를 통해서 흘러들어간다. 그리고 위에서와 같은 과정이 반복되면서 뉴런에서 다른 뉴런으로 그리고 거기서 또다른 뉴런으로 신호가 전달된다.

Image result for synapse

(윤영민, 2018-04-13)

사이버 폭력–해법 없는 야만

사이버 폭력은 영어로 online violence (혹은 cyber-bullying)로 불리기도 하고 online harassment로 불리기도 한다. 폭력(violence)은 법적으로 명백한 범죄이지만 harassment(괴롭힘)은 범죄일 수도 있고, 단순한 도덕적 혹은 윤리적 일탈일 수도 있다. 이 표현상의 애매함은 사이버 폭력에 내재한, 해소될 수 없는 모순 혹은 이중성을 보여주며, 나아가 그것이 지닌 사회적 심각성을 시사한다.

Image result for online violence

가벼운 형태의 사이버 폭력이 ‘괴롭힘’이고 심각한 형태의 사어버 폭력이 ‘폭력’인 것이 아니다. 그 두 용어가 단지 사이버 폭력의 강도를 의미하고 있지 않다는 말이다. 그것은 가해자 입장에서 보는가 아니면 피해자 입장에서 보는가를 질적으로 구분해 주는 용어로 봐야 한다. 가해자 입장에서는 ‘괴롭힘’도 있고 ‘폭력’도 있겠지만, 피해자 입장에서는 오직 ‘폭력’만이 있기 때문이다.

“그냥 재밌자고 한 말인데요.” “화가 나서 그냥 한 마디 한 것 뿐이에요.” “좀 튀어볼라고 쓴 것 뿐인데.”

사이버 폭력 가해자를 인터뷰할 때 듣게 되는 전형적인 반응들이다. 가해자들은 사이버 폭력을 전혀 문제가 될 게 없는 행동으로 인식하거나 기껏해야 가벼운 일탈 정도로 생각하는 경향이 있다. 예컨대 비유적으로 표현하자면, 가해자 입장에서는 피해자를 비아낭거리거나 다소 심한 농담을 한 정도, 좀 더 심하면, 약간 화를 내거나 욕설을 퍼붓는 행위, 아주 심각한 경우라해야 침을 뱉거나 따귀를 때리는 정도라고 생각한다. 가해자는 그것을, 주먹으로 상대가 부상을 당할 정도로 때리거나 둔기를 내려치는 범죄, 더구나 칼로 찌르는 행동 같은 중대한 범법 행위가 절대 아니라고 생각한다.

Related image

이와는 달리 사이버 폭력의 피해자들 대부분–그것을 좀 넉넉하게 받아들이자는 문재인 대통령은 소수의 예외에 속할 것이다–은 사이버 폭력이 심각한 사회 범죄라고 생각한다. 가해자 개개인은 가벼운 비난이나 욕설만을 했어도 그렇다. 수백명, 수천명, 혹은 수만명이 비난과 욕설을 쏟아내면 그것을 담담하게 감당할 수 있는 사람이 별로 없을 것이다.

사이버 폭력으로 인한 심리적, 나아가 사회적 피해는 워낙 위중하다. 피해자는 오랜 기간 극도의 분노, 좌절, 공포에 사로 잡히고, 불면증은 물론이고 위통, 근육통 등 신체적 이상이 수반되기도 한다. 명사들의 경우 그 피해가 심리적 혹은 신체적 상태에서 그치지 않는다. 그로 인해 그들은 직장이나 직업을 잃고 영원히 사회적으로 매장되기도 한다. 명사들에게는 명예나 이미지가 삶의 전부나 마찬가지이기 때문에 명예를 잃거나 이미지가 망가지는 것은 사회적 죽음이나 다름 없다.

Image result for consequence of online violence

사이버 폭력에 대한 가해자와 피해자 사이의 그러한 의식 격차(awareness gap)는 사이버 폭력의 해결을 어렵게 만드는 가장 중대한 요인 중 하나일 것이다. 소리 한번 지르거나 침 한번 뱉었는데 상대가 죽어버리는 현상이 사이버 폭력이다.

사이버 폭력은 인터넷 야만(野蠻)이다. 사이버 폭력의 피해자는, 때로 성폭력, 성추행, 혹은 성희롱을 저지른 성범죄 혐의자일 수 있고, 때로 범죄까지는 아니더라도 도덕적으로 비난받을 만한 행동을 했을 수 있으며, 때로 남이 저지른 비행에 대해 억울하게 누명을 쓴 사람일 수도 있고, 때로 특정 사회적 사건과는 관계없는 엉뚱한 사람일 수도 있다. 문제는 흔히 아직 진실이 밝혀지기도 전에 ‘피해자’에 대한 일종의 여론 재판이 끝나 버리곤 한다는 사실이다. 법적 판결을 받기도 전에 이미 ‘피해자’에 대한 사회적 ‘사형’이 집행되어버리곤 한다는 사실이다. 그 재판에서 선고는 사형 뿐이고 집행은 즉결이다.

Related image

현대 민주주의 사회에서 개인에 대해서든 집단에 대해서든 타인에 대한 직접적인 복수나 응징은 엄격히 금지되어 있다. 그것은 명백한 범죄 행위이다. 범죄에 대한 판단과 처벌은 오직 국가의 사법기구만에게만 부여되어 있으며 반드시 법률에 따라야 한다(죄형법정주의). 경찰이나 검찰이 범죄를 인지하거나 범죄 피해자의 고발이나 고소가 있으면 사법기구가 범죄를 조사하고 적법한 절차에 따라 재판하며 피해자를 대신해서 형을 집행한다. 그리고 그 형은 범죄 행위에 대해 적절한 수준이어야 한다. 2-3년 정도 실형을 살아야 하는 범죄자에게 사형을 언도하고 집행할 수는 없다. 현대 문명사회에서 사법권은 국가에게만 배타적으로 주어지고 사법부는 사회 정의(正義)의 최종 담지자이다.

그런데 인터넷에서는 범죄의 직접적인 피해자가 아닌 다수의 사람들에 의해 범죄 혐의자(혹은 그렇게 추정되는 사람)에게 충동적이고 무책임한 심판과 처벌이 발생한다. 제어되지 않은 대중의 분노–그것은 왕왕 근거가 잘못 된 것이곤 하다–가 순식간에 한 사람의 사회적 생명을 끝장내 버린다. 거기에는 적법한 절차, 적절한 형량, 정당한 집행 따위가 끼어들 자리가 없다.

그것은 집단적 린치이다. 거기에 참여하는 사람 개개인은 양심의 가책은 커녕 기억조차 하지 못하는 ‘사소한’ 댓글 한 마디 올렸을 뿐인데, 수백, 수천의 댓글들이 합쳐져서 당하는 사람에게는 감당할 수 없는 린치요 형벌이 되어버리는 것이다. 우리가 문명 사회에 살고 있다면 그러한 사회적 범죄는 결코 용납되어서는 안된다. 그것은 언론의 자유도 아니고 표현의 자유도 아니다. 당하는 사람에게 있어 그것은 그냥 흉악한 범죄일 뿐이다.

Image result for lynch mob

현대판 야만인 사이버 폭력을 어떻게 예방할 수 있을까? 사이버 폭력이 인터넷 사용자의 자율적인 방법이나 교육을 통해서 해결될 것으로 판단되지 않는다. 사이버 폭력에 대한 가해자와 피해자의 의식 격차가 너무 크며, 사이버 폭력은 대단히 가볍고 충동적이며 순식간에 발생해 버리는 행동이기 때문이다. 가해자에 대한 법적 처벌을 엄격하게 한다고 해결될 것으로 보이지 않는다. 가해 행동의 성격에 따라 가해자를 처벌하는 것도 비현실적이고, 그렇다고 피해의 정도에 따라 가해자를 처벌할 수도 없지 않겠는가.

사이버 문화의 향상이나 교육을 통한 인식의 제고가 필요하겠지만 사이버 폭력이 발생하는 공간에 대한 통제가 필수적이 아닐까 생각된다. 인터넷 포털, 인터넷 매체, SNS 운영 업체에 대해 예방 책임을 부여해야 할 것이다. 사실 무분별한 댓글이 방치되는 중요한 이유 중의 하나가 그 업체들의 상업적 동기이다.

모든 인터넷 포털, 인터넷 언론, SNS에 대해 실명제를 의무화하는 것을 고려해 볼 수도 있다. 그러나 실명제를 도입한다고 문제가 해결되지는 않을 것이다. 가벼운 비난, 퍼나르기, 신상털이는 실명으로도 얼마든 행해진다. 페이스북의 경우 사용자가 실명은 물론이고 자신의 얼굴까지 공개하고 있지만 사이버 폭력이 발생하고 있지 않는가. 더구나 관련 업체들은 언론의 자유 혹은 표현의 자유에 대한 탄압이라고 거세게 저항할 것이다. 그런데 실명제가, 정부가 그 저항을 강제로 잠재우고 시행할 정도로 효과적인 제도인지 의문이다.

답답하다. 과연 사이버 폭력에 대한 효과적인 해법은 없을까? (윤영민, 2018-3-25)

Related image

데이터를 다시 생각한다(2): 사회과학적 관점

어떤 사회 제도(social institutions)나 존재 이유와 내부 질서(혹은 구조)를 갖고 있다. 하나의 사회제도로서 과학—사회과학을 포함—도 그렇다. 과학의 존재 이유는 진리(truth)(다르게 표현하면, 지식, knowledge)의 탐구이며, 과학의 내부 질서는 주로 고유한 연구방법–다시 말해 과학적 지식이 생성되는 방법–에 달려 있다.

과학적 지식은 연역적 추론(deductive reasoning), 귀납적 추론(inductive reasoning), 혹은 유추(analogy)와 같은 방법으로 생성된다. 삼단논법에 보듯이 보편적 전제로부터 개별적 결론이 도출될 수도 있고(연역적 추론), 개별적 사실들로부터 일반적 원리를 끌어낼 수도 있으며(귀납적 추론), 한 사물이나 현상을 보고 다른 사물이나 현상에 대해 추측할 수도 있다(유추).

과학에서는 어떤 이론이나 가설도 경험적 검증을 거쳐야 지식으로 인정받게 된다. 가설(hypothesis)을 세우고(그것은 이론으로부터 도출될 수도 있고 선행연구의 발견으로부터 가져올 수도 있다), 관찰, 실험, 인터뷰 등 과학적이라고 인정되는 방법으로 데이터를 수집한 다음, 그것을 가지고 가설을 검증한다. 가설 검증 과정에서 연역적 추론, 귀납적 추론, 유추 등이 사용된다.

가설은 데이터에 의해 지지되거나(supported) 기각되며(rejected), 기각된 경우에는, 새로운 방법이나 새로운 데이터를 가지고 가설을 재검증하거나 가설을 수정하여 다시 검증하기도 한다. 가설이 한번에 검증되는 경우는 없으며 반복적인 검증을 통과해야 한다. 그런 의미에서 모든 이론과 가설–다시 말해, 지식–은 잠정적(temporary)이라고 말할 수 있다.

사회과학에서 연구자는, 먼저 연구 문제(research question)와 가설(hypothesis)을 가지며, 그런 다음 그것을 검증해줄, 현실을 대표한다고 믿어지는 데이터(data)를 구한다. 데이터란 사람, 집단, 사회현상 따위에 관한 사실(facts) 혹은 정보(information)를 말한다.

빅데이터 시대 이전까지 일반적으로 데이터는 연구자가 연구를 위해 의도적으로 수집한 것이었다. 연구 목적에 부합되도록 조사를 기획하고 실험, (참여) 관찰, 설문조사와 같은 방법을 통해서 데이터를 수집하였다. 사회과학에서 데이터란 그러한 데이터를 의미하였으며, 엄밀하게 계획되고 설계된 절차를 통해서 수집된 데이터만이 학문적으로 인정받을 수 있었다.

Image result for big data social science research

사회과학 연구에 있어 빅데이터가 제기하는 가장 근본적인 문제 중 하나는 데이터에 관한 그러한 전통적인 인식에 대한 것이다. 빅데이터는 데이터가 단순히 양적으로 증가했다는 의미를 넘어서 데이터가 질적으로 달라졌음을 함축한다. 이는 데이터가 무엇인가에 대해 다시 생각해보아야 하고 데이터의 학문적 타당성에 대해서도 다시 살펴보아야 함을 의미한다.

사회과학의 연구 대상은 개인, 집단, 사회조직, 사회제도, 사회적 상호작용, 사회운동, 혁명, 전쟁, 의례와 관행, 가치와 규범, 의식과 태도 따위이다. 과거에도 그랬고, 현재도 그러하며, 미래에도 그러할 것이다. 문제는 데이터가 ~에 대한 것을 넘어서 ~자체가 되었다는 사실이다(Purdam and Elliot, 2015).

예컨대 개인(individual)을 생각해보자. 과거에 개인 데이터(personal data)란 개인의 속성(attributes), 자산, 습관, 취미, 관심, 태도, 행동 등을 알려주는 고정적인 것이거나 상당히 안정적인 것이었다. 그리고 이름, 성별, 나이, 주소, 전화번호, 주민등록번호, 출생지, 직업, 가족관계, 소득, 교육수준, 종교, 국적, 병역 사항, 은행잔고, 부동산 소유 현황, 혈액형, 병력, 지지정당, 노조가입 여부, 지문, 흡연량, 음주량 따위가 개인 데이터였다.

그런데 인터넷, 스마트폰, CCTV, 센서 등 디지털 기술이 확산되면서 개인을 규정하는데 있어 훨씬 동적이며 가변적인 데이터가 추가되었다. 통화기록, 문자메시지 송수신 기록, 로그파일, 쿠키, 전자우편, 블로그, 트위터, 페이스북 같은 소셜 미디어상의 상호작용, CCTV 영상, 자동차 블랙박스 영상, 은행 ATM 사용기록, 인터넷 쇼핑 기록, 인터넷 뱅킹 기록 등 개인의 온라인 행동은 물론이고 오프라인 행동까지 실시간으로 기록되면서 엄청난 양의 데이터가 개인을 규정하는데 활용되고 있다.

Image result for personal data

개인의 일상이 광범위하게 기록되고, 그렇게 수집된 데이터로부터 개인의 생각을 추정하고 행동을 예측할 수 있게 됨에 따라 개인 데이터는 점점 개인 자체와 일치해 가고 있다. 더구나 개인은 자기 스스로가 생각하거나 주장하는 정체성(identity)이 아니라, 신용카드 이용처럼 일상 속에서 자신이 직접 생성하거나 생성에 동의한 데이터, 기계에 의해 모니터링된 데이터, 인터넷, 스마트폰, 자동화기계를 사용하면서 남긴 흔적 등에 의해 추정되거나 결정된 정체성에 의해 규정된다. 나는 더 이상 내 자신이 규정한 ‘나’가 아니라 개인 데이터를 기반으로 사회가 규정해준 ‘나’가 된 것이다. 그런 의미에서 개인은 데이터로 존재하고 살아간다고 말할 수 있다.

사회과학의 연구 대상 중 개인만 그러겠는가. 집단, 사회조직, 국가, 민족과 같은 사회적 행위자는 물론이고, 세계, 시장, 문화, 사회관계, 사회운동, 혁명, 전쟁, 갈등, 협력 등 어떤 사회현상에 있어서도 데이터는 그것에 대한 것이 아니라 그것 자체의 중요한 구성 요소가 되었다. 사회연구는 데이터의 이러한 새로운 성격을 충분히 고려해야 할 것이다.

그렇다면 빅데이터는 기존의 데이터와 어떻게 다를까? Laney (2001)는 빅데이터가 세 가지 차원에서 기존의 데이터와 구별된다고 지적했다. 첫째, 데이터의 양이 과거와 비교할 수 없을 정도로 크고(규모, volume), 둘째, 숫자, 문자, 영상, 동영상, 거래기록 등 데이터의 형식이 매우 다양하며(종류, variety), 셋째, 데이터가 대단히 빠르게 생성된다(속도, velocity). 물론 모든 데이터가 이 세 가지 속성을 모두 갖는 것은 아니다. 예컨대 CCTV 데이터는 실시간이고 대규모이지만 형식은 동영상으로만 되어 있으며, 인터넷 사이트 접속 로그 파일은 실시간이고 대규모이지만 형식은 숫자와 문자만으로 되어 있다.

Laney의 정의가 널리 알려 있기는 하지만 모든 연구자가 그의 정의를 취하지는 않는다. 연구자에 따라 빅데이터의 특정한 성격이 강조되기도 한다. 어떤 학자는 사건이나 상호작용이 발생하면서 바로 기록되는 실시간 데이터(real-time data)라는 점에 주목하고, 어떤 학자는 연구자의 개입 없이 발견되는 데이터(found data)라는 점을, 어떤 학자는 비정형 데이터(unstructured data)가 증가하고 있음에 주목하고, 또 어떤 학자는 데이터가 인간이 아니라 점점 센서(censor)에 의해 생성된다는 사실에 주목한다(Connelly et. al. 2016).

사회과학 연구의 관점에서 보자면, 전통적으로 사용되는 데이터와 최근의 빅데이터는 다음과 같이 대비될 수 있다. 전자가 의도적으로(intentionally) 생성된 반면 후자는 연구를 목적으로 생성되지 않는다. 그래서 어떤 전문가는 전자를 ‘기획된 데이터(designed data)’라고 부르고, 그에 대비해서 후자를 ‘유기적 데이터(organic data)’라고 부른다. 또한 어떤 학자는 전자를 ‘제조된 데이터(made data)’라고 부르고, 그에 대비해서 후자를 ‘발견된 데이터(found data)’라고 부른다.

Image result for big data's effects on social science research

Purdam and Elliot( 2015)은 데이터에 관한 체계적이고 유용한 분류를 제공해 준다. 그들은 데이터가 어떻게 생성되었는가에 따라서 다음과 같이 여덟 가지 유형으로 분류한다.

① 정통의 의도된 데이터(orthodox intentional data): 설문조사, FGI, 실험

② 참여적 의도된 데이터(participative intentional data): crowdsourced data

③ 결과적 데이터(consequential data): 행정기록, 전자의료기록, 상업적 거래 데이터, 온라인 게임 경기 기록

④ 자기 발간 데이터(self-published data): 긴 형식의 블로그 포스팅, 온라인 이력서, 온라인 프로필

⑤ 소셜 미디어 데이터(social media data): 트위터, 페이스북, 온라인 게임 대화

⑥ 데이터 흔적(data traces): 온라인 검색 로그 파일, 온라인 구매 로그 파일

⑦ 발견된 데이터(found data): 공개 공간(public spaces)에 대한 관찰

⑧ 인공 데이터(synthetic data): 시뮬레이션 데이터, 합성 데이터

Mayer-Schoenberger & Cukier(2013: 78)는, 오늘날 점점 인간 뿐 아니라 컴퓨터에 의해 분류되고 분석될 수 있도록 사회적 존재나 현상이 디지털화되고 계량화되는 현상을 데이터화(datafication)라고 불렀다. 책 속의 단어들이 컴퓨터가 읽을 수 있는 데이터가 되고, 사람이나 사물의 위치가 컴퓨터가 처리하는 데이터가 되며, 사람들 사이의 상호작용(예: 트위터, 페이스북)이 컴퓨터로 분석되는 데이터가 된다. 데이터화는 사회과학 연구에 있어 데이터의 유형만큼이나 다양한 데이터 출처가 존재하게 만들고 있다.

Image result for data in star trek

데이터 분석 및 마케팅 전문가인 Lynda Partner(2016)의 지적처럼, 어쩌면 이제 “데이터가 모든 것이고, 모든 것이 데이터”인 세상일 지도 모른다. 학자와 전문가들은 정보시스템, 데이터 시스템, 지식관리시스템, ERP, 가설 검증, 예측, 분류라는 응용적 측면에서 데이터를 바라보지만, 데이터는 이미 인문학적 사유의 대상으로 넘어가고 있는 지도 모른다. 이미 30여 년 전 TV 시리즈인 스타 트렉(Star Trek)은 ‘데이터’라는 출연 인물(?)을 통해서 그러한 가능성을 보여주었고, 20여 년 영화 매트릭스(Matrix)는 모든 것이 데이터로 존재하는 세상인 가상공간을 실감나게 보여주었지 않았던가.  (윤영민, 2018-03-05)

<참고 문헌>

Connelly, Roxanne, Christopher J. Playford, Vernon Gayle, and Chris Dibben. 2016. “The Role of Administrative Data in the Big Data Revolution in Social Science Research”, Social Science Research 59. Pp.1-12.

Laney, D., 2001. “3D Data Management: Controlling Data Volume, Velocity and Variety.” META Group Research Note 6.

Mayer-Schoenberger, Viktor and Kenneth Cukier. 2013. Big Data: A Revolution that will Transform How We Live, Work, and Think. Boston: Houghton Mifflin Harcourt.

Partner, Lynda. 2016. “Data is everthing, and everything is data.” https://blog.pythian.com/data-everything-everything-data/

Purdam, Kingsley & Mark Elliot. 2015. “The Changing Social Science Data Landscape”, Halfpenny, J. Peter & Rob Procter (ed.). Innovations in Digital Research Methods. Chap. 2. London: Sage. Pp.25-58.

데이터를 다시 생각한다(1): 공학적 관점

지난 10여 년 사이 발생한 가장 뚜렷한 사회변화 중 하나는 인류에게 대단히 낯선, 데이터 기반 사회(Data-based society)가 출현하고 있다는 사실이다. 고 Peter Drucker가 예견했던 지식사회도, 필자를 포함해 수많은 학자들이 설파한 정보사회도, 마뉴엘 카스텔(Manuel Castells)이 전망한 네트워크사회도 아닌 데이터 기반 사회–그냥 짧게 줄여서 데이터 사회(data society)라고 부르자–가 등장하고 있는 것이다.

Related image

앞 포스팅들에서 길게 논의했던 새로운 개념의 “지능(intelligence)”도 근본적으로는 데이터 사회의 한 측면이다. 인간, 사회조직, 자연, 심지어 우주에 관한 데이터의 폭발적 증가는 인류가 지금까지 경험해 보지 못한 새로운 모습의 사회를 탄생시키고 있다. 지능이 개인과 조직, 그리고 사회가 생존하는 데 있어 가장 중요한 생존 요인 중 하나가 된 것이 바로 데이터 때문이다.

이제 데이터(data)에 관해 얘기해 보자. 데이터를 제대로 규정하지 않고 데이터 사회를 논할 수는 없지 않겠는가.

데이터에 대한 정의는 학문 영역에 따라 상당히 다르다. 그것은 데이터를 전혀 다른 대상으로 간주하기 때문이라기보다 서로 다른 맥락에서 데이터를 바라보기 때문이거나 데이터의 서로 다른 측면을 분석하기 때문일 것이다. 데이터를 크게 공학적 관점과 인문/사회과학적 관점으로 나누어 살펴보자.

공학 중 데이터에 관해 가장 정교한 규정을 제시하는 분야는 경영정보학(MIS)이 아닐까 싶다. 경영정보학은 데이터가 핵심인 데이터베이스(D/B), 정보시스템(IS), 지식관리시스템(KMS), ERP(Enterprise Resource Planning), 데이터 마이닝(data mining), BI(Bussiness Intelligence) 등을 모두 다루어야 하기 때문일 것이다. 경영정보학에 의한 규정은 인접분야인 컴퓨터과학(computer science), 문헌정보학(library and information science), 교육공학(educational technology) 등과 공유된다.

경영정보학에서는 크게 세 가지 서로 다른 데이터 프레임워크(혹은 이론)가 제시되었다. 그중 가장 오랫동안, 그리고 가장 널리 수용되는 데이터 프레임워크는 가치 사슬 모형(value chain model), 흔히 DIKW 계층 모형이라고 알려진 것이다.

Image result

이 모형에서 데이터(data)는, 통상 가공되지 않은 상태의, 객체(objects)나 사건(events)에 대한 묘사(description) 혹은 사실(facts)을 의미하며, 정보(information)는 데이터를 가공한(processed: 분류, 요약, 혹은 이전되었다는 의미) 것으로, 맥락이 부여된(contextualized) 데이터이다. 따라서 데이터와 달리 정보는 의미(meaning)를 가지며, 특정한 용도에 유용하다. 또한 정보가 체계적으로 조직되면(organized) 지식(knowledge)이 되고, 지식이 고도로 추상화되면 지혜(wisdom)이 된다.

이 피라미드의 상부로 올라갈수록 가치(value)가 상승하는 것으로 간주된다. 이 때문에 이 모형은 가치 사슬 모형이라고 불린다.

이 피라미드 모형은 나름대로 유용하다. 데이터-정보-지식-지혜의 관계에 대해 최소한의 가이드라인이 되어주며, 나아가 연구자들에게, 지식, 정보, 데이터 중 어떤 것을 다루더라도 다른 두 가지와의 관계를 고려해야 하고, 앎(knowing)에 관한 어떤 모형도 이 세 가지 사이의 관계에 대해 명쾌한 해석 혹은 입장을 포함하고 있어야 함을 알려준다(Kettinger and Li, 2010).

지혜는 지식과 특별히 구분되지 않거나, 지나치게 추상적이기 때문에 실무 차원에서는 논외로 하는 경우가 많다. 예컨대 “이웃을 사랑하라” 혹은 “타인에게 자비를 베풀라”는 훌륭한 지혜이겠지만 현실 비즈니스에서 적용되기는 어렵지 않겠는가.

Related image

이 모형의 약점은 핵심 개념인 데이터, 정보, 지식 사이의 상관관계가 명백하지 않다는 사실이다. 특히 데이터와 정보, 그리고 정보와 지식의 개념적 관계가 애매하여, 연구자들 사이에 해석이 분분하다(Alavi and Leidner, 2001).

Tuomi (1999)는 가치 사슬 모형을 거꾸로 뒤집어 놓은 구체화 모형(materialization model)을 제안했다. 가치 사슬 모형과는 반대로 데이터는 정보로부터, 정보는 지식으로부터 생성된다는 인식이다. 지식이 데이터와 정보에 대한 인식의 출발점이라는 것이다. 이 모형의 가장 중요한 특징은 지식이 데이터와 정보로부터가 아니라 다른 원천으로부터 생성된다는 인식이다. Tuomi에 의하면, 노나카 이쿠지로(Nonaka Ikuziro)가 말하는 암묵적 지식(tacit knowledge)과 명시적 지식(explicit knowledge) 사이의 다이내믹한 상호작용은 지식이 생성되는 한 가지 방식이다.

잠재적 지식이 개념적으로 명료하게 표현되고(articulated), 구조화되면(sturctured), 지식은 정보가 되며(그렇다면 정보는 다름 아닌 명시적 지식!), 그렇게 만들어진 구조에 데이터를 수집해서 집어넣어 정보를 구체적으로 표현할 수 있다(아래 그림을 참조).

이 과정을 구체적인 사례를 갖고 보면 아래 그림과 같다. 보일-샤를의 법칙과 아보가드로의 법칙이라는 화학적 지식을 결합하여 이상기체 상태방정식(PV = nRT)를 도출하면 그것이 정보이다. 그리고 그 정보를 응용하면 체온계를 만들 수 있다. 그 체온계로 체온을 재면, 체온이 의미를 지닌 숫자–예컨대 36.5도–로 구체화되어 표현된다.이 과정에 의하면, 정보란 데이터에 의미를 추가해서 생성되는 것이 아니라, 지식으로부터 도출된다. 그리고 정보를 구조화하면 의미를 지닌 데이터가 창출될 수 있다.

세 번째로 소개할 데이터-정보-지식 프레임워크는 상호작용 모형(interactive model)이다. 이것은 정보가 지식과 데이터의 상호작용에 의해 생성된다는 발상으로 지식 기반의 정보이론(knowledge-based theory of information, KBI)이라고 불린다((Kettinger and Li, 2010). 이 모형의 핵심적인 인식은, 정보는 데이터와 지식의 결합 함수이며, 낮은 수준의 정보는 높은 수준의 정보를 생산하는 데 투입으로 사용된다(information is the joint function of data and knowledge, and lower level information is used as input to produce higher-level information)이다.

이 모형에서도 지식이 대단히 중요한 위치를 차지하고 있다. 지식은 구성물 사이의 관계에 대한 정당화된 진실한 믿음(justified true belief of the relationship between constructs)이다.

이 명제는 네 가지 의미를 내포하고 있다. 1) 지식은 믿음(belief)이다. 그런데 그 믿음은 추가적인 증거에 의해 일반화되거나(generalizable) 검증될 수 있는(verifiable) 것이어야 한다. 2) 지식은 진실이거나, 어떤 상황에서 진실에 접근해야 하며, 그리하여 실질적 목적을 위해서 의문의 여지가 없는 것으로 받아들여져야 한다. 3) 지식의 진실성은, 자격을 갖춘 엘리트(전문가, 권위자)에 의해 정당화되거나 인정되어야 한다. 이점이 지식을 정당화되지 못한 믿음과 구별시켜준다. 4) 지식은, 수단-목적 짝(mean-end pairs), 조건-행동 짝(condition-action)과 같이 구성물 사이의 관계(relationship between constructs)에 대한 믿음이다. 지식의 가장 흔한 형식은 IF-THEN 짝이다(사회학, 통계학에서는 가설 형식이라고 부름). 지식은 지식틀(knowledge frames), 지식지도(knowledge maps), 시맨틱 네트워크(semantic networks) 등과 같은 형식을 취할 수도 있다.

데이터는 객체나 사건에 관한 서술이나 측정값이다. 그것은 통상 객체나 사건의 속성(attributes of objects or events)들을 측정하는, 상호연관된 데이터 항목들의 집합(a set of interrelated data items)을 말한다.

S1: A 형 부품 17개가 남아 있다.

S2: 비가 내리고 있다.

이 두 진술은 ‘there-is(~있다)’ 유형으로, 어떤 존재하는 객체나 사건에 대한 사실(facts)에 관한 진술로 데이터이다. 데이터는 상황에 관한 선결조건(pre-conditions) 혹은 투입 값(input values)을 규정하고, 그것을 기반으로, 그 상황에서의 의사결정 혹은 행동의 선택을 가능하게 하는 정보가 생산된다. 그러나 데이터만으로는 행동이나 의사결정에 요청되는 정보를 낳을 수 없다.

정보는 지식 프레임워크를 토대로 데이터로부터 생산된 의미(meaning)이다. 지식 프레임워크는 목적 지향적 행동들을 위한 조건적인 준비의 상태의 선택과 결합되어 있다(Information is the meaning produced from data based on a knowledge framework that is associated with the selection of the state of conditional readiness for goal-directed activities).

이 규정은 의미(meaning)가 정보의 본질적 속성이라는 정보시스템 연구의 전통적인 관점을 반영하고 있다. 메시지의 의미를, 조건적 준비의 상태에 대해 수신자가 지닌 범위에 대한 선택적 기능이라고 볼 수 있다. 정보에 의해 선택, 판단, 혹은 불확실성 감소가 일어난다는 것이다.

예를 가지고 살펴보자. 위의 S1 데이터 명제와 관련된 아래와 같은 지식 명제를 생각할 수 있을 것이다.

S3:  만약 A형의 부품의 재고가 20개 이하이면, 부품 부족을 방지하기 위해 A형의 부품을 주문해야 한다.

지식 S3가 데이터 S1을 만나면, “A형 부품을 적어도 3개 이상 주문해야 한다”는 정보가 생성된다.

이 기본 모형은 좀 더 확대될 수 있다. 비와 외출에 관해서 두 가지 이론이 있다고 하자. 하나는 “S4: 비가 내리면 외출을 삼가한다.”, 그리고 다른 하나는 “S5: 비가 내리면 우산을 갖고 나간다.”라고 하자. 이 이론들이 S2(비가 내리고 있다)라는 데이터를 만나면, 그것이 이론 S4와 결합할 경우, “외출을 하지 않는다”라는 정보가 도출된다. 반면에, 이론 S5와 결합할 경우, “우산을 갖고 나간다”라는 정보가 도출된다. 동일한 데이터라도 적용되는 지식에 따라서 정보가 달라짐을 알 수 있다(아래 그림 참조).

KBI 이론에 따르면, 데이터가 정보의 주요 원천이기는 하지만, 정보는 또다른 원천으로부터도 생성된다. 그것은 다른 사람이 갖고 있는 정보(other people’s information)이다. 그런데 다른 사람의 정보는 이미 그 사람의 지식과 데이터의 결합에 의해 생성된 것이다.

이 모형은 데이터로부터의 정보가 생산되기 위해서는 지식을 필요로 하며, 지식이 변하면 정보도 달라짐을 시사한다. 가설적 수준의 이론이지만 대단히 흥미있는 모형이다. 이 모형은 다음에 소개할 사회과학적 관점과도 잘 어울리는 장점을 갖고 있다. (윤영민, 2018-03-05).

<참고문헌>

Alavi, M and Leidner DE (2001). “Knowledge management and knowledge management system: conceptual foundations and research issues.” MIS Quarterly 25(1): 107-136.

Kettinger, William J and Yuan Li (2010). “The infological equation extended: towards conceptual clarity in the relationship between data, information and knowledge,” European Journal of Information Systems, 19(4): 409-421.

Tuomi, I (1999). “Data is more than knowledge: implications of the reversed knowledge hierarchy for knowledge management and organizational memory.” Journal of Management Information Systems 16(3): 103-177.