지능이라는 이름의 게임(9): 집단지능과 블록체인(1)

‘지능이라는 게임’ 시리즈 포스팅의 (1)부터 (8)은 유기적 지능(organic intelligence)을 집중적으로 살펴보았고, 기계적 지능(mechanical intelligence)에 대해서도 약간 언급했다. 기계적 지능에 관해서는 나중에 기계학습(machine learning)이라는 소주제로 좀 더 자세히 살펴보기로 하고, 현대적 지능의 세 번째 유형인 사회적 지능(social intelligence)에 논의해 보자.  거기에 특별한 이유가 있는 것은 아니다. 필자는 블록체인을 집단지능의 하나로 보고 있고, 학교 수업에서 블록체인을 다루기 때문에 시간을 효율적으로 쓰기 위해서이다.

collective intelligence에 대한 이미지 검색결과

사회적 지능의 대표적인 모습은 집단지능(collective intelligence, 흔히 집단지성이라고 불림)이다. 집단지능은, 많은 사람들의 정보, 지식, 지혜, 추정, 혹은 판단을 모아서, 혹은 많은 사람들의 자발적 기여를 통해서 공동의 관심사 혹은 문제에 대한 해결을 도모하는 현상을 말한다. (전산학에서는 집단지능을 응용 프로그래밍의 하나로 보고 있다. 그 예로 Programming Collective Intelligence 을 참조하시오.)

그렇게 정의하면, 모든 사회조직은 집단지능이라고 해석될 수 있다. 국가, 기업, 시민단체, 이익단체, 마을 공동체 등이 모두 공동의 문제를 해결하기 위한 집단적 노력이라는 점에서 집단지능이라고 불릴 수 있을 것이다.

그런데 21세기적 집단지능에는 과학기술(technology)이 추가된다. 많은 사람들의 기여를 취합하거나, 조정하고, 나아가 그 결과를 제시하는데 과학기술이 적용된다. 그런  의미에서 21세기 집단지능은 사회적 지능이라기보다 사회-기술적 지능(socio-technological intelligence)라고 분류하는 편이 정확할 지도 모르겠다. 그러한 집단지능의 변천을 추적해 보면 아래 그림과 같다.

인터넷을 이용한 집단지능의 효시로는 아마도 미국 아이오와 대학교(University of Iowa)의 교수진이 운영하는 Iowa Electronic Markets (IEM)을 들 수 있을 것이다. 그것은 소위 예측시장(prediction markets)의 효시이기도 하다(예측시장의 훨씬 흥미있고 대중적인 사례로 Hollywood Stock Exchange, HSX가 있음).

IEM에서 참가자들은 소액의 돈으로 해당 선거의 후보에 해당하는 주식을 산다. 실제로 해당 선거가 끝나면, 선거 결과에 따라서 배당을 받는다. 당연히 자신이 구입한 주식에 해당하는 후보가 선거에서 이기면 배당이 된다. 따라서 참가자들은 진지하게 선거 결과를 예측하고 당선 가능성이 높은 후보에게 배팅(?)한다. 그리고 IEM 시스템은 그것들을 기술적으로 취합해서 선거 결과를 예측한다.

IEM에서는 지난 30년 동안 미국의 대통령, 정당의 대통령 후보, 주지사, 상원의원, 하원의원, 시장 등 각종 공직자 선거에 대한 주식거래가 이루어졌고, 선거 결과를 예측했다. IEM의 예측 성공률은 상당히 높아 유명 여론조사 기관들의 출구조사에 결코 뒤지지 않는다(관련 논문을 참고하시오).

리눅스(Linux)는 집단지능의 대표적인 사례로 널리 알려져 있다. 그러나 아마도 상업적 영향력이라는 측면에서 추천엔진(recommenders)만한 집단지능을 찾아보기 힘들 것이다. 특히 Amazon.com의 추천 시스템은 이전의 추천 시스템들과 달리 대규모의 쇼핑몰에서도 효율적으로 사용될 수 있음이 입증되었고, 음악이나 영화 사이트, 인터넷 쇼핑몰 그리고 SNS까지 너도나도 유사한 추천엔진을 도입해서 고객들에게 ‘개인화’ 서비스 혹은 ‘맞춤’ 서비스를 제공하고 있다.

다음 포스팅에서는 아마존 추천엔진이 어떤 원리로 작동하는가를 살펴보자. (윤영민, 2018-05-11)

인공신경망과 뇌의 뉴런: 정확한 유추가 필요

전산 전문가들이 펴낸 딥러닝(Deep learning)이나 인공신경망(Artificial Neural Network) 저술을 보면 인공신경망을 인간의 신경세포와 비교해서 설명할 때 다소 혼란스러울 때가 있다. 둘 사이의 유추가 정확하지 않기 때문이다.

예컨대 국내 한 전산학자의 최근 저서를 보면 인공 뉴런과 인간 뇌의 뉴런을 다음과 같이 비교해 설명했다.

오창석. 2018. <딥러닝을 위한 인공신경망>. 내하출판사. 41쪽.

우선 입력이 수상돌기에 해당되는 값으로 그려져 있는데,  잘못된 서술이다. 입력은 시냅스-전-뉴런(presynaptic neuron)의 축삭종말(axon terminal)에 도달한 신호(신경 자극)로 보는 편이 훨씬 정확할 것이다. 그것이 축삭종말에서 신경전달물질(neurotransmitter)로 바뀌어 시냅스 틈(synapse cleft)에 분비되고, 그것이 시냅스-후-뉴런(postsynaptic neuron)의 수상돌기의 수용체들(receptors)을 통해서 전달되는 것까지가 시냅스(synapse)에 해당된다. 그림에서 연결강도라고 표시된 부분이다. 그런 다음 시냅스-후-뉴런의 수상돌기에서 신경전달물질은 활동전위(action potential)로 바뀌게 되는데 그 부분에 해당되는 과정은 그림에 없다. 그림에 세포체라고 표시된 부분은 축삭(axon)이다. 표시가 잘못 된 것이다. 그리고 그것이 인공 뉴런의 노드에 해당된다. 세포체는 여러 수상돌기로부터 들어온 활동전위를 합산하고 그것이 역치(threshold value)를 넘으면 신호를 전달해야 된다고 판단하고 축삭을 향해서 활동 전위를 발사한다. 그 활동 전위가 위 그림에서 인공 뉴런의 출력에 해당된다. 그림에 ‘축삭돌기’라는 표현이 있는데 영어 이름은 axon terminal로 ‘축삭종말’이라고 쓰는 것이 더 적절하다고 생각되며 그것의 위치도 축삭의 맨 끝 부분(위 그림에서 오른쪽 끝의 T 자 모양)이 맞다.

혼란을 바로 잡기 위해 다시 정리해 설명해 본다. 아래 그림은 한 개의 인공 뉴런이 작동하는 과정을 간략히 모형화한 것이다. 맨 왼쪽의 상자들은 여러 개의 입력값을 나타낸다. 그것들은 각각 다른 가중치(weight)를 지닌 경로를 통해서 노드(node)에 들어온다. 노드에서는 각 입력값과 가중치의 곱이 합산되고, 활성함수를 통해서 나온 값이 역치를 넘으면 산출값을 내놓는다.

artificial neural network에 대한 이미지 검색결과

그런데 이러한 과정을 인간 뇌에서 발생하는 뉴런과 시냅스 사이의 신호 전달에 비교하면 아래 그림과 같다. 위에서 언급했지만 다시 이 그림을 갖고 작동 순서대로 서술한다.

인공뉴런의 입력값()은 시냅스-전-뉴런의 축삭종말(axon terminal)에 활동 전위 형태로 전달되는 신호들의 값(강도)이다. 가중치()는 시냅스 가중치(synaptic weight)에 해당되는데, 그것은 시냅스-전-뉴런의 축삭종말에서 시냅스 틈으로 분비되는 신경전달물질의 양이나 시냅스-후-뉴런의 수상돌기에 형성된 수용체들의 수효(이것은 수용되는 신경전달물질의 양을 결정한다)에 의해 결정된다. 시냅스 후의 값()들은 시냅스-후-뉴런의 수상돌기를 통과되는 신호들의 값(세기)를 나타낸다. 그것들은 세포체(cell body)에서 합산되고, 그 총합(sum)이 역치를 넘으면 신호가 다음 뉴런에 전달되도록 활동 전위(action potential) 형태로 축삭(axon)을 향해 발사된다.

강화학습이 일어나는 경우 인공뉴런에서는 역전파(backpropagation)의 방법으로 가중치들이 조정되고 더 정확한 산출값을 내놓게 된다. 인간 뇌에서는 만약 동일한 자극이 반복적으로 전달되거나 보상예측오류(reward prediction error)가 발생할 경우, 동일한 자극에 대해 신경전달물질이 더 많이 분비되거나 수상돌기에 더 많은 수용체가 형성되어  더 효율적으로 신경전달물질을 수용하는 방식으로 시냅스 가중치가 변화된다.

전산 서적들에서 이러한 유추가 보다 정확히 사용되어야 할 것으로 생각된다. (윤영민, 2018-04-23)

SF 영화 속 인공두뇌, 과연 개발될 수 있을까?

ex machina brain에 대한 이미지 검색결과
영화 Ex Machina에서 AI인 엑스 마키나의 머리에 들어갈 인공두뇌를 보여주는 장면.

인간의 두뇌가 지구상의 어떤 물체보다도 복잡하다는데 이견을 달 사람은 없을 것이다. 과학자들은 아직 두뇌와 지능을 완전히 이해하지도 못하고 있고, 그것을 인공적으로 구현하는 도전은 더 더욱 낮은 수준에 머물러 있다.

인공 지능(Artificial Intellegence)은 인공신경망(Artificial Neural Network)이나 심층 신경망(Deep Neural Network)처럼 소프트웨어적으로 구현되고 있지만, 수십년 이내에 엑스 마키나처럼 인간에 버금가거나 인간보다 뛰어난 지능을 가진 AI 로봇, 혹은 영화 트랜센던스(Transcendence)에서처럼 인간의 두뇌-지능이 업로드된 슈퍼컴이 출현할 가능성은 별로 높아 보이지 않는다.

transcendence에 대한 이미지 검색결과
영화 ‘트랜센던스(Transcendence)’에서 과학자 윌(조니 뎁 연)의 뇌가 슈퍼컴에 업로드되는 장면.

인공신경망 같은 소프트웨어가 실제로 구현되는 현재의 폰 노이만 방식의 컴퓨터는 인간 두뇌와는 비교가 우습게 느껴질 정도로 낮은 기술 수준이다. 슈퍼컴이라는 고성능 컴퓨터라고 별로 다르지 않다. 성능이 현저히 떨어지고, 유연성도 없으며, 덩치도 무지하게 크고, 어마어마하게 많은 전기를 사용하며, 작동 과정에서 열도 많이 발생한다. 그 때문에 트랜지스터 집적 기술, 배터리 기술 개발, 신소재 개발 등에 엄청난 재원이 투입되고 있지만 그러한 발전 방향에 대해 회의적인 시각도 만만치 않다.

그래서 대안으로 추구되어온 방향 중 하나가 인공두뇌(artificial brain)의 개발이다. 인공 지능이 계산, 학습, 기억, 의사결정, 예측 등과 같은 두뇌의 기능을 소프트웨어적으로 모방하려는 노력이라면, 인공두뇌는, 최대한 인간 두뇌와 닯은 물체를 제작하여 거기에서 지능이 스스로 발현되게 하려는 시도이다.

인공두뇌 연구자들은 두뇌-지능의 핵심을 뉴런(neuron)과 시냅스(synapse)의 결합으로 본다. 학습, 기억, 종합, 판단, 예측 등과 같은 지능이 뉴런과 시냅스의 결합으로 이루어진다고 믿기 때문이다.  다시 말해 인공두뇌(artificial brain)이란 인공뉴런(artifical neuron)과 인공시냅스(artificial synapse)로 구성된 물체이다.

스위스의 과학자들이 개발한 인공 뉴런의 모습.

2015년 스위스의 Karolinska Institutet의 과학자들은 인간의 유기적 뉴런과 연결되어 작동할 수 있는 인공 뉴런을 개발했다고 발표했다. 그들의 발표에 따르면 그 인공뉴런에는 바이오센서(amperometric biosensors)와 유기 전자 이온 펌프(organic electronic ion pumps)가 부착되어 있어, 한쪽 끝에서 인간 뉴런으로부터 화학적 신호를 받으면 그것을 전기적 신호로 바꾸어 전달할 수 있으며, 다른 끝에서 그것을 다시 화학물질로 바꾸어 다른 뉴런에게 신호를 보낼 수 있는 기능을 갖추었다고 한다(Simon, et. al., 2015; Wenz, 2015). 문제는 위 사진에서 보다시피 생물체의 뉴런에 비해 아직 크기가 너무 크다는 것이다.

금년(2018년) 1월 Science Advances지에 더욱 획기적인 연구가 발표되었다. 미국의 국립표준연구소(NIST)의 연구팀은 인간의 뇌처럼 학습을 할 수 있는 인공두뇌를 구현했다고 발표했다(Schneider, et. al., 2018). 그 인공두뇌 속의 시냅스는 인간 두뇌의 시냅스처럼 시냅스 가중치가 바뀔 수 있는 가소성(plasticity)을 갖고 있다.

쉬나이더 박사 연구팀은 조셉슨 접합(Josephson Junction)에 자성을 지닌 나노입자들(magnetic nanoclusters)을 절연체(barrier)로 사용하였다. 아래 그림에서 보듯이 연구팀은, SFQ(Single Flux Quantum) 초전도체(superconduct)로 시냅스 전 뉴런을  만들고,  SQID(Superconducting Quantum Interference Device) 초전도체로 시냅스 후 뉴런을 구성하였다.

출처: Schneider, et. al.(2018)

이 인공뉴런에서 획기적인 점은 절연체(JJ synapse)가 마치 인간 두뇌의 시냅스처럼 작동한다는 사실이다. 첫째, 시냅스 전 뉴런에서 일정한 역치(threshold value) 이상의 전류가 흘러들어오면 전류가 절연체를 통과해서 시냅스 후 뉴런으로 흐르며, 둘째, 절연체에 전류 펄스를 반복해서 가하면 자기장(magnetic field)이 형성되고 그 영향으로 나노입자들이 점차 한 방향으로 정렬되면서 전류의 역치가 낮아진다는 것이다. 인간두뇌에서 뉴런의 수상돌기에 들어오는 자극이 강하면 신호가 다음 뉴런으로 전달되고, 동일한 자극이 수상돌기에 반복적으로 들어오면 시냅스 전 뉴런의 (축삭 종말의) 신경전달물질의 분비량이 늘거나 시냅스 후 뉴런의 (수상돌기에) 이온 수용체의 수효가 늘어서 시냅스 가중치(synaptic weight)가 커지는 현상과 유사한 모습이다.

이 인공두뇌는 초전도체로 구성되어 극저온에서 저항없이 전류가 흐르기 때문에 매우 효율적으로 전기 신호를 전달할 수 있다. 그 인공두뇌는 초당 10억회의 전기신호를 전달할 수 있으며(인간두뇌는 초당 50회 정도를 전달), 그 작동에 아주 소량의 에너지만사용된다.  그리고 그 인공시냅스의 직경은 10 마이크로미터(10만분의 1미터)에 불과하다. 한 마디로 인간의 뇌보다 빠르고 효율적으로 작동하는 인공두뇌의 개발 가능성이 열린 것이다(Reardon, 2018).

그러나 리어돈(Reardon, 2018)이 지적하듯이, 복잡한 컴퓨팅을 위해서는 수백만 개의 인공시냅스가 필요할턴데, 과연 인공두뇌의 규모가 그렇게까지 확대될 수 있을 지 아직 미지수이고,  그 인공시냅스들이 절대 영도(섭씨 – 273.15도)에 가까운 극저온에서 작동하기 때문에 액체 헬륨을 사용해서 냉각되어야 하는데, 그럴려면 스마트폰처럼 소형으로 구현되기 어렵다는 문제를 안고 있기도 하다.

artificial brain에 대한 이미지 검색결과

이 두 가지의 획기적인 연구만 보더라도 인간의 뇌에 비견될 수 있는 인공 두뇌가 개발되기까지는 많은 장애가 극복되어야 할 것임이 분명하다. 그리고 앞으로 얼마나 더 많은 시간이 소요될 지 누구도 알 수 없다.

1980년대 후반 절대 영도보다 상당히 높은 온도에서 초전도체가 되는 물질들이 속속 발견되면서 조셉슨 효과를 이용한 ‘초전도체 컴퓨터’가 10년 이내 발명되지 않을까 하는 기대가 있었다(김두희, 1988). 그러나 그 후 30여 년이 흘렀지만 아직 초전도체 컴퓨터가 출현했다는 소식은 없다. 위에서 소개한 미 국립표준연구소 연구팀의 발견이 초전도체 기반의 신경컴퓨터–즉, 인공두뇌–의 등장을 크게 앞당길 지도 모르겠다.

그러나 인공두뇌을 보기 위해서는 최소한 또 한 세대는 기다려야 하지 않을까. SF 영화에서 보는 로봇에 장착될만한 인공두뇌가 제작되려면 과학자들은 이미 지나온 길보다 앞으로 훨씬 더 먼 길을 가야할 것이기 때문이다. (윤영민 2018-04-22)

뉴런-시냅스에서의 정보 전달

인체의 신경계(neural system)는 시각, 후각, 청각, 촉각 등 감각기관을 통해서 감지된 신호(자극, 정보)가 두뇌에 전달되고 두뇌의 대응 지시가 다시 감각기관에 전달되어 우리의 신체가 내외부에서 받는 신호에 대해 신속하고 적절하게 반응할 수 있게 해주는 신체 내의 체계이다. 신경계의 신호전달을 담당하는 세포가 뉴런(neuron, 신경세포)이다. 뉴런이 다른 뉴런에게 신호를 전달하는 과정을 간략히 정리하면 다음과 같다.

Image result for neuron

뉴런의 세포체(cell body)는 두 가지의 연장체(extension)를 지니고 있다. 다른 뉴런으로부터 신호를 받아들이는 수상돌기(dendrite)와 다른 뉴런에게 신호를 내보내는 축삭(axon)이 그것이다. 수상돌기는 통상 짧지만 축삭은 긴 경우 1 m 이상이나 된다.

Image result for how does neuron dendrite receive signals

수상돌기에는 이온 수용체들(ion receptors)이 달려 있다. 시냅스 전 뉴런(presynaptic neuron)의 축삭 종말에 활성 전위(action potential)가 이 도달하면 거기에서 글루타민산염(Glutamate)이 방출되고 그것은 시냅스 후 뉴런(postsynaptic neuron)에 해당 신호를 받아들일 수 있는 이온 수용체가 열리도록 작용한다. 만약 시냅스 전 뉴런이 흥분 뉴런(excitory neuron)이면 나트륨을 받아들이는 이온 수용체가 열려서 나트륨()을 받아들이며, 그렇게 되면 수상돌기 끝에서 막탈분극화(membrane depolarization)가 일어난다.

Image result for membrane depolarization

정지상태(resting state)에 있던 수상돌기 멤브래인(membrane)의 전극은 세포 안쪽이 음극(-), 세포 바깥쪽이 양극(+)으로 되어 있는데, 이온 채널(pump)이 열려서 양극의 나트륨 이온이 경계막 안쪽으로 흘러들어오면 막탈분극화가 일어난다. 점점 양쪽의 전극이 약화되고 종래에 경계막 안쪽은 양극(+)으로, 경계막 바깥쪽은 음극(-)으로 바뀐다. 그러면 옆쪽 부분의 전극이 아직 음극(-)이므로 전위차가 발생하고 신호 이동이 일어난다. 그런 다음 옆쪽 이온 채널이 열리면 그곳에도 나트륨 이온이 경계막 안으로 흘러들어오고 그곳에서도 막탈분극화가 일어난다.

Related image

그러는 동안에 신호 전달을 마친 부분에서는 이온 채널을 통해서 칼륨() 이온이 경계막 바깥으로 배출되며 경계막 내부가 다시 원상태인 음극으로 되돌아가는 막재분극화(membrane repolarization)가 일어난다.  [만약 시냅스 전 뉴런이 억제 뉴런(inhibitory neuron)이면 염화이온(chloride ion, )이 배출되며 시냅스 후 뉴런에서는 그것을 받아들이는 이온 수용체가 열려서 수상돌기 끝에서 막분극화를 강화하여 막탈분극화가 일어날 가능성이 작아진다. 즉, 신호가 전달될 가능성이 작아진다.]

Image result for inhibitory neuron CI

이러한 과정이 반복되면서 수상돌기에서 세포체로 신호가 전달되며, 신호가 충분히 강하면 세포막에서 축삭으로 신호가 전달되면서[여러 수상돌기로부터 온 신호가 합쳐져서 충분히 강하면 축삭소구(hillrock)에서 활성 전위(action potential)가 발사된다] 막탈분극화-막재분극화가 반복되고 종국에 활성 전위(신호)가 축삭 종말(axon terminal)에 도달한다. 축삭 종말에서 신호가 전달되면 주머니에 쌓여 있는 신경전달물질(neurotransmitter)이 시냅스 틈(synapse cleft)으로 분비되며, 그것이 다음 뉴런의 수상돌기에 있는 수용체(receptors)를 통해서 흘러들어간다. 그리고 위에서와 같은 과정이 반복되면서 뉴런에서 다른 뉴런으로 그리고 거기서 또다른 뉴런으로 신호가 전달된다.

Image result for synapse

(윤영민, 2018-04-13)

데이터를 다시 생각한다(2): 사회과학적 관점

어떤 사회 제도(social institutions)나 존재 이유와 내부 질서(혹은 구조)를 갖고 있다. 하나의 사회제도로서 과학—사회과학을 포함—도 그렇다. 과학의 존재 이유는 진리(truth)(다르게 표현하면, 지식, knowledge)의 탐구이며, 과학의 내부 질서는 주로 고유한 연구방법–다시 말해 과학적 지식이 생성되는 방법–에 달려 있다.

과학적 지식은 연역적 추론(deductive reasoning), 귀납적 추론(inductive reasoning), 혹은 유추(analogy)와 같은 방법으로 생성된다. 삼단논법에 보듯이 보편적 전제로부터 개별적 결론이 도출될 수도 있고(연역적 추론), 개별적 사실들로부터 일반적 원리를 끌어낼 수도 있으며(귀납적 추론), 한 사물이나 현상을 보고 다른 사물이나 현상에 대해 추측할 수도 있다(유추).

과학에서는 어떤 이론이나 가설도 경험적 검증을 거쳐야 지식으로 인정받게 된다. 가설(hypothesis)을 세우고(그것은 이론으로부터 도출될 수도 있고 선행연구의 발견으로부터 가져올 수도 있다), 관찰, 실험, 인터뷰 등 과학적이라고 인정되는 방법으로 데이터를 수집한 다음, 그것을 가지고 가설을 검증한다. 가설 검증 과정에서 연역적 추론, 귀납적 추론, 유추 등이 사용된다.

가설은 데이터에 의해 지지되거나(supported) 기각되며(rejected), 기각된 경우에는, 새로운 방법이나 새로운 데이터를 가지고 가설을 재검증하거나 가설을 수정하여 다시 검증하기도 한다. 가설이 한번에 검증되는 경우는 없으며 반복적인 검증을 통과해야 한다. 그런 의미에서 모든 이론과 가설–다시 말해, 지식–은 잠정적(temporary)이라고 말할 수 있다.

사회과학에서 연구자는, 먼저 연구 문제(research question)와 가설(hypothesis)을 가지며, 그런 다음 그것을 검증해줄, 현실을 대표한다고 믿어지는 데이터(data)를 구한다. 데이터란 사람, 집단, 사회현상 따위에 관한 사실(facts) 혹은 정보(information)를 말한다.

빅데이터 시대 이전까지 일반적으로 데이터는 연구자가 연구를 위해 의도적으로 수집한 것이었다. 연구 목적에 부합되도록 조사를 기획하고 실험, (참여) 관찰, 설문조사와 같은 방법을 통해서 데이터를 수집하였다. 사회과학에서 데이터란 그러한 데이터를 의미하였으며, 엄밀하게 계획되고 설계된 절차를 통해서 수집된 데이터만이 학문적으로 인정받을 수 있었다.

Image result for big data social science research

사회과학 연구에 있어 빅데이터가 제기하는 가장 근본적인 문제 중 하나는 데이터에 관한 그러한 전통적인 인식에 대한 것이다. 빅데이터는 데이터가 단순히 양적으로 증가했다는 의미를 넘어서 데이터가 질적으로 달라졌음을 함축한다. 이는 데이터가 무엇인가에 대해 다시 생각해보아야 하고 데이터의 학문적 타당성에 대해서도 다시 살펴보아야 함을 의미한다.

사회과학의 연구 대상은 개인, 집단, 사회조직, 사회제도, 사회적 상호작용, 사회운동, 혁명, 전쟁, 의례와 관행, 가치와 규범, 의식과 태도 따위이다. 과거에도 그랬고, 현재도 그러하며, 미래에도 그러할 것이다. 문제는 데이터가 ~에 대한 것을 넘어서 ~자체가 되었다는 사실이다(Purdam and Elliot, 2015).

예컨대 개인(individual)을 생각해보자. 과거에 개인 데이터(personal data)란 개인의 속성(attributes), 자산, 습관, 취미, 관심, 태도, 행동 등을 알려주는 고정적인 것이거나 상당히 안정적인 것이었다. 그리고 이름, 성별, 나이, 주소, 전화번호, 주민등록번호, 출생지, 직업, 가족관계, 소득, 교육수준, 종교, 국적, 병역 사항, 은행잔고, 부동산 소유 현황, 혈액형, 병력, 지지정당, 노조가입 여부, 지문, 흡연량, 음주량 따위가 개인 데이터였다.

그런데 인터넷, 스마트폰, CCTV, 센서 등 디지털 기술이 확산되면서 개인을 규정하는데 있어 훨씬 동적이며 가변적인 데이터가 추가되었다. 통화기록, 문자메시지 송수신 기록, 로그파일, 쿠키, 전자우편, 블로그, 트위터, 페이스북 같은 소셜 미디어상의 상호작용, CCTV 영상, 자동차 블랙박스 영상, 은행 ATM 사용기록, 인터넷 쇼핑 기록, 인터넷 뱅킹 기록 등 개인의 온라인 행동은 물론이고 오프라인 행동까지 실시간으로 기록되면서 엄청난 양의 데이터가 개인을 규정하는데 활용되고 있다.

Image result for personal data

개인의 일상이 광범위하게 기록되고, 그렇게 수집된 데이터로부터 개인의 생각을 추정하고 행동을 예측할 수 있게 됨에 따라 개인 데이터는 점점 개인 자체와 일치해 가고 있다. 더구나 개인은 자기 스스로가 생각하거나 주장하는 정체성(identity)이 아니라, 신용카드 이용처럼 일상 속에서 자신이 직접 생성하거나 생성에 동의한 데이터, 기계에 의해 모니터링된 데이터, 인터넷, 스마트폰, 자동화기계를 사용하면서 남긴 흔적 등에 의해 추정되거나 결정된 정체성에 의해 규정된다. 나는 더 이상 내 자신이 규정한 ‘나’가 아니라 개인 데이터를 기반으로 사회가 규정해준 ‘나’가 된 것이다. 그런 의미에서 개인은 데이터로 존재하고 살아간다고 말할 수 있다.

사회과학의 연구 대상 중 개인만 그러겠는가. 집단, 사회조직, 국가, 민족과 같은 사회적 행위자는 물론이고, 세계, 시장, 문화, 사회관계, 사회운동, 혁명, 전쟁, 갈등, 협력 등 어떤 사회현상에 있어서도 데이터는 그것에 대한 것이 아니라 그것 자체의 중요한 구성 요소가 되었다. 사회연구는 데이터의 이러한 새로운 성격을 충분히 고려해야 할 것이다.

그렇다면 빅데이터는 기존의 데이터와 어떻게 다를까? Laney (2001)는 빅데이터가 세 가지 차원에서 기존의 데이터와 구별된다고 지적했다. 첫째, 데이터의 양이 과거와 비교할 수 없을 정도로 크고(규모, volume), 둘째, 숫자, 문자, 영상, 동영상, 거래기록 등 데이터의 형식이 매우 다양하며(종류, variety), 셋째, 데이터가 대단히 빠르게 생성된다(속도, velocity). 물론 모든 데이터가 이 세 가지 속성을 모두 갖는 것은 아니다. 예컨대 CCTV 데이터는 실시간이고 대규모이지만 형식은 동영상으로만 되어 있으며, 인터넷 사이트 접속 로그 파일은 실시간이고 대규모이지만 형식은 숫자와 문자만으로 되어 있다.

Laney의 정의가 널리 알려 있기는 하지만 모든 연구자가 그의 정의를 취하지는 않는다. 연구자에 따라 빅데이터의 특정한 성격이 강조되기도 한다. 어떤 학자는 사건이나 상호작용이 발생하면서 바로 기록되는 실시간 데이터(real-time data)라는 점에 주목하고, 어떤 학자는 연구자의 개입 없이 발견되는 데이터(found data)라는 점을, 어떤 학자는 비정형 데이터(unstructured data)가 증가하고 있음에 주목하고, 또 어떤 학자는 데이터가 인간이 아니라 점점 센서(censor)에 의해 생성된다는 사실에 주목한다(Connelly et. al. 2016).

사회과학 연구의 관점에서 보자면, 전통적으로 사용되는 데이터와 최근의 빅데이터는 다음과 같이 대비될 수 있다. 전자가 의도적으로(intentionally) 생성된 반면 후자는 연구를 목적으로 생성되지 않는다. 그래서 어떤 전문가는 전자를 ‘기획된 데이터(designed data)’라고 부르고, 그에 대비해서 후자를 ‘유기적 데이터(organic data)’라고 부른다. 또한 어떤 학자는 전자를 ‘제조된 데이터(made data)’라고 부르고, 그에 대비해서 후자를 ‘발견된 데이터(found data)’라고 부른다.

Image result for big data's effects on social science research

Purdam and Elliot( 2015)은 데이터에 관한 체계적이고 유용한 분류를 제공해 준다. 그들은 데이터가 어떻게 생성되었는가에 따라서 다음과 같이 여덟 가지 유형으로 분류한다.

① 정통의 의도된 데이터(orthodox intentional data): 설문조사, FGI, 실험

② 참여적 의도된 데이터(participative intentional data): crowdsourced data

③ 결과적 데이터(consequential data): 행정기록, 전자의료기록, 상업적 거래 데이터, 온라인 게임 경기 기록

④ 자기 발간 데이터(self-published data): 긴 형식의 블로그 포스팅, 온라인 이력서, 온라인 프로필

⑤ 소셜 미디어 데이터(social media data): 트위터, 페이스북, 온라인 게임 대화

⑥ 데이터 흔적(data traces): 온라인 검색 로그 파일, 온라인 구매 로그 파일

⑦ 발견된 데이터(found data): 공개 공간(public spaces)에 대한 관찰

⑧ 인공 데이터(synthetic data): 시뮬레이션 데이터, 합성 데이터

Mayer-Schoenberger & Cukier(2013: 78)는, 오늘날 점점 인간 뿐 아니라 컴퓨터에 의해 분류되고 분석될 수 있도록 사회적 존재나 현상이 디지털화되고 계량화되는 현상을 데이터화(datafication)라고 불렀다. 책 속의 단어들이 컴퓨터가 읽을 수 있는 데이터가 되고, 사람이나 사물의 위치가 컴퓨터가 처리하는 데이터가 되며, 사람들 사이의 상호작용(예: 트위터, 페이스북)이 컴퓨터로 분석되는 데이터가 된다. 데이터화는 사회과학 연구에 있어 데이터의 유형만큼이나 다양한 데이터 출처가 존재하게 만들고 있다.

Image result for data in star trek

데이터 분석 및 마케팅 전문가인 Lynda Partner(2016)의 지적처럼, 어쩌면 이제 “데이터가 모든 것이고, 모든 것이 데이터”인 세상일 지도 모른다. 학자와 전문가들은 정보시스템, 데이터 시스템, 지식관리시스템, ERP, 가설 검증, 예측, 분류라는 응용적 측면에서 데이터를 바라보지만, 데이터는 이미 인문학적 사유의 대상으로 넘어가고 있는 지도 모른다. 이미 30여 년 전 TV 시리즈인 스타 트렉(Star Trek)은 ‘데이터’라는 출연 인물(?)을 통해서 그러한 가능성을 보여주었고, 20여 년 영화 매트릭스(Matrix)는 모든 것이 데이터로 존재하는 세상인 가상공간을 실감나게 보여주었지 않았던가.  (윤영민, 2018-03-05)

<참고 문헌>

Connelly, Roxanne, Christopher J. Playford, Vernon Gayle, and Chris Dibben. 2016. “The Role of Administrative Data in the Big Data Revolution in Social Science Research”, Social Science Research 59. Pp.1-12.

Laney, D., 2001. “3D Data Management: Controlling Data Volume, Velocity and Variety.” META Group Research Note 6.

Mayer-Schoenberger, Viktor and Kenneth Cukier. 2013. Big Data: A Revolution that will Transform How We Live, Work, and Think. Boston: Houghton Mifflin Harcourt.

Partner, Lynda. 2016. “Data is everthing, and everything is data.” https://blog.pythian.com/data-everything-everything-data/

Purdam, Kingsley & Mark Elliot. 2015. “The Changing Social Science Data Landscape”, Halfpenny, J. Peter & Rob Procter (ed.). Innovations in Digital Research Methods. Chap. 2. London: Sage. Pp.25-58.

데이터를 다시 생각한다(1): 공학적 관점

지난 10여 년 사이 발생한 가장 뚜렷한 사회변화 중 하나는 인류에게 대단히 낯선, 데이터 기반 사회(Data-based society)가 출현하고 있다는 사실이다. 고 Peter Drucker가 예견했던 지식사회도, 필자를 포함해 수많은 학자들이 설파한 정보사회도, 마뉴엘 카스텔(Manuel Castells)이 전망한 네트워크사회도 아닌 데이터 기반 사회–그냥 짧게 줄여서 데이터 사회(data society)라고 부르자–가 등장하고 있는 것이다.

Related image

앞 포스팅들에서 길게 논의했던 새로운 개념의 “지능(intelligence)”도 근본적으로는 데이터 사회의 한 측면이다. 인간, 사회조직, 자연, 심지어 우주에 관한 데이터의 폭발적 증가는 인류가 지금까지 경험해 보지 못한 새로운 모습의 사회를 탄생시키고 있다. 지능이 개인과 조직, 그리고 사회가 생존하는 데 있어 가장 중요한 생존 요인 중 하나가 된 것이 바로 데이터 때문이다.

이제 데이터(data)에 관해 얘기해 보자. 데이터를 제대로 규정하지 않고 데이터 사회를 논할 수는 없지 않겠는가.

데이터에 대한 정의는 학문 영역에 따라 상당히 다르다. 그것은 데이터를 전혀 다른 대상으로 간주하기 때문이라기보다 서로 다른 맥락에서 데이터를 바라보기 때문이거나 데이터의 서로 다른 측면을 분석하기 때문일 것이다. 데이터를 크게 공학적 관점과 인문/사회과학적 관점으로 나누어 살펴보자.

공학 중 데이터에 관해 가장 정교한 규정을 제시하는 분야는 경영정보학(MIS)이 아닐까 싶다. 경영정보학은 데이터가 핵심인 데이터베이스(D/B), 정보시스템(IS), 지식관리시스템(KMS), ERP(Enterprise Resource Planning), 데이터 마이닝(data mining), BI(Bussiness Intelligence) 등을 모두 다루어야 하기 때문일 것이다. 경영정보학에 의한 규정은 인접분야인 컴퓨터과학(computer science), 문헌정보학(library and information science), 교육공학(educational technology) 등과 공유된다.

경영정보학에서는 크게 세 가지 서로 다른 데이터 프레임워크(혹은 이론)가 제시되었다. 그중 가장 오랫동안, 그리고 가장 널리 수용되는 데이터 프레임워크는 가치 사슬 모형(value chain model), 흔히 DIKW 계층 모형이라고 알려진 것이다.

Image result

이 모형에서 데이터(data)는, 통상 가공되지 않은 상태의, 객체(objects)나 사건(events)에 대한 묘사(description) 혹은 사실(facts)을 의미하며, 정보(information)는 데이터를 가공한(processed: 분류, 요약, 혹은 이전되었다는 의미) 것으로, 맥락이 부여된(contextualized) 데이터이다. 따라서 데이터와 달리 정보는 의미(meaning)를 가지며, 특정한 용도에 유용하다. 또한 정보가 체계적으로 조직되면(organized) 지식(knowledge)이 되고, 지식이 고도로 추상화되면 지혜(wisdom)이 된다.

이 피라미드의 상부로 올라갈수록 가치(value)가 상승하는 것으로 간주된다. 이 때문에 이 모형은 가치 사슬 모형이라고 불린다.

이 피라미드 모형은 나름대로 유용하다. 데이터-정보-지식-지혜의 관계에 대해 최소한의 가이드라인이 되어주며, 나아가 연구자들에게, 지식, 정보, 데이터 중 어떤 것을 다루더라도 다른 두 가지와의 관계를 고려해야 하고, 앎(knowing)에 관한 어떤 모형도 이 세 가지 사이의 관계에 대해 명쾌한 해석 혹은 입장을 포함하고 있어야 함을 알려준다(Kettinger and Li, 2010).

지혜는 지식과 특별히 구분되지 않거나, 지나치게 추상적이기 때문에 실무 차원에서는 논외로 하는 경우가 많다. 예컨대 “이웃을 사랑하라” 혹은 “타인에게 자비를 베풀라”는 훌륭한 지혜이겠지만 현실 비즈니스에서 적용되기는 어렵지 않겠는가.

Related image

이 모형의 약점은 핵심 개념인 데이터, 정보, 지식 사이의 상관관계가 명백하지 않다는 사실이다. 특히 데이터와 정보, 그리고 정보와 지식의 개념적 관계가 애매하여, 연구자들 사이에 해석이 분분하다(Alavi and Leidner, 2001).

Tuomi (1999)는 가치 사슬 모형을 거꾸로 뒤집어 놓은 구체화 모형(materialization model)을 제안했다. 가치 사슬 모형과는 반대로 데이터는 정보로부터, 정보는 지식으로부터 생성된다는 인식이다. 지식이 데이터와 정보에 대한 인식의 출발점이라는 것이다. 이 모형의 가장 중요한 특징은 지식이 데이터와 정보로부터가 아니라 다른 원천으로부터 생성된다는 인식이다. Tuomi에 의하면, 노나카 이쿠지로(Nonaka Ikuziro)가 말하는 암묵적 지식(tacit knowledge)과 명시적 지식(explicit knowledge) 사이의 다이내믹한 상호작용은 지식이 생성되는 한 가지 방식이다.

잠재적 지식이 개념적으로 명료하게 표현되고(articulated), 구조화되면(sturctured), 지식은 정보가 되며(그렇다면 정보는 다름 아닌 명시적 지식!), 그렇게 만들어진 구조에 데이터를 수집해서 집어넣어 정보를 구체적으로 표현할 수 있다(아래 그림을 참조).

이 과정을 구체적인 사례를 갖고 보면 아래 그림과 같다. 보일-샤를의 법칙과 아보가드로의 법칙이라는 화학적 지식을 결합하여 이상기체 상태방정식(PV = nRT)를 도출하면 그것이 정보이다. 그리고 그 정보를 응용하면 체온계를 만들 수 있다. 그 체온계로 체온을 재면, 체온이 의미를 지닌 숫자–예컨대 36.5도–로 구체화되어 표현된다.이 과정에 의하면, 정보란 데이터에 의미를 추가해서 생성되는 것이 아니라, 지식으로부터 도출된다. 그리고 정보를 구조화하면 의미를 지닌 데이터가 창출될 수 있다.

세 번째로 소개할 데이터-정보-지식 프레임워크는 상호작용 모형(interactive model)이다. 이것은 정보가 지식과 데이터의 상호작용에 의해 생성된다는 발상으로 지식 기반의 정보이론(knowledge-based theory of information, KBI)이라고 불린다((Kettinger and Li, 2010). 이 모형의 핵심적인 인식은, 정보는 데이터와 지식의 결합 함수이며, 낮은 수준의 정보는 높은 수준의 정보를 생산하는 데 투입으로 사용된다(information is the joint function of data and knowledge, and lower level information is used as input to produce higher-level information)이다.

이 모형에서도 지식이 대단히 중요한 위치를 차지하고 있다. 지식은 구성물 사이의 관계에 대한 정당화된 진실한 믿음(justified true belief of the relationship between constructs)이다.

이 명제는 네 가지 의미를 내포하고 있다. 1) 지식은 믿음(belief)이다. 그런데 그 믿음은 추가적인 증거에 의해 일반화되거나(generalizable) 검증될 수 있는(verifiable) 것이어야 한다. 2) 지식은 진실이거나, 어떤 상황에서 진실에 접근해야 하며, 그리하여 실질적 목적을 위해서 의문의 여지가 없는 것으로 받아들여져야 한다. 3) 지식의 진실성은, 자격을 갖춘 엘리트(전문가, 권위자)에 의해 정당화되거나 인정되어야 한다. 이점이 지식을 정당화되지 못한 믿음과 구별시켜준다. 4) 지식은, 수단-목적 짝(mean-end pairs), 조건-행동 짝(condition-action)과 같이 구성물 사이의 관계(relationship between constructs)에 대한 믿음이다. 지식의 가장 흔한 형식은 IF-THEN 짝이다(사회학, 통계학에서는 가설 형식이라고 부름). 지식은 지식틀(knowledge frames), 지식지도(knowledge maps), 시맨틱 네트워크(semantic networks) 등과 같은 형식을 취할 수도 있다.

데이터는 객체나 사건에 관한 서술이나 측정값이다. 그것은 통상 객체나 사건의 속성(attributes of objects or events)들을 측정하는, 상호연관된 데이터 항목들의 집합(a set of interrelated data items)을 말한다.

S1: A 형 부품 17개가 남아 있다.

S2: 비가 내리고 있다.

이 두 진술은 ‘there-is(~있다)’ 유형으로, 어떤 존재하는 객체나 사건에 대한 사실(facts)에 관한 진술로 데이터이다. 데이터는 상황에 관한 선결조건(pre-conditions) 혹은 투입 값(input values)을 규정하고, 그것을 기반으로, 그 상황에서의 의사결정 혹은 행동의 선택을 가능하게 하는 정보가 생산된다. 그러나 데이터만으로는 행동이나 의사결정에 요청되는 정보를 낳을 수 없다.

정보는 지식 프레임워크를 토대로 데이터로부터 생산된 의미(meaning)이다. 지식 프레임워크는 목적 지향적 행동들을 위한 조건적인 준비의 상태의 선택과 결합되어 있다(Information is the meaning produced from data based on a knowledge framework that is associated with the selection of the state of conditional readiness for goal-directed activities).

이 규정은 의미(meaning)가 정보의 본질적 속성이라는 정보시스템 연구의 전통적인 관점을 반영하고 있다. 메시지의 의미를, 조건적 준비의 상태에 대해 수신자가 지닌 범위에 대한 선택적 기능이라고 볼 수 있다. 정보에 의해 선택, 판단, 혹은 불확실성 감소가 일어난다는 것이다.

예를 가지고 살펴보자. 위의 S1 데이터 명제와 관련된 아래와 같은 지식 명제를 생각할 수 있을 것이다.

S3:  만약 A형의 부품의 재고가 20개 이하이면, 부품 부족을 방지하기 위해 A형의 부품을 주문해야 한다.

지식 S3가 데이터 S1을 만나면, “A형 부품을 적어도 3개 이상 주문해야 한다”는 정보가 생성된다.

이 기본 모형은 좀 더 확대될 수 있다. 비와 외출에 관해서 두 가지 이론이 있다고 하자. 하나는 “S4: 비가 내리면 외출을 삼가한다.”, 그리고 다른 하나는 “S5: 비가 내리면 우산을 갖고 나간다.”라고 하자. 이 이론들이 S2(비가 내리고 있다)라는 데이터를 만나면, 그것이 이론 S4와 결합할 경우, “외출을 하지 않는다”라는 정보가 도출된다. 반면에, 이론 S5와 결합할 경우, “우산을 갖고 나간다”라는 정보가 도출된다. 동일한 데이터라도 적용되는 지식에 따라서 정보가 달라짐을 알 수 있다(아래 그림 참조).

KBI 이론에 따르면, 데이터가 정보의 주요 원천이기는 하지만, 정보는 또다른 원천으로부터도 생성된다. 그것은 다른 사람이 갖고 있는 정보(other people’s information)이다. 그런데 다른 사람의 정보는 이미 그 사람의 지식과 데이터의 결합에 의해 생성된 것이다.

이 모형은 데이터로부터의 정보가 생산되기 위해서는 지식을 필요로 하며, 지식이 변하면 정보도 달라짐을 시사한다. 가설적 수준의 이론이지만 대단히 흥미있는 모형이다. 이 모형은 다음에 소개할 사회과학적 관점과도 잘 어울리는 장점을 갖고 있다. (윤영민, 2018-03-05).

<참고문헌>

Alavi, M and Leidner DE (2001). “Knowledge management and knowledge management system: conceptual foundations and research issues.” MIS Quarterly 25(1): 107-136.

Kettinger, William J and Yuan Li (2010). “The infological equation extended: towards conceptual clarity in the relationship between data, information and knowledge,” European Journal of Information Systems, 19(4): 409-421.

Tuomi, I (1999). “Data is more than knowledge: implications of the reversed knowledge hierarchy for knowledge management and organizational memory.” Journal of Management Information Systems 16(3): 103-177.

지능이라는 이름의 게임(8): ‘창조주’가 되고 싶은 인간

인간에게 마지막 남은 미지의 영역은 아마도 생명일 것이다. 생존의 관점에서두뇌-지능은 생명과 가장 근접해 있는 영역이다. 두뇌-지능을 해독하면 인간(인간 대신 A.I.일지도 모른다)은 결국 생명이라는 수수께끼마저 완벽하게 풀어버릴 지도 모른다. 그것이 언제쯤일 지는 누구도 정확히 예측할 수 없겠지만 말이다. 아직 초보적인 수준이지만 인류는 이미 지능적인 기계(intelligent machines) 만들기 경쟁을 시작했다. 연구소와 기업들이 기계학습(machine learning) 혹은 인공지능(A.I.)을 응용한 상품 개발에 질주하고 있다. 스마트폰, 자동차, 스피커, 세탁기, 청소기, 가사 로봇 등등. 아마도 원하던 그렇지 않던 그 경주의 종착역은 ‘창조주(creator)’ 게임이 되지 않을까 생각된다. 지능, 두뇌, 생명의 창조 말이다.

최근에 발표된 Tie-Jun Huang 북경대 교수의 논문, “Imitating the Brain with Neurocomputer”(Internation Journal of Automation and Computing, 2017/10)는 정확히 그 지점을 건드리고 있다. 이 논문을 참고하면서 인공지능(artificial intelligence), 인공두뇌(artificial brain), 그리고 인공 생명(artificial life)에 대해 생각해 보자.

Image result for artificial intelligence, artificial brain, artificial life
출전: http://news.mit.edu/2009/ai-overview-1207

Huang 교수는 컴퓨터과학이 자율적(autonomous)이며 범용인(general) 인공지능–그의 표현으로 Artificial General Intelligence, AGI–을 추구한다고 전제한다. 그의 주장이, A.I.에게 결코 자율성을 부여해서는 안된다는 이대열 교수의 주장과 출발부터 충돌하는 것이다. 그리고 AGI를 구현하기 위해서는 지능(intelligence)의 모사가 아니라 두뇌(brain)의 모사에 연구를 집중해야 한다고 역설한다.

그의 주장에 따르면, 현재 득세하고 있는 기계학습(machine learning), 인공신경망(artificial neural network), 그리고 인공 지능(artificial intelligence)은 70여 년 전부터 지금까지 컴퓨터과학의 대세가 되어온 폰노이만(Von Neumann) 컴퓨터라는 패러다임 내에 있다.

1945년 존 폰노이만(John von Neuman)은 “First Draft of a Report on the EDVAC”이라는 논문 초고를 몇몇 지인들에게 돌렸다. 그 글에는 그 후 70년 이상 컴퓨터의 구조를 규정하는 설계가 제시되어 있었다. 폰 노이만이 논란의 여지없는 천재이기는 하지만 아마도 그 저술이 세상에 가장 커다란 영향을 미친 초고 논문이 될 것이라고는 꿈에도 상상하지 못했으리라.

폰 노이만 구조는 중앙처리장치(CPU), 저장장치(memory), 연결 통로(bus), 입출력 장치(I/O)로 구성된다. CPU는 데이터와 명령(instructions, 곧 소프트웨어)를 메모리로부터 불러내어 연산을 수행한다. 데이터와 소프트웨어는 동일한 메모리에 저장되고 동일한 버스로 이동한다.그 글에서 폰 노이만은 자신이 고등동물 두뇌의 작동 원리를 모방하여 컴퓨터의 구조를 설계하고 있음을 분명히 밝히고 있다. 특히 신경세포와 시냅스의 작동 원리를 단순화하여 진공관을 이용한 디지털 컴퓨터 설계에 적용하고 있음을 논문 곳곳에서 서술하고 있다(초고의 원문을 보려면 다음을 클릭: edvac.pdf).

폰 노이만은 복잡하고 지루한 수학 연산을 인간 대신 수행해 줄 기계를 구상했다. 폰 노이만의 설계에 따라 탄생한 디지털 컴퓨터는 지난 70여 년 동안 CPU와 메모리 칩이 진공관에서 트랜지스터 집적으로 바뀌고 데이터와 소프트웨어의 버스가 구분되었으며, 엄청난 컴퓨팅 파워와 처리 속도를 구가하게 되었고, 다양한 소프트웨어의 발달로 수학 연산을 넘어 문자, 이미지, 심지어 동영상까지 처리하고, 소형화를 거듭하고 있으며, 유무선 통신네트워크를 통해 컴퓨터는 물론이고 스마트폰을 비롯한 온갖 정보기기들이 연결되면서 놀라운 변신을 해왔다. 그러나 그럼에도 불구하고 놀랍게도 그것들에는 아직 기본적으로 폰 노이만의 설계가 유지되고 있다.

폰 노이만은 스스로 그렇게 표현하기도 했지만 생물의 신경세포 시스템을 유추(analogy)적으로 사용해서 컴퓨터를 만들었다. 즉, 그는 신경세포 시스템을 추상화시켜 도출한 몇 가지 원리를 가져다 사용했을 뿐 신경세포 시스템을 물리적으로 모사하려고 생각하지는 않았다. 사실 당시로서는 인간 두뇌에 대한 지식도 짧았고, 그것을 구현해 줄 기술도 거의 존재하지 않았기 때문에 놀라운 일이 아니다.

Image result for neurocomputer
출전: https://www.tutorialspoint.com/artificial_intelligence/artificial_intelligence_neural_networks.htm

그런데 Huang 교수는 물론이고 인공 두뇌(인공 지능과 혼동하지 말 것)를 연구하는 학자와 전문가들은, 폰 노이만과 앨런 튜링(Alan Turing)에서 출발한 컴퓨터와 인공지능에 대한 연구가 잘못된 방향을 걷고 있다고 생각한다. 그들이 제기하는 비판의 근거는 무엇보다 그들이 인간 두뇌가 어떻게 지능을 생산하는 지를 완전히 이해하지 못하고 있다는 것이다. 만약 그런 방식으로 AGI(그것은 strong AI라고 부르기도 함)를 발명하려면 인간 두뇌와 지능을 완전히 해독해야 하는데, 그것은 1백년 내 실현되기 어려울 것이라는 주장이다. “지능을 만들기(making intelligence)” 위해 먼저 “지능을 이해하기(understanding intelligence)”는 크게 잘못된 접근이라는 것이다. 전자가 후자보다 더 쉬운 작업인데, 후자를 먼저해야 한다면, 그것은 어려운 작업을 먼저 해결한 다음 쉬운 작업을 해결하겠다는 논리적 오류에 빠지는 일이라는 비판이다. 그는 심지어 그러한 접근이 말 앞에 수레를 연결하는 것만큼이나 잘못되었다고 지적한다.

대안으로 그는 모방주의(imitationalism)를 주창한다. 리버스 엔지니어링(reverse engineering)을 통해서 인간 두뇌의 물리적 구조를 밝히고 그것을 모방한 기계를 만들어 가자는 주장이다. 그것은 현실적으로 가능할 뿐 아니라 궁극적으로 인간 두뇌-지능을 이해하는 지름길이기도 하다고 역설한다.

그는 인간 두뇌의 생물학적 신경세포 시스템과 동일한, 혹은 그것과 최대한으로 유사한 물리적 구조를 지닌 컴퓨터를 개발하는 것이 모방주의 접근의 핵심 과업이라고 주장한다.  그 물리적 모방 엔지니어링(physical imitation engineering)의 목표는 신경세포와 시냅스의 기능을 모사할 수 있는 초소형 기기를 개발하여, 궁극적으로 아주 소규모의 물리적 공간과 적은 전력 소모라는 조건 아래에서 인간 두뇌급의 신경망 시스템을 구축하는 것이다. 그것은 신경 컴퓨터(neuromorphic computer, 간략히 neurocomputer)라고 불리는데, 그것에 대한 연구와 개발이 이미 상당히 진척되었다고 한다.

Image result for truenorth chip
출전: https://www.slideshare.net/SamMbc/ibm-truenorth

그에 의하면, 2008년 미국의 DARPA(Defence Advanced Research Projects Agency)는, 1kW의 전력만을 사용하면서(인간 두뇌는 약 30 와트의 전기를 사용함) 인간 두뇌의 신경세포와 같은 수준의 능력을 지닌 전자 기기를 개발하도록 IBM과 몇 개의 대학에 1억달러의 연구기금을 제공하였고, 2013년 유럽은 1억 유로 이상을 투입하여 정보기술과 생명과학을 결합하는 인간두뇌 프로그램을 시작하였으며, 같은 해에 미국의 오바마 대통령은 12년 내에 인간 두뇌의 역동적 지도를 그리겠다는 BRAIN Initiative에 45억 달러가 투입될 것이라고 발표했었다.

실제적인 성과도 가시화되어서, 2014년 8월 Science 지에, IBM은 1백만개의 (인공) 신경세포와 2억5천6백만개의 (인공) 시냅스로 구성된 트루노스(TrueNorth)라는 신경칩(neuromorphic chip)의 개발에 성공했다고 발표했다. 또한 2015년 독일의 하이델베르크 대학은 20만개의 신경세포와 5천만개의 시냅스를 8인치 웨이퍼에 집적하는데 성공했다. 신경컴퓨터는 300억개 이상의 신경세포와 3조개 이상의 시냅스로 구성된 인간 두뇌에 비하면 아직 유아적 수준에도 미치지 못하지만 신경컴퓨터 연구자와 개발자들은 인공신경망이나 인공지능에 비해 신경컴퓨터가 훨씬 빨리 AGI를 구현하게 될 것이라고 믿는다.

출전: http://www.scinexx.de/diaschau-117.html

신경컴퓨터 연구자들의 대전제는 기능(function)이 구조(structure)에서 나온다는 명제이다. 그것은 인간 두뇌의 신경세포와 시냅스와 최대한으로 유사한 물리적 구조를 지닌 지능적 기기–즉, 신경컴퓨터–를 개발하면 인간 두뇌급의 지능이 그것으로부터 창발되고(emerging) 성장할 수 있으리라는 믿음이다.

인공생명(artificial life, A-life)은 인공지능이나 인공두뇌와는 크게 다른 수준의 게임이다. 그것은 신경세포(neuron)가 아니라 신경세포의 세포핵(nucleus) 내부에 존재하는 RNA, DNA, 그리고 단백질을 스스로 창조하는 RNA를 인공적으로 만드는 도전이다. 그것은 생명을 모방하는 객체를 만드는 일일 수도 있고, 진짜 생명체를 창조하는 일일 수도 있다. 인공생명 연구의 아버지라고 불리는 존 폰 노이만–컴퓨터의 구조를 창안한 바로 그 폰 노이만–은 인공생명 연구에도 관심을 가졌다. 그가 일찍 세상을 떠나지 않았다면 인공생명에 대한 연구가 더 일찍 발달했을 지도 모르겠다.

Related image
출전: http://www.maxxtexx.de/dna-dient-als-erfahrungs-speicher-fuer-nachkommen/

폰 노이만은 생명의 핵심이 자기복제(self-reproduction)에 있다고 이해했다. 그의 정의에 따르면 오늘날 자기복제가 가능한 컴퓨터 바이러스는 하나의 인공생명이라고 말할 수 있을 것이다. 그러나 엄밀히 말하자면 그것은 진짜 생명이 아니라 생명의 흉내내기에 지나지 않는다. 물론 그것만으로도 인류를 위협할 정도이지만 인공적으로 창조된 생명체와는 거리가 아주 멀다. RNA, DNA, 단백질 등으로 구성된 세포핵을 지닌 생명체인 인간이 세상을 인식하고, 자신을 의식하며, 성장하고 진화하고, 자신을 재생산하는 위대한 모습을 생각해 보라.

Image result for great human beings
출전: https://hubpages.com/education/inspiringpeople

인공생명의 연구와 개발은 아직 인공지능은 말할 것도 없고 인공 두뇌의 연구에 비할 바가 아닐 정도로 낮은 수준이다. 그러나 향후 20~30년 후 기술적 특이점(singularity)–기계의 두뇌가 인간의 두뇌를 넘어서는 시점–을 지나고 나면 인공지능, 인공 두뇌 그리고 인공생명에 대한 연구는 인간 자신이 아니라 A.I.나 인공두뇌에 맡겨질 지도 모른다. 그렇게 되면 인공 생명, 나아가 생명의 창조의 시기가 크게 앞당겨질 지도 모를 일이다. 바로 그 시점이, 인간이 진정한 창조주로 등극하는 순간이다!

그런데, 그런데…. 과연 그것이 인류에게 축복일까 저주일까? 페이크 뉴스(fake news) 정도로 크게 흔들리는 인간 문명이 과연 인공지능, 인공두뇌, 그리고 인공생명을 사회적으로 감당할 수 있을까? 다음에는 이 문제를 생각해 보자. (윤영민, 2018-02-26)

<참고 문헌>

Huang,  Tie-Jun. 2017. “Imitating the Brain with Neurocomputer”, Internation Journal of Automation and Computing 14(5). Pp.520-531.

von Neumann, John (ed. by Michael D. Godfrey). 1945. “First Draft of a Report on the EDVAC.”  http://history-computer.com/Library/edvac.pdf

지능이라는 이름의 게임(7): 지능기계 설계자의 해석

앞 포스팅에서 소개한 이대열 교수의 저서가 진화생물학과 행동심리학의 관점에서 지능에 접근한 사례이라면, 이 포스팅에서 소개할 제프 호킨스(Jeff Hawkins)의 저서 <On Intelligence>(2004)는 컴퓨터과학 배경의 소프트웨어-하드웨어 개발자가 두뇌와 지능 연구자들에게 던지는 대담한 도전장이다.

Image result for on intelligence Image result for 생각하는 뇌 생각하는 기계

Hawkins가 지능과 두뇌에 관심을 갖기 시작할 때 던졌던 질문은 아주 명쾌하다. 지능(intelligence)이 무엇인가 이다. 이 의문은 인간의 두뇌가 근본적으로 어떤 점에서 지능적인가라는 질문과 바로 이어진다. 인간의 두뇌는 지상에서 가장 진화된 지능을 지니고 있기 때문이다. 그는 진정으로 지능적인 기계를 만들려면 먼저 인간의 두뇌를 제대로 이해해야 한다고 믿었다. 그는 기존의 연구들에서 자신의 의문에 대한 시원한 답을 찾을 수 없었고, 그래서 스스로 답을 제시하게 되었다. <On Intelligence>에는 Hawkins의 해답이 담겨 있다.

지능을 탐구하면서 그는 지금까지의 컴퓨터과학이 인간 지능(human intelligence)을 모사하는데 실패한 이유가 인간의 지능과 두뇌를 이해하지 못했기 때문이라는 결론에 도달했다. 그에 의하면, 인간의 두뇌는, 투입(input)이 들어가면 산출(ouput)을 내놓는 논리 기계나 정보처리 시스템이 아니며, 지능은, 튜링 테스트(Turing test)처럼 행동(behavior)을 측정하는 방식으로는 결코 이해될 수 없다. 지능이 무엇인지는, 간접적이거나 우회적인 방식이 아니라 두뇌의 내부 작용을 가지고 직접 규정해야 한다는 것이다.

Hawkins에 의하면, 인간 두뇌는 몇 가지 점에서 컴퓨터와 크게 다르다. 첫째, 두뇌는  S/WH/W의 구분이 없다. 지능을 주로 담당하는 대뇌 신피질은 신경세포와 시냅스로 구성된 네트워크인데, 그것은 전기-화학적 신호에 의해 작동하는 구조이지 그것들을 제어하는 별도의 S/W(혹은 그것과 유사한 무엇)가 존재하지 않는다. 

둘째, 컴퓨터와 달리 두뇌는 유전적 영향을 받기도 하지만 태생 후 성인이 될 때까지 발달하고  성인이 된 후에도 외부 자극과 경험에 의해 변화된다. 발달 단계로 보면 인간의 두뇌는 두 살 무렵에 뉴런-시냅스 조합이 폭발적으로 늘어나고, 그 다음 몇 년 동안 불필요한 뉴런-시냅스 조합은 점차 제거되며, 청소년기에 다시 한번 뉴런-시냅스 조합이 폭발적으로 증가한 후 성인이 될 때까지 불필요한 뉴런-시냅스 조합의 제거가 이루어지고 25-6세경 안정 단계에 도달한다. 그러나 성인이 된 후에도 뉴런-시냅스 조합은 계속 변화된다. 두뇌의 구조가 변하는 현상을 신경(혹은 두뇌) 가소성(neuroplasticity)이라고 부른다. Hawkins는 이러한 인식을 수용한다. 

셋째, 컴퓨터와 달리 두뇌는 대단히 유연하다. 두뇌의 특정 영역이 특정 기능만을 담당하지 않는다. 때문에 만약 어떤 부위가 손상을 받으면 그 부위가 맡던 기능을 다른 부위가 대신 수행하곤 한다. 이는 컴퓨터에서 상상하기 어려운 현상이다.  

이러한 차이를 인정하면서 Hawkins는 지능과 두뇌의 관계에 대해 기억예측 모형(memory-prediction model)이라는 가설을 제시한다. 그 모형을 요약하면 다음과 같다.

Image result for memory prediction model hawkins

지능은 인간의 두뇌에서 일어나는 정신적인 작용이다. 외부로부터 감각기관을 통해서 경험하는 자극(감각 정보)이 두뇌에 전달되면 신피질에서 그것은 전기-화학 신호로 전환되고 뉴런과 시냅스가 연결된 조합이 생성된다. 신피질에는 그렇게 해서 생성된 수많은 조합이 존재하며, 그것이 기억(memory)이다

가장 추상적인 수준에서 기억은 공간적시간적 패턴(spatial-temporal patterns)인데, 그것은 입력되는 감각 정보의 유형과 관계없이 항상 범주(category)와 순서(sequence)라는 요소로만 구성되어 있기 때문에 Hawkins는 그것을 불변표상(invariant representations)이라고 부른다(아래 그림 참조).

그에 의하면인간 두뇌는 ‘논리 기계라기보다는 ‘기억 기계이다두뇌는 끊임없이 분류하여 기억하고기억을 복원해서 예측/확인하고비교/판단한다신피질은 여섯 층(layers)의 구조를 지니고 있는데자주 반복적으로 입력되는 정보의 불변표상은 낮은 층으로 내려보내 외부 자극에 신속하게 반응하게 하고낯선 정보들은 상부 층으로 보내서 불변표상을 생성하며최 상위 층(Layer I)에서도 파악되지 않은 정보는 해마(hippocampus)로 보내 기억한다. 층2나 층3도 부분적으로 그렇지만 층1은 여러 영역으로부터 받은 정보를 결합(association)하는 역할을 수행한다(아래 그림 참조). 

Hawkins는, 신피질이 계층적 구조를 지닌 이유는 바로 현실세계가 그러한 계층적 구조를 지니고 있기 때문이라고 지적한다. 예컨대 문어(written language)를 보면, 글자가 모여서 음절이 되고, 음절이 모여 단어가 되며, 단어가 모여서 문장이 된다. 또한 세상의 모든 객체(object)는 작은 객체들의 집합이며, 대부분의 객체들은 보다 큰 객체들의 일부이다. 신피질의 계층 구조는 이러한 현실세계의 계층구조에 조응하고 있다는 것이다.

일단 기억들이 생성된 후에는, 감각 기관을 통해서 자극이 전달되면 그에 관련된다고 추정되는 불변표상이 호출되고, 그것을 이용해서 시간적으로 뒤따라 오는 정보를 예상한다(아래 그림 참조). 만약 새로 들어온 감각 정보가 불변표상을 가지고 예측한 모습과 일치하면 기존 뉴런시냅스의 조합이 유지되고, 만약 불일치하는 부분이 나타나면 그에 대해 새로운 판단이 내릴 수 있도록 조치한다. 만약 그러한 불일치가 반복되면 기존의 뉴런시냅스 조합이 갱신된다. 그러한 분류, 패턴 생성, 기억, 예측, 강화, 갱신 등의 과정이 바로 학습이며, 과거(기억)에 대한 유추를 통하여 미래를 예측하는 두뇌의 능력이 바로 지능이다.

진화적으로 보면, 신피질이 확대되고, 언어를 사용함으로써 인간의 지능은 다른 포유동물에 비해 획기적으로 향상되었으며, 고도의 상상, 창조, 논리적 추론 등이 가능해졌다. Hawkins에 의하면, 그럼에도 불구하고 인간 지능은 기억-예측 모형을 벗어나지 않는다. 

Image result for memory prediction model hawkins

Hawkins는 단순히 두뇌-지능을 연구만 할 뿐 아니라 직접 Numenta 라는 기업을 창업해서 연구와 기술 개발을 결합하고 있으며, 실제로 HTM (Hierarchical Temporal Memory)이라는 테크놀로지를 개발하였다(위 그림 참조). 그는 HTM을 이용하여 아직 상업화하지는 않았지만 여러 분야의 이상 탐지(anomaly detection)에 활용될 수 있는 애플리케이션들을 내놓고 있다.  (윤영민, 2018-02-25)

지능이라는 이름의 게임(6): 두뇌-지능의 수수께끼를 풀어라!

세계 신경과학회(Society for Neuroscience)에는 3만8천명 이상의 회원이 가입되어 있으며 2017년 11월 미국 워싱턴 D.C.에서 개최된 신경과학 연례 컨퍼런스에는 3만명 이상의 학자와 전문가들이 참석하였다. 그 중에는 뇌와 신경 분야의 질병과 치료를 전공하는 의사들도 포함되어 있지만 참가자 대부분이 두뇌를 연구하는 학자들이라고 보면 될 것이다. 다시 말해  전세계적으로 수만 명의 학자와 전문가들이 인간 두뇌에 관심을 갖고 있다는 말이다. 덕분에 두뇌-지능(brain-intelligence)에 관해서 필자와 같은 비전공자가 따라잡기 불가능할 정도로 깊이 있고 다양한 연구가 발표되고 있다.

신경과학 연구의 핵심은 인간의 행동(혹은 의식)과 두뇌 구조 사이의 관계이다. 하지만 연구자에 따라 연구의 관점과 촛점이 크게 다르다. 어떤 연구자는 진화생물학적인 관점에서 접근하고, 어떤 연구자는 행동심리학적 관점에서 접근하며, 어떤 연구자는 두뇌의 기능적 측면에 관심이 있고, 어떤 연구자는 두뇌의 구조적 측면에 관심이 많다. 그런데 연구 성과들이 거의 대부분 뇌의 특정 영역이나 특정 기능을 다루고 있어, 필자와 같은 외부자들이 이해하기 쉽고, 두뇌-지능을 전체적으로 바라보게 해주며, 나아가 독창적인 이론적 관점을 담고 있는 논문이나 저서가 흔치 않다.

다행히 그런 저작 몇 편을 찾았다. 함께 그것들을 리뷰하면서 지능-두뇌를 이해해 보자. 먼저 예일대 신경과학과에 재직 중인 이대열 교수의 최근 저서, <지능의 탄생>(2017, 바다출판사)이다.

Image result for 지능의 탄생

이 교수는 지능을 생존을 위한 의사결정(decision making)으로 본다. 생물체의 진화는 지능(intelligence)의 진화를 수반한다. 생명의 핵심은 유전자의 자기복제인데, 유전자는 RNA에서 시작하여 DNA와 단백질로 분화하고, 단세포 생물체에서 다세포 생물체로, 식물에서 동물로, 곤충에서 파충류, 그리고 인간이 속한 포유동물에까지 진화한다. 각 생물체는 자신의 생존에 적합한 지능을 갖고 있다. 단순한 생명체는 낮은 지능만을 갖고 고등 동물은 높은 수준의 지능을 갖는다. 특히 날쌔게 움직여야 살아남을 수 있는 동물들에게는 신경세포가 모인 두뇌(brain)가 발생하였고, 예측과 판단을 위한 대뇌 신피질(cerebral neocortex)이 발생하였다. 특히 복잡한 사회생활을 해야하는 인간은 다른 동물에 비해 크고 복잡한 구조의 신피질을 갖게 되었다.

그런데 인간의 신피질은 세상에 태어나는 순간에 완성체로 출현하는 것이 아니라 성장 하면서 발달하고 살아가면서 변화된다. 의사결정에는 기억, 분류, 개념화, 비교, 예측, 그리고 학습이 필요하다. 감각기관을 통해서 외부의 자극을 받으면 신피질, 해마, 기저 핵 등에 신경세포-시냅스 네트워크가 형성되고, 일종의 학습 과정을 통해서 기억은 강화되거나 약화되고 혹은 소실된다.

지능은 기억을 가지고 하는 생존 게임이다. 유전자는 효과적인 생존을 위해 두뇌에게 자율성을 부여한다. 그래서 두뇌는 스스로 판단에 의해 생존–유전자의 자기복제–에 가장 유리한 행동을 선택해야 한다. 경험을 통해서 환경에 관한 정보를 인지하고 분류해서 저장해두고(기억), 특정 상황에서 취한 행동과 그것의 결과(보상, reward) 사이의 관계를 기억한다. 그리고는 새로운 자극이 들어오면 관련된 기억을 활성화하여 여러 가지 행동 옵션을 비교하여 선택한다.

Image result for reinforcement of memory in brain
출전: http://www.sashasheng.com/blog/2018-1-6-reinforcement-learning-taxonomy

경쟁하는 욕구들 혹은 가능한 행동들 사이에서 의사결정을 하려면, 다양한 옵션들의 예상 효과를 공통의 보상 척도로 측정할 수 있어야 하며, 각 옵션이 가져오는 당장의 영향 뿐 아니라 미래의 영향에 대해서도 그 값을 추정할 수 있어야 한다. 그 값들을 비교하여 두뇌–보다 구체적으로 대뇌 신피질–는, 항상 성공적인 결과가 보장되지는 않지만, 신속한 의사결정을 내린다.

이러한 과정이 학습(learning)이고 지능 작용인데, 거기에서 중요한 요소가 오류(error)와 가치(혹은 효용)이다. 두뇌는 저장된 과거 기억을 활용해서 행동이 가져올 가치(value)를 예견하고 행동을 명령한다. 행동한 이후에 생성된 가치가 예견된 가치보다 작거나 크면 보상 예측 오류(reward prediction errors)가 발생한다. 보상예측오류는 학습이 필요하다는 시그널이다. 두뇌가 행동의 가치값을 변화시킨다는 것이다. 그것이 학습이다.

Image result for reward prediction errors
출전: https://www.dialogues-cns.org/contents-18-1/dialoguesclinneurosci-18-23/

도파민(dopamine)은 보상예측오류를 반영하는 신경화학물질이다. 예상보다 결과가 좋으면 도파민 분비가 증가되어 다음 번에는 예측값을 높이도록 유도하고, 반대로 예상보다 결과가 좋지 않으면 도파민 분비가 감소되어 다음 번에는 예측값을 낮추도록 유도한다.

두뇌의 보상 예측 오류는 안도(relief)/후회(regret), 득의(elation)/실망과 같은 정서적 상태를 수반한다. 그러한 정서 상태는 두뇌가 기억을 강화할 것인지 갱신할 것인지를 결정하는 필요한 요소인지도 모른다. 이는 후회나 실망과 같은 부정적인 정서도 지능과정에 긍정적 역할을 수행함을 함축한다.

Related image
출전: www.planbox.com. https://www.planbox.com/2017/07/07/innovation-evolution-ai/

끝으로 생존을 위한 의사결정이라는 관점에서 보면 최고의 지능은 무엇보다 자율성을 지녀야 한다. 스스로 복제(reproduction)를 추구할 수 있어야 하고, 자기 복제(self-reproduction)를 위해 미래에 대비하거나 효과적인 의사결정을 내릴 수 있어야 한다. 인공지능(artificial intelligence)도 자기 복제 능력을 가질 수 있을까? 혹은 인공지능에게 자기 복제 능력을 허용해야 할 것인가? 이 교수는 언젠가 인공지능이 자기 복제 능력을 가질 정도로 테크놀로지가 발전하겠지만, 인공지능에게 자율성을 허용해서는 안 될 것이라고 주장한다. 인간과 인공지능 사이에 본인-대리인 문제(principal-agent problem)가 필연적으로 발생할 것이기 때문이다. 인간(본인)의 생존과 번영을 위해 존재해야 하는 인공지능(대리인)이 인간의 이익보다 자신의 이익을 우선시할 가능성이 있고, 그럴 경우 인공지능에 의해 인간의 생존이 위협받는 결과가 초래될 수도 있다는 것이다. (윤영민, 2018-02-25).