인공신경망과 뇌의 뉴런: 정확한 유추가 필요

전산 전문가들이 펴낸 딥러닝(Deep learning)이나 인공신경망(Artificial Neural Network) 저술을 보면 인공신경망을 인간의 신경세포와 비교해서 설명할 때 다소 혼란스러울 때가 있다. 둘 사이의 유추가 정확하지 않기 때문이다.

artificial neural network에 대한 이미지 검색결과

위 그림은 한 개의 인공 뉴런(artificial neuron)이 작동하는 과정을 간략히 모형화한 것이다. 맨 왼쪽의 상자들은 여러 개의 입력값을 나타낸다. 그것들은 각각 다른 가중치(weight)를 지닌 경로를 통해서 노드(node)에 들어온다. 노드에서는 각 입력값과 가중치의 곱이 합산되고, 활성함수를 통해서 나온 값이 역치(threshold value)를 넘으면 산출값을 내놓는다.

그런데 이러한 과정을 인간 뇌에서 발생하는 뉴런과 시냅스 사이의 신호 전달에 비교하면 아래 그림과 같다.

인공뉴런의 입력값()은 시냅스-전-뉴런의 축삭종말(axon terminal)에서 신경전달물질(neurotransmitter)로 전달되는 신호들의 값(강도)이고, 가중치()는 시냅스 가중치(synaptic weight)에 해당된다. 시냅스를 지난 값()들은 시냅스-후-뉴런의 수상돌기를 통과되는 신호들의 값(세기)를 나타낸다. 그것들이 세포체(cell body)에서 합산되고, 그 총합(sum)이 역치(threshold value)를 넘으면 신호가 다음 뉴런에 전달되도록 활동 전위(action potential) 형태로 축삭(axon)을 향해 발사된다.

강화학습이 일어나는 경우 인공뉴런에서는 역전파(backpropagation)의 방법으로 가중치들이 조정되고 더 정확한 산출값을 내놓게 된다. 인간 뇌에서는 만약 동일한 자극이 반복적으로 전달되거나 보상예측오류(reward prediction error)가 발생할 경우, 동일한 자극에 대해 신경전달물질이 더 많이 분비되거나 수상돌기에 더 많은 수용체가 형성되어  더 효율적으로 신경전달물질을 수용하는 방식으로 시냅스 가중치가 변화된다.

전산 서적들에서 이러한 유추가 보다 정확히 사용되어야 할 것으로 생각된다. (윤영민, 2018-04-23)

SF 영화 속 인공두뇌, 과연 개발될 수 있을까?

ex machina brain에 대한 이미지 검색결과
영화 Ex Machina에서 AI인 엑스 마키나의 머리에 들어갈 인공두뇌를 보여주는 장면.

인간의 두뇌가 지구상의 어떤 물체보다도 복잡하다는데 이견을 달 사람은 없을 것이다. 과학자들은 아직 두뇌와 지능을 완전히 이해하지도 못하고 있고, 그것을 인공적으로 구현하는 도전은 더 더욱 낮은 수준에 머물러 있다.

인공 지능(Artificial Intellegence)은 인공신경망(Artificial Neural Network)이나 심층 신경망(Deep Neural Network)처럼 소프트웨어적으로 구현되고 있지만, 수십년 이내에 엑스 마키나처럼 인간에 버금가거나 인간보다 뛰어난 지능을 가진 AI 로봇, 혹은 영화 트랜센던스(Transcendence)에서처럼 인간의 두뇌-지능이 업로드된 슈퍼컴이 출현할 가능성은 별로 높아 보이지 않는다.

transcendence에 대한 이미지 검색결과
영화 ‘트랜센던스(Transcendence)’에서 과학자 윌(조니 뎁 연)의 뇌가 슈퍼컴에 업로드되는 장면.

인공신경망 같은 소프트웨어가 실제로 구현되는 현재의 폰 노이만 방식의 컴퓨터는 인간 두뇌와는 비교가 우습게 느껴질 정도로 낮은 기술 수준이다. 슈퍼컴이라는 고성능 컴퓨터라고 별로 다르지 않다. 성능이 현저히 떨어지고, 유연성도 없으며, 덩치도 무지하게 크고, 어마어마하게 많은 전기를 사용하며, 작동 과정에서 열도 많이 발생한다. 그 때문에 트랜지스터 집적 기술, 배터리 기술 개발, 신소재 개발 등에 엄청난 재원이 투입되고 있지만 그러한 발전 방향에 대해 회의적인 시각도 만만치 않다.

그래서 대안으로 추구되어온 방향 중 하나가 인공두뇌(artificial brain)의 개발이다. 인공 지능이 계산, 학습, 기억, 의사결정, 예측 등과 같은 두뇌의 기능을 소프트웨어적으로 모방하려는 노력이라면, 인공두뇌는, 최대한 인간 두뇌와 닯은 물체를 제작하여 거기에서 지능이 스스로 발현되게 하려는 시도이다.

인공두뇌 연구자들은 두뇌-지능의 핵심을 뉴런(neuron)과 시냅스(synapse)의 결합으로 본다. 학습, 기억, 종합, 판단, 예측 등과 같은 지능이 뉴런과 시냅스의 결합으로 이루어진다고 믿기 때문이다.  다시 말해 인공두뇌(artificial brain)이란 인공뉴런(artifical neuron)과 인공시냅스(artificial synapse)으로 구성된 물체이다.

스위스의 과학자들이 개발한 인공 뉴런의 모습.

2015년 스위스의 Karolinska Institutet의 과학자들은 인간의 유기적 뉴런과 연결되어 작동할 수 있는 인공 뉴런을 개발했다고 발표했다. 그들의 발표에 따르면 그 인공뉴런에는 바이오센서(amperometric biosensors)와 유기 전자 이온 펌프(organic electronic ion pumps)가 부착되어 있어, 한쪽 끝에서 인간 뉴런으로부터 화학적 신호를 받으면 그것을 전기적 신호로 바꾸어 전달할 수 있으며, 다른 끝에서 그것을 다시 화학물질로 바꾸어 다른 뉴런에게 신호를 보낼 수 있는 기능을 갖추었다고 한다(Simon, et. al., 2015; Wenz, 2015). 문제는 위 사진에서 보다시피 생물체의 뉴런에 비해 아직 크기가 너무 크다는 것이다.

금년(2018년) 1월에는 더욱 획기적인 연구 발표가 있었다. 미국의 국립표준연구소(NIST)의 연구팀은 인간의 뇌처럼 학습을 할 수 있는 인공두뇌를 구현했다고 발표했다(Schneider, et. al., 2018). 그 인공두뇌 속의 시냅스는 인간 두뇌의 시냅스처럼 시냅스 가중치가 바뀔 수 있는 가소성(plasticity)을 갖고 있다.

쉬나이더 박사 연구팀은 조셉슨 접합(Josephson Junction)에 자성을 지닌 나노입자들(magnetic nanoclusters)을 절연체(barrier)로 사용하였다. 아래 그림에서 보듯이 연구팀은, SFQ(Single Flux Quantum) 초전도체(superconduct)로 시냅스 전 뉴런을  만들고,  SQID(Superconducting Quantum Interference Device) 초전도체로 시냅스 후 뉴런을 구성하였다.

출처: Schneider, et. al.(2018)

이 인공뉴런에서 획기적인 점은 절연체(JJ synapse)가 마치 인간 두뇌의 시냅스처럼 작동한다는 사실이다. 첫째, 시냅스 전 뉴런에서 일정한 역치(threshold value) 이상의 전류가 흘러들어오면 전류가 절연체를 통과해서 시냅스 후 뉴런으로 흐르며, 둘째, 절연체에 전류 펄스를 반복해서 가하면 자기장(magnetic field)이 형성되고 그 영향으로 나노입자들이 점차 한 방향으로 정렬되면서 전류의 역치가 낮아진다는 것이다. 인간두뇌에서 뉴런의 수상돌기에 들어오는 자극이 강하면 신호가 다음 뉴런으로 전달되고, 동일한 자극이 수상돌기에 반복적으로 들어오면 시냅스 전 뉴런의 (축삭 종말의) 신경전달물질의 분비량이 늘거나 시냅스 후 뉴런의 (수상돌기에) 이온 수용체의 수효가 늘어서 시냅스 가중치(synaptic weight)가 커지는 현상과 유사한 모습이다.

이 인공두뇌는 초전도체로 구성되어 극저온에서 저항없이 전류가 흐르기 때문에 매우 효율적으로 전기 신호를 전달할 수 있다. 그 인공두뇌는 초당 10억회의 전기신호를 전달할 수 있으며(인간두뇌는 초당 50회 정도를 전달), 그 작동에 아주 소량의 에너지만사용된다.  그리고 그 인공시냅스의 직경은 10 마이크로미터(10만분의 1미터)에 불과하다. 한 마디로 인간의 뇌보다 빠르고 효율적으로 작동하는 인공두뇌의 개발 가능성이 열린 것이다(Reardon, 2018).

그러나 리어돈(Reardon, 2018)이 지적하듯이, 복잡한 컴퓨팅을 위해서는 수백만 개의 인공시냅스가 필요할턴데, 과연 인공두뇌의 규모가 그렇게까지 확대될 수 있을 지 아직 미지수이고,  그 인공시냅스들이 절대 영도(섭씨 – 273.15도)에 가까운 극저온에서 작동하기 때문에 액체 헬륨을 사용해서 냉각되어야 하는데, 그럴려면 스마트폰처럼 소형으로 구현되기 어렵다는 문제를 안고 있기도 하다.

artificial brain에 대한 이미지 검색결과

이 두 가지의 획기적인 연구만 보더라도 인간의 뇌에 비견될 수 있는 인공 두뇌가 개발되기까지는 많은 장애가 극복되어야 할 것임이 분명하다. 그리고 앞으로 얼마나 더 많은 시간이 소요될 지 누구도 알 수 없다.

1980년대 후반 절대 영도보다 상당히 높은 온도에서 초전도체가 되는 물질들이 속속 발견되면서 조셉슨 효과를 이용한 ‘초전도체 컴퓨터’가 10년 이내 발명되지 않을까 하는 기대가 있었다(김두희, 1988). 그러나 그 후 30여 년이 흘렀지만 아직 초전도체 컴퓨터가 출현했다는 소식은 없다. 위에서 소개한 미 국립표준연구소 연구팀의 발견이 초전도체 기반의 신경컴퓨터–즉, 인공두뇌–의 등장을 크게 앞당길 지도 모르겠다.

그러나 인공두뇌을 보기 위해서는 최소한 또 한 세대는 기다려야 하지 않을까. SF 영화에서 보는 로봇에 장착될만한 인공두뇌가 제작되려면 과학자들은 이미 지나온 길보다 앞으로 훨씬 더 먼 길을 가야할 것이기 때문이다. (윤영민 2018-04-22)

대학에서의 사회과학 수업, 어떻게 해야 하나?

Image result for professor students

대학의 사회과학 수업에서 교수는 자신이 강의하는 사회 문제나 쟁점에 대해 ‘정답’을 제시하지 않는다. 대학 수업에서는 중고등학교 때처럼 표준화된 교과서식 해답을 기대할 수 없다는 말이다. 그것은 사회 문제에 대해서는 정답이 없기 때문이기도 하지만 또 다른 이유도 있다.

강의하는 교수가 분석 문제나 쟁점에 대해 자신의 의견이나 입장을 갖고 있지 않은 것은 아니다. 다만 교수는 자신의 목소리(주장) 톤을 최대한 낮춘다. 그래야 학생들이 사회 현상에 대해 다양한 이론과 입장을 분석할 수 있도록 도와줄 수 있기 때문이다.

Image result for captive audience

강의실이, 교수가 학생이라는 포박된 청중(captive audience)에게 자신의 주장을 일방적으로 쏟아내는 공간이 되어서는 안된다. 그렇게 되면, 강의는 추종자, 비판자, 그리고 무관심한 자를 생산하는 설득 행위가 되어 버린다. 강의가 일종의 상품 광고로 전락해 버리는 것이다.

실제로 대학에서 교수는 학생들로 하여금 사회 문제나 쟁점에 관련된 다양한 관점, 입장, 이론, 사실 등을 검토하도록 요구한다. 교수들은, 학생이 무슨 의견이나 입장을 갖고 있는가보다 학생이 자신의 의견, 입장, 혹은 느낌을 얼마나 기품있게 제시할 수 있는가에 주목한다. 학생에게 그러한 능력을 길러주는 것이 대학 교육의 중요한 목표이기도 하다.

Image result for articulation of arguments

대학 강의실은, 교수의 ‘정견’ 발표장이 아니듯, 학생들이 기존에 갖고 있던 생각–그것은 흔히 선입견이나 편견이곤 한다–을 확인하거나 강화하는 장소가 아니다. 물론 이 말은 학생들이 자신의 신념이나 의견을 주장해서는 안되는다는 의미가 전혀 아니다. 그보다는 교수나 다른 학생들의 의견과 입장을 존중하는 열린 자세를 강조하는 말이다.

대학에서 학생들은 서로 다른 생각이나 입장을 가진 타인(교수, 학생 등)을 만나서 자신의 생각을 형성하고, 발전시키며, 수정한다. 수업에서 그런 깨달음을 얻으려면 학생들은 남을 존중하는 자세를 갖고 토론에 임해야 한다. 물론 이는 교수에게도 마찬가지로 적용되는 원칙이다. 교수도 학생들을 존중해야 한다는 말이다.

매년 신입생을 마주하면, 나 스스로 대학교육의 존재 이유가 무엇인지, 교수와 학생은 어떤 관계인지에 대해 생각해 보게 된다. 좋은 반성의 기회이다. (윤영민, 2018-04-15)

 

뉴런-시냅스에서의 정보 전달

인체의 신경계(neural system)는 시각, 후각, 청각, 촉각 등 감각기관을 통해서 감지된 신호(자극, 정보)가 두뇌에 전달되고 두뇌의 대응 지시가 다시 감각기관에 전달되어 우리의 신체가 내외부에서 받는 신호에 대해 신속하고 적절하게 반응할 수 있게 해주는 신체 내의 체계이다. 신경계의 신호전달을 담당하는 세포가 뉴런(neuron, 신경세포)이다. 뉴런이 다른 뉴런에게 신호를 전달하는 과정을 간략히 정리하면 다음과 같다.

Image result for neuron

뉴런의 세포체(cell body)는 두 가지의 연장체(extension)를 지니고 있다. 다른 뉴런으로부터 신호를 받아들이는 수상돌기(dendrite)와 다른 뉴런에게 신호를 내보내는 축삭(axon)이 그것이다. 수상돌기는 통상 짧지만 축삭은 긴 경우 1 m 이상이나 된다.

Image result for how does neuron dendrite receive signals

수상돌기에는 이온 수용체들(ion receptors)이 달려 있다. 시냅스 전 뉴런(presynaptic neuron)의 축삭 종말에 활성 전위(action potential)가 이 도달하면 거기에서 글루타민산염(Glutamate)이 방출되고 그것은 시냅스 후 뉴런(postsynaptic neuron)에 해당 신호를 받아들일 수 있는 이온 수용체가 열리도록 작용한다. 만약 시냅스 전 뉴런이 흥분 뉴런(excitory neuron)이면 나트륨을 받아들이는 이온 수용체가 열려서 나트륨()을 받아들이며, 그렇게 되면 수상돌기 끝에서 막탈분극화(membrane depolarization)가 일어난다.

Image result for membrane depolarization

정지상태(resting state)에 있던 수상돌기 멤브래인(membrane)의 전극은 세포 안쪽이 음극(-), 세포 바깥쪽이 양극(+)으로 되어 있는데, 이온 채널(pump)이 열려서 양극의 나트륨 이온이 경계막 안쪽으로 흘러들어오면 막탈분극화가 일어난다. 점점 양쪽의 전극이 약화되고 종래에 경계막 안쪽은 양극(+)으로, 경계막 바깥쪽은 음극(-)으로 바뀐다. 그러면 옆쪽 부분의 전극이 아직 음극(-)이므로 전위차가 발생하고 신호 이동이 일어난다. 그런 다음 옆쪽 이온 채널이 열리면 그곳에도 나트륨 이온이 경계막 안으로 흘러들어오고 그곳에서도 막탈분극화가 일어난다.

Related image

그러는 동안에 신호 전달을 마친 부분에서는 이온 채널을 통해서 칼륨() 이온이 경계막 바깥으로 배출되며 경계막 내부가 다시 원상태인 음극으로 되돌아가는 막재분극화(membrane repolarization)가 일어난다.  [만약 시냅스 전 뉴런이 억제 뉴런(inhibitory neuron)이면 염화이온(chloride ion, )이 배출되며 시냅스 후 뉴런에서는 그것을 받아들이는 이온 수용체가 열려서 수상돌기 끝에서 막분극화를 강화하여 막탈분극화가 일어날 가능성이 작아진다. 즉, 신호가 전달될 가능성이 작아진다.]

Image result for inhibitory neuron CI

이러한 과정이 반복되면서 수상돌기에서 세포체로 신호가 전달되며, 신호가 충분히 강하면 세포막에서 축삭으로 신호가 전달되면서[여러 수상돌기로부터 온 신호가 합쳐져서 충분히 강하면 축삭소구(hillrock)에서 활성 전위(action potential)가 발사된다] 막탈분극화-막재분극화가 반복되고 종국에 활성 전위(신호)가 축삭 종말(axon terminal)에 도달한다. 축삭 종말에서 신호가 전달되면 주머니에 쌓여 있는 신경전달물질(neurotransmitter)이 시냅스 틈(synapse cleft)으로 분비되며, 그것이 다음 뉴런의 수상돌기에 있는 수용체(receptors)를 통해서 흘러들어간다. 그리고 위에서와 같은 과정이 반복되면서 뉴런에서 다른 뉴런으로 그리고 거기서 또다른 뉴런으로 신호가 전달된다.

Image result for synapse

(윤영민, 2018-04-13)

사이버 폭력–해법 없는 야만

사이버 폭력은 영어로 online violence (혹은 cyber-bullying)로 불리기도 하고 online harassment로 불리기도 한다. 폭력(violence)은 법적으로 명백한 범죄이지만 harassment(괴롭힘)은 범죄일 수도 있고, 단순한 도덕적 혹은 윤리적 일탈일 수도 있다. 이 표현상의 애매함은 사이버 폭력에 내재한, 해소될 수 없는 모순 혹은 이중성을 보여주며, 나아가 그것이 지닌 사회적 심각성을 시사한다.

Image result for online violence

가벼운 형태의 사이버 폭력이 ‘괴롭힘’이고 심각한 형태의 사어버 폭력이 ‘폭력’인 것이 아니다. 그 두 용어가 단지 사이버 폭력의 강도를 의미하고 있지 않다는 말이다. 그것은 가해자 입장에서 보는가 아니면 피해자 입장에서 보는가를 질적으로 구분해 주는 용어로 봐야 한다. 가해자 입장에서는 ‘괴롭힘’도 있고 ‘폭력’도 있겠지만, 피해자 입장에서는 오직 ‘폭력’만이 있기 때문이다.

“그냥 재밌자고 한 말인데요.” “화가 나서 그냥 한 마디 한 것 뿐이에요.” “좀 튀어볼라고 쓴 것 뿐인데.”

사이버 폭력 가해자를 인터뷰할 때 듣게 되는 전형적인 반응들이다. 가해자들은 사이버 폭력을 전혀 문제가 될 게 없는 행동으로 인식하거나 기껏해야 가벼운 일탈 정도로 생각하는 경향이 있다. 예컨대 비유적으로 표현하자면, 가해자 입장에서는 피해자를 비아낭거리거나 다소 심한 농담을 한 정도, 좀 더 심하면, 약간 화를 내거나 욕설을 퍼붓는 행위, 아주 심각한 경우라해야 침을 뱉거나 따귀를 때리는 정도라고 생각한다. 가해자는 그것을, 주먹으로 상대가 부상을 당할 정도로 때리거나 둔기를 내려치는 범죄, 더구나 칼로 찌르는 행동 같은 중대한 범법 행위가 절대 아니라고 생각한다.

Related image

이와는 달리 사이버 폭력의 피해자들 대부분–그것을 좀 넉넉하게 받아들이자는 문재인 대통령은 소수의 예외에 속할 것이다–은 사이버 폭력이 심각한 사회 범죄라고 생각한다. 가해자 개개인은 가벼운 비난이나 욕설만을 했어도 그렇다. 수백명, 수천명, 혹은 수만명이 비난과 욕설을 쏟아내면 그것을 담담하게 감당할 수 있는 사람이 별로 없을 것이다.

사이버 폭력으로 인한 심리적, 나아가 사회적 피해는 워낙 위중하다. 피해자는 오랜 기간 극도의 분노, 좌절, 공포에 사로 잡히고, 불면증은 물론이고 위통, 근육통 등 신체적 이상이 수반되기도 한다. 명사들의 경우 그 피해가 심리적 혹은 신체적 상태에서 그치지 않는다. 그로 인해 그들은 직장이나 직업을 잃고 영원히 사회적으로 매장되기도 한다. 명사들에게는 명예나 이미지가 삶의 전부나 마찬가지이기 때문에 명예를 잃거나 이미지가 망가지는 것은 사회적 죽음이나 다름 없다.

Image result for consequence of online violence

사이버 폭력에 대한 가해자와 피해자 사이의 그러한 의식 격차(awareness gap)는 사이버 폭력의 해결을 어렵게 만드는 가장 중대한 요인 중 하나일 것이다. 소리 한번 지르거나 침 한번 뱉었는데 상대가 죽어버리는 현상이 사이버 폭력이다.

사이버 폭력은 인터넷 야만(野蠻)이다. 사이버 폭력의 피해자는, 때로 성폭력, 성추행, 혹은 성희롱을 저지른 성범죄 혐의자일 수 있고, 때로 범죄까지는 아니더라도 도덕적으로 비난받을 만한 행동을 했을 수 있으며, 때로 남이 저지른 비행에 대해 억울하게 누명을 쓴 사람일 수도 있고, 때로 특정 사회적 사건과는 관계없는 엉뚱한 사람일 수도 있다. 문제는 흔히 아직 진실이 밝혀지기도 전에 ‘피해자’에 대한 일종의 여론 재판이 끝나 버리곤 한다는 사실이다. 법적 판결을 받기도 전에 이미 ‘피해자’에 대한 사회적 ‘사형’이 집행되어버리곤 한다는 사실이다. 그 재판에서 선고는 사형 뿐이고 집행은 즉결이다.

Related image

현대 민주주의 사회에서 개인에 대해서든 집단에 대해서든 타인에 대한 직접적인 복수나 응징은 엄격히 금지되어 있다. 그것은 명백한 범죄 행위이다. 범죄에 대한 판단과 처벌은 오직 국가의 사법기구만에게만 부여되어 있으며 반드시 법률에 따라야 한다(죄형법정주의). 경찰이나 검찰이 범죄를 인지하거나 범죄 피해자의 고발이나 고소가 있으면 사법기구가 범죄를 조사하고 적법한 절차에 따라 재판하며 피해자를 대신해서 형을 집행한다. 그리고 그 형은 범죄 행위에 대해 적절한 수준이어야 한다. 2-3년 정도 실형을 살아야 하는 범죄자에게 사형을 언도하고 집행할 수는 없다. 현대 문명사회에서 사법권은 국가에게만 배타적으로 주어지고 사법부는 사회 정의(正義)의 최종 담지자이다.

그런데 인터넷에서는 범죄의 직접적인 피해자가 아닌 다수의 사람들에 의해 범죄 혐의자(혹은 그렇게 추정되는 사람)에게 충동적이고 무책임한 심판과 처벌이 발생한다. 제어되지 않은 대중의 분노–그것은 왕왕 근거가 잘못 된 것이곤 하다–가 순식간에 한 사람의 사회적 생명을 끝장내 버린다. 거기에는 적법한 절차, 적절한 형량, 정당한 집행 따위가 끼어들 자리가 없다.

그것은 집단적 린치이다. 거기에 참여하는 사람 개개인은 양심의 가책은 커녕 기억조차 하지 못하는 ‘사소한’ 댓글 한 마디 올렸을 뿐인데, 수백, 수천의 댓글들이 합쳐져서 당하는 사람에게는 감당할 수 없는 린치요 형벌이 되어버리는 것이다. 우리가 문명 사회에 살고 있다면 그러한 사회적 범죄는 결코 용납되어서는 안된다. 그것은 언론의 자유도 아니고 표현의 자유도 아니다. 당하는 사람에게 있어 그것은 그냥 흉악한 범죄일 뿐이다.

Image result for lynch mob

현대판 야만인 사이버 폭력을 어떻게 예방할 수 있을까? 사이버 폭력이 인터넷 사용자의 자율적인 방법이나 교육을 통해서 해결될 것으로 판단되지 않는다. 사이버 폭력에 대한 가해자와 피해자의 의식 격차가 너무 크며, 사이버 폭력은 대단히 가볍고 충동적이며 순식간에 발생해 버리는 행동이기 때문이다. 가해자에 대한 법적 처벌을 엄격하게 한다고 해결될 것으로 보이지 않는다. 가해 행동의 성격에 따라 가해자를 처벌하는 것도 비현실적이고, 그렇다고 피해의 정도에 따라 가해자를 처벌할 수도 없지 않겠는가.

사이버 문화의 향상이나 교육을 통한 인식의 제고가 필요하겠지만 사이버 폭력이 발생하는 공간에 대한 통제가 필수적이 아닐까 생각된다. 인터넷 포털, 인터넷 매체, SNS 운영 업체에 대해 예방 책임을 부여해야 할 것이다. 사실 무분별한 댓글이 방치되는 중요한 이유 중의 하나가 그 업체들의 상업적 동기이다.

모든 인터넷 포털, 인터넷 언론, SNS에 대해 실명제를 의무화하는 것을 고려해 볼 수도 있다. 그러나 실명제를 도입한다고 문제가 해결되지는 않을 것이다. 가벼운 비난, 퍼나르기, 신상털이는 실명으로도 얼마든 행해진다. 페이스북의 경우 사용자가 실명은 물론이고 자신의 얼굴까지 공개하고 있지만 사이버 폭력이 발생하고 있지 않는가. 더구나 관련 업체들은 언론의 자유 혹은 표현의 자유에 대한 탄압이라고 거세게 저항할 것이다. 그런데 실명제가, 정부가 그 저항을 강제로 잠재우고 시행할 정도로 효과적인 제도인지 의문이다.

답답하다. 과연 사이버 폭력에 대한 효과적인 해법은 없을까? (윤영민, 2018-3-25)

Related image

데이터를 다시 생각한다(2): 사회과학적 관점

어떤 사회 제도(social institutions)나 존재 이유와 내부 질서(혹은 구조)를 갖고 있다. 하나의 사회제도로서 과학—사회과학을 포함—도 그렇다. 과학의 존재 이유는 진리(truth)(다르게 표현하면, 지식, knowledge)의 탐구이며, 과학의 내부 질서는 주로 고유한 연구방법–다시 말해 과학적 지식이 생성되는 방법–에 달려 있다.

과학적 지식은 연역적 추론(deductive reasoning), 귀납적 추론(inductive reasoning), 혹은 유추(analogy)와 같은 방법으로 생성된다. 삼단논법에 보듯이 보편적 전제로부터 개별적 결론이 도출될 수도 있고(연역적 추론), 개별적 사실들로부터 일반적 원리를 끌어낼 수도 있으며(귀납적 추론), 한 사물이나 현상을 보고 다른 사물이나 현상에 대해 추측할 수도 있다(유추).

과학에서는 어떤 이론이나 가설도 경험적 검증을 거쳐야 지식으로 인정받게 된다. 가설(hypothesis)을 세우고(그것은 이론으로부터 도출될 수도 있고 선행연구의 발견으로부터 가져올 수도 있다), 관찰, 실험, 인터뷰 등 과학적이라고 인정되는 방법으로 데이터를 수집한 다음, 그것을 가지고 가설을 검증한다. 가설 검증 과정에서 연역적 추론, 귀납적 추론, 유추 등이 사용된다.

가설은 데이터에 의해 지지되거나(supported) 기각되며(rejected), 기각된 경우에는, 새로운 방법이나 새로운 데이터를 가지고 가설을 재검증하거나 가설을 수정하여 다시 검증하기도 한다. 가설이 한번에 검증되는 경우는 없으며 반복적인 검증을 통과해야 한다. 그런 의미에서 모든 이론과 가설–다시 말해, 지식–은 잠정적(temporary)이라고 말할 수 있다.

사회과학에서 연구자는, 먼저 연구 문제(research question)와 가설(hypothesis)을 가지며, 그런 다음 그것을 검증해줄, 현실을 대표한다고 믿어지는 데이터(data)를 구한다. 데이터란 사람, 집단, 사회현상 따위에 관한 사실(facts) 혹은 정보(information)를 말한다.

빅데이터 시대 이전까지 일반적으로 데이터는 연구자가 연구를 위해 의도적으로 수집한 것이었다. 연구 목적에 부합되도록 조사를 기획하고 실험, (참여) 관찰, 설문조사와 같은 방법을 통해서 데이터를 수집하였다. 사회과학에서 데이터란 그러한 데이터를 의미하였으며, 엄밀하게 계획되고 설계된 절차를 통해서 수집된 데이터만이 학문적으로 인정받을 수 있었다.

Image result for big data social science research

사회과학 연구에 있어 빅데이터가 제기하는 가장 근본적인 문제 중 하나는 데이터에 관한 그러한 전통적인 인식에 대한 것이다. 빅데이터는 데이터가 단순히 양적으로 증가했다는 의미를 넘어서 데이터가 질적으로 달라졌음을 함축한다. 이는 데이터가 무엇인가에 대해 다시 생각해보아야 하고 데이터의 학문적 타당성에 대해서도 다시 살펴보아야 함을 의미한다.

사회과학의 연구 대상은 개인, 집단, 사회조직, 사회제도, 사회적 상호작용, 사회운동, 혁명, 전쟁, 의례와 관행, 가치와 규범, 의식과 태도 따위이다. 과거에도 그랬고, 현재도 그러하며, 미래에도 그러할 것이다. 문제는 데이터가 ~에 대한 것을 넘어서 ~자체가 되었다는 사실이다(Purdam and Elliot, 2015).

예컨대 개인(individual)을 생각해보자. 과거에 개인 데이터(personal data)란 개인의 속성(attributes), 자산, 습관, 취미, 관심, 태도, 행동 등을 알려주는 고정적인 것이거나 상당히 안정적인 것이었다. 그리고 이름, 성별, 나이, 주소, 전화번호, 주민등록번호, 출생지, 직업, 가족관계, 소득, 교육수준, 종교, 국적, 병역 사항, 은행잔고, 부동산 소유 현황, 혈액형, 병력, 지지정당, 노조가입 여부, 지문, 흡연량, 음주량 따위가 개인 데이터였다.

그런데 인터넷, 스마트폰, CCTV, 센서 등 디지털 기술이 확산되면서 개인을 규정하는데 있어 훨씬 동적이며 가변적인 데이터가 추가되었다. 통화기록, 문자메시지 송수신 기록, 로그파일, 쿠키, 전자우편, 블로그, 트위터, 페이스북 같은 소셜 미디어상의 상호작용, CCTV 영상, 자동차 블랙박스 영상, 은행 ATM 사용기록, 인터넷 쇼핑 기록, 인터넷 뱅킹 기록 등 개인의 온라인 행동은 물론이고 오프라인 행동까지 실시간으로 기록되면서 엄청난 양의 데이터가 개인을 규정하는데 활용되고 있다.

Image result for personal data

개인의 일상이 광범위하게 기록되고, 그렇게 수집된 데이터로부터 개인의 생각을 추정하고 행동을 예측할 수 있게 됨에 따라 개인 데이터는 점점 개인 자체와 일치해 가고 있다. 더구나 개인은 자기 스스로가 생각하거나 주장하는 정체성(identity)이 아니라, 신용카드 이용처럼 일상 속에서 자신이 직접 생성하거나 생성에 동의한 데이터, 기계에 의해 모니터링된 데이터, 인터넷, 스마트폰, 자동화기계를 사용하면서 남긴 흔적 등에 의해 추정되거나 결정된 정체성에 의해 규정된다. 나는 더 이상 내 자신이 규정한 ‘나’가 아니라 개인 데이터를 기반으로 사회가 규정해준 ‘나’가 된 것이다. 그런 의미에서 개인은 데이터로 존재하고 살아간다고 말할 수 있다.

사회과학의 연구 대상 중 개인만 그러겠는가. 집단, 사회조직, 국가, 민족과 같은 사회적 행위자는 물론이고, 세계, 시장, 문화, 사회관계, 사회운동, 혁명, 전쟁, 갈등, 협력 등 어떤 사회현상에 있어서도 데이터는 그것에 대한 것이 아니라 그것 자체의 중요한 구성 요소가 되었다. 사회연구는 데이터의 이러한 새로운 성격을 충분히 고려해야 할 것이다.

그렇다면 빅데이터는 기존의 데이터와 어떻게 다를까? Laney (2001)는 빅데이터가 세 가지 차원에서 기존의 데이터와 구별된다고 지적했다. 첫째, 데이터의 양이 과거와 비교할 수 없을 정도로 크고(규모, volume), 둘째, 숫자, 문자, 영상, 동영상, 거래기록 등 데이터의 형식이 매우 다양하며(종류, variety), 셋째, 데이터가 대단히 빠르게 생성된다(속도, velocity). 물론 모든 데이터가 이 세 가지 속성을 모두 갖는 것은 아니다. 예컨대 CCTV 데이터는 실시간이고 대규모이지만 형식은 동영상으로만 되어 있으며, 인터넷 사이트 접속 로그 파일은 실시간이고 대규모이지만 형식은 숫자와 문자만으로 되어 있다.

Laney의 정의가 널리 알려 있기는 하지만 모든 연구자가 그의 정의를 취하지는 않는다. 연구자에 따라 빅데이터의 특정한 성격이 강조되기도 한다. 어떤 학자는 사건이나 상호작용이 발생하면서 바로 기록되는 실시간 데이터(real-time data)라는 점에 주목하고, 어떤 학자는 연구자의 개입 없이 발견되는 데이터(found data)라는 점을, 어떤 학자는 비정형 데이터(unstructured data)가 증가하고 있음에 주목하고, 또 어떤 학자는 데이터가 인간이 아니라 점점 센서(censor)에 의해 생성된다는 사실에 주목한다(Connelly et. al. 2016).

사회과학 연구의 관점에서 보자면, 전통적으로 사용되는 데이터와 최근의 빅데이터는 다음과 같이 대비될 수 있다. 전자가 의도적으로(intentionally) 생성된 반면 후자는 연구를 목적으로 생성되지 않는다. 그래서 어떤 전문가는 전자를 ‘기획된 데이터(designed data)’라고 부르고, 그에 대비해서 후자를 ‘유기적 데이터(organic data)’라고 부른다. 또한 어떤 학자는 전자를 ‘제조된 데이터(made data)’라고 부르고, 그에 대비해서 후자를 ‘발견된 데이터(found data)’라고 부른다.

Image result for big data's effects on social science research

Purdam and Elliot( 2015)은 데이터에 관한 체계적이고 유용한 분류를 제공해 준다. 그들은 데이터가 어떻게 생성되었는가에 따라서 다음과 같이 여덟 가지 유형으로 분류한다.

① 정통의 의도된 데이터(orthodox intentional data): 설문조사, FGI, 실험

② 참여적 의도된 데이터(participative intentional data): crowdsourced data

③ 결과적 데이터(consequential data): 행정기록, 전자의료기록, 상업적 거래 데이터, 온라인 게임 경기 기록

④ 자기 발간 데이터(self-published data): 긴 형식의 블로그 포스팅, 온라인 이력서, 온라인 프로필

⑤ 소셜 미디어 데이터(social media data): 트위터, 페이스북, 온라인 게임 대화

⑥ 데이터 흔적(data traces): 온라인 검색 로그 파일, 온라인 구매 로그 파일

⑦ 발견된 데이터(found data): 공개 공간(public spaces)에 대한 관찰

⑧ 인공 데이터(synthetic data): 시뮬레이션 데이터, 합성 데이터

Mayer-Schoenberger & Cukier(2013: 78)는, 오늘날 점점 인간 뿐 아니라 컴퓨터에 의해 분류되고 분석될 수 있도록 사회적 존재나 현상이 디지털화되고 계량화되는 현상을 데이터화(datafication)라고 불렀다. 책 속의 단어들이 컴퓨터가 읽을 수 있는 데이터가 되고, 사람이나 사물의 위치가 컴퓨터가 처리하는 데이터가 되며, 사람들 사이의 상호작용(예: 트위터, 페이스북)이 컴퓨터로 분석되는 데이터가 된다. 데이터화는 사회과학 연구에 있어 데이터의 유형만큼이나 다양한 데이터 출처가 존재하게 만들고 있다.

Image result for data in star trek

데이터 분석 및 마케팅 전문가인 Lynda Partner(2016)의 지적처럼, 어쩌면 이제 “데이터가 모든 것이고, 모든 것이 데이터”인 세상일 지도 모른다. 학자와 전문가들은 정보시스템, 데이터 시스템, 지식관리시스템, ERP, 가설 검증, 예측, 분류라는 응용적 측면에서 데이터를 바라보지만, 데이터는 이미 인문학적 사유의 대상으로 넘어가고 있는 지도 모른다. 이미 30여 년 전 TV 시리즈인 스타 트렉(Star Trek)은 ‘데이터’라는 출연 인물(?)을 통해서 그러한 가능성을 보여주었고, 20여 년 영화 매트릭스(Matrix)는 모든 것이 데이터로 존재하는 세상인 가상공간을 실감나게 보여주었지 않았던가.  (윤영민, 2018-03-05)

<참고 문헌>

Connelly, Roxanne, Christopher J. Playford, Vernon Gayle, and Chris Dibben. 2016. “The Role of Administrative Data in the Big Data Revolution in Social Science Research”, Social Science Research 59. Pp.1-12.

Laney, D., 2001. “3D Data Management: Controlling Data Volume, Velocity and Variety.” META Group Research Note 6.

Mayer-Schoenberger, Viktor and Kenneth Cukier. 2013. Big Data: A Revolution that will Transform How We Live, Work, and Think. Boston: Houghton Mifflin Harcourt.

Partner, Lynda. 2016. “Data is everthing, and everything is data.” https://blog.pythian.com/data-everything-everything-data/

Purdam, Kingsley & Mark Elliot. 2015. “The Changing Social Science Data Landscape”, Halfpenny, J. Peter & Rob Procter (ed.). Innovations in Digital Research Methods. Chap. 2. London: Sage. Pp.25-58.

데이터를 다시 생각한다(1): 공학적 관점

지난 10여 년 사이 발생한 가장 뚜렷한 사회변화 중 하나는 인류에게 대단히 낯선, 데이터 기반 사회(Data-based society)가 출현하고 있다는 사실이다. 고 Peter Drucker가 예견했던 지식사회도, 필자를 포함해 수많은 학자들이 설파한 정보사회도, 마뉴엘 카스텔(Manuel Castells)이 전망한 네트워크사회도 아닌 데이터 기반 사회–그냥 짧게 줄여서 데이터 사회(data society)라고 부르자–가 등장하고 있는 것이다.

Related image

앞 포스팅들에서 길게 논의했던 새로운 개념의 “지능(intelligence)”도 근본적으로는 데이터 사회의 한 측면이다. 인간, 사회조직, 자연, 심지어 우주에 관한 데이터의 폭발적 증가는 인류가 지금까지 경험해 보지 못한 새로운 모습의 사회를 탄생시키고 있다. 지능이 개인과 조직, 그리고 사회가 생존하는 데 있어 가장 중요한 생존 요인 중 하나가 된 것이 바로 데이터 때문이다.

이제 데이터(data)에 관해 얘기해 보자. 데이터를 제대로 규정하지 않고 데이터 사회를 논할 수는 없지 않겠는가.

데이터에 대한 정의는 학문 영역에 따라 상당히 다르다. 그것은 데이터를 전혀 다른 대상으로 간주하기 때문이라기보다 서로 다른 맥락에서 데이터를 바라보기 때문이거나 데이터의 서로 다른 측면을 분석하기 때문일 것이다. 데이터를 크게 공학적 관점과 인문/사회과학적 관점으로 나누어 살펴보자.

공학 중 데이터에 관해 가장 정교한 규정을 제시하는 분야는 경영정보학(MIS)이 아닐까 싶다. 경영정보학은 데이터가 핵심인 데이터베이스(D/B), 정보시스템(IS), 지식관리시스템(KMS), ERP(Enterprise Resource Planning), 데이터 마이닝(data mining), BI(Bussiness Intelligence) 등을 모두 다루어야 하기 때문일 것이다. 경영정보학에 의한 규정은 인접분야인 컴퓨터과학(computer science), 문헌정보학(library and information science), 교육공학(educational technology) 등과 공유된다.

경영정보학에서는 크게 세 가지 서로 다른 데이터 프레임워크(혹은 이론)가 제시되었다. 그중 가장 오랫동안, 그리고 가장 널리 수용되는 데이터 프레임워크는 가치 사슬 모형(value chain model), 흔히 DIKW 계층 모형이라고 알려진 것이다.

Image result

이 모형에서 데이터(data)는, 통상 가공되지 않은 상태의, 객체(objects)나 사건(events)에 대한 묘사(description) 혹은 사실(facts)을 의미하며, 정보(information)는 데이터를 가공한(processed: 분류, 요약, 혹은 이전되었다는 의미) 것으로, 맥락이 부여된(contextualized) 데이터이다. 따라서 데이터와 달리 정보는 의미(meaning)를 가지며, 특정한 용도에 유용하다. 또한 정보가 체계적으로 조직되면(organized) 지식(knowledge)이 되고, 지식이 고도로 추상화되면 지혜(wisdom)이 된다.

이 피라미드의 상부로 올라갈수록 가치(value)가 상승하는 것으로 간주된다. 이 때문에 이 모형은 가치 사슬 모형이라고 불린다.

이 피라미드 모형은 나름대로 유용하다. 데이터-정보-지식-지혜의 관계에 대해 최소한의 가이드라인이 되어주며, 나아가 연구자들에게, 지식, 정보, 데이터 중 어떤 것을 다루더라도 다른 두 가지와의 관계를 고려해야 하고, 앎(knowing)에 관한 어떤 모형도 이 세 가지 사이의 관계에 대해 명쾌한 해석 혹은 입장을 포함하고 있어야 함을 알려준다(Kettinger and Li, 2010).

지혜는 지식과 특별히 구분되지 않거나, 지나치게 추상적이기 때문에 실무 차원에서는 논외로 하는 경우가 많다. 예컨대 “이웃을 사랑하라” 혹은 “타인에게 자비를 베풀라”는 훌륭한 지혜이겠지만 현실 비즈니스에서 적용되기는 어렵지 않겠는가.

Related image

이 모형의 약점은 핵심 개념인 데이터, 정보, 지식 사이의 상관관계가 명백하지 않다는 사실이다. 특히 데이터와 정보, 그리고 정보와 지식의 개념적 관계가 애매하여, 연구자들 사이에 해석이 분분하다(Alavi and Leidner, 2001).

Tuomi (1999)는 가치 사슬 모형을 거꾸로 뒤집어 놓은 구체화 모형(materialization model)을 제안했다. 가치 사슬 모형과는 반대로 데이터는 정보로부터, 정보는 지식으로부터 생성된다는 인식이다. 지식이 데이터와 정보에 대한 인식의 출발점이라는 것이다. 이 모형의 가장 중요한 특징은 지식이 데이터와 정보로부터가 아니라 다른 원천으로부터 생성된다는 인식이다. Tuomi에 의하면, 노나카 이쿠지로(Nonaka Ikuziro)가 말하는 암묵적 지식(tacit knowledge)과 명시적 지식(explicit knowledge) 사이의 다이내믹한 상호작용은 지식이 생성되는 한 가지 방식이다.

잠재적 지식이 개념적으로 명료하게 표현되고(articulated), 구조화되면(sturctured), 지식은 정보가 되며(그렇다면 정보는 다름 아닌 명시적 지식!), 그렇게 만들어진 구조에 데이터를 수집해서 집어넣어 정보를 구체적으로 표현할 수 있다(아래 그림을 참조).

이 과정을 구체적인 사례를 갖고 보면 아래 그림과 같다. 보일-샤를의 법칙과 아보가드로의 법칙이라는 화학적 지식을 결합하여 이상기체 상태방정식(PV = nRT)를 도출하면 그것이 정보이다. 그리고 그 정보를 응용하면 체온계를 만들 수 있다. 그 체온계로 체온을 재면, 체온이 의미를 지닌 숫자–예컨대 36.5도–로 구체화되어 표현된다.이 과정에 의하면, 정보란 데이터에 의미를 추가해서 생성되는 것이 아니라, 지식으로부터 도출된다. 그리고 정보를 구조화하면 의미를 지닌 데이터가 창출될 수 있다.

세 번째로 소개할 데이터-정보-지식 프레임워크는 상호작용 모형(interactive model)이다. 이것은 정보가 지식과 데이터의 상호작용에 의해 생성된다는 발상으로 지식 기반의 정보이론(knowledge-based theory of information, KBI)이라고 불린다((Kettinger and Li, 2010). 이 모형의 핵심적인 인식은, 정보는 데이터와 지식의 결합 함수이며, 낮은 수준의 정보는 높은 수준의 정보를 생산하는 데 투입으로 사용된다(information is the joint function of data and knowledge, and lower level information is used as input to produce higher-level information)이다.

이 모형에서도 지식이 대단히 중요한 위치를 차지하고 있다. 지식은 구성물 사이의 관계에 대한 정당화된 진실한 믿음(justified true belief of the relationship between constructs)이다.

이 명제는 네 가지 의미를 내포하고 있다. 1) 지식은 믿음(belief)이다. 그런데 그 믿음은 추가적인 증거에 의해 일반화되거나(generalizable) 검증될 수 있는(verifiable) 것이어야 한다. 2) 지식은 진실이거나, 어떤 상황에서 진실에 접근해야 하며, 그리하여 실질적 목적을 위해서 의문의 여지가 없는 것으로 받아들여져야 한다. 3) 지식의 진실성은, 자격을 갖춘 엘리트(전문가, 권위자)에 의해 정당화되거나 인정되어야 한다. 이점이 지식을 정당화되지 못한 믿음과 구별시켜준다. 4) 지식은, 수단-목적 짝(mean-end pairs), 조건-행동 짝(condition-action)과 같이 구성물 사이의 관계(relationship between constructs)에 대한 믿음이다. 지식의 가장 흔한 형식은 IF-THEN 짝이다(사회학, 통계학에서는 가설 형식이라고 부름). 지식은 지식틀(knowledge frames), 지식지도(knowledge maps), 시맨틱 네트워크(semantic networks) 등과 같은 형식을 취할 수도 있다.

데이터는 객체나 사건에 관한 서술이나 측정값이다. 그것은 통상 객체나 사건의 속성(attributes of objects or events)들을 측정하는, 상호연관된 데이터 항목들의 집합(a set of interrelated data items)을 말한다.

S1: A 형 부품 17개가 남아 있다.

S2: 비가 내리고 있다.

이 두 진술은 ‘there-is(~있다)’ 유형으로, 어떤 존재하는 객체나 사건에 대한 사실(facts)에 관한 진술로 데이터이다. 데이터는 상황에 관한 선결조건(pre-conditions) 혹은 투입 값(input values)을 규정하고, 그것을 기반으로, 그 상황에서의 의사결정 혹은 행동의 선택을 가능하게 하는 정보가 생산된다. 그러나 데이터만으로는 행동이나 의사결정에 요청되는 정보를 낳을 수 없다.

정보는 지식 프레임워크를 토대로 데이터로부터 생산된 의미(meaning)이다. 지식 프레임워크는 목적 지향적 행동들을 위한 조건적인 준비의 상태의 선택과 결합되어 있다(Information is the meaning produced from data based on a knowledge framework that is associated with the selection of the state of conditional readiness for goal-directed activities).

이 규정은 의미(meaning)가 정보의 본질적 속성이라는 정보시스템 연구의 전통적인 관점을 반영하고 있다. 메시지의 의미를, 조건적 준비의 상태에 대해 수신자가 지닌 범위에 대한 선택적 기능이라고 볼 수 있다. 정보에 의해 선택, 판단, 혹은 불확실성 감소가 일어난다는 것이다.

예를 가지고 살펴보자. 위의 S1 데이터 명제와 관련된 아래와 같은 지식 명제를 생각할 수 있을 것이다.

S3:  만약 A형의 부품의 재고가 20개 이하이면, 부품 부족을 방지하기 위해 A형의 부품을 주문해야 한다.

지식 S3가 데이터 S1을 만나면, “A형 부품을 적어도 3개 이상 주문해야 한다”는 정보가 생성된다.

이 기본 모형은 좀 더 확대될 수 있다. 비와 외출에 관해서 두 가지 이론이 있다고 하자. 하나는 “S4: 비가 내리면 외출을 삼가한다.”, 그리고 다른 하나는 “S5: 비가 내리면 우산을 갖고 나간다.”라고 하자. 이 이론들이 S2(비가 내리고 있다)라는 데이터를 만나면, 그것이 이론 S4와 결합할 경우, “외출을 하지 않는다”라는 정보가 도출된다. 반면에, 이론 S5와 결합할 경우, “우산을 갖고 나간다”라는 정보가 도출된다. 동일한 데이터라도 적용되는 지식에 따라서 정보가 달라짐을 알 수 있다(아래 그림 참조).

KBI 이론에 따르면, 데이터가 정보의 주요 원천이기는 하지만, 정보는 또다른 원천으로부터도 생성된다. 그것은 다른 사람이 갖고 있는 정보(other people’s information)이다. 그런데 다른 사람의 정보는 이미 그 사람의 지식과 데이터의 결합에 의해 생성된 것이다.

이 모형은 데이터로부터의 정보가 생산되기 위해서는 지식을 필요로 하며, 지식이 변하면 정보도 달라짐을 시사한다. 가설적 수준의 이론이지만 대단히 흥미있는 모형이다. 이 모형은 다음에 소개할 사회과학적 관점과도 잘 어울리는 장점을 갖고 있다. (윤영민, 2018-03-05).

<참고문헌>

Alavi, M and Leidner DE (2001). “Knowledge management and knowledge management system: conceptual foundations and research issues.” MIS Quarterly 25(1): 107-136.

Kettinger, William J and Yuan Li (2010). “The infological equation extended: towards conceptual clarity in the relationship between data, information and knowledge,” European Journal of Information Systems, 19(4): 409-421.

Tuomi, I (1999). “Data is more than knowledge: implications of the reversed knowledge hierarchy for knowledge management and organizational memory.” Journal of Management Information Systems 16(3): 103-177.

지능이라는 이름의 게임(8): ‘창조주’가 되고 싶은 인간

인간에게 마지막 남은 미지의 영역은 아마도 생명일 것이다. 생존의 관점에서두뇌-지능은 생명과 가장 근접해 있는 영역이다. 두뇌-지능을 해독하면 인간(인간 대신 A.I.일지도 모른다)은 결국 생명이라는 수수께끼마저 완벽하게 풀어버릴 지도 모른다. 그것이 언제쯤일 지는 누구도 정확히 예측할 수 없겠지만 말이다. 아직 초보적인 수준이지만 인류는 이미 지능적인 기계(intelligent machines) 만들기 경쟁을 시작했다. 연구소와 기업들이 기계학습(machine learning) 혹은 인공지능(A.I.)을 응용한 상품 개발에 질주하고 있다. 스마트폰, 자동차, 스피커, 세탁기, 청소기, 가사 로봇 등등. 아마도 원하던 그렇지 않던 그 경주의 종착역은 ‘창조주(creator)’ 게임이 되지 않을까 생각된다. 지능, 두뇌, 생명의 창조 말이다.

최근에 발표된 Tie-Jun Huang 북경대 교수의 논문, “Imitating the Brain with Neurocomputer”(Internation Journal of Automation and Computing, 2017/10)는 정확히 그 지점을 건드리고 있다. 이 논문을 참고하면서 인공지능(artificial intelligence), 인공두뇌(artificial brain), 그리고 인공 생명(artificial life)에 대해 생각해 보자.

Image result for artificial intelligence, artificial brain, artificial life
출전: http://news.mit.edu/2009/ai-overview-1207

Huang 교수는 컴퓨터과학이 자율적(autonomous)이며 범용인(general) 인공지능–그의 표현으로 Artificial General Intelligence, AGI–을 추구한다고 전제한다. 그의 주장이, A.I.에게 결코 자율성을 부여해서는 안된다는 이대열 교수의 주장과 출발부터 충돌하는 것이다. 그리고 AGI를 구현하기 위해서는 지능(intelligence)의 모사가 아니라 두뇌(brain)의 모사에 연구를 집중해야 한다고 역설한다.

그의 주장에 따르면, 현재 득세하고 있는 기계학습(machine learning), 인공신경망(artificial neural network), 그리고 인공 지능(artificial intelligence)은 70여 년 전부터 지금까지 컴퓨터과학의 대세가 되어온 폰노이만(Von Neumann) 컴퓨터라는 패러다임 내에 있다.

1945년 존 폰노이만(John von Neuman)은 “First Draft of a Report on the EDVAC”이라는 논문 초고를 몇몇 지인들에게 돌렸다. 그 글에는 그 후 70년 이상 컴퓨터의 구조를 규정하는 설계가 제시되어 있었다. 폰 노이만이 논란의 여지없는 천재이기는 하지만 아마도 그 저술이 세상에 가장 커다란 영향을 미친 초고 논문이 될 것이라고는 꿈에도 상상하지 못했으리라.

폰 노이만 구조는 중앙처리장치(CPU), 저장장치(memory), 연결 통로(bus), 입출력 장치(I/O)로 구성된다. CPU는 데이터와 명령(instructions, 곧 소프트웨어)를 메모리로부터 불러내어 연산을 수행한다. 데이터와 소프트웨어는 동일한 메모리에 저장되고 동일한 버스로 이동한다.그 글에서 폰 노이만은 자신이 고등동물 두뇌의 작동 원리를 모방하여 컴퓨터의 구조를 설계하고 있음을 분명히 밝히고 있다. 특히 신경세포와 시냅스의 작동 원리를 단순화하여 진공관을 이용한 디지털 컴퓨터 설계에 적용하고 있음을 논문 곳곳에서 서술하고 있다(초고의 원문을 보려면 다음을 클릭: edvac.pdf).

폰 노이만은 복잡하고 지루한 수학 연산을 인간 대신 수행해 줄 기계를 구상했다. 폰 노이만의 설계에 따라 탄생한 디지털 컴퓨터는 지난 70여 년 동안 CPU와 메모리 칩이 진공관에서 트랜지스터 집적으로 바뀌고 데이터와 소프트웨어의 버스가 구분되었으며, 엄청난 컴퓨팅 파워와 처리 속도를 구가하게 되었고, 다양한 소프트웨어의 발달로 수학 연산을 넘어 문자, 이미지, 심지어 동영상까지 처리하고, 소형화를 거듭하고 있으며, 유무선 통신네트워크를 통해 컴퓨터는 물론이고 스마트폰을 비롯한 온갖 정보기기들이 연결되면서 놀라운 변신을 해왔다. 그러나 그럼에도 불구하고 놀랍게도 그것들에는 아직 기본적으로 폰 노이만의 설계가 유지되고 있다.

폰 노이만은 스스로 그렇게 표현하기도 했지만 생물의 신경세포 시스템을 유추(analogy)적으로 사용해서 컴퓨터를 만들었다. 즉, 그는 신경세포 시스템을 추상화시켜 도출한 몇 가지 원리를 가져다 사용했을 뿐 신경세포 시스템을 물리적으로 모사하려고 생각하지는 않았다. 사실 당시로서는 인간 두뇌에 대한 지식도 짧았고, 그것을 구현해 줄 기술도 거의 존재하지 않았기 때문에 놀라운 일이 아니다.

Image result for neurocomputer
출전: https://www.tutorialspoint.com/artificial_intelligence/artificial_intelligence_neural_networks.htm

그런데 Huang 교수는 물론이고 인공 두뇌(인공 지능과 혼동하지 말 것)를 연구하는 학자와 전문가들은, 폰 노이만과 앨런 튜링(Alan Turing)에서 출발한 컴퓨터와 인공지능에 대한 연구가 잘못된 방향을 걷고 있다고 생각한다. 그들이 제기하는 비판의 근거는 무엇보다 그들이 인간 두뇌가 어떻게 지능을 생산하는 지를 완전히 이해하지 못하고 있다는 것이다. 만약 그런 방식으로 AGI(그것은 strong AI라고 부르기도 함)를 발명하려면 인간 두뇌와 지능을 완전히 해독해야 하는데, 그것은 1백년 내 실현되기 어려울 것이라는 주장이다. “지능을 만들기(making intelligence)” 위해 먼저 “지능을 이해하기(understanding intelligence)”는 크게 잘못된 접근이라는 것이다. 전자가 후자보다 더 쉬운 작업인데, 후자를 먼저해야 한다면, 그것은 어려운 작업을 먼저 해결한 다음 쉬운 작업을 해결하겠다는 논리적 오류에 빠지는 일이라는 비판이다. 그는 심지어 그러한 접근이 말 앞에 수레를 연결하는 것만큼이나 잘못되었다고 지적한다.

대안으로 그는 모방주의(imitationalism)를 주창한다. 리버스 엔지니어링(reverse engineering)을 통해서 인간 두뇌의 물리적 구조를 밝히고 그것을 모방한 기계를 만들어 가자는 주장이다. 그것은 현실적으로 가능할 뿐 아니라 궁극적으로 인간 두뇌-지능을 이해하는 지름길이기도 하다고 역설한다.

그는 인간 두뇌의 생물학적 신경세포 시스템과 동일한, 혹은 그것과 최대한으로 유사한 물리적 구조를 지닌 컴퓨터를 개발하는 것이 모방주의 접근의 핵심 과업이라고 주장한다.  그 물리적 모방 엔지니어링(physical imitation engineering)의 목표는 신경세포와 시냅스의 기능을 모사할 수 있는 초소형 기기를 개발하여, 궁극적으로 아주 소규모의 물리적 공간과 적은 전력 소모라는 조건 아래에서 인간 두뇌급의 신경망 시스템을 구축하는 것이다. 그것은 신경 컴퓨터(neuromorphic computer, 간략히 neurocomputer)라고 불리는데, 그것에 대한 연구와 개발이 이미 상당히 진척되었다고 한다.

Image result for truenorth chip
출전: https://www.slideshare.net/SamMbc/ibm-truenorth

그에 의하면, 2008년 미국의 DARPA(Defence Advanced Research Projects Agency)는, 1kW의 전력만을 사용하면서(인간 두뇌는 약 30 와트의 전기를 사용함) 인간 두뇌의 신경세포와 같은 수준의 능력을 지닌 전자 기기를 개발하도록 IBM과 몇 개의 대학에 1억달러의 연구기금을 제공하였고, 2013년 유럽은 1억 유로 이상을 투입하여 정보기술과 생명과학을 결합하는 인간두뇌 프로그램을 시작하였으며, 같은 해에 미국의 오바마 대통령은 12년 내에 인간 두뇌의 역동적 지도를 그리겠다는 BRAIN Initiative에 45억 달러가 투입될 것이라고 발표했었다.

실제적인 성과도 가시화되어서, 2014년 8월 Science 지에, IBM은 1백만개의 (인공) 신경세포와 2억5천6백만개의 (인공) 시냅스로 구성된 트루노스(TrueNorth)라는 신경칩(neuromorphic chip)의 개발에 성공했다고 발표했다. 또한 2015년 독일의 하이델베르크 대학은 20만개의 신경세포와 5천만개의 시냅스를 8인치 웨이퍼에 집적하는데 성공했다. 신경컴퓨터는 300억개 이상의 신경세포와 3조개 이상의 시냅스로 구성된 인간 두뇌에 비하면 아직 유아적 수준에도 미치지 못하지만 신경컴퓨터 연구자와 개발자들은 인공신경망이나 인공지능에 비해 신경컴퓨터가 훨씬 빨리 AGI를 구현하게 될 것이라고 믿는다.

출전: http://www.scinexx.de/diaschau-117.html

신경컴퓨터 연구자들의 대전제는 기능(function)이 구조(structure)에서 나온다는 명제이다. 그것은 인간 두뇌의 신경세포와 시냅스와 최대한으로 유사한 물리적 구조를 지닌 지능적 기기–즉, 신경컴퓨터–를 개발하면 인간 두뇌급의 지능이 그것으로부터 창발되고(emerging) 성장할 수 있으리라는 믿음이다.

인공생명(artificial life, A-life)은 인공지능이나 인공두뇌와는 크게 다른 수준의 게임이다. 그것은 신경세포(neuron)가 아니라 신경세포의 세포핵(nucleus) 내부에 존재하는 RNA, DNA, 그리고 단백질을 스스로 창조하는 RNA를 인공적으로 만드는 도전이다. 그것은 생명을 모방하는 객체를 만드는 일일 수도 있고, 진짜 생명체를 창조하는 일일 수도 있다. 인공생명 연구의 아버지라고 불리는 존 폰 노이만–컴퓨터의 구조를 창안한 바로 그 폰 노이만–은 인공생명 연구에도 관심을 가졌다. 그가 일찍 세상을 떠나지 않았다면 인공생명에 대한 연구가 더 일찍 발달했을 지도 모르겠다.

Related image
출전: http://www.maxxtexx.de/dna-dient-als-erfahrungs-speicher-fuer-nachkommen/

폰 노이만은 생명의 핵심이 자기복제(self-reproduction)에 있다고 이해했다. 그의 정의에 따르면 오늘날 자기복제가 가능한 컴퓨터 바이러스는 하나의 인공생명이라고 말할 수 있을 것이다. 그러나 엄밀히 말하자면 그것은 진짜 생명이 아니라 생명의 흉내내기에 지나지 않는다. 물론 그것만으로도 인류를 위협할 정도이지만 인공적으로 창조된 생명체와는 거리가 아주 멀다. RNA, DNA, 단백질 등으로 구성된 세포핵을 지닌 생명체인 인간이 세상을 인식하고, 자신을 의식하며, 성장하고 진화하고, 자신을 재생산하는 위대한 모습을 생각해 보라.

Image result for great human beings
출전: https://hubpages.com/education/inspiringpeople

인공생명의 연구와 개발은 아직 인공지능은 말할 것도 없고 인공 두뇌의 연구에 비할 바가 아닐 정도로 낮은 수준이다. 그러나 향후 20~30년 후 기술적 특이점(singularity)–기계의 두뇌가 인간의 두뇌를 넘어서는 시점–을 지나고 나면 인공지능, 인공 두뇌 그리고 인공생명에 대한 연구는 인간 자신이 아니라 A.I.나 인공두뇌에 맡겨질 지도 모른다. 그렇게 되면 인공 생명, 나아가 생명의 창조의 시기가 크게 앞당겨질 지도 모를 일이다. 바로 그 시점이, 인간이 진정한 창조주로 등극하는 순간이다!

그런데, 그런데…. 과연 그것이 인류에게 축복일까 저주일까? 페이크 뉴스(fake news) 정도로 크게 흔들리는 인간 문명이 과연 인공지능, 인공두뇌, 그리고 인공생명을 사회적으로 감당할 수 있을까? 다음에는 이 문제를 생각해 보자. (윤영민, 2018-02-26)

<참고 문헌>

Huang,  Tie-Jun. 2017. “Imitating the Brain with Neurocomputer”, Internation Journal of Automation and Computing 14(5). Pp.520-531.

von Neumann, John (ed. by Michael D. Godfrey). 1945. “First Draft of a Report on the EDVAC.”  http://history-computer.com/Library/edvac.pdf

지능이라는 이름의 게임(7): 지능기계 설계자의 해석

앞 포스팅에서 소개한 이대열 교수의 저서가 진화생물학과 행동심리학의 관점에서 지능에 접근한 사례이라면, 이 포스팅에서 소개할 제프 호킨스(Jeff Hawkins)의 저서 <On Intelligence>(2004)는 컴퓨터과학 배경의 소프트웨어-하드웨어 개발자가 두뇌와 지능 연구자들에게 던지는 대담한 도전장이다.

Image result for on intelligence Image result for 생각하는 뇌 생각하는 기계

Hawkins가 지능과 두뇌에 관심을 갖기 시작할 때 던졌던 질문은 아주 명쾌하다. 지능(intelligence)이 무엇인가 이다. 이 의문은 인간의 두뇌가 근본적으로 어떤 점에서 지능적인가라는 질문과 바로 이어진다. 인간의 두뇌는 지상에서 가장 진화된 지능을 지니고 있기 때문이다. 그는 진정으로 지능적인 기계를 만들려면 먼저 인간의 두뇌를 제대로 이해해야 한다고 믿었다. 그는 기존의 연구들에서 자신의 의문에 대한 시원한 답을 찾을 수 없었고, 그래서 스스로 답을 제시하게 되었다. <On Intelligence>에는 Hawkins의 해답이 담겨 있다.

지능을 탐구하면서 그는 지금까지의 컴퓨터과학이 인간 지능(human intelligence)을 모사하는데 실패한 이유가 인간의 지능과 두뇌를 이해하지 못했기 때문이라는 결론에 도달했다. 그에 의하면, 인간의 두뇌는, 투입(input)이 들어가면 산출(ouput)을 내놓는 논리 기계나 정보처리 시스템이 아니며, 지능은, 튜링 테스트(Turing test)처럼 행동(behavior)을 측정하는 방식으로는 결코 이해될 수 없다. 지능이 무엇인지는, 간접적이거나 우회적인 방식이 아니라 두뇌의 내부 작용을 가지고 직접 규정해야 한다는 것이다.

Hawkins에 의하면, 인간 두뇌는 몇 가지 점에서 컴퓨터와 크게 다르다. 첫째, 두뇌는  S/WH/W의 구분이 없다. 지능을 주로 담당하는 대뇌 신피질은 신경세포와 시냅스로 구성된 네트워크인데, 그것은 전기-화학적 신호에 의해 작동하는 구조이지 그것들을 제어하는 별도의 S/W(혹은 그것과 유사한 무엇)가 존재하지 않는다. 

둘째, 컴퓨터와 달리 두뇌는 유전적 영향을 받기도 하지만 태생 후 성인이 될 때까지 발달하고  성인이 된 후에도 외부 자극과 경험에 의해 변화된다. 발달 단계로 보면 인간의 두뇌는 두 살 무렵에 뉴런-시냅스 조합이 폭발적으로 늘어나고, 그 다음 몇 년 동안 불필요한 뉴런-시냅스 조합은 점차 제거되며, 청소년기에 다시 한번 뉴런-시냅스 조합이 폭발적으로 증가한 후 성인이 될 때까지 불필요한 뉴런-시냅스 조합의 제거가 이루어지고 25-6세경 안정 단계에 도달한다. 그러나 성인이 된 후에도 뉴런-시냅스 조합은 계속 변화된다. 두뇌의 구조가 변하는 현상을 신경(혹은 두뇌) 가소성(neuroplasticity)이라고 부른다. Hawkins는 이러한 인식을 수용한다. 

셋째, 컴퓨터와 달리 두뇌는 대단히 유연하다. 두뇌의 특정 영역이 특정 기능만을 담당하지 않는다. 때문에 만약 어떤 부위가 손상을 받으면 그 부위가 맡던 기능을 다른 부위가 대신 수행하곤 한다. 이는 컴퓨터에서 상상하기 어려운 현상이다.  

이러한 차이를 인정하면서 Hawkins는 지능과 두뇌의 관계에 대해 기억예측 모형(memory-prediction model)이라는 가설을 제시한다. 그 모형을 요약하면 다음과 같다.

Image result for memory prediction model hawkins

지능은 인간의 두뇌에서 일어나는 정신적인 작용이다. 외부로부터 감각기관을 통해서 경험하는 자극(감각 정보)이 두뇌에 전달되면 신피질에서 그것은 전기-화학 신호로 전환되고 뉴런과 시냅스가 연결된 조합이 생성된다. 신피질에는 그렇게 해서 생성된 수많은 조합이 존재하며, 그것이 기억(memory)이다

가장 추상적인 수준에서 기억은 공간적시간적 패턴(spatial-temporal patterns)인데, 그것은 입력되는 감각 정보의 유형과 관계없이 항상 범주(category)와 순서(sequence)라는 요소로만 구성되어 있기 때문에 Hawkins는 그것을 불변표상(invariant representations)이라고 부른다(아래 그림 참조).

그에 의하면인간 두뇌는 ‘논리 기계라기보다는 ‘기억 기계이다두뇌는 끊임없이 분류하여 기억하고기억을 복원해서 예측/확인하고비교/판단한다신피질은 여섯 층(layers)의 구조를 지니고 있는데자주 반복적으로 입력되는 정보의 불변표상은 낮은 층으로 내려보내 외부 자극에 신속하게 반응하게 하고낯선 정보들은 상부 층으로 보내서 불변표상을 생성하며최 상위 층(Layer I)에서도 파악되지 않은 정보는 해마(hippocampus)로 보내 기억한다. 층2나 층3도 부분적으로 그렇지만 층1은 여러 영역으로부터 받은 정보를 결합(association)하는 역할을 수행한다(아래 그림 참조). 

Hawkins는, 신피질이 계층적 구조를 지닌 이유는 바로 현실세계가 그러한 계층적 구조를 지니고 있기 때문이라고 지적한다. 예컨대 문어(written language)를 보면, 글자가 모여서 음절이 되고, 음절이 모여 단어가 되며, 단어가 모여서 문장이 된다. 또한 세상의 모든 객체(object)는 작은 객체들의 집합이며, 대부분의 객체들은 보다 큰 객체들의 일부이다. 신피질의 계층 구조는 이러한 현실세계의 계층구조에 조응하고 있다는 것이다.

일단 기억들이 생성된 후에는, 감각 기관을 통해서 자극이 전달되면 그에 관련된다고 추정되는 불변표상이 호출되고, 그것을 이용해서 시간적으로 뒤따라 오는 정보를 예상한다(아래 그림 참조). 만약 새로 들어온 감각 정보가 불변표상을 가지고 예측한 모습과 일치하면 기존 뉴런시냅스의 조합이 유지되고, 만약 불일치하는 부분이 나타나면 그에 대해 새로운 판단이 내릴 수 있도록 조치한다. 만약 그러한 불일치가 반복되면 기존의 뉴런시냅스 조합이 갱신된다. 그러한 분류, 패턴 생성, 기억, 예측, 강화, 갱신 등의 과정이 바로 학습이며, 과거(기억)에 대한 유추를 통하여 미래를 예측하는 두뇌의 능력이 바로 지능이다.

진화적으로 보면, 신피질이 확대되고, 언어를 사용함으로써 인간의 지능은 다른 포유동물에 비해 획기적으로 향상되었으며, 고도의 상상, 창조, 논리적 추론 등이 가능해졌다. Hawkins에 의하면, 그럼에도 불구하고 인간 지능은 기억-예측 모형을 벗어나지 않는다. 

Image result for memory prediction model hawkins

Hawkins는 단순히 두뇌-지능을 연구만 할 뿐 아니라 직접 Numenta 라는 기업을 창업해서 연구와 기술 개발을 결합하고 있으며, 실제로 HTM (Hierarchical Temporal Memory)이라는 테크놀로지를 개발하였다(위 그림 참조). 그는 HTM을 이용하여 아직 상업화하지는 않았지만 여러 분야의 이상 탐지(anomaly detection)에 활용될 수 있는 애플리케이션들을 내놓고 있다.  (윤영민, 2018-02-25)