지능이라는 이름의 게임(5): 두뇌의 구조

필자가 지능과 두뇌에 대해 관심을 갖는 것은 지금 그것들을 중심으로 경천동지할 변화가 일어날 조짐을 보이고 있기 때문이다. 오래 전 두뇌에 대뇌와 대뇌 신피질(cerebral neocortex)을 지닌 생물체가 출현하면서 생물체의 지능이 획기적으로 향상되었듯이, 앞으로 일어날 인간 두뇌의 급진적 변화–이미 그 변화가 시작되었다–로 인해 지금까지와는 완전히 다른 지능을 지닌 존재가 출현할 것으로 예상된다. 머신 러닝과 A.I.의 발전에서 그 조짐이 확인된다.

더 이상 지능과 두뇌를 신경과학자, 심리학자, 생물학자, 컴퓨터 과학자, 혹은 인류학자들의 손에만 맡겨둘 수 없다는 판단이다. 이미 꽤 오래 전부터 참여를 시작한 경영학자나 경제학자는 물론이고, 정치학자, 사회학자, 미래학자, 법학자, 또는 행정학자들도 지능과 두뇌에 관한 담론에 적극 참여해야 한다. 지능과 두뇌에 관한 오늘날의 발전은 100여 전 우생학과는 비교할 수 없는 규모와 방식으로–훨씬 근본적이며 광범위하게–개인과 사회에 영향을 미칠 것이기 때문이다.

지능의 관점에서 두뇌를 잠시 살펴보자. 우선 두뇌를 전체적으로 놓고 보면, 지능과 관련된 부위는 뇌의 최상부–대뇌(crerebrum)–를 약 90% 정도 덮고 있는 신피질(neocotrex)–‘새겉질’이라고도 불림–로 알려져 있다. 신피질은 식탁용 냅킨 정도의 크기, 그리고 명함 여섯장을 합쳐놓은 두께(약 2mm)이며, 약 300억개(1천억개라고 추정하는 학자도 있음)의 신경세포(nurons)로 이루어져 있다(Hawkins, 2005).

인간의 뇌는 놀랍도록 조밀하게 연결된 신경세포 네트워크일 뿐 아니라 유연성이 큰 신경세포 집합이기 때문에 뇌의 특정 부위가 특정 기능을 수행한다고 단정하는 것은 원칙적으로 바람직하게 생각되지 않는다. 이 원칙은 여기서 논의하는 지능에도 해당된다.

예컨대 지능의 구현에서 중요한 기억(memory) 기능은 신피질 뿐 아니라 해마(hippocampus)에 의해서도 수행한다(Hawkins(2005)는, 해마가 신피질에서 해석되지 못한, 새로운 자극을 저장하는 것으로 추정한다). 이대열(2017)은, 해마에는 서술적 기억(declarative memory: 다른 사람에게 언어를 이용해서 설명해 줄 수 있는 기억)이 형성되고, 절차적 기억(procedural memory: 동작 순서에 대한 기억)은 기저핵(basal ganglia)에 형성되는 것으로 추정한다. 시상(thalamus)의 경우도 마찬가지이다. Eagleman(2015)에 의하면, 시상에는 수많은 시각  피질(visual cortex)이 연결되어 있으며, 외부에서 들어온 시각 정보와 대뇌에 있는 내부 모형(internal model)을 비교하여 발견되는 차이를 대뇌에 알리는 기능을 담당한다고 지적한다.


Related image

신피질의 지능 작용–분류, 기억, 예측, 비교, 이해, 상상 등–은 신경세포 네트워크(nueral networks)를 통해서 이루어진다. 신경세포(nurons)는 전기-화학적(electro-chemical) 반응을 통해서 정보를 전달, 저장, 복원, 혹은 업데이트한다.  자극을 받으면 신경세포는 시냅스(synapse)를 통해서 다른 신경세포들과 연결되어 하나의 네트워크 구조를 형성한다.  신경세포 하나가 할 수 있는 거의 없다.

신경세포는 세포체(soma)와 세포핵(nucleus), 세포체에 붙은 나뭇가지 모양의 수상돌기(dendrite), 축삭(axon)이라는 신경 섬유, 그리고 축삭종말(axon terminal)로 이루어져 있다. 이 중 세포핵은 다른 세포의 세포핵처럼 RNA의 생성과 같은 세포의 생명유지 기능을 담당한다. 수상돌기는 신경세포의 일종의 정보 접수 창구이다. 수상돌기는 이웃 신경세포로부터 화학적 신호를 받거나 감각기관으로부터 물리적 자극을 받으면, 세포체와 함께 활동 전압(action potential)을 생성한다. 이 전기적 신호는 축삭을 통해서 축삭 종말에 전달된다. 축삭 종말은 신경전달물질(neurotransmitter)를 분비해서 그 전기적 신호를 화학적 신호로 바꾼다. 그 신경전달물질은 축삭종말과 인접 신경세포의  수상돌기 사이에 존재하는 시냅스를 통해서 전달된다. 이 시냅스 연결이 강화되거나 약화되면서 하나의 신경세포 네트워크 서의 새로운 기억이 형성되고, 기존의 기억이 재구성되거나 소실된다.

Related image

Image result for 시냅스

Hawkins에 의하면, 대뇌 신피질의 각 영역(region)은 층(layer)과 기둥(column)으로 이루어져 있다. 대부분의 신경세포들은 여섯 개의 층(layers)으로 이루어져 있으며, 각 계층은 서로 다른 역할을 맡고 있다(아래 그림 참조). 계층 1의 경우 자체의 신경세포는 소수에 불과하고 하위 계층의 신경세포의 수상돌기들로 채워져 있다. 이는 계층 1이 여러가지 정보를 결합하는 기능을 하고 있음을 추정하게 한다. 계층 4는 시상(thalamus)으로부터 정보를 받아서 다른 계층들이나 기둥들에게 전달하는 역할을 하고, 계층 6는 뇌간으로부터 정보를 받거나 시상으로 정보를 내보낸다. 계층2은 신피질의 다른 영역으로부터 정보를 받으며, 계층3은 외부로부터 정보를 받거나 내보내고, 계층5는 동작 운동(motor movements)을 일으키는데 관여하는 것으로 알려졌다. 기둥들이 하는 역할에 관해서는 잘 밝혀져 있지 않다. 다만 Hawkins는, 기둥 구조가 인식 대상의 정보가 여러 계층 사이를 효율적으로 전달되게 하며, 특히 여러 개의 기둥들이 병렬로 작동하여 대상에 대한 신속한 인식과 판단을 가능하게 해주지 않나 추정한다(Hawkins, Ahmad, and Cui, 2017).

Related image

Image result for neocortex column and layers

 

두뇌 구조에 관한 소개는 이 정도로 마치고 이제 다음 네 편의 저술에 제시된 해석을 따라 가면서 지능과 두뇌의 관계에 대해 보다 깊이 생각해 보겠다.

  1. <지능의 탄생>(이대열. 2017): 진화생물학 및 행동심리학적 접근
  2. <On Intelligence>(Hawkins, 2005): 지능 기계(intelligence machine) 설계자의 관점
  3. <The Brain>(Eaglman, 2015): 인지 신경과학(cognitive neuroscience)(심리학+신경과학)적 접근
  4. “Imitating the Brain with Neurocomputer”(Huang, 2017): 신경컴퓨터(neurocomputer) 연구자의 관점

<참고 문헌>

이대열. 2017. <지능의 탄생>. 바다출판사.

Eagleman, David. 2015. The Brain. Pantheon Books.

Hawkins, Jeff. 2005. On Intelligence. Times Books.

Hawkins, Jeff, Subutai Ahmad, and Yuwie Cui. 2017. “Why Does the Neocortex Have Columns, A Theory of Learning the Structure of the World.”

 https://www.biorxiv.org/content/biorxiv/early/2017/09/28/162263.full.pdf

(윤영민, 2018-02-24)

지능이라는 이름의 게임(4): 구별-분류-예측-판단-행동

지능(intelligence)을 환경으로부터의 도전 속에서 개체(entity)가 살아남는 능력이라고 규정한다면, 지능이 작동하는 과정은 아래 그림으로 표시될 수 있을 것이다.

개체는 환경(혹은 대상)을 인지하고(인지, cognition) 거기에 반응한다(행동, action). 예컨대 호랑이(대상)를 발견한(인지) 사슴(개체)은 전력을 다해 달아날 것(행동)이다.

개체는 환경(혹은 환경의 변화)에서 발생되는 신호(signals)를 감지하고 그것을 분류하고 판단하며, 거기에 대해 특정한 반응(행동)을 한다. 개체의 두뇌(혹은 기능적으로 두뇌의 역할을 하는 부분)는  감지된 대상이 위험한가 안전한가 혹은 적군인가 아군인가를 판별하고 그에 따라서 어떻게 반응할 것인지를 결정한다. 여기까지를 인지 과정이라고 할 수 있다.

앞 글에서 논의했듯이 20세기에는 인지 과정 혹은 인지 과정의 일부만을 지능으로 간주하는 것이 대세였지만, 결과주의적 경향이 강한 21세기에는 행동까지를 지능에  포함시키고 있다. 지능은 환경 혹은 환경의 변화 속에서 살아남는 능력을 가리키기 때문이다.

그런데 인지 과정과 행동 과정을 좌우하는 요인들이 다르다. 인지 과정에는 정보, 지식, 경험 등의 기억(memory), 기억의 선별적 복원(retrieval), 조합, 구분, 비교, 그리고 선택에 관련된 요인들이 관여된다. 행동 과정에는 공감, 의지, 용기, 반응 속도, 에너지, 선택과 집중, 결단 등이 관여될 것이다. 지능을 결정하는 데 있어 인지 능력이 단연 중요하기는 하지만 행동 능력의 중요성도 작지 않다. 예컨대 설령 사슴이 호랑이를 발견했다고 하더라도 공포에 사로 잡혀 움직이지 못한다면 그 사슴은 살아남지 못할 것이다.

여기서는 행동 능력에 대한 논의는 뒤로 미루고 먼저 인지 능력에 관해 살펴보자.  최근 심리학, 생물학, 그리고 신경과학이 크게 발전하였지만 아직 인지과정에 대한 이해가 높은 수준이라고 말하기는 곤란하다. 인간이나 동물의 인지가 두뇌에서 어떻게 일어나는지가 완전히 밝혀지려면 한참 더 많은 학술적 진전이 있어야 할 것이다. 아직 어떤 학문도 뛰어난 작곡, 페인팅, 작시, 작문, 학문적 추론 혹은 초인적인 상상이나 예견이 어떻게 가능한가를 설명하지 못한다. 그러나 인지 과정에 관해 현재까지 밝혀진 것만 해도 대단하기 때문에 그 정도 수준에서라도 논의할만한 가치가 충분하다.

옥스포드 영어사전에 따르면, 인지(cognition)란 사고(), 경험, 감각을 통해서 지식과 이해를 획득하는 정신적 과정을 총체적으로 가리키는 전문 용어이다. 그런데 지식과 이해를 얻는다는 말이 무슨 의미일까?

Image result for cognition

 

인지를 더 이상 해체할 수 없을 때까지 분해하면 마지막에 도달하는 작용은 아마도 구별(혹은 식별, distinguish)일 것이다. 구별이란 차이를 알아차리는 것이다. 차이(difference)를 알아차리려면 어떤 기준(criterion)을 가지고 대상들을 비교해 판단해야 한다. 대상들을 구별하면 그것들은 구분(혹은 분류, classify)된다. 분류(구별과 혼동되기 쉬운 구분이라는 말 대신 이 용어를 쓰겠다)란 어떤 기준을 가지고 대상들을 범주화하는 정신 작용이다. 대체로 범주(categories)의 수는 대상(objects)의 수보다 작다. 덕분에 우리는 대상들을 효율적으로 인식할 수 있다.

우리는 끊임없이 세상을 구별하고 분류한다. 그것은 생존을 위해서 필수적이다. 우리는 생물과 무생물, 동물과 식물, 여자와 남자, 덥다와 춥다, 뜨겁다와 차다, 적과 동료, 낮과 밤, 봄/여름/가을/겨울, 아름답다와 추하다, 좋아하는 것과 싫어하는 것, 죽은 것과 산 것, 선과 악, 진실과 거짓 등등, 구체적일 수도 있고 추상적일 수도 있는 대상들을 구별하여 분류한다. 구별-분류가 중단되는 순간 우리는 생존을 위협받게 될 것이다.

인지 능력이 발달한다는 말은 근본적으로 분류하는 능력이 강력해짐을 의미한다고 해도 과언이 아니다. 곤충보다는 포유동물이, 포유동물 중에서도 개나 고양이보다는 사람이, 아이보다는 어른이,  교육을 받지 않은 사람보다는 교육을 많이 받은 사람이 대상을 더욱 정교하게 혹은 더욱 복잡하게 분류할 수 있다.

Related image

인간은 언어를 사용하기 때문에 분류된 대상을 추상적인 개념(concept)으로 규정할 수 있다. 개념화(conceptualization)란 어떤 대상이 다른 존재들과 구분되어 인식될 수 있도록 일종의 이름을 부여하는 정신 활동이다.

정신적으로 성장한다는 것 혹은 교육을 받는다는 것은 무엇보다 분류 능력과 개념 작용(conception)의 향상을 의미한다.  지적으로 성장하면 이전에는 보지 못했던 대상이 눈에 들어오기도 하고 대상들 사이의 미세한 차이를 감지할 수 있으며, 나아가 그것을 정확하고 정교하게 표현할 수 있게 된다.

학문의 발달도 분류와 함께한다. 흔히 분류체계(taxanomy)와 함께 학문이 시작하고, 학문이 발달하면 분류체계도 정교해진다. 식물의 분류, 동물의 분류, 질병의 분류, 병원균의 분류, 집단의 분류, 사회의 분류, 인종의 분류, 직업의 분류, 문헌의 분류 등등 분류에 관해서는 끝을 찾기 어려울 정도로 긴 목록이 존재한다.

Journal of Classification

그런데, 분류는 어떻게 가능한 것일까? 그리고 왜 분류를 하는 것일까?

아마도 분류를 가능하게 해주는 것은 무엇보다도 기억(memory)일 것이다. 우리의 두뇌에는 살아오면서 학습된 개념, 이미지, 경험, 이론 등이 내장되어 있다. 그리고 그 때 그 때 일부 기억들이 복원(retrieve)되면서 대상들을 비교하고 판단하는 기준이 된다. 만약 우리가 기억할 수 없고, 혹은 기억을 적절히 복원할 수 없다면, 우리는 인식을 위한 비교 대상, 판단 기준을 가질 수 없고, 따라서 인지가 불가능하게 된다.

분류 자체가 목적일 수는 없을 것이다. 분류는 궁극적으로는 당연히 유전자의 자기복제, 즉, 생존을 위한 것이겠지만, 좀 더 직접적으로 우리는 무엇을 위해서 끊임없이 분류하는 것일까? 분류가 무엇을 가능하게 하여 생존에 기여하는 것일까?

분류는 예측(predictions), 판단(judgement),  또는 행동(action)을 위한 것이 아닐까 생각된다. 분류와 예측은 동어반복일 수도 있다. 분류는 예측의 한 형태이기도 하고, 예측은 분류의 한 형태일 수도 있기 때문이다. 일단 두 가지를 별개의 정신 과정으로 본다면, 분류는 예측을 가능하게 해주는 요건이라고 말할 수 있다. 예컨대 앞에 서 있는 사람이 위험 인물로 분류되면, 그가 육체적으로 공격하거나 속임수를 쓰지 않을까 우려된다(예측). 만약 그럴 것이라고 판단되면(판단) 그 사람을 피하거나 마음의 준비를 단단히 할 것이다(행동). 혹은 지금 걷고 있는 길이 막다른 골목이라고 간주되면(분류), 더 이상 갈 수 없게 될 것이라 예상하고(예측), 되돌아가기로 결정하며(판단), 실제로 발길을 돌릴 것이다(행동).

인지를 담당한 신체 부위는 두뇌(brain)이다. 인간의 신체 중 가장 중요한 부위는 두뇌이다. 법적으로도 두뇌가 사람의 정체(성)을 결정짓는다고 본다. 어떤 사람이 뇌사 판정이 나야 사망으로 간주된다. 최근에 두뇌 이식이 시도되고 있는데, 정확히 말하자면 두뇌 이식이 아니라 신체 이식이다. 두뇌에 다른 사람의 신체를 갖다 붙이는 것이다.

그런데 두뇌에서 인지 작용은 어떻게 진행되는 것일까?(윤영민, 2018-02-13).

지능이라는 이름의 게임(3): 새 패러다임

지난 20여년 사이에 집단지성(collective intelligence)은 수 억명의 인터넷 사용자들에게 일상의 일부가 되었고, 아주 최근까지도 겨우 영화적 상상 속에서나 존재감을 보여주던 인공지능(artificial intelligence, A.I.)은 단기간에 대중을 기대와 우려의 혼돈 속에 밀어넣고 있다. (집단지성보다는 집단지능이 collective intelligence의 더 적합한 역어이다.) 예컨대 아마존 닷컴, 옥션, G-마켓 등 온라인 상점에서 고객은 별점 정보와 댓글을 확인하며 판매자의 신뢰와 상품의 품질에 대해 판단하고, 거래가 끝나면 별점을 매기고 댓글을 올려서 판매자와 상품을 평가한다. 아마도 전세계적에서 매일 수천 만  혹은 수억 건의 온라인 거래가 그런 방식으로 이루어지고 있을 것이다. 그것은 다름 아닌 집단지능이 일상화된 예이다. SNS의 맞춤형 친구 추천, 검색 사이트의 개인화 서비스. 인터넷 쇼핑몰이나 인터넷 서점의 맞춤형 상품 추천 , 스마트폰의 음성 어시스턴트, A.I. 스피커의 음성 제어, 자율주행 자동차, 자동화 공장, 드론 등 인공지능의 목록은 이미 끝을 알 수 없을 정도이다.

Image result for ai examples in everyday life

이러한 현상을 지능(intelligence)의 관점에서 파악하려다 보면, 우리는 중대한 결정을 내려야 한다. 지능에 대한 20세기적 패러다임, 즉, IQ 패러다임을 포기하던지 아니면, 그러한 현상을 지능이 아니라 다른 개념으로 표현해야 한다. 지능 개념의 현실 부적합 정도가 심각하다는 의미이다. 아무 일도 없었던 것처럼 지능이라는 용어를 그대로 쓸 수는 없다. 필자는 지능에 관해 새로운 패러다임이 요구된다고 본다. 집단 지능이나 인공지능을 굳이 지능이 아닌 다른 용어로 표현할 필요가 없다는 말이다.

1) 그렇다면 지능을 어떻게 규정해야 할까? 앞 글에서 지적한 IQ 패러다임의 다섯 가지 특성을 재고하면서 논의해 보자. 지능은 정신적인 능력(mental capability)인가? 지능이 추론, 문제 풀이, 추상적 사고, 이해, 학습, 기억 등을 포괄하는 정신적 능력인가? 정신적인 능력으로만 지능을 정의하면 우리는 두 가지 문제에 봉착하게 된다. 첫째, 지능이 어디서 나왔는지, 그리고 왜 출현하였는지에 대해 설명할 수 없게 된다. 둘째, 정신(mind)이 없으면 지능이 없다는 함정에 빠지게 된다. 정신은 두뇌(brain)를 가진 존재만이 갖게 되는데, 두뇌가 없으면 지능이 없는 것으로 간주하게 된다. 예컨대 두뇌가 없는 식물이나 사물은 지능을 가질 수 없게 된다.

Image result for 지능의 탄생

지능에 대한 좀 포괄적인 정의를 보자. 신경과학자 이대열(2017: 26)은, 지능을 “다양한 환경에서 복잡한 의사결정의 문제를 해결하는 능력”이라고 정의한다. 환경에서 생존과 번영–그것을 이 교수는 유전자의 자기복제라고 한다–에 관련된 문제를 발견하고 그것을 해결하는 능력이라는 의미이다. 행동과 결과에 촛점을 맞춘 이 정의는 앞의 두 가지 문제를 피해갈 수 있게 해준다. 지능을 진화론적, 발생론적으로 접근할 수 있고 지능을 정신 혹은 두뇌와 분리해서 생각할 수 있다는 말이다.

2)  지능은 개인적인 능력인가? 만약 지능이 정신 능력이 아니라 생존을 위한 문제 해결 능력이라면, 더 이상 지능은 개인적인 속성으로만 간주될 수는 없다. 환경이나 주위로부터 도전은 개인적인 차원을 넘어서 집단적으로 접근해야 더 잘 대처할 수도 있기 때문이다. 적지 않은 생물학자들이 지적하듯이 개체들 사이의 경쟁이 아니라 개체들 간의 협력(collaboration)이 유전자의 자기복제, 즉, 생존과 번영에 효과적으로 도움이 될 수 있다(크로포트킨, 2005; 벤클러 2015;  이대열, 2017).

Image result for 초협력자

1990년대 인터넷이 대중적으로 보급되면서 인터넷을 통해서 나타나는 새로운 유형의 지능 현상에 주목하는 사회과학 저술이 등장하였다. 그것은 집단지능(collective intelligence: 레비, 1994/2002; 셔키, 2008; 리드비터, 2009)이라고 불리기도 하고, 군중의 지혜(wisdom of crowds: 서로위키, 2004)라고 불리기도 했으며, 군집지능(swarm intelligence: Gloor, 2006)이라고 불리기도 했지만, 모두 동일한 방향을 가리키고 있었다. 그것은, 인터넷 상에서는 중앙의 조정 없이도 많은 사람들이 생존에 관련해서 높은 수준의 지능, 즉, 상황 대처 능력, 문제해결 능력을 가질 수 있다는 사실이었다. 가장 최근에 등장한 블록체인(blockchain)도 집단지능의 일종이다. 그것은 P2P 기술을 이용하여 사람들의 협력을 유도하고 그것을 기반으로 교환(거래)에 요구되는 신뢰와 인증 문제를 해결하고 있다(Norman, 2017).

3) 지능은 선천적인 능력인가? 집단지능을 지능 혹은 지능 현상으로 인정하면, 지능이 선천적인 것이냐 양육될 수 있는 것이냐는 하는 논의는 무의미해진다.  집단 구성원의 상호작용, 특히, 협력을 통해서 창출되는 지능은 정의상 천부적일 수 없기 때문이다.

더구나 아직 충분히 실현되었다고는 말할 수 없지만, 화학적, 물리적 혹은 의학적 처치로 지능을 일시적으로 강화시키거나 무생물에게마저 인위적으로  지능을 부여할 수 있는 시대가 된다면, 지능은 더 이상 자연적인라고도, 양육을 통해서 얻어질 수 있는 것이라고도 말할 수 없는 하나의 기능(function)이 된다. 이미 신경 향상(neuro-enhansment) 기술의 초기 버전이라고 할 수 있는 모다피닐(Modafinil)은 기면증 치료제로 개발되었음에도, 대학생, 컨설턴트,  심지어 군인들이 집중력을 높이기 위한 두뇌 강화제로 사용하고 있으며(Battleday et. al., 2015), 인공지능-로봇은 안내, 문서처리, 회계 등과 같은 정부 업무를 수행하기 시작했다(Baart, 2016).

Related image

4) 지능은 IQ 테스트와 같이 동일한 척도로 측정되고 비교될 수 있을까? 알파고처럼 바둑을 두는 A.I., 전자제품을 자율적으로 제어하는 A.I., 전투를 수행하는 A.I. 로봇, 화성을 탐험하는 A.I.로봇, 자율주행차, 산업스파이용 A.I. 드론, IBM Watson 같은 암진단 전용 A.I.,  그리고 가사용 A.I. 로봇처럼 특정한 분야에서 특정한 기능을 수행하는 A.I.가 빠르게 증가하고 있는데, 그러한 A.I.들의 지능 수준이 어떻게 측정되고 상호 비교될 것인가. 또 서로 다른 분야, 서로 다른 기능을 수행하는 A.I.의 지능이 설령 비교될 수 있다고 하더라도 그것이 무슨 의미를 갖겠는가.

Image result for alphago zero vs human

5) 지구상에서 인간이 가장 높은 지능을 지니고 있을까?  인간은 생물 중 가장 복잡한 문제들에 관해 의사결정을 할 수 있는 존재이다. 이대열 교수(2017)는, A.I.가 스스로 자신을 복제하고, 그 복제를 위해 두뇌를 사용할 수 없는 한 A.I.의 지능이 높은 수준이라고 말할 수 없다고 주장한다. 그는 먼훗날 A.I.가 그렇게까지 진화할 수 있을지도 모르겠지만 가까운 시일 내에 그럴 가능성은 없다고 본다. 그리고 아무리 바둑을 잘 두고 암 진단을 잘 한다고 할 지라도 자율성이 없는 A.I.는 결코 인간의 지능을 넘어설 수 없다는 말이다.

Image result for intelligence genes

그러나 위에서도 지적했지만, 누가 누구보다 더 지능이 높다는 판단이 무슨 의미가 있을까? 지구상에서 인간이 가장 복잡하고 발전된 문명을 이룩했지만, 만약 바로 그 문명 때문에 핵전쟁이 일어나고 지구가 죽음의 행성으로 변해버린다면 과연 인간은 아메바나 식물보다 더 지능이 높다고 말할 수 있을까? 그렇게 되면 인간은 유전자의 자기 복제에 완전히 실패한 것이 될텐데.

이제 지능이라는 개념을 20세기적 IQ 패러다임에서 풀어주자. 그럴 때가 되었다. (윤영민, 2017-02-05).

참고문헌

레비, 피에르(권수경 역). 1994/2002. <집단지성: 사이버공간의 인류학을 위하여>. 문학과지성사.

리드비터, 찰스(이순희 역). 2009. <집단지성이란 무엇인가>. 21세기북스.

벤클러, 요차이(이현주 역). 2013. <펭귄과 리바이어던>. 반비 출판.

서로위키, 제임스(홍대운/이창근 역). 2004. <대중의 지혜: 시장과 사회를 움직이는 힘>. 랜덤하우스.

서키, 클레이(송연석 역). 2008. <끌리고쏠리고들끓다>. 갤리온.

이대열. 2017. <지능의 탄생>. 바다출판사.

크로포트킨, P. A.(김영범 역). <만물은 서로 돕는다>. 르네상스.

Baart, Ruben. 2016/09/07. “Robots Taking Government Jobs”. NNN. 

Gloor, Peter. 2006. Swarm Creativity. Oxford University Press.

Norman, Alan T. 2017. Block Chain Explained. Alan T. Norman. Kindle book.

지능이라는 이름의 게임(2): IQ 패러다임

오늘날의 관점에서 보면 참으로 어처구니 없게 느껴지지만 20세기초 사회적으로 가장 영향력 있는 학문 중 하나는 우생학(eugenics)이었다.  우생학이란 좋은 형질의 유전은 장려하고 나쁜 형질의 유전은 억제해서 인간의 유전체를 개선하겠다는 학문이다.

우생학은 인종주의와 결합되어 독일에서는 히틀러 정부의 유태인 학살, 미국에서는 반인종적 이민법, 일본에서는 조선인 학살과 식민 지배의 정당화를 낳았으며, 일부 국가들에서는 범죄자나 정신박약자는 물론이고 사회적 약자들을 없애는 거세법(단종법)과 같은  야만적, 범죄적, 반인도주의적 정책과 제도를 낳기도 했다.

Image result for eugenics

그런데 흥미있게도 우생학의 시조로 간주되는 프랜시스 갈톤(Francis Galton)–그는 진화론의 창시자인 찰스 다윈(Charles Darwin)의 사촌이다–은 현대 지능 연구의 창시자 중 1인이기도 하다. 그는 사람들이 지닌 지적 능력의 차이에 관심이 많았고, 지능을 측정하는 통계적 방법을 고안했다(Ritchie, 2015). 그에게 지능은 인간의 정신적 능력(mental capability)을 의미했으며, 지능은 기본적으로 유전적이나 양육에 의해서 일부 영향을 받을 수도 있다고 생각했다. 그는 지능과 관련해서 오늘날까지도 사용되는 “자연과 양육(nature and nulture)”이라는  유명한 표현을 남기기도 했다.

갈톤의 연구를 이어받아 20세기 전반 지능에 대한 연구를 끌어간 것은 영국, 독일, 프랑스, 미국의 심리학자들이었다. 그 중 미국 스탠포드 교육대학원의 심리학자 루이스 터먼(Lewis Terman)은 IQ(Intelligence Quotient)라는 용어를 고안했고 IQ의 측정 도구의 개발과 향상에 앞서 갔다. 흥미있게도 그는 심리학자이면서 갈톤과 마찬가지로 저명한 우생학자였다.

Image result for intelligence quotient Lewis Terman

당시 IQ를 연구하던 심리학자들에게 지능이란 추론, 문제 풀이, 추상적 사고, 이해, 학습, 기억 등을 포괄하는 정신적 능력을 의미했으며, 그것은 상당부분 선천적으로, 다시말해 유전적으로 결정되는 속성이었다. 그들은, 특히, 뛰어난 정신적 능력, 즉, 천재(天才)는 문자 그대로, 하늘이 주는 재주, 타고나는 능력이라고 믿었다.

IQ를 중심으로 하는 지능에 대한 심리학자들의 연구는 20세기 내내 지능에 대한 인류의 상상을 지배했다. 학자들에 따라서 지능이 다소 다르게 정의되고, 다르게 분류되거나 유형화되었지만 다음  다섯 가지 점에 있어서는 별로 다르지 않았다: 1) 지능은 정신적인 능력이다, 2) 지능은 개인적인 능력이다, 3) 지능은 상당부분 선천적이다, 4) 지능은 IQ 테스트와 같이 동일한 척도로 측정되고 비교될 수 있다, 5) 지구상에서 인간이 가장 높은 지능을 지니고 있다.

그런데 과연 지능은 IQ 패러다임 내에서 밖에 이해될 수 없는 것일까? 지능의 다섯 가지 특성은 21세기에도 여전히 유효한 것일까? 보다 최근의 연구와 현상을 가지고 그 특성들을 음미해 보자. (2018-02-02, 윤영민)

참고 문헌: Ritchie, Stuart. 2015. Intelligence: All That Matters. London: John Murray Learning.

Image result for Intelligence: All That Matters

지능이라는 이름의 게임(1): 배경

개인이나 집단의 생존과 번영을 결정하는 가장 중요한 요소는 무엇일까?

경제학에서 생산의 3요소로 토지, 노동, 자본을 드는 것을 보면 적어도 현대경제학의 토대가 마련된 18-19세기에는 그 세 가지가 핵심적인 요소가 아니었을까 생각된다. 자원이 넉넉하고(자연 자원), 열심히 일하며(노동), 돈이 충분히 투입되면(자본) 개인이든 기업이든 풍부한  가치를 생산할 수 있다는 인식이 널리 퍼져 있었던 추측된다. 물론 그러한 인식은 남의 자원을 강탈하거나 남의 노동을 착취하고 돈이 돈을 낳게 하면서 생존과 번영을 추구하는 모습으로 실현되기도 했다.

Image result for three factors of economy labor, land, capital

19세기말에서 20세기초에 중화학공업, 대기업, 대량생산 체제가 출현하고,  20세기 전반에는 1, 2차 세계대전을 겪으면서 과학과 기술(science and technology), 경영(management), 그리고 국가(state)가 생존과 번영을 좌우하는 요소로 추가되었다.  비행기, 잠수함, 원자폭탄 등과 같은 첨단 병기가 전쟁의 승패를 좌우하였으며, 교통통신의 발달로 시장이 전국화되고 국경을 넘어가면서 기업의 규모가 팽창하고 대량 생산, 대량 유통, 대량 판매가 실현되었으며, 덕분에 기업 경영의 중요성이 부상하고 경영학이 하나의 새로운 학문 분야가 되기도 했다.  또한 각 민족들이 앞다투어 독립적인 국가를 세우면서 다수의 민족-국가(nation-state)가 등장하고, 독일이나 일본 같은 소위 후발국들이 국가 주도의 경제발전에 성공하면서  민족-국가가 생존과 번영의 새로운 단위, 새로운 주체로 자리잡았다.

Related image

1950년대 이후 정보이론의 출현과 함께 계산과 제어 기술이 급속히 발전하였으며, 1960년대 후반에는 그 기술이 통신공학과 접합되면서 네트워크 기술이 추가되었다. 사실 그것은  국가간 첨단무기 경쟁과 민족국가 발전의 부산물이라고 말할 수 있다. 2차대전이 냉전으로 이어지면서 강대국 사이에는 미사일과 핵무기, 우주 탐험, 정보전 등을 둘러싸고 치열한 경쟁이 벌어졌으며, 경제, 금융, 교육, 연구, 복지, 주택 등 사회의 전 분야에 걸쳐 국가의 역할이 점차 확대되면서 정부의 정책 수립과 업무 수행은 인구 조사, 주택조사, 산업체 조사, 시장 조사, 여론 조사 등 온갖 유형의 대규모 조사를 토대로 이루어졌고, 그것은 계산, 제어, 네트워크, 암호 기술 등 정보통신기술의 발전을 수반하였다.

Related image

이차대전 이후 과학기술은 기업들 사이의 경쟁에서 뿐 아니라  국가간 경쟁에서도 가장 첨예한 전선을 형성하였다. 주요 선진국들에서는 기업은 물론이고 정부도 RND 투자에 팔을 걷어부쳤다. 이는 20세기 후반 정보기술(information technology)을 필두로 생명공학(bio-technology), 신경과학(neuro-sciecne) 등의 눈부신 발전을 가져왔다.

이러한 변화를 목격하면서 학자와 사회비평가들 사이에서는 가치의 원천에 대한 다양한 이론과 해석이 등장하였다. 1960년대 이후에 새로운 가치가 정보(information) 혹은 지식(knowledge)에서 나온다는 주장이 힘을 얻었으며, 데이터베이스, 인터넷, 스마트폰이 발달한 1990년대 이후에는 네트워크(network) 이론이 주목을 받았고, 2010년대에는 데이터(data)가 새로운 시대의 석유라는 주장이 대두하였다.

Image result for artificial intelligence

그리고 가장 최근에는 집단지성(collective intelligence)과 인공지능(Artificial Intelligence)에 대한 연구와 산업이 폭발적으로 성장하면서 지능(intelligence)이 가치의 원천으로 주목받고 있다.  특히 인공지능은 정보서비스 산업은 물론이고 로봇 산업을 위시한 각종 제조업에 도입되면서 인류의 미래를 규정할 테크놀로지로 사람들의 기대와 우려를 동시에 받고 있다.

이러한 맥락을 염두에 두고 이제 지능에 대해 생각해 보자. 지능의 본질은 무엇일까? 신경과학, 진화생물학, 컴퓨터 과학, 화학, 물리학등의 발달에 기반한 집단지성, 인간 강화 기술, 그리고 인공지능을 어떻게 이해해야할까? 지능은 과연 과학과 산업의 새로운 프런티어가 될 것인가? 앞으로 지능은 과연 어떤 모습으로 진화하게 될까? 그리고 지능의 진화는 인간사회를 어떻게 바꾸어 놓을까? 무척 무겁고 어려운 질문들이지만 가볍게 산책하는 마음으로 탐색해 보자.  (2018-02-01, 윤영민)

사회통계(11): 확률분포

[문제 1] 재벌구조조정에 대한 한 신문사의 여론조사 결과 우리 국민들중 80%는 강도있는 재벌구조조정에 찬성, 그리고 20%는 반대하는 것으로 나타났다고 하자. 만일 임의로 5명이 선택되어졌을 때 3명이 반대할 확률은 얼마인가?(김은정, 2017: 52)(이항분포)

[문제 2] 어떤 응시자가 자동차 운전시험에 합격할 확률은 1/2이라 하고, 매 시험마다 일정하다고 할 때, 다섯 번째 비로소 합격할 확률은 얼마인가? 또, 처음으로 합격하는 횟수의 기대값은?(김은정, 2017: 57)(기하분포)

[문제 3] 주중 아침 15분 동안 자동차를 탄 채로 은행 서비스를 받기 위해 drive-through 창구에 도착하는 자동차 대수에 관심이 있다. 과거의 자료로 볼 때 15분 동안 도착하는 자동차는 평균 10대이고 포아송 분포를 따른다. 그렇다면 15분 동안에 5대가 도착할 확률은 얼마일까?(Anderson, et., al., 2016: 280)

[문제 4] 어떤 사거리에 다음 차가 도착하기까지 걸리는 시간이 평균 12초의 지수확률분포를 따른다.(Anderson, et., al., 2016: 328)

(1) 지수확률분포의 그래프를 그리시오.

(2) 다음 차가 도착하는데 걸리는 시간이 12초 이하일 확률은?

(3) 다음 차가 도착하는데 걸리는 시간이 6초 이하일 확률은?

(4) 다음 차가 도착하는데 걸리는 시간이 30초 이상일 확률은?

[문제 5] 서울 강남 소방서가 시간당 평균 1.6회의 119 전화를 받는다고 하자. 또한 시간 당 전화수가 포아송확률분포를 따른다고 가정하자. 119 호출 사이의 간격이 한 시간 이내일 확률은? (Anderson, et. al., 2016: 329 변형)(지수확률분포)

[문제 6] 국내 대기업의 주식형 펀드에 대한 평균 수익률은 2009-2011 3년간 14.4%였다. 3년간 수익률이 표준편차 4.4%로 정규확률분포를 따른다고 가정하자. 개별 대기업 주식형 펀드의 3년간 수익률이 적어도 20%일 확률은? (Anderson, et., al., 2016: 321)

사회통계의 꽃은 역시 학률분포이다. 통계학자나 계량사회학자는 확률분포를 가지고 세상을 보려고 한다. 그런데 확률분포는 많은 사회과학 전공 학생들에게 넘사벽처럼 인식되기도 한다.

확률분포가 중요한 이유는, 우리가 관심을 갖는 어떤 사회현상의 확률분포를 알면 그 사회현상에 관한 다양한 사건(event)의 확률을 쉽게 예측할 수 있기 때문이다. 확률분포는 사회현상이 지닌 규칙성(regularity)을 효율적으로 표현한다.

앞 포스팅에서 확률분포의 특징을 보여주는 도구로 모멘트(moment, 적률)를 소개했다. 그런데 모멘트나 모멘트를 이용해 구성한 왜도나 첨도는 확률분포의 특징을 요약해주기는 하지만 그것만으로 확률분포를 완전하게 묘사할 수 없다. 확률분포는 다양한 모습을 가질 수 있다(아래 그림을 참조).

확률변수 X의 특정값이나 어떤 범위가 발생할 확률을 예측하려면 확률함수(probability distribution)을 알아야 한다. X의 확률분포는 확률함수 에 의해 정의되며, 확률함수는 확률변수의 값에 확률이 어떻게 부여되는지를 말해준다.

사회통계를 배우는 사람들에게 나쁜 소식은 이론적으로 무한한 수의 확률분포(확률함수)가 존재할 수 있다는 사실이며, 좋은 소식은 사회현상을 연구하는데 있어 20개 미만의 확률분포만 알고 있으면 된다는 사실이다.(확률분포의 종류를 보려면 여기를 클릭) 그 확률분포들은 자유도 같은 하이퍼 퍼라미터(hyper-parameter)에 의해 규정되는 많은 변종들을 가지고 있기 때문에 우리가 관심 갖는 대부분의 사회현상을 표현할 수 있다. 다음은 상대적으로 많이 사용되는 확률분포들이다.참고) Student’s t, Chi-squared, Beta, Gamma 분포의 확률함수에 보이는 는 계승(factorial)이 실수까지 적용될 수 있도록 일반화한 것으로 이해하면 되고, F 분포의 분모에 보이는 (베타함수)는 이항계수를 일반화한 것이라고 생각하면 된다.

확률분포를 생성하는 학률함수를 보고 겁먹을 필요는 없다. 수백년에 걸친 통계학자들의 노고 덕분에 확률분포를 수식으로 표현할 수 있게 된 점을 감사히 생각하고 잘 사용하면 된다. 각 분포들이 주로 사용되는 현상들이 무엇인지를 잘 판별하면(인터넷을 뒤져보면 금방 알 수 있음) 적절히 사용할 수 있을 것이다.

이중 정규분포가 가장 널리 적용되며, 통계적 추론에는 카이자승분포, t분포, F분포가 자주 사용되고, 베이즈 추론에는 베타와 감마 분포도 자주 사용된다. 이항분포, 포아송 분포, 지수 분포도 잘 기억해 두면 확률 추정에 유용하게 사용될 수 있을 것이다.

이항분포는 성공(이나 실패) 확률을 추정하는데 사용된다. 포아송 분포는 어떤 사건이나 현상의 단위 시간당 발생 횟수에 자주 적용되며, 지수확률분포는 어떤 사건의 발생 간격 혹은 어떤 사건을 완료하는데 걸리는 시간에 관한 확률을 계산하는데 적용되곤 한다. 단위 시간당 발생 횟수인 경우 포아송 분포, 그것을 발생의 시간 간격으로 바꾸면 지수확률분포가 적용되므로 두 분포는 서로 관련된다.

위의 문제들을 풀어보면 확률분포와 확률함수를 이해하는데 도움이 될 것이다. MS Excel에서 위에 제시된 대부분의 확률함수들이 주는 확률값을 계산할 수 있다. 미국 아이오아 대 통계학과의 Matthew Bognar 박사가 개발하여 제공하는 휴대폰 앱인 Probability Distributions (혹은 그의 웹사이트에서도 이용 가능함)을 이용하여 계산할 수 있다. 이 앱은 확률분포 그래프를 직접 보면서 확률값을 계산할 수 있다는 장점이을 가지고 있다.

<문제 풀이>

[문제 1]

[문제 2] ,

[문제 3]  . 대신 를 사용하기도 한다. 참고로 포아송 분포에서는 이지만, 지수분포에서는 이다.

(Probability Distributions app. 이용)

[문제 4] (1)

(2) 0.63065  (3) 0.39226 (4) 0.08291 (Probability Distributions app. 이용)

[문제 5] 전화가 걸려오는 평균 시간 간격은 60/1.6=37.5분,  (Probability Distributions app. 이용)

[문제 6]  (Probability Distributions app. 이용)

<참고 문헌>

Anderson, David R, Dennis J., Sweeney, Rhomas A. Williams (류귀열, 김창규, 최승은, 김민중, 이성철 역). 2016. <앤더슨의 통계학>. 한올.

김은정. 2017. <사회조사분석사 사회통계>. 학진북스.

(윤영민, 2017/09/11)

사회통계(10): 교차표 분석의 기초

[문제 1] 미국 동부 주요 대도시에 근무하는 경찰관 남녀의 승진 사례이다. 경찰관 1,200명 중 960명은 남자, 240명은 여자이다. 지난 2년 동안 324명이 승진하였다. 다음 표에 과거 2년간 경찰관의 승진 현황이 제시되어 있다. 승진 결과를 검토한 다음, 여경위원회는 240명의 여경 중 36명만이 승진하였다는 사실을 근거로 여성차별이 있다고 문제를 제기했다. 경찰인사관리위원회는 여성이 상대적으로 적게 승진한 것은 여성차별 때문이 아니라 여성 수가 상대적으로 적기 때문이라고 주장했다. 과연 누구의 주장이 옳을까? 통계학은 이 첨예한 갈등을 합리적으로 해결하는 데 기여할 수 있을까?

이 교차표를 접근하는데는 두 가지 방법이 있다. 이 교차표가 모집단의 수치를 보여주는 경우 조건부 확률(conditional probability)을 사용하면 되고, 이 교차표가 하나의 표본에 관한 정보로 간주된다면 카이자승() 을 가지고 가설 검증을 하면 된다.

어느 데이터가 모집단(population)에 관한 것인가 혹은 표본(sample)에 관한 것인가는 근본적으로 연구자가 어떤 대상에 대해 주장을 제시하고 싶은가에 달려 있다. 예컨대 이 사례에서 연구자가 해당 경찰청의 과거 2년 동안에 발생한 승진 케이스들에 대해서만 성차별이 존재하는지를 따지겠다면, 이 데이터는 전수 데이터로 모집단에 관한 것이라고 간주될 수 있다. 반면에 연구자가 해당 경찰청의 데이터를 가지고 미국의 전체 경찰이나 미국 사회 전체에 존재하는 성차별에 관해 따지겠다면 이 데이터는 표본에 관한 것이라고 간주되어야 한다.

이 교차표를 가지고 그 두 접근을 모두 검토해 보자. 먼저 조건부 확률부터 논의하겠다.

최근 조건부 확률은 그 어느 때보다도 중요한 지식이 되었다. 현업에서 가설 검증보다는 예측이 훨씬 더 많이 요청되고 있으며, 예측에 널리 사용되는 베이즈 추론(Bayesian inference)의 논리적 토대가 조건부 확률이다. 현업에서 스스로 예측을 하거나, 최소한 남이 하는 예측을 이해하고 싶다면, 조건부 확률에 관련된 개념들을 꼼꼼하게 익혀둘 필요가 있다.

확률을 다룰 때는 먼저 사건을 정의해야 한다.

M = 경찰관이 남성; W = 경찰관이 여성; A = 경찰관이 승진;  =  경찰관이 승진하지 못함

= 무작위로 뽑힌 경찰관이 남성이고 승진;  = 무작위로 뽑힌 경찰관이 남성이고 승진하지 못함; = 무작위로 뽑힌 경찰관이 여성이고 승진; = 무작위로 뽑힌 경찰관이 여성이고 승진하지 못함

위의 표는 아래 확률들을 가지고 승진에 관한 결합확률표(joint probability table)로 전환될 수 있다. 

이러한 확률들은 두 사건의 곱사건의 확률로서 결합확률(joint probability)라고 부른다.

결합확률 주변에 있는 값들은 각 사건의 확률이다. 즉, P(M) = 0.80; P(A) = 0.20; P(A) = 0.27; P() = 0.73이다. 이러한 값들을 주변확률(marginal probability)이라고 부른다. 결합확률표에서 관련된 행이나 열의 결합확률을 합하면 주변확률을 구할 수 있다. 예컨대 이다. 이점을 잘 기억해두면 베이즈 추론에 도움이 될 것이다.

결합확률과 주변확률을 가지면 조건부 확률(conditional probability)을 구할 수 있다.  예컨대 어떤 경찰관이 남성일 경우 그가 승진할 확률, 을 구해보자.

도수를 사용해서 구하면, 288/960=0.3이 될 것이다. 확률을 이용해서 구해도 0.24/0.80=0.3으로 동일한 값이다. 확률을 이용한 조건부 확률의 계산을 일반화하면 다음과 같다.

결합확률을 주변확률로 나눈 값이다. 다른 말로 주변확률에 대한 결합확률의 비율이다.

경찰관이 여성인 경우 승진할 확률은,

이다.

즉, 남성경찰관의 승진확률은 0.3으로 여성경찰관의 승진확률 0.15의 두 배이다. 이 결과는 경찰인사관리위원회보다 여경위원회의 주장을 지지한다.

만약 이 데이터가 표본이라면 조금 다른 방식으로 접근할 수 있다. 교차표에 나타난 차이가 우연적 결과이다 혹은 승진에 관해서 성차별이 없다(통계학적으로 표현하면, 경찰관의 성별과 승진이 독립 사건이다) 라는 가설을 검증하는 방법이다. 이를 영가설(null hypothesis)이라고 하는데, 만약 영가설이 기각되면 대립가설(alternative hypothesis)을 수용하게 된다. 이는 바로 가설 검증(hypothesis testing)이다.

만약 경찰관의 성별과 승진이 독립 사건이라면 결합확률표는 어떤 모습일까? 남자 경찰관 중 승진자 비율, 여성 경찰관 중 승진자 비율, 그리고 전체 경찰관 중의 승진자 비율이 같을 것이다(아래 결합확률표 참조).

이를 일반화하여 표현하면 다음과 같다.

이를 도수의 교차표로 나타내려면 각 결합확률이나 주변확률에 총사례수인 1200을 곱하면 된다.

이는 영가설 아래서 얻은 예측값이다. 이 예측값과 실제 관찰값의 차이가 영가설을 기각할 수 있을 만큼 충분히 큰가? 이것을 검증하는 기법이 카이자승 검증( test)이다.

각 셀의 카이자승 값은 그 셀의 관찰값에서 예측값(영가설 아래)을 뺀 값을 제곱한 수를 그 셀의 예측값으로 나누면 된다. 각 셀의 카이자승 값들을 모두 합한 수가 전체 카이자승 값이다.  카이자승 분포()은 아래 그림에서처럼 자유도에 따라 모양이 변한다. (아래 그림은 위키피디아에서 가져왔음.)

Chi-square pdf.svg

교차표에서 자유도를 구하는 공식은 다음과 같다.

위의 사례에서는 자유도는, (2 – 1)(2 – 1)=1이다.

엑셀에서는 바로 카이자승 값을 구할 수 없다. 위 공식들을 이용해서 구해야 한다. 다만 예측값의 교차표를 구하면, CHISQ.TEST 함수를 이용해서 바로 카이자승 값의 p- 값을 구할 수 있다. 아래는 그 두 가지 방법을 모두 이용해 구한 값들이다.

이 교차표의 카이자승 값의 p-값은 영가설을 충분히 기각할 수 있을 정도로 작다. 위에서 조건부 확률을 가지고 얻은 결과를 카이자승 검정을 통해서 다시 확인한 셈이다.

도수의 교차표(cross-table)든, 결합확률표이든 범주형 변수를 분석하는데 대단히 유용한 도구이다. 사회과학에는 범주형 변수들이 많다. 이 기법들을 잘 익혀두면 유용하게 사용할 수 있을 것이다. (윤영민, 2017-08-25)

사회통계(9): 변이를 보여주면 금상첨화

[문제] US Census Bureau가 1996년 조사한 자료(32,561 명)가 아래 링크되어 있다. 미국 UCI의 machine learning 데이터베이스에서 가져왔다. 이 데이터의 첫 열은 응답자의 나이(age)이다. 응답자의 나이에 대한 다음 통계값을 구하라. (어떤 통계 소프트웨어를 사용해도 무방하나 가급적 MS Excel을 사용하기 바람.)

평균, 중앙값, IQR, 분산, 표준편차, 박스 플롯, 첨도, 왜도

데이터: Adult.data 

평균, 중앙값(median) 혹은 최빈값(mode) 같은 중앙집중 경향(central tendency)은 데이터 분석의 출발점으로 충분하다. 그러나 만약 관측값들이 중앙집중 경향을 중심으로 어떻게 변화하는지[즉, 변이(variability)]를 보여줄 수 있으면 금상첨화일 것이다.

데이터 분석에서 변이를 나타내는 도구로는 IQR, 분산, 표준편차, 박스 플롯(box plot), 첨도와 왜도가 자주 사용된다. 기초적인 도구들이지만 잘 사용하면 데이터에 관해 상당한 정도의 스토리를 추가할 수 있다.

(1) IQR(Interquartile Range, 사분위수 범위)는 3사분위수와 1사분위수의 차이()이다. 사분위수란 데이터를 정확히 4등분해주는 수들을 말한다. 3사분위수가 상위 25%, 1사분위수가 하위 25%를 구분해주는 수이니, IQR은 데이터의 중앙 50%의 범위이다. IQR은 극단값들의 영향을 줄이기 위한 변이 척도이다.  IQR은 의외로 활용도가 높다. 기억해둘만한 충분한 가치가 있다.

(2) 분산(variance)은 편차 제곱의 평균이다. 편차란 관측값과 평균의 차이를 말한다. 분산은 모든 관측값을 빠짐없이 투입해서 계산되는 변이 척도이다.

모집단 분산의 공식은 이고, 표본 분산의 공식은 이다.

(3) 표준편차(standard deviation)는 분산의 양의 제곱근이다. 모집단의 표준편차 계산공식은  이고, 표본표준편차의 계산식은 이다. 표준편차는 데이터를 표준화하는데 사용된다. 예컨대 z-값(z-score)은 편차를 표준편차로 나눈 값으로 모든 데이터의 상대적 위치를 표준편차의 배수로 나타내고, 두 변수 x와 y의 공분산(covariance)을 x의 표분편차와 y의 표준편차의 곱으로 나누어 표준화하면, 측정 단위로부터 자유로운 상관계수(correlation coefficient)를 얻는다.

(4) 박스 플롯(box plot)은  중앙값, 3사분위수(), 1사분위수(), 내의 최소값, 내의 최대값, 이렇게 다섯 개의 숫자로 표시한다(아래 그림 참조).

박스 플롯은 이상치(outliers)를 발견하는 용도로 자주 사용된다. 박스 플롯의 상한선과 하한선을 벗어난 데이터는 이상치로 간주된다.

(5) 왜도(skewness)와 첨도(kurtosis)는 분포의 비대칭도를 나타낸다. 왜도는 분포가 어느 쪽으로 얼마나 기울져 있는지를 보여주고, 첨도는 분포가 얼마나 중심에 집중되어 있는지를 보여준다.

왜도와 첨도는 모멘트(moment, 적률)라는 모수를 이용하여 구한다. 모멘트는 분포의 모양을 보여주는 모수(parameter)이다. 통계학으로 세상을 이해하는데 있어 가장 중요한 정보는 확률변수의 분포(distribution)이다. 통계적으로 세상에 대해 설명하거나 예측하려면 확률변수가 어떻게 움직이는가를 파악해야 한다. 확률변수의 움직임은 분포로 나타낸다.

어떤 확률변수의, 분포의 중심이 어디에 있는지, 분포가 얼마나 퍼져 있는지, 분포가 어느 쪽으로 치우져 있는지, 분포가 중심에 얼마나 몰려있는지를 알면 우리는 그 확률변수에 대해 상당히 파악한 셈이다. 모멘트는 그러한 분포의 모습을 알려주는 모수이다.

확률변수 X의 1차 모멘트는 기대값 , 곧, 평균 ()으로, 분포의 중심을 보여준다. 2차 모멘트부터는 중심 모멘트(central moment, 중심 적률)라고 부른다. 확률변수 X의 2차 중심 모멘트(혹은 X의 평균에 대한 2차 모멘트라고도 함)는 분산 으로 분포의 변이(흩어짐의 정도)를 보여준다.

X의 3차 중심 모멘트는, 아래와 같이 분포가 어느 쪽으로 기울어져 있는지, 즉, 왜도를 정의하는데 사용되고, X의 4차 중심 모멘트는 분포가 중심에 얼마나 몰려있는지, 즉, 첨도를 정의하는데 사용된다.

(는 3차 중심 모멘트; 는 표준편차의 3승)

(는 4차 중심 모멘트; 는 표준편차의 4승)

왜도와 첨도의 값은 다음과 같이 해석된다. 왜도가 0이면 자료의 분포가 정규분포처럼 좌우 대칭이고, 양수이면 오른쪽 꼬리를 가진 분포이며, 음수이면 왼쪽 꼬리를 가진 분포이다. 첨도가 3이면 정규분포와 봉우리 높이가 같고, 3보다 크면 정규분포보다 높은 봉우리를 가지며, 3보다 작으면 정규분포보다 낮은 봉우리를 가진다.

엑셀의 추가기능인 KESS를 사용해서 [문제]를 풀어 다음과 같은 결과를 얻었다.

나이 평균(38.58)이 중앙값(37)보다 크고 왜도가 양수이니 그림에서처럼 분포가 오른쪽에 꼬리를 가지고 있음을 알 수 있다. 이는 상한선(3분위수+1.5*IQR)을 벗어나는 나이를 가진 응답자 여러 명이 표시된 박스플롯의 그림과도 일치한다.

나이의 평균에 변이 정보들이 추가되니 표본의 분포에 대해 좀 더 알 수가 있다. 여기서 소개된 변이 척도들을 잘 기억해두면 쓸모가 있을 것이다. (윤영민, 2017-08-25)

사회통계(8): 평균을 알면 통계학이 보인다

[문제 1] 당신이 투자를 했는데, 첫 해는 10%를 벌었고, 둘째 해에는 50%, 셋째 해에는 30%를 벌었다. 그 경우 3년간 당신의 평균 수익률은 얼마인가?

[문제 2] 당신이 경기도 이천에서 차를 몰고 서울 강남을 다녀왔다. 갈 때는 고속도로가 막혀서 평균 속도 70km/h로 갔고 올 때는 막힘이 없어 평균속도 100km/h로 돌아왔다. 그렇다면 당신은 서울을 평균속도 얼마로 다녀왔는가?

[문제 3] 모 대학의 입시에서 논술 채점을 하는데, 한 학생의 답안지를 다섯 명의 교수가 채점한다. 만약 그 점수가, 80, 90, 100, 60, 85였다면 그 학생의 논술 점수는 얼마일까?

평균을 모르는 사람은 없다. 초등학생 저학년 때 산술평균을 배우기 시작해서 고등학생 때까지 가중 평균, 기하평균, 조화평균 따위를 배운다.

그렇다고 사람들이 평균을 제대로 사용하는 것은 아니다. 금융처럼 특수한 영역을 제외하고 일반인들이 산술평균이 아닌 다른 종류의 평균을 사용하는 경우는 거의 없을 뿐 아니라 산술평균이 적합하지 않는 경우에도 그냥 산술평균을 쓰곤 한다.

산술평균은 약점을 많이 가지고 있다. 그래서 통계학에서는 여러 종류의 평균이 사용된다. 평균의 약점을 잘 인식하고 용도에 맞게 적절한 종류를 선택해 사용할 수 있다면 잘못된 숫자로 현실을 왜곡하는 실수를 크게 줄일 수 있을 것이다.

필자가 알고 있는 평균(mean or average)을 곰곰히 생각해보니 다음 7가지이다: 산술평균(arithmetic mean), 절사평균(trimmed mean), 가중평균(weighted mean), 기하평균(geometric mean), 조화평균(harmonic mean), 평방평균(quadratic mean), 이동평균(moving average)

(1) 여러 수의 덧셈이 사용되는 척도나 계산에는 산술평균(arithmetic mean)이 사용된다. 데이터 분석에서는, 아래 공식처럼 관측값을 모두 더 한 다음 관측값의 갯수로 나누면 산술평균을 얻는다.

(2) 그런데 만약 이상치(outliers)가 존재한다면 산술평균은 현실을 왜곡하게 된다. 그 경우 하나의 간단한 해결책은 이상치를 제외하고 나머지 관측값들로만 산술평균을 구하는 것이다. 그것이 위 [문제 3]에서 사용되는 절사평균(trimmed mean)이다. 논술 채점의 경우 가장 후하게 준 점수인 100점과 가장 인색하게 준 60점을 제외하고, 80점, 90점, 85점만 가지고 평균을 낸 85점이 해당 학생의 논술 점수가 된다. 대학 당국은 그렇게 매겨진 점수가 학생의 논술 능력을 잘 반영한다고 믿는다.

(3) 대학생이라면 누구나 가중평균(weighted mean)에 익숙할 것이다. 성적에 민감한 대학생들은 자신들이 받는 평점(G.P.A.)이 어떻게 계산되는 줄 잘 안다. 만약 어떤 학생이 한 학기 동안 3학점 2과목에서 각각 C(2점)와 B(3점)를 받았고, 2학점 2과목을 모두 A(4점), 1학점 2과목도 모두 A(4점)을 받았다면 학기를 망쳤다고 투덜댈 것이다. 학점이 낮은 과목들은 모두 A를 받았지만  높은 학점 2과목에서 낮은 점수를 받았기 때문이다. 평점은 이다. 학점 평균(평점)에서는 각 과목의 학점이 가중치(weight)이다. 과목의 학점을 고려하지 않고 취득 점수의 산술평균을 내면 (2+3+4+4+4+4)/6=3.5이다. 아마도 이 산술평균은 여러 과목에서 A를 받은 이 학생의 기분을 반영할 지는 몰라도 학생의 성취도를 정확히 반영한다고 볼 수는 없을 것이다. 기분은 3.5이고 현실은 3.25이다. 관측값의 비중이 다를 때는 그 비중을 가중치로 반영하는 가중평균을 사용해야 한다. 단순한 산술평균은 현실을 왜곡한다.

(4) 우리가 일상에서 사용하는 척도가 덧셈으로만 이루어져 있지는 않다. 어떤 척도는 곱셈이 사용된다. 이자율, 인구성장률, 경제성장률, 수익률 같은 중요한 지표들이 곱셈을 사용한다. 그 경우에는 기하평균(geometric mean)이 적합하다.

예컨대 위 [문제 1]를 기하평균으로 풀어보자.

3년 동안의 평균수익률은 0.29이다. 만약 산술평균으로 계산했다면 평균수익률은 (1.1+1.5+1.3)/3-1=0.3이 된다. 평균수익률이 실제보다 과대 평가된다.

산술평균은 덧셈용이다. 금융이나 경제에서는 곱셈을 사용하는 지표가 많기 때문에 기하평균이 사랑받는다. (참고: 기하평균은 제곱근을 사용하기 때문에 무리수 값이 나오는 경우가 많다. 과거에 무리수는 수로 인정받지 못하고 도형적인 의미만을 지녔다. 그래서 이름이 기하평균이 되었다.)

(5) 물리량에서도 산술평균은 맥을 못춘다. 속도가 대표적인 경우이다. 속도는 주행한 거리를 소요 시간으로 나누어 도출한다. [문제 2]에서 만약 (70+100)/2=85(km/h)라는 단순 산술평균으로 평균속도를 계산하면 거리와 시간을 무시한 것이 된다. 이천에서 서울 강남까지 왕복했으니 주행거리가 140km(70km*2)였고, 소요 시간은 1.7시간(1+0.7)였다. 140km를 1.7시간으로 나누면 평균속도는 82.35km/h이다.

이런 경우에는 아래 공식의 조화평균(harmonic mean)을 가지고 구할 수 있다.

조화평균을 사용하면 주행거리와 소요 시간을 몰라도 전체 평균속도를 구할 수 있다. 산술평균으로 구한 평균속도보다 다소 느리다.

조화평균은 동일한 금액을 배정하여 여러 가지 상품을 구입할 때 평균 상품 수량을 구하는데도 쓸 수 있다. 예컨대 같은 예산을 배정하여 사과 100개와 배 50개를 구입한다면 구입한 과일은 평균 몇 개인가? 약 67개이다.

( ). 산술평균으로 계산하면 (100+50)/2=75이다. 75개는 예산과 상품가격을 무시해서 나온 잘못된 결과이다.

조화평균은 동일한 거리 혹은 동일한 금액이라는 조건에서 비중(속도나 가격)이 다른 여러 가지 요소를 결합하는 경우에 있어 평균을 도출하는데 사용된다. 만약 동일한 거리 혹은 동일한 금액이라는 조건이 충족되지 않으면 위의 공식을 바로 사용할 수 없다. 가중치를 주어야 하기 때문이다. (예를 들어, 전남 장성에서 기차로 서울(용산)을 가는데, 100km 떨어진 익산까지는 ITX/새마을(시속 120km)로 가고, 익산에서 서울까지 250km는 KTX(시속 250km)로 갔다면, 장성에서 서울까지 간 평균속도는 얼마인가와 같은 문제에는 조화평균 공식을 바로 적용할 수 없다. 거리 100km와 250km가 가중치로 고려되어야 한다.)

(6) 통계학에서는 평균을 무척 많이 사용한다. 평균 자체도 대표값으로서 중요한 정보이지만, 평균으로부터 도출된 분산(variance)도 변이(variability)를 보여주는 유용한 도구이다.  분산은 각 관측값이 산술평균으로부터 떨어진 거리인 편차(difference)를 제곱한 값들의 평균이다. 다시 말해 분산은 편차의 평방평균(quadratic mean)이다. 편차의 평균은 0이기 때문에 편차를 제곱해서 사용한다. 분산의 양의 제곱근이 표준편차(standard deviation)이다.  분산(모집단 분산)을 계산하는 공식은 아래와 같다.

(는 모집단의 평균)

(7) 현실에서 기하평균과 조화평균은 그다지 자주 사용되지 않는다. 아마도 그것들보다 훨씬 자주 사용되는 또 다른 종류의 평균은 이동평균(moving average)이라는 도구일 것이다. 금융권 종사자나 어느 분야에 있던 시계열 데이터를 다루는 사람이라면 이동평균에 익숙하리라.

아래 그림에는 Amazon.com의 주가 변동이 제시되어 있다. 이미 이 그래프도 혼란스럽지만 만약 주가 변동이 주 단위나 일 단위로 표시된다면 더욱 혼란스러울 것이다. 그렇게 혼란한 그래프 대신 보다 매끄러운 그래프로 주가변동의 추세(아마도 그것이 당신이 원하는 것일 게다.)를 보여주는 도구 중 하나가 이동평균이다.

Image result for stock price

이동평균은 아래와 같은 공식으로 구해진다.

 (T는 부분집합의 크기, 는 관측값)

공식이 복잡해 보이지만 사실은 간단한 계산이다. 주가에 관한 이동평균을 논의한다고 치자. T는 2일, 5일, 10일 등 평균을 내고 싶은 단위 기간이다. 선택한 단위 기간에 따라 2일 이동평균, 5일 이동평균, 10일 이동 평균 등을 계산할 수 있다.

예컨대 10일 동안의 특정 주식의 주가(일일 종가)가 아래와 같다고 하자.

2일 이동평균을 계산하면 다음과 같이 9개 값이 나온다.

(1000+1050)=1025, (1050+1100)=1075, (1100+1200)=1150, (1200+1150)=1175, (1150+1200)=1175, (1200+1250)=1225, (1250+1100)=1175, (1100+1200)=1150, (1200+1250)=1225

7/15 것은 이동평균이 없고, 7/16 것은 7/15와 7/16 것을 평균하여 1025, 7/17 것은 7/15 것을 빼고, 7/17 것을 넣어 평균하여 1075, 7/18 것은 7/16 것을 빼고 7/17과 7/18 것을 평균하여 1150….이런 식으로 계산하면 된다. 새 날짜의 관측값이 추가되면, 오래 된 날짜의 관측값이 빼는 방식으로 고정된 주기로 계속 평균을 계산해 간다.

이러한 이동평균을 사용하면 주가변동을 훨씬 매끄러운 모습의 추세선으로 표시할 수 있다. 아래는 MS 엑셀의 데이터분석 기능을 이용해서 위 사례의 이동평균을 구하고 그래프로 나타냈다.

이 사례에는 단순이동평균(Simple Moving Average, SMA)를 적용하였는데, 지수이동평균(Exponential Moving Average, EPA)와 같은 다른 변종도 있다. 여기서는 EPA에 대해서만 약간 설명하겠다. 다양한 이동평균에 관심있는 독자는 따로 학습하기 바란다.

실제로 SMA와 EPA는 큰 차이가 나지가 않는 경우가 많다. 다만 EPA는 단기 변동성을 포착하기 위해 최근 값들에 대해 가중치를 주고자 한다. EMA를 구하는 식은 아래와 같다.

여기서 P는 가격(Price), T는 기간(time period)이다. 이 공식을 풀어서 말하자면, 금일 EMA는, 금일 가격(today’s price)에 가중치를 곱한 값과, 전일 EMA에 (1-가중치)를 곱한 값의 합이다. 가중치는 이다. T가 분모에 들어 있으니 기간이 커질수록 가중치가 작아진다. 이는 기간이 클 경우 SMA와 EMA가 별로 차이가 없음을 함축한다. EMA를 계산하려면 최초의 EMA()로 시작해야 하는데, 통상 그것은 기간  T의 SMA이다.

위의 사례를 가지고 2일 지수이동평균을 구해보면 아래와 같다.

7월 16일: 1025(이동평균과 동일); 7월 17일: 1075(=1100*0.666667+1025*(1-0.666667)); 7월 18일: 1158.333(1200*0.666667+1075*(1-0.666667)); 7월 19일: 1152.778(=1150*0.666667+1158.333*(1-0.666667))….나머지는 아래 표의 D열을 참조.

빅데이터 시대에는 여러가지 종류의 평균이 쓸모가 많다. 설문조사와 같은 횡단적(cross-sectional) 데이터를 주로 사용하는 사회학 연구에서 이동평균은 아주 드물게 사용되었다. 그러나 요즘은 사회현상에 대한 종단적(longitudinal) 데이터가 흔해졌다. 사회학 연구에도 이동평균과 같은 도구를 쓸 일이 많아졌음을 의미한다. 하물며 현업에서 종단적 데이터를 다루는 도구의 필요성이 높아졌음은 말할 나위도 없으리라. (윤영민, 2017-08-24)

사회통계(7): 통계학 교육의 전복이 요구된다

대학에서 사회통계 혹은 통계학을 가르치는 가장 중요한 이유는 학생들에게 데이터를 전문적으로 분석할 수 있는 능력을 갖추어 주기 위해서이다. 그것은 과거에도 그랬고, 현재도 그러하며, 미래에도 그럴 것이다. 그런 관점에서 보면 사회통계 교육에 빨강 불이 켜졌다. 통계학 교육이 전복되어야 한다는 과격한 표현이 어울릴 정도로 극적인 변화가 필요하다는 말이다.

지금까지 사회통계학이나 통계학 교육의 중점은 모수 추정과 가설 검증에 있었다. 작은 규모의 표본조사를 통해 데이터를 수집하고 그것으로 모집단의 모수를 추정하거나 가설을 검증하는 방식이었다. 따라서 기술통계(descriptive statistics)는 고급의 통계 기법을 배우기 위한 예비 지식 혹은 보조 수단 정도로 취급했다. 그런 방식으로는 모수 추정이나 가설 검증이 불가능하다고 여겼기 때문이다. 학생들은 물론이고 교수자도 기술통계를 진지하게 다루지 않았다.

그런데 시대가 바뀌었다! 정확히 말하자면, 데이터 환경이 바뀌고 분석 도구가 바뀌었다. 대량의 데이터가 이용가능하고 엄청난 컴퓨터 자원에 손쉽게 접근할 수 있게 되었다. 한 마디로 ‘빅데이터’ 시대가 도래했다!

게다가 현실에서는 모수 추정이나 가설 검증이 아니라 예측이 대세가 되고 있다. 집단 수준의 예측 뿐 아니라 개인 수준의 예측까지 일반적이 되고 있다.

이런 상황에서 종래의 모수 추정이나 가설 검증 기법들은 불필요하거나 적합성을 잃고 있다. 표집 데이터가 아니라 전수 데이터가 이용 가능한 경우가 크게 늘었고, 그런 경우에는 모수 추정이나 가설 검증이 불필요하다. 또한 현재의 통계 분석 도구들은 대부분 표본의 크기가 2천이나 3천 정도임을 가정하고 개발되었다. 예컨대 널리 사용되는 카이자승이나 p-값이 그러하다. 그런 도구들은 사례수가 크게 많아지면 검정력을 상실한다.

따라서 통계학 혹은 통계학 교육의 무게 중심은 기술통계로 이동되어야 한다. 그것이야말로 학생들이 사회에 나가면 널리 사용할 도구들이기 때문이다. 기술통계에 대한 교육의 강화 뿐만이 아니다. 보다 더 큰 관점에서 볼 때 사회통계 교육에 다음과 같은 변화가 필요하다고 판단된다.

  1. 데이터(data)에 대한 개념적 인식 전환이 요구된다.
  2. 기술통계(descriptive statistics)에 대한 교육이 크게 강화되어야 한다.
  3. 시각화(visualization) 교육이 크게 강화되어야 한다.
  4. 확률이론(probability theory)과 확률분포(probability distribution)에 대한 교육이 크게 강화, 확대되어야 한다.
  5. 베이즈 추론(Bayesian inference)에 대한 교육이 확대 혹은 추가되어야 한다.
  6. 상관성 척도(measurement of relations)들에 대한 교육이 크게 확대되어야 한다.
  7. 회귀분석의 적합(fitting regression models) 방법을 다양화해야 한다.
  8. 데이터 마이닝(data mining)과 예측 분석(predictive analytics)이 추가되어야 한다.

데이터에 대한 개념적 인식 전환에 관해서는 앞선 포스팅에서 이미 논의했으니, 여기서는 기술통계에 대한 교육을 강화해야 한다는 점에 대해 집중적으로 논의해 보자.

변하는 사회현상(변수라고 하자)은 무엇이나 분포(distribution)를 가진다. 통계학은 그 분포를 정확하고 간명하게 묘사할 수 있게 해준다. 평균, 중앙값, 최빈값과 같은 대표값은 변수의 분포의 중심이 어디에 있는 지를 보여주고[그 때문에 중앙 집중 경향(central tendency)이라고도 불린다], 범위, 표준편차, 분산, IQR(사분위 범위) 같은 산포도는 변수가 중앙 집중 경향을 중심으로 얼마나 퍼져 있는지를 보여주며, 왜도(skewness)나 첨도(kurtosis) 같은 비대칭도는 변수의 분포가 어느 쪽으로 치우쳐 있는지 혹은 얼마나 중심에 집중되어 있는지를 보여준다.

Image result for moving averages

이 중 가장 중요한 척도는 평균이다. 평균은 범주형 변수에는 사용될 수 없지만 가장 널리 사용되는 척도이다. 그리고 평균은 데이터의 성격과 용도에 따라서 산술평균, 가중평균, 절삭 평균, 기하평균, 조화평균, 평방평균, 이동평균 등 다양한 종류가 사용된다.

그리고 평균은 거의 모든 고급 통계 기법들의 출발점이다. 분산분석, 상관분석, 회귀분석 등은 평균으로부터의 거리, 즉, 편차를 가지고 하는 게임이라고 해도 과언이 아니다. 평균에 대해서만도 적어도 한 주 정도의 수업이 필요하리라 생각된다. (참고로 평균에 관해 예리한 지식을 갖고 있으면 동료들에게 깊은 인상을 줄 수 있을 것이다.)

그러나 기술통계가 위와 같은 한 변수의 분포에 그치는 것은 아니다. 우리가 관심을 갖는 사회현상이 하나의 변수가 아니라 두 변수 혹은 여러 개 변수 사이의 관계일 때도 많다. 승진에 있어서의 성차별, 교육 수준에 따른 소득분포, 특정 지역 출신에 대한 차별, 부모의 사회계층과 자식의 사회계층, 학습 시간과 성적, 연령에 따른 투표성향  등 사실 사회과학의 관심 대상은 변수 사이의 관계인 경우가 많다.

따라서 기술통계에는 변수간의 관계를 보여주는 도구들도 포함되어야 한다. 공분산, 상관계수, 교차표, 결합확률, 조건부 확률, 승산(odds)과 승산비(odds ratio) 등이 그런 기술통계 도구들이다.

Image result for odds

별도로 포스팅 하기 위해 현재의 논의에서는 제외했지만, 시각화(visualization)는 기본적으로 기술통계에 속한다. 기술통계량과 시각화를 합친 기술통계에 대한 강의만으로도 한 학기 수업을 할애해야 할 것으로 생각된다.

그것은 충분히 가치 있는 교육이 될 것이다. 기술통계 도구들을 제대로 활용할 수 있어야 한다는 시대적 요청에도 맞고, 상위 과목이 되는 고급통계, 데이터 마이닝, 예측분석의 효과적인 교육을 위해서 탄탄한 기초를 필요하다는 측면에서도 그렇다.

더 이상 기술통계를 저급한 지식으로 취급하거나 고급 통계를 위한 기초나 보조 수단으로만 인식되어서는 안 될 것이다. 어쩌면 대부분의 업무에서 기술통계는 추리통계보다 훨씬 중요한 통계 지식이 될 것이다.  (윤영민, 2017-08-22)