귀촌 단상(2): 산책

전원에 이사가면 논과 밭 사잇 길을 마음껏 걷고 싶었다. 중학교 시절 나의 가장 큰 즐거움 중의 하나는 이슬비가 내리는 날 흙내음을 맡으며 논이나 밭 가를 걷는 것이었다. 그러다 커다란 방죽이라도 만나면 금상첨화였다. 물 위에 떨어지는 빗방울들이 그림을 완성시켜 주었기 때문이다.

요즘 50여 전의 소망을 매일 실현하고 있다. 통상 3-4km를 걷고 어떤 날은 7-8km를 걷는다. 그냥 하릴없이 전원의 일부가 되는 느낌이 그만이다.

다행히 아내도 나만큼이나 산책을 즐겨서 함께 걸으니 더욱 좋다. 별로 대화가 많지는 않지만 수많은 대상을 함께 느낄 수 있어 좋다. 길가의 꽃이며, 나무며, 벌레나 동물, 그리고 달과 별을 함께 느끼고, 마주치는 이웃들과도 안부를 물으며 함께 인사를 나눈다.

전원에 산다는 것은 단지 전원주택에 사는 것이 아니라 그야말로 전원 속에 사는 것이다. 산책을 즐기는 사람이라면, 혹은 앞으로 산책을 즐기고 싶다면 집터를 선택할 때 집터나 마을 뿐 아니라 자신이 산책하게 될 공간을 살펴야 한다. 적어도 집 주위 100만평 정도는 돌아보고 산책이 가능한 지를 파악해야 한다.

하루에 한번 산책하는데 차나 자전거를 타고 근처의 공원에 가서 산책을 하면 되지 않나 하는 생각이 들기도 할 게다. 그런데 만약 하루에 두세번 나가서 걷고 싶다면 어찌 할 것인가. 대문 밖을 나서서 바로 걸을 수 있는 곳이 최고이다.

시골의 국도에서는 차가 쌩쌩 달리는데다 인도가 없어 산책이 거의 불가능하다. 또 산에 집터가 있다면 잘 생각해야 한다. 자신의 담력이 얼마나 큰 지. 시골은 밤과 낮이 완전히 다르다. 밤이 되면 집밖에 나다니기가 쉽지 않다. 잘못 하다간 집 안에 갇히게 된다. 산책 환경의 측면에서 공원 많은 도시만도 못한 시골도 드물지 않다.

산밑을 흐르는 시냇물을 따라서 난 오솔길을 걷는 로망이 충족되기가 싶지 않다. 첫번째 전원 생활 중 얼마 지나지 않아 나는 그 혜택을 잃었다. 집 주위에 대규모 개발이 진행되어 산책할 수 있는 공간이 사라져 버린 것이었다. 산과 들 대신에 군 연병장이나 학교 운동장을 걸어야 했다.

그래서 나는 형질 변경이 불가능한 문화재 보호구역으로 이사왔다. 이곳에는 아파트 단지는 물론이고 공장이나 축사도 세워질 수 없다. 물론 문화재로 지정되기 전에 있던 시설들은 그대로 있지만. 정부가 환경을 관리해 주니 주민인 내가 신경쓸 일이 별로 없다.

아내와 나는 하루에 두 번은 산책을 나간다. 집 바로 앞에 1만평 크기의 미니 공원이 있지만 그 정도는 걷는데 10분밖에 걸리지 않는다. 운동이 되려면 열 바퀴는 돌아야 하는데 같은 장소를 뱅뱅 도는 것은 참 지루한 일이다. 그래서 우리는 집을 중심으로 세 갈래 장거리 코스를 정해 놓고 매번 다른 방향으로 걷는다. 반복되는 일상이긴 하지만 그렇게 하면 좀 낫다.

오늘 아침에는 오른편쪽으로 4km 정도를 걸었다. 오후 늦게 비가 내리지 않으면 왼쪽편으로 4km 정도를 또 걸을 것이다. (2020-07-06)

DIKW 모형

데이터, 정보, 지식 사이의 관계를 이해하는 데 있어 아마도 가장 오래, 가장 널리 가이드 역할을 해온 개념적 틀은 DIKW 모형이다. DIKW는 Data(데이터), Information(정보), Knowledge(지식), Wisdom(지혜)의 머릿글자로 구성된 이름이다. 이 모형에 따르면, 데이터사물이나 사건에 대한 묘사(description)이며, 가공되지 않은 상태의 사실(facts)이다. 그리고 특정한 목적을 위해 데이터가 처리되면(혹은 추상되면) 그 목적에 유용한 정보가 된다. 나아가 정보가 체계화되면 지식이 되며, 지식이 고도로 추상화되면 지혜가 된다.

     

데이터-정보-지식-지혜는 위 그림과 같은  피라미드 구조를 가졌다고 해서 DIKW 피라미드 혹은 지식 피라미드라고 불리며, 데이터에서 지혜로 올라갈수록 가치가 올라간다고 해서 가치 위계 모형(value hierarchy model) 혹은 가치사슬모형(value chain model)이라고도 불린다. 이 모형은 데이터, 정보, 지식 사이의 관계에 대한 개괄적인 모습을 보여주는데 자주 사용되었다. 

위 그림에서처럼 이 모형은 데이터보다는 정보의 가치가 높고, 정보보다는 지식, 그리고 지식보다는 지혜의 가치가 높으며, 데이터에서 지혜로 올라갈수록 의미(meaning)도 크다고 규정한다. 

이 모형은 MIS(경영정보학), 컴퓨터과학, 문헌정보학, 교육학 등 여러 학문 분야에서 폭넓게 이용된다. 네 가지 요소 중 그 지위가 애매한 ‘지혜’를 제쳐 놓고 본다면, 이 피라미드 모형은 나름대로 유용하다. 그것은 우리에게, 지식, 정보, 데이터 중 어떤 것을 다루더라도 다른 두 가지와의 관계를 고려해야 하며, 앎(knowing)에 관한 어떤 모형도 이 세 가지 사이의 관계에 대해 명쾌한 해석 혹은 입장을 포함하고 있어야 함을 알려주고 있다.

그러나, 이 모형이 지니는 가치는 그 수준에서 그치는 것 같다.  무엇보다 데이터, 정보, 지식 사이의 관계, 특히 데이터와 정보, 정보와 지식 사이의 관계가 애매하기 때문이다. 데이터가 “처리되어” 혹은 “추상되어” 정보가 된다고 하지만, 데이터의 ‘처리’ 혹은 ‘추상’이 정확히 어떤 원리에 따라서 어떻게 이루어지는가가 불분명하다.

더구나 빅데이터의 시대에 있어 정말로 정보나 지식이 데이터보다 가치가 높은 지도 의문이다.  데이터 마이닝이나 데이터과학을 통해서 빅데이터는 특정한 정보나 지식보다 더 큰 가치 혹은 더 다양한 가치를 창출해 낼 수 있다. 즉, 가치 생성의 측면에서 데이터가 정보나 지식보다 더 큰 잠재성을 가질 수도 있다. 때문에 데이터에서 추상화된 정보나 지식보다 데이터 자체가 더 큰 값에 거래되곤 한다. (2020-01-23)

지능이라는 이름의 게임(7): 지능기계 설계자의 해석

앞 포스팅에서 소개한 이대열 교수의 저서가 진화생물학과 행동심리학의 관점에서 지능에 접근한 사례이라면, 이 포스팅에서 소개할 제프 호킨스(Jeff Hawkins)의 저서 <On Intelligence>(2004)는 컴퓨터과학 배경의 소프트웨어-하드웨어 개발자가 두뇌와 지능 연구자들에게 던지는 대담한 도전장이다.

Image result for on intelligence Image result for 생각하는 뇌 생각하는 기계

Hawkins가 지능과 두뇌에 관심을 갖기 시작할 때 던졌던 질문은 아주 명쾌하다. 지능(intelligence)이 무엇인가 이다. 이 의문은 인간의 두뇌가 근본적으로 어떤 점에서 지능적인가라는 질문과 바로 이어진다. 인간의 두뇌는 지상에서 가장 진화된 지능을 지니고 있기 때문이다. 그는 진정으로 지능적인 기계를 만들려면 먼저 인간의 두뇌를 제대로 이해해야 한다고 믿었다. 그는 기존의 연구들에서 자신의 의문에 대한 시원한 답을 찾을 수 없었고, 그래서 스스로 답을 제시하게 되었다. <On Intelligence>에는 Hawkins의 해답이 담겨 있다.

지능을 탐구하면서 그는 지금까지의 컴퓨터과학이 인간 지능(human intelligence)을 모사하는데 실패한 이유가 인간의 지능과 두뇌를 이해하지 못했기 때문이라는 결론에 도달했다. 그에 의하면, 인간의 두뇌는, 투입(input)이 들어가면 산출(ouput)을 내놓는 논리 기계나 정보처리 시스템이 아니며, 지능은, 튜링 테스트(Turing test)처럼 행동(behavior)을 측정하는 방식으로는 결코 이해될 수 없다. 지능이 무엇인지는, 간접적이거나 우회적인 방식이 아니라 두뇌의 내부 작용을 가지고 직접 규정해야 한다는 것이다.

Hawkins에 의하면, 인간 두뇌는 몇 가지 점에서 컴퓨터와 크게 다르다. 첫째, 두뇌는  S/WH/W의 구분이 없다. 지능을 주로 담당하는 대뇌 신피질은 신경세포와 시냅스로 구성된 네트워크인데, 그것은 전기-화학적 신호에 의해 작동하는 구조이지 그것들을 제어하는 별도의 S/W(혹은 그것과 유사한 무엇)가 존재하지 않는다. 

둘째, 컴퓨터와 달리 두뇌는 유전적 영향을 받기도 하지만 태생 후 성인이 될 때까지 발달하고  성인이 된 후에도 외부 자극과 경험에 의해 변화된다. 발달 단계로 보면 인간의 두뇌는 두 살 무렵에 뉴런-시냅스 조합이 폭발적으로 늘어나고, 그 다음 몇 년 동안 불필요한 뉴런-시냅스 조합은 점차 제거되며, 청소년기에 다시 한번 뉴런-시냅스 조합이 폭발적으로 증가한 후 성인이 될 때까지 불필요한 뉴런-시냅스 조합의 제거가 이루어지고 25-6세경 안정 단계에 도달한다. 그러나 성인이 된 후에도 뉴런-시냅스 조합은 계속 변화된다. 두뇌의 구조가 변하는 현상을 신경(혹은 두뇌) 가소성(neuroplasticity)이라고 부른다. Hawkins는 이러한 인식을 수용한다. 

셋째, 컴퓨터와 달리 두뇌는 대단히 유연하다. 두뇌의 특정 영역이 특정 기능만을 담당하지 않는다. 때문에 만약 어떤 부위가 손상을 받으면 그 부위가 맡던 기능을 다른 부위가 대신 수행하곤 한다. 이는 컴퓨터에서 상상하기 어려운 현상이다.  

이러한 차이를 인정하면서 Hawkins는 지능과 두뇌의 관계에 대해 기억예측 모형(memory-prediction model)이라는 가설을 제시한다. 그 모형을 요약하면 다음과 같다.

Image result for memory prediction model hawkins

지능은 인간의 두뇌에서 일어나는 정신적인 작용이다. 외부로부터 감각기관을 통해서 경험하는 자극(감각 정보)이 두뇌에 전달되면 신피질에서 그것은 전기-화학 신호로 전환되고 뉴런과 시냅스가 연결된 조합이 생성된다. 신피질에는 그렇게 해서 생성된 수많은 조합이 존재하며, 그것이 기억(memory)이다

가장 추상적인 수준에서 기억은 공간적시간적 패턴(spatial-temporal patterns)인데, 그것은 입력되는 감각 정보의 유형과 관계없이 항상 범주(category)와 순서(sequence)라는 요소로만 구성되어 있기 때문에 Hawkins는 그것을 불변표상(invariant representations)이라고 부른다(아래 그림 참조).

그에 의하면인간 두뇌는 ‘논리 기계라기보다는 ‘기억 기계이다두뇌는 끊임없이 분류하여 기억하고기억을 복원해서 예측/확인하고비교/판단한다신피질은 여섯 층(layers)의 구조를 지니고 있는데자주 반복적으로 입력되는 정보의 불변표상은 낮은 층으로 내려보내 외부 자극에 신속하게 반응하게 하고낯선 정보들은 상부 층으로 보내서 불변표상을 생성하며최 상위 층(Layer I)에서도 파악되지 않은 정보는 해마(hippocampus)로 보내 기억한다. 층2나 층3도 부분적으로 그렇지만 층1은 여러 영역으로부터 받은 정보를 결합(association)하는 역할을 수행한다(아래 그림 참조). 

Hawkins는, 신피질이 계층적 구조를 지닌 이유는 바로 현실세계가 그러한 계층적 구조를 지니고 있기 때문이라고 지적한다. 예컨대 문어(written language)를 보면, 글자가 모여서 음절이 되고, 음절이 모여 단어가 되며, 단어가 모여서 문장이 된다. 또한 세상의 모든 객체(object)는 작은 객체들의 집합이며, 대부분의 객체들은 보다 큰 객체들의 일부이다. 신피질의 계층 구조는 이러한 현실세계의 계층구조에 조응하고 있다는 것이다.

일단 기억들이 생성된 후에는, 감각 기관을 통해서 자극이 전달되면 그에 관련된다고 추정되는 불변표상이 호출되고, 그것을 이용해서 시간적으로 뒤따라 오는 정보를 예상한다(아래 그림 참조). 만약 새로 들어온 감각 정보가 불변표상을 가지고 예측한 모습과 일치하면 기존 뉴런시냅스의 조합이 유지되고, 만약 불일치하는 부분이 나타나면 그에 대해 새로운 판단이 내릴 수 있도록 조치한다. 만약 그러한 불일치가 반복되면 기존의 뉴런시냅스 조합이 갱신된다. 그러한 분류, 패턴 생성, 기억, 예측, 강화, 갱신 등의 과정이 바로 학습이며, 과거(기억)에 대한 유추를 통하여 미래를 예측하는 두뇌의 능력이 바로 지능이다.

진화적으로 보면, 신피질이 확대되고, 언어를 사용함으로써 인간의 지능은 다른 포유동물에 비해 획기적으로 향상되었으며, 고도의 상상, 창조, 논리적 추론 등이 가능해졌다. Hawkins에 의하면, 그럼에도 불구하고 인간 지능은 기억-예측 모형을 벗어나지 않는다. 

Image result for memory prediction model hawkins

Hawkins는 단순히 두뇌-지능을 연구만 할 뿐 아니라 직접 Numenta 라는 기업을 창업해서 연구와 기술 개발을 결합하고 있으며, 실제로 HTM (Hierarchical Temporal Memory)이라는 테크놀로지를 개발하였다(위 그림 참조). 그는 HTM을 이용하여 아직 상업화하지는 않았지만 여러 분야의 이상 탐지(anomaly detection)에 활용될 수 있는 애플리케이션들을 내놓고 있다.  (윤영민, 2018-02-25)

전자정부: e-Gov에서 i-Gov로

지난 수요일(2017/8/9) 행정안전부가 주최하고 NIA(한국정보화진흥원)이 주관한 ‘제1차 <4차 산업혁명 대응 전자정부 협의회>’에서 기조 발제를 했다. 10년 만에 2백여 명의 전자정부 전문가들 앞에 섰다.

2007년 참여정부가 끝나면서 2000년 국민의 정부 때부터 시작한  만 7년 동안의 전자정부 전문가로서의 활동에 종지부를 찍었다. 다시는 전자정부 전문가로서는 광화문에 나타나지 않겠다는 결심이었다. 아예 개인 전화번호까지 바꾸고 광화문을 떠났다. 지난 10여 년 전자정부의 부침을 바라보면서 때로 흐뭇하기도 하고 때로 실망하기도 하였지만 한번도 목소리를 내지 않았다.

그런데 전자정부에 새로운 방향이 절실하다는 생각을 하고 있던 참에, 새로운 정부도 들어섰고 발제에 대한 주최측의 간곡한 요청이 있었다. 정부가 전자정부 진화의 올바른 방향을 잡았으면 하는 바램도 있고, 정부 안팎의 전자정부 담당자들에게 힘을 좀 실어주겠다는 마음으로 요청을 수용했다.

발표 내용은 다음과 같이 요약될 수 있다. (발표문은 링크를 클릭)

  • 향후 30년 동안에 두 가지 요인이 전자정부의 미래를 좌우할 것이다. 특이점(singularity)의 도래와 민주화(혹은 권리주장이 강한 시민의 등장)이 그것이다.
  • 인간 향상과 유사인간(A.I., 로봇)의 출현은 다수의 인간-공무원을 잉여로 만들 것이다.
  • ‘지시’하고 ‘아웃소싱’하는 방식을 고수하면 전자정부 담당자들은 ‘잉여’를 면치 못할 것이다.
  • 스스로 업무를 수행할 수 있는 내부 역량을 갖추어야 한다. 알고리즘과 데이터 역량이 핵심이다.
  • 전자정부(e-Gov)는 지능정부(i-Gov)로 전환되어야 한다. 그러기 위해서는 정보(information)에서 데이터(data)로 전자정부의 무게 중심이 옮겨가야 한다. 그런데 아직도 그 두 가지를 혼동하는 사람이 많다.
  •  만약 4차산업혁명이란 것이 있다면 그것은 무엇보다 주체의 변신을 의미한다. 인간 향상과 유사인간-공무원은 그러한 변신의 일부이다. (윤영민, 2019-08-13)

사회연결망분석, 충분히 유용한가?(1)

지난 40여 년 동안 사회연결망분석(social network analysis, SNA)은 사회 현상을 이해하는데 유용함을 증명했다. 구직 활동에서 개인의 ‘약한 관계(weak ties)’가 중요함을 보인 마크 그라노베터(Mark Granovetter)의 연구, 구조적 공백(structural hole)을 잘 메꾸는 사람이 승진에 유리하다는 로날드 버트(Ronald Burt)의 연구, 그리고 미국 로비 단체들의 커넥션과 대기업들의 상호 지배를 밝힌 에드워드 라우만(Edward Laumann)의 고전적 연구부터 시작해서 최근 빅데이터를 이용한 SNS 분석에 이르기까지 사회현상분석에 있어 SNA가 보인 성과와 잠재성에 이의를 달 생각은 없다.

그러나 개인에 있어 사회연결망(social network)이 그렇게 중요하다면 개인의 행복, 불행, 외로움, 두려움, 정체감, 삶의 질을 연구하는데 도움이 되어야 한다. 또한 그것은 사회경제적 불평등, 남북한 대립, 과학적 발견, 기술적 혁신, 정치적 후진성, 구조 조정, 저출산, 고령화 등과 같이 우리 사회의 중대한 현안을 해결하는데 도움을 줘야 할 것이다. 그런데 과문한 탓인지 그런 문제에 대한 해법이나 영감을 얻는데 기여한 SNA 연구를 본 적이 없다. (혹시 그런 소중한 연구를 알고 있는 분은 내게 꼭귀뜸해 주기 바란다.)

나는 SNA가 그러한 한계를 보이는 것이 연구자들이 무능해서라고 생각하지 않는다. 사실 지난 30여 년 동안 미국사회학 분야에서 가장 머리 좋은 젊은 학자들 중 상당수가 SNA에 뛰어들었고, 최근에는 우리나라에서도 사회학은 물론이고 커뮤니케이션, 경영학, 정치학 등 여러 분야에서 우수한 신진 학자들이 SNA 연구를 하고 있다. 한 마디로 SNA연구가 사회과학 분야의 가장 뛰어난 신진 학자들을 대거 흡수하고 있다고 해도 과언이 아니다.

나는 그것의 가장 근본적인 이유가 SNA 모델링이 방법론적 금기(methodological inhibition)와 규정화 오류(specification errors)에 막혀 있기 때문이라고 본다. SNA라는 도구가 학자들의 문제의식과 상상력을 억압하고 있다는 말이다.

C. 라이트 밀즈(Mills)는 사회과학 연구자들이 문제 의식을 따라서 연구주제를 선택하기 보다 자신이 적용하는 방법론이 허용하는 연구주제를 선택하는 경향이 있음을 비판하는데 방법론적 금기라는 개념을 사용했다. 그 비판을 SNA 연구에 적용하면, 사회관계중 양적으로(quantitatively) 측정이 가능하고, SNA 모형으로 표현이 가능한 사회관계만이 연구 대상이 되고 있다고 말할 수 있다.

그러다보니 규정화 오류라는 두번째 문제가 발생한다. 동일한 척도로 측정될 수 없는 요인은 아예 처음부터 모형에서 제외된다. 그것이 설령 중요한 결정 요인이라고 해도 예외가 될 수 없다. 예컨대 대화를 트윗(tweets)을 수집해서 분석한다면, 설령 현실에서 바디 랭귀지나 눈빛을 통한 대화가 중요하다고 하더라도 분석 모형에 포함될 수 없으며, 트위터를 사용하지 않은 사회 집단, 애완 동물, 식물 같은 존재는 원천적으로 분석모형에 포함될 수 없다. 분석모형에서 중요한 결정요인이 빠져 있으면 요인들의 계수 추정은 신뢰할 수 없게 된다.

나는 사회연결망(social network)을 확장해서 타자 관계망(network of  others) 분석으로 나아가야 한다고 생각한다. 타자관계망 분석은, 나는, 왜 불행한가, 왜 외로운가, 혹은 왜 두려운가, 나는 누구인가, 내게 가장 중요한 존재는 누구인가, 나는 세계와 어떻게 관계 맺고 있는가 등과 같은 문제에 답을 줄 수 있을 것이다. 물론 관계망 분석은 개인의 사회적 상황이나 심리상태에 대한 설명을 넘어서 개인의 미래를 예측하는데 있어서도 대단히 효과적인 접근방법이 될 수 있을 것이다.

그 관계망은 사회연결망(social networks)과 다르다. 사회적 관계망에는 인간과 조직만이 노드가 되지만 타자 관계망(network of others)에는 사람, 조직, 국가, 지역사회는 물론이고 생물, 무생물, 교통, 통신, 자연 환경까지도 노드가 될 수 있다. 아래 그림을 보면 타자관계망이 사회연결망과 얼마나 다른 지 금방 느낄 수 있을 것이다.

I network6

이렇게 이질적이고 다층적이며 복잡한 관계망이 과연 도움이 될까? 나는 타자의 중요성(significance of others)을 중심으로 모델링을 하면 충분히 간략해질 수 있으며, 질적 분석과 양적 분석이 모두 가능하다고 생각한다. 그 잠재성을 검토해 보자. (계속)

소통 언어로서의 수학

SAMSUNG CSC

<수학의 정석>의 초판이 발행된 지 딱 50년이 되었다고 한다. 그 동안 그 책은 4천5백만부가 팔려서 우리나라에서 성경 다음으로 인기 있는 책이라는 명성을 얻었다. 심지어 어떤 비평가는 모 중앙 일간지의 ‘내 인생의 책’이라는 컬럼에 그 책을 올리기도 했다.

나는 스무살 때 어느 작은 학원의 단과반에서 <수학 1정석>을 가르친 인연도 있다. 그러나 나는 <수학의 정석>에 그렇게 후한 점수를 줄 수 없다. ‘정석’이라는 걸맞지 않은 이름으로 우리나라 수학 교육의 방향을 오도하는데 일조했다고 생각하기 때문이다.

<정석>은 우리나라의 문화에 수학이 계산을 하는 도구라는 인식을 뿌리박게 하는데 기여했다(심지어 수학을 암기 과목으로 만들었다는 의심도 있다). 그것은 수많은 개인들에게는 물론이고 국가적으로도 불행한 일이었다.

수학은 다른 더 중요한 얼굴을 가지고 있기 때문이다. 소통의 도구 혹은 하나의 언어로서의 수학이다. 수학은 신(god)의 언어라는 갈릴레오의 믿음까지는 아니더라도 동서양을 막론하고 뛰어난 인류의 스승들은 수학이 우주의 질서를 이해하는데 훌륭한 도구라는 사실을 의심하지 않았다.

<정석>으로 대변되는 우리나라의 수학 교육은 학생들로 하여금 그 점을 깨닫게 하는 데 완전히 실패했다. 사람들의 일상에서, 그리고 일상적 대화에서 수학이 얼마나 사용되지 않는가가 그 사실을 웅변적으로 증명한다. 수학은 영어, 한문, 일본어는 물론이고 프랑스어나 독일어만큼도 사용되지 않는다.

내가 재직하는 학과와 단과대학 졸업생 중 상당수가 광고업계로 진출한다. 광고업계에서는 “어떤 사용자가 내 클라이언트의 광고를 클릭할 가능성이 얼마나 될까?”는 매우 중요한 질문이 된다. 예를 들어 내가 수업시간에 어떤 학생으로부터, “교수님, 어떤 인터넷 사용자가 특정 광고를 클릭할 가능성을 어떻게 예측할 수 있을까요?”라고 질문을 받았다. 과연 내가 수학을 사용하지 않고 그 질문에 명쾌하게 답할 수 있을까?

이렇게 답할 수 있을 것이다.

“광고를 클릭할 확률의 로짓(logit)을 예측하는 로지스틱 회귀모형을 구성하고, 훈련데이터세트로 그 모형의 모수(parameters)를 구하면 가능하다.”

그러면 학생들이 고개를 끄덕거릴까? 결코 아니다. 학부는 물론이고 대학원 수업에서도 그런 대답은 학생들을 혼란에 빠트릴 것이다.

우리가 궁금한 것은 어떤 사용자가 우리의 광고를 클릭할 것인가 말것인가이기 때문에 그것은 범주적 변수(categorical variable)이고, 그 변수는 1(클릭함)과 0(클릭하지 않음)이라는 값(범주)를 가질 것이다. 그러면 수학적으로 이렇게 표현될 수 있다.

광고를 클릭할 확률()은 라는, 독립변수들()의 좀 복잡한 선형함수로 나타낼 수 있다.  여기서 는 지수함수를 가리킨다. 승산(odds)이라는 개념을 이용하면 이 식을 좀 더 간략히 나타낼 수 있다.

좌변은 광고를 클릭할 확률광고를 클릭하지 않을 확률로 나눈 승산(odds)이다. 광고를 클릭할 승산은 독립변수들의 영향을 선형으로 더한 지수함수이다. 여기서 양변에 log를 취하면 아래와 같다.

좌변을 로짓(logit)(혹은 승산의 자연로그, natural logarithm of the odds, 간단히 log-odds라고 부른다)이라고 부른다. 종속변수로 로짓으로 바꾸니 우리에게 익숙한 회귀 방정식(regression)이다. 만약 우리에게 이 광고에 관해 축적된 데이터가 있다면 와 를 어렵지 않게 추정할 수 있을 것이다. (참고로, 로지스틱 회귀(logistic regression)은 역로짓 함수(inverse-logit function)을 사용한다.)

좀 복잡해 보이지만 이 전개에는 고등학교 수준의 수학밖에 사용하지 않았다. 사실 나의 수학 실력도 고등학교 수준을 별로 벗어나지 않는다. 그나마도 40년 전에 배운 수학이다.

우리 사회에 매스포비아(math-phobia: 수를 두려워하는 사람)가 너무 많다. 우리 교육이 매스포비아를 양산하고 있는 것이다.

우리 사회는 빠른 속도로 수학과 통계학을 이용하는 기술 기반으로 바뀌어 간다. 그런데 우리의 학교 교육은 수학 ‘문맹자’를 양산하고 있다.

뜰 스케치

SAMSUNG CSC
감나무의 숨쉬기를 돕기 위해 나무 둘레의 복토와 잔디를 제거했으며, 벽돌을 둘러서 잔디의 접근을 차단했다. 나무야, 그 동안 미안했다.
SAMSUNG CSC
루드베키아
SAMSUNG CSC
매일 나리꽃의 수가 늘고 있다. 
SAMSUNG CSC
병 치료후 핀 첫 긴세카이(Ginsekai)
SAMSUNG CSC
프로이트(Fruite)
SAMSUNG CSC
마리안델(Mariandel)
SAMSUNG CSC
심식을 피하기 위해 며칠 전 이식한 장미의 복토를 제거했다.

 

(Bayes 학습)(1) ‘확률’을 새롭게 인식하며

고등학교 수학 교과서에 따르면 어떤 “사건이 일어날 확실성을 수량적으로 나타낸 것”이 확률(probability)이다. 근원 사건이 같은 정도로 일어난다고 가정할 때, 어떤 사건의 확률 P(A)은 사건 A가 일어나는 경우의 수()를 일어날 수 있는 모든 경우의 수(N)로 나눈 값이다. 이것을 수학적 확률이라고 한다.  (참고로 근원 사건이란 더 이상 분해되지 않는 사건을 말한다.)

P(A) = {N_A \over N} .

두 개의 주사위를 동시에 던질 때, 눈의 합이 5로 되는 확률을 예로 들 수 있을 것이다. 전자의 경우를 보면, 표본공간(sample space) N은 6*6 = 36이고, 눈의 합이 5가 되는 사건(event)은 (1,4), (2,3), (3,2), (4,1)의 4 가지이므로 구하는 (수학적) 확률은 4/36 = 1/9이다.

그러나, 현실은 동전이나 주사위 던지기가 아니다. 근원 사건이 같은 정도로 일어난다는 가정이 성립되지 않을 수도 있고(예: 혈액형 유형별 발생 확률), 표본공간 N의 크기가 알 수 없거나 무제한 일 수도 있을 것이다. 그런 경우 수학적 확률을 구하기 어렵거나 심지어 불가능할 것이다. 그럴 때 우리는 통계적 확률로 수학적 확률을 대신한다.

시행의 횟수 n이 커짐에 따라 사건 A가 일어나는 상대빈도(relative frequency) 이 일정한 값 p와 거의 같다고 간주할 수 있을 때, 그 p를 통계적 확률이라고 말한다.

\lim_{n \to \infty}{n_a \over n}=p

상대빈도와 확률 사이에 이러한 관계를 성립시켜주는 것은 대수의 법칙(the law of large numbers)이다. 대수의 법칙에 따르면 통계적 확률과 수학적 확률이 일치한다. 따라서 수학적 확률을 알 수 없을 때 통계적 확률을 대신하고, 상대빈도로 통계적 확률을 근사할 수 있다.

예컨대 100원짜리 동전을 던져서 앞면이 나올 통계적 확률을 구하기 위해서는 실제로 동전을 한 1천번 정도 던져보아야 한다. 만약 정말로 1천번을 던져서 앞면의 수가 501번이 나왔다면 통계적 확률이 1/2이라고 말할 수 있다.

여기까지가 중고등학교에서 배운 확률의 정의이다. 이 확률의 정의를 가지면 현실의 문제를 다루는 데 충분할까?

사실 현실에서 상식적으로 확률을 그런 의미로 사용하는 경우는 드물다. “우리 아이가 A 대학에 붙을 확률이 얼마나 될까요?” “북한이 남한에 대해 미사일 공격을 가해 올 확률이 얼마나 될 거라고 생각하세요?” “내일 오전에 비가 내릴 확률이 얼마나 될까요?” “소풍 가는 날 맑은 날씨일 확률이 얼마나 될까요?” “더민주당이 총선 이후 다시 제1야당이 될 확률이 얼마나 될까요?” “안철수 의원이 새정치국민연합을 탈당할 확률이 얼마나 될까요?” “백혈병 환자의 5년 이상 생존율이 얼마나 되나요?” “말기 폐암 환자가 1년 이상 생존할 확률이 얼마나 되나요?” “저 백혈병 환자가 1년 이상 생존할 확률이 얼마나 될까요?” “에이즈 검사 결과가 양성으로 나온 저 남자가 실제로 에이즈에 감염되었을 확률은 얼마나 되나요?” “그녀가 사업에 성공할 확률이 얼마나 될까요?” 이 사례들은 모두 정당한 확률적 의문이다.

즉, 이 사례들에서 보듯이 현실에서 사람들은 확률을, 반복적이지 않은 사건의 객관적인 발생 가능성을 가리키는데 사용하기도 하고, 또 어떤 사건의 발생 가능성에 대한 주관적인 믿음의 정도(degree of belief)나 지식의 상태(state of knowledge)를 가리키는데 사용하기도 한다.

수학적 확률이나 상대빈도(relative frequency)는 반복적으로 많은 횟수가 발생하는 사건의 객관적인 발생 가능성을 숫자로 나타내는 데 유용함이 분명하다. 그러나 희소한 사건의 발생 가능성, 혹은 반복적이지 않은 사건의 발생 가능성은 어떻게 숫자로 표현할까? 혹은 어떤 사건의 발생 가능성에 대한 전문가의 확신을 추정이나 예측에 반영할 수 있는 길은 없을까?

베이즈 추론(Bayesian inference)은 그러한 상상에 유용한 접근 방법이 될 수 있다. 관찰값이 주어졌을 때, 그것으로부터 관찰이 불가능한 모수(parameters)의 값을 추정하거나, 또는 관찰값이 주어졌을 때, 그것으로부터 미래에 혹은 다른 사례에서 동일한 현상이 나타날 가능성을 예측하는데 대단히 유용할 수 있다.

베이즈 추론은 “관찰값이 주어졌을 때”, 다시 말해 어떤 특정한 조건이 주어졌을 때, 모수를 추정하거나 미지의 수를 예측하기 때문에 근본적으로 조건부 확률(conditional probability)이다. 조건부 확률을 복습하면서 베이즈 정리를 도출해 보자.

사건 A가 일어났을 때의 사건 B의 조건부 확률 P(B|A)는

 , P(A) ≠ 0

으로 표시된다. 여기서 양변에 P(A)를 곱하면,

가 된다. 이것은 바로 확률의 곱셈정리이다.

그런데 집합의 교환법칙에 따르면,  이므로,

가 된다. 여기서 양변을 P(A)로 나누면,

   , P(A) ≠ 0

베이즈 정리(Bayes Theorem)가 도출되었다. 말로 풀어보면, 사건 A가 일어났을 때 사건 B가 일어날 조건부 확률 P(B|A)은 사건 B가 일어날 확률 P(B)에, 사건 B가 일어났을 때 사건 A가 일어날 조건부 확률 P(A|B)를 곱한 값을 사건 A가 일어날 확률 P(A)로 나눈 값과 같다. 베이즈 추론은 이 베이즈 정리에서 출발한다. 이 정리가 그렇게 중요할 줄은 고등학교 때는 물론이고, 대학 수학 시간이나 대학원 통계학 시간에도 상상하지 못했다. 다음에는 베이즈 정리를 좀 깊이 이해해 보자. (윤영민, 2016/02/29)

장미가 아름다운 이유

SAMSUNG CSC2014년 6월 26일

장미동산이 겨울잠에서 깨어난다. 지금부터 12월까지 장미와 많은 시간을 보내게 될 것이다. 전정을 하고, 좋은 묘목을 구하고, 묘목을 심고, 지지대를 만들어주고, 거름을 주고, 물을 주고, 약을 주고….그리고 꽃과 대화를 나눈다.

장미를 건강하고 아름답게 키우려면 잠시도 방심할 수 없다. 어쩌면 장미가 아름다운 이유는 주인의 엄청난 애정과 보살핌 때문일 것이다.

SAMSUNG CSC2015년 5월 21일

따뜻한 남도에서는 5월부터 11월까지 정원에 장미꽃이 핀다. 물론 5월의 장미가 가장 건강하고 아름답기는 하지만 눈과 서리 속이라고 장미가 예쁘지 않은 것은 아니다.

장미의 강적은 습기와 진딧물이다. 장미 잎은 항상 건조한 상태를 유지해야 한다. 그래서 비가 자주 내리는 장마철을 온전히 나기가 쉽지 않다. 또한 벌레들이 장미를 무척 좋아한다. 특히 진딧물이 그렇다. 진딧물을 철저히 잡아주지 않으면 꽃봉우리조차 성하지 못하게 된다.

과연 그렇게 많은 공을 들여가면서 키워야할만큼 장미가 매력적인 꽃인가? 내게는 그렇다. 릴케에게도 그랬을 것이다. 꽃을 사랑하는 누구에게라도 그렇지 않을까. (윤영민, 2016/02/21)