책에 관한 열 가지 지혜: 아이들에게

library-100616524-primary.idge
University of California, Berkeley, DOE Library 서가. 수백만 권의 책이 꽂힌 서가에 앉아 있다보면 무엇보다 겸손해진다.

아이들에게 책에 관한 지혜를 들려주고 싶다. 그 지혜를 실천에 옮기는가는 온전히 그들 자신에게 달려 있다.

첫째, 세상의 진리는 오직 책에 담겨 있다. 인류 최고의 스승, 최고의 지혜는 오직 책을 통해서 만날 수 있다. 노자, 석가모니, 예수, 무함마드, 소크라테스, 피타고라스….이순신, 아인쉬타인 등등. 책을 통하지 않고 만날 수 있는 현자를 한 명이라도 말해 보거라. 현자의 지혜는 스스로 글을 써서 남겼거나, 누군가가 책에 남겨 놓았다. 그렇지 않은 지혜는 모두 잊혀졌다. 책에 대해서 다른 소리를 하는 사람을 상대하지 말라. 그는 둘 중의 하나이다. 세상을 모르는 자거나 너를 속이려는 자이다. 진리를 영화나, 게임, 강연, 혹은 인터넷으로 얻을 수 있다는 주장은 엉터리이거나 거짓말이다.

둘째, 책의 형식에 구애받지 말라. 그것이 양피지든, 대나무든, 종이든, e-book이든 무슨 상관이냐? 시대적 기술 여건에 맞는 형식이 있을 뿐이다. 형식은 책을 읽지 않을 핑계가 될 수 없다.

셋째, 어떤 저자도 완전히 믿지 말고 어떤 저자에게도 기죽지 말라. 저자들, 특히 뛰어난 천재들은 친절하지도 착하지도 않다. 재미삼아 독자를 희롱하기도 하고 속이기도 한다. 항상 숲 전체를 보면서 나무를 대하라. 그러면 길을 잃지(속지) 않을 것이다. 세상의 모든 것을 아는 사람은 없다. 천재는 뽐내기를 좋아한다. 자신의 천재성을 인정받고 싶어하는 것이다. 그리고 천재라고 반드시 전달력이 뛰어난 것도 아니다. 게다가 자신이 무슨 말을 하고 있는 지 모르는 저자들도 수두룩하다. 비평가나 해설자에게 의지하려고 하지도 말라. 비평이나 해설은 책 좋아하는 사람들이 밥먹고 살기 위해서 하는 직업적 활동일 뿐이다. 저자가 책을 통해서 무슨 말을 하려고 했는가를 판단하는 유일한 사람은 바로 너 자신임을 잊지 말라.

넷째, 환경을 고르지 말라. 시간과 장소를 가리지 말고 책을 읽어라. 책에 몰입하면 주위에 무슨 일이 벌어져도 알 수 없게 된다. 훈련하면 그것이 가능하다. 얘들아, 이점에 대해서는 나를 믿어라.

ph_doe
University of California, Berkeley DOE library reference 열람실. 이런 환경에서 책 읽기를 기대하지 말라.

다섯째, 어떤 책이든 하루에 읽는 것을 목표로 하라. 대부분의 책은 하루에 읽을 수 없다. 그러나 하루에 다 읽기를 목표로 삼으라. 그러면 놀라운 집중력이 생길 것이다. 인류 최고의 현자를 만나 대화를 나누는데 그 정도의 자세를 갖추지 않고는 결코 지혜를 얻을 수 없다. 현실에도 그렇지 않겠는가? 아인쉬타인, 달라이 라마, 혹은 프란치스코 교황을 실제로 만났다고 생각해 보거라. 책을 하루에 다 읽지 못하는 사람은 일주일을 줘도 다 읽지 못하고, 한 달, 아니 일년을 줘도 다 읽지 못한다. 잘못된 책 읽기를 하기 때문이다. 반대로 독서 방법이 올바르면 헐거운 책은 몇 시간에도 다 읽을 수 있다.

여섯째, 책 읽는 프로가 되어라. 손에 쥔 책을 어떻게 요리할 것인가를 기획하라. 인류 최고의 스승을 만나는데 그 정도 준비없이 되겠는가? 시간 계획, 대화 기획(읽는 순서), 정리 계획이 기본이다.

일곱째, 맘에 드는 책만을 읽지 말라. 편식하면 육신처럼 영혼도 영양실조에 걸린다. 맘에 들지 않은 책일수록 더 정성껏 읽어라.

여덟째, 지식을 자랑하기 위해 책을 읽지 말라. 우리가 평생 읽어봐야 도서관의 한 귀퉁이에 꽂힌 책들도 다 읽지 못한다. 내가 다니던 대학원 도서관의 본관은 책장의 길이만 84km였다. 아마도 300만권의 책은 그곳에 있었으리라. 그런데 더 놀라운 점은 그곳에는 32개의 도서관이 있고 책은 1천만권에 달한다는 사실이다. 미국 의회도서관과 하버드에는 그보다 더 많은 책이 있다. 책 몇 권 읽고 아는 척하지 말라. 그것은 바보나 하는 짓이다.

UCB-University-Library
University of California, Berkeley Main Library인 DOE Library의 정면. 저 문을 들어갈 때마다 마치 교회 문을 들어가듯이 경건해졌다. 인류의 스승들이 모두 저기에 모여 있지 않는가.

아홉째, 독서는 네 인생에 있어 어떤 보장도 해주지 않는다. 하지만 책을 읽지 않고는 어느 분야의 리더도 될 수 없다. 독서가 행복을 가져다 주지도 않고, 출세를 보장해 주지도 않는다. 그러나 책을 읽지 않고는 행복하거나 존경받는 리더가 될 수는 없다. 때로 천한 영혼이 지배자가 되기도 하지만, 그것은 그가 운이 좋았을 뿐이다. 운을 믿지 말라. 운이란 우연이다. 우연을 믿고 세상을 사는 사람처럼 어리석은 자는 없다.

열째, 밥은 굶어도 책 읽기를 건너 뛰지는 말라. 육신의 배고픔이야 밥 한 숟갈로 간단히 달래지지만 영혼의 갈증은 쉽게 해소되지 않는다. 영혼은 오직 진리를 먹고 살기 때문이다. 진리는 쉽게 섭취할 수 없다. 그런데 매일 진리를 먹지 않으면 영혼이 메마른다. 육신이 음식으로 영양분을 섭취하듯이 영혼은 책을 통해서 영양분을 섭취한다. 결코 손에서 책을 놓지 마라.

(Bayes 학습)(6)마르코프 연쇄-(1)

학부나 대학원 수업에서 나는 마르코프 연쇄(Markov chains)에 관해 배운 적이 없다. 다만 대학원 재학시절 범주형 데이터 분석(categorical data analysis)을 혼자 공부하면서 책에서 스쳐 지나가듯이 읽었을 뿐이다.

그것은 나와는 전혀 관계가 없을 지식이고, 그것을 몰라도 내가 평생 동안 사회학자로서 사는 데 문제가 되리라 예상되지 않았다. 사회학에서는 횡단적 데이터(cross-sectional data)를 다루지 종단적 데이터(longitudinal data)는 거의 다루지 않는다. 그래서 경제학과는 달리 수업에서 시계열 데이터 분석(time-series data analysis)을 별로 가르치지 않는다. 그러니 마르코프 연쇄가 나의 관심에서 벗어나 있었던 것은 전혀 놀랍지 않다.

그러나 세월이 변했다. 지난 수십 년 동안 마르코프 연쇄는 온갖 분야에서 그것의 유용성을 드러냈다. 예컨대 구글의 검색 알고리즘인 페이지 랭크(PageRank)가 마르코프 모형을 사용하고 있고, 데이터 과학에서 마르코프 연쇄는 빼놓을 수 없는 부분이다. 오늘날 마르코프 연쇄 몬테카를로(Markov Chain Monte-Carlo, MCMC) 방법 없는 베이즈 추론은 상상하기 어렵다. 그것은 인공지능(Artificial Intelligence)의 원리인 기계학습(machine learning)에도 응용되고 있다. 이 정도면 데이터과학을 공부하는 학도가 마르코프 연쇄를 제대로 이해해야 함은 이론의 여지가 없어 보인다.

마르코프 연쇄는, 확률변수(random variable)가 어떤 상태(state)에 도달할 확률이 오직 바로 이전 시점의 상태(state)에 달려 있는 경우를 가리킨다. 만약 한 인터넷 사용자가 어떤 웹페이지에 있을 확률이 그 사람이 바로 직전에 어떤 웹페이지에 있었는가에 달려 있다면 인터넷 사용자의 웹페이지 방문은 마르코프 연쇄 모형을 따르고 있다고 말할 수 있다. 또 어떤 시점에서 한 청소년이 부모와 어떤 관계를 갖고 있는가가 그 바로 직전 시점에서 그 청소년이 부모와 어떤 관계를 갖고 있는가에 달려 있다면(더 이전에 그 청소년이 부모와 어떤 관계를 갖고 있었는가는 무시해도 될 정도라면), 청소년과 부모와의 관계는 마르코프 연쇄 모형을 따른다고 말할 수 있다.

마르코프 연쇄를 이해하는 가장 기본적인 개념은 상태(state), 추이(transition), 추이행렬(transition matrix), 추이도형(transition diagram), 의사결정 나무(decision tree), 정상 마르코프 연쇄(stationary Markov chain) 등이다. 그리고 행렬대수(Matrix algebra)에 관한 지식이 다소 필요하다.

마르코프 연쇄는 확률변수의 상태 변화(혹은 추이)에 대한 모형이다. 상태(state)는 물리적 위치, 심리적 상태, 재정적 상태, 경제적 상태, 정치적 상황, 시장 점유율, 사회적 관계 등 어떤 것이든 가리킬 수 있다. 그리고 특정 변수가 가질 수 있는 모든 상태를 상태 공간(state space), 변화가 멈춘 상태를 정상 상태(steady state 혹은 stationary state)라고 한다.

유튜브에 올라온 강의(Patrick JMT)의 사례를 가지고 살펴보자. 오렌지 쥬스(Brand A)를 생산하는 어떤 기업이 광고 캠페인을 전개해서 시장 점유율을 높이고자 한다. 광고를 시작하기 전 Brand A의 시장 점유율이 20%이고, Brand A에 관한 광고를 보고 어떤 사람이 계속 Brand A를 구입할 수도 있고, 다른 Brand 제품(Brand A’라고 하자)을 구입할 수도 있을 것이다. 어떤 사람은 다른 브랜드 제품을 사용하다가 광고를 보고 브랜드 A로 전환할 수도 있고, 그냥 그 브랜드 제품을 계속 사용할 수도 있을 것이다. 광고를 보고 브랜드 A를 마시던 사람이 계속 브랜드 A를 마실 확률이 0.9이고, 다른 브랜드 제품으로 갈아탈 확률이 0.1이며, 다른 브랜드 제품을 마시던 사람이 브랜드 A를 마시게 될 확률이 0.7이고, 그냥 기존의 브랜드 제품을 마실 확률이 0.3이라고 하자.  바로 그것이 소위 추이 확률(transition probability)로 표현된 광고의 효과이다. 이를 행렬로 표시하면,

 행렬은 광고를 시작하기 전 오렌지 쥬스 시장에서의 Brand A(A)와 여타 제품(A’)의 시장 점유율을 나타낸다. (참고: 행렬 안에는 숫자만 들어가지만, .2와 .8이 무엇을 나타내는가를 보여주기 위해 A와 A’을 넣어서 표시했다. 다음에는 이라고만 표시하겠다.)

이 를 추이 행렬(transition matrix)라고 부른다. 그것은 광고의 효과를 나타내는 확률이기 때문에 광고 기간 동안 동일하다고 가정할 수 있을 것이다. (참고: 이 행렬에도 행(row)과 열(column)이 무엇을 나타내는가를 보여주기 위해 행렬 안에 A, A’를 넣었다. 행은 시작하는 상태를, 열은 도달하는 상태를 나타낸다. .9는 A가 A로 바뀌는(사실 A가 그대로 남는 경우) 확률, .1은 A가 A’으로 바뀌는 확률, .7은 A’가 A로 바뀌는 확률, 그리고 .3은 A’가 A’로 바뀌는 확률을 가리킨다. 이제 간단히 로만 표시하겠다.)

만약 매주 광고 효과를 시장점유율로 측정한다면, 광고가 나간 1주 후 Brand A의 시장점유율은 어떻게 될까? 그것은 아래와 같이 계산할 수 있다.

일주일 후 Brand A의 시장 점유율은 74%이다! 광고를 하고 일주일만에 시장점유율이 20%에서 74%로 오른 것이다. 그 다음 일주일 후에는 시장 점유율이 어떻게 될까?

84.8%가 되었다! 광고 효과가 여전히 놀랍다. 그렇다면 머지않아 Brand A는 오렌지 쥬스 시장을 싹쓸이 할 수 있을까? 다음 포스팅에서 살펴보자.

(Bayes 학습)(5) 카이자승과 자유도

베이즈 추론을 학습하다가 멀리까지 왔다. 베이즈 추론을 제대로 배우려면 확률과 통계, 그리고 미적분과 행렬대수(matrix algebra)를 알아야 한다. 기초없이 가다보면 결국 벽에 부딪치고 다시 기초로 돌아가게 된다.

이번에는 카이자승() 검증과 자유도(degree of freedom)에 관해 알아보자. 아래의 교차표는 고등학교 학생 30명에게 “TV를 많이 보는가?”와 “공부를 열심히 하는가?”라고 물어본 결과이다. 이 표에 제시된 데이터는 고등학생들의 열공 여부와 TV 시청 사이에 상관관계가 있음을 지지하는가?

TV를 많이 보는가?
공부를

열심히

하는가?

아니오
5(6.7) 5(3.3) 10
아니오 15(13.3) 5(6.7) 20
20 10 30

교차표의 자료를 가지고 두 변수 사이의 관계를 검증하는 대표적인 통계 척도가 이다. 은 교차표의 각 칸(cell)의 관찰빈도(observed counts)와 두 변수 사이에 아무런 관계가 없다는 영가설이 진실일 때 기대되는 각 칸의 빈도(expected counts)와의 비교에 기초를 둔 통계척도이다.

위의 교차표에서 만약 열공 여부와 TV 시청 정도 사이에 아무런 관계가 없다는 가정 아래 각 칸에 들어갈 빈도를 계산해 보자. 영가설의 기대빈도는 행과 열의 각 범주의 주변빈도를 곱한 다음 표본의 크기()으로 나누어주면 될 것이다. 예컨대, 양쪽 질문에 모두 ‘예’라고 답한 칸의 기대빈도는 20*10/30=20/3=6.7이 될 것이고, 열공여부에 ‘예’라고 답하고, TV 시청 정도에 ‘아니오’라고 대답한 칸의 기대빈도는 10*10/30=3.3이 될 것이다. 나머지 두 칸의 기대빈도도 같은 방식으로 계산하면 될 것이다. 각 칸의 괄호 안에 기대빈도를 표시했다.    값을 구하기 위해서는 각 칸의 관찰빈도와 기대빈도의 차이를 자승하고, 그 다음 그 값을 그 칸의 기대빈도로 나눈다. 그리고 그 값을 모두 더하면  값이 구해진다.

=1.96인데, 그 수치를 어떻게 해석해야 하는가? 그 통계치에 대해 판단을 내리려면  의 표집분포를 상정해야 한다. 그것은 앞 글에서 평균의 표집분포를 상정해서 표본 평균에 대해 판단을 내린 것이나 마찬가지 원리이다. 그런데 의 표집분포(간단히    분포)는 자유도(degree of freedom)라는 것의 값에 따라 모습이 다르다. 아래 그림을 참고하라.

ch-_square_dist

그렇다면 자유도가 무엇인가? 이것은 통계학을 배우는 학생들에게 가장 난해한 개념 중 하나이다.

자유도어떤 통계값을 구하는데 있어 자유롭게 변할 수 있는 값의 수효이다. 이게 도대체 무슨 말인가?

예컨대, 세 개의 수가 있는데, 그 세 수의 평균()이 주어져 있다면, 그 세 수 중 두 개가 정해지면 나머지 하나는 자유롭게 변할 수 없다. 만약 평균이 2이고, 이 1이고, 가 1이면, 는 반드시 4가 되어야 한다. 이 경우 자유도(통상 df라고 표기한다)는 2이다. 분산()을 보자. 분산이란 한 표본이 얼마나 퍼져있는지를 보여주는 통계척도이다. 분산을 구하려면 표본의 각 값에서 평균을 뺀 값을 제곱하여 더하고 표본의 크기()로 나누어주면 될 것이다. 그런데, 평균이 먼저 구해져야 분산을 구할 수 있다. 그런데 위에서 보듯이 평균이 정해지면 자유도 하나를 잃는다. 따라서 분산의 자유도는 이다. 만약 편차의 제곱을 으로 나누면 분산을 과소평가하게 된다. 따라서 분산을 정확히 계산하기 위해서는  대신 로 나누어야 한다. 즉, 정확성을 확보하기 위해 자유도로 보정해 주는 것이다.

교차표에서 자유도는 누계가 고정된 상태에서 값이 자유롭게 변할 수 있는 칸의 수이다. 어느 두 변수간의 교차표에서든  통계치의 자유도는 행(row)에서 1을 뺀 숫자와 열(column)에서 1을 뺀 숫자를 곱하면 된다. 공식은 아래와 같다.

위 표의 자유도는 1이다((2-1)*(2-1)=1). 우리가 신뢰수준을 95%(0.05)으로 설정한다면, 의 임계치(critical value)는 자유도가 1일 때 3.84이다. 만약 자유도가 2라면 임계치가 5.99, 자유도가 3이라면 임계치가 7.81이다(통계학 책 부록으로 있는의 임계치 표를 참조하라). 위에서 우리가 계산한 표본의   값이 1.96이므로 임계치인 3.84보다 작다. 관찰빈도와 영가설 아래서 추정한 기대빈도의 차이가 신뢰수준의 기준치보다 작다는 말이다. 그러므로 우리는 영가설을 기각하는데 실패했다. 따라서 이 자료로 볼 때 열공 여부와 TV시청 정도는 서로 관계가 있다고 보기 어렵다고 결론을 내릴 수 있을 것이다.

이렇게 자유도는 통계값을 보정하기 위해 사용되기 때문에 자유도에 의해 분포의 모습이 크게 달라지는 검증에서 자유도는 대단히 중요한 역할을 수행한다. 우리가 앞에서 언급했던  검증에서도 그렇다.

이 글에서는  검증을 가지고 자유도를 설명했다. 통계적 추론을 위해서는 자유도의 개념을 잘 이해하고 기억해 두어야 할 것이다.

(Bayes 학습)(4) P-value, 표집분포, 가설 검증

“아빠, (카이 자승)은 어떻게 계산하고, 어디다 쓰는 거야?” 자동차를 타고 가면서 막내가 물었다. 카이 자승을 한참 설명하고 났더니, 다음에는 p-value가 무어냐고 물었다. 막내의 통계학 공부가 드디어 기술통계(descriptive statistics)에서 추론통계(inferential statistics)로 넘어가는 단계인 모양이다. 사실 그 때가 통계학을 배우면서 가장 혼란스런 순간이기도 하고 가장 중요한 순간이기도 하다. 그래서 추리통계의 기초를 좀 정리해 보았다.

우리가 통계학을 배우는 근본적인 이유는 불확실성의 세계 혹은 미지의 세계를 체계적으로 탐색하기 위해서이다. 평균적으로 우리 나라 고등학생들의 키는 얼마나 될까 라는 의문을 생각해보자. 우리 나라 고등학생들의 키를 모두 재서 평균을 내면 될 것이다. 문제는 그것이 현실적으로 불가능하다는 데 있다. 고등학생 전체 숫자가 한 1백50만명은 될텐데, 그들의 키를 무슨 수로 다 잴 것인가? 전체 학생수가 많기도 하지만 학교에 결석하는 학생들도 적지 않을 테니 말이다. 고등학생들의 평균 신장은 근본적으로 미지의 모수(unknown parameter)이다. 그것을 라고 하자.

미지의 모수인 는 결코 정확히 알 수 없다. 다만 그것의 근사값이 추정될(inferred) 수 있을 뿐이다. 가장 좋은 추정 방법은 고등학생들을 몇 백명 정도 무작위 표집해서 그들의 키를 재고 그 통계치(sample statistics)를 가지고 를 추정하면 될 것이다. (참고로 무작위 표집(random sampling)이란 모든 고등학생들이 뽑힐 확률이 동일하다는 조건을 만족시키면서 추출해야 한다는 의미이다. 사실 이것도 쉽지 않은 작업이다.) 예컨대 무작위로 4백명()을 뽑아서 그들 키의 평균()과 표준편차()를 계산했더니, 각각 168cm, 13cm였다고 하자. 우리는   라는 알고 있는 표본정보(known sample statistics)를 가지고 미지의 모수(unknown population parameter) 를 추정할 수 있다. 추리 통계(inferential statistics)란 바로 그러한 추정을 가능하게 해주는 학문적 지식이다.

통계적 추론을 위해서는 몇 가지 기본 지식이 필요하다. 그 중 첫째가 중앙집중한계정리(central limit theorem)이다. 중앙집중한계정리란 아래와 같다.

표본의 크기()가 충분히 크면,  평균()의  확률분포[표집분포(sampling distribution)라고 부른다]는 모집단 분포의 모양과 상관없이 정규분포(normal distribution)를 이룬다. 그 분포의 평균은 이고, 분산은  이다.

중앙집중한계정리를 그림으로 표시하면 아래와 같다.

centrl_limit_theorem  이 그림에서 파란색으로 된 그래프가 모집단의 분포이고, 붉은색으로 된 그래프가 표집분포이다. 그런데 표집분포(sampling distribution)가 무엇인가? 적지 않은 학생들이 표집분포에서 좌절하고 만다. 일종의 가상적 상황이 도입되기 때문이다. 표집분포란 반복해서 표본을 추출한다(표본추출은 실험으로 간주될 수 있다)고 가정했을 때 우리가 얻게 되는 평균()의 확률분포이다. 표본을 반복해서 추출하다니….한 번 뽑는데도 얼마나 비용이 많이 드는데….그러니 가상적인 상황이다. 표본추출이 실험이니 그 ‘실험’의 결과인 평균은 확률변수이고 그것의 확률분포가 정규분포라는 것이다(아래 그림 참조). 전통적인 통계학에서 이 가상적인 분포를 가지고 추론(혹은 추정)을 한다. 표집분포중앙집중한계정리의 힘을 빌리지 않으면 추론이 불가능하다.

img_samp_dist

정규분포의 모양은 잘 알려져 있다. 를 중심으로 1 (표준편차의 1배)까지의 면적은 전체 면적의 34.1%이고, 2(표준편차의 2배)까지의 면적은 47.7%, 3(표준편차의 3배)까지의 면적은 49.8%이다. 를 중심으로 양쪽을 모두 고려한다면, 좌우대칭이기 때문에 의 면적은 전체 면적의 68.2%, 의 면적은 95.4%, 의 면적은 전체 면적의 99.6%이다. 기억하겠지만 정규분포에서 표준편차의 배수를 나타내는 도구는  값(z-value) 혹은  값(t-value)이다. 분포의 분산()을 모르면  값을 사용한다.  값이 2이면 양쪽 면적이 95.4%이다. 양쪽 면적이 전체 면적의 95%가 되는  값은 1.96이다.

 

Standard_deviation_diagram.svg

z 값이나 t 값의 확률(밀도)은 정규분포의 확률밀도함수를 적분해서 구해야 하기 때문에, 복잡한 수학적 계산을 피할 수 있게 해주기 위해 자주 사용되는 z 값이나 t값에 관한 확률(Pr (Z  z))이 표로 만들어져 통계학 책의 부록으로 실려 있다.

요즘에는 표 대신 스마트폰 어플을 이용해서도 쉽게 구할 수 있다.  미국 아이오아대학교 통계학과 Mattew Bognar 교수가 Probability Distributions라는 어플을 무료로 제공하고 있다. (그가 운영하는 웹사이트에서 애플릿을 이용해서도 계산할 수 있다. http://homepage.divms.uiowa.edu/~mbognar/applets/normal.html)

distribution

통계적 추론을 위해서는 몇 가지 개념이 더 필요하다. 신뢰수준(confidence level), 영가설(null hypothesis), p-value, 자유도(degree of freedom),  검증 정도는 정확히 이해해야 한다. 그래야 상관관계분석, ANOVA, 교차표(cross-table) 분석, 회귀분석 등을 기초적인 수준에서나마 수행할 수 있다.

신뢰수준이란 연구자가 어느 정도의 확신을 가지고 추정(혹은 검정)을 할 것인가에 대한 기준이다. 확신의 기준이 높을수록 실수할 가능성도 높아질 것이다. 예컨대 불확실한 현상에 대해 다른 조건이 동일하다면, 100% 확신을 가지고 추정하면, 90% 확신을 가지고 추정할 때보다 실수할 가능성이 높다. 실수할 가능성을 낮추려면 확신의 기준을 낮춰서(다시 말해, 좀 넉넉하게) 추정해야 한다.

우리가 95% 신뢰수준(confidence level)에서 모집단의 평균 를 추정하면,

 …….(1)

이 될 것이다. 이 식에서 는 우리가 가진 표본의 평균이고,  가 0.025(양쪽을 합치면 0.05이다)이 되는 값으로 1.96이다 (는 유의수준(significance level)인데, 그것은 영가설이 진실인데도 기각할 확률을 의미한다.   =1-신뢰계수이다. 95% 신뢰수준은 신뢰계수가 0.95이다). SE (Standard Error)는 표본의 표준편차와 표본의 크기를 가지고, 즉, 으로 추정할 수 있다. 식 (1)을 다시 쓰면,

 …….(2)(* 이 식이 어디에서 왔는가를 이해하려면 z-value와 t-value를 복습할 것)

이 된다. 이 공식을 우리의 평균키 사례에 적용해 보자.  를 대입하면,

이다. 식을 정리하면,

즉, 우리나라 고등학생들의 평균키()는 95% 신뢰수준에서 166.7cm와 169.3cm 사이라고 추정된다.

통계학은 가설(hypothesis)을 검증하기 위해 자주 사용된다. 가설이란 어떤 연구문제에 대한 잠정적인 답변이다. 잠정적이라는 표현은 그것의 검증이 요구된다는 의미이다. 검증을 위해서는 영가설(null hypothesis)대립가설(alternative hypothesis)를 세운다. 영가설이란 문자 그대로 변수들 사이에 서로 관계가 없다든가 어떤 실험 처지(treatment)의 효과가 없다는 의미로 사용된다. 영가설은 흔히 이라고 표기된다. 대립가설은 변수들 사이에 관계가 있다 혹은 실험 처지의 효과가 있다는 의미로 사용되며, 흔히 로 표기된다.

왜 영가설 따위가 필요한가? 다소 복잡한 철학적 이유까지 있기는 하지만 단순화시켜서 말하자면 경험과학이 지닌 검증의 한계 때문이다. 경험과학은 귀납법을 사용해서 자신의 주장(가설로 표현된다)을 입증한다. 그런데 아무리 데이터를 많이 제시해도 단 한 개의 예외만 발견되면(그리고 현실에서는 그런 경우가 아주 많다) 검증 결과는 바로 공격받게 된다. 즉, 경험과학에서는 가설(그것이 대립가설이든 영가설이든)이 참일 확률을 계산할 수 없다. 오직 가능한 것은, 영가설이 참일 때 우리가 손에 든 데이터를 얻을 확률을 계산할 수 있을 뿐이다. 그것이 곧 p value (p 값)이다.

이렇게 경험과학에서는  자기의 주장을 직접 검증하지 못하고 우회적으로 검증할 밖에 없다. 영가설 검증을 통해서 대립가설을 우회적으로(어떻게 말하면 겸손하게) 검증하는 것이다. 영가설은 기각하거나(reject) 기각에 실패한다고(fail to reject) 표현한다. 만약 영가설을 기각하면, 데이터가 대립가설, 즉, 자신의 주장을 지지한다(support)고 결론을 내리고, 영가설을 기각하는데 실패하면, 데이터가 대립가설, 즉, 자신의 주장을 지지하지 않는다(not support)고 결론을 내리게 된다.

P-value는 통계학에서 매우 중요한 개념이다. 그것은 바로 영가설이 진실일때 우리가 통계치(sample statistics)나 그보다 더 극단적인 값(extreme value)을 얻을 확률()을 가리킨다. 그림으로 나타내면 아래와 같다.

P_Value

위 그림은 확률분포인데 진한 회색으로 된 부분이 p-value이다. P-value가 아주 작으면 영가설이 진실일 때 통계치나 그 이상의 극단적인 값을 얻을 확률이 아주 작다. 다시 말해 영가설이 진실일 가능성이 아주 낮다. 만약 p-value가 연구자가 설정한 신뢰수준, 예컨대 95%(0.05)보다 작으면 영가설이 기각된다. 반대로 p-value가 신뢰수준의 값, 0.05보다 크면 영가설을 기각하는데 실패한다.

글이 너무 길어졌다. 다음 글에서 자유도(degree of freedom)와  검증에 관해 알아보자.

뜰 스케치

SAMSUNG CSC
감나무의 숨쉬기를 돕기 위해 나무 둘레의 복토와 잔디를 제거했으며, 벽돌을 둘러서 잔디의 접근을 차단했다. 나무야, 그 동안 미안했다.
SAMSUNG CSC
루드베키아
SAMSUNG CSC
매일 나리꽃의 수가 늘고 있다. 
SAMSUNG CSC
병 치료후 핀 첫 긴세카이(Ginsekai)
SAMSUNG CSC
프로이트(Fruite)
SAMSUNG CSC
마리안델(Mariandel)
SAMSUNG CSC
심식을 피하기 위해 며칠 전 이식한 장미의 복토를 제거했다.

 

황금측백, 그리고 개념….

SAMSUNG CSC
황금측백

지난 주에는 정원의 꽃나무들에 퇴비를 듬뿍 주었다. 그러고나니 비가 많이 내렸다. 꽃나무들이 오랜만에 포식을 했으리라. 대문부터 현관까지 도열한 황금측백 나무들이 옷을 갈아 입는다. 잎의 끝부분을 제외하고 모두 연초록빛으로 바뀌고 있다. 봄이 온 것이다.

틈만 나면 막내에게 강의(?)를 해준다. 그렇게 학구적이 아닌 녀석인데 내 말에 귀를 기울여 주니 고맙다.

어제 밤에는 개념, 모형, 이론, 그리고 지식에 대해 이야기 했다. 아래는 내 이야기에 관한 간략한 요약이다.

  • 인간은 생각하는 존재이다. 그런데 인간이 생각하는 데 사용하는 도구가 무엇일까? 무엇보다도 개념(concepts)이다.
  • 개념이란 무엇일까? 개념은 공통적인 특질을 지닌 대상들을 하나로 묶어주는 단어이다. 책상, 걸상, 사람, 여자, 남자, 책, 연필, 컴퓨터, 스마트폰, 볼펜 등등.
  • 개념은 인간으로 하여금 어떤 대상을 다른 대상과 구분할 수 있게 도와준다. 남자라는 개념은 남성을 여성으로부터 구분시켜주고, 사람이라는 개념은 신이나 짐승처럼 사람이 아닌 존재로부터 사람을 구분할 수 있게 해준다.
  • 개념의 저수지(reservoir)가 풍부한 사람은 세상을 정밀하게 파악할 수 있다. 반면에 개념의 저수지가 빈약한 사람은 대상들이나 현상들을 구분해내는 능력이 떨어진다. 그래서 흔히 사용되는 “개념 없는 사람”이란 대상의 구분 능력이 떨어지는 사람을 가리키고, 반면에 “개념녀”라는 말은 무엇이 중요한 것인지를 잘 인식해서 말하고 행동하는 여성을 가리킨다.
  • 책을 읽고 공부를 하는 것은 개념의 저수지를 채우는 일이다. 대학을 다니는 것도 동일한 이유이다.
  • 개념들이 논리적으로 연결되면 주장이나 설명이 된다. 이론이란 세상에 대한 간략한 설명(혹은 주장)이다. 무엇보다도 어떤 설명이나 주장이 없으면 이론이 아니다. 설명이나 주장은 반드시 인과관계(causality)를 포함한다. 인과관계란 원인과 결과에 대한 서술이다. 그래서 이론은 세상을 이해하게 해준다. 또한 이론은 간략해야 한다. 세상 자체가 복잡해서 머리가 아픈데 세상을 설명하는 이론까지 복잡하면 그것은 세상에 대한 인식에는 별로 도움이 되지 않고 머리만 더 아프게 할 뿐이다. 그리고 무슨 현상이든 ‘세상’이 될 수 있다. ‘화학적 현상’이 ‘세상’이 되면 화학이론이 되고, ‘생물학적 현상’이 ‘세상’이 되면 생물학 이론이, ‘물리학적 현상’이 ‘세상’이 되면 물리학 이론이 된다.
  • 복잡한 세상을 간략하게 묘사해서 이해를 도와준다는 의미에서, 그리고 개념들이 결합되 있다는 점에서 모형(model)은 이론과 닮았다. 지구 모형, 자동차 모형, 확률 모형, 회귀 모형 등등. 그러나 모형은 그 안에 꼭 인과관계(causality)를 포함할 필요가 없다. 통계학에서는 모형을 많이 사용하는데, 그 중 회귀 모형(regression model)과 같은 이론적인 모형(theoretical model)은 인과관계를 포함하지만, 정규분포, 멱함수 분포, t 분포, 베타분포, 균일 분포 등과 같은 확률 모형(probability models)은 인과관계를 포함하지 않는다.
  • 지식(knowledge)은 정보(information)와 구분될 수 있다. 물론 넓은 의미로 정보는 지식을 포함하지만 말이다. 지식은 반드시 체계적인 내용을 갖추어야 한다. 그래서 이론이나 모형은 지식의 중요한 부분이 되곤 한다. 지식과 달리 파편적이거나 단편적인 내용도 정보가 될 수 있다. 대한민국의 수도는 서울이다는 정보이지만 지식이 아니다. 공무원 시험에 사용되는 두꺼운 “일반 상식” 책에는 단편적인 정보만 가득 담겨있지 체계적인 정보인 지식은 거의 없다.
  • MIT 교수였던 Machlup은 다음과 같이 말했다.

“정보는 그냥 듣기만 해도 얻을 수 있지만, 지식은 오직 생각을 통해서만 얻을 수 있다(Information is acquired just by being told, whereas knowledge is acquired only by thinking).”

지식은 오직 생각이라는 과정(흔히 그것은 수고스럽다)을 거쳐서 얻어진다. 예컨대 대학 수업에서 교수는 지식을 강의하지만, 학생들에게 교수의 강의는 정보에 지나지 않곤 한다. 학생들이 교수의 강의를 자신의 지식으로 만드는 유일한 길은 그 강의를 곰씹어 생각하는 것이다.

막내에게 내 이야기가 단순히 정보에 그치지 않고 지식이 되었으면 좋겠다. (윤영민, 2016/03/07)

 

 

장미 가꾸기

한달 전쯤 장미동산에 병든 가지를 잘라냈던 장미들이 자라서 꽃을 피우기 시작했다. 옆에 검은무늬잎 병이든 장미나무들이 있어서 방재용 약을 살포했다.SAMSUNG CSC SAMSUNG CSC 재작년에 장미동산 한 코너에 모아놓은 넝쿨 장미들이 엄청나게 많은 꽃을 피우고 있다. 검은무늬잎병이 들어있지만 약을 살포한 덕분인지 병에 잘 견디고 있다. SAMSUNG CSC SAMSUNG CSC 앞뜰에 있던 붉은 장미 한 그루를 장미동산으로 옮겼다. 집중적인 돌봄이 필요한 듯 싶다. 가지를 1미터 이하로 자르고 약을 살포했다. 이곳에서 장미 이웃들과 더불어 행복하게 살기 바란다.

(Bayes 학습)(3) 베이즈 정리의 응용성

<Bayes 학습> (1)에서 도출한 아래의 베이즈 정리(Bayes’s Theorem: 이하 Bayes Theorem)는 놀라운 응용성을 갖는다.

                              (1)

베이즈 정리를 보다 일반적으로 사용하기 위해 A를 로, B를 로 바꾸어 아래와 같이 다시 쓰자.

                                   (2)

  • 어떤 불확실한 현상도 가 될 수 있다. 그것은 미지의 모수(unknown parameters)일 수도 있고, 하나의 가설(hypothesis)이나 모형(model)일 수도 있고, 하나의 데이터 점(data point)일 수도 있다.  한 마디로 베이즈 정리는, 어떤 현상에 관하여 우리가 지니고 있는 믿음(prior beliefs)을, 수집된(관찰된) 데이터(data)에 비추어서 그것을 어떻게 갱신하여(update) 새로운 믿음(posterior beliefs)을 갖게 되는가를 말해준다. 즉, 하나의 귀납법적 사유 방식이다. 그것을 다음과 같이 도식화하여 표현할 수 있을 것이다.1  

믿음(prior beliefs)  –> 관찰된 데이터(data) –> 갱신된 믿음(posterior beliefs)

이 도식을 아래와 같이 표현할 수도 있다.

베이즈 정리가 응용될 수 있는 보다 구체적인 사례를 들어보자.

  • 두 그릇의 쿠키가 있다. 그릇 I에는 30개의 바닐라 쿠키와 10개의 초콜렛 쿠키가 들어있고, 그릇 II에는 바닐라 쿠키와 초콜렛 쿠키가 각각 20개씩 들어있다. 만약 당신이 그릇을 쳐다보지 않고  한 그릇으로부터 쿠키 하나를 집었는데 그것이 바닐라 쿠키였다. 그렇다면 그 쿠키가 그릇 I로부터 집었을 확률은 얼마인가?2
  • Let’s Make a Deal이라는 게임쇼는 다음과 같이 진행된다. 사회자 Monty Hall은 출연자에게 세 개의 닫힌 문을 보여주면서, 그중 하나의 문 안에는 자동차가 상품으로 들어있고, 다른 두 문 안에는 땅콩버터나 장식용 손톱 같은 훨씬 덜 값나가는 상품이 들어 있다고 설명한다. 게임은 출연자가 자동차가 들어 있는 문을 알아맞추는 것이다. 만약 출연자가 자동차가 들어 있는 문을 고르면 자동차를 상품으로 받게 된다. 상품은 무작위로 배치되어 있다. 출연자가 문 하나를 고르고 나면, 그 문을 열기 전에 Monty는 나머지 두 문 중 자동차가 들어있지 않은 문을 열어보이면서 출연자에게 기존의 선택을 바꿀 의사가 있는 지 물어본다. 과연 출연자는 자신의 선택을 그대로 유지하는 것이 유리할까요 아니면 다른 문을 선택하는 것이 유리할까요?3
  • 한 철도회사가 자사 소유의 기관차들에 일련번호를 붙였다. 그런데 어느 날 당신이 60이라는 번호가 붙은 기관차를 봤다면, 그 철도회사는 몇 대의 기관차를 갖고 있겠는가?4
  • “벨기에에서 제조된 1유로짜리 동전을 세워서 250회 돌렸더니 앞면이 140회가 나오고, 뒷면이 110회가 나왔다. 이 실험 결과는 그 동전이 한쪽으로 편향되게 만들어졌다는 증거가 될 수 있는가?5
  • 라플라스(Laplace, 1825)의 유명한 질문: “역사의 시작을 5천년 전으로 간주한다면, 인류는 24시간 마다 해가 뜨는 현상을 총 1,826,213번 관찰했다.  이 증거로 볼 때 내일 다시 해가 뜰 확률은 얼마나 되는가?”6
  • 어떤 사람이 word processor에 ‘radom’이라고 입력했다. word processor는 그 단어를 어떻게 읽어야 하나? 그것은 ‘random’이라는 단어의 오기일 수도 있고, ‘radon’이나 혹은 다른 단어의 오기일 수도 있으며, 아니면 사용자의 의도적인 표기이거나 조어일 수도 있다. ‘radom’이 실제 ‘random’의 오기일 확률은 얼마인가?7
  • 2000년 11월 미국 대통령 선거를 앞두고 3월초에 발표된 미국 플로리다주 유권자들의 투표 의사에 관한 한 여론조사에 의하면, 509명의 응답자 중 279명이 조지 부시를 찍겠다고 응답했으며, 230명이 엘 고어를 찍겠다고 응답했다. 이 조사결과에 의하면 적어도 플로리다 주에서는 부시가 고어보다 훨씬 많은 지지를 받는 것으로 보인다. 그런데 과연 그 조사결과를 믿을 수 있을까? 참고로 그 전에 발표된 한 조사기관의 예측에 의하면 2000년 대선에서 플로리다주에서 예상되는 공화당 후보의 지지율이 49.1%이며 표준오차가 2.2%이었다. 이 두 가지 조사결과를 결합하면, 실제 플로리다주에서 공화당 후보인 조지 부시의 지지율이 얼마라고 볼 수 있겠는가?8
  • 라틴 아메리카에서 외국의 위협과 사회혁명의 상관관계에 관한 한 연구에서 다음과 같은 자료가 제시되었다. 각 관찰은 한 국가에서 20년 동안에 발생한 사건이다. 아래 표에서 왼쪽 상단의 칸에 있는 1은 볼리비아의 사례이다. 볼리비아는 1935년에 군사적 패배를 했고, 1952년에 사회혁명을 겪었다. 왼쪽 하단의 칸의 2는 멕시코(1910년 사회혁명)와 니카라구아(1979년 사회혁명)이다. 이 자료를 보고, 라틴 아메리카에서는 군사적 패배를 경험하지 않은 나라보다 군사적 패배를 경험하는 나라가 사회혁명을 겪을 가능성이 더 높다고 결론을 내릴 수 있을까?9
revolution no revolution
Defeated and invaded or lost territory 1 7
Not defeated for 20 years 2 74
  • 임의의 노동자를 반도체 제조공정에 배치했을 때 이 노동자로부터 백혈병이 발생할 확률은 일반인의 백혈병 발병률에 비해 현저하게 높은가? 참고로 2008년 한국 산업안전공단의 조사에 의하면, 반도체 제조업 노동자  139,763명 중 백혈병 암 등록자는 총 16명이었다. 그리고 WHO의 2010년 자료에 의하면 우리 나라의 백혈병 발병률은 10만명 당 2.9명이었다.10

이상의 구체적인 사례들에서 보듯이 베이즈 정리는 온갖 종류의 추론이나 추정, 의사결정, 혹은 가설 검증에 응용될 수 있다. 빈도주의 통계학으로 분석할 수 있는 현상은 모두 베이즈 통계로 분석이 가능하며, 빈도주의 통계학으로 하기 어려운 현상들도 베이즈 통계에 의해 가능한 경우가 많다고 말 할 수 있을 것이다.

베이즈 추론은 세상을 이해하는 하나의 관점 혹은 하나의 인식 과정이라고 간주되어야 할 것으로 생각된다. (윤영민, 2016/03/04)

(주석)

  1. Simon Jackman. 2009. Bayesian Analysis for the Social Sciences. Wiley. p. 29
  2. Allen B. Downey. 2012. Think Bayes. Green Tea Press. p. 3
  3. Downey. p.8
  4. Downey. p.23
  5. Downey. p.33
  6. Jackman. p.57
  7. Andrew Gelman, John B. Carlin, Hal S. Stern, David B. Dunson, Aki Vehtari, and Donald B. Rubin. Bayesian Data Analysis, 3rd edition. CRC Press.  p.9
  8. Jackman. p.54
  9. Jackman. p.73
  10. 박종희. 2014. “베이지안 사회과학 방법론이란 무엇인가?” 평화연구 22(1). pp.490-492

상상력은 어디에서 오는가?

Pythagorean-Theorem

직각삼각형에서 빗변의 길이를 제곱한 값과 나머지 두 변의 길이를 각각 제곱하여 더한 값이 일치한다.

중학교 수학 시간에 학생들이 배우는 수학적 경이 중 하나는 피타고라스 정리이다. 그런데 과연 몇 명의 학생이나 그것이 얼마나 위대한 수학적, 과학적, 역사적, 문화적, 그리고 철학적 발견인가를 들으면서 그 정리를 배울까?

내 기억에 따르면, 선생님의 간략한 설명과 함께 우리는 증명을 따라하고, 연습문제와 응용문제를 풀고 또 풀었다. 그래서 우리는 모두 피타고라스 정리를 기억한다. 그 정도면 입시 대비로서 충분하고, 언젠가 간단한 계산에 써먹을 수도 있을 것이었다(물론 나는 지난 40년이 넘은 세월 동안 실생활에서 그 정리를 사용한 기억이 없다). 우리에게 피타고라스 정리는 도형의 면적이나 길이를 구하는 공식에 불과했다(당연한 일인가?). 그리고 온갖 시험에서 우리에게 주어진 경쟁은 그 정리를 이용해서 몇 번이나 ‘꼬인’ 문제를 풀 수 있느냐는 것이었다. 어려운 응용문제를 풀수록 ‘수재’도 되고 ‘천재’도 되었다. 우리는 피타고라스 정리가 피타고라스를 포함한 천재 수학자들이 밝혀낸 ‘우주의 법칙’, ‘자연의 법칙’, ‘진리’, 심지어 ‘신의 섭리’의 일부라는 말을 들은 적이 없다. 그 위대한 진리를 배우면서 우리는 어떤 감동도 느낄 수 없었다.  그냥 그것은 우리가 잘 외우고 써먹어야 할 수많은 수학 공식 중 하나일 뿐이었다.

어디 피타고라스 정리만 그랬겠는가? 누구도 그 정리를 건드려보거나 뒤집어보지 않았다. 피타고라스와 그 정리에 대한 경외심 때문이 아니라 무관심과 무감각 때문이었다. ‘시험’, ‘입시’ 대비 말고 우리가 수학에 관심을 가질 동기가 없었다. 놀랍지 않다. 우리는 중학교 이후 진리 접근으로서의 수학, 논리로서의 수학, 그리고 놀이로서의 수학을 배우지 못했다.

그러니 우리 중 누구도 다음을 묻지 않았다. 만약 가 성립한다면, 도 성립하지 않을까? 는? 는? 그리고 는? 피타고라스 정리를 면적과 길이를 구하는 공식으로 외우는 학생들, 시험 대비용 지식으로만 받아들이는 학생들, 그리고 그 위대한 정리를 아무런 감흥없이 기계적으로 전달하는 선생님으로 채워진 교실에서 그러한 상상은 나오지 않는다.  그리고 그러한 문화에서 페르마(Fermat)나 오일러(Euler)나, 그리고 와일즈(Wiles)가 나올 가능성은 희박하다.

페르마의 정리를 증명하는 일은 300년이 넘는 세월을 기다려야 할 정도로 어렵지만, 을 가지고 로 바꿔보는 시도는 초등학생에게도 어렵지 않게 가능할 것이다. 그리고 그것은 아이들에게 새로운 세계에 들어서는 순간이 될 수도 있을 것이다.

우리 사회에는 유연하고 창의적인 사람들이 절실히 필요하다. 그런데 우리 사회의 학교와 가정은 아이들을 그러한 발상이 가능한 자유롭고 여유로운 환경에 버려두지 않는다. 선생님과 부모에게 주어진 가장 중요한 미션, 그리고 학생들이 내면화한 최고의 목표는 일단 ‘명문’ 대학교에 들어가는 것이기 때문이다.

“쓸데 없는 상상하지 말고 문제 하나라도 더 풀어!” 학습에서 가장 소중한 지적 호기심이 선생님의 그 한 마디에 철없는 태도, 비현실적인 행동으로 전락해 버리고 만다. 학생들의 호기심을 불러일으켜야할 선생님이 학생들의 호기심을 억누르는 반지성적 현장이 되는 것이다.

고등학교 때까지는 입시와 진도의 강박이, 그리고 대학에서는 취업의 강박지적 자극이 없는 학교, 반지성적인 학교를 만들고 있다. 그 때문에 상상은 우리에게 낯선 문화가 되었다. 수학적 상상력, 과학적 상상력, 사회적 상상력, 그리고 문학적 상상력이 낯선 사회가 된 것이다. 이는 대학에서 상상력을 길러주기 위한 과목을 몇 개 개설한다고 해결될 문제가 아니다. 우리 교육 문화에 깊이 내재한 지적 자극의 부재반지성적 경향을 극복해야 한다.  그것들이야말로 우리 아이들의, 그리고 우리 사회 전체의 상상력을 앗아가고 있는 진정한 원인이기 때문이다. <페르마의 마지막 정리>(1998, 사이먼 싱 지금/박경철 역)를 읽고.

즉각적 실천이 필요하다

chartoftheday_4903_renewables_account_for_over_half_of_sweden_s_energy_n 아내가 미세먼지에 대한 자료를 부탁해서 몇 가지 찾아서 보내주었다. 오늘은 외국어체험센터에 중학생들이 교육받으러 온다는데, 미세먼지에 대해 수업하겠다는 것이다. 미세먼지의 정의, 미세먼지의 영향, 미세먼지의 발생요인, 그리고 미세먼지의 가장 큰 발생요인 중 하나인 화석연료의 의존성에 관한 자료를 찾아주었다.

우리나라의 신재생 에너지 비율이 1% 정도인데, 스웨덴은 50%가 넘는다. 대기오염을 예방하기 위해 화력발전의 비중을 줄여야 하고, 국민의 안전을 위해 핵발전의 비중도 줄여야 한다. 그럴려면 한편으로 에너지 사용을 자제하고, 다른 한편으로 태양광, 풍력, 조력, 지열 등과 같은 재생에너지의 사용을 늘여야 한다. 다행히 우리 나라는 풍부한 재생에너지 자원을 갖고 있다. 풀기 어려운 문제이다. 얽히고 섥힌 이해 관계 때문이다.