‘가짜 뉴스’와 ‘진실’에 대해

‘가짜 뉴스’가 범람하고 진실은 그 속에서 실종되기 직전이라 생각되는 세상이다. 인터넷을 매개로 한 돈과 권력의 엄청난 추동력에 ‘가짜 뉴스’ 생산자는 폭발적으로 늘어가는 반면, 진실의 파수꾼은 급속히 설 자리를 잃어간다.

심지어 진실의 지킴이들마저도 이제 ‘진실’이 추구할만한, 수호할만한 가치가 있는 지 묻는 세상이 되어간다. 대학, 학자, 언론, 기자, PD, 종교인, 작가, 영화제작자, 감독 등 인류 역사상 진리의 발견자 혹은 수호자로 간주되었던 제도와 사람들이 모두 흔들리고 있다. 인터넷과 스마트폰과 같은 정보기술이 그들을 보호해 왔던 사회적 기제들을 송두리째 와해시켜버리고 있기 때문이다.

그래서 지금, 갑자기, ‘진실’이 무엇인지가 우주적 의문으로 떠올랐다. 그것은 시대적 문제인 가짜 뉴스 혹은 허위 정보를 정의하기 전에 반드시 답해야 할 질문이다. 우리에게,우리 삶에 있어 진실이 무엇인지, 진실이 추구할만한 가치가 있는지, 진실을 얼마나 감당할 수 있는지, 그리고 진실이 어떻게 만들어 지는 지를 명쾌히 이해해야 가짜뉴스를 규정하고 분석하고, 나아가 대안 마련도 가능하기 때문이다. 그래서 소위 가짜뉴스의 문제는 보다 근본적으로 진실의 문제인 것이다.

가짜뉴스를 다룬 저술은 대개 좁은 의미의 가짜뉴스를 분석하는 데서 멈추고 있다. 이 책은 그보다 한 걸음 더 들어가서 가짜뉴스와 진실의 문제를 바라볼 수 있도록 도와준다.

이 책은 진실이란 근본적으로 선택적이라는 입장이다. 그래서 어떤 사건에 관해 무엇이 진실인가라는 질문보다 누가 ‘어떤’ 진실을 말하는지, 누가 사실을 어떻게 ‘편집’하는지, 그리고 왜 그렇게 하는지에 대해 질문이 더 중요하다고 강조한다. 그렇게 함으로써 우리는 진실에 더 잘 접근할 수 있다는 것이다.

가짜뉴스와 진실의 문제에 대해 궁금한 사람들에게 이 책은 아주 유용하다고 생각된다. (2020-06-30)

안개에 쌓인 미래: 포스트 시대

Jared Bowen on Twitter: "Tonight I'm a man in the mist as we meet ...

미래가 너무 불투명할 때 우리는 post-(탈, 이후)라는 표현을 사용한다. 지금이 딱 그런 시기이다.

2020년 6월 26일 현재 5년, 10년 후는 고사하고 1년 후, 아니 한 달이나 두 달 후의 세상이 어떻게 될 것인지도 짐작되지 않는다. 미래를 다루는 학자와 전문가들에게는 무척 곤혹스러운 시기이다.

인류는 코로나 바이러스(covic 19)의 위기를 이겨낼 것인가? 백신은 언제나 출시될 것인가? 그 사이 얼마나 많은 인명이 희생될 것인가? 코로나 바이러스에 대한 백신이 발견된 후에 코로나 바이러스보다 더 무서운 전염병이 출현하지는 않을까? 이상 기후는 멈출 것인가? 코로나 바이러스 위기 이후에는 어떤 사회가 전개될 것인가? 현재와 마찬가지일까? 아니면 인류는 한번도 경험해 보지 못한 새로운 세상으로 들어가게 되는 것일까?

제어되지 않은 자본주의가 낳은 불평등은 과연 어떤 결과를 초래할까? 인류는 과연 그 제도를 제어할 수 있는 대안을 찾아낼 수 있을까? 서구의 대의 민주주의는 시대적 도전들을 적절히 대응할 수 있는 정치제도인가? 아니면 전체주의가 대안일까? 현재의 정부관료제는 숨막히는 도전들을 극복하는 역할을 과연 수행할 수 있을까? 신문과 방송이라는 대중매체가 해체된 후 우리는 어디에서 진실을 찾을 수 있을까? 탈진실의 시대가 오는 것(아니 이미 와 있는 것)은 아닐까?

의문은 많고 해답은 거의 없다. 인류가 발명하고 유지해 온 주요한 정치, 경제, 사회, 문화 제도에 대해 수많은 의문이 쏟아지고 문제가 제기된다. 과연 답은 어디에서 찾아야 할까? 선지자가 출현해야 하는 것일까?

post-covic 19, post-capitalism, post-democracy, post-nation-state, post-truth, post-mass-media, post-university….

Covid19 코로나 바이러스 - Pixabay의 무료 이미지

우리가 살아갈 세상은 어쩌면 이미 누구나 뛰어난 미래예측 능력을 가져야만 살아남을 수 있을 정도로 불확실하고 급변하는 생존 환경인지도 모르겠다. 성장이나 발전이 아닌 생존의 방법을 물어야 하는 시대이다. 혹시 포스트 시대(Post era)에 들어가고 있는 것은 아닐까? (2020-06-26)

정보에 관한 지식기반 이론

2010년에 발표된 정보에 관한 지식기반 이론(Konwledge-Based Theory of Information, 이하 KBI)은 DIKW 모형을 개념적으로 계승하면서 한 단계 더 나이가 데이터, 정보, 지식 사이의 관계를 정교하게 규정하고 있다. KBI는 지식과 데이터가 상호작용하여 정보를 생성한다는 의미에서 상호작용적 모형(interactive model)이라고도 불린다.

KBI는 정보가 지식과 데이터로부터 생성된다는 인식에서 출발한다. 데이터는 상황에 관한 선결조건(pre-conditions) 혹은 투입값(input values)이며, 그것을 기반으로 정보가 생산된다. 정보는 주어진 상황에서 행위자가 의사결정 혹은 행동의 선택을 가능하게 하는 요소이다.  지식은 데이터로부터 정보가 생산되는 과정 혹은 프레임워크이다(아래 그림 참조).

KBI에서, 데이터는 “객체나 사건에 관한 서술 혹은 측정 결과”이다.  예컨대 “A형 부품이 17개 남아 있다” 혹은 “비가 내리고 있다”가 데이터이다. 이 데이터만으로서는 의사결정이나 행동을 선택하는데 필요한 정보가 생성될 수 없다. 거기에는 반드시 지식이 필요하다.

지식은 “구성물 사이의 관계에 대한 정당화된 진실된 믿음이다(is justified true belief of the relationship between constructs).” 이 정의를 풀어보면, 지식은 믿음의 한 유형인데, 그것은 진실이거나 진실에 접근하는 것이어야 하며,  전문가나 권위자에 의해 인정된 것이어야 한다. 다시 말해, 지식은 객관적으로 검증된 믿음, 권위있는 전문가들에 의해 인정된(혹은 합의된) 믿음이다.

그리고 지식은 구성물 사이의 관계에 대한 믿음이다. 지식의 가장 흔한 형식은 If-Then 짝이다. 예컨대 어떤 새가 백조라면, 그 새는 하얄 것이다라는 명제는 지식이다. 

정보는 지식 프레임워크(framework)를 토대로 데이터로부터 생산된 의미(meaning)이다. 의미란 어떤 경험에 부여된 해석을 말한다. 정보에 의해 선택, 판단, 혹은 불확실성의 감소가 일어난다.

아래 사례들을 보면, 지식, 데이터, 정보에 대한 KBI의 핵심적인 주장이 이해될 것이다.

(사례 1)

지식: 만약 A형의 부품의 재고가 20개 이하이면, 부품 부족을 예방하기 위해 A형의 부품을 주문해야 한다.

데이터: A형의 부품이 17개 남아 있다.

위의 지식과 데이터가 결합되면, A형 부품을 3개 이상 주문해야 한다는 정보가 생성된다. 

(사례 2)

지식: 만약 비가 내리고, 당신이 비를 맞기 싫어한다면, 외출하기 전에 우산을 챙겨야 한다.

데이터: 비가 내리고 있다.

정보: 위 지식과 데이터가 결합되면, 우산을 챙기라는 정보가 생산된다.

 KBI를 자율주행 자동차에 적용해 보면, 우선 자동차는 교통데이터, 도로데이터, 기후데이터, 사건데이터 등을 처리할 수 있는 데이터분석 모형이 필요할 것이다. 그리고 도로 상황, 교통 상황, 기후 상황, 사건 상황에 관한 데이터를 실시간으로 받을 수 있는 센서(sensor)나 네트워크이 필요할 것이다. 데이터 분석 모형은 지식 프레임워크에 해당되고, 센서에서 입력되는 신호는 데이터이다. 데이터 분석 모형이 센서 데이터를 받으면 실시간으로 액츄에이터(actuator)가 행동할 수 있는 정보를 생산할 것이다. 그 기능을 모두 갖춘 AI가 자동차에 내장되면 자율주행 자동차가 만들어 질 것이다.   

참고문헌: Kettinger, William J and Yuan Li (2010). “The infological equation extended: towards conceptual clarity in the relationship between data, information and knowledge,” European Journal of Information Systems, 19(4): 409-421.

사회제도

사회제도(social institution)처럼 다양한 의미를 갖는 용어도 드물 것이다. 사회제도는 법제도, 경제제도, 정치제도, 군사제도 등에 대응하는 개념으로 사용되기도 하고 그것들을 모두 포함하는 포괄적 개념으로 사용되기도 한다.

institutions and organizations 이미지 검색결과"

제도에 대한 다양한 관점과 인식을 반영하여 리차드 스콧(W. Richard Scott)은 매우 포괄적인 정의를 제시한다.

제도는 규제적, 규범적, 그리고 문화-인지적 요소들로 구성되며, 그것들과 관련된 활동 및 자원과 함께 사회생활에 안정과 의미를 제공한다(Institutions comprise regulative, normative, and cultural-cognitive elements that, together with associated activities and resources, provide stability and meaning to sical life)(Scott, 2014: 56).

이 정의에 따르면, 제도는 여러가지 측면을 지니고 있으며, 내구성을 지닌 사회구조이다. 무엇보다는 제도는 그것이 지향하는 가치 체계와 규범 질서를 갖고 있어, 구성원–사람도 되고 조직도 될 것이다–의 의사결정과 행동에 있어 방향과 의미를 부여해준다.  그리고 그러한 상징체계들이 작동하기 위해서는 인력과 물적 자원이 필요하다.  정의상 제도는 안정적이지만, 그렇다고 변화되지 않은 것은 아니다. 내적 동인이 제도에 변화를 가져오기도 하고 외부 충격이나 환경 변화에 의해 변화가 일어나기도 한다.

국가, 정부, 민주주의, 관료제, 결혼, 가족, 가부장제, 시장, 기업, 자본주의, 학교, 대학, 마을, 사회학, 정치학, 물리학, 생물학, 언론, 공영방송, 신문, 도서관, 우체국, 교회, 정시, 수시, 징병제, 모병제, 상비군 등이 모두 제도 혹은 사회제도이다. 정치제도, 경제제도, 언론제도, 우편제도, 교육제도, 공동체 제도, 학문제도, 입시제도, 군사제도 등이 모두 제도 혹은 사회제도의 유형이 될 수 있다. 제도는 그 안에 제도(들)를 가질 수도 있으며, 다수의 조직들이 포함될 수 있다.

참고로 우리말로 ‘제도’에 해당되는 영어 단어는 institution이지만, institution은 ‘제도’말고도 ‘기관'(예: 행정기관), ‘시설'(예: 복지시설) 이라는 의미로도 사용된다.

참고: Scott, W. Richard. 2014. Institutions and Organizations (4th Edition). Sage Publications, Inc. (2020-01-25)

DIKW 모형

데이터, 정보, 지식 사이의 관계를 이해하는 데 있어 아마도 가장 오래, 가장 널리 가이드 역할을 해온 개념적 틀은 DIKW 모형이다. DIKW는 Data(데이터), Information(정보), Knowledge(지식), Wisdom(지혜)의 머릿글자로 구성된 이름이다. 이 모형에 따르면, 데이터사물이나 사건에 대한 묘사(description)이며, 가공되지 않은 상태의 사실(facts)이다. 그리고 특정한 목적을 위해 데이터가 처리되면(혹은 추상되면) 그 목적에 유용한 정보가 된다. 나아가 정보가 체계화되면 지식이 되며, 지식이 고도로 추상화되면 지혜가 된다.

     

데이터-정보-지식-지혜는 위 그림과 같은  피라미드 구조를 가졌다고 해서 DIKW 피라미드 혹은 지식 피라미드라고 불리며, 데이터에서 지혜로 올라갈수록 가치가 올라간다고 해서 가치 위계 모형(value hierarchy model) 혹은 가치사슬모형(value chain model)이라고도 불린다. 이 모형은 데이터, 정보, 지식 사이의 관계에 대한 개괄적인 모습을 보여주는데 자주 사용되었다. 

위 그림에서처럼 이 모형은 데이터보다는 정보의 가치가 높고, 정보보다는 지식, 그리고 지식보다는 지혜의 가치가 높으며, 데이터에서 지혜로 올라갈수록 의미(meaning)도 크다고 규정한다. 

이 모형은 MIS(경영정보학), 컴퓨터과학, 문헌정보학, 교육학 등 여러 학문 분야에서 폭넓게 이용된다. 네 가지 요소 중 그 지위가 애매한 ‘지혜’를 제쳐 놓고 본다면, 이 피라미드 모형은 나름대로 유용하다. 그것은 우리에게, 지식, 정보, 데이터 중 어떤 것을 다루더라도 다른 두 가지와의 관계를 고려해야 하며, 앎(knowing)에 관한 어떤 모형도 이 세 가지 사이의 관계에 대해 명쾌한 해석 혹은 입장을 포함하고 있어야 함을 알려주고 있다.

그러나, 이 모형이 지니는 가치는 그 수준에서 그치는 것 같다.  무엇보다 데이터, 정보, 지식 사이의 관계, 특히 데이터와 정보, 정보와 지식 사이의 관계가 애매하기 때문이다. 데이터가 “처리되어” 혹은 “추상되어” 정보가 된다고 하지만, 데이터의 ‘처리’ 혹은 ‘추상’이 정확히 어떤 원리에 따라서 어떻게 이루어지는가가 불분명하다.

더구나 빅데이터의 시대에 있어 정말로 정보나 지식이 데이터보다 가치가 높은 지도 의문이다.  데이터 마이닝이나 데이터과학을 통해서 빅데이터는 특정한 정보나 지식보다 더 큰 가치 혹은 더 다양한 가치를 창출해 낼 수 있다. 즉, 가치 생성의 측면에서 데이터가 정보나 지식보다 더 큰 잠재성을 가질 수도 있다. 때문에 데이터에서 추상화된 정보나 지식보다 데이터 자체가 더 큰 값에 거래되곤 한다. (2020-01-23)

정보와 데이터, 그리고 정보사회학(2)

개념들 사이에 ‘정보(information)’와 ‘데이터(data)’만큼 헷갈리는 관계도 드물 것이다. 그 둘은 서로 뗄 수 없이 의존적이기도 하고, 마치 시대를 두고 헤게모니 쟁탈전을 하듯 서로 경쟁적이기도 하며, 때로는 서로 넘나들며 사용되는 유사어처럼 보이기도 한다. 무엇이 진실일까?

information data 이미지 검색결과"

데이터와 정보의 관계에서 가장 널리 인용되는 DIKW 모형(Data-Information-Knowledge-Wisdom model)에 따르면, 데이터가 추상되어 유용성을 획득하면 정보가 된다. 데이터는 객체나 사건에 관한 묘사이다. 데이터가 어떻게 추상되는지는 확실치 않지만 데이터와 정보가 구분되는 것만은 분명하다. 비교적 최근에 등장한 지식기반의 정보이론(knowlege-based theory of information)에 따르면, 지식 프레임에 데이터가 주어지면 의사결정이나 행동에 도움이 되는 정보가 생산된다. 다시 말해 데이터는 지식에 의해 수집되거나 생성되며, 지식에 의해 해석되어 의사결정이나 행동에 사용될 수 있는 정보가 생산된다. 여기서도 데이터는 정보와 분명히 구분된다.

그런데 수학적 정보이론에 따르면, 특정한 목적을 위해 송신자에서 수신자로 전달되는 내용이 정보이고, 정보는 그것이 지닌 불확실성의 양으로 측정될 수 있다. 이 때 ‘정보’를 ‘데이터’라는 용어로 대체해도 별로 문제될 것이 없다. 정보라고 불리던 데이터라고 불리던 측정 단위는 비트(bit)이다.

mathmatical theory of information 이미지 검색결과"

과거에 데이터는 객관성이 강조되었다. 자연과학이든 사회과학이든 데이터는 주로 과학실험이나 사회조사와 같은 과학적 방법에 의해 생산되었고, 과학적 방법의 핵심은 비개입적, 비관여적, 이상적으로 말하자면 무작위적(random)이어야 했다. 객관적이지 않은 데이터–예컨대 행정 데이터, 고객 데이터–는 그것의 가치를 인정받지 못했다.

그러나 빅데이터 시대가 데이터에 대한 사람들의 인식을 바꾸어 놓았다. 행정 기록, 교통 데이터, 거래 정보, 고객 정보 등과 같은 빅데이터를 다루는 데이터마이닝과 데이터과학은 객관성에 더 이상 집착하지 않는다. 현실 문제를 푸는데 도움이 된다면, 수익을 올리는 데 도움이 된다면 어떤 데이터든 마다 하지 않는다.

그래서 데이터에 관한 새로운 개념이 요구된다. 빅데이터 시대에 있어 데이터는 최소한 세 가지 속성을 갖는 것으로 생각된다.

첫째, 의도성이다. 데이터는 묘사(description)이다. 객체나 사건은 목적이나 의도 없이 존재할 수 있지만, 그것에 대한 묘사는 결코 그럴 수 없다. 묘사는 관찰의 결과이고, 객체나 사건에 대한 관찰은 반드시 누군가의 의도에 따라 이루어 지기 때문이다.

둘째, 고비용이다. 데이터가 생성되기 위해서는 누군가가 데이터의 수집을 기획하고 설계해야 하며, 그런 다음 사람이나 기계에 의해 데이터가 수집되고, 그 데이터는 정제된 후 데이터셋 혹은 데이터베이스로 구축된다. 데이터의 규모가 커지만 그것의 수집, 저장, 처리, 분석에 막대한 비용이 소요된다.

셋째, 기계 의존성이다. 데이터의 규모가 크면, 사람에 의해 수집되거나 처리되지 않는다. 빅데이터의 수집, 전송, 저장, 그리고 심지어 분석마저도 예외 없이 기계적으로 이루어진다. 그 과정에서 인간이 끼어들 여지가 별로 없다.

big data 이미지 검색결과"

그런데 위 세 가지를 데이터가 아니라 정보의 속성이라고 주장한들 무슨 문제가 있겠는가. 어쩌면 그것은 유용성을 가지고 데이터와 정보를 구분짓던 DIKW 모형이나 지식기반의 정보이론이 빅데이터 환경에 적합하지 않음을 의미할 수 있다.

만약 정보와 데이터가 서로 넘나들 수 있는 유사 개념으로 간주된다면, 그것을 연구하는 학문 분야를 정보사회학이라고 부르던 데이터사회학이라고 부르던 무슨 차이가 있겠는가. 그런 경우 새로운 학문 분야를 만들기 보다는 이미 제도화 과정에 있는 정보사회학의 영역을 확장하는 것이 낫지 않을까? (2020-01-20)

정보와 데이터, 그리고 정보사회학(1)

이땅에 정보사회학이라는 학문 제도가 도입된 지도 벌써 25년 가까이 흘렀다. 요즘같은 광속의 시대에 있어 25년은 참으로 긴 세월이다.

그 사반세기 동안 정보사회학의 연구 대상이 되는 정보기술과 사회 혹은 정보기술과 인간의 접점에 커다란 변화가 일어났다. 정보사회학은 지속적으로 그 접점을 해명하고 예측했으며, 나아가 문제 해결에 참여하기도 했다.

25년 전에는 정보(information)가 세상을 밝히는 키워드였다. 새넌(Claude Shannon)의 수학적 ‘정보’이론 덕분에 디지털 세상이 열렸고 생명과학자들은 ‘정보’의 생성과 전달이 생명의 핵심인 RNA나 DNA의 주요한 기능이라고 주장했다.  정보, 정보기술, 정보시스템, 정보산업, 정보기술(IT) 업체 같은 용어들이 시대를 끌고 갔고 정보라는 수식어는 시대적 유행이 되었다. ‘정보’는 곧 ‘첨단’이란 의미로 수용되었다.

그런데 수년 전부터 사정이 바뀌었다. 어느새 ‘정보’는 다소 진부한 혹은 낙후된 인상을 주는 용어로 퇴색되었다. ‘정보’ 자리에는 ‘데이터’ 혹은 ‘빅데이터’가 들어섰다.

사실 사회적 기원을 따져보면 ‘정보’보다는 ‘데이터’가 더 오래 더 널리 사용되었다. 사회조사와 통계학의 역사를 따져본다면 현대적 의미의 데이터 활용은 적어도 1백년은 쉽사리 거슬러 올라갈 수 있을 것이다.  전국적인 규모의 여론조사나 인구센서스가 시작된 지 1백년 정도 되었고 자연과학 뿐 아니라 사회과학에서 통계학이 정통의 분석 도구로 자리잡기 시작한 것도 그 정도는 되었으니 말이다.

그렇다고 데이터가 오늘날처럼 높은 문명적 지위를 가졌던 것은 아니다. 데이터는 귀했고 통계학은 인구 예측과 관리, 행정, 군사, 과학 실험, 사회조사, 공장 관리, 그리고 일부 기업 경영 등에서 전문가들이 사용하는 도구에 지나지 않았다.

이미 적지 않은 전문가, 학자, 언론, 행정가, 심지어 정치가들이 ‘정보’ 대신 ‘데이터’라는 용어를 사용하려는 경향을 보이고 있다. 아래 구글 트렌드 그래프는 사람들의 관심이 ‘정보’에서 ‘데이터’로 이동해왔음을 잘 보여주고 있다. 그래프는 전세계에서 ‘정보’와 ‘데이터’라는 용어를 검색한 빈도를 표시하고 있다.

붉은 선은 ‘정보’, 파란 선은 ‘데이터’의 검색 수준을 나타낸다. 구글의 데이터 기록이 시작된 2004년에 ‘정보’의 검색 빈도를 100으로 본다면 ‘데이터’는 약 70% 수준이었다. 그러나 이미 ‘정보’의 인기는 시들기 시작했고 현재까지 지속적으로 하강하고 있다. 반면에 2004년 이후 ‘데이터’의 인기도 다소 하향하기 시작했지만 2007년 혹은 2008년 이후 소강상태를 보이다 2013년 무렵부터는 완만하게 상승하고 있다. 대체로 2007년경을 전후해서 ‘정보’와 ‘데이터’의 위상이 뒤바뀌기 시작한 것으로 보인다.  구글 검색 통계로 본 2020년 현재 ‘정보’의 인기는 2004년 수준에 비하면 10분의 1정도로 하락했으며, ‘데이터’의 인기는 ‘정보’의 그것의 거의 세 배 수준에 달하고 있다.

‘정보사회학’의 개명이 필요한 것일까? 대중의 관심과 인기를 기준으로 한다면, 동일한 분야의 학문명으로 ‘정보사회학’을 버리고 ‘데이터사회학’을 취하는 것이 답일 것도 같다.

그러나 정보사회학은 ‘정보’의 사회학, 정보’에 관한 사회학적 연구가 아니다. 그것은 하나의 사회제도(social institution)이다. 학문이나 사회학이 사회제도인것처럼 정보사회학도 하나의 사회제도이다. 그것의 연구 대상은 정보를 넘어서 정보기술, 정보시스템, 정보산업은 물론이고 데이터, 빅데이터, 데이터 마이닝, 심지어 AI에까지도 확장될 수 있다. 사회제도란 조직, 재정적 자원, 그리고 충성을 다하는 구성원들이 있는 안정된 사회구조이다. 사회제도는 환경의 변화에도 잘 적응하고 잘 버틴다. 가부장제도, 결혼, 혹은 국가라는 사회제도를  생각해보라. 적어도 2천년 이상 유지되고 있지 않는가.

정보사회학은 제도화에 나선 지 25년 정도밖에 되지 않았다. 하나의 사회제도로서는 이제 시작단계에 불과하지만 문제는 그 25년이 엄청난 격동의 시간이었다는 사실이다. 그 사이에 세상을 보는 지배적인 프레임이 ‘정보’에서 ‘데이터’로 이동해 버렸다.

그러한 시대적 전환은 정보사회학에게 던져진 거대한 도전이자 기회이다. 정보사회학은 기술 변화의 파고에 좌초될 수도 있고 반대로 새롭게 태어나거나 영역이 확장될 수도 있다.

현재로서는 정보사회학의 미래가 밝지 않다. 정보사회학에 충성을 다하면서 유능한 구성원들이 별로 눈에 띄지 않기 때문이다.

그렇다고 절망하기는 너무 이른 것 같다. 정보사회학말고 어느 사회과학이 비판적 관점에서 인터넷, 소셜미디어, 스마트폰, 빅데이터, 데이터 마이닝, 데이터분석, AI 등을 체계적으로 분석할 것인가.

사회제도는 생물과 같다. 탄생, 성장, 쇠퇴, 소멸을 겪는다는 의미에서 말이다. 누구도 한 사회제도의 라이프 사이클을 예단할 수 없다. 정보사회학에 대해서도 마찬가지이리라. (2020-01-19)

표와 그래프(7): 행렬로 푸는 최소자승 회귀모형

(2) 선형대수에 다소 익숙한 독자를 위한 설명

다중회귀분석에는 행렬(matrix) 계산이 필요하다. 단순회귀모형에 예측변수나 통제변수가 추가되면 회귀모형의 항(term)이 늘어나고 여러 개의 회귀계수를 추정해야 하기 때문이다. 정규방정식 도출과정에 필요한 값들을 아래와 같이 정의하고 시작하자.

   

잔차 차원의 열벡터, 회귀계수(절편 포함)    차원의 열벡터, 독립변수 차원의 행렬이다. 의 첫 열의 성분이 1인 것은 상수항을 표시하기 위함이다. 끝으로   차원의 열벡터이다.

행렬을 사용하면 잔차제곱합은 식 (1)과 같이 표현된다. 잔차제곱합은 벡터 의 전치행렬(행벡터)과 벡터 (열벡터)의 곱이다.

그런데, 이고, 이므로,

식 (2)를 식 (1)에 대입하면,

그런데 식 (3)에서  의 차원이 이므로 대칭행렬이다. 따라서 그것의 전치행렬인 는 그 자신과 같다. 그런데이므로 로 쓸 수있다.

최소자승법을 적용하려면 식 (3)을 에 관해 미분한 값을 0으로 만드는  값을 구한다.

식 (4)에서 는 가 대칭행렬이므로 이차형식(quatratic form)이다. 이차형식의 미분은 앞 전치 벡터 부분을 2로 바꾸어 주면 되므로  이다.

최소자승의 조건은 식 (5)로 간단히 정리된다.

식 (5)의 첫 항을 우변으로 넘겨서 다시 쓰면,

양변을 2로 나누면,

양변에 의 역행렬을 곱해주면(는 정방행렬이 아니므로 역행렬이 존재하지 않으므로, 의 역행렬을 곱해준다),

그러므로

식 (6)은 유명한(?) 회귀모형의 정규방정식이다. 그것은 최소자승법에 의한 회귀계수 추정값은 X의 대칭행렬(X의 전치행렬과 X 행렬의 곱)의 역행렬에 X의 전치행렬과 Y 벡터를 곱하면 구할 수 있음을 의미한다. 단순회귀모형를 가지고 보면, 식 (6)은  표와 그래프(4): 최소자승 회귀분석에서 나온 식 (7)과 (8)의 정규방정식을 행렬로 표현한 것이다. 그런데  행렬접근을 하면, 대수적 접근과 달리 독립변수가 몇 개든 회귀계수를 구하는 데 이 공식 하나면 충분하다.그것은 행렬이 주는 큰 혜택이다. 데이터를 가지고 이 행렬의 연산을 수행하면 회귀계수 값을 구할 수 있다.

예측변수가 3개 이상이 되면 대수를 사용해 회귀모형을 찾기가 무척 어렵다. 따라서 그 과정에 행렬이 사용되어야 한다.

그런데 회귀모형 계산 과정을 완전히 이해하지 못한다고 현실에서 다중회귀분석을 사용할 수 없는 것은 아니다. 다중회귀모형을 개념적으로 이해하는데 회귀계수의 도출 과정에 대한 이해가 꼭 필요한 것도 아니고, 회귀계수를 계산하는데도 그 과정이나 공식에 대한 이해가 꼭 필요한 것도 아니다. 회귀계수를 찾는 과정을 수학적으로 잘 이해하면 자신이 사용하는 통계기법의 전체를 이해하지 못해 가졌던 찝찝함을 떨쳐 버릴 수 있어 좋기는 하지만 말이다.

또한 행렬 접근은 독립변수의 갯수가 증가하고 표본의 크기가 커지면 부딪치게 되는 소위 ‘차원의 저주’를 이해하는데도 도움이 된다. 독립변수의 갯수가 증가하면 X 벡터의 차원이 증가하며, 표본의 크기가 크게 증가하면 방정식의 갯수(사례수와 같다)도 그만큼 많이 증가한다. 그렇게 되면 아래의 행렬은 엄청나게 커지게 된다.

독립변수(혹은 예측변수)의 갯수(p)가 1천개이고, 표본의 크기(n)가 3천만 개라고 상상해 보라. 1천개의 항을 가진 방정식 3천만 개를 가지고 해를 찾아야 하지 않겠는가. 그 계산은 고성능 PC조차도 크게 힘겹다. 때문에 빅데이터 분석에서 회귀 모형(알고리즘)이 인기가 좋지만 표본의 사례를 모두 써야하는 최소자승법 대신 일부 사례만 가지고도 적합선을 찾을 수 있는 경사하강법이 사용된다.

그렇다고 최소자승 회귀모형이 시대에 뒤떨어진 것이라고 말할 수는 없다. 아직도 그리고 앞으로도 오랫동안 많은 분야에서 최소자승 회귀모형이 사용될 것이다. 대학에서 그것을 공부할만한 가치가 충분하다고 생각된다.

9개 사례로 된 미니 표본을 가지고 행렬로 회귀계수를 구해 보자. 아래 그림을 클릭하면 사례가 담긴 엑셀 파일을 사용할 수 있다.

인구 1천명 당 흑인 수(B)와 하층 인구의 비율(LSTAT)을 가지고 미국의 도시 집값의 중간 가격(MEDV)을 예측하는 모형을 구해보는 사례이다.

1) 계산을 수행하기 전에 먼저 데이터셋에 상수 필드를 추가한다(붉은 색으로 된 필드이다). 절편 열을 독립변수 행렬에 추가하기 위해서이다.

2) 식 (6)을 적용하기 위해 독립변수 행렬 X의 전치행렬을 구한다. 전치한 결과가 들어갈 범위를 선택하고 =TRANSPOSE(A1:C10)를 친 다음 Cntl+Shift+Enter를 누른다.

3) 그렇게 해서 구한 X의 전치행렬과 행렬 X를 곱한다. 곱한 결과가 들어갈 범위를 선택하고, MMULT 함수를 사용하여 결과를 구한다.

4) 그 행렬의 역행렬을 구한다. 역행렬이 들어갈 범위를 선택하고, MINVERSE 함수를 사용하여 결과를 구한다.

5) 그 역행렬에 X의 전치행렬을 곱한다. 곱한 결과가 들어갈 범위를 선택하고, MMULT 함수를 사용하여 결과를 구한다.

6) 그렇게 구한 행렬에 Y 벡터를 곱한다. 들어갈 범위를 선택하고, MMULT 함수를 사용하여 결과를 구한다.

행렬을 이용하면 절편과 회귀계수들이 한번에 구해진다. LSTAT의 회귀계수는 -0.57688, B의 회귀계수는 -0.19531, Y 절편은 110.2711이다. 엑셀의 ‘데이터분석’ 애드인의 회귀분석 기능을 사용하면 동일한 결과를 얻을 수 있을 것이다.

현실에서 이러한 과정으로 회귀모형을 구할 가능성은 없다. 표본의 크기가 20~30만 되도 계산 과정이 너무 번잡해 진다. 정규방정식을 사용하면, 다중회귀모형의 회귀계수 값이 그러한 과정을 거쳐서 계산된다는 점을 이해하는 것으로 충분하다. (2019-12-07)

표와 그래프(6): 더미변수 만들기

연구자가 단일 변수에 대해 분석하는 경우 측정 수준에 따라 표와 그래프 접근을 구분해 사용하는 데 혼란이 일어날 일은 거의 없다. 범주형 변수(categorical variable)에는 표를 사용하고 수치형 변수(numerical variable)에는 그래프를 사용하면 된다.

혼란은 두 개 이상의 변수들 사이에 존재하는 관계를 분석하는 경우에서 발생한다. 그 경우도 변수들의 측정 수준이 모두 같으면 단일 변수의 경우처럼 표와 그래프 접근을 분별해 사용하면 될 것이다. 하지만 독립변수(예측변수)와 종속변수(반응변수)의 측정 수준이 다르면 어떻게 해야 할까? 특히 독립변수가 여러 개이고 그것들의 측정 수준이 다양하다면 어떻게 해야 할까?

예컨대 종속변수가 범주형 변수인데, 독립변수들이 수치형 변수인 경우도 있을 것이고, 종속변수가 범주형인데, 독립변수들이 범주형과 수치형이 섞여 있는 경우도 있을 것이며, 반대로 종속변수가 수치형인데, 독립변수들이 범주형이거나 범주형과 수치형이 섞여 있는 경우도 있을 것이다. 그럴 때는 표와 그래프 접근 중 어떤 쪽을 선택해야 할까?

연구자가 표 접근을 선호한다면, 모든 변수를 범주형으로 변환해서 교차표 분석을 하고자 할 것이다. 수치형 변수를 범주형 변수로 변환하면 데이터에 담긴 정보를 잃게 됨을 피할 수 없다. 만약 그 정보 상실이 심각한 문제라고 판단되지 않는다면 교차표 접근을 취하고 카이자승을 사용한 독립성 검정을 하거나 로그 선형 모형을 적용하여 변수들의 관계를 분석하면 될 것이다.

수치형 변수를 범주형으로 변환하는 작업은 몇 개의 범주로 나누는 것이 가장 이상적인가는 늘 논란의 여지가 있지만 기술적으로는 매우 간단하다. 엑셀의 피벗테이블에서 그룹 기능을 사용하면 손쉽게 원하는 수만큼의 범주를 생성할 수 있다. 그다음에는 교차표 칸들의 빈도가 어떤가를 눈으로 보면서 적절한 갯수의 범주를 찾아갈 수 있을 것이다. 여기서는 이에 대한 설명은 생략한다. 그에 대해 관심이 있는 독자는 본인의 게시글 중 “어떻게 하면 교차표를 잘 만들 수 있나?”를 참조하기 바란다.

연구자가 그래프 접근을 선호한다면, 상관계수나 회귀모형을 적용하게 될 것이다. 그 경우는 범주형 변수를 모두 수치형 변수로 변환해야 한다. 그 변환을 통해서 각 변수에 대해 의미 있는 평균을 얻을 수 있다면 각 분석 기법의 전제조건(가정)을 크게 위반하지 않는 범위 내에서 그래프 접근이 사용될 수 있다.

범주형을 수치형으로 바꾸는 방법은 더미변환(dummy transformation)이다. 즉, 기존의 범주형 변수로부터 더미변수(어떤 학자들은 그것을 가변수 혹은 모의변수라고 부른다)를 생성하는 것이다.

더미변수 생성에는 반드시 세 가지 점에 유념해야 한다. 첫째, 범주에 대해 0과 1의 수치를 부여한다. 둘째, 범주 수보다 하나 적은 갯수만큼의 변수를 생성한다. 셋째, 더미변수(들)에 대해 적절한 변수명을 붙인다. 사례를 가지고 더미변수를 만들면서 공부해보자.

먼저 가장 간단한 이진변수(binary variable)의 경우를 보자. 설문조사 데이터라면, 성별에 관한 문항 혹은 응답범주가 예/아니오만 있는 문항이 여기에 해당된다. 설문조사에서 성별은 대체로 남자와 여자를 1과 2로 코딩되어 있다. 대체로 여성에게 1, 남성에게 2가 부여되거나 그 반대이다. 예/아니오의 응답도 마찬가지이다. 원래 데이터 파일에 어떻게 코딩이 되어 있든지 더미변수가 되기 위해서는 코딩이 0과 1로 변환되어야 한다. 

만약 성별이라는 변수가 여성은 1, 남성은 2로 코딩되어 있다면, 연구자는 그것으로부터 여성이라는 새 더미변수를 만들 수 있을 것이다. 새 더미변수 여성은 여성 1, 남성 0이라는 새 코드를 갖는다. 새 더미변수가 남성일 수도 있을 것이다. 그 경우 여성 0, 남성 1의 코드를 갖게 한다. 성별의 범주는 여성과 남성 두 개이지만 그것으로부터 생성된 더미변수는 반드시 여성이거나 남성 하나 뿐이어야 한다.

더미변환 표를 사용하면 도움이 된다. 더미변환 표에서는 행에 원래 변수의 범주를 두고, 열에 새 더미변수를 둔다. 아래 표에는 성별이라는 변수로부터 여성이라는 더미변수를 생성했다.

성별여성
여성(1)1
남성(2)0

만약 새 더미변수의 이름을 그냥 원래 변수 이름 그대로 성별이라고 한다면 혼란이 야기될 수도 있다. 우선 성별 1 혹은 성별 0이라는 범주가 의미를 지닐 수 없다. 더구나 새 더미변수의 평균을 계산했는 데 0.6이 나왔다면 이미 기호적 혼란이 발생한다. 뿐만 아니라 나중에 어떤 범주를 1로 두었고, 어떤 범주를 0으로 두었는지를 기억할 수 없다는 문제도 있다.

새 더미변수의 이름을 여성으로 하고 여성에게 1을, 남성에게 0을 부여하면 의미의 혼란을 피할 수 있다(변수명을 남성으로 하고 반대로 코딩해도 그렇다). 약간 억지가 들어간 주장이기는 하지만 여성성이 여성에게는 있고(1), 남성에게는 없다(0)는 의미를 지닐 수 있으며, 여성의 평균이 0.6이라면 전체 사례(혹은 응답자)의 60%가 여성이라는 의미를 갖는다. 

또한 성별 변수의 범주는 두 개이지만, 더미변수는 그보다 하나 적은 한 개만 생성해야 한다. 만약 여성과 남성이라는 두 개의 더미변수를 생성해서 회귀모형에 포함시킨다면, 두 변수 사이의 상관관계가 너무 높아 앞 게시글에서 설명한 다중공선성의 문제가 발생하게 된다. 이 문제를 어떤 학자들은 더미변수의 함정이라고 한다. 그렇게 무시무시한(?) 이름을 붙인 것은 그 점을 반드시 기억해서 피해야 함을 강조하기 위해서이리라.

image

이번에는 범주가 여러 개인 학력의 경우를 보자. 원 데이터파일에 학력이 다음과 같이 범주화되어 있다고 하자.

학력: 고졸 미만, 고졸, 대졸, 대학원 졸업

이 변수는 아래와 같이 더미변환할 수 있다.

고졸미만: 고졸미만(less than high school) 1, 기타(otherwise) 0

고졸: 고졸(high school diploma) 1, 기타(otherwise) 0

대졸: 대졸(college degree) 1, 기타(otherwise) 0

대학원졸업: 대학원졸업(postgraduate degree) 1, 기타(otherwise) 0

앞 부분에 볼드체로 된 용어가 새 변수명이다. 이렇게 네 종류의 더미변수가 생성될 수 있다. 그러나 실제로 회귀모형에는 반드시 이중 3개만 포함되어야 한다. 어떤 세 개인가는 연구자의 선택에 달려 있다. 회귀모형에서는 제외된 범주(더미변수)가 비교의 기준이다(그래서 그것을 참조 범주, reference category라고 부른다). 회귀모형에 포함된 더미변수의 회귀계수는 해당 더미변수(범주)와 제외된 범주(참조 범주) 사이의 비교한다. 만약 위 학력 변수에서 대졸을 참조 범주로 선택하여 회귀모형에서 제외한다면, 회귀계수들은 대졸과 고졸미만, 대졸과 고졸, 대졸과 대학원졸업의 사례들을 비교한 값이 될 것이다. 대졸은 고졸미만 더미변수에서도 0, 고졸 더미변수에서도 0, 그리고 대학원졸업 더미변수에서도 0이다. 즉, 회귀모형에 포함된 세 더미변수(범주)에서 모두 0의 값을 갖기 때문이다(아래 표 참조).

학력고졸미만고졸대학원졸
고졸미만(1)100
고졸(2)010
대졸(3)000
대학원 졸업(4)001

어떤 범주를 참조 범주로 택할 것인가는 근본적으로 연구자의 선택에 달려 있다. 그것이 별로 큰 문제가 아니라는 말이다. 그러나 경험상 두 가지 기준을 적용하면 도움이 된다.

첫째, 가장(혹은 상대적으로) 일반적인 범주를 참조범주로 선택한다. 예컨대 빈곤이라는 변수에서 빈곤층과 비곤층을 비교한다면, 빈곤층을 참조범주로 택하라는 말이다. 대체로 빈곤층이 일반적이기 때문이다. 혼인상태라는 변수는 대체로 결혼, 미혼, 이혼, 사별 등을 범주를 가질텐데, 이중 결혼이라는 범주가 가장 일반적이기 때문에 그것을 참조범주로 택한다. 아래 그림에서 인종/피부색이라는 변수를 더미변수로 만들었는데 백인/유럽계(white/European-American)가 참조범주로 선택되어 회귀모형에서 제외되었다.

dummy variable에 대한 이미지 검색결과

둘째, 가장 흔한(사례수가 가장 많은) 범주를 참조범주로 선택한다. 사실 일반적인 범주가 흔한 범주인 경우가 많겠지만 꼭 그렇지는 않을 것이다. 그리고 일반적인 범주가 어떤 것인지 분명치 않을 때도 있다. 분석 대상에서 대학졸업자가 다수인 경우 대졸을 참조범주로 택한다. 만약 고졸미만이 아주 작은 비율인데도, 그것을 참조범주로 택할 경우 회귀계수 값이 문제가 될 수도 있다. 분모가 0에 가깝다고 상상해보라.

이제 더미변수가 포함된 다중회귀모형의 사례를 보자.

미국의 경제 잡지 Fortune은 매년 일하기 좋은 100대 기업의 목록을 공개한다. 링크된 엑셀 파일 FortuneBest.xlsx는 2012년도 상위 100개 기업들 중 무작위 표본 30개의 자료를 담고 있다(재인용). 데이터셋은 순위, 기업, 크기, 정직원 연봉(단위: $1,000), 시간제 직원 연봉(단위 $1,000)라는 네 개의 필드로 구성되어 있다. 순위는 기업들의 순위이고, 기업은 기업명이다. 그리고 크기는 그 기업의 크기를 소기업, 중견기업, 대기업으로 나타내고, 정직원 연봉은 정규직 직원들의 평균 연봉을, 시간제직원 연봉은 비정규직 직원들의 평균 연봉을 말한다. Fortune은 10,000 명 이상의 직원이 근무하면 대기업, 2,500에서 10,000 명 사이의 직원이 근무하면 중견기업, 그리고 2,500 명 이하의 직원이 근무하면 소기업으로 정의한다.

a. 이 자료를 이용하여 비정규직의 평균 연봉이 주어졌을 때 정규직의 평균 연봉을 예측할 수 있는 추정회귀식을 구하시오.

b. 을 사용하여 통계적 유의성을 검증하시오.

c. 기업의 크기가 주는 영향을 포함하기 위해서, 기업의 크기를 나타내는 더미변수를 생성하여 비정규직 평균 연봉(NRES)과 기업의 크기가 주어졌을 때 정규직의 평균 연봉(RES)을 예측할 수 있는 추정회귀식을 구하시오.

(해제)

a.

b. 모형의 유의성: F 검정의 p-값이 0.000525로서 회귀 모형이 통계적으로 유의미함. 회귀계수의 유의성: t 검정의 p-값이 0.000525로서 회귀계수가 통계적으로 유의미함.

c. 기업 크기는 대기업을 참조범주로 놓고, 중견기업과 소기업이라는 더미변수로 변환한다(아래 표 참조). 엑셀의 데이터셋에 소기업과 중견기업의 필드가 생성되어 있다.

기업 크기중견기업소기업
대기업00
중견기업10
소기업01

이제 비정규의 평균 연봉과 기업의 크기를 가지고 추정회귀식을 만들 수 있다. 회귀모형에 사용된 실제 독립변수는 비정규적의 평균 연봉(NRES), 소기업(Small Firm, SM), 중견기업(Mid-size Firm, MF)이다. 아래는 엑셀의 데이터분석 애드인에서 회귀분석 기능을 적용해서 나온 결과이다.

이 결과를 가지고 추정회귀식을 구성하면 다음과 같다. 중견기업의 회귀계수가 통계적으로 유의미하지 않음(회귀계수가 0이라는 의미)으로 추정회귀식에서 제외하였다.

분산분석표를 보면, F 검정의 p-값이 4.82E-05로 모형이 통계적으로 유의함을 보여준다. 맨 아래의 회귀모형 표를 보면, 더미변수 중견기업의 회귀계수는 통계적으로 유의미하지 않다(p-값이 0.801553). 비정규직 평균 연봉(시간제 직원 연봉)을 통제했을 때 대기업과 중견기업의 정규직 평균 연봉에는 차이가 없는 것으로 추정된다. 더미변수 소기업의 회귀계수는 34.40215이며, p-값이 0.002837로 통계적으로 유의미하다. 이는 비정규직 평균 연봉을 통제했을 때 소기업의 정규직 평균 연봉은 대기업의 정규직 평균 연봉보다 평균 3만4천4백불 정도 높다. 또한 예측변수 비정규직 평균 연봉(시간제 직원 연봉)의 회귀계수는 1.224045이며, p-값이 6.63E-05로 통계적으로 유의미하다. 이는 기업의 크기를 통제했을 때, Fortune Best 상위 100개 기업에서 비정규직의 평균 연봉이 1천 달러 올라가면, 정규직의 평균 연봉은 1천2백24불 정도 올라간다.

이상으로 더미변수를 생성하는 방법과 그것을 회귀모형에 사용하고 회귀분석 결과를 해석하는 방법을 공부했다. (2019-12-05)

표와 그래프(5): 다중회귀분석

단순회귀분석은 독립변수(혹은 예측변수)가 변함에 따라 종속변수 (혹은 반응변수)가 얼만큼 변하는지를 보여준다는 점에서 피어슨 상관계수의 한계를 적어도 한 가지는 보완하고 있다. 그러나 그것도 여전히 피어슨 상관계수와 마찬가지로 제3 변수의 영향을 통제하지 못하며, 다범주 변수를 분석에 포함하지 못한다. 이 문제를 해결하려면 다중회귀분석을 사용해야 한다.

다중회귀분석(multiple regression analysis)은 단순회귀분석에 독립 변수(들)가 추가된 것이다. 그것은 한 개의 독립변수가 아니라 두 개 이상의 독립변수를 가지고 종속변수를 설명하거나 예측할 때 사용하는 통계 기법이다. 하지만 그 확장이 그리 단순하지 않다. 회귀모형에서 독립 변수가 추가된다는 것은 분석 그래프의 차원이 증가함을 의미하기 때문이다. 단순회귀의 경우는 2차원 공간이었지만, 다중회귀는 독립변수(혹은 예측변수)의 수에 따라 3차원, 4차원, 100차원, 심지어 1,000차원의 공간일 수 있다. 3차원까지는 분석 그래프를 어떻게 직관적으로 이해할 수 있겠지만 4차원을 넘어서면 직관적 이해가 불가능해진다.

예컨대 아래 그래프는 독립변수가 2개인 3차원 공간이라서 직관적 이해가 가능하다. 연비(MPG)가 차량무게(Weight)와 음의 관계이고, 엔진의 힘(Horsepower)과도 음의 관계이며, 그 둘이 모여서 연비를 규정하는 평면(이것을 회귀평면이라고 부름)을 구성하고 있음을 직관적으로 느낄 수 있다. 3차원 공간의 회귀평면조차 직관으로 느끼기 쉽지 않지만 그나마 직관이 따라 줄 수 있는 그래프는 딱 3차원까지이다.

multiple linear regression graph에 대한 이미지 검색결과

분석 그래프의 차원이 증가하면 계산이 복잡해질 뿐 아니라 ‘다중공선성(multicollinearity)’, ‘과적합(over-fitting)’, ‘차원의 저주’ 등과 같은 문제가 발생하기도 한다. 그런 부수적인 문제들까지 논의해야 하기 때문에 사실 다중회귀분석의 소개는 쉽지 않다. 그래도 수고를 해서라도 배울만한 가치가 충분하니 함께 그것을  공략해 보자.

다중회귀분석에 대한 서술은 단계적 접근을 취하겠다. (1) 최소한의 수학적 배경만 가지고 다중회귀모형을 이해하고 사용하고자 하는 독자, (2) 행렬과 미적분에 대한 지식을 가진 독자, (3) 빅데이터의 데이터마이닝에까지 다중회귀모형을 활용하고자 하는 독자로 점차 설명 수준을 높여가겠다.

(1) 고등학교 인문계 정도의 수학적 배경을 가진 독자

단순회귀분석에서 종속변수 y의 값을 예측하는 일차함수는 다음과 같이 제시되었다(앞 게시글 참조).

다중회귀분석에서는 종속변수 y의 값을 예측하기 위한 독립변수(혹은 통제변수)가 추가되므로 아래와 같이 변수가 여러 개인, 따라서 항(term)이 여러 개인 다차원 함수가 된다.

식 (2)는 y의 예측값()을 가지고 표현되었다. 이 식을 아래와 같이 종속변수의 관찰값()을가지고 표현할 수도 있다. 예측(추정)되는 대상은 모집단이기 때문에 회귀계수들을 그리스 문자로 표기했다. 즉, 는 회귀계수의 표본통계치이고 는 모수이다. 이 경우 오차(혹은 잔차)항()이 추가되어야 할 것이다.각 y 값에 대한 예측값은 오차가 존재하기 때문이다.

귀찮은 사람은 다음처럼 식 (2)와 (3)에서 변수를 대문자 Y, X로 표시하고(확률변수는 대문자로 표기) 아래 첨자 중 를 떼어버려도 상관없다. 당연히 Y는 이고, X는 이며, 는 1부터 까지 일 것이기 때문이다. 수학 표기에 익숙하지 않은 독자는 다소 복잡하기는 해도 오히려 식 (2)와 (3)을 사용하는 편이 혼란이 적을 것이다.

식 (2)와 (3)에서 는 회귀계수(절편 포함)의 갯수이다. 회귀계수는 우리가 구하려고 하는 미지수이니 는 곧 미지수의 갯수이기도 하다. 식 (2)는 다중회귀모형에서 종속변수가 독립변수의 효과(혹은 영향)를 선형적 결합하여 예측되는 것임을 보여준다. 간단히 말해 다중회귀모형은 독립변수들의 선형적 결합으로 종속변수를 예측(설명)하는 통계기법이다.

식 (2)에서 회귀계수는 단순회귀모형에서처럼 독립변수와 종속변수의 선형적 관계를 보여준다. 다만 단순회귀모형에서와 달리 다중회귀모형의 회귀계수는 회귀모형에 포함된 다른 독립변수들을 통제한 상태에서 특정 독립변수와 종속변수의 선형적 관계를 나타낸다.

논의를 단순화하기 위해 독립변수가 두 개인 아래 회귀식을 가지고 생각해보자.

식 (5)에서 회귀계수 은 변수 가 통제된 상태에서 독립변수 과 종속변수 사이의 선형적 관계를 나타낸다. 여기서 “통제된(be controlled for)”은 ‘를 변하지 못하게 한(holding constant)’이란 의미이다. 즉, 식 (5)에서는 회귀계수 은 를 변하지 못하게 했을 때 의 선형적 관계를 나타낸다는 말이다. 마찬가지로 회귀계수 는 변수 을 통제했을(변하지 못하게 했을) 때 의 선형적 관계를 나타낸다. 그래서 단순회귀모형의 회귀계수를 총 회귀계수(total regression coefficient)라고 부르는 반면 다중회귀모형의 회귀계수를 부분 회귀계수(partial regression coefficient)라고 부른다.

다중회귀모형에서는 단순회귀모형에서와 마찬가지로 잔차제곱의 합()을 최소화하는 최소자승법을 적용하여 회귀계수와 절편(을 구할 수 있다. 최소자승법을 사용해 식 (5)의 을 추정하면 다음과 같다.

위 추정식들은 언뜻 복잡해 보이지만 찬찬히 들여다보면 몇 가지 간단한 정보들의 조합이다. 회귀계수는 표본평균(), 표준편차(), 상관계수()을 알면 도출될 수 있다.

다중회귀계수는 모형(회귀함수) 내의 다른 독립변수(들)를 통제했을 때 어떤 독립변수가 한 단위 변화할 때 종속변수가 변화하는 양을 나타낸다. 예컨대 식 (5)에서 를 통제한 상태에서 한 단위의  이 변화할 때 가 변화되는 양을 나타낸다. 마찬가지로 을 통제한 상태에서 한 단위의 가 변화할 때 가 변화되는 양을 나타낸다.

결정계수를 구하는 방법은 단순회귀모형에서와 동일하다.

여기서 이며, 다만 SSE를 구할 때 필요한 를 구하는 식이 에서 로 바뀔 뿐이다.  값은 두 변수 로 이루어진 회귀모형이 종속변수의 변량(총제곱합)의 몇%를 설명하고 있다고 해석된다.

결정계수의 유의성은 역시 F 검정으로 수행된다. 검정을 위한 가설은 다음과 같이 달라진다.

 

모수들 중 적어도 하나는 0이 아니다.

만약에 가 기각되면 하나 이상의 모수는 0이 아니며 종속변수 와 독립변수의 집합  사이의 전반적인 관계는 통계적으로 유의미하다고 결론을 내릴 수 있을 것이다.

F 검정통계량은 MSR(회귀에 의한 제곱합의 평균)을 MSE(잔차제곱합의 평균)로 나눈 값이며, MSR과 MSE는 SSR과 SSE를 그에 대응하는 자유도로 나눈 값이다.

식 (7)에서 p는 독립변수의 갯수이다. 그리고

따라서 검정통계량 F는,

검정통계량을 구하면, 분자의 자유도가 이고, 분모의 자유도가 인 F분포에서 p값이 구해진다. 그 값이 유의수준(대체로 0.05)보다 작으면 영가설이 기각되고, 유의수준보다 크면 영가설이 기각될 수 없다.  자유도의 크기만 다를 뿐이지 F 검정 역시 단순회귀분석과 동일함을 알 수 있다.

만약 F검정에서 다중회귀 관계가 유의미하다고 나온다면, 각각의 개별 모수(회귀계수)의 유의성을 검증하는 t 검정을 실시할 수 있다. t 검정의 목표는 개별 모 회귀계수가 0이 아니라고() 결론내릴 수 있는지를 확인하는 것이다. 모  회귀계수의 개별 유의성에 대한 t 검정에는 다음과 같은 가설이 적용된다. 모수 에 대하여

검정통계량 t는

식 (10)에서 영가설이 참이라면 이다. 다른 회귀계수들의 모수에 대해서도 동일한 방식으로 t 검정을 실시할 수 있다.

검정통계량이 구해지면, 자유도 인 t분포에서 양측 검정의 p-값을 구하고, 그 값이 선택한 유의수준(대체로 0.05)보다 작으면 영가설을 기각하고 그렇지 않으면 영가설을 기각하지 못한다.

이상으로 회귀함수, 회귀계수, 결정계수, 회귀 모형의 통계적 유의미성 검증(F 검정), 모 회귀계수의 통계적 유의미성 검정(t 검정) 등 다중회귀분석에 기초가 되는 내용을 두루 살펴보았다. 기초 단계의 다중회귀분석 학습에서는 모수(회귀계수), 검정통계량, 결정계수를 도출하는 과정을 수학적으로 이해하는 것보다 실제로 통계 프로그램이 제공하는 회귀분석 결과를 얼마나 잘 해석할 수 있는가가 더 중요하다. 아무튼 지금까지 논의한 정도면 회귀분석 결과를 이해하는 데 필요한 최소한의 지식은 갖추는 것이 아닐까 생각된다.

한 가지 논의만 추가하자. 모든 통계기법은 적용되기 위한 전제조건이 있으며, 어떤 통계기법도 적절히 사용되려면 전제조건이 충족되어야 한다. 현실에서는 왕왕 전제조건이 무시된 채 통계기법들이 적용되곤 하지만 그것은 좋은 태도가 아니다.

회귀분석에는 세 가지 전제조건(가정)이 있다.

(1) 선형성(linearity):  독립변수의 각 수준에서 종속변수의 분포의 평균은 직선상에 위치한다. 즉, 회귀 모형은 종속변수와 독립변수(들)가 선형적 관계(linear relationship)를 갖는다고 가정될 수 있을 때 사용된다. 위 식 (4)에서처럼 회귀함수에서 모수(population parameters)는 그 선을 규정하며, 표본 데이터에 적합(fit)하여 추정된다(앞 게시글 참조).

(2) 동질적 분산(homogeneous variance): 의 모든 값에서 는 동일한 퍼짐(spread)의 정규분포를 갖는다. 다시 말하면, 조건부 확률분포   은 모두 동일한 분산 을 가진다. 이를 등분산성(homoscedasticity)이라고 한다.

(3) 독립(independence): 확률변수 는 통계적으로 독립적이다. 이 요건은 아래와 같이 오차항(error term, , 모수는 )를 가지고 표현할 수 있다.

위 식은 관찰값 를 기댓값과 오차()의 합으로 표시하고 있다. 여기서  는 독립적인 오차(independent errors)이며, 오차는 확률변수로서 평균()이 0이고 분산이 인 정규분포를 갖는다. 이는 독립변수 ()의 모든 값에 대하여 동일하다. 앞에서 최소자승법을 소개했는데 최소자승법을 가지고 회귀계수를 추정하려면 독립변수 와 오차항()이 통계적으로 상호독립적이어야한다.

이 세 가지 조건은 다중회귀분석 뿐 아니라 단순회귀분석에서도 충족되어야 한다. 그렇다면 우리가 분석하려는 데이터가 이 조건을 충족하는지는 어떻게 확인할 수 있을까? 가장 간편한 방법은 산포도(scatter plot)를 그려보는 것이다. 산포도는 데이터 분포의 선형성을 보여줄 뿐 아니라 이상값(outliers)과 영향력 있는 관측값을 탐지할 수 있게 해준다.

다중회귀분석의 경우는 산포도 대신 잔차 플롯(residual plot)을 사용한다. 종속변수의 관측값과 예측값의 차이()가 잔차(residuals) 혹은 오차(errors)이다. 식 (3)에서 가 잔차이다. 는 오차라고 불리기도 하고 잔차라고 불리기도 한다. (다소 혼란스럽지만 학계의 관행이라 오차플롯 대신 잔차플롯이라는 이름을 따랐다.) 실제로는 이 잔차들을 표준화한 표준화된 잔차(standardized residuals)–간단히 표준 잔차라고 불린다–가 분석에 사용된다. 실제로 각 잔차값을 잔차들의 표준편차로 나눈 값이 사용된다. 그 값들은 표준화된 잔차의 근사값들이다. 원래 표준화된 잔차는 추정된 표준오차를 사용하여 계산해야 정확한 값이겠지만 그렇게 간단히 계산된 근사값으로 대체해도 무방할 것이다.

잔차플롯에는 두 가지가 있다. 하나는 독립변수 에 대한 잔차플롯이다. 전차를 세로축으로, 독립변수 를 가로축으로 하여 표시한 그래프이다. 모든 값에서 잔차(오차)의 분산이 같아야 하는데 만약 그 전제조건이 충족되면 잔차가 폭이 일정한 가로 선 안에 존재하는 페턴을 보일 것이다(아래 그림에서 세번 째 잔차플롯). 만약 다른 잔차가 다른 패턴을 보인다면 전제조건이 깨져있거나 선형분석이 적합하지 않음을 시사한다.

patterns of residual plots에 대한 이미지 검색결과

이 방법은 다중회귀분석에 사용되면 독립변수 하나하나 잔차플롯을 그려야 한다. 그 경우 독립변수의 갯수가 늘어나면 대단히 번거로운 작업이 될 것이다. 그래서 다중회귀분석에는 흔히 독립변수 대신 종속변수에 대한 예측값()을 가로축으로 놓고 플롯한 잔차플롯이 사용된다. 이 잔차플롯은 데이터에 이상값 혹은 영향력이 큰 값이 존재하는 지를 보여준다. 만약 그런 값들이 있다면 잔차가 정규분포를 가져야 한다는 전제조건이 깨졌음을 암시한다. 그리고 회귀선이 심각하게 데이터의 분포를 왜곡하고 있음을 시사하기도 한다. 표준잔차의 값이 -2보다 작거나 +2보다 크면 이상값으로 간주하는 것이 좋다.

이상값이나 영향력이 큰 값이 존재할 경우 그 값을 낳은 와 의 관측값을 살펴보아야 한다. 그것이 데이터 측정에 오류가 발생했기 때문일 수도 있고, 데이터 오기의 결과일 수도 있으며, 단지 독립변수의 값이 비정상적으로 큰 때문일 수도 있다. 이상값이 측정오류나 데이터 오기 때문이면 그것을 제외하거나 수정하면 될 것이다. 만약 정확하게 측정되고 기록된 값이라면, 그 사례(들)가 꼭 적합에 포함되어야 하는지를 재고해 보아야 한다. 만약 그 값을 포함한 회귀선보다 그 값을 제외하고 적합한 회귀선이 데이터의 분포를 더 정확히 대표한다고 판단된다면 그 값을 제외하는 편이 나을 것이다.

전제조건까지는 아니지만 다중회귀분석에서는 한 가지 점이 더 고려되어야 한다. 다중회귀분석에는 독립변수들이 두 개 이상인데, 그 독립변수들 사이의 상관성이 아주 높지 않아야 한다. 예컨대 두 독립변수 사이의  피어슨 상관계수가 7.0 이상이면 소위 다중공선성(multicollinearity)이 발생할 가능성이 있다. 다중공선성이란 회귀모형 안의 두 독립변수의 상관성이 아주 높아 회귀모형이 차원을 잃게 되는 현상이다. 그 독립변수들 중 둘 중의 하나는 회귀계수가 0이 되어 모형의 결정력에 전혀 기여를 하지 못하는 것이다.

다중공선성이 발생할 경우 F검정(모형 전체적으로는)은 통계적으로 유의미한데, 회귀계수들의 t검정 결과는 모두 통계적으로 유의미하지 않을 수도 있다. 독립변수들 사이의 상관성이 높지 않으면 그런 문제점을 피할 수 있다. 다중회귀분석을 실시할 때 먼저 모든 변수들 사이의 상관관계(영차상관관계, zero-order correlations라고도 부름) 행렬을 구해서 살펴보아 잠정적인 독립변수들 사이에 상관계수 값이 아주 크게 나올 경우 둘 중 하나를 모형에 포함시키지 않는 방식으로 다중공선성을 예방할 수 있을 것이다.

이제 구체적인 사례를 가지고 다중회귀분석을 차근차근 수행해 보자. 괄호 안에 링크된 데이터파일(CruiseShips.xlsx)에는 소형 크루즈 선박에 대한 고객들의 평가가 담겨있다. 데이터파일에서처럼  여정/일정(I), 해안 여행(CT), 음식/식사(F) 점수가 주어졌을 때 전반적인 점수(OR)를 예측할 수 있는 추정회귀식을 구하는 것이 목표이다.

먼저 변수들 사이의 상관계수행렬을 구하면 아래와 같다. 독립변수들 사이의 상관계수가 0.2259, -0.0090, -0.1074로 다중공선성의 가능성은 없다고 판단된다.

일단 추정회귀모형을 식 (11)과 같이 쓸 수 있을 것이다.

엑셀의 자체 애드인 ‘데이터 분석’의 회귀분석을 적용하면 아래와 같은 결과를 얻는다.

위 그림의 첫번 째 표는 ‘회귀분석 통계량’이라는 제목에 다섯 가지의 정보가 담겨있다. 먼저 다중 상관계수는 종속변수의 관찰값()과, 종속변수에 대한 회귀모형에 의한 예측값() 사이의 관계에 대한 피어슨 상관계수이다. 그 값이 0.8659로 상당히 높은 상관성을 보인다. 그것은 표본의 관찰값이 회귀선 주위에 잘 모여있으며, 다시 말해 주어진 회귀모형이 종속변수를 잘 예측하고 있음을 짐작할 수 있다.

결정계수는 모형의 결정력을 보여준다. 그것은 다중 상관계수를 제곱하면 얻을 수 있다(). 그것은 식(6)이 보여 주듯이 총제곱합(SST) 중 회귀모형에 의해 설명된 부분인 회귀제곱합(SSR)의 비율이기도 하다(). 주어진 회귀모형이 전반적인 점수라는 종속변수의 변량을 잘(74.98%) 설명하고 있음을 알 수 있다.

조정된 결정계수()는 소위 과적합(over-fitting)을 예방하는 도구로 볼 수 있다. 과적합이란 통계분석에서 얻은 결과를 일반화하기 어려운 현상을 말한다. 모형의 결정력을 높인다고 독립변수들을 무리해서 추가하면 결정력의 수치는 높아지겠지만 그 모형을 다른 사례에 사용하기는 어려워질 것이다.

과적합의 위험성에도 불구하고 연구자들은 자신이 만든 회귀모형의 결정계수가 높을수록 좋아하는 경향이 있다. 그래서 조정된 결정계수는 별로 도움이 되지 않는 독립변수를 무리해서 추가하는 경우 벌점(penalty)을 주는 방식으로 계산된다(아래 식 (12) 참조).

식 (12)에서 n은 사례수, p는 독립변수의 갯수이다. 조정된 결정계수 값이 0.7029로 결정계수(0.7498)와 약간 다르지만 문제가 될 정도는 아니라고 판단된다. 아마도 모형에 포함된 독립변수 중 어떤 것의 회귀계수가 통계적으로 유의미하지 못한 때문일 것이다.

표준오차는 추정값의 표준오차로 표본의 실제 관측값이 표본회귀선 주위에 얼마나 흩어져 있나를 측정한다. 추정표준오차가 작으면 관측값과 예측값 사이의 차이가 작다고 볼 수 있다. 실제 계산은 아래와 같이 하면 된다.

따라서 표준오차는 이다.

위 그림에서 두번 째 표는 분산분석표이다. 분산분석표에서

총제곱합(SST) = 회귀 제곱합(SSR) + 잔차 제곱합(SSE).

SSR은 92.35202, SSE는 30.81348이며, 이 둘을 합한 SST는 123.1655이다. SSR에 대응하는 자유도는 독립변수의 갯수인 3, SSE의 자유도는 20-3-1=16, 총자유도는 20-1=19이다. MSR(회귀 제곱평균)은 92.35202/3 = 30.7840063이고, MSE는 30.81348/16 = 1.92584256으므로 F-값은 30.7840063/1.92584256 = 15.9847이다. 분포에서 검정통계량 15.9847의 단측검정 p-값은 0.00005이다. 따라서 모든 모 회귀계수가 0이라는 영가설()은 기각된다.

모형 전체가 통계적으로 유의미하므로 이제 각각의 회귀계수 값과 그것의 통계적 유의성을 살펴볼 차례이다.  그에 관한 정보는 그림의 세번 째 표에 제시되어 있다.

그 표에 다음과 같은 회귀계수 값들이 나와 있다.

이 값들을 식 (11)에 대입하면 아래와 같은 회귀식을 얻는다.

회귀계수들의 값이 지닌 의미를 새겨보자. 모든 변수들이 1점부터 100점 사이의 값을 가지며 소숫점 첫째 자리까지 측정되어 있다. 여정/일정의 평가 점수가 1점 올라가면, 해안여행과 음식/식사에 대한 평가를 통제할 때 전반적인 점수가 0.1105점 올라가며, 해안여행의 평가 점수가 1점 올라가면, 여정/일정과 음식/식사에 대한 평가를 통제할 때 전반적인 점수가 0.2445점 올라가고, 음식/식사의 평가 점수가 1점 올라가면, 여정/일정과 해안여행을 통제할 때 전반적인 점수가 0.2474점 올라간다.    

그런데 이 회귀계수들은 통계적으로 유의미한가? 이 질문에 답하려면 각각의 p-값을 보면된다. p-값은 절편부터 순서대로 0.0160, 0.4069, 3.69e-05, 0.0011이다. 유의수준 0.05에서 여정/일정()의 회귀계수는 0.05보다 크기 때문에 여정/일정의 모 회귀계수()에 대한 영가설은 기각에 실패하고, 절편과 다른 회귀계수들()은 p-값이 0.05보다 작으므로 영가설이 기각된다.

이 결과를 참조해서 크루즈 선박에 대한 만족도 예측 모형을 구성한다면, 여정/일정 변수를 빼고 해안여행과 음식/식사라는 두 개의 독립변수로만 회귀모형을 만들어도 충분할 것으로 생각된다.

위 그림의 맨 아래 쪽에는 ‘잔차출력’이라는 제목의 표가 있다. 이 표는 ‘데이터 분석’의 회귀분석 창에서 ‘잔차’와 ‘표준잔차’를 체크하면 얻을 수 있다. 잔차도와 선적합도를 체크하면 각 독립변수에 대한 잔차플롯을 얻을 수 있지만 위에서 언급한 것처럼 표준잔차에 대한 분석으로 대신한다.

잔차들의 표준편차(STDEV.S 함수를 사용)를 구하면, 1.273484259이다. 각 잔차를 이 표준편차로 나누면 ‘표준잔차’을 얻는다. 그렇게 모든 표준잔차를 구해서 엑셀에 준 표준잔차와 비교해 보면 일치함을 알 수 있을 것이다. 실제로 엑셀은 그 방법을 사용해서 표준화된 잔차의 근사값을 구한다. 아래 그래프는 종속변수의 예측값을 가로축, 표준잔차를 세로축으로 놓고 그린 것이다.

그래프를 보면 -2나 +2를 넘어가는 표준잔차가 없으니 이상값이 없다고 판단해도 될 것이다. 표준잔차 표만 봐도 확인할 수 있지만 잔차플롯을 그려 본 것이다. 참고로 표준잔차 대신 잔차를 세로축에, 예측값 대신 각 독립변수를 가로축에 놓으면 독립변수에 대한 잔차플롯이 된다. 엑셀의 데이터분석의 회귀분석 창에서 ‘잔차도’를 체크하면 그 잔차플롯들을 구할 수 있다.  (2019-11-30)