사회통계(4): 스마트폰으로 데이터분석을…

[문제] 통계학이나 데이터분석을 수행할 때 성능 좋은 컴퓨터가 필요할까? 

그렇기도 하고 그렇지 않기도 하다.

빅데이터를 가지고 데이터마이닝을 하거나 사례수가 많거나 복잡한 통계 도구를 사용하려면 성능 좋은 컴퓨터가 필요하다. 심지어 신경망(Artificial Neural Network)처럼 값비싼 GPU를 사용해야 하는 기계학습 모형도 있다.

그러나 그것은 반쯤만이 진실이다. 성능이 약한 노트북이나 태블릿 PC는 물론이고 탭이나 스마트폰을 가지고도 훌륭한 데이터 분석이 가능하다.

사실 요즘에는 누구나 손에 컴퓨터 한 대씩을 가지고 다닌다. 스마트폰 말이다. 컴퓨터로 치자면, 시중에서 유통되는 중저가 스마트폰도 2000년에 발표된 펜티엄 4 초기 버전 정도의 데이터 처리 능력을 지니고 있다.

스마트폰 앱이 많지 않기는 하지만 그래도 잘 찾아서 활용하면 통계 학습을 하거나 현업에서 통계를 사용하는데 있어 스마트폰만으로도 대부분의 분석이 가능하다. 위 사진은 내 스마트폰[Galaxy A5 (2016)]에 설치된 데이터분석용 앱들의 폴더이다.

이 중 가장 많이 사용하는 앱은 Excel이다. MS가 무료로 제공하는 이 앱은 PC버전에서 사용가능한 추가기능을 설치할 수 없는 한계가 있지만 함수만 잘 활용하면 기본적인 통계 분석은 물론이고 회귀분석같은 고급 기능까지 적용할 수 있다.

두 번째로 많이 사용하는 앱은 Probability Distributions이다. 다양한 확률분포를 가지고 특정 범위의 변수 값이 출현할 확률을 계산하거나 거꾸로 특정 확률에 해당되는 변수 값의 범위를 구할 수 있다. 아주 유용한 앱이다.

자료 처리나 통계 분석에서 내가 가장 많이 사용하는 소프트웨어는 엑셀과 구글 스프레드시트이다. 엑셀이 첫째지만 엑셀 데이터 파일이 생성되면 구글 스프레드시트로 데이터 탐색을 하곤 한다. (구글) 스마트폰 앱인 스프레드시트에는 분석 기능이 별로 없지만 이미 수행한 분석 결과를 가져올 수 있어 편리하다.

인문사회학도들은 거의 사용하지 않지만 공학계산기를 사용하면 편리한 때가 적지 않다. 스마트폰에 기본앱으로 제공되는 계산기도 간단한 수학계산에 사용할 수 있다.

계산기의 숫자 입력 칸 아래 있는 다음과 같은 아이콘을 클릭하면 계산기가 옆으로 누우면서 약간 복잡한 수학 계산이 가능해진다. 더욱 본격적인 공학용 계산기 사용하려면 에뮬레이터 앱을 설치한다. Wabbitemu는 스마트폰을 아래 그림처럼  TI 계산기로 바꿔주는 앱이다. 데이터를 입력하여 웬만한 통계분석을 수행할 수 있으며 매우 빠른 데이터 처리가 가능하다.

통계처리나 데이터분석을 하는데 도구를 탓하지 말자. 통계적 지식과 개념만 제대로 갖추고 있으면 스마트폰만으로도 멋진 통계분석, 데이터분석이 가능하다. (윤영민-08-15)

사회통계(3): 데이터의 유형

[문제] 다음 중 분산분석이나 회귀분석이 적용될 수 없는 변수는?

  1. 나이
  2. 종교
  3. 소득
  4. 교육수준

답은 2번 종교이다. 분산분석이나 회귀분석에는 의미있는 평균이 계산될 수 있어야 한다. 가장 기본적인 계산이 각 사례값과 평균의 차이인 편차를 구하는 것이기 때문이다.이 종교는 가톨릭, 개신교, 유교, 불교, 이슬람교, 유태교 등의 범주로 나누어지는 명목변수(nominal variable)이다. 설령 그 범주들을 숫자로 표현한다고 해도 평균값이 의미를 가질 수는 없다.

이 문제는 데이터의 유형에 관한 질문이다. 데이터 분석이나 활용에서 데이터의 유형은 대단히 중요하다. 데이터분석 모형이나 응용 프로그램은 특정한 유형의 데이터에만 타당하기 때문에 각 알고리즘이나 프로그램이 수용하는 데이터의 유형이나 수준을 정확히 인지해야 한다. 그렇지 않으면 알고리즘이나 프로그램이 아예 작동하지 않거나 작동하더라도 무의미한 결과를 준다.

통계학에서 데이터는 측정 수준(level of measurement)에 따라 자주 구분된다.  명목 데이터(nominal data), 순서 데이터(ordinal data), 구간 데이터(interval data), 그리고 비율 데이터(ratio data)가 그것이다. 명목 데이터는 성별, 혼인 상태, 종교와 같이 수치화할 수 없으며 범주(category)로 나누어 구분만 되는 데이터이다. 순서 데이터는, 성적(A, B, C, D, F)이나 리커트(Likert) 척도처럼 범주 사이에 서열이 존재하는 데이터이다. 명목 데이터와 순서 데이터를 합쳐서 질적(qualitiative 혹은 범주형, categorical) 데이터라고 불린다. 구간 데이터는 년도나 온도처럼 나누어질 수 없는 데이터이고, 비율 데이터는, 나이, 소득, 성적 평점처럼 절대 영점이 존재해서 나눗셈이 가능한 데이터이다. 구간 데이터와 비율 데이터를 합쳐서 양적(quantitative 혹은 수치형, numerical) 데이터라고 불리기도 한다. 각 데이터의 수준에 가능한 계산은 다음 표와 같다.


기계학습 분야에서는 데이터의 유형을 이산형(discrete) 속성과 연속형(continuous) 속성으로 분류하기도 한다. 그 두 속성의 예에 대해서는 아래 표를 참조하기 바란다.

참고로 연속형 데이터는 실수(real number) 값을 갖는데, 컴퓨터에서 실수는 부동(浮動) 소수점(floating point number)으로 표현된다. 이과 전공 학생들에게는 익숙한 표기법이지만 문과 전공 학생들에게 낯설 것이다. 아래 그림을 참고해서 익히기 바란다.

용어가 다소 혼란스럽기는 하지만 데이터분석은 여러 학문 분야가 관여되는 만큼 그러한 혼란은 피하기 어렵다. 그래도 여기서 소개한 정도만 기억하면 크게 도움이 될 것이다. (윤영민 2017-08-14).

 

사회통계입문(1): 데이터 대 정보

[문제 1] 다음 두 테이블(table, 표)의 특성은 어떻게 다를까? 앞의 것은 통계청이 운영하는 ‘국가통계포털’에서 다운로드받은 인구 자료이고, 뒤의 것은 성균관대학교가 운영하는 SRC에서 다운로드 받은 한국종합사회조사(KGSS) 자료이다.

%ec%97%b0%eb%a0%b9%ec%9d%b8%ea%b5%ac%ed%91%9c

kgss%eb%8d%b0%ec%9d%b4%ed%84%b0

[문제 2] 오늘날의 사회가 가진 특징을 가장 잘 보여주는 단어는?

[문제 1]의 답은, 두 테이블은 모두 엑셀 형식으로 되어 있지만, 앞 테이블은 가공된 데이터로서 정보(information)적 성격이 강하고, 뒤 테이블은 가공되지 않은 원시 데이터(raw data)이다. 앞 테이블은 가공/분석에 제약이 많은 반면, 뒤 테이블은 가공/분석이 자유롭다.

[문제 2]의 답은 데이터이다. 아마도 10년 전이라면 정보(information) 혹은 네트워크(network)가 가장 유력한 해답이었을 것이다. 그러나 지금은 데이터(Data)가 강력한 후보이다. 그것은 마치 원유나 옥수수처럼 온갖 목적에 맞게 가공될 수 있기 때문이다.

(“Settling the eternal semantic debate: what is knowledge, what is information…”에서 인용)

위의 DIKW 피라미드는 데이터, 정보, 지식, 지혜의 관계를 보여주는 모형으로 널리 사용된다. 그러나 이 모형은 현실을 크게 왜곡할 수 있다. 특히 데이터 관점에서 볼 때 그러하다.

이 모형은 데이터보다 정보가 유용하다는 인상을 줄 수 있다. 특정한 목적에 맞게 데이터가 가공되거나 선별된 것이 정보이다. 그렇게 해서 그림에서처럼 정보는 데이터에 가치가 추가되었다고 해석될 수 있다. 그러나 그것은 대단히 부분적으로만 진실이다. 데이터가 맥락화되면(contextualized), 특정한 목적을 위해서는 유용성을 얻겠지만 일반적 용도로 보면 오히려 가치를 잃는다.

활용가능성의 측면에서 데이터는 정보, 지식, 혹은 지혜보다 훨씬 커다란 잠재적 가치가 갖고 있다는 말이다. 그것은 마치 원유, 석탄, 옥수수, 쌀 같은 원자재가 높은 잠재적 가치를 지니는 것이나 마찬가지이다. 일단 특정한 목적을 위해 가공되면 다른 목적에는 사용할 수 없게 되곤 한다.

통계학이나 데이터과학에서 데이터는 흔히 테이블(table)로 저장된다. 그렇다고 데이터가 곧 테이블은 아니다. 테이블은 데이터일 수도 있고 정보일 수도 있다. 다시 말해 테이블은 가공되지 않은 원시 데이터(raw data)일 수도 있고, 데이터를 가공한 결과인 정보(information)일 수도 있다.

MS 엑셀은 이 점을 잘 느끼게 해준다.  아래 그림은 엑셀 스프레드 시트에 데이터를 입력한 모습이다(여러분도 엑셀을 열어 그대로 입력하고 따라해 보시오). 이 데이터를 테이블로 만들려면 엑셀 메뉴 중 ‘삽입’에서 ‘표’를 선택하면 된다. 그리고 그 데이터나 데이터-테이블을 특정한 용도에 맞는 테이블로 변환하려면 ‘삽입’에서 ‘피벗 테이블‘을 클릭하면, 데이터를 다양한 방식으로 정리해서 표로 만들 수 있다. 그렇게 해서 만든 표는 데이터가 아니라 정보이다. 데이터를 데이터-테이블이나 피벗 테이블로 변환하면 한편으로는 엑셀의 다양한 기능을 적용할 수 있지만, 다른 한편으로는 데이터는 자유를 잃는다. 다른 프로그램에서 사용될 때 불가능하거나 불편해진다는 말이다.

data

책, 연구보고서, 신문, 잡지 등에 제시되는 테이블은 거의 모두 정보이다. 그 정보를 좀 다른 용도로 재가공하거나 재분석하려면 그 정보가 생산된 데이터, 즉, 원시데이터를 구해야 한다. 연구자들은 raw data에 굶주려 있다. 그들은 정보가 아니라 데이터를 먹고 산다. 그들은 외친다.

Data를 달라! Raw data를 달라!

(윤영민, 2017-08-13)

사회통계(6): ANOVA(분산 분석)

[문제 1] 세 농장에서 옥수수를 생산하는데, 각각 살충제를 다른 방식으로 살포하였다. 재배를 마친 후 수확 상태를 조사해서 다음과 같은 결과를 얻었다. 이 데이터를 가지고 살충제의 살포 방법에 따라 옥수수의 수확량에 차이가 있다고 추정할 수 있을까?(김은정, 2017: 279 변형)

자연과학, 사회과학을 막론하고 경험 과학(empirical science)에서 지식을 얻는 방법은 실험과 관찰이다. 그런데 실험과 관찰을 찬찬히 뜯어보면 과학적 인식의 핵심은 비교(comparison)임을 알 수 있다.

실험에서는 처치 집단(treatment group)과 통제 집단(control group)을 비교하여 처치의 효과를 판단하고, 관찰에서도 어떤 기준값과 비교하거나 사례들을 비교하여 인과관계를 추론하거나, 차이(difference), 성과(outcome) 혹은 효과(effects)를 판단한다.

ANOVA(Analysis of Variance, 분산 분석)는, 집단들의 비교에 널리 사용되는 통계 도구이다. 기본적으로 ANOVA는 특정한 변수에 관해 집단들의 평균을 비교하며, 분산(variance)을 가지고 그 비교를 통계적으로 판단한다. 그래서 평균들을 비교함에도 불구하고 이름이 분산 분석이다.

[문제 1]을 보면, 세 곳의 농장에서 일종의 의사 실험(quasi-experiment)을 시행했다. 같은 살충제를 다른 방식으로 살포하고 어떤 방식이 더 좋은 지를 알아보는 조사이다. 그 방식이란 살충제 살포 시점이나 횟수에 관한 것이 아닐까 짐작된다. 살충제를 언제, 혹은 몇 번이나 살포하는가가 병충해 예방에 영향을 많이 미치기 때문이다.

농장 I, II, III은 각각 8군데의 밭이 있는데, 농장별로 살충제를 서로 다른 방식으로 살포하고 가을에 수확량을 조사했다. 세 농장의 수확량(100 평방미터당) 평균을 계산하면, 농장 I은 228.25 kg, 농장 II는 226.625 kg, 농장 III은 230.25 kg이다. 세 농장의 수확량 평균에 차이가 있음은 분명하다.

그러나 그 수치들만 봐서는 그 차이가, 살충제 살포방식이 달라서 나온 결과(차이)인지, 아니면 살충제 살포방식과는 상관없이 그냥 우연히 발생한 결과(차이)인지를 알 수가 없다. 그것을 통계적으로 판단할 수 있도록 도와주는 도구가 ANOVA이다.

ANOVA는 집단 간의 변이(between variability)집단 내의 변이(within variability)보다 충분히 크면, 집단들의 평균이 서로 다른 모집단에서 나온 것으로 추정하고, 조치(treatment, 독립변수: 이 사례에서는 살충제 살포방식)의 효과가 있다고 판단한다. 반대로 집단간의 변이가 집단 내의 변이보다 그다지 크지 않으면, 집단들의 평균이 하나의 공통 모집단으로부터 나온 것으로 추정하고, 조치의 효과가 없다고 판단한다.

집단 간의 변이와 집단 내의 변이의 비율은, 위 식에서처럼 집단 간 편차 제곱의 합(MSC, 처리 제곱의 평균이라고도 함)집단 내 편차 제곱의 합(MSE, 잔차 제곱의 평균이라고도 함)의 비율로 구한다.

MSC와 MSE는 다음과 같이 구할 수 있다.

그렇다면 문제는 SSC, SSE, , 를 구하는 것으로 압축된다. 그 값들은 아래 식들로 계산된다. SST는 총 제곱의 합, SSC는 처리 제곱의 합, SSE는 잔차 제곱의 합이다.

이 세 가지 제곱 합 사이에는 다음과 같은 관계가 성립한다. . 그래서 SST는 SSC와 SSE로 분해된다고 표현되기도 한다. SST는, 각 관측값에서 전체 평균을 뺀 편차를 제곱하여 더한 값이다.

(=j번째 집단의 i번째 관측값; =전체 평균; 은 집단 j의 관측값 수; k는 집단 수)

SSC는 각 집단의 평균에서 전체 평균을 뺀 편차에 각 집단의 관측수를 곱해서 모두 합한다.

(k=집단 수; j=j번째 집단; =j번째 집단의 관측값 수; =j번째 집단의 평균; =전체 평균)

SSE는 각 집단의 편차제곱의 합을 모두 더 한다.

(=j번째 집단의 분산) 혹은 공식을 가지고 구한다.

자유도는 아래 공식으로 구할 수 있다. 집단 간 제곱의 평균을 구하는 데 필요한 자유도는 집단의 수 빼기 1이며, 집단 내의 제곱의 평균을 구하는데는 총 관측 수에서 집단의 수를 빼면 된다.

, (k=집단 수; =전체 관측값 수)

이렇게 구한 F ratio, 즉, F 값은 F 분포를 이룬다. F 분포는 위의 두 가지 자유도(degree of freedom)에 의해 결정된다. 따라서 F 값, , 를 알면 p 값을 구할 수 있다. 아래 그림은 [문제 1]의 데이터를 가지고 세 가지의 편차를 구한 결과이다. (이 문제를 MS 엑셀을 사용해 풀어놓은 파일을 보려면 이 링크를 클릭하시오.) 여기서 전체 편차를 제곱하여 더하면 SST를 구할 수 있고, 그룹 간 편차를 제곱하여 더하면 SSC를, 그룹 내 편차를 제곱하여 더 하면 SSE를 구할 수 있다. MS 엑셀에서 함수 SUMSQ를 사용하면 쉽게 제곱 합을 구할 수 있다. 다음 그림에 보듯이 총 제곱합의 구하는 함수는 =SUMSQ(E2:G9)이다. 총 제곱합(SST)는 129.625, SSC(처리 제곱합)은 52.75, SSE(잔차 제곱합)은 76.875이다. 아래 그림에서 보듯이 이 편차제곱의 합들이 분산분석표의 두 번째 열을 구성한다. 이 그림은 엑셀이 제공하는 추가기능인 ‘데이터 분석’을 수행한 결과이다. 제곱합의 수치들이 정확히 일치함을 볼 수 있다. 처리제곱 평균(MSC)은 처리 제곱합을 그것의 자유도로 나누어 준 26.3757이고, 잔차제곱 평균(MSE)은 그것의 자유도 21로 나누어 준 3.660714이다(네 번째 열 참조). F 비(ratio)는 26.3757/3.660714 = 7.204878이다. 그것의 확률인 p-값은 함수 FDIST를 사용하면 구할 수 있다. p-값은 0.004145로 0.05보다 훨씬 작다. 이 결과를 가지고 우리는, 살충제의 살포방식이 옥수수 생산에 상당히 의미 있는 영향을 미친다고 결론을 내릴 수 있을 것이다. 즉, 농장 III에 적용한 방식이 가장 효과적이고, 농장 II에 적용한 방식이 가장 비효과적으로 판단한다. 실제 분산분석을 수행할 때 직접 평균, 편차, 제곱합 등을 구하는 경우는 없을 것이다. 통계 소프트웨어를 사용하면 순식간에 필요한 값들을 모두 얻을 수 있기 때문이다.

엑셀의 자체 추가기능인 데이터 분석에서도 일원 배치법 분산 분석을 적용하면 한꺼번에 모든 값을 얻을 수 있다. 다만 엑셀에서는 데이터 분석 기능을 모바일 버전에서는 사용할 수 없다는 함정이 있다. 때문에 자주 사용하는 함수들은 사용법을 익혀두면 편리할 것이다.

어떤 통계 도구도 그러하듯이 ANOVA도 적용하는데 갖춰야할 조건이 있다. ANOVA는 꼭 실험이라 아니라도 독립변수가 범주형이고, 종속변수(혹은 반응 변수)가 수치형이면 사용할 수 있다. 그리고 종속변수의 모집단이 정규분포를 따라야 한다. 다만 표본의 크기가 모두 같다면, 이 가정은 크게 중요하지 않다.

다음 두 문제를 직접 풀어보기 바란다.

[문제 2] 어떤 대학에서 학생들을 상대로 대학생들의 학습 능력을 연구한다고 하자. 연구자들은 그 대학에서 오래 공부할수록 학습 능력이 향상되는 지 알고 싶다. 그러기 위해 1학년, 2학년, 3학년에서 각각 8명씩 무작위 표본을 추출하여, 100점 만점의 학습 능력 테스트를 시행하였다. 다음 표는 그 결과이다. 이 데이터를 가지고 대학에서의 공부가 학생들의 학습 능력을 향상시킨다고 주장할 수 있을까?
 [문제 3] Consumer Report는 미국 South Carolina 주 소재 풀 서비스 식당들의 식사 가격을 조사하였다. 세 가지 유형의 식당을 각 8곳씩 조사한 결과는 다음과 같다. 이 데이터를 가지고 세 가지 유형의 식당에서의 한 끼 식사 평균 가격이 다르다고 추정할 수 있을까?(Anderson, 2016: 542)

<참고 문헌> Anderson, David R, et.. (류귀열/김창규/최승은/김민중/이성철 역). 2016. <앤더슨의 통계학(Essentials of Modern Business Statistics)>. 한올. 김은정. 2017. <사회조사분석사>. 학진북스.

사회통계입문(2): 데이터(data)란?

[문제] 아래 세 사진의 공통점은?

위 세 사진의 공통점은 모두 데이터(data)라는 사실이다.  첫 번째 사진은 영화 ‘스타트랙’의 배역 중 1인인 ‘데이터’라는 이름의 A.I.이고, 두 번째 사진은 네플릭스가 투자하여 제작하고, 개봉하자마자 스마트폰에서 스트리밍 서비스를 시작한 영화 ‘옥자’의 포스터이다. 영화 ‘옥자’는 그 자체가 데이터이기 때문에 가능한 일이었다. 세 번째 사진은 스마트폰 속의 은행인 카카오뱅크이다. 카뱅은 오프라인 지점이 없는 은행이다. 카뱅은 그 자체가 데이터이다.

오랫동안 데이터란 어떤 조사 대상–존재, 심리상태, 사건, 현상 등–의 흔적, 편린, 혹은 특성을 가르키는 용어였다. 즉, 데이터는 “~~에 대한 것”이었다. 그러나 데이터 기반 사회에서 테이터는 더 이상 “~~에 대한 것”에 그치지 않는다. 스타트랙의 배역이나 카카오뱅크처럼 데이터는 어떤 존재 자체일 수도 있고, 사이버 성희롱처럼 사건 자체일 수도 있으며, 뇌파로 기록된 심리 자체일 수도 있고, 인터넷 거래, SNS의 댓글이나 ‘좋아요’ 같은 현상 자체일 수도 있다. 데이터 분석이나 활용에 앞서 데이터에 대한 인식의 전환이 요구된다.

데이터과학: 데이터 마이너와 사회학자의 동상이몽

데이터 마이닝(data mining)은 많은 양의 데이터를 분석한다. 사회학(sociology)도  데이터 마이닝 못지 않게 데이터를 많이 다룬다. 두 분야 모두 경험 과학(empirical science)이다. 그런데 조금만 진지하게 들여다보면 두 학문이 세상을 보는 관점, 접근방법, 그리고 추구하는 가치가 크게 다름을 알 수 있다.

데이터 마이닝은 데이터 속에서 유용한 패턴(patterns)을 찾는다. 그것이 인과적 관계이냐 단순한 상관관계이냐는 중요하지 않다. 데이터 마이너는 데이터를 이용해 모형(혹은 알고리즘)을 만들어 예측(prediction)을 수행하며, 모형을 검증하고 개선한다. 데이터 마이닝에서 가장 중요한 가치는 유용성(usefulness)이다. 연구가 기업이나 기관을 운영하는데 도움이 되어야 한다.

text_data_mining

사회학은 데이터 속에서 유용한 증거(evidence)를 찾는다. 데이터를 이용해 이론(가설 혹은 인과관계)을 검증하고 이론을 향상시킴으로써 현실에 대한 이해를 깊게 한다. 사회학에서 가장 중요한 가치는 이해(understanding) 혹은 실천(practice)이다. 궁극적으로 사회학 연구는 사회 질서를 유지하거나 변화시키는데 도움이 되어야 한다고 믿는다.

이런 점에서 데이터 마이닝은 데이터중심 접근(data-centered approach)이고, 사회학은 이론지도 접근(theory-guided approach)이라고 말할 수 있다. 두 학문 분야를 넘나들고 있는 학자나 학생이라면 이 차이를 명쾌하게 인식할 필요가 있다. 특히 사회학도는 ‘빅데이터’의 파도 속에서 자칫 자신의 정체성을 잃을 수도 있다.

데이터 마이닝은 세 가지 특징을 갖는다.

1) 상관성(correlation) 기반의 모형이면 족하다. 풍부한 데이터 환경에서 엄밀한 인과모형에 의존하지 않고도 얼마든지 탁월한 예측을 할 수 있다. 인터넷 서점 아마존이나 검색 기업 구글이 성공한 요인을 상기하면 이 점이 이해 될 것이다.

2) 알고리즘(algorithm)의 효율성(efficiency)과 예측력(predictability)을 높이는 것이 핵심이다. 획기적인 발상이든 시행착오를 통한 재설계이든 보다 우수한 알고리즘을 적용해 누가 얼마나 정확히, 그리고 신속하게 해답을 제시하는가가 관건이다. 검색엔진들의 경쟁을 상기해 보라. 사용자들의 입맛에 맞는 정보를 얼마나 신속하게 제공하는가가 경쟁 포인트이다.

3) 데이터 마이닝의 가장 큰 함정은 과적합(over-fitting)이다. 최대한 많은 설명 요인을 모형에 집어넣다보면 모형의 설명력은 높아지지만 모형의 일반성이 떨어지게 된다. 이 때문에 데이터 마이닝에서는 사회학에서 거의 사용하지 않는 표본 분할이 애용된다. 데이터를 훈련 표본(training sample)과 검증 표본(testing sample)으로 나누어 과적합의 함정에서 벗어나고자 한다.

사회학도 세  가지 특징을 갖는다고 말할 수 있다.

social research

1) 인과성(causality) 기반의 모형을 추구한다. 분석모형에 설명 요인이 여러 개 들어가면 이론화가 아직 덜 되었다고 간주한다. 모형이 얼마나 많은 설명력을 갖는가가 중요한 것이 아니라 하나라도 제대로 원인을 발견하는 것이 중요하다.

2) 모형의 정확성(correctness), 단순성(simplicity), 그리고 정의(justice)를 둘러싼 게임이다. 진리를 발견하고, 세상을 움직이는 핵심적인 요소를 파악하고, 보다 나은 세상을 만들어 가는데 이론과 모형이 도움이 되어야 한다. 아마도 가장 단순한 사회학 모형은 칼 마르크스의 이론일 것이다. 계급투쟁이라는 창으로 세상을 바라본다.

3) 사회학의 가장 큰 함정은 과소적합(under-fitting)(혹은 모형 구성오류(misspecification)이다. 모형을 최대한 단순하게 만들려고 하거나 연구자가 관심을 갖는 요인에만 집착하다보면 분석모형이 중요한 요인을 빠트리게 되어서 생기는 문제이다. 한 마디로 모형이 잘못되어 있는 것이다. 모형이 잘못되어 있으면 아무리 많은 데이터를 사용해도 오차를 줄일 수 없다.

데이터 마이너(data miner)사회학자(sociologist)는 모두 데이터과학자일 수 있다. 그러나 데이터 마이너와 사회학자는 추구하는 목표가 크게 다르다. (2016/9/22)

협력이란?

martin_nowak1

우리는 협력을 어떤 의미로 쓰고 있을까? 아마도 일반적으로 “힘을 합쳐서 서로 도움”(네이버 국어 사전)의 의미로 사용할 것이다.

그러나 모든 사람이 협력을 동일한 의미로 사용하는 것은 아니다. 이 점은 대단히 중요하다. 동일한 용어를 다른 의미로 사용함으로써 소통이 어려워질 뿐 아니라 협력을 제대로 이해할 수 없게 되기 때문이다.

일반적 정의에서 가장 크게 벗어난 정의는 진화생물학에서 발견된다. 위 사진의 논문 2-3줄에 흥미있는 협력의 정의가 제시되어 있다. 이 논문은 마틴 노왁(Martin Nowak)의 “협력의 진화를 위한 다섯가지 규칙(Five Rules for the Evolution of Cooperation)”(Science 2006, Dec. 8; 전체 논문은 첨부 파일 참조)이다.  이 글에서 “협력은 이기적 복제자들이 서로 돕기 위해 자신들의 재생산 잠재력을 일부 포기함을 의미한다(Cooperation means that the selfish replicators forgo some of their reproductive potential to help one another).” 여기서 복제자(replicator)는 진화생물학에서 진화의 단위(evolution unit)를 가리킨다.

이 논문에서 노왁은 경쟁이 지배하는 자연도태 환경에서 어떻게 자신을 희생하는 협력이 가능한가를 탐구한다. 저자는 혈연선택, 직접 호혜성, 간접 호혜성, 네트워크 호혜성, 집단선택 각 이론이 제시하는 협력 조건을 각각 한 줄의 부등식으로 표시한다. 예컨대 일개미가 자신 스스로의 번식을 포기하고 여왕 개미에게 번식을 전담하게 하는 것은 협력으로 간주된다. 윌리엄 해밀턴은 일개미의 그러한 협력 행동이 유전자의 관점에서 이해될 수 있다고 주장한다. 그는 어떠어떤 이유로 일개미는 자기가 낳은 자식에게는 50%의 유전자밖에 남겨주지 못하지만, 여왕 개미를 도와서 일개미를 낳게 하면 자기 유전자의 75%를 남길 수 있기 때문에 스스로의 진화를 포기한다고 해석한다.

우리 인간도 개미처럼 유전자 주인의 운반자에 불과하다면 그것은 대단히 강력한 해석이 된다. 그러나, 유전자 신화를 믿지 않는다면 진화생물학적 개념 정의는 수용하기 힘들다. 사회학적으로 협력이란 목표 혹은 목적 없이도 발생할 수 있는 사회적 행동이다.

협력이 왜 일어나는가를 해명하는 것이 전부라면 협력을 어떻게 정의하던 크게 중요하지 않다. 그러나 협력을 어떻게 촉진할 것인가까지를 염두에 둔다면 진화생물학–특히 게임이론적 접근–적 정의는 연구에 방해가 된다. 왜냐하면 오늘날 우리가 목격하고 경험하는 수많은 협력은 목적 지향적이나 목표 지향적이 아니라 과정 지향적이기 때문이다.

왜 협력하는가? 그렇게 하는 것이 즐겁고 행복하기 때문이다. 협력에 이유가 더 필요한가? 협력 연구자의 과제는 협력을 “즐겁게 행복하게” 만드는 요소를 찾아내는 것이 되리라.