사회통계(7): 통계학 교육의 전복이 요구된다

대학에서 사회통계 혹은 통계학을 가르치는 가장 중요한 이유는 학생들에게 데이터를 전문적으로 분석할 수 있는 능력을 갖추어 주기 위해서이다. 그것은 과거에도 그랬고, 현재도 그러하며, 미래에도 그럴 것이다. 그런 관점에서 보면 사회통계 교육에 빨강 불이 켜졌다. 통계학 교육이 전복되어야 한다는 과격한 표현이 어울릴 정도로 극적인 변화가 필요하다는 말이다.

지금까지 사회통계학이나 통계학 교육의 중점은 모수 추정과 가설 검증에 있었다. 작은 규모의 표본조사를 통해 데이터를 수집하고 그것으로 모집단의 모수를 추정하거나 가설을 검증하는 방식이었다. 따라서 기술통계(descriptive statistics)는 고급의 통계 기법을 배우기 위한 예비 지식 혹은 보조 수단 정도로 취급했다. 그런 방식으로는 모수 추정이나 가설 검증이 불가능하다고 여겼기 때문이다. 학생들은 물론이고 교수자도 기술통계를 진지하게 다루지 않았다.

그런데 시대가 바뀌었다! 정확히 말하자면, 데이터 환경이 바뀌고 분석 도구가 바뀌었다. 대량의 데이터가 이용가능하고 엄청난 컴퓨터 자원에 손쉽게 접근할 수 있게 되었다. 한 마디로 ‘빅데이터’ 시대가 도래했다!

게다가 현실에서는 모수 추정이나 가설 검증이 아니라 예측이 대세가 되고 있다. 집단 수준의 예측 뿐 아니라 개인 수준의 예측까지 일반적이 되고 있다.

이런 상황에서 종래의 모수 추정이나 가설 검증 기법들은 불필요하거나 적합성을 잃고 있다. 표집 데이터가 아니라 전수 데이터가 이용 가능한 경우가 크게 늘었고, 그런 경우에는 모수 추정이나 가설 검증이 불필요하다. 또한 현재의 통계 분석 도구들은 대부분 표본의 크기가 2천이나 3천 정도임을 가정하고 개발되었다. 예컨대 널리 사용되는 카이자승이나 p-값이 그러하다. 그런 도구들은 사례수가 크게 많아지면 검정력을 상실한다.

따라서 통계학 혹은 통계학 교육의 무게 중심은 기술통계로 이동되어야 한다. 그것이야말로 학생들이 사회에 나가면 널리 사용할 도구들이기 때문이다. 기술통계에 대한 교육의 강화 뿐만이 아니다. 보다 더 큰 관점에서 볼 때 사회통계 교육에 다음과 같은 변화가 필요하다고 판단된다.

  1. 데이터(data)에 대한 개념적 인식 전환이 요구된다.
  2. 기술통계(descriptive statistics)에 대한 교육이 크게 강화되어야 한다.
  3. 시각화(visualization) 교육이 크게 강화되어야 한다.
  4. 확률이론(probability theory)과 확률분포(probability distribution)에 대한 교육이 크게 강화, 확대되어야 한다.
  5. 베이즈 추론(Bayesian inference)에 대한 교육이 확대 혹은 추가되어야 한다.
  6. 상관성 척도(measurement of relations)들에 대한 교육이 크게 확대되어야 한다.
  7. 회귀분석의 적합(fitting regression models) 방법을 다양화해야 한다.
  8. 데이터 마이닝(data mining)과 예측 분석(predictive analytics)이 추가되어야 한다.

데이터에 대한 개념적 인식 전환에 관해서는 앞선 포스팅에서 이미 논의했으니, 여기서는 기술통계에 대한 교육을 강화해야 한다는 점에 대해 집중적으로 논의해 보자.

변하는 사회현상(변수라고 하자)은 무엇이나 분포(distribution)를 가진다. 통계학은 그 분포를 정확하고 간명하게 묘사할 수 있게 해준다. 평균, 중앙값, 최빈값과 같은 대표값은 변수의 분포의 중심이 어디에 있는 지를 보여주고[그 때문에 중앙 집중 경향(central tendency)이라고도 불린다], 범위, 표준편차, 분산, IQR(사분위 범위) 같은 산포도는 변수가 중앙 집중 경향을 중심으로 얼마나 퍼져 있는지를 보여주며, 왜도(skewness)나 첨도(kurtosis) 같은 비대칭도는 변수의 분포가 어느 쪽으로 치우쳐 있는지 혹은 얼마나 중심에 집중되어 있는지를 보여준다.

Image result for moving averages

이 중 가장 중요한 척도는 평균이다. 평균은 범주형 변수에는 사용될 수 없지만 가장 널리 사용되는 척도이다. 그리고 평균은 데이터의 성격과 용도에 따라서 산술평균, 가중평균, 절삭 평균, 기하평균, 조화평균, 평방평균, 이동평균 등 다양한 종류가 사용된다.

그리고 평균은 거의 모든 고급 통계 기법들의 출발점이다. 분산분석, 상관분석, 회귀분석 등은 평균으로부터의 거리, 즉, 편차를 가지고 하는 게임이라고 해도 과언이 아니다. 평균에 대해서만도 적어도 한 주 정도의 수업이 필요하리라 생각된다. (참고로 평균에 관해 예리한 지식을 갖고 있으면 동료들에게 깊은 인상을 줄 수 있을 것이다.)

그러나 기술통계가 위와 같은 한 변수의 분포에 그치는 것은 아니다. 우리가 관심을 갖는 사회현상이 하나의 변수가 아니라 두 변수 혹은 여러 개 변수 사이의 관계일 때도 많다. 승진에 있어서의 성차별, 교육 수준에 따른 소득분포, 특정 지역 출신에 대한 차별, 부모의 사회계층과 자식의 사회계층, 학습 시간과 성적, 연령에 따른 투표성향  등 사실 사회과학의 관심 대상은 변수 사이의 관계인 경우가 많다.

따라서 기술통계에는 변수간의 관계를 보여주는 도구들도 포함되어야 한다. 공분산, 상관계수, 교차표, 결합확률, 조건부 확률, 승산(odds)과 승산비(odds ratio) 등이 그런 기술통계 도구들이다.

Image result for odds

별도로 포스팅 하기 위해 현재의 논의에서는 제외했지만, 시각화(visualization)는 기본적으로 기술통계에 속한다. 기술통계량과 시각화를 합친 기술통계에 대한 강의만으로도 한 학기 수업을 할애해야 할 것으로 생각된다.

그것은 충분히 가치 있는 교육이 될 것이다. 기술통계 도구들을 제대로 활용할 수 있어야 한다는 시대적 요청에도 맞고, 상위 과목이 되는 고급통계, 데이터 마이닝, 예측분석의 효과적인 교육을 위해서 탄탄한 기초를 필요하다는 측면에서도 그렇다.

더 이상 기술통계를 저급한 지식으로 취급하거나 고급 통계를 위한 기초나 보조 수단으로만 인식되어서는 안 될 것이다. 어쩌면 대부분의 업무에서 기술통계는 추리통계보다 훨씬 중요한 통계 지식이 될 것이다.  (윤영민, 2017-08-22)

사회통계(6): ANOVA(분산 분석)

[문제 1] 세 농장에서 옥수수를 생산하는데, 각각 살충제를 다른 방식으로 살포하였다. 재배를 마친 후 수확 상태를 조사해서 다음과 같은 결과를 얻었다. 이 데이터를 가지고 살충제의 살포 방법에 따라 옥수수의 수확량에 차이가 있다고 추정할 수 있을까?(김은정, 2017: 279 변형)

자연과학, 사회과학을 막론하고 경험 과학(empirical science)에서 지식을 얻는 방법은 실험과 관찰이다. 그런데 실험과 관찰을 찬찬히 뜯어보면 과학적 인식의 핵심은 비교(comparison)임을 알 수 있다.  실험에서는 처치 집단(treatment group)과 통제 집단(control group)을 비교하여 처치의 효과를 판단하고, 관찰에서도 어떤 기준값과 비교하거나 사례들을 비교하여 인과관계를 추론하거나, 차이(difference), 성과(outcome) 혹은 효과(effects)를 판단한다.

ANOVA(Analysis of Variance, 분산 분석)는, 집단들의 비교에 널리 사용되는 통계 도구이다. 기본적으로 ANOVA는 특정한 변수에 관해 집단들의 평균을 비교하며분산(variance)을 가지고  그 비교를 통계적으로 판단한다. 그래서 평균들을 비교함에도 불구하고 이름이 분산 분석이다.

[문제 1]을 보면, 세 곳의 농장에서 일종의 의사 실험(quasi-experiment)을 시행했다. 같은 살충제를 다른 방식으로 살포하고 어떤 방식이 더 좋은 지를 알아보는 조사이다. 그 방식이란 살충제 살포 시점이나 횟수에 관한 것이 아닐까 짐작된다. 살충제를 언제, 혹은 몇 번이나 살포하는가가 병충해 예방에 영향을 많이 미치기 때문이다. 농장 I, II, III은 각각 8군데의 밭이 있는데, 농장별로 살충제를 서로 다른 방식으로 살포하고 가을에 수확량을 조사했다.

세 농장의 수확량(100 평방미터당) 평균을 계산하면, 농장 I은 228.25 kg, 농장 II는 226.625 kg, 농장 III은 230.25 kg이다. 세 농장의 수확량 평균에 차이가 있음은 분명하다. 그러나 그 수치들만 봐서는 그 차이가, 살충제 살포방식이 달라서 나온 결과(차이)인지, 아니면 살충제 살포방식과는 상관없이 그냥 우연히 발생한 결과(차이)인지를 알 수가 없다.

그것을 통계적으로 판단할 수 있도록 도와주는 도구가 ANOVA이다. ANOVA는 집단 간의 변이(between variability)집단 내의 변이(within variability)보다 충분히 크면, 집단들의 평균이 서로 다른 모집단에서 나온 것으로 추정하고, 조치(treatment, 독립변수: 이 사례에서는 살충제 살포방식)의 효과가 있다고 판단한다. 반대로 집단간의 변이가 집단 내의 변이보다 그다지 크지 않으면, 집단들의 평균이 하나의 공통 모집단으로부터 나온 것으로 추정하고, 조치의 효과가 없다고 판단한다.

집단 간의 변이와 집단 내의 변이의 비율은, 위 식에서처럼 집단 간 편차 제곱의 합(MSC, 처리 제곱의 평균이라고도 함)집단 내 편차 제곱의 합(MSE, 잔차 제곱의 평균이라고도 함)의 비율로 구한다. MSC와 MSE는 다음과 같이 구할 수 있다.

그렇다면 문제는 SSC, SSE,  를 구하는 것으로 압축된다. 그 값들은 아래 식들로 계산된다. SST는 총 제곱의 합, SSC는 처리 제곱의 합, SSE는 잔차 제곱의 합이다.  이 세 가지 제곱 합 사이에는 다음과 같은 관계가 성립한다.

. 그래서 SST는 SSC와 SSE로 분해된다고 표현되기도 한다. SST는, 각 관측값에서 전체 평균을 뺀 편차를 제곱하여 더한 값이다.

(=j번째 집단의 i번째 관측값; =전체 평균; 은 집단 j의 관측값 수; k는 집단 수)

SSC는 각 집단의 평균에서 전체 평균을 뺀 편차에 각 집단의 관측수를 곱해서 모두 합한다.

(k=집단 수; j=j번째 집단; =j번째 집단의 관측값 수;  =j번째 집단의 평균; =전체 평균)

SSE는 각 집단의 편차제곱의 합을 모두 더 한다.

(=j번째 집단의 분산) 혹은 공식을 가지고 구한다.

자유도는 아래 공식으로 구할 수 있다. 집단 간 제곱의 평균을 구하는 데 필요한 자유도는 집단의 수 빼기 1이며, 집단 내의 제곱의 평균을 구하는데는 총 관측 수에서 집단의 수를 빼면 된다.

(k=집단 수; =전체 관측값 수)

이렇게 구한 F ratio, 즉, F 값은 F 분포를 이룬다. F 분포는 위의 두 가지 자유도(degree of freedom)에 의해 결정된다. 따라서 F 값,  를 알면 p 값을 구할 수 있다.

아래 그림은 [문제 1]의 데이터를 가지고 세 가지의 편차를 구한 결과이다. (이 문제를 MS 엑셀을 사용해 풀어놓은 파일을 보려면 이 링크를 클릭하시오.)

여기서 전체 편차를 제곱하여 더하면 SST를 구할 수 있고, 그룹 간 편차를 제곱하여 더하면 SSC를, 그룹 내 편차를 제곱하여 더 하면 SSE를 구할 수 있다.

MS 엑셀에서 함수 SUMSQ를 사용하면 쉽게 제곱 합을 구할 수 있다. 다음 그림에 보듯이 총 제곱합의 구하는 함수는 =SUMSQ(E2:G9)이다.

총 제곱합(SST)는 129.625, SSC(처리 제곱합)은 52.75, SSE(잔차 제곱합)은 76.875이다. 아래 그림에서 보듯이 이 편차제곱의 합들이 분산분석표의 두 번째 열을 구성한다. 이 그림은 엑셀이 제공하는 추가기능인 ‘데이터 분석’을 수행한 결과이다. 제곱합의 수치들이 정확히 일치함을 볼 수 있다.

처리제곱 평균(MSC)은 처리 제곱합을 그것의 자유도로 나누어 준 26.3757이고, 잔차제곱 평균(MSE)은 그것의 자유도 21로 나누어 준 3.660714이다(네 번째 열 참조). F 비(ratio)는 26.3757/3.660714 = 7.204878이다. 그것의 확률인 p-값은 함수 FDIST를 사용하면 구할 수 있다. p-값은 0.004145로 0.05보다 훨씬 작다.

이 결과를 가지고 우리는, 살충제의 살포방식이 옥수수 생산에 상당히 의미 있는 영향을 미친다고 결론을 내릴 수 있을 것이다. 즉, 농장 III에 적용한 방식이 가장 효과적이고, 농장 II에 적용한 방식이 가장 비효과적으로 판단한다.

실제 분산분석을 수행할 때 직접 평균, 편차, 제곱합 등을 구하는 경우는 없을 것이다. 통계 소프트웨어를 사용하면 순식간에 필요한 값들을 모두 얻을 수 있기 때문이다. 엑셀의 자체 추가기능인 데이터 분석에서도 일원 배치법 분산 분석을 적용하면 한꺼번에 모든 값을 얻을 수 있다.

다만 엑셀에서는 데이터 분석 기능을 모바일 버전에서는 사용할 수 없다는 함정이 있다. 때문에 자주 사용하는 함수들은 사용법을 익혀두면 편리할 것이다.

어떤 통계 도구도 그러하듯이 ANOVA도 적용하는데 갖춰야할 조건이 있다. ANOVA는 꼭 실험이라 아니라도 독립변수가 범주형이고, 종속변수(혹은 반응 변수)가 수치형이면 사용할 수 있다. 그리고 종속변수의 모집단이 정규분포를 따라야 한다. 다만 표본의 크기가 모두 같다면, 이 가정은 크게 중요하지 않다.

다음 두 문제를 직접 풀어보기 바란다.

[문제 2] 어떤 대학에서 학생들을 상대로 대학생들의 학습 능력을 연구한다고 하자. 연구자들은 그 대학에서 오래 공부할수록 학습 능력이 향상되는 지 알고 싶다. 그러기 위해 1학년, 2학년, 3학년에서 각각 8명씩 무작위 표본을 추출하여, 100점 만점의 학습 능력 테스트를 시행하였다. 다음 표는 그 결과이다. 이 데이터를 가지고 대학에서의 공부가 학생들의 학습 능력을 향상시킨다고 주장할 수 있을까?

[문제 3] Consumer Report는 미국 South Carolina 주 소재 풀 서비스 식당들의 식사 가격을 조사하였다. 세 가지 유형의 식당을 각 8곳씩 조사한 결과는 다음과 같다. 이 데이터를 가지고 세 가지 유형의 식당에서의 한 끼 식사 평균 가격이 다르다고 추정할 수 있을까?(Anderson, 2016: 542)

<참고 문헌>

Anderson, David R, et. al. (류귀열/김창규/최승은/김민중/이성철 역). 2016. <앤더슨의 통계학(Essentials of Modern Business Statistics)>. 한올.

김은정. 2017. <사회조사분석사>. 학진북스.

(윤영민, 2017-08-20)

사회통계(5): 변수, 분석단위, 그리고 측정

[문제 1]  직업, 성별, 종교, 댓글(수), 좋아요(수), 회원탈퇴 고객(수), 투자액 등의 공통점은 무엇일까?

[문제 2] 데이터 수집 단위(unit of data collection)와 분석 단위(unit of an alysis)는 어떻게 다른가?

[문제 3] 남녀간의 사랑은 측정될 수 있을까?

[문제 1]에 대한 답은 변수(variable)이다. 우리가 주목하는 현상 혹은 사건을 변수라고 한다. 그 현상이나 사건이 변하기 때문이다. 변하지 않는 현상(상수, constant)는 우리의 관심 대상이 아니다. 우리는 현상이나 사건이 어떻게 변하는가를 탐구한다. 그것의 패턴을 찾아내고, 그것이 다른 변수(들)와 갖는 관계를 발견하려고 한다.

사회분석을 하려면 데이터가 있어야 한다. 데이터는, 설문조사 데이터처럼 연구자에 의해 수집되기도 하고 POS나 센서 데이터처럼 기계적으로 수집되기도 한다. 설문조사의 경우 데이터 수집 단위(대상)가 개인(들)일 수도 있고 기업처럼 사회조직(들)일 수도 있다. 소매점의 경우 POS 데이터는 데이터 수집 단위가 개인(고객)이다.

수집된 데이터가 분석될 때는 먼저 분석 단위가 결정되어야 한다. 분석 단위란 연구자가 분석하려는 대상을 말한다. 세상에는 연구자의 관심만큼이나 다양한 종류의 분석 단위가 존재한다. 그것은 개인일 수도 있고, 조직이나 커뮤니티일 수도 있으며, 국가(나라) 혹은 지역일 수도 있다. 뿐만 아니라 웹페이지의 클릭 스트림(click stream), SNS의 친구관계, 판매된 상품, 신문의 사설 혹은 기사 등도 분석 단위가 될 수 있다.

위 사진은 치맥집이다. 치맥집에 대해 사회조사를 한다면 치맥집(들)이 분석 단위가 될 수도 있고 고객(들)이 분석 단위가 될 수도 있다. 만약 연구자의 관심사가 고객들의 소득, 나이, 직업, 성별, 주량, 안주 선호, 친구 어울림 방식(혼술, 집단 크기 등), 지출 등이라면 분석 단위는 개인(고객)이 될 것이고, 만약 연구자의 관심사가 손님 수, 남녀 고객 비율, 총매출, 병맥주 판매량, 생맥주 판매량, 치킨 판매량, 수익, 위치, 규모 등이라면 분석 단위는 레스토랑이 될 것이다. 고객의 지출과 레스토랑의 매출은 분석 단위가 다르지만 둘 다 POS 데이터를 사용할 것이다.

연구자는 먼저 자신의 연구 관심에 따라 분석 단위를 먼저 분명하게 파악하고, 그에 맞추어 데이터를 수집하거나 조정해야 한다. 때로는 수집된 데이터를 분석 단위에 맞게 조정하기가 불가능한 경우도 있다.

특히 사회 집단 단위에서 수집된 데이터는 개인 단위 분석에 사용될 수 없다. 만약 그렇게 사용될 경우 소위 생태학적 오류(ecololgical fallacy)에 빠지게 된다. 예컨대 치맥집 단위로 수집된 데이터를 볼 때 고객 중 남성 비율이 높은 치맥집들에서 병맥주 판매 비중이 크다고 해서 그 데이터로부터 남성은 생맥주보다 병맥주를 선호한다고 추론할 수는 없다. 남성 고객의 비중이 큰 치맥집에 온 여성 고객들이 병맥주를 많이 마셨기 때문에 병맥주 판매량이 많을 수도 있지 않겠는가.

[문제 3]에 대답은 그렇다이다. 남녀간의 사랑은 측정될 수 있다는 말이다. 실제로 연인이나 부부는 애인의 사랑, 배우자의 사랑을 측정하는 나름의 척도를 가지고 있다. 사랑한다는 말을 얼마나 자주 하는 지, 스킨쉽을 얼마나 자주 하는 지, 사랑스런 눈길을 얼마나 자주 보내는 지, 문자를 얼마나 자주 보내는 지, 문자 메시지에 얼마나 신속하게 답변 하는 지, 전화를 얼마나 자주 하는 지 등등 다양한 척도나 지표를 가지고 상대방의 사랑의 강도를 판단한다.

측정(measurement)이란 현상이나 대상의 변화에 수치를 부여하는 작업이다. 무게, 높이, 길이, 부피, 밀도 등 물리적 측정도 있고, 폭동, 혁명, 범죄, 불평등 같은 사회적 측정도 있으며, 분노, 사랑, 무관심, 자존감 같은 심리적 측정도 있지만, 측정은 공통적으로 현상을 수치화(quantify)한다.

계량적 사회연구가 가능하려면 연구자가 관심을 갖는 사회 혹은 사회심리 현상, 즉, 변수를 측정한 데이터가 있어야 한다. 사회통계학은, 연구자가 변수(들)을 측정한 데이터로부터 사회적(혹은 사회학적)으로 의미 있는 패턴을 찾거나 관계(그것을 사회적 규칙성, social regularities라고 부른다)를 발견하는 도구이다. (윤영민, 2017-08-15)

사회통계(4): 스마트폰으로 데이터분석을…

[문제] 통계학이나 데이터분석을 수행할 때 성능 좋은 컴퓨터가 필요할까? 

그렇기도 하고 그렇지 않기도 하다.

빅데이터를 가지고 데이터마이닝을 하거나 사례수가 많거나 복잡한 통계 도구를 사용하려면 성능 좋은 컴퓨터가 필요하다. 심지어 신경망(Artificial Neural Network)처럼 값비싼 GPU를 사용해야 하는 기계학습 모형도 있다.

그러나 그것은 반쯤만이 진실이다. 성능이 약한 노트북이나 태블릿 PC는 물론이고 탭이나 스마트폰을 가지고도 훌륭한 데이터 분석이 가능하다.

사실 요즘에는 누구나 손에 컴퓨터 한 대씩을 가지고 다닌다. 스마트폰 말이다. 컴퓨터로 치자면, 시중에서 유통되는 중저가 스마트폰도 2000년에 발표된 펜티엄 4 초기 버전 정도의 데이터 처리 능력을 지니고 있다.

스마트폰 앱이 많지 않기는 하지만 그래도 잘 찾아서 활용하면 통계 학습을 하거나 현업에서 통계를 사용하는데 있어 스마트폰만으로도 대부분의 분석이 가능하다. 위 사진은 내 스마트폰[Galaxy A5 (2016)]에 설치된 데이터분석용 앱들의 폴더이다.

이 중 가장 많이 사용하는 앱은 Excel이다. MS가 무료로 제공하는 이 앱은 PC버전에서 사용가능한 추가기능을 설치할 수 없는 한계가 있지만 함수만 잘 활용하면 기본적인 통계 분석은 물론이고 회귀분석같은 고급 기능까지 적용할 수 있다.

두 번째로 많이 사용하는 앱은 Probability Distributions이다. 다양한 확률분포를 가지고 특정 범위의 변수 값이 출현할 확률을 계산하거나 거꾸로 특정 확률에 해당되는 변수 값의 범위를 구할 수 있다. 아주 유용한 앱이다.

자료 처리나 통계 분석에서 내가 가장 많이 사용하는 소프트웨어는 엑셀과 구글 스프레드시트이다. 엑셀이 첫째지만 엑셀 데이터 파일이 생성되면 구글 스프레드시트로 데이터 탐색을 하곤 한다. (구글) 스마트폰 앱인 스프레드시트에는 분석 기능이 별로 없지만 이미 수행한 분석 결과를 가져올 수 있어 편리하다.

인문사회학도들은 거의 사용하지 않지만 공학계산기를 사용하면 편리한 때가 적지 않다. 스마트폰에 기본앱으로 제공되는 계산기도 간단한 수학계산에 사용할 수 있다.

계산기의 숫자 입력 칸 아래 있는 다음과 같은 아이콘을 클릭하면 계산기가 옆으로 누우면서 약간 복잡한 수학 계산이 가능해진다. 더욱 본격적인 공학용 계산기 사용하려면 에뮬레이터 앱을 설치한다. Wabbitemu는 스마트폰을 아래 그림처럼  TI 계산기로 바꿔주는 앱이다. 데이터를 입력하여 웬만한 통계분석을 수행할 수 있으며 매우 빠른 데이터 처리가 가능하다.

통계처리나 데이터분석을 하는데 도구를 탓하지 말자. 통계적 지식과 개념만 제대로 갖추고 있으면 스마트폰만으로도 멋진 통계분석, 데이터분석이 가능하다. (윤영민-08-15)

사회통계(3): 데이터의 유형

[문제] 다음 중 분산분석이나 회귀분석이 적용될 수 없는 변수는?

  1. 나이
  2. 종교
  3. 소득
  4. 교육수준

답은 2번 종교이다. 분산분석이 회귀분석에는 의미있는 평균이 계산될 수 있어야 한다. 가장 기본적인 계산이 각 사례값과 평균의 차이인 편차를 구하는 것이기 때문이다.이 종교는 가톨릭, 개신교, 유교, 불교, 이슬람교, 유태교 등의 범주로 나누어지는 명목변수(nominal variable)이다. 설령 그 범주들을 숫자로 표현한다고 해도 평균값이 의미를 가질 수는 없다.

이 문제는 데이터의 유형에 관한 질문이다. 데이터 분석이나 활용에서 데이터의 유형은 대단히 중요하다. 데이터분석 모형이나 응용 프로그램은 특정한 유형의 데이터에만 타당하기 때문에 각 알고리즘이나 프로그램이 수용하는 데이터의 유형이나 수준을 정확히 인지해야 한다. 그렇지 않으면 알고리즘이나 프로그램이 아예 작동하지 않거나 작동하더라도 무의미한 결과를 준다.

통계학에서 데이터는 측정 수준(level of measurement)에 따라 자주 구분된다.  명목 데이터(nominal data), 순서 데이터(ordinal data), 구간 데이터(interval data), 그리고 비율 데이터(ratio data)가 그것이다. 명목 데이터는 성별, 혼인 상태, 종교와 같이 수치화할 수 없으며 범주(category)로 나누어 구분만 되는 데이터이다. 순서 데이터는, 성적(A, B, C, D, F)이나 리커트(Likert) 척도처럼 범주 사이에 서열이 존재하는 데이터이다. 명목 데이터와 순서 데이터를 합쳐서 질적(qualitiative 혹은 범주형, categorical) 데이터라고 불린다. 구간 데이터는 년도나 온도처럼 나누어질 수 없는 데이터이고, 비율 데이터는, 나이, 소득, 성적 평점처럼 절대 영점이 존재해서 나눗셈이 가능한 데이터이다. 구간 데이터와 비율 데이터를 합쳐서 양적(quantitative 혹은 수치형, numerical) 데이터라고 불리기도 한다. 각 데이터의 수준에 가능한 계산은 다음 표와 같다.


기계학습 분야에서는 데이터의 유형을 이산형(discrete) 속성과 연속형(continuous) 속성으로 분류하기도 한다. 그 두 속성의 예에 대해서는 아래 표를 참조하기 바란다.

참고로 연속형 데이터는 실수(real number) 값을 갖는데, 컴퓨터에서 실수는 부동(浮動) 소수점(floating point number)으로 표현된다. 이과 전공 학생들에게는 익숙한 표기법이지만 문과 전공 학생들에게 낯설 것이다. 아래 그림을 참고해서 익히기 바란다.

용어가 다소 혼란스럽기는 하지만 데이터분석은 여러 학문 분야가 관여되는 만큼 그러한 혼란은 피하기 어렵다. 그래도 여기서 소개한 정도만 기억하면 크게 도움이 될 것이다. (윤영민 2017-08-14).

 

사회통계입문(2): 데이터(data)란?

[문제] 아래 세 사진의 공통점은?

위 세 사진의 공통점은 모두 데이터(data)라는 사실이다. 첫 번째 사진은 영화 ‘스타트랙’의 배역 중 1인인 ‘데이터’라는 이름의 A.I.이고, 두 번째 사진은 네플릭스가 투자하여 제작하고, 개봉하자마자 스마트폰에서 스트리밍 서비스를 시작한 영화 ‘옥자’의 포스터이다. 영화 ‘옥자’는 그 자체가 데이터이기 때문에 가능한 일이었다. 세 번째 사진은 스마트폰 속의 은행인 카카오뱅크이다. 카뱅은 오프라인 지점이 없는 은행이다. 카뱅은 그 자체가 데이터이다.

오랫동안 데이터란 어떤 조사 대상–존재, 심리상태, 사건, 현상 등–의 흔적, 편린, 혹은 특성을 가르키는 용어였다. 즉, 데이터는 “~~에 대한 것”이었다. 그러나 데이터 기반 사회에서 테이터는 더 이상 “~~에 대한 것”에 그치지 않는다. 스타트랙의 배역이나 카카오뱅크처럼 데이터는 어떤 존재 자체일 수도 있고, 사이버 성희롱처럼 사건 자체일 수도 있으며, 뇌파로 기록된 심리 자체일 수도 있고, 인터넷 거래, SNS의 댓글이나 ‘좋아요’ 같은 현상 자체일 수도 있다.

데이터 분석이나 활용에 앞서 데이터에 대한 인식의 전환이 요구된다. (윤영민-08-14)

사회통계입문(1): 데이터 대 정보

[문제 1] 다음 두 테이블(table, 표)의 특성은 어떻게 다를까? 앞의 것은 통계청이 운영하는 ‘국가통계포털’에서 다운로드받은 인구 자료이고, 뒤의 것은 성균관대학교가 운영하는 SRC에서 다운로드 받은 한국종합사회조사(KGSS) 자료이다.

%ec%97%b0%eb%a0%b9%ec%9d%b8%ea%b5%ac%ed%91%9c

kgss%eb%8d%b0%ec%9d%b4%ed%84%b0

[문제 2] 오늘날의 사회가 가진 특징을 가장 잘 보여주는 단어는?

[문제 1]의 답은, 두 테이블은 모두 엑셀 형식으로 되어 있지만, 앞 테이블은 가공된 데이터로서 정보(information)적 성격이 강하고, 뒤 테이블은 가공되지 않은 원시 데이터(raw data)이다. 앞 테이블은 가공/분석에 제약이 많은 반면, 뒤 테이블은 가공/분석이 자유롭다.

[문제 2]의 답은 데이터이다. 아마도 10년 전이라면 정보(information) 혹은 네트워크(network)가 가장 유력한 해답이었을 것이다. 그러나 지금은 데이터(Data)가 강력한 후보이다. 그것은 마치 원유나 옥수수처럼 온갖 목적에 맞게 가공될 수 있기 때문이다.

(“Settling the eternal semantic debate: what is knowledge, what is information…”에서 인용)

위의 DIKW 피라미드는 데이터, 정보, 지식, 지혜의 관계를 보여주는 모형으로 널리 사용된다. 그러나 이 모형은 현실을 크게 왜곡할 수 있다. 특히 데이터 관점에서 볼 때 그러하다.

이 모형은 데이터보다 정보가 유용하다는 인상을 줄 수 있다. 특정한 목적에 맞게 데이터가 가공되거나 선별된 것이 정보이다. 그렇게 해서 그림에서처럼 정보는 데이터에 가치가 추가되었다고 해석될 수 있다. 그러나 그것은 대단히 부분적으로만 진실이다. 데이터가 맥락화되면(contextualized), 특정한 목적을 위해서는 유용성을 얻겠지만 일반적 용도로 보면 오히려 가치를 잃는다.

활용가능성의 측면에서 데이터는 정보, 지식, 혹은 지혜보다 훨씬 커다란 잠재적 가치가 갖고 있다는 말이다. 그것은 마치 원유, 석탄, 옥수수, 쌀 같은 원자재가 높은 잠재적 가치를 지니는 것이나 마찬가지이다. 일단 특정한 목적을 위해 가공되면 다른 목적에는 사용할 수 없게 되곤 한다.

통계학이나 데이터과학에서 데이터는 흔히 테이블(table)로 저장된다. 그렇다고 데이터가 곧 테이블은 아니다. 테이블은 데이터일 수도 있고 정보일 수도 있다. 다시 말해 테이블은 가공되지 않은 원시 데이터(raw data)일 수도 있고, 데이터를 가공한 결과인 정보(information)일 수도 있다.

MS 엑셀은 이 점을 잘 느끼게 해준다.  아래 그림은 엑셀 스프레드 시트에 데이터를 입력한 모습이다(여러분도 엑셀을 열어 그대로 입력하고 따라해 보시오). 이 데이터를 테이블로 만들려면 엑셀 메뉴 중 ‘삽입’에서 ‘표’를 선택하면 된다. 그리고 그 데이터나 데이터-테이블을 특정한 용도에 맞는 테이블로 변환하려면 ‘삽입’에서 ‘피벗 테이블‘을 클릭하면, 데이터를 다양한 방식으로 정리해서 표로 만들 수 있다. 그렇게 해서 만든 표는 데이터가 아니라 정보이다. 데이터를 데이터-테이블이나 피벗 테이블로 변환하면 한편으로는 엑셀의 다양한 기능을 적용할 수 있지만, 다른 한편으로는 데이터는 자유를 잃는다. 다른 프로그램에서 사용될 때 불가능하거나 불편해진다는 말이다.

data

책, 연구보고서, 신문, 잡지 등에 제시되는 테이블은 거의 모두 정보이다. 그 정보를 좀 다른 용도로 재가공하거나 재분석하려면 그 정보가 생산된 데이터, 즉, 원시데이터를 구해야 한다. 연구자들은 raw data에 굶주려 있다. 그들은 정보가 아니라 데이터를 먹고 산다. 그들은 외친다.

Data를 달라! Raw data를 달라!

(윤영민, 2017-08-13)

전자정부: e-Gov에서 i-Gov로

지난 수요일(2017/8/9) 행정안전부가 주최하고 NIA(한국정보화진흥원)이 주관한 ‘제1차 <4차 산업혁명 대응 전자정부 협의회>’에서 기조 발제를 했다. 10년 만에 2백여 명의 전자정부 전문가들 앞에 섰다.

2007년 참여정부가 끝나면서 2000년 국민의 정부 때부터 시작한  만 7년 동안의 전자정부 전문가로서의 활동에 종지부를 찍었다. 다시는 전자정부 전문가로서는 광화문에 나타나지 않겠다는 결심이었다. 아예 개인 전화번호까지 바꾸고 광화문을 떠났다. 지난 10여 년 전자정부의 부침을 바라보면서 때로 흐뭇하기도 하고 때로 실망하기도 하였지만 한번도 목소리를 내지 않았다.

그런데 전자정부에 새로운 방향이 절실하다는 생각을 하고 있던 참에, 새로운 정부도 들어섰고 발제에 대한 주최측의 간곡한 요청이 있었다. 정부가 전자정부 진화의 올바른 방향을 잡았으면 하는 바램도 있고, 정부 안팎의 전자정부 담당자들에게 힘을 좀 실어주겠다는 마음으로 요청을 수용했다.

발표 내용은 다음과 같이 요약될 수 있다. (발표문은 링크를 클릭)

  • 향후 30년 동안에 두 가지 요인이 전자정부의 미래를 좌우할 것이다. 특이점(singularity)의 도래와 민주화(혹은 권리주장이 강한 시민의 등장)이 그것이다.
  • 인간 향상과 유사인간(A.I., 로봇)의 출현은 다수의 인간-공무원을 잉여로 만들 것이다.
  • ‘지시’하고 ‘아웃소싱’하는 방식을 고수하면 전자정부 담당자들은 ‘잉여’를 면치 못할 것이다.
  • 스스로 업무를 수행할 수 있는 내부 역량을 갖추어야 한다. 알고리즘과 데이터 역량이 핵심이다.
  • 전자정부(e-Gov)는 지능정부(i-Gov)로 전환되어야 한다. 그러기 위해서는 정보(information)에서 데이터(data)로 전자정부의 무게 중심이 옮겨가야 한다. 그런데 아직도 그 두 가지를 혼동하는 사람이 많다.
  •  만약 4차산업혁명이란 것이 있다면 그것은 무엇보다 주체의 변신을 의미한다. 인간 향상과 유사인간-공무원은 그러한 변신의 일부이다. (윤영민, 2019-08-13)

빅데이터, 상관관계, 예측….거품?

%eb%b9%85%eb%8d%b0%ec%9d%b4%ed%84%b0%eb%8a%94%ea%b1%b0%ed%92%88%ec%9d%b4%eb%8b%a4

결론부터 말하겠다. 우리나라에서 ‘빅데이터’는 시작부터 거품이었다. 그러나  ‘빅데이터’를 둘러싼 온갖 거품을 걷어내고 나더라도 기존의 계량적 사회과학 페러다임에 대해 ‘빅데이터’로 불리는 새로운 데이터 환경이 제기하는 도전은 여전히 유효하다.

아마존(amazon.com)을 가지고 이야기를 시작하자.  아마존은 추천 엔진(recommendation engine)이라는 기술-문화적 아이템을 세상에 내놓았다. 그렇다고 아마존이 사업 초기부터 추천 엔진을 사용하지는 않았다. 처음에 아마존 웹사이트는 전문가들이 작성한 서평(추천)을 게시했다. 그 서평은 인기가 있었고 책 판매에 상당한 효과를 가져왔다. 하지만 그 성과에 만족하지 않았던 아마존의 CEO 제프 베조스(Jeff Bezos)는 고객들 자신의 구매 선호를 기반으로 책을 추천하면 어떨까 상상했다. 그렇게 해서 아마존의 책 추천 엔진이 개발되었다. 오래지 않아 알고리즘에 의한 책 추천은 전문가에 의한 책 추천을 완전히 대체하였으며, 아마존의 성공에 자극을 받은 대형 인터넷 쇼핑 사이트들도 앞다투어 추천 시스템을 도입하였다.

아마존의 추천 엔진은 품목-대-품목 협업 필터링(Item-to-item collaborative filtering)이라는 알고리즘을 사용한다. 설명을 단순화하기 위해 아마존에 네 권의 책(A,B,C,D)만 있고 사용자가 두 명(User 1, 2)만 있다고 하자. 만약 새로운 사용자(User 3)가 A라는 책을 보았다면 그에게 어떤 다른 책을 추천하면 좋을까? 아마존의 추천 엔진은 기존 사용자들(User 1, 2)의 책 탐색 기록 정보를 이용해서 A와 가장 상관성이 높은 책들을 추천한다(아래 그림 참조).

recommendation_flow_i2i3
이 그림은 Software Programming blog의 How does the Amazon recommendation system work?에서 가져왔음. https://kunuk.wordpress.com/2012/03/04/how-does-the-amazon- recommendation-system-work-analyze-the-algorithm-and-make-a-prototype-that-visualizes-the-algorithm/

이 과정을 수학적으로 설명하면, <그림 1>에서 User 1은 [B, C, B] 순으로 검색했고, User 2는 [C, A, B] 순으로 검색했다. 이 정보를 가지고 품목-대-품목 행렬을 구하면 우측의 상단과 같다. 이 행렬을 가지고 두 벡터(vector) 끼리의 코사인 유사도(Cosine Similarity, CosSim)를 구한다. 아래 식(1)에서처럼 두 벡터의 내적(inner product)을 두 벡터의 노름(norm, 벡터의 크기)의 곱으로 나누어 코사인값을 구하면 된다.

이렇게 구한 유사도는 –1에서 1까지 값을 갖는다. 코사인 유사도 –1은 두 벡터가 서로 완전히 반대 방향인 경우, 코사인 유사도 1은 두 벡터가 완전히 방향이 같은 경우, 그리고 코사인 유사도 0은 두 벡터가 서로 독립적인 경우를 가리킨다. 정보나 책 검색에서 빈도가 음의 값을 가질 수 없으므로 코사인 유사도는 0에서 1까지의 값을 갖는다.

굳이 코사인 유사도를 구하는 공식을 가져온 이유는 그것이 상관성 척도임을 보여주기 위해서이다. 사회과학에서 사용하는 피어슨 상관(Pearson correlation)은 아래와 같은 식으로 구할 수 있다.

식(1)과 식(2) 를 비교해 보면 가 로, 는 로 대치되었을 뿐임을 알 수 있다. 결국, 이 된다. 각 벡터의 평균을 뺀 값으로 계산된 유사도가 피어슨 상관이다(O’Conner, 2012).

아마존 추천엔진의 사례는 다섯 가지를 시사한다.

첫째, 인과성의 발견이 더 이상 사회과학의 금과옥조가 될 수 없다. 당연히 세상을 이해하려면 인과성의 발견이 계속되어야 한다. 그것은 사회과학자에 주어진 사명이다.  그러나 오직 인과성이라는 창을 통해서만 세상을 이해하고 사회현상(심지어 자연현상)을 예측할 수 있다는 주장은 사회과학자들의 아집과 환상에 불과하다.

아마존이 인터넷 비즈니스 초기에 도입한 전문가 서평(추천)은 인과관계에 근거한 비즈니스 모형이라고 할 수 있다.  만약 책 추천을 위한 인과 모형을 만든다면, 그것은 고객의 개인 속성(나이, 학력, 전공 분야, 직업, 성별, 혼인상태, 취미 등)과 외부 요인(전문가 서평, 광고 등)으로 구성되었을 것이다.  아마존은 상관 모형을 택해서 전혀 다른 길을 갔다.  그리고 상관관계 기반의 추천 시스템은 아마존의 사업 성공에 크게 기여하였다.

둘째, 아마존의 추천 엔진은 ‘빅데이터'(양, 속도, 형태의 어느 기준으로도 봐도 빅데이터임에 틀림없다)에 의존하고 있다. 위에 든 예는 4권의 책과 3명의 고객만을 가정했지만, 현실에서는  4백만권의 책과 3천만명의 고객일지도 모른다. 그렇게 되면 품목-대-품목 행렬이 얼마나 크겠는가. 그리고 요즘 아마존은 심지어 고객들의 클릭 데이터까지 실시간으로 책 추천에 반영하려고 하고 있다. 아마존에게 있어 ‘빅데이터’는 거품이 아니라 가장 중대한 사업 문제를 해결하는 열쇠이다.

셋째, ‘빅데이터’는 대단히 실용적인 동기에서 출발했다. 아마존은 개별 사용자의 관심이나 선호에 대해 예측함으로써 서비스 사용자가 안게 되는 정보과잉(information overloading)의 문제를 풀려고 했다. 아마존은 사용자가 책을 찾는데 시간과 노력을 많이 투입할 수 없다는 가정 아래 데이터 분석을 통해서 사용자에게 가장 적합한 책을 선별해서 제시하려고 했다. 한 마디로 ‘빅데이터’에서는 과학적 발견(설명)보다는 실용성(예측)이 우선적인 목표가 되어왔다. 아마존의 사례는 상관관계 기반의 추천 모형이 사업 목적에 매우 잘 부합되도록 작동하고 있음을 보여준다.

넷째, 사람이 아니라 컴퓨터 알고리즘이 고객에게 상품을 추천한다. 빅데이터 덕분에(혹은 빅데이터 때문에) 데이터의 수집, 처리, 분석을 이제 사람 뿐만 아니라 컴퓨터가 수행하는 시대가 되었다. ‘빅데이터’의 진화 방향은 분명하다. 언젠가 데이터의 수집, 처리, 분석, 대응이 거의 모두 자동화될 것이다. 이미 상품 추천, 검색, 번역 등의 온라인 서비스 뿐 아니라 무인자동차 같은 오프라인 제품까지 모두 ‘빅데이터’를 활용하고 있지 않는가.

다섯째, ‘빅데이터’에서는 ‘예측(prediction)’이라는 개념이 상당히 다른 의미로 사용된다. 전통적으로 예측은 대체로 거시적 현상에 대한 전망(forecasting)이나 시나리오를 의미했다. 빅데이터 시대에 예측은 아주 미시적인 개인(individuals) 단위까지 행해진다.  즉, 선거, 스포츠 경기, 도박, 증권시장 등에 대해 전망할 뿐 아니라 고객 개인의 선호, 욕망, 태도, 행동 등에 대해서도 예견한다. ‘예측’은 그렇게 넒은 의미를 지니고 있으며, 예측이 이루어지는 기반도 인과관계를 넘어서 시계열 패턴, 상관관계, 베이즈(Bayes) 추론 등으로 확대되고 있다.   

우리 사회에서 ‘빅데이터’는 상당부분 거품이었음에 분명하다(그점에 관해서는 내가 다른 곳에서 논의하였다. ‘유행의 함정’ 참조). 그러나 그럼에도 불구하고 거품을 걷어내고 나면 거기에는 놀라운 진실이 발견된다. 그것은 전통적인 사회과학자들을 무척 불편하게 만들 진실이다. 현재 진행되고 있는 데이터 환경의 변화는 사회과학에게는 대지진 격이다. <빅데이터는 거품이다>라는 섣부른 비판으로 비껴갈 수 없는 흐름이다. 신중하게 대처하지 않으면 실증 사회과학은 존재 기반의 대부분을 잃게 될 지도 모른다. (윤영민, 2016/10/21)

<참고문헌>

O’Conner, Brendan. 2012. “Cosine Similarity, Pearson Correlation, and OLS Coefficients.” AI and Social Science (blog).  https://brenocon.com/blog/2012/03/cosine-similarity-pearson-correlation-and-ols-coefficients/

유행의 함정

gartner

유행은 하나의 사회구조이다. 그것은 새로운 시장 수요를 창출하는 기제이다. 자연스런 유행이란 없다. 그것은 철저히 의도되고 기획된 결과이다.

오늘날 음악, 문학, 헤어스타일, 음식, 옷, 신발, 가방 따위의 가벼운 것부터 TV, 냉장고, 에어컨, 자동차, 집과 같이 좀 무거운 것까지 유행의 프레임을 벗어난 사물이나 사회현상을 찾기 어렵다.

대체로 유행은 별 문제가 아니다. 그것에 자원 낭비와 같은 부정적 측면이 있지만 사회를 리프레쉬하는 긍정적인 측면도 있기 때문이다.

그런데 대단히 심각한 사회적 결과를 초래하는 유행이 있다. 바로 지식의 유행, 테크놀로지의 유행이다. 전문가들은 그것을 ‘트렌드’라고 점잖게 표현하지만 그것은 완곡어법일 뿐 본질은 ‘유행’이다.

우리 사회에서 지식-테크놀로지 유행은 대체로 그 패턴이 구조화되어 있다. [세계굴지 (미국) 컨설팅 기업의 트렌드 예측 –> 정부의 정책화 –> 학계와 업계의 백업과 추종 –> 새로운 유행의 대두 혹은 새 정부의 출범과 기존 유행의 극적 퇴출]이 반복된다.

예컨대 정보화, 전자정부, 그룹웨어, ERP, 유비쿼터스, Web 2.0/3.0, 빅데이터, 데이터사이언스, IoT(사물인터넷), IoE, 스마트 정부, 스마트 시티, 인공지능….길면 5년(정권과 수명이 같다), 짧으면 심지어 1~2년만에 ‘트렌드’가 지나간다.

‘트렌드’에 준비가 되어있을 리 만무한 정부는 해외 업체들의 벤더가 그려주는 그림에 의존해서 정책을 입안하고 아우라를 제공할 ‘전문가’를 허겁지겁 수배한다. 우연히 그 분야를 전공했거나 재빨리 ‘트렌드’를 공부한 학자와 전문가들이 그 수용에 대응하며 소위 ‘뜨게’ 된다. 권력에 신속하게 반응하는 기관들은 정책 연구는 물론이고 학술 연구까지 그 ‘트렌드’에 맞추어 배분한다. 지나간 ‘트렌드’에 집착하면 정부 연구비를 포기해야 한다. ‘철 지난’ 주제에 배분될 연구비는 없다.

지난 20여년 동안 행정기관이나 정부투자기관의 단위 조직, 대학의 단과대학, 학과, 연구실의 명칭이 어떻게 변해왔는가를 일별해 보면 이 현상을 쉽게 확인할 수 있다. 전문가라도 대학 연구실의 이름만 봐가지고는 그곳이 무엇을 연구하는 공간인지를 짐작하기 어렵다.

한 국가의 지식생산체계가 유행에 휘둘리는 모습은 희극이며 동시에 비극이다. 우리 사회가 지적 사대성과 천박성을 벗어나지 못하는 것은 단순히 일부 사람의 잘못 때문이 아니다. 그것은 조선 시대까지도 거술러 올라갈 수 있는 역사를 갖고 있다. 내재적 요구와 성찰이 아니라 외부로부터 오는 요구와 자극에 반응하며 살아온 지배계층의 문화가 끈질기게 지속되고 있는 것이다. 정책적 의사결정의 기준점이, 청국이 어떻게 하는가였다가 일본이 어떻게 하는가로 바뀌고, ‘해방’ 이후에는 미국이 어떻게 하는가가 추가되었을 뿐이다.

이러한 지적 유행의 최대 희생자는 학문, 자생 벤처, 그리고 대학원생들이다. 그들이 새로운 ‘트렌드’에 적응할 때 쯤이면 해당 ‘트렌드’가 종료되어 있기 때문이다. 한 ‘트렌드’가 뿌리를 내리기 전에 다른 ‘트렌드’를 쫓아가야 하는 비극적 상황에 학문에서 ‘기초’는 사라지고 ‘응용’만 남는다. 그나마 ‘응용’도 단기 승부에서 끝나버리지만 말이다.

언제쯤이나 이렇게 한심한 지적 식민지성을 벗어날 수 있을런 지….하기야 나도 한 때 그 ‘유행’의 수혜자였으니 동업자들을 위해 입을 다물고 있어야 할 지도 모르겠다. (윤영민, 2016/08/27 Facebook  전제)