추세선(Trend line)의 매력(1)

대학에서 통계학 수업을 수강하면, 대체로 한 달 이내 그래프(graph)를 배우게 된다. 아마도 그래프가 데이터를 요약하기 간편하고 프리젠테이션에 효과적인 도구이기 때문이 아닐까 생각한다.

그렇다고 통계학에서 그래프가 좋은 대우를 받았던 것은 아니다. 수식과 숫자에 약한 초보자 혹은 비전공자에게 통계적 발견을 소개하거나 통계분석 결과를 집약해서 보여주는 도구 정도로 간주되는 게 보통이었다. 한 마디로 통계에서 그래프는 부수적인 수단 혹은 주변적 도구에 불과했다. 탁월한 통계학자였던 John W. Tukey는 예외라고 할 수 있겠지만, 그 마저도 그래프를 데이터를 탐색해서 가설을 끌어내는 수단 정도로만 생각했다(Exploratory Data Analysis를 참조하시오).

사실 결코 그래프가 수식이나 숫자만큼 엄격하고 치밀한 표현 수단일 수는 없을 것이다. 더구나 거의 항상 한 줌에 불과한 표본(sample) 데이터를 손에 쥐고 모수(parameters)를 추정해야 했던 통계학자들에게 데이터의 그래프적 표현이란 기껏해야 데이터를 탐색하거나 분석 결과를 전달하는 수단에 불과했을 것임에 분명하다.

그러나 데이터의 시각화(data visualization)–그래프를 그리는 것을 요즘은 이렇게 표현한다–는 그것이 지난 단점(엄격하지도 치밀하지도 못하다)에도 불구하고 빅데이터 시대에 각광받는 분야가 되었다. 아마도 강력한 두 가지 매력 때문일 것이다.

첫째는 직관성이다. 특히 두 변수의 관계나 한 변수의 시간에 따른 변화를 보여주는 데 그래프보다 더 직관적인 도구는 없을 것이다. 상관계수처럼 숫자 하나로 보여줄 수 있지만 그것은 범주형 변수(categorical variable)에는 사용할 수 없고, 교차표(cross-table)처럼 하나의 표로 보여줄 수도 있지만 수치형 변수의 경우 정보를 잃으면서 범주형 변수로 변환해야 하는 약점이 있다.  특히 하나의 변수가 시간에 따라 변해가는 모습을 직관적으로 느끼게끔 보여주는 데는 그래프가 최고임에 틀림없다.

위 그래프는 통계청에서 다운로드 받은 데이터를 가지고 엑셀로 그린 것이다. 우리 경제가 약 65년 동안 세 해(1980년, 1998년, 2008년)를 제외하고 눈부시게 성장했음을 이보다 더 잘 나타낼 수 있는 방법이 있을까 하는 의문이 들 정도 인상적이다.

둘째는 소음 제거 능력이다. 이는 엄격하지 못하다는 단점이 장점으로 작용하는 점이다. 두 변수 사이의 관계나 어떤 변수의 변동 패턴을 파악하는 데 있어서는 디테일이 장애 요인이 되곤한다. 디테일에 집착하면 데이터 마이닝에서 말하는 과적합(overfitting)의 함정에 빠지게 된다. 디테일을 반영한 모형(model)은 그 모형을 훈련시키는 데 사용한 학습 데이터에는 대단히 잘 적합하겠지만 일반성이 떨어져서 모형의 예측력이 약하게 된다는 말이다.

 

위 그래프는 2010년 3월 10일부터 5월 12일 사이 약 두 달 동안 인텔주식의 가격이 어떻게 변동했는 지를 보여준다. 붉은 색의 선은 엑셀에서 3차 다항식을 적용해서 추세선을 그린 것이다. 그래프 메뉴에서 추세선 서식 –> 추세선 옵션 –> 다항식 3차수를 선택하면 그려진다. 그 추세선이 주가의 변동을 썩 잘 나타내주고 있다고 생각되지는 않지만 다른 추세선에 비하면 상대적으로  우수한 편이다.

그래프의 직관성과 소음제거능력이라는 두 가지 장점은 빅데이터에서 특히 빛이 난다. 데이터의 양이 많아지면 신호(signals) 대 소음(noises)의 비율이 높아지고, 그 때문에 직관적으로 변수 사이의 관계를 추정하거나 하나의 변수에 존재하는 패턴이나 트렌드를 찾기 어렵게 된다. 그래프는 거칠기는 하지만 과감하게 데이터에 숨겨진 패턴을 드러내 준다.

그러한 장점을 지닌 그래픽 기법 중 하나가 바로 추세선(trend line: 영어 표현 그대로 트렌드 라인이라고도 부름)이다. 위 사례에서처럼 추세선이 다차 함수 행태를 취할 수도 있지만 대체로 1차나 2차 함수이다.

특히 1차함수 직선이 자주 사용된다. 데이터의 숨은 패턴을 잘 보여주는 직선을 데이터가 분포된 좌표에 표시하는 것을 선형 적합(linear fitting)이라고 부른다. 선형적합은 두 변수(혹은 그 이상의 변수들)로 구성된 데이터의 추세선을 그리는데 가장 널리 사용되므로 포스팅을 바꾸어 소개한다.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.