표와 그래프(4): 최소자승 회귀분석

최소자승 회귀분석은 잔차제곱합(SSE)을 최소화하는 직선을 구하는 기법이다. 이는 아래 식 (1)로 표시할 수 있다. 잔차제곱합 대신 잔차제곱의 평균(MSE)를 가지고 풀 수도 있지만 어차피 MSE는 SSE를 자유도로 나눈 값이기 때문에 SSE로 풀면 된다.

잔차제곱합은 다음 식으로 계산된다. 즉, 관찰값()에서 회귀식에 의한 예측값()을 뺀 값을 자승하여 모두 더해서 구한다.

이 식을 아래와 같이 최소화한다.

그런데, 회귀함수는 다음과 같으므로,

식 (4)를 식 (3)에 대입하면 다음 식을 얻는다.

식 (5)를 풀어 미지수 을 구하면 그것이 최소자승법의 조건을 충족시키는 회귀계수들이다. 이는 미분을 사용하여 풀 수 있다. 가  미지수를 두 개 가지고 있으니 아래와 같이 (SSE가 좀 길어서 간단히 S로 표기했음)로 두고 편미분을 하고, 각각을 0으로 놓고 풀면 된다.

먼저 에 관해 편미분하면,

이 식을 정리하면,

다음에 에 대해 편미분하면,

이 식을 정리하면,

(7)과 (8)을 정규방정식(normal equations)이라고 부른다. 이 두 식을 에 관해 풀면 다음 식이 얻어진다.

먼저 를 구하기 위해 식 (7)의 양변을 으로 나누면,

따라서,

그런데, 이므로,

식 (9)를 식 (8)에 대입해서 에 관해 풀면 아래와 같은 해를 얻는다. 풀이 과정이 어렵지는 않지만 다소 복잡하니 생략한다.

주어진 데이터를 가지고 식 (9)와 (10)을 계산하여 절편 와 기울기 을 구하는 것이 최소자승(혹은 정규방정식) 회귀분석이다.

이렇게 해서 표본의 회귀계수(절편과 기울기)를 구하면, 그것들로 이루어진 회귀함수는 모집단 회귀계수에 대한 불편의적 추정량이다. 그렇다면 모집단에서 회귀선(최적합선)은 어떤 의미일까? 다음 그래프를 가지고 알아보자.

관련 이미지

회귀선은 독립변수 가 주어졌을 때  의 기대값에 해당한다. 확률식으로 표현하면 아래와 같다.

독립변수 각 수준(값)에서는 종속변수 값의 분포가 존재한다. 예컨대 위 그래프의 일 때 값들의 분포가 정규분포(파란색 종모양의 곡선)가 존재한다. 회귀선은 를 통과하고 있으며, 는 그 분포의 중심, 즉, 모평균에 다름 아니다. 마찬가지로 에서도 값들의 분포가 존재하며, 회귀선의 그 분포의 중심, 즉, 모평균인 을 통과한다. 에서도 마찬가지로 회귀선은 거기에서 값들의 모평균인 를 통과한다. 결국 회귀선, 즉, 최적합선은 독립변수 의 각 값(수준)에서 존재하는 종속변수 값들의 모평균을 이어놓은 직선인 것이다.

아래 사례를 보자. 종속변수 의 모표준편차()가 2.5라고 알고 있다고 가정한다. 회귀선이   라는 회귀계수를 갖고 있다.

관련 이미지

위 그림에서 (a)를 보면, 표본의 관찰값은 이며, 회귀함수에 의한 예측값은 이다. 가 20일 때 의 분포가 정규분포로 표시되어 있고 그 중심은 10.0이며, 관찰값 (5)은 분포의 중심에서 상당히 떨어져 있음을 볼 수 있다. (b)를 보면, 관찰값은 이고, 회귀함수에 의한 예측값은 이다. 거기에도 가 55일 때  의 분포가 종 모양의 곡선으로 표시되어 있고, 이번에 그 중심은 27.5이다. 관찰값 (12)는 중심에서 한참 멀리 떨어져 있음을 볼 수 있다. (c)에는또다른 값인 의 사례가 제시되어 있다. 관찰값은 이며, 회귀함수에 의한 예측값은 이다. 거기에도 가 30일 때 의 분포가 정규분포로 표시되어 있고, 이번에 그중심은 15이다. 관찰값 (10)은 중심에서 상당히 떨어져 있다.

아랫부분의 그래프는 그 세 가지를 하나로 합쳐 놓은 것이다. 회귀선이 세 점 (20, 10), (30, 15), (55, 27.5)을 통과하고 있다. 즉, 회귀선은 각 값에서의 의 기댓값()을 지나는 직선이다. 그리고 그 기대값은 각 값에 존재하는 의 분포의 중심이다. 각 값에서 표본의 실제 관찰값들 는 모두 기대값(중심)에서 떨어져 있다. 이제 최소자승 회귀모형의 회귀선 혹은 회귀함수가 무엇을 의미하는 지가 좀 더 분명해 졌기를 바란다.

수학을 잘 하는 독자들에게는 최소자승의 조건으로부터 회귀계수를 도출하는 과정이 어렵지 않겠지만 그렇지 않은 독자들은 머리가 아플 것이다. 사실 그렇게 ‘고통’을 겪으며 그 과정을 꼭 전부 알아야 회귀분석을 이해하는 것은 아니니 이렇게 부록처럼 별도로 처리했다. (2019-11-27)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.