표와 그래프(3): 단순회귀분석

두 변수 사이의 관계를 보는 데 피어슨 상관계수는 무척 유용하다. 그러나 그 계수는 선형 관계(linear relationship)의 두 가지 측면만 보여준다. 즉, 그것은 두 변수가 같은 방향으로 움직이는가 아니면 서로 다른 방향으로 움직이는가, 그리고 함께 움직이는 정도가 강한가 약한가를 보여준다. 상관계수가 변수의 상관관계에 대해 유용한 정보임에 틀림없다.

그러나, 피어슨 상관계수는 손쉽게 얻을 수 있기는 하지만 몇 가지 한계를 지니고 있다. 첫째, 특별한 조치를 하지 않는 이상 그것은 상관관계에 영향을 줄 수 있는 다른 변수(들)를 통제하지 못한다. 소위 피어슨 상관계수는 기본적으로 영차 상관관계(zero-order correlations)만 보여준다. 두 변수 사이에서 보이는 상관관계가 제3의 다른 변수에 의해 발생된 결과일 수도 있는데, 피어슨 상관계수로는 그러한 관계를 밝힐 수도 배제할 수도 없다는 것이다. 둘째, 한 변수(독립변수)가 변화할 때 다른 변수(종속변수)가 얼마나 변화하는 지를 알려주지 못한다. 따라서 예측 도구 혹은 제어 도구로서는 크게 쓸모가 없다. 셋째, 범주적 변수들의 상관관계를 보는 데는 적용이 매우 제한된다. 특히 두 변수 중 하나만 다범주 명목 변수(multi-class nominal variable)여도 피어슨 상관계수가 적용될 수 없다. 그것이 불가능한 것은 아니지만 편법을 좀 써야한다. 다른 도구들이 있는 데 굳이 그렇게까지 무리해서 그것을 사용할 필요는 없을 것이다.

그래서 그래프 접근에서 피어슨 상관계수는 분석의 출발점은 되어주지만 분석의 종점이 되기는 어렵다. 그것은 유용하지만 충분하지는 않다는 말이다.

피어슨 상관계수가 지닌 약점을 극복하면서 그래프 접근을 완성시켜주는 도구는 회귀분석(regression analysis)이다. 그래프 학파가 회귀분석 학파라고 불릴 정도로 회귀분석은 그래프 접근의 대표 선수이다. 더구나 회귀분석을 하면 피어슨 상관계수가 덤으로 얻어지기도 한다.

회귀분석은 피어슨 상관계수와 마찬가지로 선형적합(linear fitting)–데이터의 분포에 모형을 적합하는 것을 모형적합, model fitting이라고 부른다–이다. 그것은 그래프에 모든 데이터를 좌표로 표시하고 그 분포를 통과하는 직선 중 예측오차가 가장 작은 직선–최적합선(the line of best fit)–을 찾아내는 게임이다.  아래 그래프에서 한 눈에 봐도 세 직선 중 빨간색 선이 데이터를 가장 잘 대표하는 것으로 판단된다.

best fitted line에 대한 이미지 검색결과

물론 최적합선을 찾는 작업이 현실에서는 그렇게 쉽지 않다. 데이터의 분포를 관통하는 수없이 많은 직선이 존재할 수 있기 때문이다. 그렇다면 어떻게 최적합선을 찾을 수 있는가?

통계학에서 최적합선을 찾기 위해 가장 널리 사용되는 방법은 최소자승법 혹은 최소제곱법(Ordinary Least Squares, OLS 혹은 Least Squares Method, LSM)이다. 한 마디로 그것은 종속변수의 예측값과 관찰값의 차이, 즉, 예측 오차(prediction errors)를 제곱하여 모두 더한 값이 가장 작은( )직선을 찾는 방법이다. 최소자승법 접근의 회귀분석에 대해 알아보자.

그래프 접근에서 핵심은 평균이다. 사실 통계학은 평균을 가지고 노는 게임이라고 해도 과언이 아니다. 특히 그래프 접근에서 그러하다.

사례를 가지고 회귀분석을 차근차근 분해해 보자. 미국의 레스토랑에서 웨이터나 웨이트리스의 수입원은 손님들의 팁이다. 여러분이 어떤 레스토랑에 웨이터나 웨이트리스로 취업했다고 한다면, 여러분의 최고 관심사는 손님들이 팁을 얼마나 줄 것인가일 것이다. 어떤 손님이 식사를 했을 때 팁을 얼마나 줄 것인가를 예측해 보자. 만약 아래 표가 여러분이 가진 데이터의 전부라고 하자.

이 때 한 손님으로부터 받게 될 팁을 어떻게 예측하면 좋을까? 아마도 여섯 번 받은 팁의 평균으로 예측하면 될 것이다. 그것은 10달러이다. 평균은 아주 거친 예측 도구이지만 다른 정보가 없으면 그것이라도 예측에 도움이 된다. 만약 우리에게 예측에 유용한 정보가 추가로 주어지면 그것(10달러)보다 더 잘 예측할 수 있을 것이다. “더 잘 예측한다”는 말은 예측 팁(예측값)과 실제로 받은 팁(관찰값)의 액수가 차이–그것을 예측 오차라고 부른다–가 평균적으로 더 작음을 의미한다.

예측오차의 크기를 말할 때는 예측오차의 제곱합을 사용한다. 예측오차가 평균과 관찰값의 차이기 때문에 그냥 합하면 0이 되어버려 쓸모가 없다. 또한 예측오차를 제곱을 하면, 오차값이 큰 사례일수록 예측오차의 크기에 더 많이 반영된다. 평균의 예측오차의 제곱합은 다음과 같은 공식으로 구할 수 있다.

공식 (1)은 평균의 예측오차 제곱합은 SSE(Sum of Squared Errors)라고 표시하며, 각 관찰값()에서 평균()을 뺀 값을 제곱한 다음 모두 더해서 얻는 것임을 보여준다.

위 표는 엑셀을 이용해서 계산한 결과이다. SSE가 120이다. 120이라는 숫자가 지닌 의미를 정확히 해석할 수는 없지만 예측오차가 상당히 커서 평균만 가지고 팁 액수를 정확히 예측할 수 없음은 짐작할 수 있다. 여기서 예측값()은 일률적으로 식사비의 평균()이다. 이를 그래프로 표현하면 아래와 같다.

이 그래프를 보면, 팁액수 10달러에 평균(예측)선(붉은 선)이 그려져 있고, 각 식사별 실제 팁값으로부터 (예측)오차가 표시되어 있다(파란색 반화살표 선). 평균으로 예측하면, 세 번째와 네 번째 식사의 팁값은 비교적 잘 예측했지만 나머지 식사들에 대해서는 예측이 크게 빗나갔다.

만약 우리가 각 식사에 관해 팁 액수 이외의 다른 유용한 정보를 구할 수 있다면 팁을 보다 정확히 예측할 수 있을 것이다. 예측에 “유용하다”는 말은 적어도 단순히 평균으로 예측한 경우보다 예측오차제곱, 즉, 예측오차가 상당히 작다는 의미이다.

연구자가 가게를 열심히 뒤졌더니 다행히 식사들의 전표가 발견되었다. 거기에는 아래와 같이 위 식사들의 식사비에 대한 데이터가 있었다. 현실에서 식사비는 기대 팁에 대한 가장 유용한(혹은 확실한) 예측 변수(predictor)이다.

선형 적합을 해서 최적합선(the line of best fit)을 구하려면, 먼저 독립변수(예측변수)를 x축에, 종속변수를 y축에 놓고 좌표를 그래프에 표시해서 데이터들이 선형으로 분포하고 있는지를 확인해 보아야 한다. 엑셀에서 데이터를 가지고 위 그래프를 얻었다. 이 그래프는 식사비가 증가하면 팁 액수도 함께 증가함을 보여준다. 즉, 이 그래프는 양의 기울기를 지닌 직선 중 어떤 것이 이 데이터에 대한 최적합선이 될 수 있음을 시사한다. 그것은 선형적합을 해볼만하다는 말이다.

그래프에서 직선은 일차함수로 표현된다. 종속변수 y 값을 예측하는 일차함수는 다음과 같이 나타낼 수 있다.

식 (2)는 각 y의 예측값()이 절편이 이고, 기울기가 인 x의 함수임을 나타낸다. 만약 우리가 데이터로부터 절편과 기울기를 구하면 예측 함수가 완성될 것이고, 그 함수에 x값()을 넣으면 y의 예측값()이 구해질 것이다.  그렇다면 위 일차함수의 절편과 기울기를 구하는 것이 관건이다. 이 일차함수를 단순회귀모형(simple regression model)–독립변수가 하나인 회귀모형–이라고 부르며, 기울기는 회귀계수(regression coefficient)라고 부른다. 최소자승법을 적용하면 그 값들은 아래 식과 같다.

공식 (3)의 분모는 독립변수 x의 오차제곱합이고, 분자는 x편차와 y편차의 곱을 모두 더한 값이다. 여러분에게 분자에 들어간 식이 익숙할 것이다. 그것은 다름아닌 공분산을 구하는 식에서 분모가 없어진 것이다. 마찬가지로 분모는 x의 분산을 구하는 공식에서 분모가 없어진 것이다. 사실 x와 y의 공분산을 x의 분산으로 나누면 식 (3)을 얻는다.  공분산과 분산을 구하는 식의 분모가 모두 자유도 ()이기 때문에 나누는 과정에서 상쇄되어 없어진 것으로 생각하면 된다. 다시 말해,  최소자승법의 회귀모형에서 회귀계수 은 독립변수와 종속변수의 공분산을 독립변수의 분산으로 나눈 값이다.

기울기가 식 (3)이면, 절편은 아래 공식이 된다.

엑셀을 이용해서 위 사례의 두 변수의 편차곱의 합, 편차제곱합을 구하고, 공식 (3)과 (4)를 적용해서 기울기와 절편을 구했다. 그렇게 구해서 만든 일차함수와 최적합선 그래프가 아래 그림에 제시되어 있다.

기울기 0.15는 식사비가 1달러 증가하면 팁이 약 15센트 증가한다는 의미이다.

이 모형은 얼마나 팁을 얼마나 정확히 예측하고 있을까? 회귀모형의 예측력을 회귀모형의 결정력(power of determination)이라고 부르는데, 그 결정력을 나타내는 도구는 결정계수(coefficient of determnation)라고 부르며 통상 라고 표기한다. 그렇다면 결정계수는 어떻게 구할 수 있을까?

단순회귀모형을 이용해서 종속변수 y(여기서는 팁 액수)의 예측값()을 구하면, 예측오차를 구할 수 있다. 각 관찰값에서 예측값을 빼면 될 것이다. 예측오차제곱합은 아래와 같이 구해진다.

예측값은 각 x값에서 회귀선 위의 y 값이다. 각 y값의 예측오차는 각 x값에서의 관찰값()으로부터 회귀선 위의 y 값()까지의 직선 거리이다.

위 그래프에 빨간색 선은 회귀선(regression line)이고, 파란색 반 화살표 선이 각 x 값에서의 예측오차이다. 식(5)는 그 예측오차를 제곱해서 모두 합한 것이 예측오차제곱합(SSE)임을 나타낸다.

평균만 알고 있을 때 SSE는 관찰값에서 평균을 뺀 오차를 제곱해서 합한 값이었다. 평균 자체가 y의 각 관찰값에 대한 예측값이었기 때문에 당연히 그랬다.

그러나, 독립변수가 추가된 회귀모형에서는 독립변수가 조금이라도 예측에 기여하는 한 회귀모형에 의한 예측값과 평균은 다르다. 회귀분석에서 SSE은 관찰값과 회귀모형에 의한 예측값의 차이를 제곱하여 모두 합한 값이다. 그것을 잔차제곱합(Sum of Squared Residuals)이라고도 부른다. 그리고 관찰값과 평균의 차이를 제곱하여 모두 합한 값은 SST(Sum of Squares Total, 총제곱합)이라고 부른다. 이점은 다소 혼동을 일으킬 수 있기 때문에 잘 기억해 두기 바란다.

평균만을 가지고 예측할 때는 SST = SSE이다. 하지만 회귀모형에 추가된 독립변수가 종속변수의 예측에 도움이 되는 한 SST는 SSE보다 클 것이다. 독립변수가 존재하는 어떤 회귀모형의 예측력도 평균만 가지고 하는 예측보다 더 빗나갈 수는 없다, 즉, 더 큰 예측 오차를 가질 수는 없다. 예측오차가 조금이라도 줄었을 것이다. 만약 그렇지 않다면 그런 결과를 낸 회귀모형은 통계적으로 유의미할 수 없다. 그것은 독립변수가 없는 것이나 마찬가지라는 말이 된다.

따라서 SST와 SSE의 차이는 종속변수에 대한 예측에 있어 회귀모형에 의해 개선된 부분이다. 그 차이를 SSR(Sum of Squares due to Regression, 회귀제곱합)이라고 부른다. SST, SSE, SSR 사이에는 다음과 같은 관계가 성립한다.

식 (6)을 말로 풀면, 총제곱합은 잔차제곱합과 회귀제곱합을 더한 값이다. 이미 분산분석(ANOVA)을 공부한 사람은 이것이 분산분석에서 나온 전체제곱합(SST)은 처리제곱합(SSC)과 잔차제곱합(SSE)을 더한 값이라는 식과 동일한 구조임을 금방 느낄 것이다.

위 그림은 엑셀에서 앞에서 설명한 모든 내용을 레스토랑 사례를 가지고 구현한 것이다(엑셀에서 직접 구동하고 싶은 독자는 그림을 클릭하면 엑셀 파일에 접근하여 다운로드 받을 수 있다).

엑셀 자체가 제공하는 애드인인 데이터 분석을 이용하면 손쉽게 회귀분석을 수행할 수 있으며, 위 그림의 아랫부분과 같은 결과를 얻을 것이다. 회귀분석 결과의 중간 부분(초록색 부분)을 보면 제목이 ‘분산분석’이고 실제로 전형적인 분산분석표(ANOVA table)이다. 거기에 있는 제곱합 열을 보면, 첫 번째 행의 89.9251은 회귀제곱합이고, 두 번째 행의 30.0749는 잔차제곱합이며, 세 번째 행의 120은 총제곱합이다. 그림의 윗 부분에 파란색으로 된 부분은 엑셀에서 위에 제시된 공식들을 이용해 차근차근 계산해서 얻은 결과이다. 거기에 제시된 값들이 초록색 부분에 제시된 제곱합들과 동일하다.

위에서 회귀모형의 결정력을 보여주는 결정계수 는 다음과 같은 식으로 구할 수 있다.

위 사례의 결정계수 값은 0.7494이다. 이는 총제곱합의 74.94%가, 사용된 회귀모형에 의해 설명되었다고 해석된다. 회귀모형(회귀선)이 데이터에 잘 적합하고 있는 것이다.

흥미있게도 이 결정계수의 양의 제곱근은 바로 피어슨 상관계수이다.

위 레스토랑 사례의 결정계수는 0.7494이고, 그것의 양의 제곱근은 0.8657이며, 그것이 식사비와 팁 액수의 피어슨 상관계수가 된다. 엑셀에서 CORREL 함수를 사용하여 계산한 피어슨 상관계수 값도 정확히 0.8657이다.

회귀모형의 효과는 분산분석에서처럼 F비를 사용하여 검증할 수 있다.

그리고 MSR과 MSE는 SSR과 SSE를 각각 해당 자유도로 나누어 주면 구해진다. 단순회귀모형에서  MSR을 구하는데 필요한 자유도는 1(독립변수의 갯수)이고, MSE를 구하는데 필요한 자유도는 (표본의 사례수에서 회귀계수의 갯수를 뺀 값)이다. 

위의 레스토랑 사례에서는 자유도가 1과 4이므로, MSR은 89.9251, MSE는 (30.0749/4=)7.5187이다. 그러면 F값은,

엑셀의 F.DIST.RT 함수를 이용해서 이 F 비의 p값을 구하면, 0.0259이다. 엑셀의 데이터분석 추가기능을 이용하면 위에 제시된 값들을 모두 손쉽게 구할 수 있다(위 그림 참조).

유의수준을 0.05으로 둔다면, 회귀모형의 효과가 없다는 영가설을 기각할 수 있다. 즉, 식사비로 구성된 회귀모형은 팁 액수를 예측하는 데 도움이 된다고 말할 수 있다.

그런데, 만약 이 자료를 표본데이터로 삼는다면, 그 표본에서 얻은 기울기가 유사한 레스토랑의 모집단에서 식사비와 팁에도 적용될 수 있을까? 다시 말해 회귀계수의 유의성 검정은 어떻게 할 수 있을까?

회귀계수는 그 자체 표집분포를 가지고 있다. 회귀계수 의 표집분포는 모평균()과 표준오차()를 지닌 정규분포를 갖는다. 회귀계수의 통계적 유의성은 통상 t 검정을 사용해서 검증한다. 회귀계수()은 아래 공식으로 검정통계량 t로 변환된다.

영가설 아래에서 식 (11)의 분자에 있는 은 0이다. (11)의 분모는 회귀계수 의 표준오차인데, 그것은 아래 식으로 구해진다.

식 (12)에서 분자는 예측값의 표준오차(standard error of the estimate)이며 다음과 같이 구해진다.

예측값의 표준오차는 위에서 식 (9)에서 구한 바로 그 MSE의 양의 제곱근이다. SSE는 (추정)회귀선과 y의 관찰값의 차이–즉, 잔차–의 제곱합이다. 그것은 추정회귀선 주변의 실제 관측값의 변동성을 보여주는 척도가 된다.  MSE(평균제곱오차)는 의 추정값()인데, SSE를 자유도로 나누어 구했다. MSE의 양의 제곱근을 구하면 예측값의 표준오차 가 되는 것이다.

이렇게 해서 t값을 구할 수 있으며, 단순회귀모형에서 이 검정통계량의 자유도는 이므로 그 두 가지 정보를 이용해서 t분포의 양측검정을 하면 p값을 구할 수 있다.

위 레스토랑 예에서는  의 p값이 0.0259이다. 따라서 유의수준 0.05에서 =0이라는 영가설이 기각된다. 따라서 식사비를 알면 팁액수를 예측할 수 있으며,식사비가 1달러 올라갈 때마다 팁은 약 15센트가 늘어나는 것으로 예측된다고 결론을 낼 수 있다.

사실 독립변수가 하나뿐인 단순회귀분석에서는 모형의 결정계수의 유의성을 검증하는 F검정의 결과와 독립변수의 회귀계수의 유의성을 검증하는 t 검정의 결과가 같다. 위 그림에 제시된 회귀분석 결과에서 분산분석 부분에 있는 회귀의 유의한 F 값과 그 아래 표에 있는 식사비의 p값이 동일하다.

그래서 회귀분석은 분산분석과 피어슨 상관계수를 학습하고 나서 배워야 한다. 회귀분석에는 분산분석과 상관계수의 지식이 크게 활용되기 때문이다. 사실 분산분석으로 수행하는 작업은 모두 회귀분석으로 처리할 수 있다. 집단의 구분을 수치적 변수로 변환하면, 분산분석 대신 회귀분석을 적용할 수 있다.

앞에서 회귀함수의 절편과 기울기를 구하는 식 (3)과 (4)을 도출과정 없이 그냥 제시했다. 최소자승법을 언급만 하고 적용 과정을 생략한 것이다. 글이 너무 길어져서 다음 글에서 최소자승법과 다중회귀분석을 함께 설명하겠다. (2019-11-24)

Excel로 하는 미래 예측(3): 시계열 예측

지난 포스팅에서 시계열 예측 중 데이터 추동 예측을 소개했다. 이번에는 모형 추동 예측을 살펴보자. 표적 변수의 과거 데이터에 의존해서 미래를 예측한다는 점은 데이터 추동 예측의 경우와 동일하지만 모형 추동 예측은 단지 개별적 데이터들의 집합에만 의존하는 것이 아니라 데이터들로 만들어지는 변동의 형태를 미래 예측에 반영하는 방법이다. 예컨대 변동이 선형(linear)이라는 점을 고려할 수도 있고 아니면 변동의 주기성–계절적 부침이라고 한다–이나 상향적 경향–추세라고 한다–을 고려할 수도 있다.

아래 그림들을 보면, (a)의 경우는 주기성이 분명해 보이고 (b)의 경우는 주기성이나 트렌드가 보이지 않는다. (A)의 경우는 주기성을 반영해서 미래를 예측한다면 오류를 줄일 수 있을 것이다.

모형 추동 예측에서 가장 널리 쓰이는 것은 선형회귀 모형이다. 시계열 예측의 선형회귀 모형은 크게 두 가지를 생각할 수 있다. 하나는 시간(시구간)을 예측변수로 갖는 모형–단순회귀모형, 다른 하나는 표적변수의 과거값을 독립변수로 갖는 모형–자기회귀모형이다.

데이터에 계절성(seasonality)이 있으면 단순회귀모형의 적합 결과가 좋지 않다(위 그림 참조).  단순회귀모형의 그런 단점을 개선하는 데는 두 가지 방법이 있다. 하나는 다항회귀(polynomial regression)를 사용하는 방법이다. 시구간의 2차항이나 3차항을 추가하거나 사인, 코사인 함수를 포함한 항을 추가하여 다항회귀모형을 만든다.

다른 하나는 계열 데이터의 각 시구간에 더미변수를 도입하는 방법이다. 만약 12개의 시구간이 있다면 11개의 더미변수를 도입하면 된다(12월은 기준 범주가 되어 더미변수가 생략된다). 시간 변수를 포함해서 모두 12개의 독립변수를 지닌 회귀모형이 되며 각 더미변수는 계절성을 포착한다. (아래 그림 2개 참조)

자기회귀모형(Autoregressive model, AR 모형)은 지연 계열(lag series)에 적용되는 회귀모형이다. 측정된 데이터가 1년씩 미룬 지연(lag) 데이터 혹은 2년 지연 계열, 3년 지연 계열 등과 상당한 정도의 상관관계를 가지는 경우 자기상관관계(autocorrelation)이라고 부르며 예측과정에 활용할 수 있다. 자기상관이 존재할 때 자기회귀모형을 적용하는 것이 하나의 해법이 된다. 자기회귀 모형의 일반식은 다음과 같이 표시될 수 있다.

1차 지연계열 데이터만을 가진 자기회귀모형을 AR(1), 2차 지연계열 데이터를 가진 자기회귀모형은 AR(2) 등으로 표시한다(아래 그림 참조).

지연계열 데이터를 만드는 방법은 간단하다. 아래 그림에서처럼 원 데이터를 복사해서 한 칸(여기서는 1개월)을 아래로 내리거나(Lag_1), 두 칸을 내리거나(Lag_2), 세 칸을 내리면 된다(Lag_3). 아래 사진에서처럼 공통의 데이터(노란색 부분)를 가지고 상관관계를 구하거나 회귀모형을 적합하면 된다.

아래 그림에서 보듯이 Yt와 Lag_1의 자기상관은 0.487451, Yt와 Lag_2의 자기상관은 -0.13216, Yt와 Lag_3의 자기상관은 -0.45576으로, 자기회귀모형의 적합이 필요함을 시사한다. 상관분석과 회귀분석은 모두 엑셀의 데이터-데이터분석 기능을 사용해서 수행하였다. 회귀분석 결과를 보면, 결정계수가 0.7557로 위에서 본 단순회귀모형의 결정계수 0.1798보다 크게 향상되었다.

AR 모형은 정상 시계열 데이터(stationary time series data)인 경우에만 사용 가능하다. 정상 시계열 데이터란 추세(trend)와 계절성(seasonality)이 없고 백색 소음(white noise)만 있는 시계열 데이터이다(아래 그림 참조).

이 조건이 충족되기가 보기만큼 까다롭지는 않다. 약간의 변형만 가하면 비정상 시계열 데이터를 정상 시계열 데이터로 전환할 수 있기 때문이다.

정상성(stationarity)을 확보하는 흔한 방법은 차분(differencing)을 이용하는 것이다. 차분이란 아래 식처럼 금년도 값에서 전년도 값을 뺀 것을 말한다.

만약 그렇게 차분을 해서도 정상성을 확보하지 못하면  아래 식처럼 다시 한번 차분을 할 수 있다(제2차 차분, 차분 차수가 2).

비정상 시계열 데이터의 경우 차분을 사용하지 않고 엑셀이 제공하는 지수평활법 함수를 사용해도 좋다. 2016 엑셀은 예측 함수를 4가지 제공한다. 시구간만을 독립변수로 갖는 단순선형회귀 예측을 계산하는 함수인FORECAST.LINEAR, 지수평활법 예측을 계산하는 함수 FORECAST.ETS, 지수평활법의 95% 신뢰구간을 보여주는 FORECAST.ETS.CONFINT, 계절성의 주기를 보여주는 FORECAST.ETS.SEASONALITY, 세 가지 계수를 보여주는 FORECAST.ETS.STAT를 제공한다.

사용법은 간단하다. 단순선형예측의 경우 예측하려는 셀에 =FORECAST.LINEAR를 치고, 예측하는 날짜(여기서는 A38), 표적변수 데이터(여기서는 B2:B37), 데이터가 있는 날짜(여기서는 A2:A37)를 입력하면 된다. 그리고 그 이후 날짜에 대한 예측을 추가하려면 그 수식을 복사하면 된다. 지수평활법도 마찬가지이다.

FORECAST.ETS는 편리한 함수이나 약간 자세한 설명이 필요함으로 다음 포스팅에서 독립해서 다루겠다.