데이터과학을 위한 수학 복습(4)

이번에는 미분과 시그마(∑)를 복습하자. 데이터과학에서 미분은 아주 중요하다. 최대값이나 최솟값을 구하는 도구로 사용되기 때문이다. 미분(derivative)이란 어느 순간에 발생하는 변화량이다. 그 변화량이 기울기이다. 미분은 다음과 같이 표시된다.

함수 가 있을 때, 미분의 정의는,

함수 에 대해 미분한다는 의미는, 가 아주 조금 변했을 때 가 얼마나 변했는지를 구한다는 것이다. 1차방정식의 기울기는 다음과 같이 구할 수 있다.

식 (1)과 (2)는 기본적으로 동일한 의미이다. 단지 식 (2)에서 를 0에 가까운 값을 가지게 하면 식(1)과 같이 된다.

과 같이 함수가 상수인 경우, 미분값은 항상 0이다.

그래프로 그려보면, 함수가 상수이면 어느 장소든 기울기가 0이다.

가 상수일 때, 에 대한 간단한 미분 함수는 다음과 같이 정의된다.

예컨대,  를 에 대해 미분하면, 를 에 대해 미분하면, 이다.

함수의 최솟값, 최대값을 찾는 문제에서 미분이 주로 많이 이용된다. 다음과 같은 2차 함수가 있다고하자.

최솟값은 미분함수가 0이 되도록 방정식을 풀면 된다.

그래프에서 보면 함수곡선이 y축과 만나는 점인 (0,1)의 x값이다.

편미분(partial derivative, , 델타): 어떤 함수가 여러 개의 변수를 가질 때 각 변수에 대해 수행하는 미분을 편미분이라고 한다. 편미분의 표시는 다음과 같다.

와 같이 변수가 두 개인 다음 방정식을 보자.

이 식을 에 대해서 편미분하면, 과 4는 과 관계가 없으므로 상수항 취급을 받는다. 따라서 편미분 결과는 다음과 같다.

에 대해서 편미분하면 같은 원리로,

편미분은 중다회귀분석, 딥러닝, 신경망에 사용된다. 미분에 대해 몇 가지 사항을 추가하면,

합성함수의 미분은 연쇄법칙(chain rule)을 따른다. 가 에 대해 미분 가능할 때, 의 도함수는

이를 말로 표현하면, 전체를 미분한 다음 속의 식을 미분하여 곱한다는 것이다. 한 예로 에 대하여 미분해보자.

로 둔다. 그러면 이 된다. 이 때 이므로 이다. 그런데 이므로

이다. 결국 전체식을 미분한 값[]에다 속의 식을 미분한 값[]을 곱한 값이다.

또 하나 기억해 둘만한 식은  이다. 상수가 곱해진 함수의 편미분은 함수를 편미분한 값에 그 상수를 곱한 것과 같다.

데이터과학에서 가장 자주 사용되는 수학 도구는 시그마(∑)이다. 시그마의 성질을 몇 가지만 기억해두자.

이 중 마지막 식만 말로 바꾸면, 시그마(합)의 편미분은 편미분의 시그마(합)이다(Partial derivative of a sum is just the sum of the partial derivatives).

미분과 시그마를 선형회귀에 적용해보자.

회귀식에 의한 예측은 . 오차는 관측값과 회귀방정식에 의한예측값과의 차이 . 최소제곱법에 의하면, 오차제곱의 합(Sum of Squares of Errors, SSE)을 최소화하는 계수(b, a)를 구해야 한다. 그럴려면, SSE을 각 회귀계수(와 절편)에 대하여 미분한 값이 0이 되어야 한다.

먼저 절편 b에 대해 편미분하면,

여기에 시그마의 편미분은 편미분의 시그마라는 공식, 합성함수의 미분은 전체식의 미분 곱하기 속의 식의 미분이라는 공식 등이 적용되었다. 이 식을 정리하면 아래와 같다.

다음 에 대해 편미분하면,

이 식을 정리하면,

(4)와 (5)를 정규방정식(normal equation)이라고 한다. 데이터를 가지고 이 연립방정식을 풀어서 절편과 기울기를 구한다.

이상으로 미분과 시그마에 대한 복습을 마친다. 데이터과학을 수행하다 보면 여기서 복습한 내용보다 더 복잡한 수식이 필요하곤 하지만 그때 그때 인터넷 등을 참고하면 이해할 수 있을 것이다.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.