표와 그래프(2): 피어슨 상관계수

그래프에서 데이터를 표시하는 데는 좌표(coordinates)가 사용되고 변수 사이의 관계는 기본적으로 직선(a straight line)으로 묘사된다. 다시 말해 각 사례는 그것이 지닌 두 변수의 값으로 구성된 좌표로 그래프에 표시되고 연구자는 사례들의 분포에 직선을 적합(fitting)해서 그 데이터들의 분포를 가장 잘 대표하는 직선을 찾아내면, 연구자는 그 직선이 두 변수들의 관계를 가장 잘 나타내주는 것으로 간주한다.

예컨대 아래 표는 미국 샌프란시스코에 소재한 어떤 음향기기 판매점이 시행한 TV광고횟수와 매출액에 관한 데이터이다.

TV광고횟수와 매출액의 추이

이 데이터를 아래와 같이 그래프에 표시할 수 있다. x축에 TV광고횟수를, y축에 매출액을 둔다면, 그래프에서 각 주의 좌표는 (2, 50), (5, 57), (1, 41) 등이 될 것이다(아래 그래프 참조).

엑셀을 이용해서 이 데이터의 분포를 가장 잘 보여주는 직선을 적합하면 아래와 같다. 붉은 색의 점선이 엑셀이 적합해준 추세선이다. 이 직선은 두 변수 사이의 선형 관계를 “가장 잘 나타낸다”.

교차표 학파의 학자들이 교차표의 각 칸의 빈도를 예측하는 데 관심이 있다면, 그래프 학파의 학자들은 각 사례의 값을 예측하는 데 관심이 있다. 그들은 직선을 가지고 각 점의 좌표를 예측한다. 위 그래프에서 붉은 선(엑셀의 추세선)은 10개의 데이터 값(좌표)을 “가장 잘 대표(예측)하는” 직선이다. “가장 잘 나타낸다”, “가장 잘 대표한다”, “가장 잘 예측한다”는 말이 무슨 의미인지는 조금 후에 설명하겠다.

그래프 접근의 대표적인 도구는 상관계수(correlation coefficients)와 회귀분석(regression analysis)이다. 상관계수는 두 변수 사이에 존재하는 관계의 방향과 정도를 표시한다. 상관계수는 데이터가 예측선(직선)의 주위에 얼마나 모여 있는가를 나타낸다. 비록 그것이 예측선을 구체적으로 특정하지는 못하지만 말이다. 즉, 상관계수는 선형적 관계가 존재하는지를 보여준다.

관련 이미지

위 그림을 보면, 맨 좌측 그래프는 한 변수가 증가하면 다른 변수도 증가하는 모습이다. 양의 기울기를 가진 직선 주위에 데이터들이 모여 있어 그 직선이 데이터의 분포를 잘 대변하고 있다. 가운데 그래프는 한 변수가 증가하면 다른 변수는 감소하는 모습이다. 직선은 음의 기울기를 가지고 있고, 데이터는 직선 주위에 잘 모여 있어 이 경우도 직선이 데이터의 분포를 잘 나타내 준다. 맨 우측의 그래프는 어디로 선을 그어야 할 지가 막막하게 데이터가 분포하고 있다. 이 경우 어떤 직선을 그리더라도 그 직선 주위에 데이터가 몰려 있지 않을 것이다.

피어슨 상관계수(Pearson correlation coefficient, )는 이러한 관계를 하나의 숫자로 표현해 준다. 상관계수는 아래의 공식으로 구할 수 있다.

식 (1)에서 분모는 변수 x의 표준편차와 변수 y의 표준편차를 곱한 값이고, 분자는 x와 y의 공분산이다. 공분산은 아래 식으로 구해진다.

식 (2)에서 분모는 자유도이고, 분자는 x편차와 y편차의 곱을 모두 더한 값이다. 위 사례에서 공분산은 11이며, TV광고횟수의 표준편차는 1.4907이고, 매출액의 표준편차는 7.9303이다. 엑셀 함수 COVARIANCE.S를 적용하면 공분산이 구해지고, STDEV.S를 적용하면 각 변수의 표준편차가 구해진다. 식 (1)에 이 값들을 대입하면, TV광고횟수와 매출액의 상관계수는 0.93이다. 이 과정이 복잡하면, 연구자는 엑셀의 CORREL 함수를 적용하여 데이터에서 상관계수를 바로 계산할 수도 있다.  상관계수 0.93은 TV광고횟수와 매출액이라는 두 변수 사이에 높은 양의 상관관계가 있음을 보여준다.

그런데, 표본의 크기(10)가 아주 작다. 모집단에서는 음향기기 판매에 있어 TV광고횟수와 매출액 사이에 상관관계가 부재할 수도 있다. 이를 확인하려면 유의성 검정(significance test)를 해야한다.

피어슨 상관계수의 유의성 검정은 상관계수 값을 검정통계량   값으로 전환한 다음 검정을 수행하여 이루어진다. 아래 공식을 적용하면 상관계수 값으로부터 검정통계량 값을 구할 수 있다.

여기에 적용되는 자유도는 이다. 공식 (3)에 을 집어 넣으면,

자유도가 8이므로, 양측 검정의 p값은 9.38553e-05이다. 이 값은 엑셀의 T.DIST.2T 함수를 적용하면 얻어진다. 이 값은 유의수준 0.05보다 훨씬 작기 때문에, 모집단에서 TV광고횟수와 매출액 사이에 관계가 없다는  영가설()은 기각된다. 즉, 만약 이 표본 데이터가 무작위 표본(혹은 그에 근접하는 좋은 표본)이라면, 음향기기 판매 업체들이라는 모집단에서도 TV광고횟수는 매출액과 높은 양의 상관관계를 갖는다고 추정될 수 있을 것이다.  다음 글에서는 그래프 접근의 다른 도구인 회귀분석에 관해 알아보자. (2019-11-23)

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다

This site uses Akismet to reduce spam. Learn how your comment data is processed.