제1종오류, 임계값 방식: 가설검정의 원리(보론)

추리통계에서 p-값의 중요성은 아무리 강조해도 지나치지 않다. 앞 포스팅에서 p-값(p-value)이란 영가설()이 참일 때 표본통계치() 혹은 그 이상의 값을 얻을 확률이라고 설명했다. 또한 p-값은 영가설이 참일 때 그것을 기각할 확률이라고도 하고, 짧게는 영가설이 참일 확률이라고도 말한다.

앞 포스팅에서 필자는 통계학에서 우리는 영가설()에 대한 검정을 통해서 우리의 주장(대립가설)을 우회적으로 검증한다고 지적했다. 그런데 데이터를 가지고 영가설을 검정할 때 우리는 항상 오류를 범할 가능성을 안고 있다. 아래 표에서처럼 영가설()이 참인데 기각으로 결론을 낼 수 있고, 영가설이 거짓인데 채택으로 결론을 낼 수도 있다.

영가설이 참임에도 그것을 기각하는 오류를 제1종 오류라고 부르며, 영가설이 거짓임에도 그것을 채택하는 오류를 제2종 오류라고 부른다.

영가설이 참일 때 제1종 오류를 범할 확률을 유의수준(significance level)이라고 한다. 유의수준은 그리스 문자 로 표시한다. 유의수준은 연구자가 임의로 설정한다. 연구자는 유의수준의 설정으로 제1종 오류를 범할 확률을 통제한다.

연구자는 신뢰수준(confidence level)을 선택하는데, 사실 그것이 오류의 허용 수준을 함축하고 있다. 통상 Ronald Fisher의 예를 따라서 95% 신뢰수준, 즉, 스무번에 한번 정도의 추정 오류를 허용하면서 판단을 내리고자 한다. 신뢰수준이 95%이면 신뢰계수(confidence coefficient)가 0.95이며, 유의수준은 가 된다. 사안에 따라서는 90% 신뢰수준이나 99% 신뢰수준이 설정되기도 한다. 신뢰수준이 90%이면 유의수준이 0.10이고, 신뢰수준이 99%이면 유의수준은 0.01이다.

p-값은 하나의 표본에서 계산된 통계치(예컨대 )를 가지고 영가설을 검증할 때  연구자가 안게 되는 제1종 오류의 크기를 의미한다. 만약 이 오류의 크기(혹은 수준)–영가설이 참일 때 기각할 가능성–가 연구자가 선택한 유의수준보다 작으면 영가설을 기각한다. 다시 말해 유의수준과 p-값은 모두 제1종오류를 가리킨다. 유의수준()은 영가설에 대한 판단을 위해 연구자가 선택한 제1종오류의 수준이고, p-값은 표본통계치로부터 추정된 제1종오류의 크기이다. 가설검정에서는 그 두 가지를 비교하여 영가설에 대한 판단을 내리고 결국 그 과정을 통해서 연구자가 증명하려는 대립가설에 대한 판단을 내리게 되는 것이다.

지난 주에 발뒷꿈치의 통증이 한 달 이상 낫지 않아 류마티스 전문 내과에 다녀왔다. 그 전에 통증의학과와 다른 내과에 갔는데, 통증이 재발했기 때문이다. 병원을 다녀와 염증치료제와 진통제를 2주 이상 복용했는데, 틍증이 가라 앉는 듯하다가 처음과 같은 수준으로 재발하자 나는 통풍 때문인 것으로 확신했다. 일반 염증이라면 그런 방식으로 재발될 리가 없었다. 마음 속에서 99% 정도로 확신했다. 내 판단이 틀릴 가능성을 1% 미만으로 본 것이었다.

그런데 류마티스 전문의가 내게 말했다. 발뒷꿈치가 아플 때 그 환자에게 통풍이 있는 경우 열에 아홉은 통풍 때문이라는 것이었다. “열에 아홉”이란 자신의 판단에 10% 오류(통풍으로 인한 것이 아닐 가능성)를 허용하는 것이다. 나는 “백에 아흔아홉”정도의 확신이 있었다. 피검사와 x-레이 검사를 받았고 통풍인 것으로 진단되었다. 나로서는 전혀 놀라운 결과가 아니었다.

두 명의 의사는 오진을 했다. 진료 중 내가 통풍 증세가 있음을 고지했음에도 그들은 환자인 내 말을 무시했다. 마지막 의사는 내 말을 존중했지만 제1종 오류를 너무 크게 두었다. 그런데도 그는 엄청나게 확신을 갖고 나를 대했다.

유의수준이란 뭐 그런 것이다. 어느 정도 확신을 갖고 판단할 것인지, 다른 말로 하면 오류의 가능성을 얼마나 허용하면서 판단할 것인지를 선택하는 것이다. 제1종 오류만 통제하여 실시하는 가설 검정을 유의성 검정(significance tests)이라고 한다. 대부분의 가설 검정이 유의성 검정이다.

대부분의 가설 검정에서 제1종 오류만 통제하고 제2종 오류를 범할 확률은 통제하지 않는다. 영가설이 거짓임에도 채택할 확률이 제2종 오류이다. 제1종 오류와 제2종 오류 사이에는 trade-off관계가 있다. 제1종 오류를 줄이다보면 제2종 오류의 가능성이 커진다는 의미이다. 그러나 통상 제2종 오류는 명시적으로 통제하지 않는다. 다만 제2종 오류를 범할 위험성을 피하기 위해 통계학자들은 ‘채택’과 같은 직접적인 표현을 사용하지 않고 “기각할 수 없다”다고 표현한다. 가설 검정에서는 “영가설을 기각한다” 와 “영가설을 기각에 실패하다(혹은 기각할 수 없다)”는 두 가지 결론만을 사용한다.

표본통계치(예컨대 )로부터 z-값이나 t-값을 구하면, 오른쪽 단측검정에서는 그것보다 클 확률(p-값), 왼쪽 단측검정에서는 그것보다 작을 확률(p-값)을 구하여, 그것이, 선택한 유의수준보다 작으면 영가설을 기각한다. 제1종 오류, 즉, 영가설이 참인데 기각할 확률이 너무 작기 때문이다. p-값을 영가설이 참일 확률로 이해하면, 완전히 정확한 표현은 아니지만 기억하기 편리하다.

one-tailed test에 대한 이미지 검색결과관련 이미지

유의수준의 z-값(혹은 t-값)을 임계값(critical value)이라고 한다. 예컨대 모집단의 표준편차 를 알고 있을 때, 유의수준이 0.05이면, 임계값(z-값)은 오른쪽 단측검정에서는 1.645, 왼쪽 단측검정에서는 -1.645이며, 유의수준이 0.01이면, 임계값은 오른쪽 단측검정에서 2.33, 왼쪽 단측검정에서 -2.33이다. 오른쪽 단측검정에서는 1.645보다 큰 영역을 기각역(rejection region)이라고 하고, 왼쪽 단측검정에서는 -1.645보다 작은 영역이 기각역이 된다(위 그림 참조). 즉, z-값(혹은 t-값)이 그 영역에 속하면 영가설이 기각된다. 영가설이 참일 때 그러한 z-값(혹은 t-값)얻을 가능성이 희박한 것이니, 영가설이 참일 가능성이 매우 낮은 것이다(아래 그림 참조).

관련 이미지

물론 앞에서 보았듯이 임계값 방식 대신 p-값 방식을 사용해도 된다. 그러면 아래 그림처럼 표시될 수 있을 것이다. 앞 포스팅들에서 충분히 소개했으므로 추가 설명은 생략한다.

rejection region에 대한 이미지 검색결과

 

양측검정의 경우 임계값 방식에서는 유의수준 0.05일 때 임계값은 1.96, 유의수준 0.01일 때 임계값은 2.58이다. 따라서 표본통계치가 그 임계값보다 작으면 영가설을 기각하고,  크면 영가설 기각에 실패한다(아래 그림 참조).

two-tailed test에 대한 이미지 검색결과

임계값 방식의 경우 단측검증과 양측검증을 함께 놓고 보면 아래 그림과 같다.

two-tailed test에 대한 이미지 검색결과

 

p-값 방식을 사용하면, 단측검정의 p-값을 2배하여 유의수준()과 비교하여 영가설에 대한 판단을 내린다(아래 그림 참조).

관련 이미지

 

임계값 방식을 취하던 p-값 방식을 취하던 상관 없다. 다만 오늘날은 p-값 방식을 더 많이 사용하는 추세이다. 이상으로 가설 검정에 대한 논의를 모두 마친다. (2019-10-12)

단측검정과 양측검정: 가설검정의 원리(하)

사회과학에서 가설은 대체로 독립변수(원인이 되는 변수)와 종속변수(결과가 되는 변수) 사이의 인과관계를 나타낸다. 독립변수가 증가하면 종속변수가 증가하는 양의 관계(positive relation)이거나 독립변수가 증가하면 종속변수가 감소하는 음의 관계(negative relation)이다. 즉, 독립변수와 종속변수의 관계에 방향이 묘사된다.

예컨대 “공부를 많이 할수록 성적이 좋을 것이다” 혹은 “학력이 높을수록 소득이 높을 것이다”라는 가설은 양의 관계를 나타내고, “가족의 소득이 낮을수록 가족 스트레스의 수준이 높을 것이다” 혹은 “포용성이 높은 사회일수록 증오범죄의 발생이 낮을 것이다”라는 가설은 음의 관계를 나타내고 있다. 뿐만 아니라 “여성은 남성에 비해 평균 소득이 낮을 것이다” 혹은 “도시민은 농촌 주민에 비해 생활 스트레스가 높을 것이다”처럼 이론적으로나 상식적으로 인과관계의 방향이 예상 가능한 경우가 흔하다.

이렇게 가설에 관계의 방향이 포함되면, 모수에 대한 단측검정(one-tailed test)을 적용한다. 즉, “~~보다 크다”, “~~보다 작다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 지니면, 단측 검정이 적용된다. 영가설 아래 추정된 모평균보다 충분히 작은가를 확인하든지, 아니면 영가설 아래 추정된 모평균보다 충분히 큰가를 확인하면 된다는 말이다.

반면에 “~~과 다르다”와 같이 모수에 대한 추정(대립가설)이 특정한 방향을 갖지 않으면, 양측 검정(two-tailed test)이 적용된다. 영가설 아래 추정된 모평균보다 충분히 커도 혹은 충분히 작아도 영가설이 기각된다. 사회과학에서 양측 검정이 흔하지는 않지만 그렇다고 없지는 않으므로 기억해 두는 것이 좋다.

그림을 가지고 이해해 보자. 먼저 단측 검정이다. 유의수준이 0.05(즉, 신뢰수준이 95%)일 때 표집분포(z-분포가 적용된다고 하자)에서 유의수준보다 큰 부분은 z-값이 1.645보다 큰 영역이다. 아래 그림 중 왼쪽 그림에서 파랗게 칠해진 부분이다. 만약 표본통계치가 이 영역에 떨어지면 영가설을 기각한다. 그래서 그 영역의 이름이 기각역(rejection region)이다. 표본통계치의 관찰값()이 그 영역에 떨어지면 영가설 아래의 모평균 보다 충분히 크다고 판단하여 영가설이 참임을 의심한다(즉, 영가설을 기각한다). 이 경우가 단측 검정 중 오른쪽 검정(right tail test)이다.

유의수준이 0.05일 때 유의수준보다 작은 부분의 z-값이 -1.645보다 작은 영역일 수 있다. 아래 그림 중 오른쪽 그림에서 파랗게 칠해진 부분이다. 만약 표본통계치가 이 영역에 떨어지면 영가설을 기각한다. 그래서 이 영역도 기각역이다. 표본통계치의 관찰값()이 그 영역에 떨어지면 영가설 아래의 모평균 보다 충분히 작다고 판단하여 영가설이 참임을 의심한다(즉, 영가설을 기각한다).  이 경우가 단측 검정 중 왼쪽 검정(left tail test)이다.

FAQ: What are the differences between one-tailed and two-tailed tests?

단측 검정은 오른쪽을 검정하든 왼쪽을 검정하든 둘 중 하나이다. 양쪽이 동시에 검정되지 않는다는 말이다. 그런데 표본평균의 표집분포은 모평균(여기서는 )을 중심으로 하고 있기 때문에 표본평균은 모평균보다 작을수도 있고 클수도 있다. 표본평균이 모평균보다 작으면 검정통계치는 음수가 되고, 표본평균이 모평균보다 크면 검정통계치가 양수가 된다. z-분포가 적용되는 경우 가설검정을 위한 검정통계치를 구하는 공식은 아래와 같기 때문이다.

는 영가설에서 세운 (모평균) 값이다. 표본평균 보다 크면 표본통계치 z의 값이 양수가 되고, 보다 작으면 표본통계치가 z의 값이 음수가 된다. 표본통계치가 음수이면 왼쪽 검정이 되고, 양수이면 오른쪽 검정이 된다. 왼쪽 검정이든 오른쪽 검정이든 p-값이 보다 작거나 같으면() 영가설()이 기각된다.

앞 포스팅에서 든 힐탑 커피의 사례에서 z-값이 -2.67이었으니 왼쪽 검정이 적용되었다. z-값 -2.67의 p-값은 0.0038이다. 가 0.01이었으니, p-값이 보다 작아 영가설이 기각되었다(아래 그림 참조).

이번에는 양측 검정을 보자. 양측검정에서 영가설은 “모평균 이 영가설에서 도출된 모평균 과 같다”이며, 대립가설은 “와 다르다(같지 않다)”이다. 표본통계치(z)가 왼쪽 꼬리 쪽의 기각역(critical region) 안에 들어 있거나 오른쪽 꼬리 쪽의 기각역 안에 들어 있으면 가 같지 않다. 아래 그림에서 양쪽 끝에 파랗게 칠한 부분이 기각역이다. 표본통계치 z-값이 양쪽의 기각역 중 어느 쪽에든 들어 있으면 영가설이 기각된다.

two-tailed-test

따라서 단측 검정보다 기각역의 면적이 두배(즉, 확률이 두배)가 된다. 단측 검정에서 구한 p-값에 2를 곱해 주어야 한다. 그렇게 구한 p-값이 보다 작거나 같으면 영가설이 기각된다. 양측 검정에서는 단측 검정의 p-값이 두배로 커지니 그것이 보다 클 가능성이 높아진다. 즉, 단측 검정일 때보다 양측 검정일 때 영가설을 기각하기가 어렵다.

<앤더슨의 통계학>의 제9장에 제시된 맥스플라이트사(MaxFlight, Inc.)의 사례를 가지고 양측 검정을 살펴보자.

미국골프협회는 협회가 주최하는 대회에서 사용할 골프장비에 대한 제조 기준을 세웠다. 맥스플라이트사는 평균 비거리가 295야드인 골프공을 생산하고 있다. 그러나 때때로 제조공정이 잘못되어 평균 비거리가 295야드와 다른 공이 생산되기도 한다. 평균 비거리가 295야드 이하로 떨어지면 골프공 광고와 다르기 때문에 매출이 감소할 우려가 있다. 반면에 골프공의 비거리가 295야드보다 길어지면 미국골프협회의 기준을 초과하여 미국골프협회가 주관하는 대회에서 사용할 수 없으므로 표준 비거리를 지켜야 한다.

맥스플라이트사의 품질관리팀은 정기적으로 50개의 골프공을 표본으로 선택하여 제조공정을 확인한다. 50개의 표본으로 공정을 조정할 것인지의 여부를 결정하기 위해서 가설검정을 하는 것이다.

영가설과 대립가설을 설정해보자. 품질관리 부서가 확인하려고 하는 것은 평균이 295야드에서 벗어나는가이기 때문에 대립가설은 “골프공의 평균거리가 295야드가 아니다”가 될 것이며, 이에 반대되는 영가설은 “골프공의 평균거리가 295야드이다”가 될 것이다. 이는 아래와 같이 표시될 것이다.

표본평균의 표집분포는 아래 그림과 같다. 표본평균 가 295야드보다 충분히(다른 말로 표현해서, 통계적으로 의미있게) 작거나 크면 를 기각한다. 그 경우 제조공정을 조정한다. 

품질관리팀은 검정을 위해 유의수준 를 선택했다. 이전의 반복적인 조사를 통해서 모집단의 표준편차가 임이 알려져 있다고 가정하자. 표본의 크기일 때  의 표준오차를 계산하면 다음과 같다.

50개의  골프공을 표본으로 추출하여 표본평균을 계산했더니 였다고 하자. 표본통계치 z의 값을 계산하면 아래와 같다.

여기서 단측검정을 위한 p-값을 계산하자. z-값이 양수이므로 오른쪽 검정이 된다. 즉, z-값 1.53 이상되는 영역에 해당되는 p-값을 구하면, 이다. 양측 검정이니 표본평균이 양쪽 끝 기각역 어느쪽에 속해도 영가설이 기각된다. 따라서 단측검정의 p-값에 2를 곱해준다. 그러면 이 된다. 아래 그림을 참조하기 바란다.

표본통계치의 p-값 0.1260은  품질관리팀이 선택한 유의수준 0.05보다 크므로 영가설을 기각할 수 없다. 영가설을 기각할 수 없으므로 맥스플라이트사의 골프공의 평균 비거리는 295야드로 추정된다. 따라서 제조공정을 조정할 필요가 없다는 결론에 도달한다.

양측검정을 할 때 p-값은 단측검정을 위한 p-값을 먼저 구해서 그것에 2를 곱하면 된다. 이점만 잘 기억해 두면, 양측검정을 수행하기가 어렵지 않을 것이다.

<앤더슨의 통계학>에 실린 양측 검정 사례를 하나 더 보자.

시사주간지 타임에 의하면 미국에서 결혼한 남성들은 주당 평균 6.4시간 동안 아이를 돌보는 것으로 나타났다. 가정의학과 의사인 남편들이 아이를 돌보는 주당 평균 시간이 타임지에 보고된 6.4시간과 다른 지를 결정하기 위한 연구를 하려고 한다. 40쌍의 부부를 표본으로 선택하여 매주마다 남편들이 아이 돌보는 시간을 조사하였더니 표본평균이 7이고, 표준편차가 2.4였다. 다음에 답하시오.

a. 가정의학과 의사인 남편들이 아이 돌보기에 할애하는 평균시간(모평균)이 타임지에 보고된 것과 다른지를 결정하기 원한다면 가설은 무엇인가?

b. p-값은 얼마인가?

c. 유의수준을 선택하시오. 결론은 무엇인가?

 

(해제)

a. ,

b. p-값을 구하기 위해서는 먼저 표본통계치 t의 값(모집단의 표준편차를 모르니 t-분포를 적용)을 먼저 구한다.

먼저 단측 검정의 p-값을 구하기 위해 t-값이 양수이므로 오른쪽 검정을 적용한다. 표본의 크기가 40이므로 자유도는 39. 단측 검정의 p-값은 0.061이다. 여기에 2를 곱하면, 양측검정의 p-값은 0.122.

c. 유의수준을 0.05로 선택하면, p-값 0.122는 유의수준보다 크다. 따라서 영가설을 기각할 수 없다. 이로부터 우리는 가정의학과 의사인 남성들의 평균적인 육아시간은 기혼 남성들의 평균적인 육아시간과 다르지 않다고 결론내릴 수 있다.

이상으로 단측검정과 양측검정을 비교해서 공부했다. 가설검정에 관한 세 개의 포스팅에서 영가설과 관련된 제1종 오류와 p-값 방식이 아닌 임계값 방식의 가설검정에 관한 논의를 뺐다. 다음 포스팅에서는 이에 대한 논의를 추가한다. (2019-10-12)

예제와 연습문제: 가설검정의 원리(중)

예제 1. 자동차 판매점의 관리자는 판매촉진을 위한 새로운 성과급을 고려하고 있다. 최근 월평균 판매량은 14대이다. 관리자는 새로운 성과급이 판매량 증가에 도움이 되는지를 알고 싶다. 성과급 도입에 따른 자료는 새로운 성과급 체제에서 한달 간 개인별 판매량을 표본으로 수집한다.

a) 이 상황에 가장 적합한 영가설과 대립가설을 세우시오.

먼저 대립가설은 “새로운 성과급 제도가 판매량 증가에 도움이 될 것이다”가 된다. 그렇다면, 최저 월평균 판매량()이 14대 이상이 될 것이다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “새로운 성과급 제도가 효과가 없을 것이다”가 된다. 그렇다면 최저 월평균 판매량은 이전과 같거나 그 이하일 것이니,

b) 영가설을 기각할 수 없을 때, 결론에 대해 설명하시오.

만약 영가설을 기각할 수 없다면, 새로운 성과급 제도가 판매량 증가에 도움이 될 것이라는 주장(즉, 대립가설)이 경험적 데이터에 의해 지지되지 않는다는 결론에 도달된다.

c) 영가설을 기각한다면 어떻게 결론 지을 수 있는 지 설명하시오.

반면에 영가설이 기각된다면, 새로운 성과급 제도가 판매량 증가에 도움이 될 것이라는 주장(즉, 대립가설)이 경험적 데이터에 의해 지지된다는 결론에 도달된다.

null hypothesis alternative hypothesis에 대한 이미지 검색결과

예제 2. 공장장은 현재의 생산방식의 운영에 시간과 비용이 많이 소요되므로 새로운 생산방식을 도입하여 원가를 줄여야 한다고 주장한다. 현재의 생산방식에서는 시간당 평균 $220의 비용이 발생한다. 이 조사에서 일정 기간을 표본으로 선택하여 새로운 생산방식으로 비용을 측정할 것이다.

a.조사에 가장 적합한 영가설과 대립가설을 세우시오.

먼저 대립가설은 “새로운 생산방식이 원가절감에 도움이 될 것이다”가 된다. 그렇다면, 시간당 평균 생산비용이 현재의 시간당 평균 $220보다 작게 될 것이다. 생산성 향상 효과가 0보다 클 것이기 때문이다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “새로운 생산방식이 원가절감에 도움이 되지 않을 것이다”가 된다. 생산성 효과가 0이 되거나 마이너스가 될 것이기 때문이다. 그렇다면,

a. 영가설을 기각할 수 없을 때, 결론에 대해 설명하시오.

영가설을 기각할 수 없다면, 새로운 생산방식이 원가절감에 도움이 될 것이다라는 대립가설은 실증적으로 지지되지 않는다고 결론 지을 수 있다.

b.영가설을 기각한다면 어떻게 결론 지을 수 있는 지 설명하시오.

반대로 영가설을 기각한다면, 새로운 생산방식이 원가절감에 도움이 될 것이다라는 대립가설이 실증적으로 지지된다고 결론 지을 수 있다.

null hypothesis alternative hypothesis cost reduction에 대한 이미지 검색결과

연습문제 1. 힐탑 커피(Hiltop Coffee)의 큰 캔에는 3파운드의 커피가 함유되어 있다고 표시되어 있다. FTC (Federal Trade Commission)는 정기적으로 통계조사를 실시하여 제조업체들의 주장이 사실인지를 확인한다. 만약 제품 표시가 잘못되었다고 판단되면 함량 미달과 상표 표시 위반으로 힐탑에게 벌금을 부과할 수 있다. FTC는 힐탑커피 캔의 함량 표시를 모집단의 평균 함량이 3파운드라는 주장으로 해석한다. 만약 힐탑 커피 캔에 관한 표본 조사에서 모집단의 평균 함량이 3파운드 이상이라고 추정되면 검사에서 통과가 되고 그렇지 않으면 검사에서 통과되지 못한다. FTC가 어떤 절차를 거쳐서 그러한 판단을 내리게 되는 걸까?

(해제)

1) 유의수준을 선택한다.

FTC는 엄격한 검사를 위해 신뢰수준 99%를 선택했다. 그렇다면 유의수준은 0.01이다.

2) 대립가설과 영가설을 세운다.

먼저 대립가설은 “모집단의 평균 함량이 3파운드 이상일 것이다”가 된다. 이 명제를 숫자로 표현하면,

이와 반대되는 영가설은 “모집단의 평균 함량이 3파운드 미만일 것이다”가 된다. 그렇다면,

3) 표본자료를 수집하고 검정 통계치를 계산한다.

FTC는 36개의 캔 커피를 표본으로 추출하여 표본평균 2.92 파운드를 얻었다. FTC는 모집단의 표준편차가 0.18이라는 사실을 알고 있고 모집단의 함량은 정규분포를 따른다고 가정한다.

모집단의 표준편차()를 알고 있음으로 z-분포를 적용하여 z-값을 구한다. z-값은 표본평균()의 z-분포(표집분포)에서 표본평균()이 모평균()으로부터 표준오차의 몇배만큼 떨어져 있는지를 구한다. 이를 공식을 적용하여 계산하면 아래와 같다.

영가설으로부터 도출한 모평균()은 3이고, 표본평균()은 2.92, 모표준편차()는0.18, 표본의 크기()는 36이다.각 값을 식(1)에 대입하여 z-값을 계산한다.

표본통계치 z는 -2.67이다.

4) p-값을 구한다.

p-값은 z가 -2.67 이하일 확률이다. 표준정규분포에서 z=-2.67의 왼쪽에 해당되는 부분은 0.0038이다(Probability Distributions라는 스마트폰 app을 사용하면 손쉽게 구할 수 있음).

5) p-값과 유의수준을 비교하여 결론을 내린다.

p-값 0.0038은 유의 수준 0.01보다 훨씬 작다. 따라서 영가설을 기각할 수 있다. 영가설이 기각되었음으로, 대립가설(모집단의 커피 평균함량이 3파운드 이상이다)이 경험적으로 지지된다고 결론을 내릴 수 있다.

연습문제 2. 다음의 가설검정을 생각해보자.

25개 표본의 표본평균 , 표본표준편차

a. 검정통계치 값을 계산하시오.

b. p-값을 계산하시오.

c. 일 때, 결론은 무엇인가?

 

(해제)

a. 모집단의 표준편차를 모르며 표본의 표준편차가 주어져 있고, 표본의 크기가 25이므로 t-분포를 적용하여 검정통계치 값을 계산한다.

b. 자유도 = 24, t = 2.3148일 때, p값은 0.01475

c. p-값 0.01475가 보다 작으므로, 영가설을 기각한다. 영가설이 참일 가능성이 매우 작은 것이다. 다르게 표현하면, 영가설이 참일 때 표본평균 14를 얻을 가능성이 매우 작다. 따라서 모평균이 12 미만일 것이라는 영가설을 기각하고 모평균이 12 이상일 것이라는 대립가설을 채택한다. 

 

연습문제 3.  다음의 가설검정을 생각해보자.

36개의 표본을 사용한 표본 결과가 다음과 같다. p-값을 계산하고, α=0.01 때의 결론은 무엇인가?

a.

b.

c.

 

(해제)

a. 표본의 크기가 36이므로 자유도는35. 모집단의 표준편차를 모르므로 t-분포를 적용하여 표본통계치(t) 값을 구한다.

자유도 = 35, t = -1.1538일 때, p-값은 0.12820. p-값이 0.01보다 크므로 영가설이 참일 확률이 기준보다 큼을 알 수 있다. 따라서 영가설을 기각할 수 없고 대립가설은 경험적으로 지지되지 않는다.

b와 c는 동일한 방식으로 풀면 되기 때문에 해제를 생략한다.

지금까지 푼 세 개의 연습 문제는 모두 소위 단측 검정에 해당된다. 다음 포스팅에서는 단측 검정과 양측 검정을 비교 설명하고 양측 검정의 사례와 연습문제를 풀어보기로 하자. (2019-10-10)

이론을 버리고 데이터를 선택한다: 가설검정의 원리(상)

조사 연구를 수행하다보면, 연구자의 이론, 가설, 믿음, 확신, 선입관, 혹은 예상이, 수집된 데이터를 분석한 결과와 종종 충돌한다. 이론이 가리키는 방향과 경험적 증거가 가리키는 방향이 자주 상충된다는 말이다. 그럴 때 연구자는 이론(으로부터 도출된 가설)이 아니라 데이터(의 분석결과)를 따른다. 그런 의미에서 통계학에서 우주의 중심–즉, 판단의 기준–은 데이터이다. 통계학이 지닌 그러한 특성을 가장 잘 보여주는 과정이 가설 검정(hypothesis testing)이다.

hypothesis test에 대한 이미지 검색결과

통계학은 모수 추정에 많이 사용되지만, 가설(hypothesis)을 검증하는데도 그에 못지 않게 자주 사용된다. 엄밀히 말하자면, 모수 추정과 가설 검정의 원리는 동일하며, 가설 검정도, 영가설로부터 도출된 모수가 인정할만한가를 데이터를 가지고 따지는 시도라는 점에서 근본적으로 모수 추정이라고 볼 수 있다. 이는 가설 검정을 이해하는 데 있어 핵심적인 문제도 아니고 그 자체가 다소 긴 설명을 필요로 하기 때문에 여기서는 바로 가설 검정에 대해 알아보자.

연구자는 누구나 연구문제(research question)를 갖고 연구를 시작한다. 가설(hypothesis)이란 어떤 연구문제에 대한 잠정적인 답변이다. 잠정적이라는 표현은 검증이 요구된다는 의미이다. 이는 마치 경찰관이나 검사가 “사건의 범인이 누구인가?”라는 의문을 가지고 수사를 시작하고 사건에 대해 감(?)을 잡거나 실마리를 찾게 되면, 용의자 혹은 피의자를 수사선상에 올려놓고 한 걸음 더 수사를 진행하는 것이나 크게 다르지 않다. 연구에 있어 가설은 수사에 있어 용의자(혹은 피의자)와 같다. 증거(데이터)에 의해 검증되어야할 대상이라는 점에서 말이다.

(참고로, 가설을 엄격한 절차에 따라 검증하지 않고 조사나 실험 결과를 조작하거나 결과를 왜곡하여서라도 가설을 입증된 것처럼 발표하는 행위는, 용의자(혹은 피의자)를 범인으로 단정하고 증거 조작이나 허위 자백을 통해서 그것을 뒷받침하려는 것이나 마찬가지이다. 둘 다 심심치 않게 발생하는 범죄 행위이다.)

ronald fisher에 대한 이미지 검색결과

20세기 가장 위대했던 통계학자로 간주되는 Ronald Fisher 경은 p-값(p-value)를 구해서 영가설(null hypothesis)을 검증하는 방식으로 연구자의 이론이나 가설을 검증하자고 제안했다. 그의 제안은 가설검정 이론으로 발전되었고 지금까지 표준적인 과학 방법으로 자리잡고 있다.

가설 검정은 대체로 다섯 단계로 진행된다.

1) 유의수준(significance level)을 선택한다. 어느 정도의 신뢰 수준(confidence level)에서 판단할 것인가의 기준을 정하는 것이다. 통상 95%의 신뢰 수준이 선택되나 연구 문제에 따라서는 90%가 선택되기도 하고 99%가 선택되기도 한다. 하지만 Fisher의 제안에 따라 20번 중 1번 정도의 오류를 허용하는 95%이 선택되는 경우가 대부분이다. 신뢰수준이 선택되면 신뢰계수가 결정되고, 신뢰계수가 정해지면 유의수준이 계산된다. 95% 신뢰수준이면, 신뢰계수가 0.95이고, 유의수준은 0.05(1-0.95로 계산된다)가 된다. 유의수준은 통상 로 표기한다.

2) 대립가설(alternative hypothesis)을 설정한다. 연구자가 연구를 통해서 증명하고 싶은 주장이 대립가설이 된다. 대립가설은 변수들 사이에 관계가 있다 혹은 실험 처지의 효과가 있다는 의미로 사용되며, 흔히 로 표기된다.

3) 모수에 대한 영가설(null hypothesis)을 설정한다. 영가설은 귀무가설이라고도 하며 대립가설에 반대되는 명제이다.  그렇지 않은 경우도 적지 않지만 영가설(null hypothesis)은 문자 그대로 변수들 사이에 서로 관계가 없다(확률적인 의미에서 상호독립적이다)든가 어떤 실험 처지(treatment)의 효과가 없다는 의미로 사용된다. 영가설은 흔히 이라고 표기된다.

통계적 가설의 세계에는 대립가설과 영가설, 딱 두 가지 종류의 가설 밖에 존재하지 않는다. 그리고 그 두 가설은 서로 반대되는 서술이다. 영가설이 긍정되면 대립가설은 의심되며, 영가설이 부정되면 대립가설은 지지된다. 통계학적 용어를 사용하자면, 검정에서 영가설이 기각되면, 대립가설이 긍정되고, 반대로 영가설 기각에 실패하면, 대립가설이 부정된다. 가설 검정은 항상 영가설 검정이라는 우회적인 방식으로 연구자의 주장(대립가설)에 대해 판단한다.

4) p(p-value) 구한다p-값은 영가설이 진실일때(예컨대 그림에서처럼 모수가 0일 때) 우리가 통계치(sample statistics)나 그보다 더 극단적인 값(extreme value)을 얻을 확률()을 가리킨다. 그림으로 나타내면 아래와 같다.  영가설이 참이라는 가설 아래 상정된 모수(예: μ)와, 표본에서 얻어진 표본통계치 z값(σ를 아는 경우)이나 t값(σ를 모르는 경우)을 계산하고 그것으로 p값을 도출한다.

p-value faith | Triangulations

위 그림은 확률분포인데 진한 회색으로 된 부분이 p-값(p-value)이다. p-value가 아주 작으면 영가설이 진실일 때 통계치나 그 이상의 극단적인 값을 얻을 확률이 아주 작다.

만약 표본조사나 실험으로부터 획득한 p-값이 아주 작으면, 영가설이 참인 상황에서 그러한 조사 결과를 얻을 가능성이 매우 희박하다는 의미이다. 그 경우 연구자는 영가설이 참이라는 가설을 버리던지 아니면 표본조사나 실험 결과를 의심하든지 양자택일을 해야 한다. 그런 상황에 놓이게 되면 연구자는 데이터를 믿고 영가설을 버린다. 그것이 통계학이란 세계의 질서이다. 그런데 p-값이 얼마나 작아야 작다고 판단할 수 있는가? 그래서 다음 단계가 필요하다.

5)  p-값과 유의 수준을 비교하여 결론을 내린다. 위 그림에서처럼 p값이 유의수준(통상 ) 보다 작으면 영가설을 기각한다(버린다는 통계학적 표현). 영가설이 참일 때 손에 쥔 데이터를 얻을 확률(간단히 말해 영가설이 참일 확률, 정확히 말하자면, 영가설이 참인데 기각할 확률)이 아주 작기 때문이다. 그러면 연구자의 주장(대립가설)이 데이터에 의해 지지받는다고 결론을 내린다. 만약 p값이 유의수준보다 크면 영가설을 기각하는데 실패한다(통계학적 표현이다). 그러면 (표본) 경험적 데이터가 연구자의 주장을 지지하지 않는다고 결론을 내린다 

hypothesis testing에 대한 이미지 검색결과

경험과학에서는 이렇게  자기의 주장을 직접 검증하지 못하고 우회적으로 검증할 밖에 없다. 영가설 검증을 통해서 대립가설을 우회적으로(어떻게 말하면 겸손하게) 검증하는 것이다. (2019-10-09)

조건부 확률과 결합확률, 어떻게 구분할 것인가

다음 교차표는 미국 어느 도시에서 경찰관들이 2년 동안 승진한 현황을 담고 있다.

다음 질문에 답해 보자.

  1. 남자 경찰관이 승진할 확률은?
  2. 여자 경찰관이 승진할 확률은?
  3. 승진한 남자 경찰관의 비율은?
  4. 승진한 여자 경찰관의 비율은?

먼저 사건을 정의하자. 남자 경찰관: M, 여자 경찰관: W, 승진: A, 승진탈락:

이 질문들에 답하기 위해서는 이 교차표로부터 결합확률표를 만들어야 한다. 승진한 남자 경찰관은 288명이며, 승진한 여자 경찰관은 36명이다. 승진한 남자 경찰관의 비율이 남자 경찰관 사건과 승진 사건의 결합확률이다. 즉,

여자 경찰관과 승진의 결합확률은,

이는 곧 승진한 여성 경찰관의 비율이다. 남자 경찰관과 승진탈락의 결합확률, 그리고 여자 경찰관과 승진탈락의 결합확률은 각각 아래와 같다.

결합확률표에 들어가는 주변확률은 각 사건의 비율이다. 즉, 남자 경찰관의 비율(0.80), 여자 경찰관의 비율(0.20), 승진의 비율(0.27), 승진탈락의 비율(0.73)이다. 이 확률들을 가지면 다음과 같은 결합확률표가 만들어진다.

남자 경찰관이 승진할 확률을 보다 확률적으로 표현하면, 만약 어떤 경찰관이 남자라면 그가 승진할 확률은 얼마인가가 될 것이다. 이는 조건부 확률, 이다. 선행 사건(혹은 조건 사건)이 남자 경찰관(M)이고, 후행 사건이 승진(A)이다. 두 사건이 시간적으로 순차적으로 발생한 것임을 알 수 있다. 이를 나무 그림으로 표현하면 다음과 같다.

이 나무 그림을 보고 확률을 생각하면 훨씬 직관적이다. 먼저 경찰관 1명을 무작위로 추출하였을 때 그가 남자 경찰관일 확률은 0.8이고, 여성 경찰관일 확률은 0.2이다. 이것이 남자 사건과 여자 사건의 주변확률이다. 또한 어떤 경찰관을 무작위로 추출하였을 때 그가 승진한 남자 경찰관일 확률은 0.24, 승진한 여자 경찰관일 확률은 0.03이다. 이것은 남자 사건과 승진 사건, 여자 사건과 승진 사건의 결합확률이다. 이는 위에서 제기한 질문 3과 4에 대한 답이다.

그리고 질문 1, 남자 경찰관이 승진할 확률은 0.3이고, 질문 2, 여자 경찰관이 승진할 확률은 0.15이다. 이것은 남자 사건이 주어졌을 때 승진 사건이 발생할 조건부 확률, 그리고 여자 사건이 주어졌을 때 승진 사건이 발생할 조건부 확률이다.

물론 어떤 경찰관이 승진하였을 때 그가 남자일 확률도 조건부 확률이다. 계산해 보면 다음과 같다.

사실 조건부 확률에서 선행 사건과 후행 사건은 시간적 순서이라기보다 논리적 순서라고 보는 편이 맞을 것이다. 여하튼 조건부 확률에는 순서가 있다. 반면에 결합확률은 동시적이다. 즉, 순서가 없다. (그래서 결합확률은 동시확률이라고 불리기도 한다.) 이점도 기억해두면, 어떤 명제(혹은 문제)가 결합확률을 가리키는지 아니면 조건부 확률을 가르키는 지를 구분하는 데 도움이 될 것이다.

문제가 주어졌을 때 그것이 조건부 확률에 대한 질문인지 아니면 결합확률에 대한 질문인 지를 학생들이 잘 혼동하는 것 같아 조금 자세히 설명해 보았다. (2019-09-10, 윤영민)

현대의 정치, 무엇이 문제인가?(2)가치 배분

정치에서 권력투쟁과 가치배분이라는 두 측면 중 어느 쪽이 더 중요할까? 매일 매일 접하는 언론의 정치 관련 뉴스를 보면, 권력투쟁에 관한 뉴스의 양이 가치배분에 관련된 뉴스의  양을 압도한다. 그것을 기준으로 판단한다면 전자가 후자보다 분명히 중요해 보인다.

그러나 뉴스에는 언론이라는 매개체의 관점과 이해가 관여되어 있음을 기억하자. 뉴스에서 보이는 비중의 차이는 두 가지 다른 원인 때문일 수 있다. 정말로 권력투쟁이 가치배분보다 중요하기 때문에 그런 결과가 나왔을 수도 있고, 언론이, 가치배분보다 권력투쟁이 더 많은 뉴스 가치가 있다고 생각하기 때문일 수도 있다. 이중 어떤 쪽이 더 진실에 가까운지는 쉽게 단언할 수 없다. 다만 언론사들이 시청률과 조회수에 목을 매는 최근의 현상을 볼 때 후자 쪽이 더 진실에 가깝지 않나 생각된다. 아무튼 눈에 보이는 것이 전부가 아니다라는 금언이 정치 뉴스보다 더 잘 들어맞는 경우는 없지 않나 싶다.

조국 교수가 법무부장관 후보자로 지명되고 나서 언론의 집중적 조명을 받은 가장 핫한 뉴스는 조국 교수의 딸이 동양대학교에서 받은 표창장에 관한 것이었다. 반면에 후보자의 능력이나 소신은 고사하고 후보자 자신의 비리나 부정에 관한 뉴스는 거의 찾아볼 수 없었다. 혹시 이 현상이 언론의 센세이셔널리즘 때문은 아니었을까? 물론 일부 야당이나 검찰의 권력 투쟁 아젠다 때문이기도 하겠지만 말이다.

가치 배분의 측면에서 우리 정치는 무슨 일을 하고 있을까? 언론 뉴스를 아무리 뒤져도 이 의문에 대한 적절한 해답을 찾을 수 없다. 다음은 국회의 의안정보시스템에서 찾은 20대 국회에서 진행되고 있는  법제정 현황이다.

제20대 국회가 개원된 이래 현재까지 총 2만1천578건의 법안이 발의되었고, 그중 6천350건이 처리되었다. 국회의원들이 싸움만 하는 줄 알았는데 그것은 아님을 알 수 있다. 물론 그 중에는 싸우다가 회기 막판에 무더기로 통과된 법률안도 적지 않겠지만 법률안을 만들거나 검토하기 위해 많은 국회의원들이 활동하고 있음이 분명하다. 이를 보면 일은 안하고 쌈질만 한다고 비판을 들으면 억울해야할 정치인들이 적지 않을 것임을 짐작할 수 있다.

의안정보시스템을 검색하면 위 법안들의 내용을 찾아볼 수 있다. 아래는 검색 결과의 일부이다(아래 그림을 클릭하면 의안정보시스템에 들어갈 수 있다).

맨 위에 올라온 법안 명칭을 몇 개만 일별해도 정치가 ‘가치의 배분’이라는 의미가 물씬 다가온다. 한국농어촌공사 및 농지관리기금법 일부개정법률안(대안), 자유무역협정 체결에 따른 농어업인 등의 지원에 관한 특별법 일부개정법률안(대안), 화훼산업 발전 및 화훼문화 진흥에 관한 법률안(대안), 수의사법 일부개정법률안(대안), 양봉산업의 육성 및 지원에 관한 법률안(대안) 등. 농림축산식품해양수산위원회가 소관위원회인 법안들이 맨 위에 놓여서 그 분야에 관련된 법률들이기는 하지만 법안 하나 하나가 관련된 산업, 기업, 당사자의 활동과 수입에 중대한 영향을 미치는 것들임을 쉽게 가늠할 수 있다.

법치주의 국가에서 공직자는 누구나 반드시 법에 근거해서 업무를 수행해야 한다. 사회의 각 부문이나 분야를 규제(혹은 지원)하는 개별법말고도 국가기관이 업무를 수행하는데 필요한 예산을 결정하는 정부의 예산안도 매년 통과되어야 하는 법률이다. 법에 근거하지 않고 어떤 공직자도 기관 예산을 지출할 수 없다.

그런데 어떤 법도 쉽게 만들어지지 않는다. 헌법과 같은 상위법과 어긋나지 않아야 하고 그 법에 영향을 받게 될 관련 당사자들 사이의 이해관계도 조정되어야 하며, 예산 지출이 따르는 경우 정부 예산 편성에 포함되어야 하기 때문이다. 그 과정은 정부가 발의하던 의원이 발의하던 별로 다르지 않다. 그래서 국회에서는 위원회, 포럼, 세미나, 공청회 등이 연중 개최된다.  그리고 그중 아주 일부 활동만이 언론의 조명을 받는 행운을 누린다.

입법 활동 중 어떤 것이 기사화되는가는 거의 전적으로 언론사의 판단에 의해 좌우된다.  언론사의 판단에 있어서 해당 법안의 사회적 혹은 정치적 중요성이 고려되겠지만 그 이상으로 중요한 요소는 독자나 시청자 인터넷 이용자들의 주목을 받을 수 있느냐이다.

이제 권력투쟁으로서의 정치가 지닌 모습을 살펴보자. (2019-09-07, 윤영민)

현대의 정치, 무엇이 문제인가?(1) 정치의 정의

정치에 대해 논의하려면 먼저 정치가 무엇인지부터 정의해야 한다. 어떤 사회에서나 정치는 중요할 뿐 아니라 그 과정이 복잡하고 그 결과가 다양하다. 때문에 정치의 어떤 측면에 주목하는가에 따라 정치에 관해 대단히 다른 해석과 입장을 낳을 수 있다. 일단 정치를 분명하게 정의를 해두어야 적어도 우리가 논의하는 대상이 일치할 수 있다. 정치를 간략하게(그렇다고 대충하자는 것은 아니다) 정의해보자.

politics에 대한 이미지 검색결과

정치(politics)는 ‘권력 투쟁’과 ‘가치 배분’이라는 두 가지 측면을 지니고 있다. 국가 권력을 장악하기 위해 벌어지는 온갖 투쟁, 협력, 담합, 선거운동, 투표, 전쟁, 외교 등이 권력 투쟁에 해당되고, 법 제정이나 행정 명령을 통해서 사회적 가치의 생산, 유통, 분배에 관여하는 것이 가치 배분에 해당된다.

물론 현실에서 정치가 칼로 두부를 자르듯이 깔끔하게 그 두 측면으로 분리될 수 있는 것은 아니다. 권력 투쟁의 결과는 가치 배분의 원칙과 방식에 영향을 미치고, 가치 배분의 결과는 다시 권력의 향방에 영향을 미치기 때문이다. 그것은 정치에 대한 분석적인 구분일 뿐이다.

authoritative allocation of social value에 대한 이미지 검색결과

정치를 국가 권력을 중심으로 이해하는 사람들은 정치를 권력 투쟁으로 여기는 경향이 있고, 정치를 그것이 지닌 사회적 기능 혹은 역할을 중심으로 이해하는 사람들은 정치를 가치 배분으로 바라보는 경향이 있다. 독일의 사회학자 막스 베버(Max Weber, 1864~1920)에 의하면, 정치란 “국가들 사이에서 혹은 국가내의 집단들 사이에서 권력에 참여하고자 하거나 권력의 배분에 영향력을 행사하고자 하는 노력을 뜻한다(임영일, 차명수, 이상률 편역, 1991:  208).” 그는 정치의 권력 투쟁적 측면에 주목한 것이다. 반면 미국의 정치학자 데이비드 이스턴(David Easton, 1917~2014)에 의하면, “정치란 한 사회를 위한 가치의 권위적 배분”이다. 한 사회가 하나의 체계(system)이고 정치는 그것의 하위 체계라는 인식이다. 투입(input)과 산출(output)이 있는 하나의 체계로서 정치는 사회의 존속에 있어 일정한 기능을 수행하고 있다는 것이다. 마치 우리 몸에서 머리나 팔다리가 일정한 기능을 수행하고 있듯이 말이다.

일단 이 정도의 정의를 가지고 정치를 분석해 보자. (2019-09-06, 윤영민)

추세선(Trend line)의 매력(3)

추세선이 가격의 변동 방향을 가리키는 수단으로 사용될 때는 앞에서 소개한 관계나 패턴을 발견하는 일반적 도구와는 다소 다른 모습으로 사용된다. 뭐, 크게 복잡한 내용은 없다. 누구든 몇 가지만 인지하면 추세선을 바로 실전에 사용할 수 있다.

  1. 추세선은 시간의 흐름에 따라서 가격이 움직이는 방향을 가리킨다.
  2. 추세선은 시간적으로 최소한 두 지점을 연결한다.
  3. 가격의 변동 방향이라는 관점에서 추세선은 크게 세 가지가 있다: 하락 추세선(downtrend), 상승 추세선(uptrend), 보합(혹은 횡보: sideway). 하락 추세선은 곰 추세(bearish trend), 상승 추세선은 황소 추세(bullish trend)라고도 불린다.
  4. 고점(highs)연결하여 구성한 추세선을 저항(resistance) 선이라고 부르고, 저점(lows)을 연결하여 구성한 추세선을 지지(support) 선이라고 부른다.
  5. 가격의 흐름이 상승에서 하락, 반대로 하락에서 상승으로 바뀌는 것을 반전(reversal)이라고 부른다.

이상을 다음과 같이 그림으로 표시할 수 있다.

위 그림은 상승 추세(uptrend)를 보여주고 있다. 그래프의 상부 꼭지점(고점이라고 부른다)들을 연결하여 붉은색 추세선이 만들어졌는데 그것은 저항(resistance) 선을 나타낸다.  그래프의 하부 꼭지점을 연결하여 파란색 추세선이 만들어졌는데 그것은 지지(support) 선을 나타낸다.

아래 그림은 하락 추세(downtrend)를 보여주고 있다. 상승 추세의 경우와 방향만 다를 뿐 추세선을 그리는 방법은 동일하다.

아래 그림에서 보듯이 상승 추세는 황소의 뿔처럼 생겼다고 해서 황소선(bullish trend)이라고 부르고, 하락 추세는 곰의 등처럼 생겼다고 해서 곰선(bearish trend)라고 부른다.

아래 그림은 저항선과 지지선의 의미를 보여준다. 그래프에서 저항선을 넘어서 가격이 상승한 경우가 두 번 있다. 그 경우 우리는 그 가격이 다시 하강하리라 예상한다. 주식의 가격이 저항선을 넘어서 오르면 저항(?)을 받아서 다시 떨어지게 된다는 의미에서 이름이 저항선이다.

반대로 지지선 아래로 주식의 가격이 여러 차례 떨어졌다. 그 경우 가격이 다소 상승하리라는 예상이 가능하다. 무언가가 받쳐주고 있는 것처럼 말이다. 그래서 이름이 지지선이다.

주식 가격은 캔들스틱 차트와 추세선이 함께 사용되는 경우가 흔하다. 캔들스틱 차트는 다섯 가지 정보를 가지고 작성된다. 몸통(real body)이라고 부르는 부분은, 가격이 떨어졌을 때는 시가(opening price)가 맨 상단이 되고, 종가(closing price)가 맨 하단이 된다. 가격이 올라갔을 때는 종가가 상단, 시가가 하단이 된다.

아래 그림에서 가격이 떨어진 경우는 붉은 막대로 표시되고 가격이 올라간 경우는 초록색 막대로 표시되었다. 그 둘을 하얀색과 검정색으로 표시할 수도 있으나 중요한 점은 색으로 가격 하락과 가격 상승을 구분한다는 것이다. 몸통에 해당되는 막대를 보면 윗쪽과 아래쪽에 가는 선이 그려져 있다. 윗선(wick, 심지)의 끝은 장중최고가를, 아랫선(tail,  꼬리)의 끝은 장중최저가를 표시한다. 이렇게 해서 막대와 가는선은 특정한 장(예컨대 1일장)의 시가, 종가, 최고가, 최저가, 그리고 가격의 상승(혹은 하락)이라는 주요 정보를 모두 보여준다. 이 캔들스틱을 연결하여 추세선을 그리기도 한다.

아래 그림은 캔들스틱차트를 가지고 추세선을 그린 사례이다. 추세선을 그리는 두 가지 방법이 있다. 하나는 캔들스틱의 심지끝(장중최고가)을 연결해서 그리는 방법, 다른 하나는 몸통 상단(가격하향 추세인 경우 시가, 붉은색 몸통의 상단)을 연결하여 그리는 방법이다. 어느쪽을 선택하든 일관성을 유지해야 한다. 아래 그림에서 하얀색 번호 1과 2를 연결한 추세선을 보면 X 표가 된 시점을 지나가면 더 이상 유효하지 않다. 만약 그 이후의 시점들에도 유효한 추세선을 그리려면 숫자 1을 노란색 숫자 2와 연결해야 한다. 어느 지점을 연결해서 추세선을 그리느냐는 분석자의 판단에 달려 있다. 

이상으로 간략히 가격 추세선과 캔들스틱차트를 살펴보았다. 이 정도의 지식을 갖고 주식변동 차트를 관찰해도 어느 시점에서 주식을 사고 팔 것인지를 결정할 수 있다. 문제는 국면이 하락 추세일 일부인지, 상승 추세의 일부인지, 아니면 하락 추세 중의 일시적 상승 국면인지 혹은 상승 추세 중 일시적 하락 국면인지, 아니면 하락 추세에서 상승 추세로 돌아서는 반전 국면인지에 대한 판단에는 불확실성과 리스크가 따른다는 점이다.

그래프는 그런 판단에 약간의 도움이 되는 것 뿐이다. 주식 투자의 성패는 올곧이 투자자의 판단과 선택에 달려 있다.

이상으로 추세선에 대한 소개를 마친다. 추세선(혹은 추세선 분석)은 전문적인 통계 지식 없이도 누구나 사용할 수 있는 도구이다. 특히 엑셀은 아주 손쉽게 추세선을 그릴 수 있게 해준다.

추세선(Trend line)의 매력(2)

선형적합에 가장 널리 사용되는 방법은 OLS(Ordinary Least Sqaures, 최소자승법)이다. 간단히 말하자면, 독립변수의 각 값에서 직선에 의해 예측된 점으로부터 관측점까지의 거리를 제곱하여 더한 값을 최소화(최소자승의 의미)하는 추세선이다.

위 그림은 어떤 음향기기 대리점에서 광고횟수에 따른 음향기기 판매액의 변동을 기록한 것이다. 왼편 상단의 표를 보면, 첫 주에는 2회 광고를 냈고, 50달러의 매출을 올렸다. 둘째 주에는 5회 광고를 냈고, 57달러의 매출을 올렸다. 3주차에는 1회 광고에 41달러, 4주차에는 3회 광고에 54달러의 매출을 올렸다.

위 그림의 오른편에는 이 데이터가 그래프로 표현되어 있다. 이 그래프는 주차는 무시하고 광고횟수와 매출액의 관계를 보여주고 있다. 그래프를 보면 1회 광고를 냈을 때 41달러 매출을 올리기도 하고 38달러 매출을 올리기도 했다. 2회 광고를 냈을 때 50달러를 올리기도 하고 46달러를 올리기도 했다. 3회 광고를 냈을 때는 54달러를 올리기도 했고, 48달러를 올리기도 했다.

엑셀에서 이 그래프에 추세선을 그렸더니 파란색 점선이 나타났다. 수식으로 표현하니  이다. 그냥 눈으로 봐도 이 추세선은 광고횟수(x)와 매출액(y) 사이의 관계를 잘 대표하는 것 같다.

이 추세선으로 예측된 y 값을 구하려면, 위 식에 1, 2, 3, 4, 5를 각각 넣으면 된다. 아래는 그렇게 해서 구한 예측된 매출액, 그리고 그것과 실제 매출액과의 차이인 오차가 제시되어 있다. 그 오차를 제곱하여 더한 값이 오차제곱의 합 75.95(달러)이다.

이 값은 ‘최소자승’의 정의상 자승값 중 최소이기 때문에 다른 어떤 직선을 그려도 오차제곱의 합이 이보다 작을 수는 없다. 이 추세선은 회귀선(regression line)이라고도 불리는데 구하는 과정은 다음과 같다.

오차(error)란, 주어진  값에서 실제로 관찰된  값과,  라는 방정식(직선의 식)을 통해서 추정된 의 값(), 즉,

과의 차이()를 말한다.

아래 그림에서 별로 표시된 것은 관찰값이고 회귀-추세선의 예측값으로부터 거리–중괄호로 표시된 부분–가 편차(오차, deviation, error)이다.

이 오차의 제곱을 모두 더하여 얻어지는 수, 즉, 오차제곱의 합(sum of squared errors, SSE),

를 최소화한다는 기준을 만족시키는 식 (1)의  (절편)와 (기울기)을 구하는 것이다.

식 (2)에 식 (1)을 대입하면,

이 식을 최소화하는 와 를 구하기 위해서는 두 미지수에 대해 편미분을 하고 각각을 0으로 놓고 풀면 된다.

먼저 절편 에 대해 식 (3)을 편미분해 보자.

이 식의 양변을 -2로 나누고 시그마에 관해 정리하면,

여기서 이므로, 그것을 좌변에 놓고, 나머지 항을 우변으로 이항한다.

양변을 으로 나누면,

여기서 는 의 평균 이고, 는 의 평균 이므로, 결국

가 된다.

다음 기울기 에 대해 편미분 하자.

이 식의 양변을 -2로 나누고 괄호를 풀면,

식 (6)을 식 (7)에 대입하고 정리하면 약간의 복잡한 계산을 거쳐서 아래 식을 얻는다.

데이터를 가지면 (8)을 풀 수 있고, 거기서 얻은 기울기 의 값을 (6)에 대입하고 데이터로부터 X의 평균과 Y의 평균을 구해서 대입하면 절편 를 구할 수 있다.

도출 과정에 합성함수의 편미분, 시그마의 편미분이 포함되어 있어 다소 복잡한 수학적 표현이 되었다. 다행히 그 도출과정을 모두 이해하지 못한다고 하더라도 엑셀에서 데이터를 가지고 좌표상에 분포를 표시한 후에 아래 그림처럼 추세선 옵션 창에서 선형 추세선과 ‘수식을 차트에 표시하기’를 선택하면 그것을 손쉽게 구할 수 있다. 만약 선형(직선) 추세선이 데이터를 적절히 요약하지 못한다고 생각되면, 지수, 로그, 다항식, 이동평균 등 다양한 모습의 추세선을 적합할 수 있다.

현실에서 추세선은 주식, 암호화폐, 금, 선물 등의 투자에 널리 활용된다. 그 때 추세선은 해당 상품의 가격 변동의 방향을 의미한다. 근본은 통계학에서의 추세선과 다르지 않지만 개념과 용어가 다르기 때문에 다음 포스팅에서 간략히 소개하겠다.

추세선(Trend line)의 매력(1)

대학에서 통계학 수업을 수강하면, 대체로 한 달 이내 그래프(graph)를 배우게 된다. 아마도 그래프가 데이터를 요약하기 간편하고 프리젠테이션에 효과적인 도구이기 때문이 아닐까 생각한다.

그렇다고 통계학에서 그래프가 좋은 대우를 받았던 것은 아니다. 수식과 숫자에 약한 초보자 혹은 비전공자에게 통계적 발견을 소개하거나 통계분석 결과를 집약해서 보여주는 도구 정도로 간주되는 게 보통이었다. 한 마디로 통계에서 그래프는 부수적인 수단 혹은 주변적 도구에 불과했다. 탁월한 통계학자였던 John W. Tukey는 예외라고 할 수 있겠지만, 그 마저도 그래프를 데이터를 탐색해서 가설을 끌어내는 수단 정도로만 생각했다(Exploratory Data Analysis를 참조하시오).

사실 결코 그래프가 수식이나 숫자만큼 엄격하고 치밀한 표현 수단일 수는 없을 것이다. 더구나 거의 항상 한 줌에 불과한 표본(sample) 데이터를 손에 쥐고 모수(parameters)를 추정해야 했던 통계학자들에게 데이터의 그래프적 표현이란 기껏해야 데이터를 탐색하거나 분석 결과를 전달하는 수단에 불과했을 것임에 분명하다.

그러나 데이터의 시각화(data visualization)–그래프를 그리는 것을 요즘은 이렇게 표현한다–는 그것이 지난 단점(엄격하지도 치밀하지도 못하다)에도 불구하고 빅데이터 시대에 각광받는 분야가 되었다. 아마도 강력한 두 가지 매력 때문일 것이다.

첫째는 직관성이다. 특히 두 변수의 관계나 한 변수의 시간에 따른 변화를 보여주는 데 그래프보다 더 직관적인 도구는 없을 것이다. 상관계수처럼 숫자 하나로 보여줄 수 있지만 그것은 범주형 변수(categorical variable)에는 사용할 수 없고, 교차표(cross-table)처럼 하나의 표로 보여줄 수도 있지만 수치형 변수의 경우 정보를 잃으면서 범주형 변수로 변환해야 하는 약점이 있다.  특히 하나의 변수가 시간에 따라 변해가는 모습을 직관적으로 느끼게끔 보여주는 데는 그래프가 최고임에 틀림없다.

위 그래프는 통계청에서 다운로드 받은 데이터를 가지고 엑셀로 그린 것이다. 우리 경제가 약 65년 동안 세 해(1980년, 1998년, 2008년)를 제외하고 눈부시게 성장했음을 이보다 더 잘 나타낼 수 있는 방법이 있을까 하는 의문이 들 정도 인상적이다.

둘째는 소음 제거 능력이다. 이는 엄격하지 못하다는 단점이 장점으로 작용하는 점이다. 두 변수 사이의 관계나 어떤 변수의 변동 패턴을 파악하는 데 있어서는 디테일이 장애 요인이 되곤한다. 디테일에 집착하면 데이터 마이닝에서 말하는 과적합(overfitting)의 함정에 빠지게 된다. 디테일을 반영한 모형(model)은 그 모형을 훈련시키는 데 사용한 학습 데이터에는 대단히 잘 적합하겠지만 일반성이 떨어져서 모형의 예측력이 약하게 된다는 말이다.

 

위 그래프는 2010년 3월 10일부터 5월 12일 사이 약 두 달 동안 인텔주식의 가격이 어떻게 변동했는 지를 보여준다. 붉은 색의 선은 엑셀에서 3차 다항식을 적용해서 추세선을 그린 것이다. 그래프 메뉴에서 추세선 서식 –> 추세선 옵션 –> 다항식 3차수를 선택하면 그려진다. 그 추세선이 주가의 변동을 썩 잘 나타내주고 있다고 생각되지는 않지만 다른 추세선에 비하면 상대적으로  우수한 편이다.

그래프의 직관성과 소음제거능력이라는 두 가지 장점은 빅데이터에서 특히 빛이 난다. 데이터의 양이 많아지면 신호(signals) 대 소음(noises)의 비율이 높아지고, 그 때문에 직관적으로 변수 사이의 관계를 추정하거나 하나의 변수에 존재하는 패턴이나 트렌드를 찾기 어렵게 된다. 그래프는 거칠기는 하지만 과감하게 데이터에 숨겨진 패턴을 드러내 준다.

그러한 장점을 지닌 그래픽 기법 중 하나가 바로 추세선(trend line: 영어 표현 그대로 트렌드 라인이라고도 부름)이다. 위 사례에서처럼 추세선이 다차 함수 행태를 취할 수도 있지만 대체로 1차나 2차 함수이다.

특히 1차함수 직선이 자주 사용된다. 데이터의 숨은 패턴을 잘 보여주는 직선을 데이터가 분포된 좌표에 표시하는 것을 선형 적합(linear fitting)이라고 부른다. 선형적합은 두 변수(혹은 그 이상의 변수들)로 구성된 데이터의 추세선을 그리는데 가장 널리 사용되므로 포스팅을 바꾸어 소개한다.