과소 추정과 자유도

어떤 사회 현상이나 자연 현상을 탐구할 때 우리는 그 현상 전체(즉, 모집단)가 지닌 속성에 대해 관심을 갖는다.  그런데 현상 전체를 관찰하는 일은 현실적으로 불가능한 경우가 대부분이다. 모집단 전체를 관찰하는 것은 물리적으로나 시간적으로, 그리고 재정적으로 현실적이지 않다. 그런 의미에서 모집단이란 현실이라기 보다 관념이나 상상이라고 해도 과언이 아니다.

빅데이터 시대라고 별로 다르지 않다. 현상에 관한 데이터가 아무리 많더라도 그것이 현상 전부, 즉, 모집단 데이터라고 간주할 수는 없기 때문이다. 모집단이 무한할 수 있고, 항상 변화 중일 수도 있으며, 동시적인 관찰이나 기록이 불가능할 수도 있다.

그래서 표본 통계치를 통한 모수 추정은 여전히 유효하고 중요한 탐구 방법이다. 모수 추정이란, 작은 크기의 표본을 추출하여 표본 통계치(sample statistics)를  구한 다음 그것을 가지고 모집단의 속성(흔히 모수, parameter라고 부른다)을 추정하는 방법이다. 모수 추정을 통해서 통계학은 모집단을 추상적 관념에서 손에 잡히는 현실로 바꾸어 주는 셈이다. 추리 통계(inferential statistics)가 하는 역할이 바로 그것이다.

관련 이미지

 

그런데 모수를 추정하는 데 사용되는 추정 통계치는 세 가지 조건을 갖추어야 한다. 첫째, 통계치는 불편의적(unbiased)이어야 한다. 통계치가 모수보다 지속적으로 작게 나온다든지 지속적으로 크게 나오면 안된다. 통계치가 표본에 따라 아무리 요동을 치더라도 그것의 기대값은 모수와 같아야 한다. 표본 평균이 대표적인 불편의적 통계치이다. 즉, 표본평균의 기대값은 모평균이다.

둘째, 일관적(consistent)이어야 한다. 무작위 표본의 크기가 커지면, 표본 통계치가 모수에 가까워져야 한다. 통계학 교과서에 나오는 모든 통계치는 일관적이다.

셋째, 상대적으로 효율적(relatively efficient)이어야 한다. 통계치가 표본에 따라 크게 변하지 않아야 한다는 말이다. 통계치들 중 표준오차가 작은 것이 효율적이다. 예컨대 정규분포에서는 평균이 가장 효율적이다.

자유도(degree of freedom)는 위의 첫번째 속성인 불편의성에 관련되어 있다. 분산을 보자. 분산은 아래 공식에서처럼 편차제곱의 합을 가지고 구한다. 모집단(크기가 N)인 경우 편차제곱의 합을 모집단의 크기로 나누면 된다.

그런데, 만약 를 알지 못하기 때문에 를 알지 못한다면, 표본으로부터 평균과 분산을 모두 추정해야 한다. 그때 문제가 발생한다. 표본 평균 는 편차제곱의 합, 을 최소화한다.  즉, 어떤 다른 수를 대입해도 편차제곱의 합이 표본 평균의 경우보다 크다. 그것은 설령 그 수가 모평균, 라도 마찬가지이다. 만약 위 공식을 그대로 사용해서 표본 분산을 구하고 그것으로 모분산을 추정할 경우 과소 추정을 벗어날 수 없다. 표본 분산은 모분산보다 작게 된다는 말이다.

이 공식으로 표본분산을 구하면, 가 된다. 그러면, 표본분산은 추정 통계치가 갖추어야 할 첫번째 조건을 충족하지 못한다. 표본 분산이 편의적 추정치가 되는 것이다.

표본 평균과 표본 분산을 모수 추정에 사용하기 위해서는 반드시 과소 추정의 약점을 보완해야 한다. 통계학자들은 아래 식처럼 편차제곱의 합을 표본의 크기 대신 자유도 로 나누어주면 불편의 추정치 표본분산을 얻을 수 있음을 발견했다.

그렇다면 자유도는 무엇인가? 자유도는 통계학을 배우는 학생들에게 가장 난해한 개념 중 하나이다.

자유도(degree of freedom)란 어떤 통계값을 구하는데 있어 자유롭게 변할 수 있는 값의 갯수이다. 이게 도대체 무슨 말인가?

예컨대, 세 개의 수가 있는데, 그 세 수의 평균()이 주어져(즉, 고정되어) 있다면, 그 세 수 중 두 개가 정해지면 나머지 하나는 자유롭게 변할 수 없다. 만약 평균이 2이고, 이 1이고, 가 1이면, 는 반드시 4가 되어야 한다. 이 경우 자유도(통상 df라고 표기한다)는 2이다. 분산()을 보자. 분산이란 한 표본이 얼마나 퍼져있는지를 보여주는 통계척도이다. 분산을 구하려면 표본의 각 값에서 평균을 뺀 값을 제곱하여 더하고 표본의 크기()로 나누어주면 될 것이다. 그런데, 평균이 먼저 구해져야 분산을 구할 수 있다. 그런데 위에서 보듯이 평균이 정해지면 자유도 하나를 잃는다. 따라서 분산의 자유도는 이다. 만약 편차의 제곱을 으로 나누면 분산을 과소추정하게 된다. 표본 분산이 모 분산을 과소 추정하는 것을 막기 위해서는 편차의 제곱을  대신 로 나누어야 한다. 즉, 불편의성을 확보하기 위해 자유도로 보정해 주는 것이다.

자유도는 다소 다른 용도로도 사용된다. 모집단의 평균과 분산을 둘 다 모르면 모평균의 구간 추정을 할 때 분포를 적용하는데, 그 분포는 아래 그림에서처럼 자유도의 값에 따라 사뭇 다른 확률분포를 갖는다.  이런 의미에서  분포 하나의 분포라기보다 한 계열의 분포라고 말하는 편이 정확할 것이다.

교차표(cross-table)를 분석할 때 적용하는 카이자승() 분포도 자유도에 따라 상당히 다른 모양을 갖는다(아래 그림 참조).

chi-squared distribution에 대한 이미지 검색결과

이상으로 자유도에 대한 개괄적인 설명을 마친다. (2019-09-19, 윤영민)

가을 입문

화훼단지에 가서 가을꽃을 사왔다. 오늘 비가 내린다니 어제 서둘러 심으려는 것이었다.

앞뜰의 꽃마차에 전시한 화분을 갈았다. 큰 마차에는 펜타스를, 작은 마차에는 소국 화분을 올렸다. 지나가는 이웃 아주머니들이 좋아하실 것이다.

꽃마차의 펜타스와 소국

테라스의 꽃도 가을 정취가 나도록 보라빛 소국 화분을 추가했다. 아직 꽃들이 만개하지 않았지만 조금 있으면 소국, 용담, 카멜레온이 소담스럽게 피어날 것이다.

테라스의 소국, 용담, 카멜레온(채송화)

앞 도로와 마주한 경계화단에는 지난 봄에 이식한 백공작과 보라공작, 남천이 가득하다.

경계화단의 백공작과보라공작
대문, 남천, 영산홍,보라공작, 백공작

이제 잔디를 몇 번만 잘라주면 올해가 갈 것이다. 한여름처럼 잔디가 쑥쑥 자라지 않는다. 어제는 앞뜰 잔디를 잘랐다.

앞뜰과꽃마차

1986년 생애 첫 차 구입 – Chevy Monza

옛날 사진들을 보다가 몇몇 사진을 챙겼다. 그중 하나.

USC, Columbia, SC, USA, 1986

1986년 1월 미국 사우스 캐롤라이나의 컬럼비아 시에 있는 USC(University of South Carolina)의 국제관계학과로 혼자 유학을 떠났다. 6개월만에 그 학교의 사회학과에서 장학금을 받고 석사 과정에 다시 들어갔다. 한국에 남아 오매불망 나를 기다리던 아내와 수정이를 데리고 컬럼바아로 돌아갔다.

어떤 한국 유학생으로부터 7백달러를 주고 시보레에서 나온 몬자(Monza)라는 중고차를 샀다. 차 없이 세 식구의 생활이 불가능했기 때문이다.

그런데 여름 날씨가 섭씨 40도를 넘나드는데 차 에어컨이 작동하지 않았다. 에어컨이 달려는 있었는데, 에어컨을 켜면 금세 엔진이 과열되었기 때문에 에어컨을 켤 수 없었다.

차에 무식했던 나는 엔진 오일을 제대로 넣어주지 못했고, 결국 엔진 고장으로 몇 달만에 차를 포기했다. 그래도 첫 차인지라 잊혀지지 않는다. 비록 싸고 낡은 차였고, 아주 잠시만 탔지만 말이다. (2019-09-11)

조건부 확률과 결합확률, 어떻게 구분할 것인가

다음 교차표는 미국 어느 도시에서 경찰관들이 2년 동안 승진한 현황을 담고 있다.

다음 질문에 답해 보자.

  1. 남자 경찰관이 승진할 확률은?
  2. 여자 경찰관이 승진할 확률은?
  3. 승진한 남자 경찰관의 비율은?
  4. 승진한 여자 경찰관의 비율은?

먼저 사건을 정의하자. 남자 경찰관: M, 여자 경찰관: W, 승진: A, 승진탈락:

이 질문들에 답하기 위해서는 이 교차표로부터 결합확률표를 만들어야 한다. 승진한 남자 경찰관은 288명이며, 승진한 여자 경찰관은 36명이다. 승진한 남자 경찰관의 비율이 남자 경찰관 사건과 승진 사건의 결합확률이다. 즉,

여자 경찰관과 승진의 결합확률은,

이는 곧 승진한 여성 경찰관의 비율이다. 남자 경찰관과 승진탈락의 결합확률, 그리고 여자 경찰관과 승진탈락의 결합확률은 각각 아래와 같다.

결합확률표에 들어가는 주변확률은 각 사건의 비율이다. 즉, 남자 경찰관의 비율(0.80), 여자 경찰관의 비율(0.20), 승진의 비율(0.27), 승진탈락의 비율(0.73)이다. 이 확률들을 가지면 다음과 같은 결합확률표가 만들어진다.

남자 경찰관이 승진할 확률을 보다 확률적으로 표현하면, 만약 어떤 경찰관이 남자라면 그가 승진할 확률은 얼마인가가 될 것이다. 이는 조건부 확률, 이다. 선행 사건(혹은 조건 사건)이 남자 경찰관(M)이고, 후행 사건이 승진(A)이다. 두 사건이 시간적으로 순차적으로 발생한 것임을 알 수 있다. 이를 나무 그림으로 표현하면 다음과 같다.

이 나무 그림을 보고 확률을 생각하면 훨씬 직관적이다. 먼저 경찰관 1명을 무작위로 추출하였을 때 그가 남자 경찰관일 확률은 0.8이고, 여성 경찰관일 확률은 0.2이다. 이것이 남자 사건과 여자 사건의 주변확률이다. 또한 어떤 경찰관을 무작위로 추출하였을 때 그가 승진한 남자 경찰관일 확률은 0.24, 승진한 여자 경찰관일 확률은 0.03이다. 이것은 남자 사건과 승진 사건, 여자 사건과 승진 사건의 결합확률이다. 이는 위에서 제기한 질문 3과 4에 대한 답이다.

그리고 질문 1, 남자 경찰관이 승진할 확률은 0.3이고, 질문 2, 여자 경찰관이 승진할 확률은 0.15이다. 이것은 남자 사건이 주어졌을 때 승진 사건이 발생할 조건부 확률, 그리고 여자 사건이 주어졌을 때 승진 사건이 발생할 조건부 확률이다.

물론 어떤 경찰관이 승진하였을 때 그가 남자일 확률도 조건부 확률이다. 계산해 보면 다음과 같다.

사실 조건부 확률에서 선행 사건과 후행 사건은 시간적 순서이라기보다 논리적 순서라고 보는 편이 맞을 것이다. 여하튼 조건부 확률에는 순서가 있다. 반면에 결합확률은 동시적이다. 즉, 순서가 없다. 이점도 기억해두면, 어떤 명제(혹은 문제)가 결합확률을 가리키는지 아니면 조건부 확률을 가르키는 지를 구분하는 데 도움이 될 것이다.

문제가 주어졌을 때 그것이 조건부 확률에 대한 질문인지 아니면 결합확률에 대한 질문인 지를 학생들이 잘 혼동하는 것 같아 조금 자세히 설명해 보았다. (2019-09-10, 윤영민)

현대의 정치, 무엇이 문제인가?(2)가치 배분

정치에서 권력투쟁과 가치배분이라는 두 측면 중 어느 쪽이 더 중요할까? 매일 매일 접하는 언론의 정치 관련 뉴스를 보면, 권력투쟁에 관한 뉴스의 양이 가치배분에 관련된 뉴스의  양을 압도한다. 그것을 기준으로 판단한다면 전자가 후자보다 분명히 중요해 보인다.

그러나 뉴스에는 언론이라는 매개체의 관점과 이해가 관여되어 있음을 기억하자. 뉴스에서 보이는 비중의 차이는 두 가지 다른 원인 때문일 수 있다. 정말로 권력투쟁이 가치배분보다 중요하기 때문에 그런 결과가 나왔을 수도 있고, 언론이, 가치배분보다 권력투쟁이 더 많은 뉴스 가치가 있다고 생각하기 때문일 수도 있다. 이중 어떤 쪽이 더 진실에 가까운지는 쉽게 단언할 수 없다. 다만 언론사들이 시청률과 조회수에 목을 매는 최근의 현상을 볼 때 후자 쪽이 더 진실에 가깝지 않나 생각된다. 아무튼 눈에 보이는 것이 전부가 아니다라는 금언이 정치 뉴스보다 더 잘 들어맞는 경우는 없지 않나 싶다.

조국 교수가 법무부장관 후보자로 지명되고 나서 언론의 집중적 조명을 받은 가장 핫한 뉴스는 조국 교수의 딸이 동양대학교에서 받은 표창장에 관한 것이었다. 반면에 후보자의 능력이나 소신은 고사하고 후보자 자신의 비리나 부정에 관한 뉴스는 거의 찾아볼 수 없었다. 혹시 이 현상이 언론의 센세이셔널리즘 때문은 아니었을까? 물론 일부 야당이나 검찰의 권력 투쟁 아젠다 때문이기도 하겠지만 말이다.

가치 배분의 측면에서 우리 정치는 무슨 일을 하고 있을까? 언론 뉴스를 아무리 뒤져도 이 의문에 대한 적절한 해답을 찾을 수 없다. 다음은 국회의 의안정보시스템에서 찾은 20대 국회에서 진행되고 있는  법제정 현황이다.

제20대 국회가 개원된 이래 현재까지 총 2만1천578건의 법안이 발의되었고, 그중 6천350건이 처리되었다. 국회의원들이 싸움만 하는 줄 알았는데 그것은 아님을 알 수 있다. 물론 그 중에는 싸우다가 회기 막판에 무더기로 통과된 법률안도 적지 않겠지만 법률안을 만들거나 검토하기 위해 많은 국회의원들이 활동하고 있음이 분명하다. 이를 보면 일은 안하고 쌈질만 한다고 비판을 들으면 억울해야할 정치인들이 적지 않을 것임을 짐작할 수 있다.

의안정보시스템을 검색하면 위 법안들의 내용을 찾아볼 수 있다. 아래는 검색 결과의 일부이다(아래 그림을 클릭하면 의안정보시스템에 들어갈 수 있다).

맨 위에 올라온 법안 명칭을 몇 개만 일별해도 정치가 ‘가치의 배분’이라는 의미가 물씬 다가온다. 한국농어촌공사 및 농지관리기금법 일부개정법률안(대안), 자유무역협정 체결에 따른 농어업인 등의 지원에 관한 특별법 일부개정법률안(대안), 화훼산업 발전 및 화훼문화 진흥에 관한 법률안(대안), 수의사법 일부개정법률안(대안), 양봉산업의 육성 및 지원에 관한 법률안(대안) 등. 농림축산식품해양수산위원회가 소관위원회인 법안들이 맨 위에 놓여서 그 분야에 관련된 법률들이기는 하지만 법안 하나 하나가 관련된 산업, 기업, 당사자의 활동과 수입에 중대한 영향을 미치는 것들임을 쉽게 가늠할 수 있다.

법치주의 국가에서 공직자는 누구나 반드시 법에 근거해서 업무를 수행해야 한다. 사회의 각 부문이나 분야를 규제(혹은 지원)하는 개별법말고도 국가기관이 업무를 수행하는데 필요한 예산을 결정하는 정부의 예산안도 매년 통과되어야 하는 법률이다. 법에 근거하지 않고 어떤 공직자도 기관 예산을 지출할 수 없다.

그런데 어떤 법도 쉽게 만들어지지 않는다. 헌법과 같은 상위법과 어긋나지 않아야 하고 그 법에 영향을 받게 될 관련 당사자들 사이의 이해관계도 조정되어야 하며, 예산 지출이 따르는 경우 정부 예산 편성에 포함되어야 하기 때문이다. 그 과정은 정부가 발의하던 의원이 발의하던 별로 다르지 않다. 그래서 국회에서는 위원회, 포럼, 세미나, 공청회 등이 연중 개최된다.  그리고 그중 아주 일부 활동만이 언론의 조명을 받는 행운을 누린다.

입법 활동 중 어떤 것이 기사화되는가는 거의 전적으로 언론사의 판단에 의해 좌우된다.  언론사의 판단에 있어서 해당 법안의 사회적 혹은 정치적 중요성이 고려되겠지만 그 이상으로 중요한 요소는 독자나 시청자 인터넷 이용자들의 주목을 받을 수 있느냐이다.

이제 권력투쟁으로서의 정치가 지닌 모습을 살펴보자. (2019-09-07, 윤영민)

현대의 정치, 무엇이 문제인가?(1) 정치의 정의

정치에 대해 논의하려면 먼저 정치가 무엇인지부터 정의해야 한다. 어떤 사회에서나 정치는 중요할 뿐 아니라 그 과정이 복잡하고 그 결과가 다양하다. 때문에 정치의 어떤 측면에 주목하는가에 따라 정치에 관해 대단히 다른 해석과 입장을 낳을 수 있다. 일단 정치를 분명하게 정의를 해두어야 적어도 우리가 논의하는 대상이 일치할 수 있다. 정치를 간략하게(그렇다고 대충하자는 것은 아니다) 정의해보자.

politics에 대한 이미지 검색결과

정치(politics)는 ‘권력 투쟁’과 ‘가치 배분’이라는 두 가지 측면을 지니고 있다. 국가 권력을 장악하기 위해 벌어지는 온갖 투쟁, 협력, 담합, 선거운동, 투표, 전쟁, 외교 등이 권력 투쟁에 해당되고, 법 제정이나 행정 명령을 통해서 사회적 가치의 생산, 유통, 분배에 관여하는 것이 가치 배분에 해당된다.

물론 현실에서 정치가 칼로 두부를 자르듯이 깔끔하게 그 두 측면으로 분리될 수 있는 것은 아니다. 권력 투쟁의 결과는 가치 배분의 원칙과 방식에 영향을 미치고, 가치 배분의 결과는 다시 권력의 향방에 영향을 미치기 때문이다. 그것은 정치에 대한 분석적인 구분일 뿐이다.

authoritative allocation of social value에 대한 이미지 검색결과

정치를 국가 권력을 중심으로 이해하는 사람들은 정치를 권력 투쟁으로 여기는 경향이 있고, 정치를 그것이 지닌 사회적 기능 혹은 역할을 중심으로 이해하는 사람들은 정치를 가치 배분으로 바라보는 경향이 있다. 독일의 사회학자 막스 베버(Max Weber, 1864~1920)에 의하면, 정치란 “국가들 사이에서 혹은 국가내의 집단들 사이에서 권력에 참여하고자 하거나 권력의 배분에 영향력을 행사하고자 하는 노력을 뜻한다(임영일, 차명수, 이상률 편역, 1991:  208).” 그는 정치의 권력 투쟁적 측면에 주목한 것이다. 반면 미국의 정치학자 데이비드 이스턴(David Easton, 1917~2014)에 의하면, “정치란 한 사회를 위한 가치의 권위적 배분”이다. 한 사회가 하나의 체계(system)이고 정치는 그것의 하위 체계라는 인식이다. 투입(input)과 산출(output)이 있는 하나의 체계로서 정치는 사회의 존속에 있어 일정한 기능을 수행하고 있다는 것이다. 마치 우리 몸에서 머리나 팔다리가 일정한 기능을 수행하고 있듯이 말이다.

일단 이 정도의 정의를 가지고 정치를 분석해 보자. (2019-09-06, 윤영민)

보리밭 불놓기

보리 수확이  끝나자 마자 이장 어머니인 회양촌댁이 손주를 데리고 보리밭에 불을 놓고 있다.  오른쪽 끝 부분에 회양촌댁, 반대편쪽에 손주가 서 있다. 구순이 다 되어가는 회양촌댁으로서는 힘든 일일텐데….이장 말대로  너무 극성이신가?….

검붉은 접시꽃

한참 동안 블로그에서는 전문 지식을 공유하고, 사진 공유 SNS인 Pholar에서 일상을 기록해왔다. 그런데 Pholar가 9월말로 서비스를 중단한단다. 그래서 사진 저널도 블로그로 가져오기로 했다. 인터넷 서비스가 문을 닫으면 백업 받아두는 수밖에 대책이 없다. 특히 SNS 사용시 그것은 늘 숙제이다.

접시꽃의 색깔은 다양하다. 두 달 전 아내가 누군가에게서 얻어와 후원에 심은 접시꽃의 색깔이 범상치 않다. 한달 정도 새 환경의 적응에 몸살을 하다 꽃을 피웠다.

SAMSUNG CSC

추세선(Trend line)의 매력(3)

추세선이 가격의 변동 방향을 가리키는 수단으로 사용될 때는 앞에서 소개한 관계나 패턴을 발견하는 일반적 도구와는 다소 다른 모습으로 사용된다. 뭐, 크게 복잡한 내용은 없다. 누구든 몇 가지만 인지하면 추세선을 바로 실전에 사용할 수 있다.

  1. 추세선은 시간의 흐름에 따라서 가격이 움직이는 방향을 가리킨다.
  2. 추세선은 시간적으로 최소한 두 지점을 연결한다.
  3. 가격의 변동 방향이라는 관점에서 추세선은 크게 세 가지가 있다: 하락 추세선(downtrend), 상승 추세선(uptrend), 보합(혹은 횡보: sideway). 하락 추세선은 곰 추세(bearish trend), 상승 추세선은 황소 추세(bullish trend)라고도 불린다.
  4. 고점(highs)연결하여 구성한 추세선을 저항(resistance) 선이라고 부르고, 저점(lows)을 연결하여 구성한 추세선을 지지(support) 선이라고 부른다.
  5. 가격의 흐름이 상승에서 하락, 반대로 하락에서 상승으로 바뀌는 것을 반전(reversal)이라고 부른다.

이상을 다음과 같이 그림으로 표시할 수 있다.

위 그림은 상승 추세(uptrend)를 보여주고 있다. 그래프의 상부 꼭지점(고점이라고 부른다)들을 연결하여 붉은색 추세선이 만들어졌는데 그것은 저항(resistance) 선을 나타낸다.  그래프의 하부 꼭지점을 연결하여 파란색 추세선이 만들어졌는데 그것은 지지(support) 선을 나타낸다.

아래 그림은 하락 추세(downtrend)를 보여주고 있다. 상승 추세의 경우와 방향만 다를 뿐 추세선을 그리는 방법은 동일하다.

아래 그림에서 보듯이 상승 추세는 황소의 뿔처럼 생겼다고 해서 황소선(bullish trend)이라고 부르고, 하락 추세는 곰의 등처럼 생겼다고 해서 곰선(bearish trend)라고 부른다.

아래 그림은 저항선과 지지선의 의미를 보여준다. 그래프에서 저항선을 넘어서 가격이 상승한 경우가 두 번 있다. 그 경우 우리는 그 가격이 다시 하강하리라 예상한다. 주식의 가격이 저항선을 넘어서 오르면 저항(?)을 받아서 다시 떨어지게 된다는 의미에서 이름이 저항선이다.

반대로 지지선 아래로 주식의 가격이 여러 차례 떨어졌다. 그 경우 가격이 다소 상승하리라는 예상이 가능하다. 무언가가 받쳐주고 있는 것처럼 말이다. 그래서 이름이 지지선이다.

주식 가격은 캔들스틱 차트와 추세선이 함께 사용되는 경우가 흔하다. 캔들스틱 차트는 다섯 가지 정보를 가지고 작성된다. 몸통(real body)이라고 부르는 부분은, 가격이 떨어졌을 때는 시가(opening price)가 맨 상단이 되고, 종가(closing price)가 맨 하단이 된다. 가격이 올라갔을 때는 종가가 상단, 시가가 하단이 된다.

아래 그림에서 가격이 떨어진 경우는 붉은 막대로 표시되고 가격이 올라간 경우는 초록색 막대로 표시되었다. 그 둘을 하얀색과 검정색으로 표시할 수도 있으나 중요한 점은 색으로 가격 하락과 가격 상승을 구분한다는 것이다. 몸통에 해당되는 막대를 보면 윗쪽과 아래쪽에 가는 선이 그려져 있다. 윗선(wick, 심지)의 끝은 장중최고가를, 아랫선(tail,  꼬리)의 끝은 장중최저가를 표시한다. 이렇게 해서 막대와 가는선은 특정한 장(예컨대 1일장)의 시가, 종가, 최고가, 최저가, 그리고 가격의 상승(혹은 하락)이라는 주요 정보를 모두 보여준다. 이 캔들스틱을 연결하여 추세선을 그리기도 한다.

아래 그림은 캔들스틱차트를 가지고 추세선을 그린 사례이다. 추세선을 그리는 두 가지 방법이 있다. 하나는 캔들스틱의 심지끝(장중최고가)을 연결해서 그리는 방법, 다른 하나는 몸통 상단(가격하향 추세인 경우 시가, 붉은색 몸통의 상단)을 연결하여 그리는 방법이다. 어느쪽을 선택하든 일관성을 유지해야 한다. 아래 그림에서 하얀색 번호 1과 2를 연결한 추세선을 보면 X 표가 된 시점을 지나가면 더 이상 유효하지 않다. 만약 그 이후의 시점들에도 유효한 추세선을 그리려면 숫자 1을 노란색 숫자 2와 연결해야 한다. 어느 지점을 연결해서 추세선을 그리느냐는 분석자의 판단에 달려 있다. 

이상으로 간략히 가격 추세선과 캔들스틱차트를 살펴보았다. 이 정도의 지식을 갖고 주식변동 차트를 관찰해도 어느 시점에서 주식을 사고 팔 것인지를 결정할 수 있다. 문제는 국면이 하락 추세일 일부인지, 상승 추세의 일부인지, 아니면 하락 추세 중의 일시적 상승 국면인지 혹은 상승 추세 중 일시적 하락 국면인지, 아니면 하락 추세에서 상승 추세로 돌아서는 반전 국면인지에 대한 판단에는 불확실성과 리스크가 따른다는 점이다.

그래프는 그런 판단에 약간의 도움이 되는 것 뿐이다. 주식 투자의 성패는 올곧이 투자자의 판단과 선택에 달려 있다.

이상으로 추세선에 대한 소개를 마친다. 추세선(혹은 추세선 분석)은 전문적인 통계 지식 없이도 누구나 사용할 수 있는 도구이다. 특히 엑셀은 아주 손쉽게 추세선을 그릴 수 있게 해준다.

추세선(Trend line)의 매력(2)

선형적합에 가장 널리 사용되는 방법은 OLS(Ordinary Least Sqaures, 최소자승법)이다. 간단히 말하자면, 독립변수의 각 값에서 직선에 의해 예측된 점으로부터 관측점까지의 거리를 제곱하여 더한 값을 최소화(최소자승의 의미)하는 추세선이다.

위 그림은 어떤 음향기기 대리점에서 광고횟수에 따른 음향기기 판매액의 변동을 기록한 것이다. 왼편 상단의 표를 보면, 첫 주에는 2회 광고를 냈고, 50달러의 매출을 올렸다. 둘째 주에는 5회 광고를 냈고, 57달러의 매출을 올렸다. 3주차에는 1회 광고에 41달러, 4주차에는 3회 광고에 54달러의 매출을 올렸다.

위 그림의 오른편에는 이 데이터가 그래프로 표현되어 있다. 이 그래프는 주차는 무시하고 광고횟수와 매출액의 관계를 보여주고 있다. 그래프를 보면 1회 광고를 냈을 때 41달러 매출을 올리기도 하고 38달러 매출을 올리기도 했다. 2회 광고를 냈을 때 50달러를 올리기도 하고 46달러를 올리기도 했다. 3회 광고를 냈을 때는 54달러를 올리기도 했고, 48달러를 올리기도 했다.

엑셀에서 이 그래프에 추세선을 그렸더니 파란색 점선이 나타났다. 수식으로 표현하니  이다. 그냥 눈으로 봐도 이 추세선은 광고횟수(x)와 매출액(y) 사이의 관계를 잘 대표하는 것 같다.

이 추세선으로 예측된 y 값을 구하려면, 위 식에 1, 2, 3, 4, 5를 각각 넣으면 된다. 아래는 그렇게 해서 구한 예측된 매출액, 그리고 그것과 실제 매출액과의 차이인 오차가 제시되어 있다. 그 오차를 제곱하여 더한 값이 오차제곱의 합 75.95(달러)이다.

이 값은 ‘최소자승’의 정의상 자승값 중 최소이기 때문에 다른 어떤 직선을 그려도 오차제곱의 합이 이보다 작을 수는 없다. 이 추세선은 회귀선(regression line)이라고도 불리는데 구하는 과정은 다음과 같다.

오차(error)란, 주어진  값에서 실제로 관찰된  값과,  라는 방정식(직선의 식)을 통해서 추정된 의 값(), 즉,

과의 차이()를 말한다.

아래 그림에서 별로 표시된 것은 관찰값이고 회귀-추세선의 예측값으로부터 거리–중괄호로 표시된 부분–가 편차(오차, deviation, error)이다.

이 오차의 제곱을 모두 더하여 얻어지는 수, 즉, 오차제곱의 합(sum of squared errors, SSE),

를 최소화한다는 기준을 만족시키는 식 (1)의  (절편)와 (기울기)을 구하는 것이다.

식 (2)에 식 (1)을 대입하면,

이 식을 최소화하는 와 를 구하기 위해서는 두 미지수에 대해 편미분을 하고 각각을 0으로 놓고 풀면 된다.

먼저 절편 에 대해 식 (3)을 편미분해 보자.

이 식의 양변을 -2로 나누고 시그마에 관해 정리하면,

여기서 이므로, 그것을 좌변에 놓고, 나머지 항을 우변으로 이항한다.

양변을 으로 나누면,

여기서 는 의 평균 이고, 는 의 평균 이므로, 결국

가 된다.

다음 기울기 에 대해 편미분 하자.

이 식의 양변을 -2로 나누고 괄호를 풀면,

식 (6)을 식 (7)에 대입하고 정리하면 약간의 복잡한 계산을 거쳐서 아래 식을 얻는다.

데이터를 가지면 (8)을 풀 수 있고, 거기서 얻은 기울기 의 값을 (6)에 대입하고 데이터로부터 X의 평균과 Y의 평균을 구해서 대입하면 절편 를 구할 수 있다.

도출 과정에 합성함수의 편미분, 시그마의 편미분이 포함되어 있어 다소 복잡한 수학적 표현이 되었다. 다행히 그 도출과정을 모두 이해하지 못한다고 하더라도 엑셀에서 데이터를 가지고 좌표상에 분포를 표시한 후에 아래 그림처럼 추세선 옵션 창에서 선형 추세선과 ‘수식을 차트에 표시하기’를 선택하면 그것을 손쉽게 구할 수 있다. 만약 선형(직선) 추세선이 데이터를 적절히 요약하지 못한다고 생각되면, 지수, 로그, 다항식, 이동평균 등 다양한 모습의 추세선을 적합할 수 있다.

현실에서 추세선은 주식, 암호화폐, 금, 선물 등의 투자에 널리 활용된다. 그 때 추세선은 해당 상품의 가격 변동의 방향을 의미한다. 근본은 통계학에서의 추세선과 다르지 않지만 개념과 용어가 다르기 때문에 다음 포스팅에서 간략히 소개하겠다.