과꽃이 피었다

과꽃

지난 초여름 아내가 테라스 옆에 심은 과꽃이 만개했다. 방장산의 백선생에게서 모종 여섯 개를 얻어와 심었는데 한 그루가 살아남았다. 분홍빛 꽃이 진붉은 맨드라미 꽃 무리와도 잘 어울린다.

모비율의 추정은 어떻게?(하)

이제 몇 가지 예제를 가지고 모비율에 대한 추정을 해보자.

(예제 1) 400명의 단순 무작위 표본으로부터 100개의 ‘예’라고 응답이 나왔다.

(1) ‘예’라고 답한 모집단의 비율에 대한 점추정값을 구하시오.

(2) 비율의 표준오차 추정값 를 구하시오.

(3) 모집단 비율에 대한 95% 신뢰구간을 구하시오.

 

(해제)

(1)모집단 비율()에 대한 불편의적 추정치는 표본비율()이다. 표본비율의 값이 곧 점추정값이 될 것이다. 표본비율은 공식  을 적용하여 구할 수 있다. 확률변수 X는 ‘예’의 갯수이다. 따라서,

(2) 중심극한정리를 적용하려면, 충분한 표본의 크기가 되는지를 검토해야 한다.  가 각각 100, 300으로 15 이상이므로 중심극한정리를 적용할 수 있다. 그러면 공식 을 사용하여 비율의 표준오차를 추정할 수 있다.

(3) 표본비율의 표준오차를 알면 다음 공식으로 95% 신뢰구간을 구할 수 있다.

따라서, 모비율의 95% 신뢰구간은 20.75%부터 29.25%까지이다.

 

(예제 2) 800가지 원소들의 단순 무작위 표본으로부터 표본비율 을 얻었다.

(1) 90% 신뢰수준에서 모집단 비율의 신뢰구간을 구하시오.

(2) 95% 신뢰수준에서 모집단 비율의 신뢰구간을 구하시오.

 

(해제)

(1)

마저 계산하면,

따라서 모집단 비율의 90% 신뢰구간은 67.34%부터 72.66%까지이다.

(2) 위 계산 과정에서 Z-값을 1.6449에서 1.96으로 바꾸면 된다.

마저 계산하면,

따라서 모집단 비율의 95% 신뢰구간은 66.82%에서 73.18%까지이다. 신뢰수준이 90%일 때보다 신뢰구간이 늘어났음을 알 수 있다.

 

(예제 3) 컨슈머 리포트 국립 연구센터에서 향후 주요 경제 문제 현황을 알아보기 위해 성인 2,000명을 대상으로 전화 설문 조사를 실시하였다. 보고서에 따르면, 응답자 중 1,760명은 사회보장제도의 안정성이 주요 경제 관심사라고 답하였다.

(1) 사회보장제도의 안정성이 주요 경제 관심사인 성인의 모집단 비율에 대한 점추정값을 구하시오.

(2) 90% 신뢰수준에서 오차범위를 구하시오.

(3) 사회보장제도의 안정성이 주요 경제 관심사인 성인의 모집단 비율에 대한 90% 신뢰구간을 구하시오.

(4) 이 모집단의 비율에 대한 95% 신뢰구간을 구하시오.

 

(해제)

(1) 확률변수 X는 사회보장제도의 안정성이 주요 경제 관심사라는 대답의 갯수이다. 따라서, 모집단 비율의 점추정인 표본비율의 값은 아래와 같이 구할 수 있다.

(2)

(3) 90% 신뢰구간은,

마저 계산하면,

따라서, 사회보장제도의 안정성이 주요 경제 관심사인 성인의 모집단 비율에 대한 90% 신뢰구간은 86.8%에서 89.2%까지이다.

(4) 신뢰수준을 95%로 올리면, Z-값만 변한다.

오차범위가 이므로, 95% 신뢰구간은,

마저 계산하면,

이를 말로 하면, 사회보장제도의 안정성이 주요 경제 관심사인 성인의 모집단 비율에 대한 95% 신뢰구간은 86.57%에서 89.43%까지이다. (이상의 예제들은 앤더슨, 2017의 제8장에서 가져왔음)

 

(예제 4) 일본담배산업이 19,064명을 대상으로 흡연조사를 했다. 결과는 성인의 4,137명이 담배를 피우고 있는 것으로 나타났다. 이 때 전국 성인의 흡연율 에 대해 신뢰도 95%의 신뢰구간을 구해 보자(와쿠이, 2015: 96에서 인용)

 

(해제) 먼저 표본으로부터 성공확률(흡연율)을 구한다.

표본이 아주 크므로(n=19,064), 아래 공식을 적용할 수 있다.

이를 를 중심으로 부등호로 표시하면,

이 식을 정리하면, 95% 신뢰수준에서 신뢰구간은 이 된다. 말로 풀면, “95% 신뢰수준에서 모집단 흡연율은 21.11%에서 22.29% 사이로 추정된다”가 될 것이다.

 

(예제 5) 전국적으로 애완동물을 키우는 비율을 조사하기 위해 크기 500의 표본을 추출해 표본비율을 조사했더니 0.62였다. 이를 토대로 전국적으로 애완동물을 키우는 비율 를 95% 신뢰 수준으로 추정해 보자. (와쿠이, 2015: 97에서 인용)

 

(해제)

이를 계산하면,

즉, 95% 신뢰수준에서 전국적으로 애완동물을 키우는 비율은 57.75%에서 66.25% 사이일 것으로 추정된다.

 

(예제 6) 어느 선거구에서 갑후보의 지지율을 조사하기 위하여 100명의 유권자를 조사한 결과 갑후보의 지지율이 65%이었다. 갑후보의 지지율에 대한 95%의 신뢰구간은?(사회조사분석사 1회)

 

(해제)

즉, 갑후보의 지지율은 95%의 신뢰수준에서 55.65%에서 74.35% 사이일 것으로 추정된다.

 

(예제 7) 어떤 도시의 시민 10만명에서 400명을 임의로 추출하여 쓰레기 분리 수거에 관한 여론을 조사하였더니 쓰레기 분리수거에 찬성한 사람이 240명이었다. 이때 시민 전체에 대한 찬성자의 비율을 95%로 추정하라. (김은정, 2017: 101에서 인용)

 

(해제)

이를 풀면,

즉, 95% 신뢰수준에서 전체 시민들 중 쓰레기 분리수거 찬성자의 비율은 55.2%에서 64.8%일 것으로 추정된다.

 

일곱 개의 예제를 풀어보았다. 모집단 비율의 추정을 설명하는 과정은 복잡했지만 실제로 계산하는 과정은 간단함을 알 수 있었으리라 생각된다. 비율은 현실에서 많이 사용되는 추정 통계치이기 때문에 좀 상세히 설명했다. (2019-09-28)

 

(참고문헌)

김은정 저. 2017. <사회조사분석사 사회통계>. 학진북스.

앤더슨, 스위니, 윌리엄스 저(류귀열 등 역). 2017. <앤더슨의 통계학>. 한올출판사.

와쿠이 요시유키, 와쿠이 사다미 저(김선숙 역). 2015. <그림으로 설명하는 개념 쏙쏙 통계학>. 성안당.

 

모비율의 추정은 어떻게?(중)

앞에서 모비율을 추정하면서 “표본의 크기가 큰 경우”라는 조건을 달았다. 모비율의 추정 공식이 항상 성립하는 것은 아님을 시사하면서 슬쩍 넘어간 것이다. 실제로 표본이 얼마나 커야  추정 공식을 적용할 수 있는 지에 대해 해답을 제시하지 않았다. 모비율 추정에 있어서는 이점이 중요함으로 충분히 알아보자.

핵심은 정규 근사(normal approximation, 표집분포가 정규분포에 충분히 근사함)를 하는데 요구되는 표본의 크기는 성공 확률()에 달려 있다는 점이다. 만약 가 0.5에 가까우면, 표본은 그렇게 클 필요가 없다. 반면에 가 0이나 1에 가까우면 훨씬 큰 표본이 요구된다. 이점을 구체적으로 살펴보자.

아래 그림에는 성공확률이 0.5이고  표본의 크기가 25인 이항분포의 그래프가 시뮬레이션되어 있다. 표본의 크기가 25 밖에 되지 않는데도 분포의 모양이 정규분포에 가깝다.

표본을 50, 100으로 키워서 시뮬레이션 한 결과가 아래에 있다.

표본의 크기가 100이 되니 비록 이산확률분포이지만 연속확률분포인 정규분포에 매우 근사하고 있음을 알 수 있다.

이번에는 성공확률이 0에 근접한 0.02일 때 표본의 크기를 가지고 시뮬레이션을 해보자. 아래에 표본의 크기가 100일 때 우측으로 꼬리가 긴 분포를 하고 있음을 볼 수 있다. 정규분포의 모습과는 거리가 멀다.

이번에는 성공확률 0.02는 그대로 두고 표본을 1,000으로 키웠더니 아래 그림처럼 정규분포에 근사한 결과를 얻었다.

이번에는 성공확률을 1에 근접한 0.96로 두고 시뮬레이션을 해보자. 표본의 크기가 100인 경우와 1,000인 경우의 결과가 아래에 제시되어 있다.

표본의 크기가 100일 때는 아직 뚜렷하게 왼쪽으로 편포되어 있지만, 1,000이 되니 정규분포에 근사하고 있다.

이상으로 몇 번의 시뮬레이션을 통하여, 성공확률이 0.5에 근접하면 정규 근사를 위해 표본이 그렇게 클 필요가 없지만, 성공확률이 0이나 1에 근접하면 정규 근사를 위해 표본이 상당히 커야함을 살펴보았다. 그렇다면 모비율 추정을 위해 필요한 표본의 크기를 어떻게 결정할까? 거친 가이드라인이기는 하지만, 아래 조건을 충족하면 증심극한정리를 적용하는 정규 근사가 가능하다고 본다.

어떤 학자들은 기준이 되는 값을 15 대신 5 혹은 10을 사용하기도 하지만 15가 좀 더 신중해 보인다. 이 공식을 적용하면, 만약 성공확률 가 0.03이면, 15 나누기 0.03하여 표본의 크기가 500, 성공확률이 0.9이면, 15 나누기 0.1하여, 표본의 크기가 150 이상이면 표집분포의 근사치로 정규확률분포를 사용할 수 있음을 의미한다.

다음 포스팅에서는 모비율 추정의 사례를 몇 개 살펴보자. (2019-09-28)

모비율의 추정은 어떻게?(상)

모집단의 비율을 추정하는 방법은 모평균의 경우와 상당히 차이가 있기 때문에 상세한 설명이 필요하다.

비율이란 집단 전체 중 특정한 속성을 갖는 하위집단의 비를 분수로 나타낸 것이다. 예컨대, 흡연자 비율, 특정 대통령 후보의 지지율, 구매 제품에 만족한 고객의 비율, 여성의 비율, 소수인종의 비율 등이다.

성인 남녀의 흡연율을 생각해보자. 모비율(population proportion)은 전체 성인 중 담배를 피우는 사람의 비율이다. 모비율을 p, 흡연자 수를 X, 전체 성인 수를 N로 놓으면, 아래와 같이 쓸 수 있을 것이다.

이는 성인 전체를 흡연자와 비흡연자로 나누는 이항분포(binomial distribution)이다. X는 성공횟수, N은 전체 시행 횟수로 볼 수 있다. 즉, 흡연은 성공, 비흡연은 실패로 간주되는 셈이다.

흡연율을 계산하기 위해 성인 전체를 대상으로 조사를 할 수 없으므로 무작위 표본을 뽑아서 담배를 피우는가를 물어보고 그 질문에 ‘예’라고 답하는 사람의 비율, 즉, 표본 비율()을 구해서 그것으로 모비율 p를 추정하면 될 것이다.  표본 비율은 ‘예’라고 답한 사람의 수(X)를 표본의 크기(n)으로 나누면 구할 수 있다.

모수 추정을 위해서는 평균의 경우처럼 표본비율의 표집분포(sampling distribution of sampling proportions)를 구해야 한다. 그러기 위해서 비율에 적용되는 이항실험과 이항분포의 속성을 상기해 보자.

1) 이항실험은 n개의 동일한 시행으로 구성되어 있다.

2)  각 실험은 두 가지 결과를 가진다. 그 결과는 성공, 실패라고 부른다.

3) 성공의 확률은 이며 반복실험에서 변하지 않는다. 따라서 실패 확률 도 반복실험에서 변하지 않는다.

4) 각 실험은 독립적으로 행해진다.

5) 이항확률함수

여기서 X = 성공횟수, n회 시행에서 성공횟수가 X일 확률, n = 시행횟수, p = 각 시행에서 성공이 일어날 확률, 1-p = 각 시행에서 실패가 일어날 확률

6) 이항분포의 기댓값과 분산은 다음과 같다.

7) 표본의 크기가 충분히 크면, 표본비율의 표집분포가 정규분포에 근사한다(normal approximation).

이 정보를 가지고 표본비율의 표집분포의 기댓값과 표준오차를 도출해 보자. 먼저,

그런데 이므로,

즉, 표본비율의 기댓값(평균)은 모비율이다. 이는 표본비율이 모비율의 불편의적 추정치임을 보여준다. 표본비율의 분산을 구하면,

이것의 양의 제곱근이 표본비율의 표준오차이다.

아래 그림에서 처럼 표본비율 는 평균이 이고, 표준오차가 인 표집분포를 이룬다.

sampling distribution of sample proportion에 대한 이미지 검색결과

그런데, 현실에서 우리는 모비율의 값을 모르기 때문에(그러기 때문에 표본비율로 추정하고 있지 않는가) 표집분포의 표준오차를 구하는데 아래 공식을 사용할 수 없다.

대신 우리 손에 들어온 표본비율로 이것도 추정해야 한다. 즉,

그렇게 되면, 그것은 오차의 또 다른 원천이 된다. 다행히 표본의 크기가 충분히 크면 오차가 0에 근접하기 때문에 표본의 크기가 클 경우 그렇게 추정해도 무방하다.

결국, 표본크기가 큰 경우 95% 신뢰수준에서 모비율을 구간 추정하는 공식은 다음과 같이 될 것이다.

(2019-09-28, 다음 포스팅에 계속)

모수 추정의 원리

통계학에서 모수 추정이란 무엇일까? 잠시 상상해 보자. 만약 우리가 어떤 사회현상–대통령 후보의 지지율, 남북관계에 대한 입장, 입시정책에 대한 생각 등–을 조사한다면, 모집단 전체(성인 전체나 유권자 전체)를 전수 조사할 가능성은 거의 없을 것이다. 그럴 예산도 없고 시간도 없을 것이며,  사실 그럴 필요도 없기 때문이다. 좋은 표본만 얻을 수 있다면, 한 1천명만 조사해도 충분하다.

때문에 통상 우리 연구자의 손에 쥐게 되는 것은 1천명 내외 혹은 그보다 훨씬 작은 표본조사 결과가 담긴 파일이다. 그 파일을 엑셀에 불러오면, 우리는 순식간에 평균, 분산과 표준편차, 최빈값, 중앙값, 비율 따위의 표본 통계치(sample statistics)를 계산할 수 있다.

문제는 누구도 표본 통계치 자체에는 관심이 없다는 사실이다. 우리가 관심을 갖는 것은 모집단의 값, 즉, 모수(parameter)이다.  예컨대 유권자 전체에 있어 대통령 후보들의 지지율이다. 손에 쥔 것은 표본에서 얻은 지지율인데 정작 우리가 언급해야 하는 것은 모집단에서의 지지율이다.

예컨대, 대통령 선거에서 A, B 두 정당 후보가 경합하고 있고, 표본 여론조사 결과가 A 정당 후보 45%, B 정당 후보 40%, 지지 미정 15%라고 하자. 이 결과를 보고 A 정당 선거 참모가 자기 당 후보에게 우리가 B 당 후보를 이기고 있다고 보고했다면, 그의 보고는 맞는 것일까? 정답은 맞을 수도, 틀릴 수도 있다는 것이다. 그 차이가 실제 유권자 전체에서의 차이가 아니라 단지 표집의 우연적인 결과일 수도 있기 때문이다.

통계학의 모수 추정 기법은 이점을 분별할 수 있게 해준다. 제대로 통계를 배운 참모가 있다면 과학적 근거를 지닌 해석을 제공해서 선거 전략이 잘못될 가능성을 막아줄 것이다.

조금 쉬운 예를 가지고 모수 추정 방법을 알아보자.

한 콜 택시회사는 고객이 전화를 한 뒤 요청한 곳에 택시가 도착하기까지의 소요시간을 알아보기 위해 100번의 전화요청에 대해 소요시간을 조사했다. 그 결과, 표본평균은 13.3분이었다. 소요시간의 표준편차는 4.2분이라고 알려져 있다. 소요시간이 정규분포를 따른다고 가정하고 모평균에 대한 95%양측 신뢰구간을 구하면? (사회조사분석사 5회 출제)

통계학을 배우지 않았다면, 소요시간(모평균)이 대체로 13.3분(표본평균)일 것이라고 추정할 것이다. 모집단의 평균이 정확히  13.3분일 가능성이 거의 없으리라 짐작되니 ‘대체로’라는 수식어를 사용해서 빠져 나갈 구멍을 만들어 놓는 것이다. 통계학은 그 ‘대체로’를 수치적으로 표현한다.

그러기 위해서 표본평균으로 모평균(소요시간)을 추정하는 대신 신뢰수준을 설정하고 그 신뢰수준에서 모평균이 속할 범위(신뢰구간이라고 함)를 제시한다. 신뢰구간은 아래 방식으로 구할 수 있다.

                 표본통계치 오차범위(오차한계)

표본통계치–예컨대 표본평균–를 중심으로 하고 좌우로 오차범위를 잡아서 구한다. 표본통계치야 표본조사만 하면 손쉽게 구하지만 문제는 오차범위를 어떻게 구할 것인가이다.

오차범위는 표준오차(Standard Error)유의수준z-값을 곱한 값이다. 표준오차는 표본평균의 분포인 표집분포의 표준편차이고, 유의수준은 신뢰수준으로부터 도출된다. 위 예에서 신뢰수준(confidence level)을 95%로 선택했으므로 유의수준(significance level)은 0.05(=1-0.95)이다. 유의수준은 대표성이 없는 표본평균을 얻게 될 확률이다. 표집분포(정규분포)에서 양쪽 끝 부분이 0.05가 되는 지점의 z-값은 1.96이다. 표본평균의 표준오차는 아래 식으로 구할 수 있다.

그렇다면 오차범위(E라고 하자)는,

이 식을 보면, 오차범위는 신뢰수준이 높을수록(z-값이 커지므로) 커지고, 모집단의 이질성이 클수록(이 커지므로) 크다. 반면에 표본의 크기가 커지면(이 커지므로), 작아진다. 공식이 논리적으로 충분히 설득력을 갖고 있다. 추정하려는 모평균 를 가지고 공식을 다시 쓰면 아래와 같다.

이 공식을 가지고 위 예를 풀어보면,

즉, 95% 신뢰수준에서 소요시간(모평균)은 12.48분부터 14.12분 사이일 것으로 추정된다. “대체로 13.3분”“95% 신뢰수준에서 소요시간이 12.48분부터 14.12분 사이일 것이다”로 정교화되었다.

위 공식은 모집단의 표준편차()가 알려져 있을 때 사용된다. 만약 를 모른다면 어떻게 추정해야 하나?

우리 손에 쥔 것은 표본조사의 결과이다. 거기에서 표본평균()과 표본의 표준편차()를 구할 수 있다. 결국 그 표본 통계치로부터 모수를 추정할 수밖에 없다.

그런데 로부터 를 추정하고, 로부터 추정해야 하니 모수 추정의 불확실성이 커진다. 그 점이 추정에 반영되어야 한다. 통계학자들은 평균 추정의 경우에는 아래 식처럼 로 대체하고, 로 대체하면 충분하다고 생각한다.

여기서 분포에서 양쪽 끝 부분에 해당되는 확률이 가 되는 값이다. 만약95% 신뢰수준이라면, 양쪽 끝 부분의 확률이 0.05가 되는 -값이다. 그런데 분포는 분포와 달리 자유도에 따라 그 모양이 상당히 달라진다(아래 그림 참조).

즉, 자유도에 따라 동일한 신뢰수준(따라서 동일한 유의수준)에 대한 -값이 달라진다. 분포의 자유도는 이다. 즉,표본의 크기에서 1을 빼면 된다.그렇다면 표본이클수록 자유도도 커질것이다. 자유도가 커지면 동일한 유의수준의 -값이 작아진다.그러다 어느 이상의 크기가 되면 분포(표준정규확률분포)의 -값과 같아진다. 시뮬레이션을 해보면 자유도가 500 이상이면 그렇게 된다. 다시 말하면 표본의 크기가 대략 500 이상이 되면 분포 대신 분포를 사용해서 추정해도 무방하다는 말이다. 두 분포 모두 양끝의 확률을 0.05가 되게 만드는 지점(-값, -값)이 둘 다 1.96이기 때문이다.

위 예에서 만약 모집단 소요시간의 표준편차를 모르고 표본의 표준편차가 4.2분이라면, 소요시간은 신뢰구간은 얼마가 될까? 아래 공식을 사용해서 구해보자.

여기에 유의수준 0.05의 -값과 표본 통계치를 대입하면,

자유도 99에서 값은 1.9842이다. 위 식을 간단히 하면,

이 결과를 부등호를 사용하여 구간으로 표시하면 아래와 같다.

모집단의 표준편차를 알고 있을 때보다 신뢰구간이 약간 커졌음을 알 수 있다. 이를 말로 풀면, “95% 신뢰수준에서 소요시간이 12.47분부터 14.13분 사이일 것이다.”라가 될 것이다.

이상으로 평균의 추정에 대해서 알아 보았다. 만약 추정하려는 모수가 평균이 아니라 비율이라면 어떻게 될까? 평균을 추정할 때와 같은 부분도 있고 다른 부분도 있다. 다음 포스팅에서 알아보자. (2019-09-26)

과소 추정과 자유도

어떤 사회 현상이나 자연 현상을 탐구할 때 우리는 그 현상 전체(즉, 모집단)가 지닌 속성에 대해 관심을 갖는다.  그런데 현상 전체를 관찰하는 일은 현실적으로 불가능한 경우가 대부분이다. 모집단 전체를 관찰하는 것은 물리적으로나 시간적으로, 그리고 재정적으로 현실적이지 않다. 그런 의미에서 모집단이란 현실이라기 보다 관념이나 상상이라고 해도 과언이 아니다.

빅데이터 시대라고 별로 다르지 않다. 현상에 관한 데이터가 아무리 많더라도 그것이 현상 전부, 즉, 모집단 데이터라고 간주할 수는 없기 때문이다. 모집단이 무한할 수 있고, 항상 변화 중일 수도 있으며, 동시적인 관찰이나 기록이 불가능할 수도 있다.

그래서 표본 통계치를 통한 모수 추정은 여전히 유효하고 중요한 탐구 방법이다. 모수 추정이란, 작은 크기의 표본을 추출하여 표본 통계치(sample statistics)를  구한 다음 그것을 가지고 모집단의 속성(흔히 모수, parameter라고 부른다)을 추정하는 방법이다. 모수 추정을 통해서 통계학은 모집단을 추상적 관념에서 손에 잡히는 현실로 바꾸어 주는 셈이다. 추리 통계(inferential statistics)가 하는 역할이 바로 그것이다.

관련 이미지

 

그런데 모수를 추정하는 데 사용되는 추정 통계치는 세 가지 조건을 갖추어야 한다. 첫째, 통계치는 불편의적(unbiased)이어야 한다. 통계치가 모수보다 지속적으로 작게 나온다든지 지속적으로 크게 나오면 안된다. 통계치가 표본에 따라 아무리 요동을 치더라도 그것의 기대값은 모수와 같아야 한다. 표본 평균이 대표적인 불편의적 통계치이다. 즉, 표본평균의 기대값은 모평균이다.

둘째, 일관적(consistent)이어야 한다. 무작위 표본의 크기가 커지면, 표본 통계치가 모수에 가까워져야 한다. 통계학 교과서에 나오는 모든 통계치는 일관적이다.

셋째, 상대적으로 효율적(relatively efficient)이어야 한다. 통계치가 표본에 따라 크게 변하지 않아야 한다는 말이다. 통계치들 중 표준오차가 작은 것이 효율적이다. 예컨대 정규분포에서는 평균이 가장 효율적이다.

자유도(degree of freedom)는 위의 첫번째 속성인 불편의성에 관련되어 있다. 분산을 보자. 분산은 아래 공식에서처럼 편차제곱의 합을 가지고 구한다. 모집단(크기가 N)인 경우 편차제곱의 합을 모집단의 크기로 나누면 된다.

그런데, 만약 를 알지 못하기 때문에 를 알지 못한다면, 표본으로부터 평균과 분산을 모두 추정해야 한다. 그때 문제가 발생한다. 표본 평균 는 편차제곱의 합, 을 최소화한다.  즉, 어떤 다른 수를 대입해도 편차제곱의 합이 표본 평균의 경우보다 크다. 그것은 설령 그 수가 모평균, 라도 마찬가지이다. 만약 위 공식을 그대로 사용해서 표본 분산을 구하고 그것으로 모분산을 추정할 경우 과소 추정을 벗어날 수 없다. 표본 분산은 모분산보다 작게 된다는 말이다.

이 공식으로 표본분산을 구하면, 가 된다. 그러면, 표본분산은 추정 통계치가 갖추어야 할 첫번째 조건을 충족하지 못한다. 표본 분산이 편의적 추정치가 되는 것이다.

표본 평균과 표본 분산을 모수 추정에 사용하기 위해서는 반드시 과소 추정의 약점을 보완해야 한다. 통계학자들은 아래 식처럼 편차제곱의 합을 표본의 크기 대신 자유도 로 나누어주면 불편의 추정치 표본분산을 얻을 수 있음을 발견했다.

그렇다면 자유도는 무엇인가? 자유도는 통계학을 배우는 학생들에게 가장 난해한 개념 중 하나이다.

자유도(degree of freedom)란 어떤 통계값을 구하는데 있어 자유롭게 변할 수 있는 값의 갯수이다. 이게 도대체 무슨 말인가?

예컨대, 세 개의 수가 있는데, 그 세 수의 평균()이 주어져(즉, 고정되어) 있다면, 그 세 수 중 두 개가 정해지면 나머지 하나는 자유롭게 변할 수 없다. 만약 평균이 2이고, 이 1이고, 가 1이면, 는 반드시 4가 되어야 한다. 이 경우 자유도(통상 df라고 표기한다)는 2이다. 분산()을 보자. 분산이란 한 표본이 얼마나 퍼져있는지를 보여주는 통계척도이다. 분산을 구하려면 표본의 각 값에서 평균을 뺀 값을 제곱하여 더하고 표본의 크기()로 나누어주면 될 것이다. 그런데, 평균이 먼저 구해져야 분산을 구할 수 있다. 그런데 위에서 보듯이 평균이 정해지면 자유도 하나를 잃는다. 따라서 분산의 자유도는 이다. 만약 편차의 제곱을 으로 나누면 분산을 과소추정하게 된다. 표본 분산이 모 분산을 과소 추정하는 것을 막기 위해서는 편차의 제곱을  대신 로 나누어야 한다. 즉, 불편의성을 확보하기 위해 자유도로 보정해 주는 것이다.

자유도는 다소 다른 용도로도 사용된다. 모집단의 평균과 분산을 둘 다 모르면 모평균의 구간 추정을 할 때 분포를 적용하는데, 그 분포는 아래 그림에서처럼 자유도의 값에 따라 사뭇 다른 확률분포를 갖는다.  이런 의미에서  분포 하나의 분포라기보다 한 계열의 분포라고 말하는 편이 정확할 것이다.

교차표(cross-table)를 분석할 때 적용하는 카이자승() 분포도 자유도에 따라 상당히 다른 모양을 갖는다(아래 그림 참조).

chi-squared distribution에 대한 이미지 검색결과

이상으로 자유도에 대한 개괄적인 설명을 마친다. (2019-09-19, 윤영민)

가을 입문

화훼단지에 가서 가을꽃을 사왔다. 오늘 비가 내린다니 어제 서둘러 심으려는 것이었다.

앞뜰의 꽃마차에 전시한 화분을 갈았다. 큰 마차에는 펜타스를, 작은 마차에는 소국 화분을 올렸다. 지나가는 이웃 아주머니들이 좋아하실 것이다.

꽃마차의 펜타스와 소국

테라스의 꽃도 가을 정취가 나도록 보라빛 소국 화분을 추가했다. 아직 꽃들이 만개하지 않았지만 조금 있으면 소국, 용담, 카멜레온이 소담스럽게 피어날 것이다.

테라스의 소국, 용담, 카멜레온(채송화)

앞 도로와 마주한 경계화단에는 지난 봄에 이식한 백공작과 보라공작, 남천이 가득하다.

경계화단의 백공작과보라공작
대문, 남천, 영산홍,보라공작, 백공작

이제 잔디를 몇 번만 잘라주면 올해가 갈 것이다. 한여름처럼 잔디가 쑥쑥 자라지 않는다. 어제는 앞뜰 잔디를 잘랐다.

앞뜰과꽃마차

1986년 생애 첫 차 구입 – Chevy Monza

옛날 사진들을 보다가 몇몇 사진을 챙겼다. 그중 하나.

USC, Columbia, SC, USA, 1986

1986년 1월 미국 사우스 캐롤라이나의 컬럼비아 시에 있는 USC(University of South Carolina)의 국제관계학과로 혼자 유학을 떠났다. 6개월만에 그 학교의 사회학과에서 장학금을 받고 석사 과정에 다시 들어갔다. 한국에 남아 오매불망 나를 기다리던 아내와 수정이를 데리고 컬럼바아로 돌아갔다.

어떤 한국 유학생으로부터 7백달러를 주고 시보레에서 나온 몬자(Monza)라는 중고차를 샀다. 차 없이 세 식구의 생활이 불가능했기 때문이다.

그런데 여름 날씨가 섭씨 40도를 넘나드는데 차 에어컨이 작동하지 않았다. 에어컨이 달려는 있었는데, 에어컨을 켜면 금세 엔진이 과열되었기 때문에 에어컨을 켤 수 없었다.

차에 무식했던 나는 엔진 오일을 제대로 넣어주지 못했고, 결국 엔진 고장으로 몇 달만에 차를 포기했다. 그래도 첫 차인지라 잊혀지지 않는다. 비록 싸고 낡은 차였고, 아주 잠시만 탔지만 말이다. (2019-09-11)

조건부 확률과 결합확률, 어떻게 구분할 것인가

다음 교차표는 미국 어느 도시에서 경찰관들이 2년 동안 승진한 현황을 담고 있다.

다음 질문에 답해 보자.

  1. 남자 경찰관이 승진할 확률은?
  2. 여자 경찰관이 승진할 확률은?
  3. 승진한 남자 경찰관의 비율은?
  4. 승진한 여자 경찰관의 비율은?

먼저 사건을 정의하자. 남자 경찰관: M, 여자 경찰관: W, 승진: A, 승진탈락:

이 질문들에 답하기 위해서는 이 교차표로부터 결합확률표를 만들어야 한다. 승진한 남자 경찰관은 288명이며, 승진한 여자 경찰관은 36명이다. 승진한 남자 경찰관의 비율이 남자 경찰관 사건과 승진 사건의 결합확률이다. 즉,

여자 경찰관과 승진의 결합확률은,

이는 곧 승진한 여성 경찰관의 비율이다. 남자 경찰관과 승진탈락의 결합확률, 그리고 여자 경찰관과 승진탈락의 결합확률은 각각 아래와 같다.

결합확률표에 들어가는 주변확률은 각 사건의 비율이다. 즉, 남자 경찰관의 비율(0.80), 여자 경찰관의 비율(0.20), 승진의 비율(0.27), 승진탈락의 비율(0.73)이다. 이 확률들을 가지면 다음과 같은 결합확률표가 만들어진다.

남자 경찰관이 승진할 확률을 보다 확률적으로 표현하면, 만약 어떤 경찰관이 남자라면 그가 승진할 확률은 얼마인가가 될 것이다. 이는 조건부 확률, 이다. 선행 사건(혹은 조건 사건)이 남자 경찰관(M)이고, 후행 사건이 승진(A)이다. 두 사건이 시간적으로 순차적으로 발생한 것임을 알 수 있다. 이를 나무 그림으로 표현하면 다음과 같다.

이 나무 그림을 보고 확률을 생각하면 훨씬 직관적이다. 먼저 경찰관 1명을 무작위로 추출하였을 때 그가 남자 경찰관일 확률은 0.8이고, 여성 경찰관일 확률은 0.2이다. 이것이 남자 사건과 여자 사건의 주변확률이다. 또한 어떤 경찰관을 무작위로 추출하였을 때 그가 승진한 남자 경찰관일 확률은 0.24, 승진한 여자 경찰관일 확률은 0.03이다. 이것은 남자 사건과 승진 사건, 여자 사건과 승진 사건의 결합확률이다. 이는 위에서 제기한 질문 3과 4에 대한 답이다.

그리고 질문 1, 남자 경찰관이 승진할 확률은 0.3이고, 질문 2, 여자 경찰관이 승진할 확률은 0.15이다. 이것은 남자 사건이 주어졌을 때 승진 사건이 발생할 조건부 확률, 그리고 여자 사건이 주어졌을 때 승진 사건이 발생할 조건부 확률이다.

물론 어떤 경찰관이 승진하였을 때 그가 남자일 확률도 조건부 확률이다. 계산해 보면 다음과 같다.

사실 조건부 확률에서 선행 사건과 후행 사건은 시간적 순서이라기보다 논리적 순서라고 보는 편이 맞을 것이다. 여하튼 조건부 확률에는 순서가 있다. 반면에 결합확률은 동시적이다. 즉, 순서가 없다. 이점도 기억해두면, 어떤 명제(혹은 문제)가 결합확률을 가리키는지 아니면 조건부 확률을 가르키는 지를 구분하는 데 도움이 될 것이다.

문제가 주어졌을 때 그것이 조건부 확률에 대한 질문인지 아니면 결합확률에 대한 질문인 지를 학생들이 잘 혼동하는 것 같아 조금 자세히 설명해 보았다. (2019-09-10, 윤영민)

현대의 정치, 무엇이 문제인가?(2)가치 배분

정치에서 권력투쟁과 가치배분이라는 두 측면 중 어느 쪽이 더 중요할까? 매일 매일 접하는 언론의 정치 관련 뉴스를 보면, 권력투쟁에 관한 뉴스의 양이 가치배분에 관련된 뉴스의  양을 압도한다. 그것을 기준으로 판단한다면 전자가 후자보다 분명히 중요해 보인다.

그러나 뉴스에는 언론이라는 매개체의 관점과 이해가 관여되어 있음을 기억하자. 뉴스에서 보이는 비중의 차이는 두 가지 다른 원인 때문일 수 있다. 정말로 권력투쟁이 가치배분보다 중요하기 때문에 그런 결과가 나왔을 수도 있고, 언론이, 가치배분보다 권력투쟁이 더 많은 뉴스 가치가 있다고 생각하기 때문일 수도 있다. 이중 어떤 쪽이 더 진실에 가까운지는 쉽게 단언할 수 없다. 다만 언론사들이 시청률과 조회수에 목을 매는 최근의 현상을 볼 때 후자 쪽이 더 진실에 가깝지 않나 생각된다. 아무튼 눈에 보이는 것이 전부가 아니다라는 금언이 정치 뉴스보다 더 잘 들어맞는 경우는 없지 않나 싶다.

조국 교수가 법무부장관 후보자로 지명되고 나서 언론의 집중적 조명을 받은 가장 핫한 뉴스는 조국 교수의 딸이 동양대학교에서 받은 표창장에 관한 것이었다. 반면에 후보자의 능력이나 소신은 고사하고 후보자 자신의 비리나 부정에 관한 뉴스는 거의 찾아볼 수 없었다. 혹시 이 현상이 언론의 센세이셔널리즘 때문은 아니었을까? 물론 일부 야당이나 검찰의 권력 투쟁 아젠다 때문이기도 하겠지만 말이다.

가치 배분의 측면에서 우리 정치는 무슨 일을 하고 있을까? 언론 뉴스를 아무리 뒤져도 이 의문에 대한 적절한 해답을 찾을 수 없다. 다음은 국회의 의안정보시스템에서 찾은 20대 국회에서 진행되고 있는  법제정 현황이다.

제20대 국회가 개원된 이래 현재까지 총 2만1천578건의 법안이 발의되었고, 그중 6천350건이 처리되었다. 국회의원들이 싸움만 하는 줄 알았는데 그것은 아님을 알 수 있다. 물론 그 중에는 싸우다가 회기 막판에 무더기로 통과된 법률안도 적지 않겠지만 법률안을 만들거나 검토하기 위해 많은 국회의원들이 활동하고 있음이 분명하다. 이를 보면 일은 안하고 쌈질만 한다고 비판을 들으면 억울해야할 정치인들이 적지 않을 것임을 짐작할 수 있다.

의안정보시스템을 검색하면 위 법안들의 내용을 찾아볼 수 있다. 아래는 검색 결과의 일부이다(아래 그림을 클릭하면 의안정보시스템에 들어갈 수 있다).

맨 위에 올라온 법안 명칭을 몇 개만 일별해도 정치가 ‘가치의 배분’이라는 의미가 물씬 다가온다. 한국농어촌공사 및 농지관리기금법 일부개정법률안(대안), 자유무역협정 체결에 따른 농어업인 등의 지원에 관한 특별법 일부개정법률안(대안), 화훼산업 발전 및 화훼문화 진흥에 관한 법률안(대안), 수의사법 일부개정법률안(대안), 양봉산업의 육성 및 지원에 관한 법률안(대안) 등. 농림축산식품해양수산위원회가 소관위원회인 법안들이 맨 위에 놓여서 그 분야에 관련된 법률들이기는 하지만 법안 하나 하나가 관련된 산업, 기업, 당사자의 활동과 수입에 중대한 영향을 미치는 것들임을 쉽게 가늠할 수 있다.

법치주의 국가에서 공직자는 누구나 반드시 법에 근거해서 업무를 수행해야 한다. 사회의 각 부문이나 분야를 규제(혹은 지원)하는 개별법말고도 국가기관이 업무를 수행하는데 필요한 예산을 결정하는 정부의 예산안도 매년 통과되어야 하는 법률이다. 법에 근거하지 않고 어떤 공직자도 기관 예산을 지출할 수 없다.

그런데 어떤 법도 쉽게 만들어지지 않는다. 헌법과 같은 상위법과 어긋나지 않아야 하고 그 법에 영향을 받게 될 관련 당사자들 사이의 이해관계도 조정되어야 하며, 예산 지출이 따르는 경우 정부 예산 편성에 포함되어야 하기 때문이다. 그 과정은 정부가 발의하던 의원이 발의하던 별로 다르지 않다. 그래서 국회에서는 위원회, 포럼, 세미나, 공청회 등이 연중 개최된다.  그리고 그중 아주 일부 활동만이 언론의 조명을 받는 행운을 누린다.

입법 활동 중 어떤 것이 기사화되는가는 거의 전적으로 언론사의 판단에 의해 좌우된다.  언론사의 판단에 있어서 해당 법안의 사회적 혹은 정치적 중요성이 고려되겠지만 그 이상으로 중요한 요소는 독자나 시청자 인터넷 이용자들의 주목을 받을 수 있느냐이다.

이제 권력투쟁으로서의 정치가 지닌 모습을 살펴보자. (2019-09-07, 윤영민)