데이터 한 그릇

기초통계12 : 두 모집단 비교에 관한 추론 본문

통계/기초통계

기초통계12 : 두 모집단 비교에 관한 추론

장사이언스 2021. 3. 19. 22:08
  • 두 모평균 차이에 관한 추론 : 독립표본
  • 관측데이터와 실험데이터
  • 두 모평균 차이에 관한 추론 : 짝진표본
  • 두 모분산 비율에 관한 추론

https://kurt7191.tistory.com/16?category=1000998

 

기초통계11 : 한 모집단에 관한 추론

모표준편차가 알려져 있지 않을 때 모평균에 관한 추론 모분산에 관한 추론 모비율에 관한 추론 https://kurt7191.tistory.com/15 기초통계10 : 가설검정의 기본원리 가설검정의 개념 모표준편차가 알려

kurt7191.tistory.com


  이 장에서는 두 모집단을 비교하는 다양한 통계기법이 제시된다. 대부분 구간변수들이 분석대상이며 관심 있는 모수는 두 모집단의 모수의 차이이다. 이 때 두 모평균의 차이에 관한 추론에서 올바른 통계방법을 결정하는 다른 요인, 즉 데이터를 수집하기 위해 사용되는 서로 다른 실험설계 방법이 소개된다.

 

  두 모평균 차이에 관한 추론 : 독립표본

 

  두 모평균 차이를 검정하고 추정하기 위해서 통계전문가들은 두 모집단에서 임의표본을 추출한다. 지금 이 파트에서는 독립표본(Independent sample)들을 대상으로 두 모평균 차이에 관한 논의가 진행된다. (표본 = 독립표본, 대상 = 두 모집단의 모평균의 차이)

  이 때 두 모평균 차이의 최량추정량은 두 표본평균 차이이다. 만일 정규분포를 따르는 두 모집단이 존재하고 각각의 모집단에서 표본을 추출하여 평균을 계산 후에 각각의 계산된 평균들끼리 차이를 계산한다면 그 값의 분포는 정규분포를 따를 것이다. 또한 두 모집단이 정규분포를 따르지 않지만 표본크기가 크다면 근사적으로 두 표본평균의 차이의 분포는 정규분포를 따른다.  이 때 두 표본평균의 분포의 기대치와 분산 표준편차는 다음과 같다.

(if 두 모집단 정규분포 -> 두 모집단의 표본평균의 분포 -> 정규분포),(두 표본평균의 차이의 분포의 기대치와 분산 표준편차 아래와 같음)

 

$$E(\bar{x}_{1} - \bar{x}_{2}) = \mu_{1} - \mu_{2}$$

 

$$V(\bar{x}_{1} - \bar{x}_{2}) = \frac{\sigma^2_{1}}{n_{1}} + \frac{\sigma^2_{2}}{n_{2}}$$

 

$$\sqrt{\frac{\sigma^2_{1}}{n_{1}} + \frac{\sigma^2_{2}}{n_{2}}}$$

 

 

  따라서 두 표본평균의 차이의 검정통계량과 신뢰구간은 다음과 같다.

 

$$z = \frac{(\bar{x}_{1} - \bar{x}_{2}) - (\mu_{1} - \mu_{2})}{\sqrt{\frac{\sigma^2_{1}}{n_{1}} + \frac{\sigma^2_{2}}{n_{2}}}} , \nu = n_{1} + n_{2} - 2$$

 

$$(\bar{x}_{1} - \bar{x}_{2}) \pm z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2_{1}}{n_{1}} + \frac{\sigma^2_{2}}{n_{2}}}   $$

 

  하지만 이 식들은 실제로 모분산이 알려져 있는 경우가 거의 없기 때문에 잘 쓰이지 않는다. 따라서 표본분포의 표준오차를 추정할 필요가 있는데, 이 때 사용되는 방법은 알려져 있지 않은 두 모분산이 동일한지에 대한 여부에 따라 다르게 사용되어진다. 만일 모분산이 동일하다는 가정하에서 모평균의 차이의 검정통계량은 다음과 같다.

 

$$t = \frac{(\bar{x}_{1} - \bar{x}_{2}) - (\mu_{1} - \mu_{2})}{\sqrt{s^2_{p}(\frac{1}{n_{1}} + \frac{1}{n_{2}})}}$$

 

또한 통합분산추정량을 구하는 식은 다음과 같다.

 

$$s^2_{p} = \frac{(n_{1} - 1)s^2_{1} + (n_{2} - 1)s^2_{2}}{n_{1} + n_{2} - 2}$$

 

  s^2_{p}은 통합분산추정량(pooled variance estimator)이라고 불린다. 통합분산추정량은 각 표본의 자유도를 가중치로 사용하면서 구해지는 두 표본분산의 가중평균이다.

  두 모집단이 정규분포를 따르면 검정통계량은 자유도가 n1 + n2 -2인 student t분포를 따른다. 이것으로부터 지금까지 해왔던 방식으로 두 모평균 차이의 신뢰구간을 측정할 수 있다. 식은 다음과 같다.

 

$$(\bar{x}_{1} - \bar{x}_{2}) \pm t_{\frac{\alpha}{2}}\sqrt{s^2_{p}(\frac{1}{n_{1}} + \frac{1}{n_{2}})}, \nu = n_{1} + n_{2} - 2$$

 

  이와 같은 공식들은 각각 동분산 검정통계량(equal-variance test statistic)과 동분산 신뢰구간(equal-variance confidence interval estimator)이라고 부른다. (두 모평균의 차이의 검정통계량을 구하는 것과 두 모평균 차이의 신뢰구간을 구하는 것,, "두 모분산이 동일하다는 전제에서 통합분산추정량을 사용하여")

 

  하지만 두 모분산이 동일하지 않을 때는 통합분산추정치가 사용되어질 수 없다. 이 때는 각 모분산은 각 표본분산으로 추정된다. 하지만 각 모분산을 각 표본분산으로 대체한 값은 정규분포도 따르지 않고 student t분포도 따르지 않는다. 하지만 각 모분산을 각 표본분산으로 대체한 검정통계량의 표본분포는 특정한 자유도를 지닌 student t분포를 근사적으로 따른다. 아래는 그 자유도의 값이다.

 

켈러의 경영경제통계학,507pg

  그렇다면 모분산을 표본분산으로 대체했을 경우의 검정통계량과 신뢰구간은 t통계화하여 다음과 같이 쉽게 구해질 수 있다.(특정 자유도를 지닌 student t 분포에 근사하므로) 이와 같은 공식들은 각각 이분산 검정통계량(unequal - variance test statistic)과 이분산 신뢰구간추정량(unequal-variance confidence interval estimator)이라고 불린다.


 

  여기까지 정리해보자. 우리가 이번 장에서 관심있어 하는 모수는 두 모집단의 평균의 차이라고 할 수 있다. 만일 두 모집단이 정규분포를 따른다고 한다면 두 표본평균의 차이의 분포는 정규분포를 따른다. 그러나 두 모집단이 정규분포를 따르고 있지 않을 경우에는 표본크기가 크다는 전제하에서 두 표본평균의 차이의 분포는 근사적으로 정규분포를 따른다. 이를 이용하여 두 표본평균의 차이의 표본분포의 기대치와 분산 그리고 표준편차를 계산할 수 있다. 이 값들을 이용하여 정규분포의 표준화된 검정통계량과 신뢰구간을 도출할 수 있다. 그러나 공식에 사용되는 모분산에 관한 정보가 현실적으로 주어져 있지 않은 경우가 많기 때문에 이 방법은 자주 사용되지 않는다. 따라서 다른 방법이 필요하다.

  따라서 표준오차에 관련된 추정을 해야만 하는데, 이 때 사용되는 방식은 두 가지로 나뉜다. 첫 째로는 두 모분산이 동일하다는 것이고 두 번째는 두 모분산이 동일하지 않다는 전제이다. 첫 번째 방식은 분산의 값으로 통합분산추정치를 사용하여 검정통계량과 신뢰구간을 구하는 방식이다.(이 때 두 모집단이 정규분포를 따른다면 표본으로부터 구해진 검정통계량은 student t분포를 따른다) 통합분석추정치란 각 표본의 자유도를 가중치로 사용하면서 구해진 두 표본분산의 가중평균이다. 이를 통해서 동분산 검정통계량과 동분산 신뢰구간을 구할 수 있다.(말 그대로 동분산일 때 검정통계량과 신뢰구간)

  다음 방법으로는 두 모분산이 동일하지 않을 때 사용하는 표준오차에 대한 추정방식이다. 이 때는 모분산의 값을 표본분산의 값으로 대체하여 사용하는데, 이 때 구해진 검정통계량의 분포는 안타깝게도 student t분포를 따르지도 않고 정규분포도 따르지도 않는다. 하지만 특정 자유도의 수치에서 student t분포에 근사한다. 따라서 student t분포를 이용하여 이분산 검정통계량과 이분산 신뢰구간을 구할 수 있게 된다.

 


  그렇다면 다음과 같은 질문이 생긴다. 모분산의 값을 알 수 없기 때문에 표준오차를 추정해야하며 그 방법에는 두 가지가 있다는 것도 알았다. 그리고 그 방법이 나뉘는 기준은 모분산이 동일한지 아닌지에 따른 여부인 것도 알았다. 그렇다면 두 모분산이 동일한지에 대한 여부는 어떻게 파악할 수 있는 것인가? 실제로 모분산은 알려져 있지 않은 경우가 대다수이기 때문에 둘이 동일한지 여부를 파악하기 힘들다. 그러나 모분산이 다르다고 추론할 수 있는 증거가 존재하는지 결정하기 위한 통계적 검정을 수행할 수 있다. 따라서 두 모분산 비율에 대한 "F-검정"이 수행된다. 이 때 가설검정을 이용한다.

 

  다음 각각은 가설검정의 귀무가설과 대립가설이다.

 

$$H_{0} : \sigma^2_{1}/\sigma^2_{2} = 1$$

$$H_{1} : \sigma^2_{1}/\sigma^2_{2} \ne 1$$

 

 

  검정통계량은 s1/s2 이고 자유도가 n1-1 과 n2-1인 F-분포를 따른다. 이 때 당연히 F분포에 대한 전제는 두 모집단 모두 정규분포를 따른다는 점이다. 또한 F검정은 양측검정이므로 기각역은 다음과 같다.

 

$$F>F_{\frac{\alpha}{2},\nu_{1},\nu_{2}} 또는 F<F_{\frac{1-\alpha}{2},\nu_{1},\nu_{2}}$$

 

 

  즉, 표본분산 비율이 임계값보다 크거나 작으면 귀무가설은 기각된다. 만일 귀무가설이 기각이 된다면 이분산 검정통계량과 이분산 신뢰구간추정을 이용한다.

 

  하나의 예시를 통해서 두 모평균의 차이에 관한 추론을 살펴보도록 하자.

 

  "수백만의 투자자들은 수천 개 가능성 중에서 선택하면서 뮤추얼 펀드를 구매한다. 일부 펀드들은 은행 또는 기타 금융기관으로부터 직접 구매될 수 있는 반면, 다른 펀드들은 중개서비스를 제공하고 수수료를 부과하는 브로커를 통해서 구매되어야 한다. 이것은 다음과 같은 질문을 제기한다. 투자자들은 브로커를 통해 뮤추얼 펀드를 구매하는 것보다 직접 뮤추얼 펀드를 구매하는 것에 의해 더 좋은 투자성과를 얻을 수 있는가? 이와 같은 질문에 답변하기 위해 일단의 연구자들은 직접 구매될 수 있는 뮤추얼 펀드들과 브로커를 통해 구매될 수 있는 뮤추얼 펀드들로부터 임의로 뮤추얼 펀드의 연간수익률들을 표본으로 추출하고 모든 관련된 수수료를 공제한 후의 투자수익률을 의미하는 연간순수익률들을 기록하였다.

  직접 구매한 뮤추얼 펀드의 연간순수익률이 브로커를 통해 구매한 뮤추얼 펀드의 연간순수익률보다 더 높다고 5%의 유의수준에서 결론내릴 수 있는가?(각 모집단에서 50개의 임의표본을 추출하였다.)"

 

 

  먼저 분류해야할 것은 모집단이다. 직접 구매한 뮤추얼 펀드의 연간순수익률 모집단과 중개 브로커를 통해 구매한 뮤추얼 펀드의 연간순수익률로 모집단을 나눌 수 있다. 그렇다면 우리가 구하고 싶어하는 모수는 각각의 모집단의 평균 값의 차이이며 이 차이가 양수를 보이고 있는지 음수를 보이고 있는지이다. 여기서 우리가 검정하고 싶어하는 가설은 직접 구매한 뮤추얼 펀드의 연간순수익률이 브로커를 통해 구매한 연간순수익률보다 높은지이기 때문에 대립가설을 0보다 크다로 설정하고 귀무가설을 0으로 설정한다. 가설검정의 식은 다음과 같다

 

$$H_{1} : (\mu_{1} - \mu_{2}) > 0$$

 

$$H_{0} : (\mu_{1} - \mu_{2}) =  0$$

 

  앞서 우리는 두 평균의 차이에 관한 검정통계량과 신뢰구간을 구하는 방식이 두 가지가 있음을 살펴보았다. 그 방식은 모분산이 같은지의 여부에 따라서 나뉘게 된다. 따라서 우리는 두 모집단의 모분산이 동일한지 검정해야만한다. 그 검정은 위에서 살펴봤듯이 F검정 방식을 사용해야만 한다. 즉, 두 모집단의 모분산 비율에 대한 F검정을 실시해야만 한다. 두 모집단의 모분산이 같으면 동분산 검정통계량과, 동분산 신뢰구간(Student t분포를 따른다는 가정하에)을 구하고 다르다면 이분산 검정통계량과, 동분산 신뢰구간을 구한다.

 

  먼저 통계학자들이 두 모집단으로부터 임의표본을 추출하고 표본분산을 계산해본 결과 각각 37.49와 43.34가 도출이 되었다. f검정통계량을 도출하기 위해서 37.49/43,34 를 실시한 결과 0.86이 도출 되었다. 자유도는 50개의 표본크기이기 때문에 49이다. 기각역은 아래의 식과 같이 1.75 또는 0.57이 도출된다.

 

출처 : 켈러의 경영경제통계학 511pg

 

  결국 f검정을 통해서 나타난 값은 0.86이기 대문에 0.57보다 낮지 않고 1.75보다 크지 않아서 귀무가설은 기각되지 않는다. 따라서 두 모분산이 다르다고 할만한 증거가 충분히 존재하지 않기 때문에 대립가설을 선호할 수 없고 귀무가설을 기각할 수 없다. 따라서 동분산이라고 생각해야만 하며 동분산 검정통계량과 동분산 신뢰구간추정을 사용해야만 한다. 

 

  위의 가설검정을 동분산 검정통계량을 통해서 살펴보도록 하자. 예를 들어서 각 모집단의 표본으로부터 평균이 6.63, 3.72가 도출되었다고 해보자. 그리고 각각의 분산이 37.49와 43.34가 나왔다고 해보자. 동분산 검정통계량은 통합분산추정량을 통해서 구해진다. 통합분산추정량을 구했더니 40.42가 도출되었다고 해보자. 또한 이 검정통계량의 자유도는 98이며 기각역은 1.660이다.

 

  마지막으로 동분산 검정통계량을 구하게 되면 다음과 같은 식으로 2.29가 도출이 된다.

 

출처 : 켈러의 경영경제통계학 511pg

 

  검정통계량의 값은 2.29이며 기각역은 1.660이기 때문에 검저통계량이 기각역안에 포함되기 때문에 귀무가설을 기각하고 대립가설을 선호할 수 있게 된다. 따라서 직접 구매한 뮤추얼 펀드의 연간순수익률이 브로커를 통해 구매한 뮤추얼 펀드의 연간순수익률보다 크다고 추론할 수 있게 된다.

 

(두 모집단의 평균의 차이 계산 과정 : 

문제 이해 -> 구하려고 하는 가설 설정 ->동분산인지 이분산인지 파악 -> 두 모집단의 표본으로부터 분산을 계산후에 분산비를 f검정 -> f검정 결과 귀무가설이 기각되지 않으면 동분산, 기각되면 이분산으로 판정 -> 동분산으로 검정통계량 계산한 후에 최종 가설검정 검정 -> 완료)


관측데이터와 실험데이터

 

  우리는 관측데이터와 실험데이터의 차이를 이해해야만 한다. 관측데이터와 실험데이터의 차이는 데이터가 생성되는 방식에 의해 발생된다. 다음의 예시로 관측데이터와 실험데이터의 차이를 이해해보도록 하자.

 

"과학자들은 일반적으로 고섬유질 시리얼은 여러 가지 형태의 암 발생 가능성을 감소시킨다는 점에 동의한다. 그러나 한 과학자는 아침식사로 고섬유질 시리얼을 먹는 사람들은 아침식사로 고섬유질 시리얼을 먹지 않는 사람들보다 점심식사에 평균적으로 더 적은 칼로리를 섭취한다고 주장한다. 만일 이것이 사실이라면, 고섬유질 시리얼 제조회사는 자기 제품을 먹는 다른 하나의 장점으로 잠재적인 ㄴ체중감소를 주장할 수 있을 것이다. 이와 같은 주장을 예비적으로 검정하기 위해 150명이 임의로 선택되었고 그들이 아침식사와 점심식사로 통상 무엇을 먹는지 물었다. 각 사람은 아침식사로 고섬유질 시리얼을 먹는 사람 또는 고섬유질 시리얼을 먹지 않는 사람으로 구별되었고 각 사람이 점심식사로 섭취하는 칼로리의 양이 측정되어 기록되었다. 이와 같은 데이터가 다음과 같이 정리되어 있다. 이 과학자는 5%의 유의수준에서 자신의 믿음이 옳다고 결론내릴 수 있는가?"

 

  이 또한 두 모집단으로 나눌 수 있는데 한 모집단은 아침식사로 고섬유질 시리얼을 먹는 사람들이 점심식사로 섭취한 칼로리의 양과 다른 하나는 고섬유질 시리얼을 ~칼로리의 양이다. 따라서 두 모집단의 차가 양수나 0을 보이면 고섬유질 시리얼을 먹는다고 하여 점심식사를 덜 먹는 것이 아니며 만일 0보다 낮게 나온다면 고섬유질 시리얼을 먹으면 먹지않은 사람들보다 점심식사 칼로리 섭취가 더 적다는 것을 알 수 있다. 따라서 귀무가설은 두 모평균의 차이가 0과 같다고 설정하고 대립가설은 두 모평균의 차이가 음수라고 설정한다. 두 모집단이 이분산일 때의 두 모평균의 차이의 t검정통계량을 구한 결과 -2.09가 도출이 되었다. 이는 계산해보면 유의수준 5%의 안에 속하여 귀무가설이 기각된다고 할 수 있다. (다양한 계산이 현재 생략되어 있다.)

 

  이와 같은 결과로부터 우리는 귀무가설이 기각되었기 때문에 아침에 고섬유질 시리얼을 먹는 사람이 먹지 않은 사람보다 점심 칼로리 섭취량이 더 적다고 결론내릴 수 있다. 그러나 다른 해석도 가능하다. 아마도 점심에 더 적은 칼로리를 섭취하는 사람은 건강을 많이 생각하는 집단일수 있으며 그 집단은 건강을 생각하기 때문에 아침에 고섬유질 시리얼을 먹은 것일 수도 있다. 따라서 이와 같은 해석으로 인해서 고섬유질 시리얼이 반드시(필연적으로) 점심식사의 칼로리 섭취량을 줄이는 것이 아니다. 통계 결과는 달라지지 않았지만 다양한 해석이 나올 수 있다. 이와 같이 데이터의 표본을 구할 때 관측데이터와 실험데이터를 뽑는 대상을 미리 분리해서 뽑았기 때문에 이러한 다양한 해석이 나올 수 있다. 결국 두 모평균 차이에 관한 검정의 관점에서 데이터가 어떻게 확보되는가에 관한 문제가 모든 통계기법의 해석과 관련되어 있다는 점을 알아야만 한다.

 


두 모평균 차이에 관한 추론 : 짝진표본

 

  이 절에서는 데이터가 짝진표본으로부터 수집된 것을 통해서 추론이 이루어진다. 짝진실험이 왜 필요한지 예제를 통ㅇ해서 살펴보자.

 

"과거 수년 동안에 취업서비스를 제공하는 수많은 웹기반 회사들이 만들어졌다. 이와 같은 회사들 중 한 회사의 경영자는 최근의 mba 졸업생들이 받는 취업제안을 조사하기 원하였다. 특히 그녀는 재무전공자들이 마케팅전공자들보다 더 높은 연봉을 받는지 알기 원하였다. 한 예비연구에서 그녀는 임의로 50명의 최근 mba 졸업생들을 표본으로 추철하였다. 이들 중 절반은 재무전공자들이고 나머지 절반은 마케팅 전공자들이었다. 그녀는 각 mba 졸업생이 제안 받은 최고 연봉에 관한 데이터를 수집하였다. 이에 대한  데이터가 다음과 같이 정리되어 있다.(표생략) mba 재무전공자들이 mba 마케팅전공자들보다 더 높은 연봉제안을 받는다고 추론할 수 있는가?"

 

  문제의 요점은 두 모집단의 평균의 차이라고 할 수 있다. 한 모집단은 재무를 전공한 mba 졸업생일 것이며 다른 모집단은 마케팅을 전공한 mba졸업생일 것이다. 가설검정을 통해서 귀무가설을 0으로 설정하고 대립가설을 양수로 설정한다. 식은 다음과 같다.

 

$$H_{0} : \mu_{1} - \mu_{2} = 0$$

$$H_{1} : \mu_{1} - \mu_{2} >0$$

 

  그리고 두 모집단으로부터 임의표본을 추출한 것을 통해서 각각의 모분산을 구하고 그 비를 구한다. 그 비가 유의수준 5%이내의 기각역에 속하는지 확인해봤더니 두 모분산이 동일하다는 결론이 나왔다. 따라서 동분산이면서 두 표본평균의 차에 관한 검정통계량을 t검정통계화 한다.(통합분산추정을 사용) 그 결과 1.04가 도출이 되었다. 표본크기가 두 개 합하여 50이기 때문에 자유도는 48이며 따라서 기각역은 1.676이 도출이 된다.

  따라서 1.04는 1.676보다 작기 때문에 귀무가설을 기각할 수 없다. 따라서 재무를 전공한 mba 졸업생이 마케팅을 전공한 mba 졸업생보다 더 높은 임금을 받는 다는 것은 증명되지 않는다. 

 

  하지만 다른 예시를 통해서 다르게 이 문제에 대해서 접근해보도록 하자.

 

"다음과 같은 방식으로 주어진 실험을 다시 한다고 하자. mba 재무전공자들과 mba 마케팅전공자들의 성적표를 조사하고 gpa가 3.92와 4 사이에 속하는 재무전공자와 마케팅전공자를 임의표본으로 추출한다. 이어서 gpa가 3.84와 3.92 사이에 속하는 재무전공자와 마케팅전공자를 임의표본으로 추출한다. 이와 같은 표본추출과정을 gpa가 2.0과 2.08 에 속하는 재무전공자와 마케팅전공자의 25번째 임의표본이 추출될 때까지 계속한다. 각 그룹은 재무전공자와 마케팅전공자가 제안 받는 최고 연봉이 기록되었다. 이와 같은 데이터가 gpa 그룹별로 다음과 같이 정리되어 있다. 이 데이터로붵 재무전공자가 마케팅전공자보다 더 높은 연봉제안을 받는다고 결론내릴 수 있는가?"

 

  첫 예제의 두 모집단은 서로 관계가 없는 표본들이다. 그러나 이번 예제의 두 모집단은 한 표본의 각 관측치가 다른 표본의 관측치와 짝이 되도록 설계되었다. 이와 같은 형태의 실험은 짝진실험(matched pairs experiment) 라고 부른다. 이를 통해서 하나의 그룹에 속하게 함으로써 한 표본의 관측치가 다른 표본의 관측치와 연관이 되게 된다. 이를 ud, 차이모집단의 평균이라고 부르며 다음과 같이 부른다.

 

$$\mu_{D}$$

 

  이는 위의 모평균끼리의 차와 동일하지만 실험의 차이를 나타내기 위해서 위의 기호를 사용한다. 그리고 차이 모집단이 정규분포를 따르면 검정통계량은 자유도가 n_{d} - 1개의 T분포를 따르며 아래와 같다.

 

$$t = \frac{\bar{x}_{D} - \mu_{D}}{s_{D}/\sqrt{n_{D}}}, \nu = n_{D}-1$$

 

  따라서 검정을 해보면 재무전공자가 마케팅전공자보다 더 높은 임금을 받는다는 압도적인 증거가 존재하게 된다. 이처럼 짝진실험을 통해서 다른 통계결과를 도출할 수 있게 된다.

 

  짝진실험의 표본인지 독립의 표본인지 판단하여 우리는 검정의 방식을 결정해야만 한다.

 


두 모분산 비율에 관한 추론

 

  앞 절에서는 두 모집단의 평균의 차이에 관한 추론을 시행했다면 이번에는 관심의 대상이 두 모집단의 변동성을 비교하는 것일 때 비교가 된다. 중요한점은 검정통계량의 표본분포 대문에 두 모분산 차이가 아닌 두 모분산 비율에 관한 추론이 이루어진다. 따라서 관심있는 모수는 다음과 같다.

 

$$\sigma^2_{1}/\sigma^2_{2}$$

 

  만일 추출되는 두 모집단이 정규분포를 따르고 있다면 두 표본분산 비율의 표본분포는 f분포를 따른다. 두 모집단에서 각각 임의표본을 추출하고 표본분산을 계산한다면 그 변수는 표본분산의 표본분포이기 때문에 카이제곱분포를 따른다. 따라서 이 변수를 카이제곱통계량으로 각각 바꿀 수 있다. 이 각각의 값에 각각의 자유도로 나눈다면 두 개의 값이 나올텐데 그 두 개의 값의 비율은 f분포를 따른다는 것을 통계학자들이 증명하였다. 이는 아래의 식과 같다.

 

출처 : 켈러의 경영경제통계학 549pg

 

이 식은 밑의 공식처럼 간단화 될 수 있다.

 

$$\frac{s^2_{1}/\sigma^2_{1}}{s^2_{2}/\sigma^2_{2}}$$

 

이 통계량은 자유도가 n1 - 1과 n2 - 1인 f분포를 따른다.

 

즉 정리하자면 밑의 식의 순서대로 진행이 된다.

 

1번식이 

 

$$\frac{s^2_{1}}{s^2{2}}$$

 

2번식으로, 2번식이

출처 : 켈러의 경영경제통계학 549pg

 

3번식으로

 

$$\frac{s^2_{1}/\sigma^2_{1}}{s^2_{2}/\sigma^2_{2}}$$

 

  마지막 식은 f분포를 따른다. 즉, 이 값은 f분포를 따르고 이 값을 통해서 검정통계량을 도출한다.(f분포를 따르는 것으로)

 

  두 모분산 비율의 검정과 추정을 할 때 앞선 두 모집단 평균의 차이를 추정하는 것과 같이 가설검정을 세우게 될 것이다. 두 모분산 비율의 검정과 추정을 할 때는 귀무가설을 1로 설정을 하고 대립가설을 1과 같지 않거나 크거나 같은 것으로 설정이 된다. 따라서 위의 마지막 식에 이 사실을 접목시키면 다음과 같은 식으로 정리가 된다. 이 식이 최종적으로 두 모분산 비율의 검정통계량이라고 할 수 있다.

 

$$F = \frac{s^2_{1}}{s^2_{2}}$$

 


 정리

 

  앞선 장에서는 하나의 모집단의 모수에 관한 추론을 진행했다면(모표준편차가 알려져 있을 때) 이번 장에서는 두 모집단의 모수에 관한 추론을 진행하였다. 총 두 개의 모수에 관해서 진행했는데, 바로 두 모집단의 모평균의 차이에 관한 추론과 두 모집단의 모비율에 관한 추론을 진행하였다. 두 모집단의 모평균의 차이의 표본분포는 정규분포를 따르고 있다. 따라서 검정통계량을 정규분포통계량으로 표준화하여 가설검정을 진행할 수 있었다. 하지만 표준화 시킬 때 필요한 요소인 모분산에 관한 정보가 없기 때문에 표본분포의 표준오차를 추정할 필요가 있었다.

  이 때 사용되는 방법이 두 가지가 있다. 이 방식이 나뉘어지는 기준은 바로 모분산이 동일한지에 대한 여부이다. 만일 동일하다면 동분산 검정통계량과 동분산 신뢰구간추정량을 구해야 하며 만일 동일하지 않다면 이분산 검정통계량과 이분산 신뢰구간추정량을 구해야만 한다. 동분산 검정통계량과 신뢰구간추정량 같은 경우에는 통합분산추정량을 사용하여 구할 수 있다. 반대로 이분산 검정통계량과 신뢰구간추정량 같은 경우에는 표본분산을 사용하여 구해야만 하는데 이 경우의 검정통계량의 표본분포는 정규분포도 따르지 않고 student t 분포도 따르지 않는다. 하지만 다행히도 어떤 특정한 자유도에서 student t분포를 따르게 된다. 따라서 이분산일 경우 두 표본평균의 차이를 특정 자유도를 따르는 t통계량으로 바꾸어 검정을 할 수 있다.

  다음으로 모비율에 관한 추론을 진행하였는데 결론적으로는 두 모집단의 모분산에 관한 비율은 f분포를 따른다. 표본분산의 표본분포는 카이제곱분포를 따른다. 따라서 표본분산에 관해서 카이제곱통계량으로 표준화 시킬 수 있는데, 이 통계량에 각각의 모집단의 자유도로 나누고 그 값들의 비율을 살피면 f분포를 따름을 확인할 수 있다. (자유도가 n1-1, n2-1)

  지금까지 한 모집단과 두 모집단에 관한 추론을 진행하였다. 다음 장에서는 분산분석에 대해서 살펴보도록 하겠다.

 

Comments