데이터 한 그릇

기초통계11 : 한 모집단에 관한 추론 본문

통계/기초통계

기초통계11 : 한 모집단에 관한 추론

장사이언스 2021. 3. 17. 19:33

 

  • 모표준편차가 알려져 있지 않을 때 모평균에 관한 추론
  • 모분산에 관한 추론
  • 모비율에 관한 추론

https://kurt7191.tistory.com/15

 

기초통계10 : 가설검정의 기본원리

가설검정의 개념 모표준편차가 알려져 있을 때 모평균에 대한 가설검정 https://kurt7191.tistory.com/14?category=1000998 기초통계9 : 추정의 기본원리 추정의 개념 모표준편차가 알려져 있을 때 모평균의

kurt7191.tistory.com


 

  앞의 두 장에서는 통계적 추론의 개념(추정과 가설검정)이 소개되었고 모평균을 추정하고 검정하는 방법이 제시되었다. 그러나 앞선 두 방법은 모표준편차가 알려져 있다는 가정하에서 진행됐기 때문에 비현실적이라고 할 수 있다. 이 장에서는 문제의 목적이 한 모집단의 특성을 파악하는 것일 때 사용되는 통계기법이 소개된다. 이 장에서는 모표준편차가 알려져 있지 않다는 보다 더 현실적인 가정 하에서 모평균에 관한 추론방법이 소개된다.

 

모표준편차가 알려져 있지 않을 때 모평균에 관한 추론

 

  앞선 추정과 가설검정에서는 모표준편차가 알려져 있다는 가정하에서 통계적 추론이 진행이 되었다. 이 절에서는 모표준편차가 알려져 있지 않다고 가정하면서 보다 현실적인 접근 방법이 채택된다. 따라서 알려져 있던 모표준편차 시그마는 표본표준편차 s로 대체된다. 이 때 그 결과로 얻어지는 검정통계량은 수학자인 William S. Gosset이 창안한 t 통계량(t statistic) 이라고 불린다. (표본표준편차로부터 얻어지는 검정통계량 = t 통계량) 이는 아래와 같은 식을 가진다

 

$$t=\frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}$$

 

  이런 식으로 정의되는 t통계량은 표본추출이 이루어지는 모집단이 정규분포를 따를 때 student t분포를 따른다는 것을 증명해냈다. 이 때 자유도의 수는 v = n-1 이다.

 

  만일 모표준편차가 알려져 있지 않을 때 모평균에 대한 추론을 하고 싶다면 추정의 방식(구간추정량)을 그대로 사용 가능하다. 즉 신뢰구간을 그대로 사용가능하다. 아래는 모표준편차가 알려져 있지 않을 때 모평균의 신뢰구간을 구하는 공식이다. 보이는바와 같이 모표준편차가 알려져 있을 때 신뢰구간을 구하는 공식과 크게 달라진점은 없다. 하지만 자유도라는 개념이 새롭게 들어가 있다.

 

$$\bar{x} \pm t_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}} , \nu = n - 1$$

 

  앞으로 나오는 모평균에 관한 모든 추론문제에서는 t통계량과 뮤에 대한 t 추정량이 사용된다. (큰 변화는 공식에서 모표준편차의 자리에 표본표준편차 s가 사용된다는 점) 모표준편차가 알려져 있지 않을 때 모평균에 대해서 추론하는 예제를 살펴보도록 하자.

 

  가까운 미래에 국가들은 환경을 보존하기 위해 더 많은 일을 해야 할 것이다. 가능한 활동 중에는 에너지 사용의 감소와 자원 재활용이 포함된다. 현재 재활용 자원으로부터 제조되는 대부분의 생산물들은 지구에서 발견되는 자원으로부터 제조되는 생산물보다 상당히 비싸다. 예를 들면, 재활용 유리로부터 유리병을 생산하는 비용은 많은 국가들에서 채굴되는 풍부한 자원인 규사, 소다, 석회석으로부터 유리병을 생산하는 비용보다 약 3배 비싸다. 하지만 하나의 예외가 존재하는데 바로 신문용지이다. 신문용지를 재활용하는 것은 이윤을 발생시킬 수 있다. 따라서 최근에 많은 회사들은 가구로부터 신문용지를 수집하여 재활용하는 비즈니스에 뛰어들었다. 한 신문용지 재활용 회사의 한 재무분석가는 각 가구로부터 수집되는 주간 평균 신문용지량이 2.0 파운드를 초과하면 이윤이 발생할 것이라고 계산하였다. 신문용지 재활용 공장의 설립 타당성을 결정하기 위한 연구에서 한대형 커뮤니티로부터 148가구로 구성된 임의표본이 추출되었고 각 가구가 재활용을 위해 버리는 주간 신문용지량이 기록되었다. 이와 같은 데이터는 신문용지 재활용 공장이 이윤을 발생시킬 것이라고 결론내릴 수 있는 충부한 증거를 제시하는가?

 

  이 때 우리가 관심을 가지는 것은, 각 가구로부터 수집되는 주간 평균 신문용지량이 2.0 파운드를 초과하는지이다. 따라서 가설검정의 대립가설을 2.0을 초과하는 것으로 설정하고 귀무가설을 =2.0 으로 설정한다. (귀무가설은 어떤 모습이던지 간에 = 의 형태를 가지고 있다.) 이는 식으로 표현하면 다음과 같다.

 

$$H_{0} : \mu = 2.0$$

 

$$H_{1} : \mu > 2.0$$

 

  통상적으로 가설검정에서는 귀무가설이 옳다는 전제하에 있으므로 모평균이 2.0 이라고 설정한다. 

 

  재무분석가는 제1종 오류가 일어났을 시(2.0이지만 2.0이 아니라고 판단) 발생하는 비용이 더 많다고 판단하여 유의수준을 1%로 두었다. 그렇다면 기각역은 다음과 같다. 

 

$$t > t_{\alpha,\nu} = t_{0.01,147} \approx t_{0.01,150} = 2.351$$

  그 다음으로 검정통계량을 계산하기 위해서는 표본평균과 표본표준편차를 계산할 필요가 있다. 재무분석가는 임의로 추출된 148가구로 구성된 임의표본에서 표본평균과 표본표준편차를 계산하게 된다. 그들은 각각 2.18과 0.981 이라는 값을 도출하였다. (즉, 표본평균은 2.18, 표본표준편차는 0.981)

 

따라서 t분포의 검정통계량 구하는 공식에 표본평균값과 표본표준편차 값을 넣으면 다음과 같다.

 

$$t = \frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}} = \frac{2.18 - 2.0}{\frac{0.981}{\sqrt{148}}} = 2.24$$

 

  따라서 기각역과 비교를 했을 때 2.24<2.351 이기 때문에 대립가설을 선호하여 귀무가설을 기각할 수 없다. 즉, 귀무가설을 기각시킬 수 없다.

 

  풀이 과정을 말로 설명을 하자면 다음과 같다. 먼저 모집단이 너무 크고 모표준편차가 알려져 있지 않기 때문에 모집단에서 표본을 추출하여 임의표본을 만든다. 그 이후에 가설을 세우니 귀무가설이 모평균이 2.0 이라고 설정이 되었고 대립가설은 2.0 보다 더 큰 값이 나온다고 설정이 되었다. 대립가설을 증명하기 위해서는 대립가설을 지지하는 증거가 제시되어야 하는데 이를 표본으로부터 계산된 검정통계량을 통해서 하려고 한다. 검정통계량을 직접 데이터를 가공해서 계산해보니 표본평균(검정통계량)의 값은 2.18이 도출이 되었다. 이렇게 도출된 2.18이 기각역 안에 포함이 되면 귀무가설을 기각할 수 있는 것이고 포함되지 않는다면 귀무가설을 기각할 수 없는 것이다. 따라서 도출된 검정통계량 2.18을 t분포로 표준화 시켜서 기각역 안에 들어가는지 비교한다. 표준화를 시키니 2.24가 나왔고 이 검정통계량은 기각역 안에 포함되지 않기 때문에 대립가설을 지지할 충분한 증거가 되지 못하여 대립가설을 선호하지 못하고 귀무가설을 기각하지 못하게 된다.

 

(문제의 가설검정의 귀무가설 대립가설 정의 내리기 -> 유의수준을 이용하여 기각역 정의 -> 검정통계량과 표본표준편차 구하기 -> 구해진 검정통계량과 표본표준편차를 이용하여 t분포로 표준화 시키기(t분포를 따르기 때문에) -> 기각역 안에 포함인지 아닌지 판단하여 가설검정 의사결정 내리기)

 


모분산에 관한 추론

 

  앞선 통계적 추론은 모평균에 관한 추론이였다. 이번에는 모분산에 관한 추론을 해보려고 한다.

 

 

모분산을 사용하는 통계학 응용은 생산운영관리분야에서 많이 이루어진다. 품질관리원들은 그들 회사의 제품 규격을 일관되게 충족시키고자 한다. 생산과정의 일관성을 판단하는 한 가지 방법은 제품의 크기, 중량, 부피의 분산을 계산하는 것이다. 즉, 제품의 크기, 중량, 부피의 변동성이 크면, 만족스럽지 못하게 많은 수의 제품이 규격을 벗어나 있을 가능성이 있다.

 

  통계학자들은 표본추출이 이루어지는 모집단이 정규분포를 따르면 (n-1)s^2 / 시그마^2 의 통계량은 자유도가 n-1인 카이제곱분포를 따른다는 것을 증명하였다. 이는 카이제곱통계량(chi-squared statistic) 이라고 불린다. 즉 표본으로부터 나온 검정통계량(표본분산)에다가 n-1을 곱한 값을 모분산으로 나누게 되면 카이제곱분포를 따른다.

 

$$\chi^2 = \frac{(n-1)s^2}{\sigma^{2}}$$

 

  카이제곱 분포의 신뢰구간 추정량을 구하는 공식은 다음과 같다. 위에서부터 차례로 신뢰하한(LCL), 신뢰상한(UCL) 을 뜻한다.

 

$$\frac{(n-1)s^2}{\chi^2_{\frac{\alpha}{2}}}$$

 

$$\frac{(n-1)s^2}{\chi^2_{1-\frac{\alpha}{2}}}$$

 

  예제를 통해서 카이제곱통계량에 대해서 이해해보도록 하자.

 

  용기에 액체를 채우는 기계가 우유,소프트드링크, 페인트와 같은 다양한 액체를 용기에 채우는데 사용된다. 이상적으로는 용기에 채워지는 액체의 양은 약간만 변동해야 한다. 왜냐하면 용기에 채워지는 액체량의 변동성이 크면 일부 용기에는 액체가 과소하게 투입되어 고객을 속이게 되고 일부 용기에는 액체가 과다하게 투입되어 비용의 낭비가 초래되기 때문이다. 새로운 액체투입 기계를 개발한 한 회사의 사장은 이 기계가 1리터의 용기에 매우 일관성있게 액체를 투입하여 투입액체량의 분산이 1cc^2 보다 작다고 자랑한다. 이와 같은 주장의 진실성을 조사하기 위해 25개의 1리터 용기에 채워진 액체의 양을 임의표본으로 추출하였고 1리터 용기에 투입된 액체의 양이 측정되었다. 새로운 액체투입기계를 개발한 사장의 주장이 옳은지 5%의 유의수준에서 알아보도록 하자.

 

  먼저 가설검정을 통해서 귀무가설과 대립가설을 설정해보도록 하자. 현재 우리가 관심이 있는 것은 데이터의 변동성 즉, 분산에 대해서 관심이 있다. 사장은 분산이 1보다 작다고 주장하기 때문에 대립가설은 모분산이 1보다 작다로 설정하고 귀무가설은 1과 같다로 설정한다. 이는 다음과 같다.

 

$$H_{0} : \sigma^2 < 1$$

 

$$H_{1} : \sigma^2 = 1$$

 

  그렇다면 대립가설을 채택하기 위해서는 대립가설을 지지할 수 있는 증거가 필요하다. 이는 임의표본에서 통계량을 계산하여 해결할 수 있다. 앞서 25개의 데이터를 추출하였다고 하니 그 데이터를 이용하여 표본분산을 계산한다. 이 때 계산된 표본분산은 검정통계량이라고 할 수 있다.

  통계학자가 표본의 데이터를 통해서 표본분산을 계산해본 결과 0.6333 을 도출하였다. 즉 s^2 = 0.6333 이다. 또한 가설검정은 귀무가설이 옳다는 전제하에서 진행이 되기 때문에 모분산을 1로 설정을 한다. 따라서 (25-1) * 0.6333 을 1로 나눈 값은  15.20 이 나오게 된다. 이 검정통계량은 카이제곱통계량으로서 카이제곱 분포를 따르고 있다. 따라서 기각역도 카이제곱 분포의 기각역을 구해야만 한다. 앞서 기각역은 5%라고 했기 때문에 카이제곱 분포를 통해서 계산해본다면 다음과 같다.

 

$$\chi^2 < \chi^2_{1-\alpha,n-1} = \chi^2_{1-0.05,25-1} = \chi^2_{0.95,24} = 13.85$$

 

  앞서 표본으로부터 추출한 검정통계량은 15.20 이기 때문에 기각역에 포함되지 못한다. 따라서 귀무가설을 기각하지 못하게 된다.


모비율에 관한 추론

 

  앞서 관심있었던 모집단의 모수들은 모평균과 모분산이였다. 이번에 관심있는 모수는 모비율로 이동한다. 이는 범주데이터를 가진 모집단의 모수에 관심을 가지는 것과 같다. 

 

  모비율을 추정하고 검정하기 위해 사용되는 논리적인 통계량은 다음과 같이 정의되는 표본이다. 여기서 x는 표본에 있는 성공의 수이고 n은 표본의 크기이다. 앞서 p-hat은 평균이 p이고 표준편차는 p(1-p)/n에 루트를 씌운 값의 정규분포를 근사적으로 따른다. 따라서 p-hat의 표본분포는 다음과 같이 표현이 된다.

 

$$z = \frac{\hat{p} - \rho}{\sqrt{p(1-p)/n}}$$ 

 


정리

 

  앞선 장에서는 추정과 가설검정에 대해서 살펴보았다. 하지만 이 때 모표준편차는 알려져 있다는 가정하에 추론이 진행되었다. (표본을 추출하면 표본평균의 표본분포는 정규분포를 가지고 있기 때문에 구한 값을 정규분포 표준화시킨 후 기각역과 비교)

  하지만 이는 현실적이지 않다. 따라서 모표준편차가 알려져 있지 않았을 경우에 모집단의 모수에 관한 추론은 어떤 식으로 하는지 이번 장에서 살펴보았다. 먼저 모집단의 모평균에 관심이 있는 경우를 살펴보았다.  만약 표본이 추출되는 모집단이 정규분포라면 표본분포는 t분포를 가지고 있다. 따라서 표본으로부터 평균을 계산한 값을 t분포로 표준화 시킬 수 있다. 표본으로부터 구한 검정통계량과 귀무가설의 모평균 값을 이용하여 t검정통계량을 구한 후 이 값을 기각역과 비교하여 가설검정을 끝낸다.

  그 다음으로는 모분산에 관하여 관심이 있는 경우를 살펴보았다. 이 경우도 표본추출이 이루어지고 있는 모집단이 정규분포를 따른다면 표본분산에 n-1을 곱하고 모분산으로 나눈 값은 자유가도 n-1인 카이제곱 분포를 따름을 살펴보았다. 따라서 표본으로부터 분산을 얻어낸 값을 카이제곱통계량으로 변환시킨후 카이제곱의 기각역 범위와 비교하여 가설검정을 마친다. 표본비율도 이와 마찬가지이다. 다음 장에서는 두 모집단 비교에 관한 추론을 해보도록 하겠다.

 

Comments