데이터 한 그릇

기초통계10 : 가설검정의 기본원리 본문

통계/기초통계

기초통계10 : 가설검정의 기본원리

장사이언스 2021. 3. 16. 23:27

 

  • 가설검정의 개념
  • 모표준편차가 알려져 있을 때 모평균에 대한 가설검정

https://kurt7191.tistory.com/14?category=1000998

 

기초통계9 : 추정의 기본원리

추정의 개념 모표준편차가 알려져 있을 때 모평균의 추정 https://kurt7191.tistory.com/13?category=1000998 기초통계8 : 표본분포 표본평균의 표본분포 표본비율의 표본분포 표본분포와 통계적 추론 https://ku

kurt7191.tistory.com


  앞서 우리는 통계적 추론의 방법 중 하나인 추정에 대해서 살펴보았다. 추정은 점추정량과 구간추정량이 있는데 점추정량은 3가지의 단점을 보이기 때문에 그 단점을 보완한 구간추정량을 대부분 사용함을 살펴보았다. 구간추정량을 알아보면서 신뢰구간을 알아보았다. 이번에는 통계적 추론의 두 번째 방법인 가설검정에 대해서 살펴보도록 하겠다.

 

가설검정의 개념

  가설검정(hyphothesis testing) 의 개념은 대다수가 알고 있거나 통계학에서 굉장히 많이 사용하는 개념 중 하나이다. 가설검정의 개념은 실제 사회에서도 많이 사용하는 개념인데, 법원의 예시를 통해서 그 개념을 살펴보도록 하겠다. 만일 한 사람이 고소를 받으면 재판을 받게 된다. 검사는 유죄의 증거를 제시하고 배심원은 제시된 증거에 기초하여 판결을 내려야만 한다. 이 때 배심원들은 가설검정을 하는 것과 다름 없다.

  첫 번째 가설은 귀무가설(null hyphothesis) 이다. 이는 H0으로 표현이 된다. 재판에서 H0은 "피고는 무죄이다" 를 표현한다. 두 번째 가설은 대립가설(alternative hyphothesis) 또는 연구가설(research hyphothesis)이다. 이는 H1으로 표현되며 "피고는 유죄이다" 를 표현한다. 만일 배심원이 피고가 유죄라고 선고한다면 H0을 기각하는 것이고 이는 통계학적 용어로 "귀무가설을 기각하는 것" 이다. 반대로 배심원이 피고가 무죄라고 선고한다면 "귀무가설을 기각하지 않은 것" 이라고 할 수 있다.

  가설검정을 하는데 있어서 두 가지 오류가 존재한다. 배심원이 피고가 무죄임에도 불구하고 유죄라고 했을 가능성과 피고가 유죄임에도 무죄라고 판정했을 경우이다. 전자같은 경우를 통계학적 용어로 제 1종오류(Type 1 error)라고 부르며 후자같은 경우를 제 2종오류(Type 2 error) 라고 부른다. 제 1종오류의 확률은 알파로 표현되며 유의수준(significance level) 로 불린다. 제 2종요류는 베타로 표현된다. 직관적으로 느껴지는 것처럼 제 1종오류와 제 2종오류는 역의 관계를 가진다. 즉, 한 확률이 증가하면 다른 확률은 줄어들게 된다. 다음은 이와 같은 개념들을 보기 쉽게 정리한 표이다.

 

의사결정 $$H_{0}이 옳다.$$ $$H_{0}이 허위이다$$
귀무가설을 기각한다 제1종오류 옳은 판단
귀무가설을 기각하지 않는다. 옳은판단 제2종오류

 

  재판시스템에서는 제1종오류가 더 치명적인 오류라고 여겨진다. 따라서 재판시스템은 제1종오류가 더 낮은 확률로 나오게끔 시스템화 되어있다. 먼저 귀무가설이 옳다는 가정하에서 재판은 시작이 되며, 검사측, 즉 대립가설이 옳다고 주장하는 쪽에서 충분한 증거를 제시할 때에만 귀무가설을 기각하게끔 시스템화 되어 있다. 이를 가설검정의 개념에 적용할 수 있다.

   

  중요한 가설검정의 개념을 정리하면 다음과 같다.

 

  1. 두 가지의 가설이 존재한다. 하나는 귀무가설이며 다른 하나는 대립가설 혹은 연구가설이다.
  2. 검정과정은 귀무가설이 옳다는 가정을 가지고 시작한다.
  3. 가설검정의 목표는 대립가설이 옳다고 추론할 수 있는 충분한 증거가 존재하는지 결정하는 것이다.
  4. 두 가지의 가능한 결정이 존재한다. 대립가설을 지지할 수 있는 충분한 증거가 존재한다고 결론을 내린다. OR 대립가설을 지지할 수 있는 충분한 증거거 존재하지 않는다
  5. 어떤 가설검정에서도 두 가지의 가능한 오류가 발생할 수 있다. 제1종오류는 옳은 귀무가설이 기각될 때 발생하고 제2종오류는 허위인 귀무가설이 기각되지 않을 때 발생한다. 제1종오류는 알파로 표현되고 제2종오류는 베타로 표현된다.

  여기서 개인적으로 주목할점은 5번이라고 생각한다. 다시 한번 복습하자면, 제1종오류는 귀무가설이 올바름에도 불구하고 기각했을 확률이며 제2종오류는 귀무가설이 허위임에도 불구하고 기각하지 않았을 확률이다. 이와 같은 가설검정의 개념들을 통계적 가설검정의 개념으로 확장하도록 하자.

 

  통계학에서 관심있는 것은 모집단의 모수라고 할 수 있다. 따라서 통계학자들은 모수에 관해서 가설을 설정하고 그 가설에 대한 검정에 들어간다. 이러한 통계학자들의 가설검정의 예시를 하나 살펴보면서 가설검정에 대한 개념을 이해해보도록 하자.

 

Doll Computer Company는 자기 자신의 컴퓨터를 만들고 인터넷을 통하여 주문하는 고객들에게 직접 컴퓨터를 인도한다. 이 회사의 평균 수요량은 350대라고 알려져있다. 하지만 운영관리자는 정말 평균 수요량이 350대인지 알고싶어한다.

 

  이 때 통계학자들은 가설검정을 사용하게 된다. 먼저 운영관리자는 평균수요량이 350대와 다른지 알기 원한다. 즉, 운영관리자는 평균수요량이 350대와 다르다고 추론할 수 있는지 알기 원한다. 이는 이렇게 질문할 수 있다. 정말 350과 다르다고 주장할 수 있는 충분한 증거가 존재하는가? 이는 재판에서 배심원이 검사들이 피고에게 유죄라고 할만한 충분한 증거가 있는가? 를 질문하는 것과 같다. 따라서 대립가설 H1은 "평균수요량은 350과 다르다" 이다. 재판에서 피고가 무죄임을 전제하고 진행하는 것처럼 통계학에서도 귀무가설은 옳다는 가정하에 진행된다. 따라서 350대와 다르다의 반대인 350대와 같다가 귀무가설이다. 즉, 귀무가설은 "평균수요량은 350과 같다" 이다.

 

  여기서 귀무가설과 대립가설을 수정할 수 있다. 운영관리자가 판단하기에 새로운 광고를 선보이면서 수요량이 증가 되었고 따라서 리드타임 동안 평균수요량이 증가되었을 것으로 생각하였다. 따라서 350과 다르다가 아니라 평균>350 이라고 추론할 수 있다. 따라서 대립가설 H1 = "평균 수요량>350" 으로 재설정 할 수 있다. 하지만 현재 재고정책은 리드타임 동안의 평균 수요량이 350이하라는 가정에 근거해 있다고 해보자. 그렇다면 본래 리드타임 기간의 본래 귀무가설은 H0 <=350 이라고 할 수 있다. 이를 정리하면 다음과 같다.

 

$$H_{0} : \mu \le 350$$

 

$$H_{1} : \mu > 350$$

 

 

  여기서 중요한점은 사실 귀무가설은 어떤 식으로 표현이 되든 결국 = 부호를 사용해야만 한다는 점이다. 예를 들어서 평균이 350이라는 가정에서 대립가설은 350과 같지 않다일 것이다. 이 과정은 대립가설 350미만이다를 검정하는 과정과 똑같은 과정일 것이다. 이 점을 강조하기 위해서 다른 예시를 들어보도록 하겠다. 만일 위의 사례에서 운영관리자가 평균이 감소하였는지 결정하길 원한다고 해보자. 그렇다면 대립가설은 평균<350 일 것이다. 따라서 귀무가설은 평균 = 350 으로 표현 될 수 있다.

 

  가설검정은 다음과 같은 요소들을 가지고 있다. 모집단으로부터 표본을 추출하고 그 표본으로부터 표본평균을 계산하는 것이다. 이 때 표본평균은 검정통계량(test statistic) 이라고 부른다. 다시 말하면, 검정통계량이란 모집단에서 표본을 뽑아서 통계량을 계산한 값을 말한다. 검정통계량은 가설에 관한 의사결정을 할 때 기초가 되는 기준이다. 검정통계량은 모수의 최량추정량(best estimator)으로 설정된다.

  만일 검정통계량의 값이 귀무가설과 가깝지 않으면 귀무가설은 기각이 되고 대립가설이 옳다는 추론이 이루어진다. 예를 들어서 위의 예시에서 평균 350보다 크다라는 대립가설을 증명하기 위해서는 이를 지지하기 위한 충분한 증거가 필요하다. 이 때 표본으로부터 계산된 표본평균의 값이 350보다 훨씬 큰 값들이 나오면 이는 가설검정하는데 있어서 중요한 증거가 될 수 있다. 만일 표본평군이 350과 가깝게 나오면 대립가설을 지지할만한 충분한 증거가 있다고 할 수 없다. 따라서 귀무가설은 기각되어질 수 없다.

 


모표준편차가 알려져 있을 때 모평균에 대한 가설검정

 

  먼저 하나의 예시를 살펴보도록 하자.

 

  한 백화점의 경영자는 신용카드 고객을 위한 새로운 청구시스템을 구축하는 것에 대하여 생각하고 있다. 그녀는 철저한 재무분석을 한 후에 새로운 청구시스템은 월간 청구금액의 평균이 170달러보다 클때만 비용효율적이라고 결정하였다. 400개의 월간 청구금액으로 구성된 임의표본이 추출되었고 표본평균은 178달러였다. 이 경영자는 월간 청구금액은 근사적으로 모표준편차가 65달러인 정규분포를 따른다는 것을 알고 있다. 이 경영자는 새로운 청구시스템이 비용효율적이라고 결론내릴 수 있는가?

 

  이 예제는 백화점의 신용카드고객 월간 청구금액 모집단을 다루고 있다. 새로운 청구 시스템이 비용효율적이라는 결론을 내기 위해서는 모든 신용카드 고객들의 평균 청구금액이 170달러보다 커야 한다는 것을 보야야 한다. 따라서 이와 같은 상황을 나타내기 위해서 대립가설은 다음과 같이 설정된다.

 

$$H_{1} : \mu > 170$$

 

  만일 모평균이 170이하라면 새로운 청구시스템은 비용효율적이지 못할 것이다. 따라서 귀무가설은 다음과 같다.

 

$$H_{0}  : \mu \le 170$$

 

  그러나 앞서 살펴봤듯이 귀무가설은 어떤 형태이든지 같에 = 의 부호를 사용해야만 한다. 따라서 다음의 가설을 검정할 것이다.

 

$$H_{0} : \mu = 170$$

 

  여기서 대립가설을 증명하기 위해서는 대립가설을 채택할만한 충분한 증거가 있는지에 대한 여부를 살펴봐야만 한다. 따라서 모집단에서 임의로 추출된 400개의 월간청구액의 통계량인 검정통계량을 통해서 증거의 정도를 파악해야만 한다. 이 때 검정통계량이 170보다 훨씬 큰 값이 나온다면 대립가설을 지지할만한 충분한 증거가 될 것이다. 하지만 지문에서는 검정통계량을 178로 설정했다는 것을 알 수 있다. 그렇다면 178은 평균이 170보다 크다는 것을 지지할만한 충분한 통계량인가?

  이 질문에 대답하는 방법은 두 가지 방법이 존재한다. 바로 기각역 방법(rejection region method)P-값 방법(p-value approach)이다. 기각역은 검정통계량이 이 범위에 속하면 대립가설을 선호하여 귀무가설을 기각하는 의사결정이 이루어지는 값들의 범위이다. 귀무가설을 기각하기에 충분히 큰 표본평균의 값들 중에서 가장 작은 값을 x_BAR_L 이라고 했을 때 기각역은 이 값 보다 큰 값을 의미한다. 제1종오류는 옳은 귀무가설을 기각하는 오류이다. 제1종오류를 범할 확률은 알파이기 때문에 다음과 같이 기각역의 개념을 포함하여 표현될 수 있다.

 

$$\alpha = P(H_{0}이 옳은데도 H_{0}을 기각한다) = P(H_{0} 옳다는 전제 하에서 \bar{x} > \bar{x}_{L})$$

 

  재판과 같이 가설검정은 귀무가설이 옳다는 전제하에서 검정이 실시된다. 제1종오류 같은 경우에는 귀무가설이 옳음에도 불구하고 기각했을 확률을 의미하는데 이는 다른 의미로 귀무가설이 옳다는 전제하에서 검정통계량이 기각역 안에 속한 것을 의미한다. 왜냐하면 기각역 안에 속하면 대립가설을 선호하여 귀무가설을 기각하는 의사결정이 이루어지기 때문이다. 아래는 이 예시의 기각역을 표현한 정규분포의 모습이다.

 

출처 : 켈러의 경영경제통계학 403pg

 

 

  표본평균의 표본분포의 평균과 표준편차에 대해서 살펴보았다. 평균은 뮤이고 표준편차는 모집단의 분산을 n으로 나눈것에 루트를 씌운 것임을 살펴보았다. 이를 표준화하여 기각역의 확률을 살펴보면 다음과 같다.

 

$$P(Z > z_{\alpha}) = \alpha$$

 

  여기서 z_a에 대하여 표준화를 하면 다음과 같은 식을 가진다.

 

$$\frac{\bar{x}_{L} - \mu}{\frac{\sigma}{\sqrt{n}}} = z_{\alpha}$$

 

  예제에는 모표준편차가 65로 알려져 있으며 표본크기도 400으로 알려주었다. 또한 귀무가설이 옳다는 전제하에서 검정을 진행하는 것이기 때문에 평균은 170이다. 또한 기각역을 계산하기 위해서는 유의수준이 필요하다. 왜냐하면 기각역은 유의수준과 같기 때문이다. 앞서 기각역은 검정통계량이 속하면 귀무가설을 기각하고 대립가설을 선호할 범위라고 하였다. 따라서 검정통계량이 기각역에 속하게 되면 대립가설을 채택하게 됨을 알 수 있다. 가설검정 같은 경우에는 귀무가설이 옳음을 전제하고 검정을 진행한다. 만일 대립가설을 채택했다면 귀무가설이 옳다는 전제하에서 귀무가설을 기각한 것이라고 할 수 있다. 따라서 만일 검정통계량이 기각역에 속했다면 가설검정의 원리 속에서는 귀무가설이 옳다는 전제하에서 귀무가설을 기각한 것이라고 할 수 있다. 이는 제1종오류라고 할 수 있다. 왜냐하면 제1종오류의 개념이 귀무가설이 옳음에도 불구하고 귀무가설을 기각한 경우이기 때문이다. 검정통계량이 기각역에 속하는 경우가 이 오류에 속한다고 할 수 있다 . 따라서 기각역을 계산하기 위해서 유의수준을 알아야만 하는 것이다. 우리는 백화점의 경영자가 유의수준을 5%로 선택했다고 하자. 이 경우에는 z오른쪽의 확률이 0.05인 z값을 표준정규분포표에서 찾기만 하면 된다. 따라서 이 값은 1.645임을 알 수 있다. 따라서 이러한 수치들을 기각역의 최솟값을 표준화한 식에 대입을 하면 다음과 같다.

 

$$\frac{\bar{x}_{L} - 170}{\frac{65}{\sqrt{400}}} = 1.645$$

 

  계산을 마무리 하게 되면 다음과 같다.

 

$$\bar{x}_{L} > 175.35$$

 

  따라서

 

$$\bar{x} > 175.35$$

 

  앞서 문제에서 표본평균이 178로 나왔기 때문에 이는 기각역 안에 속하는 검정통계량이라고 할 수 있다. 따라서 귀무가설을 기각할 수 있게 되며 새로운 청수 시스템을 들여놓는 의사결정을 할 수 있게 된다. 다시 말하면 앞서 귀무가설이 기각될 때 검정이 주어진 유의수준에서 통계적으로 유의하다(statically significance) 라고 말한다.

 

  하지만 기각역 방법에는 몇 가지의 단점이 존재한다. 기각역 방법은 "대립가설이 옳다고 추론할 수 있을 충분한 통계적 증거가 존재하는가?" 라는 질문에 대하여 "예" 또는 "아니오" 대답만을 제공한다. 검정통계량이 기각안에 속하면 대립가설이 옳다고 추론할만한 충분한 증거가 있다고 이야기 하고 그렇지 않으면 아니라고 대답하는 것이다. 하지만 이는 경영자가 의사결정을 할 때 고려하는 수많은 요인 중의 하나에 불과하다. 

  검정결과로부터 얻은 정보를 이용하여 더 좋은 의사결정을 하기 위해 필요한 것은 특히 재무적 요인들과 같은 다른 요인들과 관련하여 평가될 수 있는 대립가설을 지지하는 통계적 증거의 양에 대한 척도이다. 검정의 p-값이 이와 같은 척도를 제공한다. p-값(p-value)은 귀무가설이 옳다는 가정하에서 계산되는 검정통계량의 값보다 더 큰 검정통계량의 값이 관측되는 확률이다. (표본에서 나타난 통계량보다 더 큰 통계량이 나올 확률) 앞선 예제에서는 p-값은 모평균이 170일 때 178보다 더 큰 표본평균을 관측할 확률을 의미한다. 이를 식으로 표현하면 p(x_bar >= 178) 이라고 할 수 있다. 이를 표준화 한다면 p(Z > 2.46) 이 되고 이 확률을 구할 수 있는 방법은 확률 1에서 p(Z < 2.46) 의 값을 뺀 값이라고 할 수 있다. 계산을 하게 되면 0.0069가 도출이 된다.

  이 때 P값에 대한 해석이 중요하다. P값은 대립가설을 지지하는 통계적 증거의 양을 측정한다. 앞선 예시에서 모집단의 평균이 170이라고 했을 때 표본평균의 값은 178이 나왔다. 이것에 대한 P-값을 구해보니 0.0069가 도출되었다. 즉, 평균이 170인 모집단에서 표본을 추출하여 평균을 냈을 때 178이상이 나올 확률은 매우 작은데 이 값이 나왔다. 따라서 대립가설이 선호되어 귀무가설이 기각되어진다.

  만일 P-값이 커진다고 한다면 점점 모평균에 가까워지고 있음을 의미하고 따라서 귀무가설이 인정될 확률이 커진다. P-값이 170보다 멀리 떨어져 있을수록 대립가설이 지지가 된다. (결국  P값이 작아질수록 대립가설을 지지하는데 더 많은 통계적 증거가 존재함을 의미한다.)

 

  P-값 방법과 기각역 방법을 섞어서 의사결정을 하는 경우도 존재하는데 이는 데이터 분석을 할 때 많이 사용되어지는 방법이다. 만일 P-값이 유의수준보다 작으면 귀무가설을 기각하기에 충분할 만큼 P-값이 작다고 판단한다. 만일 P-값이 유의수준보다 크면 귀무가설을 기각하지 않는다.

 

 

 

 

 

 

Comments