데이터 한 그릇

기초통계 16 : 카이제곱검정 본문

통계/기초통계

기초통계 16 : 카이제곱검정

장사이언스 2021. 3. 29. 23:47

 

 

  • 카이제곱 적합도 검정
  • 분할표 카이제곱검정

kurt7191.tistory.com/23?category=1000998

 

기초통계 15 : 분산분석(3)

일원분산분석 다중비교검정 이인자분산분석 https://kurt7191.tistory.com/20?category=1000998 기초통계 14 : 분산분석(2) 일원분산분석 다중비교검정 분산분석 실험계획법 랜덤화블럭(이원) 분산분석 이인자

kurt7191.tistory.com


카이제곱 적합도 검정

 

  앞선 통계적 추론들 같은 경우에는 모든 변수들이 구간데이터일 때 사용하는 통계적 추론 기법들이다. 이번에는 모든 데이터들이 범주데이터일 경우 사용하는 통계적 추론 기법이라고 할 수 있다. 카이제곱검정은(Chi-Squared Tests)은 우리가 가지고 있는 변수들이 모두 범주데이터일 경우 사용하는 검정 기법이다. 그 기법은 크게 두 가지로 나뉘는데 바로 적합도 검정(goodness-of-fit test)와 분할표(contingency table) 이다 먼저 카이제곱 적합도 검정에 대해서 살펴보자.

 

  앞서 확률변수와 확률분포를 살펴보면서 확률변수가 범주형 데이터일 경우 이항실험을 함을 살펴봤다. 이항실험의 경우에는 한 시행에서 나올 수 있는 결과는 성공과 실패, 두 가지만 가능하다. 그러나 한 시행에서 두 개 이상의 결과가 나오는 것은 다항실험(multinimial experiment) 라고 부른다. 예를 들어서 대학교 수강신청과 관련한 만족도 조사가 있다고 했을 때 항목이 만족 불만족 보통 으로 나뉜다고 한다면 이는 한 시행에서 나올 수 있는 경우의 수가 두 개 이상이라고 할 수 있다. 따라서 다항실험이라고 할 수 있다.

 

  이항실험에서도 성공과 실패의 각각의 도수를 세어 봤었는데, 다항실험에서도 각각의 범주의 도수를 셀 수 있다. 이와 같은 방법으로 일련의 관측도수가 생성이 된다. 관측도수는 실제의 각 범주의 도수들이라고 할 수 있다. 만일 어떤 통계적 문제가 어떤 범주형 모집단의 각 범주의 비율에 관련된 문제라면 카이제곱 적합도 검정을 시행한다. 카이제곱 적합도 검정의 예시를 통해서 카이제곱 검정을 살펴보도록 하자.

 


  회사 A는 직물연화제(fabric softener) 시장에서 자신의 시장점유율을 유지할 뿐만아니라 가능한 한 시장점유율을 증가시키기 위해 최근에 공격적인 광고활동을 전개하였다. 공격적인 광고활동을 전개하기 전에 회사 A의 시장점유율은 45%,회사 B는 40%, 다른 경쟁사들은 15% 를 가지고 있었다. 이와 같은 시장점유율이 공격적인 광고활동 후에 변화하였는지 결정하기 위해 한 마케팅 분석가는 200명의 직물연화제 고객으로 구성된 임의표본을 대상으로 선호조사를 하였다. 200명의 고객 중에서 102명은 회사 A의 제품을 선호하였고 82명은 회사 B의 제품을 선호하였으며 나머지 16명은 경쟁회사들 중 한 회사의 제품을 선호하였다. 이 마케팅 분석가는 고객의 선호가 공격적인 광고활동 후에 변화했다고 5%ㅇ의 유의수준에서 추론할 수 있는가?


 

 

  먼저 문제의 모집단은 직물연화제 고객들의 브랜드 선호로 구성되어 있다. 각 응답자는 3개의 가능 한 답을 내어놓을 수 있다. 따라서 문제의 모집단은 3개의 범주를 가지고 있는 범주데이터라고 할 수 있다. 그리고 문제에서 관심 있어 하는 주제가 모집단 안에서의 각 범주의 도수의 비율이기 때문에 이는 카이제곱 적합도 검정을 사용해야함을 알 수 있다. 카이제곱 적합도 검정도 마찬가지로 가설검정을 시행할 수 있는데 귀무가설을 광고 이전에 변화가 없음으로 설정하고 대립가설을 광고 후에 변화가 있음으로 설정한다.

 

1)검정통계량

 

  카이제곱 적합도 검정 또한 검정통계량을 구하여 통계적 추론을 진행한다. 앞서 설정한 귀무가설에서 검정통계량이 어떤 기준을 넘기게 된다면 귀무가설을 기각하거나 기각하지 않게 된다. 먼저 검정통계량의 원리는 다음과 같다. 귀무가설은 광고 전과 같음을 의미한다. 따라서 광고 전의 각 범주의 범위는 문제에 적힌 바와 같이 각각 45%, 40%, 15% 를 기록하고 있다. 그렇다면 전체 표본 크기에서 각 도수를 곱하게 되면 바뀌지 않았을 때의 각 범주의 도수를 도출할 수 있다. 이를 기대도수(expected frequency) 라고 부른다. 다음은 위 예제의 각 범주의 기대도수라고 할 수 있다.

 

200 x (0.45) = 90

200 x (0.40) = 80

200 x (0.15) = 30

 

  이는 기대도수일 뿐이고 실제로 표본에서 각각의 범주의 도수를 세어보면 다른 숫자가 나올 것이다. 이 때 기대도수와 관측도수가 큰 차이를 보이고 있다면 광고 후에 각 범주의 비율이 바뀌었음을 추론할 수 있다. 반대로 차이가 크게 보이지 않는다면 광고 후에 바뀌지 않았음을 추론할 수 있다.

 

  이 때 검정통계량을 계산하는 공식은 다음과 같다.

 

$$\chi^2 = \sum_{i=1}^k \frac{(f_{i} - e_{i})^2}{e_{i}}$$

 

  이 검정통계량은 카이제곱 적합도 검정을 할 때 구하는 검정통계량이라고 할 수 있으며 자유도가 k-1 개를 따르는 카이제곱분포를 따른다. 

 

  위의 예제의 검정을 해보도록 하자. 기각역은 k = 3(A사,B사, 그 이외) 이기 때문에 자유도가 2인 카이제곱 분포의 유의수준 5%라고 할 수 있다.

 

$$\chi^2_{\alpha, k-1}$$

 

  만일 카이제곱 적합도 검정통계량이 크게 나온다면 기대도수와 관측도수의 차이가 큰 것이라고 할 수 있으며 작게 나온다면 관측도수의 차이가 작은 것이라고 할 수 있다. 따라서 검정통계량은 기각역보다 커야지만 귀무가설을 기각할 수 있다.


분할표 카이제곱검정

 

  기초통계 초반 부분에 두 범주데이터를 비교 할 때 교차분류표(cross-classification table) 이 사용됨을 살펴봤다. 분할표 카이제곱검정은 이 개념을 좀 더 넓게 확장한 것이라고 할 수 있다. 분할표 카이제곱검정은 모집단 내의 두 범주변수가 서로 차이가 있는지 없는지 밝히기 위해서 사용되어진다.

 


  MBA 프로그램은 코스를 만드는 문제에 직면한다. MBA 프로그램의 선택 과목과 전공에 대한 수요는 매년 변화한다. 어느 한 해에 학생들은 마케팅 코스를 원하고 다른 해에 회계 또는 재무금융코스가 압도적인 선호대상이다. 경영대학원장은 필사적으로 한 통계학 교수에게 도움을 청하였다. 이 통계학 교수는 학생들의 학문적 배경이 크게 변화할 뿐만 아니라 학부학위가 MBA 전공의 선택에 영향을 준다고 믿는다. 그는 분석의 출발단계로 작년의 MBA 학생들로 구성된 임의표본을 추출하였고 선택된 MBA 학생들이 선택한 학부학위와 MBA 프로그램 전공을 기록하였다. 학부학위는 BA,BEng,BBA, 기타였다. MBA 학생들이 선택할 수 있는 3개의 전공은 회계, 재무금융, 마케팅이다. 이와 같은 결과가 아래와 같은 분할표(contingency table) 또는 교차분류표(cross-classification table) 라고 부르는 표로 요약되었다. 이 통계학 교수는 학부학위가 MBA 전공의 선택에 영향을 준다고 결론지을 수 있는가?

 


 

  회계 재무금융 마케팅 합계
BA 31 13 16 60
BEng 8 16 7 31
BBA 12 10 17 39
기타 10 5 7 22
합계 61 44 47 152

 

  위의 표는 임의표본에 뽑힌 학생들의 학사학위별 MBA전공의 도수를 기록한 표이다. 두 범주 모집단 간의 관계가 있는지 살펴볼 수 있는 방법 중 하나는 두 범주데이터를 기술하는 교차그래프 기법을 사용하는 것이다. 다른 하나는 분할표 카이제곱 검정을 하는 방법이다. 먼저 분할표 카이제곱 검정의 검정통계량은 앞서 살펴봤던 카이제곱 적합도 검정과 같다. 

 

$$\chi^2 = \sum_{i=1}^k \frac{(f_{i} - e_{i})^2}{e_{i}}$$

 

  즉, 관측도수와 기대도수의 차이의 제곱을 한 이후에 표본의 크기로 나눈 값이다. 하지만 분할표 카이제곱 검정에서는 한 가지 문제가 발생한다. 앞선 카이제곱 적합도 검정은 범주데이터 모집단 내의 범주들의 확률을 구할 수 있었다. 따라서 그 확률을 이용하여 전체 도수 X 확률을 곱하여 각 범주의 기대도수를 도출할 수 있었다. 그러나 분할표 같은 경우에는 그 확률이 명시되어 있지 않다. 따라서 그 확률을 직접 분할표를 통해서 구할 수 밖에 없다.

 

  확률을 구하는 방법은 결합확률의 법칙을 사용하는 것이다. BA일 때 회계를 택할 확률은 다른 말로 P(A and B) 라고 할 수 있다. P(A and B) 는 결합확률의 방법으로 P(A) X P(B) 를 통해서 구할 수 있다. 그렇다면 P(A) 와 P(B) 를 구하는 것이 관건인데 이는 "전체도수 / 각 범주의 도수" 를 통한 상대도수로 구할 수 있다. 예시로 표를 살펴보면 P(BA & 회계) 를 구한다고 한다면, P(BA) X P(회계) 를 통해서 확률을 구해야 한다. P(BA) 는 상대도수 개념으로 구하게 되면 60/152 이라고 할 수 있다.  따라서 위의 분할표의 각 셀의 확률을 구할 수 있게 된다.

 

(귀무가설: 두 범주데이터는 독립이다. 를 통해서 결합확률을 사용할 수 있다.)

 

  분할표의 각 셀의 확률(두범주가 동시에 일어날 확률) 을 구하게 되었다면, 기대도수를 구할 수 있게 된다. 기대도수는 각 셀의 확률 X 표본크기를 곱하면 된다. 예를 들어서 BA & 회계의 기대도수를 구하게 된다면, 60/152 X 61/152 X 152를 하면 된다. 따라서 분할표의 모든 셀의 기대도수를 도출할 수 있게 된다. 그렇게 된다면 관측도수와 기대도수의 차를 검정통계량화 할 수 있다.

 

  회계 재무금융 마케팅
BA 31(24.08) 13(17.37) 16(18.55)
BEng 8(12.44) 16(8.97) 7(9.59)
BBA 12(15.65) 10(11.29) 17(12.06)
기타 10(8.83) 5(6.37) 7(6.80)

 

  이제 위의 분할표 검정통계량을 구하는 공식을 사용하여 검정통계량을 구하게 된다면 14.70이 도출이 된다.

 

  이러한 검정통계량은 자유도가 분할표의 행 개수 - 1, 열 개수 -1 을 따른다. 즉, r-1, c-1 을 따른다. 따라서 위 예시의 검정통계량은 2 x 3 = 6 의 자유도를 따르는 카이제곱분포를 따르게 된다. 따라서 유의수준 5%하에서 자유도 6인 기각역을 설정할 수 있게 되고, 검정통계량이 이 기각역보다 크게 된다면 귀무가설을 기각하고 대립가설을 선호하게 된다. 즉, 귀무가설 : 두 범주데이터 간에 관계가 없다와 대립가설 : 두 범주데이터 간에 관계가 있다 중에 귀무가설을 기각하고 대립가설을 선호하게 된다. 기각역은 12.59인데 검정통계량이 14.70 이므로 기각역보다 크므로 귀무가설을 기각시킬 수 있다.(두 데이터 간에는 차이가 존재한다)

 

Comments