데이터 한 그릇

기초통계 15 : 분산분석(3) 본문

통계/기초통계

기초통계 15 : 분산분석(3)

장사이언스 2021. 3. 25. 17:56
  • 일원분산분석
  • 다중비교검정
  • 이인자분산분석

https://kurt7191.tistory.com/20?category=1000998

 

기초통계 14 : 분산분석(2)

일원분산분석 다중비교검정 분산분석 실험계획법 랜덤화블럭(이원) 분산분석 이인자분산분석 https://kurt7191.tistory.com/19 기초통계13 : 분산분석(1) 일원분산분석 다중비교검정 분산분석 심험계획

kurt7191.tistory.com


이인자분산분석

 

  앞선 장에서는 일인자실험으로부터 데이터가 생성되는 문제들을 논의하였다. 이 때의 예시는 가장의 연령에 따라서 주식 투자 비중이 달라지는지 설펴보려고 하였다. 이 때 요인은 가장의 연령 단 1개였다. 하지만 여러가지 요인이 고려될 수 있다. 가장의 성별이나 가장의 소득과 같은 요인들이 고려될 수 있다. 즉, 요인이 1개일수도 있지만 여러 개 일수도 있다. 따라서 두 개 이상의 인자가 반응변수(종속변수)에 미치는 효과가 검토될 수 있다. 이를 이인자분산분석이라고 부른다.

 


  한 국가 경제의 건강도에 대한 하나의 척도는 얼마나 신속하게 일자리를 만들어 내느냐 하는 것이다. 이와 같은 문제와 관련된 하나의 내용이 개인들이 가지는 직업의 수이다. 재직기간에 관한 연구의 한 부분으로 37세 ~ 45세 사이에 있는 미국인들에게 생애 동안 얼마나 많은 직업을 가졌는지 물어보는 서베이가 이루어졌다. 성별과 교육수준도 기록되었다. 교육수준의 범주는 다음과 같다.

 

  • 고등학교 중퇴 이하(E1)
  • 고등학교 졸업(E2)
  • 전문대학/대학재학 학위미취득(E3)
  • 적어도 1개의 대학 학위취득(E4)

 

  성별과 교육수준의 8개 범주 각각에 대한 데이터가 다음과 같이 정리되어 있다. 성별과 교육수준 간에 차이가 존재한다고 추론할 수 있는가?

 

남성/E1 남성/E2 남성/E3 남성/E4 여성/E1 여성/E2 여성/E3 여성/E4
10 12 15 8 7 7 5 7
9 11 8 9 13 12 13 9
12 9 7 5 14 6 12 3
16 14 7 11 6 15 3 7
14 12 7 13 11 10 13 9
17 16 9 8 14 13 11 6
13 10 14 7 13 9 15 10
9 10 15 11 11 15 5 15
11 5 11 10 14 12 9 4
15 11 13 8 12 13 8 11

 

  먼저 일원분산분석을 했었던 방법으로 문제를 접근해보도록 하자. 8개의 level이 존재한다. 하지만 각 레벨은 두 개의 요인의 결합이라고 할 수 있다. (성별과 교육수준). 성별이라는 요인은 두 개의 level을 가지고 있고, 교육수준은 네 개의 level을 가지고 있다. 이를 가지고 가설검정을 시행한다면 다음과 같다.

 

$$H_{0} : \mu_{1}=\mu_{2}=\mu_{3}=\mu_{4}=\mu_{5}=\mu_{6}=\mu_{7}=\mu_{8}$$

 

$$H_{1} : 적어도 두 모평균의 차이가 존재한다.$$

 

  일원분산분석과 같이 SST값을 구하고 SST값을 검정통계화하여 자유도가 MST와 MSE의 분모의 자유도를 따르는 F분포를 따른 검정통계량을 도출한다면 F = 2.17이고 P-값은 0.467이다. 따라서 8개의 LEVEL들 간에 직업수의 차이가 존재한다는 것을 알 수 있다. (8개의 모집단 간에 평균 값이 최소 두 개 이상은 차이가 난다)

 

  하지만 이러한 결론은 혼란을 야기할 수 있다. 모집단 간에 평균 값이 차이가 나는 것은 성별 때문이가? 아니면 교육수준 때문인가? 또는 직업 수 또는 적은 직업 수의 결과를 발생시키는 성별과 교육수준의 상호작용(Interaction) 이라고 부른 조합유형들이 존재하는가? 이와 같은 질문들과 관련된 검정이 어떻게 이루어지는지 살펴보기 위해 몇 가지 용어를 이해할 필요가 있다.

 

 

  완전인자실험(complete factorial experiment)은 인자들의 수준들 간 모든 가능한 조합에 대한 데이터가 수집되는 실험이다. 이것은 앞선 예제처럼 성별 요인의 두 가지 수준, 교육정도 요인의 네 가지 수준(4 * 2)과 같이, 모든 조합에 대해서 데이터가 수집된 것과 같다. 이 실험은 완전 2x4 실험이라고 부른다. 인자 A의 수준 수는 a라고 부르고 B의 수준 수는 b라고 부른다. 각 조합의 관측치 수는 반복(replicate) 라고 부른다. 반복의 수는 r로 표시된다. 우리는 반복의수 r이 각 수준에서 동일한 것만 살펴본다. 따라서 처리의 수가 ab이고 각 처리는 r의 반복을 가지고 있는 완전인자실험이 수행이 된다.

 

  처리들에 발생한 변동은 SST로 표현된다. 앞서 일원분산분석을 통해서 모집단간에는 평균 차이가 있음을 살펴보았다. 즉, 모집단 간에 직업의 수에 차이가 있음을 살펴보았다. 그렇다면 직업의 수에 차이가 나는 이유가 성별인지 교육의 수준인지 혹은 성별과 교육수준의 상호작용인지 알기 위해서는 sst를 분석할 필요가 있다. sst를 세 개로 분석한다면, SS(A),SS(B),SS(AB) 이다.

 

1)인자 A 제곱합(SS(A)), 인자 B 제곱합((SS(B)), 상호작용 제곱합(SS(AB))의 계산

 

우리는 아래와 같은 공식을 사용한다.

 

출처 : 켈러의 경영경제통계햑,628pg

 

이를 이해하기 위한 표와 제곱합들이다.

 

출처 : 켈러의 경영경제통계학 629pg

 

출처 : 켈러의 경영경제통계학 629pg

 

 

 

  다음은 검정 과정을 나타낸 그림이다.

 

 

출처 : 켈러의 경영경제통계학 630pg

 

  이 그림은 F검정들을 위해 총제곱합을 분해한 것을 보여준다. 일원분산분석을 통해서 처리 평균들 간에 차이가 있음이 발견 되었다면, 그 때의 SST를 세 가지로 분해하여 검정을 시행할 수 있다. 바로 SS(A),SS(B),SS(AB) 이다. 인자 A의 제곱합이라고 할 수 있는 SS(A)의 자유도는 a-1이고 두 번째 변동요인은 인자 B의 수준간변동이고 SS(B)의 자유도는 b-1이다. 또한 상호작용 제곱합이라고 할 수 있는 SS(AB)는 인자 A와 인자 B의 결합간 변동을 측정하고 자유도는 (a-1) x (b-1) 이다.  오차제곱합은 SSE이고 이것은 자유도가 n- ab이다.(sse는 마찬가지로 처리내변동)

 

  다음은 이인자분산분석에서 수행되는 F검정을 정리해둔 것이다. 이는 3가지로 분류될 수 있다.

 

  1. 인자 A의 수준들 간 차이에 대한 검정
  2. 인자 B의 수준들 간 차이에 대한 검정
  3. 인자A와 B의 상호작용에 대한 검정

  먼저 인자 A의 수준들 간 차이에 대한 검정은 다음과 같다.(가설검정, 검정통계량)

 

$$H_{0} : 인자 A의 a개 수준들의 모평균들은 같다.$$

 

$$H_{1} : 적어도 두 모평균은 다르다.$$

 

$$F = \frac{MS(A)}{MSE}$$

 

  다음 인자 B의 수준들 간 차이에 대한 검정은 다음과 같다.

 

$$H_{0} : 인자 B의 b개 수준들의 모평균들은 같다.$$

 

$$H_{1} : 적어도 두 모평균은 다르다.$$

 

$$F = \frac{MS(B)}{MSE}$$

 

  다음 인자 A와 B의 상호작용에 대한 검정은 다음과 같다.

 

$$H_{0} : 인자 A와 인자 B는 평균 반응에 영향을 주기 위해 상호작용을 하지 않는다.$$

 

$$H_{1} : 인자 A와 인자 B는 평균 반응에 영향을 주기 위해 상호작용을 한다.$$

 

$$F = \frac{MS(AB)}{MSE}$$

 

 

 

이 또한 분석 결과를 ANOVA 표로 정리할 수 있다.

 

변동의 원천 자유도 제곱합 평균제곱 F통계량
인자 A a - 1 SS(A) MS(A)=SS(A)/(a-1) F=MS(A)/MSE
인자 B b - 1 SS(B) MS(B)=SS(B)/b-1 F=MS(B)/MSE
상호작용 (a-1)(b-1) SS(AB) MS(AB)=SS(AB)/[(a-1)(b-1)] F=MS(AB)/MSE
오차 n-ab SSE MSE=SSE/(n-ab)  
합계 n-1 TSS    

 

  결국 이인자분산분석 같은 경우에는 이 세 가진의 가설검정을 진행해야만 한다. 그렇다면 앞선 예시의 문제를 하나하나 풀어보면 다음과 같은 결과가 도출된다. 먼저 남성과 여성 간의 직업 수 차이에 대한 검정은 요인이 성별이며 수준이 2개 즉, 처리가 2개인 가설검정이다. 이를 위한 검정통계량은 위의 표에 적혀있다시피 F = MS(A)/MSE이다. MS(A)의 값은 SS(A)/a-1을 한 경우이다. (이 때 SS(A)는 a-1의 자유도를 가진 t분포를 따른다.)  MSE경우에 자유도가 n-ab(k) 이므로 F값은 11.25/10.09 = 1.12가 도출된다. 따라서 5%의 유의수준에서 남성과 여성 간에 직업 수의 차이가 있다고 할 수 없다.

 

  다음으로 교육수준들 간의 직업 수 차이에 대한 검정을 하게 되면 검정통계량은 F = MS(B)/MSE이다. MSE값은 자유도가 n-ab로 동일하고 따라서 값도 동일하다. 그리고 MS(B)는 SS(B)/b-1이다.( SS(A)는 자유도가 b-1인 t분포를 따른다) 따라서 계산하게 된다면 F = 45.28/10.09 =  4.49를 도출하게 된다. 따라서 5%의 유의수준에서 교육수준들 간에 직업 수의 차이가 있다고 추론할 수 있는 충분한 증거가 존재한다.

 

 

  마지막으로 인자 A와 인자 B의 상호작용에 대한 검정은 검정통계량 MS(AB)/MSE 를 따르며 MS(AB)의 값은 SS(AB)/((a-1)(b-1) 을 따른다. 따라서 결과 값은 F=2.08/10.09 = 0.21이  도출된다. 이는 5%의 유의수준에서 성별과 교육수준 간의 상호작용이 존재한다고 결론지을 충분한 증거가 존재하지 않는다고 할 수 있다.

 


정리(분산분석 전체)

 

 

  지금까지 분산분석을 통해서 일원분산분석과 다중비교검정(사후분석) 그리고 이인자분산분석에 대해서 살펴봤다. 일원분산분석은 두 모집단 간의 모평균의 차이가 있는지 살펴보기 위한 분석 방법을 의미한다. 어떤 요인 A가 있을 때 다양한 모집단이 있다면, 각각의 모집단들에서 임의표본을 추출하여 표본평균을 구한 후, 표본평균간의 차이 즉 처리간차이를 구하게 되는데 이는 SST라고 할 수 있다. SST의 값이 작게 나오면 표본평균 간 차이가 많이 나지 않음을 뜻하게 되고 따라서 모집단 간의 평균의 차이가 없음을 의미하게 된다. 그렇다면 SST값이 작다, 크다의 기준이 필요한데 SST를 F검정통계량화하여 가설검정을 진행한다. 그러면서 SSE값과 MST,MSE값을 구하게 되고 최종 검정통계량은 자유도가 k-1,n-k를 따르는 f분포의 MST/MSE 값이 된다. 유의수준과 f검정통계량 값과 비교를 하여 표본들간에 평균 차이가 나는지 나지 않는지 살펴보고 이를 통해서 모집단 간의 모평균의 차이가 나는지 나지 않는지 비교를 하게 된다.

  그렇다면 분산분석 중에 어떤 모집단들끼리 평균이 차이가 나는지 궁금할 수 있다. 이는 사후분석 혹은 다중비교검정이라고도 불린다. 이 방식의 기본 원리는 모든 모집단들의 쌍들이 각각 평균끼리 차이가 나는지 t검정을 시행하는 것이다. 이 때 조건은 두 모집단의 동분산이 같다는 전제이며 통합추정분산을 사용하지 않고 MSE값을 사용한다. 따라서 두 모집단 간의 차이가 존재하는지 t통계량으로 두 모집단의 차이를 검정통계화하여 유의수준에서 비교한다. 하지만 이는 너무 많은 level이 존재하게 되면 계산 과정이 굉장히 길어질 것이기 때문에 피셔의 최소유의차검정을 통해서 간소화 시킬 수 있다. 바로 LSD값을 구하는 것인데 LSD는 자유도가 MSE의 분모와 같은 자유도를 따른다(즉,n-k). 두 모든 표본평균쌍들의 차이를 각각 LSD값과 비교했을 때, 차이의 값이 더 크다면 두 모집단 간에 평균이 동일하지 않음을 확인할 수 있다. (그리고 피셔의 최소유의차검정을 보완하기 위해서 유의수준을 조정하는 것은 모집단들의 쌍 개수로 유의수준을 나누면 된다, 본페로니 조정)

  마지막으로 요인이 1개일 때 뿐만 아니라 요인이 두 개 이상일 때의 분산분석이 필요할 수 있는데 이 때 사용하는 것이 이인자분산분석이라고 할 수 있다. 이인자분산분석은 가설검정을 3개로 요약할 수 있다. 요인 A의 모집단들 끼리의 평균의 차이가 존재하여 종속변수 Y에 영향을 끼치는지 판단하는 것과 요인 B의 모집단들 끼리의 평균의 차이가 존재하여 종속변수 Y에 영향을 끼치는지 판단하는 것 마지막으로 A와 B의 상호작용에 의해 종속변수 Y에 영향을 끼치는지 가설검정하는 것으로 요약할 수 있다. 이 때 각각의 요인들의 검정통계량을 구하는 방법은 SST를 3가지로 나눈 것과 연관되어 있다. SST가 처리간 차이이며 처리제곱합인데, SS(A)는 A요소의 모집단들의 표본평균들간의 차이를 의미하며(다른 말로 요인 A의 수준간변동) SS(B)는 B요소의 모집단들의 표본평균의 차이를 의미하며, (요인B의 수준간변동) SS(AB)는 상호작용제곱합(A와 B의 결합간 변동) 을 의미한다. 따라서 이 세 가지의 가설검정을 검정하여 종속변수와 요인간의 관계를 파악할 수 있다. (기본적으로 일인자분산분석과 F검정통계량을 구하는 방식이 같으며 다른 점은 각 요인에 맞는 SST를 구하는 것이다.)

 

  다음 장에서는 카이제곱검정을 살펴보도록 하겠다.

Comments