데이터 한 그릇

기초통계 18 : 다중회귀분석 본문

통계/기초통계

기초통계 18 : 다중회귀분석

장사이언스 2021. 4. 1. 16:27
  • 다중회귀모형과 필요조건
  • 회귀계수의 추정과 다중회귀모형의 평가
  • 회귀모형의 진단 2

https://kurt7191.tistory.com/27

 

기초통계 17 : 단순선형회귀분석과 상관관계분석

모형 회귀계수의 추정 오차변수의 필요조건 선형회귀모형의 평가 회귀분석(regression analysis)은 다른 변수에 기초하여 한 변수의 값을 예측하기 위해 사용한다. 이 통계기법은 종속변수(dependent var

kurt7191.tistory.com


  앞선 장에서는 1개의 독립변수가 종속변수에 영향을 끼치는 회귀모형을 만들었다. 이번 장에서는 여러 개의 독립변수가 종속변수에 영향을 끼치는 모형에 대해서 살펴볼 예정이다.  다수의 독립변수가 한 개의 종속변수에 영향을 끼치는 것이 일반적이며 독립변수의 개수를 제한하는 것이 모형의 정확도를 해칠 수 있다. 먼저 다중회귀모형의 정의를 설펴보고 그것의 필요조건을 살펴본 이후에 모형의 적합도를 평가를 할 것이다. 그리고 회귀계수를 해석하는 법과 종속변수의 값과 기대치를 예측하는 과정을 살펴볼 예정이다.

 

다중회귀모형과 필요조건

 

  위에서 말했지만 다중회귀모형에서는 단일한 독립변수가 아니라 다수의 독립변수가 등장한다. 단순회귀모형이 확률적 모형 즉, 오차변수가 포함되었던 것과 같이 다중회귀모형 또한 오차변수가 포함된다. 그리고 독립변수가 여러 개이기 때문에 하나의 독립변수가 종속변수에 영향을 끼치는 것 뿐만 아니라 다른 독립변수에도 영향을 끼칠 수 있다. 즉, 하나의 독립변수가 다른 독립변수의 함수일수도 있다. 그리고 단순회귀모형에서는 그래프의 모양이 직선으로 나타났지만, 독립변수가 여러 개일 경우에는 반응표면으로 나타난다. 만일 독립변수가 두 개일 경우에는 평면으로 나타날 수 있지만 그 이상이 될 경우에는 다차원으로 나타나기 때문에 상상만 할 수 있을 뿐이다.

 

  단순선형회귀에도 오차변수가 있었으며 그 오차변수에 필요조건이 있었던 것처럼 다중선형회귀 모형에도 오차변수가 존재하고 오차변수의 필요조건이 존재한다. 다음은 다중회귀분석의 오차변수의 필요조건이라고 할 수 있다.

 

  1. 오차변수의 확률분포는 정규분포이다.
  2. 오차변수의 평균은 0이다.
  3. 오차변수의 표준편차는 상수이다.
  4. 오차변수들은 독립이다.

  그렇다면 다중회귀분석의 회귀계수들을 어떻게 구하는지 살펴보고 어떻게 평가하는지 살펴보도록 하자.

 


회귀계수의 추정과 다중회귀모형의 평가

 

 

  먼저 회귀분석이 어떻게 수행되는지 제시해보자. 

 

단계1)

 

  먼저 다중회귀분석에서 종속변수와 선형관계를 가지고 있다고 판단되는 변수들을 선택한다. 이 때 모든 변수들을 전부 회귀분석의 변수로 사용하는 것이 아니라 몇 가지 기준을 두고 변수를 선정한다. 이렇게 하는 첫 째, 이론적으로 종속변수에 영향을 미치는 독립변수들만 포함시켜야 하기 때문이다. 왜냐하면 분석의 목적이 가정하고 있는 모형이 타당한가와 모형에 포함되어 있는 독립변수들이 종속변수와 선형관계를 가지고 있는지를 파악하기 위한 것이기 때문이다. 둘째, 많은 수의 독립변수들을 포함하면 제1종 오류 확률이 증가한다. 셋째, 소위 다중공선성 때문에 1개 이상의 독립변수들이 실제로 종속변수와 선형관계를 가지고 있음에도 불구하고, 모든 독립변수들이 종속변수와 선형관계를 가지고 있지 않다고 결론내릴 수 있다.

 

단계2)

 

  회귀계수들과 기타 통계량을 계산하는데, 단순회귀분석 같은 경우에는 회귀분석 식을 사용하여 계수를 추정할 수 있었지만 다중회귀분석에서는 너무 복잡하기 때문에 컴퓨터를 통해서 밝혀내야만 한다. 

 

단계3)

 

  모형을 평가한다. 이 때 추정된 회귀모형은 3가지 방법, 추정치의 표준오차, 결정계수, 분산분석의 F검정에 의해 평가된다. 각각의 방법을 살펴보도록 하자.

 

  모집단의 추정치의 표준오차는 오차변수의 표준오차이고 추정치의 표준오차는 모수이기 때문에 표본으로부터 추정된다.  다중회귀분석에서 추정치의 표준오차는 다음과 같이 정의된다.

 

$$\sqrt{\frac{SSE}{n-k-1}}$$

 

 

  결정계수는 단순선형회귀일 경우의 결정계수 평가법과 똑같다. 하지만 다른 점이 존재할 수 있다. 만약에 독립변수의 개수가 표본크기보다 상대적으로 크다면 결정계수의 값이 비현실적으로 크게 나올 수 있다. 이럴 때는 자유도 조정 결정계수를 사용하게 된다.  예를 들어서 단순선형회귀에서 표본크기가 2라고 가정한다면 사실 두 변수의 관계는 선형관계가 존재하지 않을 수 있지만 결정계수의 값은 크게 나와서 선형관계가 있는 것처럼 보일 수 있다. 이처럼 표본크기가 독립변수의 개수들과 비교해서 상대적으로 적을 때는 자유도 조정 결정계수를 사용해야만 한다. 자유도 조정 결정계수의 식은 다음과 같다.

 

$$R^2 = 1 - \frac{SSE/(n-k-1)}{\sum (y_{i} - \bar{y})^2/(n-1)} = 1 - \frac{MSE}{s^2_{y}}$$

 

 

  앞서 단순선형회귀 같은 경우에는 기울기계수에 대한  t검정을 시행하였다. 하지만 한 개 이상의 독립변수들이 존재할 경우에는 다른 방법이 필요하다. 이와 같은 형태의 검정 방법은 분산분석에서 시행했던 분석 방법과 유사하다. 다중회귀분석에서의 기울기계수에 대한 가설검정은 비슷하다. 귀무가설은 모든 계수들이 0임을 이야기하고 대립가설은 한 개 이상의 회귀계수가 0이 아님을 주장한다. 만일 귀무가설이 기각되지 않는다면 모든 회귀계수들이 0임을 이야기 하고 따라서 회귀모형은 적합하지 않다. 하지만 대립가설이 존재하게 된다면 한 개 이상의 회귀계수가 0이 아니기 때문에 약간의 타당성을 가질 수 있게 된다.

 

  앞서 회귀분석에서 y의 변동은 크게 두 가지로 나뉠 수 있음을 살펴봤다. 회귀식으로 설명이 되는 SSR부분과 회귀식으로 설명이 안되는 오차부분인 SSE부분이다. 

 

Y의 총변동 = SSR + SSE

 

  따라서 SSR이 SSE와 비교해서 상대적으로 큰지 살펴보면서 회귀모형의 적합성을 평가해야만 한다. 이 때 두 개의 평균제곱 비율기 계산된다. 이 때의 분산분석 표는 다음과 같다.

 

변동의 원천 자유도 제곱합 평균제곱 F 통계량
회귀 k SSR MSR=SSR/k F=MSR/MSE
오차 n-k-1 SSE MSE=SSE/(n-k-1)  
합계 n-1 $$\sum (y_{i} - \bar{y})^2$$    

 

  위의 표와 같이 두 개의 평균제곱비율은 MSR/MSE 로 계산이 되며 이는 자유도 k와 n-k-1을 따르고 있다. 이 때 F의 값이 크다는 것은 분자 부분의 MSR의 부분이 크다는 이야기로 결국 SSR의 부분이 크다는 이야기와 직결이 된다. SSR부분은 회귀식으로 설명이 되는 y변동에 대해서 이야기 하는 것이기 때문에 결국 회귀모형이 타당하다는 것을 말해준다. 그렇다면 이 검정통계량이 얼마나 커야지 회귀모형이 적합하다고 할 수 있는지 유의수준을 통해서 판단해야한다. 만일 유의수준 5%하에서 검정을 한다면 검정통계량은 자유도 k,n-k-1을  따르며 유의수준이 5%인 f분포를 따르게 된다.  만일 SSE값이 작아지면 결정계수의 크기가 커지게 되고 또한 SSE가 작아지면 F값도 커지게 된다.

  이처럼 회귀모형이 적합하다고 판단이 되면 회귀계수들을 해석하고 검정할 수 있으며 예측하고 추정하기 위해 회귀모형이 사용될 수 있다. 다음으로는 회귀계수의 해석을 어떻게 하는지 살펴보도록 하자.   

 

 

 

회귀계수의 해석)

 

  먼저 가정의 소득에 관련된 회귀분석이 있다고 가정해보자. 고려되는 변수들이 연령, 교육년수, 주당근로시간, 배우자의 주당 근로시간, 돈을 버는 가족 수, 자녀 수가 있다고 했을 때, 이 변수들이 각각 회귀계수들이 존재한다고 해보자. 만일 연령의 회귀계수가 974라고 한다면 연령이 1씩 증가할 때마다 소득이 974정도 올라간다고 해석할 수 있다. 또 만일 주당 근로시간의 회귀계수가 1,091이라고 한다면 주당 근로시간이 1씩 증가할 때마다 1,091원이 올라간다고 해석할 수 있다. 그리고 절편 또한 존재할 수 있는데 절편은 모든 독립변수들이 0일 경우에 기본적으로 소득하는 수치라고 할 수 있다.

 

회귀계수의 결정)

 

  앞서 다중회귀분석의 모형이 적합한지 적합한지 않은지 오차변수의 추정표준오차를 확인한다거나 기울기들의 계수를 분산분석을 통해서 확인한다거나 하여 결정하였다. 만일 그 모형이 적합하다고 판정이 났을 때 어떠 회귀계수가 유의미한지 판정을 해야만 한다. 따라서 각각의 독립변수에 대하여 검정을 실시해야만 한다.

 

  앞서 단순회귀분석 같은 경우에 t검정통계량을 구할 때 오차변수의 추정표준오차의 값을 사용하여 값을 도출하였다. 다중회귀분석의 각각의 회귀계수를 검정할 때도 이와 마찬가지이다.

 

  이처럼 다중회귀분석 같은 경우에는 종속변수와 독립변수간의 관계를 여러번 t검정 하게 된다. 그러나 앞서 분산분석에서 살펴봤듯이 여러번의 t검정은 제1종오류의 확률을 높일 수 있다. 만일 F검정을 사용하게 된다면 제1종오류의 확률을 줄일 수 있다. 또한 F검정을 사용하게 된다면, 다중공선성을 줄일 수 있다. 만일 다중공선성이 존재하게 된다면 어떤 독립변수가 사실 종속변수에 영향을 끼침에도 불구하고 영향을 끼치지 않는다고 판단 내려질 수 있게 된다. 수학자들은 자유도가 v인 통계량을 제곱하면 자유도가 각각 1과 v인 F통계랴이 된다는 것을 밝혀냈다.


회귀모형의 진단 2

 

  회귀모형을 진단하는데는 그것만의 척도들이 존재한다. 다음은 회귀모형을 진단하는데 고려해야되는 척도들이다.

 

  1. 오차변수는 비정규분포를 따르는가?
  2. 오차변수의 분산은 일정한가?
  3. 오차변수들은 독립인가?
  4. 부정확한 관측치들이 존재하거나 목표 모집단에 속하지 않는 관측치들이 존재하는가?

  그리고 다중회귀모형에만 적용되는 다른 진단요소가 존재하는데 바로 다중공산성(multicollinearity)이다. 다중공산성은 독립변수들이 서로 상관관계를 가지고 있을 때 일어난다. 다중공산성이 일어나면 첫째, 회귀계수의 분산이 크기 때문에 표본회귀계수는 실제 회귀계수와 크게 다를 수 있다. 둘쨰, 오차변수의 추정표준오차가 커지게 된다면 t통계량은 그것을 분모로 받고 있기 떄문에 값이 작아질 수 밖에 없다. 따라서 본래는 종속변수에 영향을 끼친다고 여겨지는 요소가 t통계량이 왜곡되어 나오기 때문에 영향을 끼치지 않는다고 판단되어질 수 있다. 마지막으로 회귀계수를 해석하는데 어려움을 겪는다. 만일 독립변수가 서로 전혀 영향을 끼치지 않는다고 가정한다면 단위가 1 변할 때마다 종속변수에 어느정도 영향을 끼치는지 파악할 수 있다. 그러나 독립변수들끼리 상관관계를 가지고 있다면 어떤 독립변수가 단위가 1정도 변할 때 다른 독립변수에도 그 크기가 영향을 끼치기 때문에 총체적으로 종속변수에 끼치는 영향도를 파악하기는 쉽지 않다.

 


정리

 

  다중회귀분석 같은 경우에도 단일회귀분석과 같이 확정적 모형이 아니라 확률적 모형이다. 따라서 회귀식에 오차변수를 가지고 있다. 이때 오차변수의 필요조건도 단일회귀분석의 오차변수의 필요조건과 같다. 그리고 모형이 적합한지 적합하지 않은지 세 가지 방법으로 판단할 수 있다. 바로 오차변수의 표준오차의 크기와 결정계수 그리고 기울기계수의 F검정이다. 오차변수의 표준오차가 크게 된다면 오차변수의 평균값 0으로부터 멀어지는게 될 것이며 따라서 실제 회귀선과 실제 데이터의 오차가 커짐을 이야기한다. 따라서 추정표준오차가 작은 것이 적합하다고 선호될 것이다. 그리고 결정계수는 설명의 정도를 나타내는데 이때 사용하는 식은 단일회귀분석에서 사용했던 식과 같다.

  그리고 기울기계수에 대한 검정은 SSR과 SSE의 비율 중에서 무엇이 더 큰지 판별해야만 한다. 따라서 이 값들의 평균제곱비율이 계산되어진다. 바로 MSR과 MSE의 비율이다. 이 비율은 각각 k와 n-k-1을 따른다. 이렇게 다중회귀식의 계수들이 모두 0이라는 귀무가설이 기각이 된다면 어떤 계수들이 종속변수에 영향을 끼치고 있는지 파악해야한다. 이 때 단일회귀분석에서 사용한 t검정을 모든 종속변수와 독립변수의 쌍에 사용한다. 하지만 t검정을 너무 많이 하게 된다면 제1종오류의 확률이 커지게 되므로 t검정을 통합한 F검정을 사용해야만 한다. 또한 F검정을 해야지만 다중공선성을 피할 수 있으며 다중공선성을 피해야지만 유의미한 회귀계수가 기각되지 않을 수 있다.

  회귀모형을 진단하는데는 4가지의 다른 척도가 있다. 바로 오차변수는 비정규분포를 따르는가? 오차변수의 분산은 일정한가? 오차변수들은 독립인가? 부정확한 관측치들이 존재하거나 목표 모집단에 속하지 않는 관측치들이 존재하는가? 이다. 그리고 추가적으로 다중회귀분석에서만 고려해야 할 다중공산성도 파악해야만 한다. 다중공산성은 해석의 문제도 낳으며 위에서 말한 유의미한 회귀계수도 기각시킬 수 있기 때문이다.

 

 

 

 

Comments