데이터 한 그릇

기초통계 17 : 단순선형회귀분석과 상관관계분석 본문

통계/기초통계

기초통계 17 : 단순선형회귀분석과 상관관계분석

장사이언스 2021. 3. 30. 18:28
  • 모형
  • 회귀계수의 추정
  • 오차변수의 필요조건
  • 선형회귀모형의 평가

 

  회귀분석(regression analysis)은 다른 변수에 기초하여 한 변수의 값을 예측하기 위해 사용한다. 이 통계기법은 종속변수(dependent variable) 라고 불리는 변수와 종속변수와 관련되어 있다고 여겨지는 독립변수(independent variable) 간의 관계를 나타내는 수학적 모형이라고 할 수 있다. 만일 종속변수와의 상관분석만을 목적으로 한다면 앞서 기술통계학에서 배웠듯이 그래프(산포도)와 통계수치들(공분산, 상관계수, 결정계수) 을 통해서도 가능하다. 회귀분석을 하는 또 하나의 다른 이유는 예측하는 것에 있다.

 

모형

 

  모형의 종류는 크게 확정적 모형(deterministic model)확률적 모형(probability model) 이 존재한다. 확정적 모형은 작은 측정오차의 경우를 제외하고 독립변수들의 값으로부터 식의 왼쪽에 있는 종속변수의 값이 결정될 수 있기 때문에 붙여졌다. 하지만 확정적 모형은 실세계에서 적합하다고 할 수 없다. 예를 들어서 주택의 가격을 예측하는 확정적 모형이 있다고 가정해보자. 그 모형의 독립변수가 집의 면적이라고 할 때, 집의 가격은 집의 면적의 변동에 따라서 결정될 것이다. 하지만 이는 현세계에 적합하지 않다고 할 수 있다. 왜냐하면 집의 가격을 결정짓는 요소들은 집의 면적 뿐만 아니라, 방의 개수, 위치 등등도 존재하기 때문이다. 대부분의 실제 모형에서 포함되어야 하는 것은 현실적인 상황의 한 부분을 구성하고 있는 임의성(randomness) 이다. 이와 같은 임의성을 포함하고 있는 모형을 확률적 모형이라고 부른다.

 

  확률적 모형을 만들기 위해서 확정적 모형의 확정적 요소의 임의오차를 측정하는 항을 첨가한다. 이 오차변수는 임의항이라고도 불리며 오차항이라고도 불린다. 정리하자면, 확률적 모형을 만들기 위해서 먼저 확정적 모형으로부터 모형을 만들기 시작한다. 확정적 모형에 임의오차를 측정하는 요소(변수)를 추가하면서 확률적 모형을 만든다. 오차변수는 확정적 모형에 포함되지 않은 측정 가능하거나 측정 불가능한 모든 변수들의 영향을 나타낸다. 즉 실제가격과 확정적 모형을 통해서 만들어진 값의 차이가 오차항의 값이라고 할 수 있다.(그렇기 때문에 확정적 모형에 포함되지 않는 다른 모든 변수들의 영향을 나타낸다, sse가 연상이 되어야 한다.) 이러한 확률적 모형 중에서 한 개의 독립변수만을 가지고 있는 모형을 단순선형회귀모형(Simple linear regression model) 이라고 부른다. (다른 말로는 일차선형모형(first-order linear model))


회귀계수의 추정

 

  그렇다면 확률적 모형의 회귀계수들은 어떻게 구하는 것일까? 회귀계수를 구해야지만 단순선형회귀모형을 완성할 수 있을 것이다. 회귀계수는 하나의 모수라고 할 수 있는데, 대부분 실세계에서는 알려져 있지 않기 때문에 통계적 추론을 통해서 추정해야만 한다. 그 방법으로 앞선 장들에서 살펴봤던 통계적 추론 방식을 따른다.

  먼저 표본을 추출하고 추출된 임의표본으로부터 최소자승선(least square line)을 만든다. 최소자승선은 데이터의 점들과 직선의 차이가 최소화 되게끔 그은 선을 의미한다. 그 식은 다음과 같다.

 

$$\hat{y} = b_{0} + b_{1}x$$

 

 

  앞서 구간데이터의 그래프 기법을 살펴보면서 최소자승선에 대해서 살펴봤다. 최소자승선의 회귀계수 같은 경우에는 두 변수의 공분산을 독립변수 x의 분산으로 나누어서 계산이 되었으며 절편같은 경우에는 두 변수의 평균을 구한 후에 종속변수의 평균에 (회귀계수 x 독립변수 평균) 을 빼서 구함을 살펴봤다. 식은 다음과 같다. (최소자승선을 만들이 위해서는 두 변수의 평균과, 두 변수의 공분산, 독립변수의 분산이 필요하다.)

 

 

$$b_{1}  = \frac{s_{x}{y}}{s^{2}_{x}}$$

 

$$b_{0} = \bar{y} - b_{1}\bar{x}$$

 



$$s_{xy} = \frac{\sum_{i=1}^n (x_{i} - \bar{x})(y_{i} - \bar{y})}{n-1}$$

 

 

$$s^2_{x} = \frac{\sum_{i=1}^n (x_{i} - \bar{x})}{n-1}$$

 

 


 

  다음 예제를 통해서 최소자승선을 만드는 과정을 이해해 보도록 하자. 어떤 경영자가 근무년수와 연간 보녀스는 어떻게 관련되어 있는지 관심이 있다고 하자. 임의로 선택된 6명의 종업원에게 지불된 연간 보너스(1000달러 기준)와 그들의 근무년수가 다음과 같이 정리되어 있다. 이 두 변수의 직선관계를 분석하라.

 

근무년수,x 1 2 3 4 5 6
연간 보너스,y 6 1 9 5 17 12

 


  먼저 x와 y의 각각의 총합계와 평균을 구하면 다음과 같다. 3.5, 8.333. 다음으로 x의 분산을 계산하면 다음과 같다. 3.5 다음으로 두 변수의 공분산을 계산하면 다음과 같다. 7.4 

 

  이렇게 도출된 값들을 이용하여 b1을 구하면 표본공분산/ 표본분산 이므로 7.4 / 3.5 = 2.114 이다. 절편은 8.333 - 2.114(3.5) = 0.934 이다. 따라서 최종적으로 표본으로부터 나타낸 최소자승선의 식은 y = 0.934 + 2.114x 이다.

 

  앞서서 우리는 확률적 모형만을 논의한다고 하였다. 따라서 오차변수의 값도 고려해야만 한다. 오차변수는 최소자승선의 값과 실제 데이터 값들의 차이에 관한 통계수치이다. 실제데이터 값과 표본으로부터 그려진 최소자승선과의 차이를 잔차(residual) 라고 한다. 잔차의 제곱의 합을 모두 더하여 구한 값을 오차제곱합 이라고 부르며 이는 앞서 배우누 SSE라고 할 수 있다. 정리하자면 실제데이터 - 최소자승선 = RESIDUAL 이라고 부르며, RESIDUAL 의 제곱을 다 더하면 오차제곱합이라고 부르며 SSE라고 칭한다. SSE는 모형 이외에서 측정가능하거나 불가능한 것들의 종속변수에 관한 총체적 영향도라고 해석될 수 있다. 이 예제의 SSE는 81.104 이다. 이 데이터의 다른 어떠한 직선도 81.104보다 작게 나올 수 없다따라서  y = 0.934 + 2.114x 단순선형회귀식이 가장 잘 예측한 모형이라고 할 수 있다.

 


오차변수의 필요조건

 

  최소자승선을 구한 이후에 종속변수와 독립변수들 간의 관계가 존재하는지 살펴볼 예정이며 이를 결정하기 위한 추론 방식을 살펴볼 것이다. 하지만 그 전에 오차변수의 확률분포에 관한 4가지 필요조건이 충족되어야만 한다. 4가지 충족조건은 다음과 같다.

 

  1. 오차변수의 확률분포는 정규분포이다.
  2. 오차변수의 기대치는 0이다.
  3. 오차변수의 표준편차는 X의 값에 관계없이 일정한 상수이다.
  4. 임의의 특정한 Y의 값과 관련되어 있는 오차변수의 값은 다른 Y의 값과 관련되어 있는 오차변수와 독립이다.

 

  먼저 오차변수의 확률분포의 모양은 연속데이터의 확률분포인 정규분포의 모습을 따른다. 이 때 정규분포의 기대치(평균)은 0이며 이 기대치는 x의 값에 영향을 받아 바뀔 수 있다. 그러나 오차변수의 표준편차는 x의 값이 바뀌어도 상수로서 고정되어 있다. 정리하자면, 오차변수의 기대치는 x에 영향을 받아서 바뀔 수 있지만, 오차변수의 정규분포의 표준편차는 x의 값에 관계없이 상수로 고정되어 있다.

 


선형회귀모형의 평가

 

  모집단으로부터 추출된 임의표본으로부터 최소자승선을 생성할 수 있었다. 그러나 최소자승선이 실제로 데이터를 유의미하게 나타내지 못하고 있을 수도 있다. 따라서 최소자승선이 얼마나 데이터를 잘 나타내고 있는지 평가할 필요가 있다. 이 평가를 위한 두 개의 통계량과(추정치의 표준오차, 결정계수) 하나의 검정을(기울기의 t검정) 살펴보도록 하자. 

 

1)오차제곱합

 

  최소자승법은 데이터의 점과 회귀계수에 의해 정의되는 회귀선 간의 편차제곱합을 최소화시키는 회귀계수들을 결정한다. 최소편차제곱합은 SSE라고도 불린다. SSE를 구하는 공식은 복잡하지만 다행히도 이를 간편하게 구할 수 있는 공식이 존재한다. 

 

$$SSE = \sum (y_{i} - \hat{y}_{i})^2 = (n-1)(s^{2}_{y} - \frac{s^2_{xy}}{s^{2}_{x}})$$

 

2)추정치의 표준오차

 

  앞서 오차변수의 확률분포의 모양은 정규분포이며 정규분포의 기대치는 0이며 표준편차는 x의 값에 영향받음을 살펴봤다. 만일 표준편차 값이 크다면 오차가 커지는 것이기 때문에 모형의 적합도가 불량하다고 할 수 있다. 반대로 표준편차가 작아지게 되면 기대치 0에 가까워지는 것이기 때문에 오차가 줄어든 것이라고 할 수 있고 따라서 모형이 적합하다고 판단할 수 있다. 즉, 오차변수의 표준편차는 모형의 적합도로 활용될 수 있다.(표준편차가 크면 적합도 좋지 않고, 표준편차가 작으면 모형은 적합) 하지만 불행하게도 오차변수의 표준편차는 모수로서 알려져 있지 않다. 우리는 이 모수에 관하여 추정 해야만 한다. 먼저 오차변수의 표본분산에 관한 불편추정량은 다음과 같다.

 

$$\frac{SSE}{n-2}$$

 

오차변수의 표본표준편차의 불편추정량은 다음과 같다.(추정치의 표준오차)

 

$$\sqrt{\frac{SSE}{n-2}}$$

 

3)기울기의 t검정

 

  먼저 단순선형회귀의 두 변수가 아무 관계가 없다고 가정한다면 이 관게를 그려낸 산포도에서 최소자승선을 그은 것은 수평의 모습을 보여줄 것이다. 즉, x값의 변화에 따라서 y의 값의 변화가 전혀 보이지 않는 모습을 보여줄 것이다. 이 때의 b1의 값은 0이라고 할 수 있다. 이를 이용하여 만일 b1의 값이 0일 경우에는 두 변수는 서로 상관관계가 없음을 보여줄 수 있다. 따라서 기울기에 관한 가설검정을 할 수 있다. 이 때 귀무가설을 모집단 B1의 기울기는 0 이라고 설정하는 것이고, 대립가설을 모집단 B1의 기울기는 0이 아니라고 설정한다. 이 때 주의해야할 점은 귀무가설의 B1의 기울기가 0이라고 했을 때 100% 상관관계가 없다고 할 수 없다. 왜나하면 이차관계가 존재할 수 있기 때문이다.

 

  가설검정을 하기 위해서는 추정량과 표본분포에 대해서 알아야만 한다. 먼저 b1은 B1의 불편추정량이다. 즉, b1 = B1 이라고 할 수 있다. 그리고 앞서 우리는 오차변수의 추정치의 표준오차에 대해서 구하는 방법을 살펴봤다. 이를 이용하여 b1의 추정표준오차를 구할 수 있다. 식은 다음과 같다.

 

 

$$s_{b1} = \frac{s_{\varepsilon}}{\sqrt{(n-1)s^2_{x}}}$$

 

  B1의 불편추정량과 b1의 추정표준오차를 통해서 자유도 n-2의 t분포를 따르는 검정통계량을 구할 수 있다.

 

$$t = \frac{b_{1} - \beta_{1}}{s_{b_{1}}}$$

 

 B1에 대한 신뢰구간 추정량은 다음과 같다.

 

$$b_{1} \pm t_{\alpha/2}s_{b_{1}}$$

 

 

  다음의 예시를 통해서 앞서 배운 것 평가 법을 활용해 보도록 하자.

 


toyota camry 중고차의 주행거리와 가격을 선형관계를 가지고 있는가?

 

toyota comry 중고차의 경매가격과 주행거리 간에 선형관계가 존재한다고 추론할 수 있는 충분한 증거가 존재하는지 검정. 5%의 유의수준 하에서..


 

  앞서 살펴봤듯이 먼저 B1에 대한 가설검정을 해야만 한다. 두 변수와의 관계가 있다면 B1의 기울기가 0이 아닐 것이고 관계가 없다면 0일 것이라는 가정을 세운다(이차관계가 있기는 하지만) 그렇다면 귀무가설은 B1 = 0 으로 설정이 되고 대립가설은 B1 != 0 으로 설정이 될 것이다. 다음으로 가설검정을 하기 위한 검정통계량이 필요한데 B1의 값은 0으로 설정되어 있기 때문에 b1의 값과 b1의 추정표준오차 값이 필요하다. 문제에서 b1의 값을 -0.0669 라고 했다고 하자(b1은 모집단으로부터 추출한 임의표본을 이용하여 최소자승선을 그었을 때 존재하는 회귀계수). 그리고 b1의 추정표준오차 같은 경우에는 오차변수의 추정표준오차를 구해야만 한다. 값이 0.00497이 도출되었다. 이제 구한 값들을 t검정통계량을 구하기 위해서 활용하면  -0.0669 - 0 / 0.00497 = -13.44 라는 값이 도출이 된다. 기각역은 100개의 표본이기 때문에 98의 자유도를 따르는 기각역을 구하면 된다. 따라서 -1.984 또는 1.984 라는 값이 도출이 된다. 우리의 검정통계량은 -13.44 이기 때문에 기각역 안에 포함이 된다. 따라서 귀무가설은 기각이 되고 기울기의 계수가 0이 아니라고 판단할 수 있기 때문에 두 변수가 선형관계가 존재한다고 추론할 수 있다.

 


결정계수

 

  앞선 검정은 두 변수간의 선형관계가 존재하는지 판단하는 검정이다. 하지만 우리는 두 변수간의 선형관계가 얼마나 강한지 알고 싶을수도 있다. 따라서 이러한 것을 살펴볼 때 결정계수 R^2을 이용한다. 결정계수는 두 구간데이터의 관계를 통계수치를 통해서 나타날 때 이미 살펴보았다. 본래의 R^2을 구하는 공식은 표본공분산에 두 변수의 표본분산을 곱한 값으로 나누면 나타났었다. 이를 통계학자들이 다른 방식으로 나타내는 방법을 만들었다.

 

$$R^2 = 1 - \frac{SSE}{\sum (y_{i} - \bar{y})^2}$$

 

 

  결정계수가 왜 종속변수에 대한 설명의 정도인지를 알 필요가 있다. 우리는 분산분석에서 총제곱합인 TSS가 SSE + SST임을 살펴보았다. 이러한 원리와 비슷하게 결정계수에서도 사용이 된다. 먼저 Y의 데이터와 Y평균의 데이터를 뺀 값에 표본의 최소자승선 Y-HAT의 값을 빼고 더하면 다음과 같다.

 

$$(y_{i} - \bar{y}) = (y_{i} - \bar{y}) + \hat{y}_{i} - \hat{y}_{i}$$

$$(y_{i} - \bar{y}) = (y_{i} - \hat{y}_{i}) + (\hat{y}_{i} - \bar{y})$$

 

 

켈러의 경영경제통계학

 

  이 그림을 살펴보면 y-hat 부터 y평균까지의 변동은 x값부터 x평균 값까지의 변동으로 설명이 됨을 알 수 있다. 그러나 y데이터부터 y-hat까지의 변동은 잔차를 의미하며 따라서 모델 변수의 데이터로 설명이 되지 않은 부분을 나타낸다. 즉 y데이터부터 y평균까지의 데이터는 두 부분으로 나뉠 수 있는데 모델의 변수들로 인해서 두 변수의 변동이 설명이 되는 부분과 설명이 되지 않는 부분으로 나뉜다. 즉 y의 변동 = SSR + SSE라고 할 수 있다. SSR은 회귀제곱합.

 

  앞서 살펴봤던 R-Square 의 식에 대한 설명이 이제 완벽히 설명이 된다. 1 - sse의 분자 부분은 모델의 두 변수의 설명이 되는 부분을 뜻하고 밑의 분모는 y의 변동을 나타낸다. 따라서 r-square는 독립변수가 종속변수를 설명하는 비율을 나타내는 통계적 수치이다.

 

 

 

'통계 > 기초통계' 카테고리의 다른 글

기초통계 18 : 다중회귀분석  (0) 2021.04.01
기초통계 16 : 카이제곱검정  (0) 2021.03.29
기초통계 15 : 분산분석(3)  (0) 2021.03.25
기초통계 14 : 분산분석(2)  (0) 2021.03.24
기초통계13 : 분산분석(1)  (0) 2021.03.22
Comments