데이터 한 그릇

기초통계4 : 수치를 이용한 기술통계학 기법 (ⅱ) 본문

통계/기초통계

기초통계4 : 수치를 이용한 기술통계학 기법 (ⅱ)

장사이언스 2021. 3. 1. 18:47

 

  • 선형관계의 척도
  • 최소자승법과 손익분기분석
  • 그래프 기법과 수치 기법의 비교

https://kurt7191.tistory.com/8?category=1000998

 

기초통계4 : 수치를 이용한 기술통계학 기법

중심위치의 척도 변동성의 척도 상대위치의 척도 kurt7191.tistory.com/7?category=1000998 기초통계3 : 그래프와 표를 이용한 기술통계학 기법 (ⅱ- 1) 투자수익률과 히스토그램 두 구간변수의 그래프 기법

kurt7191.tistory.com


선형관계의 척도

 

  앞선 장에서는 기술통계학의 수치 기법에 대해서 살펴보았다. 수치 기법 중 중심 위치의 척도와 변동성의 척도 그리고 상대위치의 척도에 대해서 살펴보았다. 이번 장에서는 선형관계의 척도에 대해서 살펴보려고 한다. 앞선 장들에서 배웠던 수치들은 모두 1개의 구간데이터에 관련된 수치 기법들이였다. 선형관계의 척도는 두 개의 구간데이터에 관련된 수치 기법이라고 할 수 있다.

 

  두 개의 구간데이터에 관련된 그래프 기법은 산포도임을 살펴보았다. 산포도 그래프에서 우리가 알아내는 정보는, 선형관계가 존재하는지에 대한 유무와 선형관계가 양의 방향인지 음의 방향인지에 대한 것이였다. 이번 장에서 배우는 선형관계의 척도를 통해서도 선형관계의 방향과 강도에 대해서 나타낼 수 있다. 선형관계의 척도는 크게 세 가지라고 할 수 있다. 바로 1. 공분산, 2. 상관계수, 3. 결정계수 이다. 

 

1)공분산(covariance)

 

  선형관계는 두 개의 구간데이터에 관련된 수치 기법이다. 따라서 하나의 구간데이터에 대해서 변수 X라고 칭하고 나머지 구간데이터에 관해서 변수 Y라고 두겠다. 두 변수 중 하나는 종속변수이고 다른 하나는 독립변수이다. 이런 가정하에 공분산의 공식은 다음과 같다. (각각, 모공분산, 표본공분산)

 

$$\sigma_{xy} = \frac{\sum_{i=1}^N (x_i - \mu_x)(y_i - \mu_y)}{N}$$

 

$$\mathrm{s_{xy}} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{n-1}$$

 

 

  공분산의 공식을 말로 풀어서 서술하자면 각각의 x변수의 관측값들에서 x모집단의 평균을 뺀 값과 각각의 y변수의 값들에서 y모집단의 평균을 뺀 값들을 곱한 값을 전부 더한 후 모집단(표본)의 크기로 나누는 것이다. 표본공분산 같은 경우에는 n-1개로 나눈다. 공분산이 어떻게 하여 선형관계의 방향을 파악할 수 있는지 다음의 3개의 표들을 통해서 살펴보도록 하자. (데이터 표 출처 : 켈러의 경영경제통계학 116pg)

 

 

데이터 세트 1

$$\mathrm{x_i}$$ $$\mathrm{y_i}$$ $$(\mathrm{x_i}-\bar{x})$$ $$(\mathrm{y_i}-\bar{y})$$ $$(x_i-\bar{x})(y_i-\bar{y})$$
2 13 -3 -7 21
6 20 1 0 0
7 27 2 7 14
$$\bar{x} = 5$$ $$\bar{y} = 20$$     $$s_{xy} = 35/2 = 17.5$$

 

  위의 데이터 표를 살펴보면 변수 x의 각각의 관측값들이 크기가 커지면 커질수록 y의 변수들의 값들도 크기가 커짐을 알 수 있다. 공분산 공식을 살펴보면 각각의 관측값들에 각 변수의 평균을 빼주는 것을 볼 수 있는데 만일 x변수가 x평균보다 작다면 x관측치 값에서 x평균을 뺀 값은 '음수' 가 나올 것이다. 또한 평균과 같다면 '0'의 값을 기록할 것이다. 그리고 평균보다 크다면 양수의 값을 보일 것이다.  y의 변수는 x변수가 커지면 똑같이 수치가 커지기 때문에, x변수가 위에서 보이는 결과와 동일한 결과를 보일 것이다. 따라서 x변수의 각 관측값에서 x평균을 뺀 값과 y변수의 각 관측값에서 y평균을 뺀 값은 동일한 부호를 가지게 된다. 따라서 곱했을 시 양수의 값을 도출하거나, 0의 값을 도출할 것이다. 

 

 

데이터 세트 2

$$\mathrm{x_i}$$ $$\mathrm{y_i}$$ $$(\mathrm{x_i}-\bar{x})$$ $$(\mathrm{y_i}-\bar{y})$$ $$(x_i-\bar{x})(y_i-\bar{y})$$
2 27 -3 7 -21
6 20 1 0 0
7 13 2 -7 -14
$$\bar{x} = 5$$ $$\bar{y} = 20$$     $$s_{xy} = -35/2 = -17.5$$

 

  데이터 세트 2의 해석도 위의 데이터 세트 분석과 같다. x가 증가하면 y는 반대로 감소함을 살펴볼 수 있다. 따라서 x가 x의 평균보다 클 때 y는 y의 평균보다 작다. 따라서 각 변수들의 관측치들이 각 변수의 평균값과 뺄 때, x의 부호가 양수가 나온다면 y의 부호는 음수가 나올 것이다. 따라서 이 값들을 서로 곱하게 된다면 음수가 나오거나 0 값이 나올 것이다.

 

 

데이터 세트 3

$$\mathrm{x_i}$$ $$\mathrm{y_i}$$ $$(\mathrm{x_i}-\bar{x})$$ $$(\mathrm{y_i}-\bar{y})$$ $$(x_i-\bar{x})(y_i-\bar{y})$$
2 20 -3 0 0
6 27 1 7 7
7 13 2 -7 -14
$$\bar{x} = 5$$ $$\bar{y} = 20$$     $$s_{xy} = -7/2 = -3.5$$

 

  위의 데이터 세트는 다른 두 개의 데이터 세트와 달리 x와 y의 관계가 보이지 않는다. 왜냐하면 x가 증가함에 따라서 y가 증가하는 것도 아니며 x가 증가함에 따라 y가 줄어드는 것도 아니기 때문이다. 따라서 이러한 경우에는 두 변수에 관계가 거의 없다고 볼 수 있기 때문에 공분산의 수치는 작은 값을 가지게 된다.

 

  결과적으로 세 개의 데이터 세트를 통해서 의미있는 결론을 도출할 수 있다. 공분산의 수치를 통해서 우리는 선형관계의 방향을 알 수 있으며 또한 선형관계의 강도를 측정할 수 있다. 하지만 두 변수가 가지는 강도의 크기에 대해서는 정확하게 측정하기가 힘들 수 있다. 만일 어떤 데이터 세트에서 공분산이 500이 도출 되었다고 해보자. 우리는 500이라는 수치를 통해서 두 변수가 강한 선형관계를 가지고 있음을 시사하는지는 알 수 없다. 왜냐하면 어떠한 기준이 없고 수치만이 존재하기 때문이다. 따라서 이를 보완한 선형관계의 척도가 존재한다. 바로 상관계수(coefficient of correlation) 이다.

 

2)상관계수(coefficient of correlation)

 

  상관계수는 공분산을 두 변수의 표준편차의 곱으로 나눈 값을 의미한다. 모상관계수와 표본상관계수를 구하는 공식은 다음과 같다.

 

$$\rho = \frac{\sigma_{xy}}{\sigma_x\sigma_y}$$

 

$$\mathrm{r} = \frac{\mathrm{s}_{xy}}{\mathrm{s}_x\mathrm{s}_y}$$

 

  상관계수가 가지는 장점은 선형관계의 강도가 얼마나 세고 약한지 측정할 수 있다는 것이다. 왜냐하면 상관계수는 상한값과 하한값을 가지기 때문이다. 상관계수의 상한값은 1이며 하한값은 -1 이다. 상관계수는 -1<=상관계수<=1 라고 할 수 있다. 만일 상관계수가 1과 -1이 나왔다면 두 변수는 완벽한 선형관계를 가지는 것이며 1과 -1에 가까운 상관계수가 나올수록 더 강한 선형관계를 가지고 있음을 추측할 수 있다.

 

  상관계수의 약점은 상관계수를 통해서 얻을 수 있는 선형관계에 대한 정보가 빈약하다는 점이다. 상관계수를 통해서 알 수 있는 선형관계의 정보는 두 변수의 관계의 방향과 선형관계가 약한지 강한지이다. 우리는 두 변수간 선형관계가 약한지 강한지 이외에 더 구체적인 정보를 얻고 싶을 수 있다. 이를 보완해주는 척도가 바로 결정계수(coefficient of determination) 이다.

 

3)결정계수(coefficient of determination)

 

  결정계수는 상관계수를 제곱하여 계산 되어진다. 아래는 결정계수를 구하는 공식이다.

 

$$\mathrm{R}^2$$

 

  결정계수는 독립변수의 변동에 의해 설명되는 종속변수의 변동 정도를 측정한다. 예를 들어서 두 변수간의 상관계수가 1이나 -1이 나왔다고 가정해보자. 이 수치를 제곱하게 된다면 1을 획득할 수 있다. 이 말은 즉슨 종속변수의 변화 100%는 독립변수 X의 변동에 의해서 설명됨을 의미한다. 또 다른 예로,  만일 결정계수가 R^2 = 0.7691이 나왔다고 가정해보자. 이는 종속변수 Y의 변화 76.91%는 독립변수 X의 변동에 의해서 설명됨을 의미한다. 이를 통해서 상관계수보다 더 풍부한 선형관계에 관한 정보를 결정계수가 제공해주고 있음을 알 수 있다.

 

  여기까지 선형관계의 척도에 대해서 살펴보았다. 지금까지 배운 내용 중에서 상관계수의 해석에 대해 주의해야될 지점이 있다. 두 변수 간의 선형관계를 가지고 있다는 뜻은 두 변수가 인과관계에 놓여 있다는 것과 다른 말이다. 즉, X가 Y의 원인임을 의미하지는 않는다. 두 변수간에 선형관계가 존재한다는 말은 두 변수가 상관관계를 가지고 있음만을 의미한다.


 최소자승법과 손익분기분석

 

1)최소자승법

 

  앞서 두 구간데이터의 그래프 기법에서 산포도에 대해서 살펴보았다. 산포도를 통해서 두 구간데이터간의 선형관계의 존재 유무와 선형관계의 방향에 대해서 알 수 있음을 살펴보았다. 이 두 가지의 정보를 얻기 위해서는 데이터를 통과하는 직선을 그려야만 한다. 하지만 직선을 그리는 방법이 상대적이라면 객관적인 정보를 얻는 것이 불가능하다. 따라서 객관적으로 직선을 그을 수 있는 방법이 존재해야만 한다. 통계학자들은 이러한 방법을 고안해 내는데, 바로 최소자승법(least squares method) 이다. 

 

  최소자승법의 원리는 다음과 같다. 데이터를 통과하는 직선을 그었을 때, 그 직선과 각 점들의 거리의 제곱의 합이 최소가 되어야만 한다. 이 직선은 다음과 같은 식으로 정리 되어진다.

 

$$\hat{a} = \mathrm{b}_0 + \mathrm{b_1}x$$

 

  b0은 y의 절편이라고 할 수 있으며 b1은 최소자승선의 기울기라고 할 수 있다. 그리고 결과 값 y hat은 직선의 결과 값이라고 할 수 있다.

 

$$\sum_{i=1}^n (\mathrm{y}_i - \hat{y}_i)^2$$

 

  따라서 위의 원리처럼 위 공식이 최소화되도록 미분을 사용하면서 직선은 그려진다.

 

2)손익분기분석

 

  손익분기분석(breakeven analysis) 은 기업이 이윤을 발생시키기 위해서 필요한 판매량을 구하는데 사용되어진다. 경영자가 제품과 서비스의 적정한 가격을 정할 때 손익분기분석은 사용되어진다. 먼저 손익분기점을 계산하기 위해서는 이윤을 계산하는 방법이 필요하다. 아래는 이윤을 구하는 공식이다.

 

 

이윤 = (단위 가격 - 단위 변동비용) X (판매단위 수) - 고정비용

 

 

  손익분기점은 이러한 이윤이 0이 되는 판매단위 수이다. 따라서 손익분기점은 다음과 같이 계산되어진다.

 

 

판매단위 수 = 고정비용/(단위가격 - 단위 변동비용)

 

 

  이 공식을 사용하기 위해서는 공식에서 보이는 것과 같이 고정비용변동비용에 대해서 알아야만 한다. 예를 들면, 어떤 제과점이 식빵을 판매한다고 해보자. 식빵의 단위 가격은 1.20 달러이고 단위 변동비용이 0.40 이며 연간 고정비용은 10,000 달러라고 해보자. 위의 손익분기점의 계산에 따라서 12,500 이 계산되어진다. 따라서 이 제과점은 수익을 내기 위해서 연간  12,500 개의 빵을 판매해야만 한다.(판매단위 수) 그렇다면 의문이 생길 수 있다. 만일 변동비용과 고정비용은 무엇이며 변동비용과 고정비용이 주어지지 않았을 때 어떻게 하여 이 값들을 구할 수 있는 것인가?

 

2-1)손익분기분석 : 고정비용과 변동비용

 

  고정비용(fixed costs) 은 제품 또는 서비스의 생산과는 관계 없이 지불되어야 하는 비용이다. 이러한 비용은 일정 시간 동안이나 생산 활동이 이루어지는 동안 고정되어 있다.

 

  변동비용(variable costs) 은 생산되는 제품 또는 서비스의 수에 따라 직접 변동하는 비용이다. 정리하자면, 제품과 서비스의 생산과는 상관 없이 고정되어 있는 비용을 고정비용이라고 부르며 제품과 서비스의 생산에 따라서 변동하는 비용을 변동비용 이라고 할 수 있다.

 

  앞선 제과점의 예시에서 고정비용은 임대료, 관리비, 임금 등등의 구워내는 식빵의 수와 관련없이 고정되어 있는 비용과 관계한다. 변동비용은 주로 원재료비라고 할 수 있다. 만일 구워내는 식빵의 수가 증가된다면 변동비용은 증가할 것이며 식빵의 수가 줄어든다면 변동비용은 줄어들 것이다.

 

  이러한 고정비용과 변동비용이 혼합되어 있는 비용이 존재하는데 이를 혼합비용이라 칭한다. 앞선 예시로는 전기료를 들 수 있다. 전기는 영업시간 내에 켜져 있는 전등 비용으로도 나가지만, 식빵을 굽기 위한 오븐과 기타 장비의 비용으로도 사용된다. 혼합비용을 고정비용과 변동비용으로 나눌 수 있는 방법이 존재한다. 바로 최소자승법을 활용하는 것이다. 최소자승법의 b0(y절편)을 고정비용으로 하고 b1(계수)을 변동비용 그리고 x를 생산단위의 수로 설정하는 것이다. 즉, y = b0 + b1x 라고 할 수 있다.


 그래프 기법과 수치 기법의 비교

 

  지금까지 기술통계학의 두 가지 기법인 그래프 기법과 수치 기법에 대해서 살펴보았다. 그래프와 수치는 데이터에 대한 정보를 제공한다. 우리는 데이터에 대한 정보를 한 가지 기법으로 얻는 것보다 두 가지 기법을 사용하여 얻는 것이 중요하다. 왜냐하면 두 가지 기법이 제공하는 정보는 차이가 있기 때문이다.

 


정리

 

  지금까지 기술통계학의 모든 기법에 대해서 살펴보았다. 두 데이터 유형에 따른 그래프 기법과 구간데이터의 수치 기법을 살펴보았다. 수치 기법으로는 중심 위치의 척도와 변동성의 척도, 상대위치의 척도 그리고 선형관계의 척도에 대해서 살펴보았다.  선형관계의 척도로는 공분산, 상관계수, 결정계수가 있음을 살펴보았으며 공분산의 단점을 극복하기 위해서 상관계수가 존재하며 상관계수의 단점을 보완하기 위해서 결정계수가 있음을 살펴보았다. 그리고 최소자승선이 손익분기점을 구하기 위해서 사용되는 법을 살펴보았다. 다음장 부터는 추론통계학을 위한 학률에 대해서 살펴볼 예정이다.

 

 

 

 

 

Comments