데이터 한 그릇

기초통계4 : 수치를 이용한 기술통계학 기법 본문

통계/기초통계

기초통계4 : 수치를 이용한 기술통계학 기법

장사이언스 2021. 2. 28. 19:31

 

  • 중심위치의 척도
  • 변동성의 척도
  • 상대위치의 척도

kurt7191.tistory.com/7?category=1000998

 

기초통계3 : 그래프와 표를 이용한 기술통계학 기법 (ⅱ- 1)

투자수익률과 히스토그램 두 구간변수의 그래프 기법 https://kurt7191.tistory.com/5?category=1000998 기초통계3 : 그래프와 표를 이용한 기술통계학 기법 (ⅱ) 구간데이터의 그래프 기법 히스토그램 계급구

kurt7191.tistory.com


중심위치의 척도

 

  첫 장에서 기술통계학의 기법은 그래프 기법과 수치 기법이 있음을 살펴보았다. 앞의 장들에서는 기술통계학의 그래프 기법에 대해서 살펴보았다. 앞으로는 기술통계학의 수치 기법에 대해서 살펴볼 예정이다. 중요한 지점은 이 수치가 모집단의 모수로 사용될 수도 있으며 표본의 통계량으로 사용될수도 있다. 보통 모집단의 크기는 너무 크기 때문에 모집단의 모수를 구하는 것은 잘 사용되지 않는다. 하지만 보통 수치의 개념과 기호를 배우기 위해서 모수를 구하는 과정을 짚고 넘어간다.

 

  수 많은 데이터가 있고, 그 데이터들 중에서 중간에 위치한 데이터 값을 구하고 싶다면 그 사람이 데이터의 중심위치를 찾고 싶다는 말과 같다. 기술통계학의 수치 기법 중에서 데이터의 중심 위치를 구하는 수치는 세 가지로 나뉜다. 바로 1. 산술평균, 2. 중앙값, 3. 최빈값 이다.

 

1)산술평균

 

  산술평균은 우리가 가장 많이 알고 있는 데이터의 중심위치를 찾는 척도이다. 이는 단순히 평균(mean) 이라고도 불린다. 다른 말로는 Average 로 많이 알려져 있으며 엑셀에서는 Average 라는 함수로 평균을 표현한다.

 

  X1 ~ Xn 까지의 데이터가 있다고 가정해보자. 여기서 X1은 X데이터의 1번째 데이터를 칭한다고 가정하자. 따라서 Xn은 X데이터의 n번째 데이터를 칭한다. 여기서 n은 표본크기를 나타낸다. 다들 알다시피 평균은 X1 ~ Xn 까지를 전부 더하고 표본크기 n개로 나눈 값을 의미한다. 모집단의 평균인 모평균의 계산 공식과 표본의 평균인 표본평균의 계산 공식은 동일하다. 아래는 산술평균을 구하는 공식이다.

 

$$\frac{\sum_{i=1}^N X_i}{N}$$

 

2)중앙값

 

  산술평균 이외에 중심위치의 값을 구하는 척도는 중앙값이 존재한다. 중앙값 또한 표본중앙값과 모중앙값을 구하는 공식이 같다. 중앙값들은 모든 관측값들을 오름차순이나 내림차순으로 정렬한 후에 구한다. 정렬 이후 정 중앙에 있는 데이터 값을 중앙값이라고 부른다. 관측치의 수가 홀수일 경우에는 정확하게 중앙값을 도출할 수 있겠지만 짝수일 경우에는 가운데에 두 개의 수가 남게 된다. 이럴 때는 두 개의 수의 평균으로 중앙값이 계산이 된다. 예를 들어서 아래와 같은 숫자가 있다고 가정해보자.

 

$$\mathrm{1},{2},{3},{4},{5},{6},{7},{8},{9},{10}$$

 

  관측치의 숫자는 10개로 짝수로 나타나고 있다. 짝수일 경우 가운데의 5와 6이 남게 되는데 이 두 개의 산술평균을 내게 되면 5.5가 되게 된다.따라서 1~10까지의 숫자의 중앙값은 5.5라고 할 수 있다.

 

3)최빈값

 

  마지막으로 데이터의 중심위치를 나타내는 척도는 최빈값(mode)이다. 최빈값은 가장 큰 빈도수를 가진 관측치이다 표본최빈값과 모최빈값은 같은 방법으로 계산된다. 하지만 최빈값은 여러 가지 문제점들을 가지고 있다. 첫째로는 소규모 표본에서 최빈값은 좋은 중앙위치의 척도가 아닐 수 있따. 두 번째로는 최빈값은 단일하지 않을 수 있다. 따라서 중앙위치의 척도를 나타내는 수치로서 인기 많은 수치는 아니다.

 

4)평균과 중앙값

 

  그렇다면 데이터의 중심위치를 찾으려고 하는 사람으로서 어떤 중심위치의 척도를 사용해야하는지 의문이 생길 수 있다. 여기서는 사용자가 몇 가지 고려해야할 부분이 있다. 바로 저항성이다. 평균은 데이터의 극단치에 저항성이 크지 않은 반면에 중앙값은 데이터의 극단치에 저항성이 크다. 예를 들어서 학생 10명의 수학 성적 평균을 계산한다고 가정해보자.  9명의 학생이 60점대가 나왔는데 마지막 한명의 수학 성적이 100점이 나왔다고 가정해보자. 이러한 데이터를 가지고 산술평균 값을 낸다면 한명의 학생 때문에 현실 평균보다 더 높은 수치가 도출될 것이다. 반면에 1명의 점수가 다른 학생들과 비교해서 상대적으로 높게 나왔다고 하더라도 중앙값은 학생 1명의 상대적으로 높은 점수에 영향을 받지 않는다. 따라서 극단치가 존재할 때 중앙값이 데이터의 중심위치를 구하는 좋은 척도가 될 수 있다.


 변동성의 척도

 

  앞서 데이터의 중심위치에 관련된 수치들에 대해서 살펴보았다. 다음으로는 데이터의 흩어진 정도에 관련된 변동성의 척도에 대해서 살펴보도록 하겠다. 변동성의 척도는 크게 세 가지로 나뉜다. 바로 1. 범위, 2. 분산, 3. 표준편차 이다. 먼저 범위(range) 부터 살펴보도록 하자.

 

1)범위

 

범위의 공식은 "최대 관측치 - 최소 관측치" 이다. 범위의 장점은 간단하다는 것이며 범위의 단점 또한 간단하다는 것이다. 범위는 두 개의 관측치만으로 계산이 되기 때문에 다른 관측치에 대한 어떠한 정보도 얻을 수 없다. 따라서 두 개의 관측치 뿐만 아니라 다른 관측치에 대한 정보를 얻을 수 있는 변동성 척도가 필요하다.

 

2)분산

 

  분산(variance)과 이 이후에 나올 표준편차(standard deviation)는 변동성의 척도 중에서 가장 중요한 척도들이라고 할 수 있다.  앞서서는 모집단의 모수와 표본의 통계량을 구하는 공식이 같았지만 분산을 구하는 공식은 차이가 존재한다. 모분산은 분모가 n인 반면에 표본분산의 분모는 n-1 이다. 밑은 각각 모분산과 표본분산의 공식이다.

 

$$\sigma^2 = \frac{\sum_{i=1}^N (x_i - u)^2}{N}$$

 

 

$$\mathbf{s}^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1}$$

 

  모분산의 공식을 말로 표현하자면 X1 ~ Xn 까지의 각각의 관측값들에 평균값을 뺀 이후 제곱을 한 값들을 전부 더한 후에 모집단의 크기 n으로 나눈 것이다. 표본분산은 모분산을 구하는 과정과 똑같지만 표본크기 n개로 나누는 것이 아니라 n-1 개로 나누는 것에서 차이를 보인다.  ※ 여기서 관측치와 평균을 뺀 값을 편차(deviation) 이라고 부른다

 

  그렇다면 의문이 생기게 된다. 왜 편차를 제곱을 해야만 하는가? 단순히 관측치 값에서 평균을 뺀 값들을 모조리 더한후에 모집단의 크기로 나눈다면 데이터가 얼마나 퍼져 있는지 정확하게 파악할 수 있는 것 아닌가? 라는 의문이 생기게 된다. 편차를 제곱을 하는 이유는 상쇄효과를 피하기 위해서이다. 만일 어떤 편차 값이 음수 -10 이 나왔다고 가정해보자. 다른 관측치의 편차 값이 10이 나왔다고 해보자. 만일 이 값들을 더하게 된다면 값이 0 이 나온다. 따라서 편차 값을 제곱을 하여 음수 값들을 제거하게 된다면 이러한 상쇄효과를 피할 수 있게 된다. 따라서 분산을 구할 때 편차에 제곱을 더한 값들을 더하는 것이다.

 

  분산에 관해서 한가지 더 알아두어야 할 것이 있다. 만일 데이터의 단위가 jobs라고 해보자. 분산을 구하기 위해서 관측값에서 평균을 뺀 후 제곱을 하게 되면 단위 또한 제곱을 하게 된다. 따라서 분산을 구한 이후 단위는 jobs^2 이 된다. 이러한 특성은 분산을 해석하는데 있어서 문제점을 야기한다. 단위가 달라졌으니 해석을 할 때 문제가 발생하는 것이다. 이러한 문제를 해결하기 위해서 존재하는 또 다른 변동성의 척도가 표준편차(standard deviation) 이다.

 

3)표준편차

 

  표준편차는 분산의 플러스 제곱근이다. 모표준편차와 표본표준편차를 구하는 방법은 같다. 루트를 각각의 분산에 씌어주면 된다. 따라서 앞에 설명했던 분산의 해석 문제는 해결되게 된다. 밑은 모표준편차와 표본표준편차를 구하는 공식이다.

 

$$\sigma = \sqrt{\sigma^2}$$

 

$$\mathbf{s} = \sqrt{\mathbf{s}^2}$$

 

  표준편차를 구했다면 이것에 대해서 어떻게 해석을 해야 하는지에 대한 문제가 남게 된다. 표준편차에 대한 해석에 대해서 통계학자들이 만들어 놓은 법칙이 존재한다. 바로 경험법칙(empirical rule) 이다. 경험법칙의 조건은 데이터의 히스토그램이 종 모양이라는 것이다. 경험법칙은 다음과 같다.

 

  1. 모든 관측치의 약 68%는 평균으로부터 1 표준편차 이내에 속한다.
  2. 모든 관측치의 약 95%는 평균으로부터 2 표준편차 이내에 속한다.
  3. 모든 관측치의 약 99.7%는 평균으로부터 3 표준편차 이내에 속한다.

  경험법칙에 대한 해석을 해보도록 하자. "평균으로부터 1 표준편차 이내에 속한다. " 라는 말은 데이터의 중심에서 좌우 합하여 1 표준편차 이내에 데이터들이 속해있다라는 말이다. 그렇다면 "모든 관측치의 약 68%는 평균으로부터 1 표준편차 이내에 속한다" 라는 말은 관측치의 68%가 데이터의 중심에서 좌우 합하여 1 표준편차 이내에 퍼져있다는 말이다.

 

  표준편차에 대한 해석은 경험법칙을 이용하여 할 수도 있지만 다른 방식을 통해서도 할 수 있다. 바로 체비세프의 정리(Chebysheff's Theorem) 이다. 평균으로부터 k표준편차 이내에 속하는 표본 또는 모집단 관측치들의 비율은 적어도 다음과 같다.(단, k>1 일때)

 

$$1 - \frac{1}{k^2}$$

 

  예를 들어서 우리가 어떤 데이터에 대해서 표준편차를 구했다고 가정해보자. 우리는 2표준편차 이내에 전체 데이터가 몇 퍼센트 속해있는지 궁금하다고 가정해보자. 그렇다면 체비세프의 정리에 의해서 1 - 1 / 2^2 = 3/4 가 도출되게 된다. 즉, 체비세프의 공식에 의해서 75%의 관측값들이 2표준편차 이내에 속해있다고 해석할 수 있다.

 

경험법칙은 대략적인 비율을 제시해주는 반면, 체비세프의 정리는 주어진 구간에 속하는 최소 비율을 제시해준다.

 

  여기까지 우리는 변동성의 척도에 대해서 알아보았다. 우리가 배운 것을 토대로 변동성에 대해서 이해하면, 표준편차가 크면 변동성이 크고 표준편차가 작으면 변동성이 작다고 할 수 있을까? 필연적으로 그렇다고 대답할 수 없다. 왜냐하면 관측치의 개수에 따라서 많은 영향을 받기 때문이다. 만일 표준편차가 10이라는 수치가 도출되었다고 가정해보자. 만일 관측치의 개수가 50이하라면 표준편차 10은 큰 변동성을 이야기 한다고 할 수 있다. 그러나 관측치의 개수가 10만개를 넘어선다면 표준편차 10은 작은 수치로 여겨진다.

 


상대위치의 척도

 

  상대위치는 전체 데이터 세트와 비교한 특정한 수치들의 상대위치에 대한 정보를 제공한다. 상대위치의 척도는 백분위수(percentile) 를 이야기 할 수 있다. 만일 90번째 백분위수가 있다면 그 수보다 낮은 값들이 전체 데이터의 90% 존재함을 의미한다. 이러한 백분위수는 특정한 백분위수 4개가 존재한다. 바로 25, 50 75이다. 25, 50, 75에 의해서 전체 데이터가 1/4 가 되기 때문에 특별한 수들이라고 할 수 있다. 이와 같은 상대위치들을 사분위수(quartile) 라고 부른다. 백분위수 50은 2분위수로 중앙값을 의미한다.


정리

 

  이번 장에서는 기술통계학의 수치 기법에 대해서 살펴보았다. 데이터의 중심 위치의 척도인 최빈값, 평균값, 중앙값에 대해서 알아보았고 평균값과 중앙값중에 극단치에 평균값이 민감함을 살펴보았다. 또한 데이터의 퍼진 정도를 나타내는 변동성의 척도인 범위, 분산, 표준편차에 대해서 알아보았다. 분산을 계산함에 있어서 편차를 제곱하는 이유가 상쇄효과를 피하기 위함을 살펴보았고 분산을 구하게 되면 단위조차 제곱이 되어 해석하는데 문제가 있음을 살펴보았다. 따라서 표준편차를 사용하게 되는데, 표준편차를 해석함에 있어서 경험법칙과 체비세프의 정리가 사용됨을 살펴보았다. 마지막으로 데이터의 상대위치의 척도를 살펴보면서 백분위수에 대해서 살펴보았고 백분위수를 어떻게 해석하는지 살펴보았따. 그리고 백분위수를 이용한 사분위수까지 알아보았다.

  다음 장에서는 선형관계의 척도에 대해서 살펴보면서 최소자승법을 이용하여 손익분기분석에 대해서 살펴볼 것이다.

 

 

 

 

 

 

 

Comments