데이터 한 그릇

기초통계8 : 표본분포 본문

통계/기초통계

기초통계8 : 표본분포

장사이언스 2021. 3. 8. 18:34

 

  • 표본평균의 표본분포
  • 표본비율의 표본분포
  • 표본분포와 통계적 추론

https://kurt7191.tistory.com/12?category=1000998

 

기초통계7 : 연속확률분포

확률밀도함수 정규분포 지수분포 기타 연속확률분포 https://kurt7191.tistory.com/11?category=1000998 기초통계6 : 확률변수와 이산확률분포 확률변수와 확률분포 이변량 확률분포 이항분포 포아송분포 http

kurt7191.tistory.com


  이 장에서는 통계적 추론의 기본 요소인 표본분포(Sampling distribution)이 소개된다. 지금까지 통계적 추론과 관련하여 논의된 사항은 네 가지가 존재한다. 다음은 그 네 가지의 사항이다.

 

1. 모수는 모집단의 특성을 나타낸다.

2. 모수는 거의 언제나 알려져 있지 않다.

3. 필요한 데이터를 얻기 위해 모집단으로부터 하나의 임의표본(random sample)이 추출된다.

4. 이와 같은 데이터로부터 하나 이상의 통계량이 계산된다.

 

  예를 들면 모집단의 모수 중에 모평균에 관심이 있다고 한다면 표본으로부터 평균을 추출하여 모평균을 추론하는데 사용한다. 표본에서 추출된 통계량이 모수와 일치할 가능성은 거의 없지만 그래도 굉장히 가까울 것으로 추측이 된다. 그러나 통계적 추론을 위해서 표본통계량과 모수가 얼마나 가까운지 측정할 필요가 있다. 이때 표본분포가 사용이 된다. 표본분포가 제공하는 표본평균과 모평균 간의 근접 정도를 측정하는 척도는 통계적 추론의 핵심적인 요소이다. 그렇다면 표본분포란 무엇인지에 대해서 살펴보도록 하자.

표본평균의 표본분포

 

  표본분포(sampling distribution)는 이름과 같이 표본추출에 의해서 만들어진 것이다. 표본분포가 만들어지는 방식은 두 가지가 존재한다. 첫 번째로는 모집단으로부터 같은 표본크기를 가지는 표본들을 추출하여 관심을 가지는 통계량을 계산 후에 표본분포에 관한 특성을 구하기 위해서 기술통계기법을 사용하는 것이다. 두 번째로는 표본분포를 도출하기 위해 확률법칙과 기대치 및 분산법칙을 이용하는 것이다. 우리는 다음으로 두 개 주사위의 평균에 관한 표본분포를 도출할 때 두 번째 방법을 사용할 예정이다.

 

  먼저 한 개의 주사위를 무한히 던졌을 때의 확률분포에 대해서 살펴보도록 하자. 다음의 표는 한 개의 주사위의 확률분포이다. 확률변수는 1~6까지이며 각각의 확률변수의 확률은 동일하게 1/6을 기록하고 있다.

 

X 1 2 3 4 5 6
P(X) 1/6 1/6 1/6 1/6 1/6 1/6

 

  한 개의 주사위를 무한으로 던질 수 있기 때문에 모집단의 크기는 유한하지 않고 무한하다고 할 수 있다. 이 모집단의 크기는 앞서 배운 이산확률분포의 모평균과 모분산 그리고 모표준편차를 구하는 공식을 통해서 구해진다.

 

$$\mu = \sum xP(x)$$

 

$$\sigma^2 = \sum (x-\mu)^{2}P(x)$$

 

$$\sigma = \sqrt{\sigma^{2}}$$

 

  따라서 주사위 한 개를 무한히 던졌을 나타나는 모집단의 평균, 분산 그리고 표준편차는 각각 3.5, 2.92, 1.71 이다.

 

  앞서 말한 예시는 표본크기가 1인 경우의 모집단의 모수에 관한 추론이였다. 다음으로는 표본크기가 2인 경우를 살펴보도록 하겠다. 만일 주사위 2개를 던진다면 각각의 주사위에 나오는 숫자가 모집단에 기록이 될 것이다. 이 때 두 숫자의 조합으로 표본을 만든다면 표본크기가 2인 표본을 만든 것을 의미한다. 즉, 주사위를 던져서 나오는 두 개의 숫자가 표본크기가 2인 표본이 되는 것이다. 여기서 각각의 표본의 평균을 구한다면 이를 표본평균이라고 부르며 다음과 같이 쓰인다. 이 때 도출된 표본평균은 새로운 확률변수라고 생각할 수 있다.

 

$$\bar{x}$$

 

  주사위 2개의 표본같은 경우에는 표본의 경우의 수가 정해져있다. (1,1) ~ (6,6) 까지 경우의 수를 계산해 본다면 가능한 표본의 경우의 수는 36가지일 것이다. 각각의 가능한 표본의 평균을 내어보면 1.0 ~ 6.0 까지 표본평균이 나타날 것이다. 이 때 표본들의 표본평균의 확률을 표로 나타낸 것을 표본분포(sampling distribution)라고 부른다. 즉, 모집단에서 표본크기 n만큼 추출하여 다양한 표본들을 만들고, 각각의 표본들에 통계량을 구한 후, 이 통계량을 새로운 확률변수로 삼아서 이 통계량이 나올 확률을 표로 그려놓은 것을 표본분포라고 부른다. 다음은 표본평균의 표본분포이다.

 

$$\bar{X}$$ $$P(\bar{X})$$
1.0 1/36
1.5 2/36
2.0 3/36
2.5 4/36
3.0 5/36
3.5 6/36
4.0 5/36
4.5 4/36
5.0 3/36
5.5 2/36
6.0 1/36

 

  여기서 우리는 표본분포의 통계량(평균, 분산, 표준편차) 를 구할 수 있다. 다음은 표본분포의 평균, 분산, 표준편차를 구하는 공식이다.

 

$$\mu_{\bar{x}} = \sum \bar{x}P(\bar{x})$$

 

$$\sigma^2_{\bar{x}} = \sum (\bar{x} - \mu_{\bar{x}})^{2}P(\bar{x})$$

 

$$\sigma_{\bar{x}} = \sqrt{\sigma_{\bar{x}}^{2}}$$

 

  따라서 앞서 설명한 두 개의 주사위의 표본크기2의 표본분포의 통계량들은 각각, 3.5, 1.46, 1.21을 보인다.

 

  여기서 중요한 지점은 X의 히스토그램 그래프와 X_BAR의 히스토그램 그래프는 그 분포 모양이 다름을 인식해야만 한다. 그러나 두 개의 확률변수(X, X_BAR) 는 관련되어 있다. 확률변수 X의 평균과 표본평균의 표본분포의 평균은 같고 두 확률변수의 분산은 서로 관련되어 있다.

 

 

  표본분포의 그래프 분포 모양은 표본크기 n에 의해 영향을 받는다 다음 그림은 각각의 표본크기에 따른 그래프 분포 모습이다. (사진출처 : 켈러의 경영경제통계학)

 

n=5인 표본평균의 표본분포의 분포모양

 

n=10인 표본평균의 표본분포의 분포모양

 

n=25인 표본평균의 표본분포의 분포모양

 

  그림들을 살펴보면 어떤 원리를 찾아낼 수 있을 것이다. 바로 표본크기 n의 크기가 증가하면 비례적으로 그래프의 분포는 적어진다. 따라서 그래프의 데이터들이 평균에 근접하게 나타나게 되며 각각의 그래프들이 다른 모양을 가지게 된다. 따라서 각각의 표본크기에 따라서 표본평균의 표본분포의 통계량은 다르게 나타난다. 표본평균의 표본분포의 평균, 분산, 표준편차의 공식은 다음과 같다.

 

$$\mu_{\bar{x}} = \mu$$

 

$$\sigma_{\bar{x}}^{2} = \frac{\sigma^2}{n}$$

 

$$\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}$$

 

  위의 공식과 같이 표본평균의 표본분포의 평균은 모집단의 평균과 같으며 분산은 모집단의 분산에 표본크기를 나눈 것과 같으며 표준편차는 앞서 구한 분산의 공식에 루트를 씌운 것과 같다. 여기서 주목해야할 점은 표본크기가 커지면 커질수록 그래프는 점점 평균에 가까워지는 모습을 가진다는 것이다. 여기서 중요한 개념 중심극한정리가 도출된다.

 

"임의의 모집단으로부터 추출된 표본과 그에 따른 표본평균의 표본분포는 표본크기가 충분히 크면 거의 정규분포가 된다. 표본크기가 크면 클수록 표본평균의 표본분포는 정규분포와 더 가깝게 닮아간다.(이를 근사해 간다고 나는 표현하겠다.)"

 

  다시 말하자면, 표본평균의 표본분포의 표본크기가 커지면 커질수록 표본분포의 그래프 모양은 점점 정규분포의 모양과 근사해간다. 여기서 정규분포에 근사해간다는 점이 가장 중요하다. 정규분포는 확률밀도함수를 구하기 힘들기 때문에 통계량에 대하여 표준화를 시킨다는 점을 살펴보았다. 만일 표본분포가 표본크기가 커서 정규분포의 모습을 가지고(근사해) 있다면 구하려고 하는 통계량을 표준화시킬 때 정규분포의 표준화 공식을 그대로 사용한다. 단, 본래의 모집단의 표준편차를 사용하는 것이 아니라 표본평균의 표본분포의 표준편차를 구하는 공식을 대입하여 사용한다. 다음은 표본평균의 표본분포의 통계량을 표준화 할 때 사용하는 공식이다.

 

$$Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}$$

 

다음으로는 표본평균의 표본분포에 관한 중요한 특성이다.

 

"만일 X가 정규분포를 따르면 표본평균은 정규분포를 따른다. 만일 X가 정규분포를 따르지 않으면 표본평균은 표본크기가 충분히 클 때 근사적으로 정규분포를 따른다. 표본크기가 충분히 크다는 정의는 X가 정규분포로부터 어느 정도 이탈되어 있는 분포를 따르느냐에 의해 결정된다."

 


  저번 장에서는 모수가 p(임의의 한 시행에서 성공할 확률)인 이산확률변수의 확률분포인 이항분포에 대해서 살펴보았다. 그 때는 확률 p에 대한 모수가 알려져 있음을 가정하였다. 그러나 확률 p는 알려져 있지 않은 경우가 대다수이다. 따라서 통계전문가들은 모수 p에 대해서 추정해야만 한다. 성공의 모비율에 대한 추정량은 표본비율(sample proportion) 이다.

표본비율의 표본분포

  모집단에서 표본크기 n인 표본을 추출한 이후에 성공한 갯수 X를 표본의 크기로 나누면 표본비율이 나타나게 된다. 밑의 공식은 표본비율을 구하는 공식이다.

 

$$\hat{\mathrm{p}} = \frac{X}{n}$$

 

  결과적으로 성공의 수인 X는 이항분포를 따른다. 따라서 임의의 P-HAT의 값이 발생할 확률은 이항분포에 의해서 구해진다. 다음의 예시로 그 이유에 대해서 살펴보도록 하겠다. 만일 표본크기가 10이면서 P-HAT이 0.5 이하일 확률을 구한다고 가정해보자. 이는 식으로 P(P-HAT<=0.5) 일 것이다. 앞서 P-HAT은 성공의 수 X에 표본크기 N으로 나누는 것을 살펴보았다. 그렇다면 0.5는 X/10에 의해서 구해졌을 것이다. 따라서 X가 5이하여야지만 P-HAT이 0.5 이하인 값을 획득할 것이다. 즉 P(P-HAT<=0.5) = P(X<=5) 이다.

 

  통계적 추론을 위해서는 이항분포와 같은 이산확률변수는 활용되지 않는다. 통계적 추론을 위해서는 표본분포가 필요하다. 다행히 이항분포는 정규분포에 근사될 수 있다. 앞서서 연속확률변수의 확률분포가 어떻게 소개되었는지 생각해보자. 당시 확률밀도함수를 구하기 위해서 직사각형의 총면적이 1이 되도록 히스토그램을 전환시켰다. 이항분포에 대해서도 똑같은 작업이 가능하다. 이때 이항분포의 직사각형 그래프의 끝부분을 매끈하게 연결하게 되면 다음과 같은 그림의 모습을 보인다. 즉 정규분포의 모습에 근사한 모습을 보인다.

 

이항분포와 정규분포에 의한 근사

 

  따라서 어떤 통계값의 확률을 구하기 위해서는 정규분포의 확률을 구하는 방식을 사용해야만 한다. 우리는 앞서 정규분포의 확률밀도함수를 구하는 것은 굉장히 어렵다는 것을 배웠다. 따라서 통계량을 표준화하여 표준화한 값을 정규분포확률표와 비교해 확률을 구하는 것을 살펴보았다. 하지만 현재 분포가 정규분포에 근사한다고 하여도 본래 분포는 이항분포를 따르고 있었던 것이기 때문에 이 분포의 평균과 분산 그리고 표준편차는 이항분포의 공식에 근거한다. 따라서 이항분포에 공식에 근거한 통계량들을 사용하여 정규분포의 표준화 방식을 사용한다.  다음은 이항분포의 평균과 표준편차를 구하는 공식이다. 따라서 위의 그림의 이항분포의 평균과 표준편차는 각각 10과 2.24가 도출이 된다. (N=20, P = 0.5이다)

 

$$\mu = np$$

 

$$\sigma = \sqrt{np(1 - p)}$$

 

  만일 위의 이항분포의 정규분포 근사 그림에서 X = 10일 때의 확률을 구한다고 한다면 9.5와 10.5 사이의 면적을 구해야만 할 것이다. 이는 P(X = 10)  ~ P(9.5 < Y < 10.5) 라고 할 수 있다. Y는 이항확률변수 X를 근사하는 정규확률변수이다. 따라서 Y를 표준화하고 앞뒤의 9.5와 10.5 를 표준화하면 다음 그림과 같다.

 

 

  따라서 P(X=10) 일 확률은 0.1742 라고 할 수 있다. 다음으로는 표본비율의 표본분포의 특징에 대해서 살펴보도록 하자.

  여기서 중요한 지점은 표본비율의 p-hat의 기대치는 모집단의 p이다.(x/n = np/n = p) 그리고 p-hat의 분산은 p(1-p)/n 인점( V(x/n) = V(x)/n^2 = np(1-p)/n^2 = p(1-p)/n ) 따라서 p-hat의 표준편차가 앞서구한 분산에 루트를 씌운 점이다.

 

  지금까지 배운 표본비율의 표본분포를 활용하여 예제 하나를 풀어보도록 하겠다. 미국의 지난 선거에서 한 하원의원은 투표자의 52%의 지지투표를 얻었다고 해보자. 선거 후 1년이 지난 시점에 이 하원 의원은 임의로 선택된 300명으로 구성된 표본을 대상으로 다음 선거에서 그에게 지지투표를 할 것인지 물어보는 서베이를 실시했다고 해보자. 그의 인지도가 변하지 않았다는 가정 하에서 표본의 반 이상이 그에게 지지할 확률은 얼마인가?

 

  이 예시에서 우리가 구하려고 하는 것은 표본의 반 이상이 그에게 지지할 확률이다 이를 수식으로 적으면 P(P-HAT>0.50) 이다. 그 다음 우리가 이 문제를 통해서 얻을 수 있는 정보에 대해서 나열해 보도록 하자. 지난 선거에서 한 하원의원이 투표자의 52%에게 지지투표를 얻었기 때문에 P = 0.52(성공할확률) 라고 할 수 있다. 또한 표본의 크기인 n은 300명으로 구성된 표본을 뽑았으므로 300이라고 할 수 있다. 즉, 표본비율은 표본크기가 300이면서 성공의 확률이 0.52 인 이항확률분포를 따르고 있다. 이때 이항확률분포는 앞서 살펴봤듯이 정규분포에 근사할 수 있다. 이를 이용하여 구하려고 하는 통계량을 정규분포의 표준화를 사용하여 표준화 시킨 후 정규분포의 확률을 구하는 방식을 사용해 구하고자 하는 값을 도출하면 된다.

 

  앞서 위의 표본비율의 표본분포의 추론 공식에 따라서 p-hat의 평균은 0.52 이며 표준편차는 p(1-p)/n 에 루트를 씌운 공식에 따라서 0.52 x (1 - 0.52) / 300 으로 0.0288 이다. 따라서 0.50을 이 값에 근거하여 정규분포의 표준화를 사용한다면 0.7549의 값이 도출된다. 따라서 지지율이 52%로 유지된다는 가정하에 300명 표본의 반 이상이 이 하원의원에게 지지투표할 확률은 75.49 이다.


그 이외... 표본분산의 표본분포

 

  확률변수 X는 평균이 뮤이고 분산이 시그마 제곱인 정규분포를 따른다고 하자. 확률변수 X로 구성된 모집단으로부터 표본크기가 n인 확률표본을 추출한다고 하자. 확률표본으로 부터 계산된 표본분산은 모분산에 대한 추론에 사용되어진다.

  통계학자들은 (n-1)^2 x s^2 / 시그마^2 로 정의되는 확률변수는 자유도가 n-1인 카이제곱분포를 따른다는 것을 증명하였다. 만일 모집단이 정규분포를 따른다는 전제 하에서 n만큼 모집단에서 표본을 추출하고 그 표본에서 분산을 구하면 그 분산은 자유도가 n-1인 카이제곱 분포를 따른다.

 

  이는 표본평균으 표본분산이 정규분포에 근사할 수 있고 표본비율의 표본분산이 정규분포에 근사할 수 있다는 점과는 차이점을 보인다. 표본분산을 활용하는 사례는 이 뒷장에서 활발히 진행이 되니 그 때 더욱더 살펴보도록 하겠다.

 


표본분포와 통계적 추론

  앞서서 우리는 확률변수와 확률분포에 대해서 살펴보았다. 확률분포를 사용하면 확률변수의 값들에 대한 확률을 나타낼 수 있다. 모집단과 모수에 관한 지식은 모집단의 개별적인 원소에 대한 확률을 나타내기 위해 확률분포를 사용할 수 있게 해준다. 모수에 관한 지식과 표본분포에 관한 정보는 표본 통계량에 관한 확률을 나타낼 수 있게 해준다. 하지만 이 모든 과정은 전부 모수가 알려져 있을 때를 전제하고 있다. 다음 장부터 우리가 다룰 내용들은 모수는 알려져 있지 않다고 가정한다. 통계전문가들은 모집단으로부터 표본을 추출하고 필요한 통계량을 계산해줄 것이다. 표본분포는 모수에 관한 추론을 할 수 있게 해준다.

 

Comments