일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Django
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 텍스트 분류
- numpy
- 감성분석
- 밑바닥부터 시작하는 딥러닝
- 머신러닝
- word2vec
- 군집화
- 코사인 유사도
- 구글 BERT의 정석
- 기초통계
- F분포
- 히스토그램
- 밑바닥부터 시작하는 딥러닝2
- rnn
- 다층 퍼셉트론
- 가설검정
- 기술통계학
- 파이썬 pandas
- 차원축소
- 은준아 화이팅
- 모두의 딥러닝
- 오래간만에 글쓰네
- 결정계수
- student t분포
- 최소자승법
- 회귀분석
- 자연어 처리
- Pandas
- Today
- Total
데이터 한 그릇
기초통계9 : 추정의 기본원리 본문
- 추정의 개념
- 모표준편차가 알려져 있을 때 모평균의 추정
https://kurt7191.tistory.com/13?category=1000998
지금까지는 기술통계학, 확률분포, 표본분포에 대해서 살펴봤으므로 통계적 추론에 대해서 제대로 살펴보도록 하겠다. 통계적 추론은 표본으로부터 모집단에 관한 정보를 얻고 결론을 도출하는 과정을 뜻한다. 모집단에 관련된 정보를 얻는 두 가지의 과정이 있는데, 바로 추정(estimation)과 가설검정(hypothesis testing)이다. 이번 장에서는 이 두 가지 과정 중에 추정에 대해서 살펴보려고 한다.
추정의 개념
추정의 목적은 표본통계량에 기초하여 모수의 근삿값을 결정하는 것이다. 만일 표본평균을 구했다면 표본평균은 모평균을 추정하는데 사용되어진다. 이 때 표본평균을 모평균의 추정량(estimator) 이라고 부른다.
1)점추정량과 구간추정량
추정은 두 가지로 나뉜다. 바로 점추정량(point estimator)과 구간추정량(interval estimator)이다. 첫 번째 방법인 점추정량은 표본으로부터 얻은 통계량을 모집단의 모수의 값으로 간주하는 방법이다. 점추정량은 세 가지의 단점을 가지고 있다. 첫 째, 추정치가 모수와 일치하지 않는다는 것이 확실하다. 왜냐하면 연속확률변수가 특정한 값을 가질 확률은 0이기 때문이다. 두 번째로 추정량이 모수와 얼마나 가까운지 알 필요가 있다. 셋 째, 모집단에 관한 추론을 하는데 있어서 표본의 크기가 크면 모집단에 관한 추론이 수월하다는 것이 직관적이고 합리적인 생각이지만, 점추정량은 이런 생각을 반영하지 못한다. 따라서 구간추정량을 보통 많이 사용한다.
구간추정량이란 구간을 사용하면서 알려져 있지 않은 모집단의 모수를 추정하는 것을 의미한다. 앞서 표본분포를 살펴보면서 구간추정량은 표본의 크기에 영향을 받음을 살펴봤다. 따라서 구간추정량은 점추정량의 세 번째 문제점을 극복할 수 있음을 짐작할 수 있다.
2)불편성, 일치성, 상대적 효율성
앞서 설명한 추정은 이론상에만 존재하는 것이 아니라 실세 사회에서도 많이 사용되어지는 통계적 방법이다. 예를 들어서 어떤 TV프로그램의 피디가 프로그램 시청률에 관련된 모수에 관심이 있다고 가정해보자. 가장 정확한 방법은 전국의 모든 TV시청자들을 대상으로 서베이를 하여 시청률을 구하는 것이다. 하지만 이는 많은 시간과 비용이 들어가기 때문에 현실적으로 불가능한 일이다. 따라서 모집단에서 특정 표본을 뽑아 표본에서 통계량을 구하여 모집단에 관한 모수를 추론하는 것이 현실적이다. 따라서 당연히 모집단의 모수를 추론하는데 사용되어지는 표본은 가장 바람직한 특성을 가지고 있어야만 한다. 이 때 바람직한 특성은 세 가지가 있는데, 바로 불편성(unbiasedness), 일치성(consistency), 상대적 효율성(relatively efficient)이다.
불편추정량은 그 기대치가 모수와 같은 추정량이다. 이것은 무한히 많은 수의 표본을 추출하여 각 표본의 추정량을 사용하여 계산된 추정량들의 평균값이 모수와 같을 것이라는 것을 의미한다. 이것은 평균적으로 표본통계량이 모수와 같다고 말하는 것과 같다. 표본평균의 표본분포의 평균을 구할 때 그것이 모집단의 평균과 같은 것을 예로 들 수 있다. 일치성은 표본크기가 커짐에 따라 추정량과 모수의 차이가 더 작아지는 것을 의미한다. 추정량과 모수 간의 근접 정도를 나타내는 것은 분산이다. 따라서, 표본평균의 표본분포의 분산은 모집단의 분산에 표본크기 n으로 나눈 것과 같기 때문에 이를 일치추정량이라고 부른다. 마지막으로 상대적 효율성은 만일 한 모수의 두 개 불편추정량이 존재하면 그 분산이 더 작은 추정량은 상대적 효율성을 가진다고 말한다. 예를 들어서 표본평균과 표본중앙값은 둘 다 불편추정량의 특성을 가지고 있다. 그렇다면 일치주정량을 따져봐야 할 것이다. 만일 분산이 더 작은 값이 있다면 그 값을 선택하야만 한다. 따라서 표본중앙값이 분산이 더 크기 때문에 우리는 표본평균을 선택해야만 한다.
모표준편차가 알려져 있을 때 모평균의 추정
표본분포로부터 구간추정량이 어떻게 구해지는지 살펴보도록 하자. 예를 통해서 이해해보도록 하자. 평균이 뮤이고 표준편차가 시그마인 하나의 모집단이 있다고 가정하자. 우리가 이 모집단에 관하여 궁금한 점은 알려져 있지 않은 모평균의 값이라고 해보자. 이는 통계적 추론을 통해서 밝혀낼 수 있다. 따라서 우리는 통계적 추론을 하기 위해 모집단에서 표본크기가 n인 임의표본들을 추출해야만 한다. 앞서 표본분포를 통해서 살펴봤던 것처럼 표본평균의 표본분포는 모집단의 크기가 크다면 근사적으로 정규분포를 따른다. 여기서 확률변수 X_BAR를 표준화를 시켜서 표준정규분포를 만든다면 다음의 식을 가진다.
$$Z = \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}$$
표본평균의 표본분포와 관련된 확률은 다음과 같은 식을 가진다.
$$P(\mu - z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} < \bar{X} < \mu + z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}) = 1 - \alpha$$
이 식을 모평균에 관한 수학적 식으로 전환한다면 다음과 같다.
$$P(\bar{X} - z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} )$$
따라서 이 식은 모집단으로부터 반복적으로 추출된 표본들을 가지고 계산된 표본평균들 중에서 구간이 뮤를 포함하는 표본평균의 비율은 1-알파와 같다는 것을 말해준다. 이와 같은 확률의 표현은 뮤에 대한 신뢰구간추정량(confidence interval estimator of mu이기 때문에 매우 유용하다. 여기서 왼쪽의 표본평균에 -를 한 부분을 신뢰하한(lower confidence limit(LCL)이라고 부르며 반대 + 부분을 신뢰상한(upper confidence limit(UCL) 이라고 부른다.
여기서 중요한 개념이 신뢰수준 1-a인데 만일 신뢰수준이 결정이 되었다면 앞선 식의 신뢰상한과 신뢰하한을 구할 수 있게 된다.
1)신뢰구간추정치의 해석
앞서 설명한 식을 통해서 신뢰구간을 구했다고 한다면 그 신뢰구간을 어떻게 해석하는지가 가장 중요한 포인트라고 할 수 있다. 올바른 해석에 대해서 먼저 말하자면 신뢰구간이 신뢰수준 95%에서 370.16+-29.40 이라고 한다면, 모집단에서 뽑은 표본들의 평균의 95%는 340.16+-29.40 구간안에 평균이 속한다는 것을 의미한다. 즉 표본크기 n의 표본평균 95%는 신뢰구간 안에 속함을 의미한다.
정리
지금까지 모집단의 모수를 추측하기 위한 통계적 추론의 방법 중 추정에 대해서 살펴보았다. 추정은 점추정량과 구간추정량이 존재하며 두 개의 추정 중에서 보통 구간추정량을 많이 사용함을 살펴보았다. 어떤 모집단에서 표본을 뽑았을 때 그 표본의 평균의 분포는 일정한 수준의 표본크기 이상이라면 정규분포에 근사함을 살펴보았다. 따라서 그것의 신뢰구간을 구하는 식은 표준정규분포를 따름을 살펴보았다. 이 식을 신뢰구간을 구하는 식으로 정리하면 위에 설명한 신뢰하한과 신뢰상한이 구해지게 된다. (표본평균에 +- z(a/2) x 표준편차). 그리고 이 신뢰구간의 해석은 "신뢰수준 95%라고 한다면, 표본크기 n의 표본평균의 95%는 추정된 신뢰구간 안에 속한다" 라고 할 수 있다. 다음 장으로는 가설 추정에 대해서 살펴보도록 하자.
'통계 > 기초통계' 카테고리의 다른 글
기초통계11 : 한 모집단에 관한 추론 (0) | 2021.03.17 |
---|---|
기초통계10 : 가설검정의 기본원리 (0) | 2021.03.16 |
기초통계8 : 표본분포 (0) | 2021.03.08 |
기초통계7 : 연속확률분포 (0) | 2021.03.07 |
기초통계6 : 확률변수와 이산확률분포 (0) | 2021.03.07 |