데이터 한 그릇

기초통계7 : 연속확률분포 본문

통계/기초통계

기초통계7 : 연속확률분포

장사이언스 2021. 3. 7. 19:00

 

  • 확률밀도함수
  • 정규분포
  • 지수분포
  • 기타 연속확률분포

https://kurt7191.tistory.com/11?category=1000998

 

기초통계6 : 확률변수와 이산확률분포

확률변수와 확률분포 이변량 확률분포 이항분포 포아송분포 https://kurt7191.tistory.com/10 기초통계5 : 확률의 이해 :: 도전 데이터사이언스 kurt7191.tistory.com 저번 장에서는 확률에 대해서 살펴보았다.

kurt7191.tistory.com


  앞선 장에서 확률변수와 확률분포에 대해서 살펴보았으며 확률분포의 종류에 대해서 살펴보았다. 확률변수는 크게 이산확률변수와 연속확률변수로 나뉘며 이산확률변수의 확률분포의 종류는 크게 이항분포와 포아송분포가 있음을 살펴봤다. 이번 장에서는 연속확률변수와 연속확률분포에 대해서 살펴볼 예정이다.

 

확률밀도함수

 

  연속확률변수는 셀 수 없는 개수를 가진 확률변수이다. 연속확률변수는 두 가지의 큰 특징을 가지고 있다. 첫 번째로 연속확률변수는 무한개의 값을 가지고 있으므로 가질 수 있는 값을 나열할 수 없다. 두 번째로 연속확률변수는 무한개의 값을 가질 수 있기 때문에 각 개별적인 값을 가질 확률은 0이다. 이에 따라서 연속확률변수가 가질 수 있는 확률 값은 구간에 한정해서만 가능하다. 밑에 표는 연속확률변수의 구간과 그 구간이 가질 수 있는 상대도수에 관한 표이다.

 

구간 상대도수
10<=X<=20 6/200
20<=X<=30 27/200
30<X<=40 30/200
40<X<=50 16/200
50<X<=60 40/200
60<X<=70 36/200
70<X<=80 27/200
80<X<=90 12/200
90<X<=100 6/200
Total 200/200 = 1

 

  여기서 주목할 점은 추정된 확률의 합은 1이라는 점에 주목해야만 한다. 따라서 히스토그램의 모든 직사각형의 합이 1이 되도록 각 구간의 직사각형의 높이를 설정해야 한다. 각 직사각형의 면적(area)은 확률변수가 이 구간에 속할 확률과 같다. 즉, 10<=X<=20의 확률이 6/200 이면 10에서 20의 확률변수가 나올 확률이 6/200 이라는 말과 같다.

 

  만일 주어진 히스토그램이 많은 수의 더 작은 구간들로 그려지면 직사각형의 끝부분은 매끄러운 곡선처럼 그려질 수 있다. 많은 경우에 이와 같은 곡선을 나타내는 함수 f(x) 가 결정될 수 있다. 이와 같은 함수는 확률밀도함수(probability density function) 라고 불린다. 확률밀도함수가 충족해야할 필수조건은 아래와 같다.

 

a<=x<=b의 범위를 가지는 확률밀도함수 f(x)는 다음과 같은 조건을 충족시켜야 한다.

 

1. a와 b사이에 있는 모든 x에 대하여 f(x) >=0 이다.

 

2. a와 b 사이에 있는 f(x) 아래의 총면적은 1이다.

 

  적분이 곡선의 아래에 있는 면적을 계산하기 위해 사용될 수 있다. 하지만 기초통계 부분에서 이에 대해서는 다루지 않겠다. 왜냐하면 연속확률분포는 적분을 사용하기에 너무 단순하거나 너무 복잡할 수 있기 때문이다. 우리는 가장 단순한 연속확률분포로부터 배울 것이다.(켈러의 경영경제통계학 288pg 참조)

 

  연속확률변수의 확률을 구하기 위해서는 확률분포의 히스토그램의 면적을 구하면 되며 히스토그램의 모양은 둥근모양이 도출되기도 하고 다양할 수 있다. 이 히스토그램의 면적을 확률밀도함수로 구할 수 있다.

 

1)일양분포

 

  확률밀도함수를 나타내는 곡선 아래의 면적을 구하는 방법을 예시하기 위해서 일양확률분포(uniform probability distribution) 을 살펴보도록 하자. 일양분포의 확률밀도함수는 다음과 같다.

 

$$f(x) = \frac{1}{b  - a}, a\le x\le b$$

 

 

  일양분포의 확률변수의 분포 모양은 직사각형의 모양을 가지고 있다. 따라서 일양분포를 직사각형분포라고도 부른다.

 

출처 : https://m.blog.naver.com/mykepzzang/220841578412


정규분포

 

  이번에는 기초통계에서 가장 중요하다고 할 수 있는 정규분포에 대해서 살펴보도록 하자. 밑에 공식은 정규분포의 확률밀도함수라고 할 수 있다. (단, x의 조건은 무한)

 

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$$

 

  정규분포의 모습은 두 개의 모수, 평균과 표준편차에 의해서 결정이 된다. 정규분포는 평균이 증가하면 x축에서 오른쪽으로 이동하며 평균이 감소한다면 x축으로 좌로 이동한다. 또한 표준편차가 커지면 정규분포는 좌우로 넓어지고 표준편차가 작아지면 정규분포는 가운데로 모인 모습을 보인다. 아래의 그림은 순서대로 정규분포의 모습, 평균에 따른 정규분포, 표준편차에 따른 정규분포의 그림이다.

 

출처 : 켈러의 경영경제통계학 295pg

 

출처 : 켈러의 경영경제통계학 295pg

 

출처 : 켈러의 경영경제통계학 295pg

 

   연속확률분포에서 확률변수의 확률을 구하기 위해서는 확률변수가 속하는 주어긴 구간의 면적을 구하면 됨을 위에서 살펴보았다. 정규확률변수의 확률을 구하는 과정도 마찬가지이다. 정규확률변수가 정규확률분포의 어떤 구간에 속할 것인지 살펴보고, 그 구간의 확률을 구하기 위해서는 그 구간의 면적을 구하면 된다. 따라서 면적을 구하기 위해서 확률밀도함수를 구해야만 하는데, 불행하게도 일양분포의 확률밀도함수처럼 그 식이 간단하지가 않다. 그 대신에 통계학자들이 미리 밝혀둔 통계표를 사용하게 된다. 본래는 사용되어야 할 표가 2개인데 정규확률변수를 표준화 함으로써 필요한 표의 수는 한 개로 줄어든다. 정규확률변수를 표준화한 값을 표준정규확률변수 라고 부르며 Z 라고 부른다. 공식은 다음과 같다.

 

$$Z = \frac{X-\mu}{\sigma}$$

 

X에 관한 확률문제는 이 공식에 의해서 Z에 관한 확률문제로 전환된다. 다음의 예시를 통해서 정규분포에 대한 이해를 심화해보도록 하자.

 

1)정규분포를 따르는 가솔린 판매량

 

  어떤 가솔린 회사가 일일 가솔린에 대한 수요량에 대해서 기록해 두었다고 가정해보자. 이 데이터는 구간데이터이며 확률변수로 생각했을 때는 이산확률변수가 아니라 연속확률변수인 데이터이다. 그리고 이 데이터가 연속확률변수의 정규분포를 따른다고 가정해보자. 이 정규분포는 평균이 1000갤런이며 표준편차가 100갤런이다. 그 가솔린 회사의 경영자가 방금 영업을 시작했다고 해보자. 그는 1100갤런의 가솔린을 보유하고 있으며 그는 이 가솔린의 양이 오늘 하루 충분한지 알고 싶다고 가정해보자.

 

  경영자가 알고 싶어하는 문제는 하루 가솔린 수요량이 1100미만일 확률이므로 수식으로 나타내면 P(X<1100) 이라고 할 수 있다. 이 그래프는 정규분포를 따르고 있다고 했으므로 X = 1100 인 지점보다 왼쪽에 있는 정규분포의 면적을 구하면 된다.

 

  확률을 구하는 첫 번째 절차는 구하고 싶은 X(확률변수)에 대하여 표준화 시키는 것이다. 따라서 P(X<1100) 은 다음과 같은 식으로 나타난다. 

 

$$P(X<1100) = P(\frac{x-\mu}{\sigma}<\frac{1100 - 1000}{100})=P(Z<1.00)$$

 

  여기서 구하려고 하는 면적인 X<1100 과 Z<1.00 은 같은 면적을 가진다. (표준정규확률표 같은 경우에는 인터넷에 검색하거나 여러 책에 기록되어 있다. 따라서 이 블로그에서 기록하는 것은 다른 글에 따로 작성하도록 하겠다.) 따라서 표준정규확률표에 의해서 확률은 0.8413을 기록한다.

 

2)Z의 값 찾기

 

  앞서 가솔린의 경우에는 확률을 구하려고 하는 확률변수가 주어지고 그것을 표준화하여 그 확률변수의 확률을 도출했다면 먼저 확률이 주어지고 Z의 값을 찾아야 하는 경우가 있다. 표준정규분포에서 이 값의 오른쪽 면적이 A인 Z의 값을 다음과 같이 표현하도록 하자.

 

$$Z_A$$

 

  Z의 값을 찾기 위해서는 표준정규확률표를 거꾸로 사용해야만 한다. 예를 들어서 A의 값이 0.025 라고 해보자. 그렇다면 A의 왼쪽의 확률은 1 - 0.025 라고 할 수 있다. 즉, 0.9750 이라고 할 수 있다. 이렇게 도출된 값 0.9750을 통해서 왼쪽의 면적을 0.9750을 가지고 있는 Z의 값을 구하면 된다. 표를 뒤져보면 결국 1.96의 Z값이 왼쪽의 면적을 0.9750 가지고 있음을 살펴볼수있다. 정리하자면, A의 값에 따라서 A왼쪽의 확률을 구할 수 있게 되며 A왼쪽의 확률을 구했다면 그에 대응하는 Z의 값을 정규확률표를 통해서 찾을 수 있다.

 


지수분포

  다른 하나의 중요한 연속확률분포는 지수분포(exponential distribution) 이다. 통계학자들은 지수분포를 따르는 확률변수의 평균과 표준편차는 같다는 것을 증명하였다. 앞서 정규분포는 두 개의 모수를 가지고 있다고 하였는데 지수분포는 한 개의 모수만을 가진다. 지수분포는 모수 람다의 값이 알려져 있으면 완전하게 규정된다.

  지수분포는 정규분포보다 다루기가 더 쉽다. 지수분포를 따르는 확률변수 X가 임의의 x값들의 구간에 속할 확률을 계산하기 위한 공식이 개발되어 있다. 

 


기타 연속확률분포

 

  3개의 기타 연속확률분포에 대해서 살펴보도록 하자. 이 3개의 연속확률분포는 Student t분포, 카이제곱 분포, F분포 이다. 이 세 개의 연속확률분포에 대해서 미리 간략하게 살펴보도록 하자.

 

1)Student t분포

 

  Student t분포는 통계적 추론으로 매우 일반적으로 사용되어진다. 아래 그림은 Student t분포의 확률밀도함수이다.

 

출처 : http://godrag77.blogspot.com/2011/07/t-students-t-distribution.html

 

  student t분포의 모양은 표준정규분포의 모습과 유사하다. 두 분포는 모두 0을 중심으로 대칭이다. 표준정규분포는 종 모양을 가지고 있는 반면에 student t분포는 산 모양을 가진다. 이는 Student t분포의 분산이 표준정규분포의 분산보다 크기 때문이다. student t분포의 중요한 개념은 자유도(degrees of freedom) 인데, 만일 자유도가 커질 경우에는 표준정규분포와 근사해진다.

 

  student t분포의 확률을 구할 때 중요한 개념은 자유도이다. 자유도에 따라서 하나의 다른 student t분포가 존재한다. 앞서서 표준정규분포의 확률을 구할 때 표를 사용함을 살펴봤는데, student t분포도 표를 사용하여 확률을 구한다. 단, 자유도라는 개념이 상대적으로 하나 더 존재하기 때문에 자유도에 따른 표를 살펴봐야만 한다.

 

$$t_{A,\nu}$$

 

  위의 수식은 의 오른쪽의 확률이 A이면서 자유도의 값이 nu인 값을 t값을 의미한다. 앞서서 정규분포의 정규확률변수의 확률을 구하는 것이 아니라 Z가 무엇인지 역으로 구해야 할 때도 있음을 살펴보았다. Student t분포도 마찬가지이다. 그것과 다른 점은 자유도의 개념이 들어간 것인데, 자유도에 따른 표를 잘 살펴 계산하면 된다.

 

2)카이제곱 분포

 

  카이제곱 분포의 확률밀도 함수는 다음 그림과 같다.

 

출처 : https://m.blog.naver.com/PostView.nhn?blogId=yunjh7024&logNo=220833026110&proxyReferer=https%3A%2F%2Fwww.google.com%2F

 

  카이제곱 분포는 자유도가 커질수록 분산이 커지는 모양을 가지게 된다. 카이제곱분포의 평균은 자유도의 값과 같으며 분산은 자유도에 2를 곱한 것과 같다. 카이제곱 분포는 앞의 student t분포와 정규분포와는 다르게 비대칭의 분포모양을 가지고 있으므로 -를 붙여서 대칭되는 값을 찾을 수 없다 (-t 와 같은)

 

3)F분포

 

  F분포의 확률밀도함수는 다음과 같다.

 

출처 : https://blog.naver.com/mykepzzang/220855136935

 

  F분포의 확률변수의 평균과 분산은 다음과 같다.

 

 

출처 : https://slidesplayer.org/slide/15857540/

 

F분포는 정규분포와 Student t분포와 달리 비대칭의 모습을 가지고 있다. 또한 카이제곱과는 달리 두 개의 자유도를 가지고 있다. 


정리

 

  지금까지 확률변수와 확률분포에 대해서 살펴보았다. 확률변수의 종류는 이산확률변수와 연속확률변수가 있으며 이번 장에서는 연속확률변수의 연속확률분포의 종류에 대해서 살펴보았다. 연속확률분포의 경우 이산확률변수와 달리 각각의 값의 확률을 구할 수 없으며 구간별 확률로 확률변수의 확률을 구해야만 함을 살펴봤다. 이 때 사용하는게 히스토그램인데 히스토그램의 면적을 구하는 것을 통해서 확률변수의 확률을 구한다. 이 때 확률변수의 모양이 직사각형의 모양을 한 분포를 일양분포라고 칭한다. 또한 정규분포도 존재하는데, 정규분포의 확률밀도함수는 복잡하기 때문에 확률변수를 표준화하여 정규분포확률표를 통해서 면적을 구한다. 그 이외의 연속확률분포는 student t, 카이제곱 그리고 f분포가 존재한다.

Comments