데이터 한 그릇

기초통계6 : 확률변수와 이산확률분포 본문

통계/기초통계

기초통계6 : 확률변수와 이산확률분포

장사이언스 2021. 3. 7. 16:04
  • 확률변수와 확률분포
  • 이변량 확률분포
  • 이항분포
  • 포아송분포

https://kurt7191.tistory.com/10

 

기초통계5 : 확률의 이해 :: 도전 데이터사이언스

 

kurt7191.tistory.com


  저번 장에서는 확률에 대해서 살펴보았다. 확률의 종류와 확률의 법칙 그리고 확률나무를 살펴보았으며 베이즈 정리도 잠깐 살펴보았다. 이번 장에서는 앞선 장에서 소개된 확률의 개념과 기법이 확장된다. 통계적 추론 방법을 이야기하는데 앞서서 통계학에서 중요한 개념인 확률변수와 확률분포에 대해서 살펴보도록 하겠다. 한 통계적 추론의 예를 들어보겠다. 우리가 어떤 동전을 던져서 앞면과 뒷면이 나오는 개수를 파악하여 그 동전이 균형잡힌 동전인지 아닌지 추론 한다고 가정해보자. 만일 동전이 나타나는 방향이 극단적이라면(앞면 90번 뒷면 10번 등) 그 동전이 균형잡힌 동전이 아니라고 추론하는 것은 합리적인 것처럼 보인다. 하지만 의문이 생긴다. 앞면 65번 뒷면 35번이 나온다면 그 동전은 균형잡힌 동전인가 아닌가? 즉, 어떤 기준 척도가 있어야지만 동전 확률 실험을 했을 때 나오는 결과가 극단적인지 극단적이지 않은지 파악할 수 있는 것이다.

 

확률변수와 확률분포

 

1)확률변수와 확률분포의 개념

 

  하나의 확률 시험의 예를 들어보도록 하겠다. 두 개의 동전을 던지는 확률실험을 한다고 가정해보자. 그렇다면 결과는 밑에와 같이 나올 것이다.

 

첫 번째 동전이 앞면이고 두 번째 동전도 앞면

첫 번째 동전은 앞면이고 두 번째 동전은 뒷면

첫 번째 동전은 뒷면이고 두 번째 동전은 앞면

첫 번째 동전은 뒷면이고 두 번째 동전은 뒷면

 

  하지만 다른 방식으로도 확률 실험의 결과에 대해서 기록할 수 있다. 바로 앞면의 개수에 대해서만 기록하는 것이다.

 

2개의 앞면

1개의 앞면

1개의 앞면

0개의 앞면

 

  이 때 앞면의 수는 확률변수(random variable) 이라고 부른다. 우리는 이와 같은 확률변수를 X 라고 칭하며 각 X의 값이 발생할 확률을 궁금해 한다. 즉, 앞면이 2개가 나올 확률, 1개가 나올 확률 0개가 나올 확률을 궁금해 한다.(P(X=1),P(X=2),P(X=0) 등) 다른 예시를 들어서 확률변수에 대해서 이해해 보도록 하자. 예를 들어서 두 개의 주사위를 던진다고 가정해보자. 두 개의 주사위를 던졌을 때 두 주사위의 숫자의 합을 확률변수로 정하자면 X = 2,3,4,5,6,7,8,9,10,11,12 이다. 

 

  확률변수의 종류는 크게 두 가지 형태로 나타난다. 바로 이산확률변수연속확률변수다. 이산확률변수(discrete random variable)는 셀 수 있는 개수를 가지는 확률변수이다. 만일 동전 10회를 던져서 앞면이 나올 확률을 구한다고 해보면 확률변수는 앞면이 나오는 개수이다. 따라서 나올 수 있는 경우의 수는 1 ~ 10 이라고 할 수 있다. 이 경우에 우리는 확률변수의 개수를 셀 수 있다. 따라서 이런 경우의 확률변ㅅ를 이산확률변수라고 부른다.

  연속확률변수(continuous random variable) 는 셀 수 없는 개수의 실수를 가지는 확률변수라고 할 수 있다. 예를 들어서 학생들이 시험을 치르는 시간이라고 할 수 있다. 만일 어떤 3시간짜리 시험이 존재하는데, 그 시험은 시험 시작 이후 30분 이전에는 시험지를 제출할 수 없다고 가정해보자. 확률변수 X의 최솟값은 30이라고 할 수 있다. 그리고 최댓값은 180 이라고 할 수 있다. 그러나 최솟값과 최댓 사이의 가능한 숫자는 30.1분 일 수도 있고 30.001분 일수도 있으며 30. 0001분 일수도 있다. 따라서 확률변수가 가질 수 있는 수는 무한하다고 할 수 있다. 이런 경우의 확률변수를 연속확률변수라고 칭한다.

 

  확률분포(Probability distribution)는 확률변수의 값과 이 값의 확률을 나타낸 표, 공식, 그래프이다. 이산확률변수에 관련된 확률분포를 이산확률분포라고 칭하며 연속확률변수와 관련된 확률분포를 연속확률분포라고 칭한다. 

 

 

2) 이산확률분포

 

  이산확률변수가 가질 수 있는 값이 발생할 확률(확률변수에 확률을 부여하는 방법)은 확률나무와 같은 확률도구를 이용하거나 확률의 정의를 적용함으로써 도출될 수 있다. 그러나 두 가지 기본적인 필수조건이 성립되어야 한다.

 

1. 모든 x에 대하여 0<= p <= 1

 

2. 모든 x를 더하면 확률은 1

 

  다음의 가구당 인원수의 확률분포를 통해서 이산확률분포에 대해 살펴보도록 하자.

 

  이번 예시는 켈러의 경영경제통계학의 227pg 에 있는 예시를 사용해보려고 한다. 다음은 미국인의 가구당 인원수의 확률분포이다. 먼저 가구당 인원수와 그에 관련된 가구의 수를 살펴보도록 하자.

 

가구당 인원수 가구의 수(100만 가구)
1 31.1
2 38.6
3 18.8
4 16.2
5 7.2
6 2.7
7 이상 1.4
합계 116.0

 

   위의 표를 활용하여 가구당 인원수의 확률을 구해보도록 하자. 전체의 상대도수율로 확률변수에 확률을 부여한다면 다음의 표와 같다.

 

X P(X)
1 31.1 / 116.0 = 0.268
2 38.6 / 116.0 = 0.333
3 18.8 / 116.0 = 0.162
4 16.2 / 116.0 = 0.140
5 7.2 / 116.0 = 0.062
6 2.7 / 116.0 = 0.023
7 이상 1.4 / 116.0 = 0.012
합계 1.000

 

  이 표에서 확률변수(X)는 1,2,3 ... 7이상 이라고 할 수 있다. 확률변수 1의 확률은 P(X=1) = 0.268 이라고 할 수 있다. 

 

3)확률분포의 중요성

 

  이러한 확률분포는 통계학에서 중요한 의미를 가지고 있다. 왜냐하면 확률분포는 모집단의 특성을 나타내는 도구로 활용되기 때문이다. 즉, 확률분포는 모집단의 추론에 중요한 역할을 가지고 있다. 앞서서 우리는 모집단의 통계적 수치를 구하는 방법을 알아보았다. 만일 평균을 알고 싶다면 모든 관측치의 값을 파악한 후에 모든 관측치의 값을 더하고 관측치의 개수로 나누었다. 또한 분산은 각 관측치의 값에서 평균 값을 뺀 값을 제곱을 한 이후에 모든 값들을 더한 값을 N개 혹은 N-1 개로 나눈다는 것을 살펴보았다. 하지만 이는 모집단의 관측치의 값을 모두 안다는 가정하에 있다.

  모집단의 특성을 파악할 수 있는 다른 방식이 있는데 그게 바로 확률분포를 사용하는 것이다. 모집단에 있는 많은 관측치를 계산하는 대신에 각각의 확률변수에 확률을 부여하고 이를 활용하여 모집단의 통계 수치를 계산할 수 있다.

 

  모평균(population mean)은 확률변수가 가질 수 있는 값들의 가중평균이다. 이때 가중치는 확률변수가 가질 수 있는 값이 실현되는 확률이다. 모평균은 X의 기대치(Expected value)라고도 부르며 E(X)로 나타낸다. 따라서 공식은 아래와 같다. 순서대로 모평균과 모분산을 나타낸다.

 

$$E(X) = \mu = \sum xP(x) $$

 

$$E(X) = \sigma^2 = \sum(x - \mu)^2P(x)$$

 

  여기까지 확률변수와 확률분포에 대해서 살펴봤으며 확률분포를 통해서 모집단의 특성을 파악하는 방법을 살펴보았다.


이변량 확률분포

  앞서 우리는 확률변수와 확률분포를 살펴보았다. 여기서 주목할만한 점은 지금까지 살핀 확률분포는 일 변수의 확률분포라는 점이다. 이변량의 확률분포에 대해서도 살펴보아야 한다. 이 문제에 대해서는 앞서 기술통계학의 수치기법을 살펴볼때 그래프 기법 부분인 산포도에서 살펴보았으며 수치 기법에서는 상관관계의 척도에 대해서 알아보았다. 이번 장에서는 두 변수의 결합확률을 제공하는 이변량 확률분포가 논의된다. 여기서 두 변수 x와 y가 일어날 확률을 기호로 P(x,y) 라고 한다. 여기서 이변량 확률분포는 x와 y가 일어날 확률을 표로 정리한 것이라고 할 수 있다.

 

  이산 이변량 확률분포는 필수조건이 존재한다.

 

1. (x,y)의 모든 쌍에 대하여 0<= p(x,y) <= 1

 

2. 모든 p(x,y) 에 대하여 다 더하면 확률 값 1

 

 

1)한계확률

 

  만일 아래와 같은 이변량 확률분포가 존재한다고 가정해보자.

 

X
  0 1 2
Y 0 0.12 0.42 0.06
1 0.21 0.06 0.03
2 0.07 0.02 0.01

 

  앞서 확률의 개념을 배웠을 때 한계확률을 구했던 것과 같이 한계확률은 구해진다.

 

P(X=0) 의 확률은 P(0,0) + P(0,1) + P(0,2) 로 구해지며 P(X=1) 과 P(X=2) 도 마찬가지이다. 또한 Y의 확률변수의 확률도 마찬가지이다.

 

 

2)이변량 확률분포의 특성

 

이변량 확률분포에서 모수를 추정하는 것도 일변량 확률분포의 방식과 같다. 다만 상관계수와 공분산이 추가된다.

 

공분산과 상관계수를 구하는 공식은 아래와 같다.

 

$$COV(X,Y) = \sigma_xy = \sum\sum xyP(x,y) - \mu_X\mu_Y$$

 

$$\rho = \frac{\sigma_{xy}}{\sigma_x\sigma_y}$$

 


이항분포

  지금까지 확률변수와 확률분포에 대해서 살펴보았다. 이제는 몇 가지의 특정한 확률분포 중 하나인 이항분포(binomial distribution)에 대해서 살펴보자. 이항분포는 다음과 같은 특성을 가진 이항실험(binomial distribution)의 결과로부터 도출되는 확률분포이다.

 

이항실험

 

1. 이항실험(binomial distribution)은 고정된 수의 시행으로 구성된다. 시행횟수를 n로 나타내자

 

2. 각 시행에서 두 가지 가능한 결과가 존재한다. 이 중에서 한 결과를 성공(success)으로 나타내고 다른 결과를 실패(failure)로 나타내도록 하자.

 

3. 각 시행에서 성공의 확률은 p이고 실패의 확률은 1 - p이다.

 

4. 시행들은 독립적이다. 이것은 한 시행의 결과는 다른 시행의 결과에 영향을 미치지 않는다는 것을 의미한다.

 

 

  만일 이항실험의 특성 2,3,4가 충족이 된다면 각 시행은 베르누이 과정(Bernoulli process)이라고 말한다. 여기에 이항실험의 특성 1이 추가되면 이항실험이 만들어진다. 이항실험에서의 확률변수는 n회 실험에서 발생하는 성공횟수로 정의된다. 이를 이항확률변수(binomial random variable) 라고 부른다.

 

  이항 확률변수에 대한 한 가지 예시를 들어보겠다. 동전 한 개를 10회 던진다고 가정해보자. 각 시행에서 나타날 수 있는 결과는 앞면과 뒷면이다. 만일 실험자가 앞면이 나올 확률을 구하고 싶다면 앞면을 성공으로 가정할 수 있다. 그 반대도 마찬가지이다. 즉, 이항확률변수라고 한다면 n회 실험에서 발생하는 성공횟수라고 할 수 있는데 동전던지기에서 '성공' 을 자신이 정할 수 있는 것이다. 여기서 중요한 점은 이항확률변수라고 한다면 결국 셀 수 있는 실수이기 때문에 이산확률변수라는 점이다.

 

  이항확률변수의 확률을 구하기 위한 공식을 알아보도록 하자. 위의 예시를 사용하여 앞면이 나올 확률을 p라고 가정해보자. 그렇다면 앞면이 나오지 않을 확률은 1-p 라고 할 수 있다. 따라서 10회 통계 실험을 시행했을 때 3번 성공을 했다면 p^3 X (1-P)^7 일 것이다. 이를 일반화한 공식으로 나타낸다면 아래와 같다.(n은 시행횟수)

 

$$p^x(1-p)^{n-x}$$

 

  앞서 10번의 실험 중에서 3번의 성공을 한 경우의 수를 파악하는 조합식은 아래와 같다.

 

$$C_x^n = \frac{n!}{x!(n-x)!}$$

 

  따라서 공식은 아래와 같다.

 

$$P(x) = \frac{n!}{x!(n-x)!}p^x(1-p)^{n-x}$$

 

1)누적확률

 

  앞에 있는 이항분포의 확률은 이항확률변수 개별의 확률이라고 할 수 있다. 즉 10회 실행에 x = 2번 성공할 확률을 구한 것이다. 하지만 x <=2 일 확률을 구하고 싶을 수도 있다. 이와 같은 확률을 누적확률(cumulative probability) 이라고 할 수 있다.

 


포아송분포

 

  앞서 확률변수와 확률분포에 대해서 살펴보고 이산확률변수와 연속확률변수에 대해서 살펴본 이후, 이산확률변수와 분포의 중류중에 이항확률변수와 이항분포가 있음을 살펴보았다. 이번에 알아볼 포아송분포(Poisson distribution) 또한 이산확률변수와 이산확률분포의 종류 중 하나라고 할 수 있다. 이산확률변수란 일정한 시행 내에서 성공환 횟수를 칭하지만 포아송확률변수는 일정한 시간 동안 또는 일정한 공간에서 발생하는 성공횟수를 뜻한다. 즉, 변수에 시공간 개념이 들어서게 된다.

 

포아송실험(Poisson experiment) 은 다음과 같이 설명될 수 있다.

 

1. 임의의 일정한 시간구간( 또는 임의의 일정한 공간) 에서 발생하는 성공횟수는 다른 시간구간(또는 다른 공간) 에서 발생하는 성공횟수와는 독립적이다.

 

2. 한 일정한 시간구간(또는 한 일정한 공간) 에서 한 번의 성공이 발생할 확률은 모든 동일한 시간구간(또는 한 일정한 공간)의 경우에 같다.

 

3. 한 일정한 시간구간에서 한 번의 성공이 발생할 확률은 시간 구간의 크기에 비례한다.

 

4. 한 일정한 시간구간에서 한 번 이상의 성공이 발생할 확률은 시간구간이 점점 작아짐에 따라 0으로 접근한다.

 

 

  다음으로는 포아송확률변수에 확률을 부여하는 방법에 대해서 살펴보도록 하자. 포아송확률변수가 x의 값을 가질 확률은 다음과 같다.

 

$$P(x) = \frac{e^{-\mu}\mu^x}{x!}$$

 

  이 공식에서 x는 0,1,2,..... 의 값을 가지며 u(뮤) 는 일정한 구간 또는 일정한 공간에서 발생하는 성공횟수의 평균이다.

 


정리

  지금까지 확률변수와 확률분포에 대해서 살펴보았다. 확률변수란 확률실험을 했을 때 나올 수 있는 경우의 수에 실수를 붙인 것이라고 할 수 있다. (주사위 한 개를 던졌을 때 나올 수 있는 수) 그리고 확률분포란 각각의 확률변수가 나올 수 있는 확률을 정리해 놓은 표라고 할 수 있다. 확률변수는 셀 수 있는 경우와 셀 수 없는 경우로 나뉘는데, 주사위 예시처럼 셀 수 있는 경우에는 이산확률변수라고 칭하며 셀 수 없는 경우에는 연속확률변수라고 칭한다. 이번 장에서는 이산확률변수의 확률분포의 종류에 대해서 살펴보았으며 이산확률변수의 확률분포에는 이항분포와 포아송분포가 존재함을 살펴보았다. 이항분포에서의 이항확률변수는 n회 시행에서의 성공 횟수를 의미하며 포아송분포에서의 포아송확률변수는 일정한 시간과 공간 내에서의 성공횟수를 의미한다. 여기서 누적확률이란 하나의 확률변수의 확률이 아니라 확률변수의 범주 개념이 들어간 확률 이라고 할 수 있다.

 

 

 

 

 

 

Comments