일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 밑바닥부터 시작하는 딥러닝
- 기초통계
- word2vec
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 머신러닝
- rnn
- 결정계수
- 차원축소
- 가설검정
- Django
- 코사인 유사도
- F분포
- 최소자승법
- 군집화
- numpy
- 감성분석
- 모두의 딥러닝
- 히스토그램
- 회귀분석
- 오래간만에 글쓰네
- 은준아 화이팅
- 파이썬 pandas
- student t분포
- Pandas
- 구글 BERT의 정석
- 다층 퍼셉트론
- 텍스트 분류
- 기술통계학
- 자연어 처리
- 밑바닥부터 시작하는 딥러닝2
- Today
- Total
데이터 한 그릇
기초통계3 : 그래프와 표를 이용한 기술통계학 기법 (ⅱ) 본문
- 구간데이터의 그래프 기법
- 히스토그램 계급구간의 수와 간격의 크기
- 히스토그램의 모습
https://kurt7191.tistory.com/4
기초통계2 : 그래프와 표를 이용한 기술통계학 기법(ⅰ)
기술통계학 기법 데이터와 그래프 범주데이터와 막대그래프 그리고 파이차트 변수의 개수에 따른 그래프 정리 기술통계학 기법 앞선 장에서는 통계학이 무엇인가에 대해서 살펴보았다. 그리고
kurt7191.tistory.com
구간데이터의 그래프 기법
앞선 장에서는 기술통계학의 그래프 기법에 대해서 살펴봤다. 그래프 기법이 데이터의 종류에 따라서 나뉨을 살펴보았고 범주데이터를 이용한 막대그래프와 파이차트를 알아보았다. 이 장에서는 범주데이터에서 더 나아가 구간데이터에 따른 그래프 기법을 알아볼 예정이다.
앞선 장에서 설명했지만 구간데이터는 연속적인 수치를 기록한 데이터이다. 이러한 이유로 구간데이터는 범주형데이터처럼 한정된 실수나 변수 개수를 가지고 있는 것이 아니다. 따라서 범주형데이터에 적용했던 막대그래프나 파이차트를 구간데이터에 적용하기란 한계가 있다. 예를 들어 서울 중구 다산로의 어떤 초등학교의 6학년 학생들의 키를 기록한 데이터가 있다고 가정해보자. 아마도 150 ~ 170 등등의 다양한 기록들이 존재할 것이다. 만일 이 데이터 각각을 하나의 실수 혹은 변수로 두고 막대그래프를 그리게 된다면, 막대그래프의 X축은 굉장히 길어질 것이고 그래프 또한 한눈에 잘 들어오지 않을 것이다.
그렇다면 구간그래프를 위한 새로운 그래프 기법이 필요할 것이다. 연속적인 실수 데이터를 한눈에 잘 들어오게끔 만드는 그래프 기법은 바로 히스토그램 이라고 할 수 있다. 즉, 구간그래프에 따른 그래프 기법은 히스토그램이라고 할 수 있다. 밑에 보이는 그림이 바로 히스토그램이다.
그림의 X축을 살펴보면 데이터가 일정한 구간으로 구분이 되어 있음을 살펴볼 수 있다. 즉 60부터 100까지의 실수를 기록하고 있는 데이터가 존재하는데, 60부터 100까지의 데이터를 4개의 계급으로 구분지어서 그 계급에 따른 데이터의 도수를 기록한 것이 히스토그램이라고 할 수 있다.
히스토그램의 계급의 수와 간격의 크기
그렇다면 한 가지 의문이 생기게 된다. 우리에게 주어지는 데이터는 종류도 다양하며 관측치의 개수도 다양하다. 또한 그 데이터의 최솟값과 최댓값 또한 다양하다. 따라서 데이터가 주어졌을 때 계급의 개수와 계급의 간격을 설정하는 것에 어려움이 있을 수 있다. 이에 통계학자들은 히스토그램을 만들기 위한 공식을 만들었다. 먼저 히스토그램의 계급의 수를 결정하는 공식인 스터지스의 공식(Sturges' formula) 이 존재한다. 밑의 공식이 스터지스 공식이다.
계급구간의 수 = 1 + 3.3log(n)
※n은 관측치의 수를 의미함
스터지스 공식은 참조용으로 사용하며 사용자가 더 효율적으로 계급구간의 개수를 정할 방법이 있다면 그 방법을 사용하여 히스토그램을 제작하면 된다. 또한 스터지스 공식 이외에도 계급구간의 수를 결정하는 다른 방법이 있다. 통계학자들은 관측치의 개수에 따른 적절한 계급구간의 수를 표로 만들어 두었다. 이를 활용하여 히스토그램의 계급구간의 개수를 결정할 수 있다. 이 또한 스터지스의 공식처럼 참조용으로 사용하면 된다.
관측치의 수 | 계급구간의 수 |
50 미만 | 5 ~ 7 |
50 ~ 200 | 7 ~9 |
200 ~ 500 | 9 ~ 10 |
500 ~ 1,000 | 10 ~ 11 |
1,000 ~ 5,000 | 11 ~ 13 |
5,000 ~ 50,000 | 13 ~ 17 |
50,000 초과 | 17 ~ 20 |
앞서 설명한 스터지스의 공식이나 위의 표를 이용하여 계급구간의 수를 결정하였다면 각 계급의 크기를 결정하여야 한다. 위에 나타난 히스토그램은 계급구간의 간격 크기를 10으로 지정하였다. 어떻게 결정하게 되었을까? 이는 직관적으로 알 수 있다. 바로 데이터의 최댓값과 최소값을 뺀 이후에 그것을 계급구간의 개수로 나누는 것이다.
계급구간의 간격 = 관측치의 최댓값 - 관측치의 최솟값 / 계급구간의 수
여기서 중요한 지점은 계급구간의 첫 시작지점을 어떻게 잡아야 하는지이다. 이 때 필수적으로 알아야 하는 점은 첫 계급구간은 반드시 최소 관측치를 포함해야 한다는 점이다.
히스토그램의 모습
우리는 앞서 기술통계학의 기법인 그래프를 통해서 데이터로부터 정보를 얻는다는 점을 살펴보았다. 그렇다면 그래프를 만드는 것 뿐만 아니라 그래프를 보고 그 데이터의 특성을 읽어낼 줄 알아야만 한다. 히스토그램은 다양한 모양을 가지고 있으며 그 모양에 따른 특징 또한 다르다. 다음으로는 그래프에 대한 해석 이전에 히스토그램이 어떠한 모양들을 가지고 있는지 살펴보도록 하자.
1)대칭성
히스토그램의 정중앙 부분에 선을 수직으로 긋고 절반으로 접었을 때 일치하는 그래프를 히스토그램의 대칭 그래프라고 할 수 있다.
2)비대칭성
비대칭성은 크게 두 가지로 나뉠 수 있다. 바로 양의 비대칭과 음의 비대칭이다. 그래프의 모양을 보면 점점 작아지는 히스토그램의 모양을 볼 수 있는데, 점점 작아지는 방향을 꼬리라고 칭하며 꼬리가 양의 방향으로 향해 있다면 양의 비대칭이며 꼬리가 음의 방향을 향해 있다면 음의 비대칭이라고 할 수 있다. 밑의 그림은 양과 음의 비대칭 히스토그램의 모습이다.
3)봉우리 계급구간의수
히스토그램에서 가장 높은 도수를 나타내고 있는 수치를 최빈값(mode) 이라고 부른다. 최빈계급이란 최대의 관측치 수를 가진 계급이다. 만일 최빈계급이 하나일 경우에는 단봉을 가진 히스토그램 이라고 불리며 최빈계급이 두 개일 경우에는 양봉을 가진 히스토그램이라고 불린다.
4) 종 모양
마지막으로 종모양의 히스토그램 모습이다. 이 그래프는 정규분포와 밀접한 관련이 있기 때문에 굉장히 중요한 히스토그램의 모습이라고 할 수 있다.
정리
앞서 데이터의 유형이 구간데이터일 경우에는 그래프의 기법이 히스토그램임을 살펴보았다. 히스토그램의 계급의 개수는 스터지스의 공식이나 통계학자들이 미리 만들어 놓은 표를 참조하여 결정함을 살펴보았다. 또한 계급 간격의 크기는 데이터의 최댓값과 최솟값을 뺀 이후에 계급구간의 수로 나누어 도출함을 살펴보았다. 그리고 이러한 히스토그램의 모습은 대칭, 비대칭(양의 비대칭, 음의 비대칭), 단봉(최빈계급1개), 양봉(최빈계급2개), 종 모양 등의 형태로 나타남을 살펴보았다. 다음 장으로는 투자수익률 관련하여 히스토그램을 활용하는 활동을 해보도록 하겠다.
'통계 > 기초통계' 카테고리의 다른 글
기초통계4 : 수치를 이용한 기술통계학 기법 (ⅱ) (0) | 2021.03.01 |
---|---|
기초통계4 : 수치를 이용한 기술통계학 기법 (0) | 2021.02.28 |
기초통계3 : 그래프와 표를 이용한 기술통계학 기법 (ⅱ- 1) (0) | 2021.02.28 |
기초통계2 : 그래프와 표를 이용한 기술통계학 기법(ⅰ) (0) | 2021.02.26 |
기초통계1 : 통계학이란 무엇인가? (0) | 2021.02.23 |