데이터 한 그릇

기초통계2 : 그래프와 표를 이용한 기술통계학 기법(ⅰ) 본문

통계/기초통계

기초통계2 : 그래프와 표를 이용한 기술통계학 기법(ⅰ)

장사이언스 2021. 2. 26. 22:55
  • 기술통계학 기법
  • 데이터와 그래프
  • 범주데이터와 막대그래프 그리고 파이차트
  • 변수의 개수에 따른 그래프
  • 정리

기술통계학 기법

 

  앞선 장에서는 통계학이 무엇인가에 대해서 살펴보았다. 그리고 통계학은 크게 기술통계학과 추론통계학으로 나뉜다는 것을 살펴보았다. 이 장에서는 기술통계학의 기법에 대해서 살펴볼 예정이다. 기술통계학의 기법은 크게 두 가지로 나뉜다. 수집한 데이터를 그래프로 표현하는 기법과 수치를 통해서 데이터를 표현하는 기법이다. 먼저 우리는 그래프를 통하여 데이터를 표현하는 기법에 대해서 살펴볼 것이다.


데이터와 그래프

  결과적으로, 그래프 기법은 데이터의 종류에 따라서 그 종류를 달리한다. 따라서 우리는 데이터의 종류에 대해서 먼저 살펴볼 필요가 있다.

 

데이터의 종류는 밑에 보이는 바와 같이 크게 두 가지로 나뉠 수 있다. (서열 데이터도 있지만 여기서는 제외하도록 한다.)

 

1) 구간데이터(정량데이터, 수치데이터)

 

2) 범주데이터(카테고리데이터)

 

  구간데이터는 연속적인 수치를 기록하고 있는 데이터를 의미한다. 즉 실수 데이터를 의미한다. 예를 들어서 서울 중구 다산로에 있는 초등학교 남학생들의 키를 기록한 데이터가 구간데이터이다. 구간데이터의 특징은 수치 계산이 가능하다는 점이다. 범주데이터는 범주를 나타내는 데이터들을 의미한다. 예를 들어서 서울 중구 다산로의 ㅇㅇ초등학교 선생님들의 결혼상태 여부에 관련된 데이터가 범주데이터라고 할 수 있다. yes or no 의 형태로 데이터는 기록될 것이며, 이 기록이 의미하는 바는 어떤 한 데이터가 어떤 그룹에 속해있는지를 나타내는 것이라고 할 수 있다. 범주데이터의 특징은 수치 계산을 할 수 없다는 것에 있다. 간혹, 범주데이터를 서열 데이터화 시켜서 계산을 할 수 있는데, 이런 경우를 제외하고는 범주 데이터는 수치 계산이 어떠한 의미도 가지지 못한다.

  이렇듯 데이터의 종류는 크게 두 가지 (구간데이터, 범주데이터) 로 나뉘는 것을 살펴보았다. 앞서 데이터의 종류에 따라서 그래프의 종류가 달라진다고 하였다. 다음으로는 앞서 설명한 두 가지 데이터에 따른 그래프의 형태를 살펴보도록 하자.


범주데이터와 막대그래프 그리고 파이차트

 

  앞서 범주데이터는 어떤 그룹(범주)에 속해있는지 표현하는 데이터라는 것을 살펴보았다. 범주데이터가 나타낼 수 있는 수치는 '도수분포' 와 '상대도수' 이다. 따라서 그래프는 이 두 가지 수치를 표현할 수 있는 그래프여야만 한다. 이 두 가지 수치를 표현할 수 있는 그래프는 바로 막대그래프와 파이차트이다.

 

출처 : https://www.slidemembers.com/ko_KR/view/Diagram/%EB%8F%84%EB%84%88%EC%B8%A0-%EB%B0%8F-%EB%A7%89%EB%8C%80-%EA%B7%B8%EB%9E%98%ED%94%84-%EB%8B%A4%EC%9D%B4%EC%96%B4%EA%B7%B8%EB%9E%A8-389

 

  막대그래프에 대한 예시로는 대학교 수업 만족도에 대한 설문조사에 관련된 데이터를 들 수 있다. 설문자는 A라는 수업에 관해서 3개의 항목을 준비한다.

 

1. 불만족 2. 보통 3. 만족

 

  설문조사에 응하는 사람들은 이 세 가지 범주 중 하나의 영역에 투표를 해야만 한다. 그렇다면 이는 범주에 관련된 데이터를 표현하는 것이기 때문에 범주 데이터라고 할 수 있으며, 설문자가 원하는 것은 각 영역에 투표한 사람의 개수(도수) 이기 때문에 이는 막대그래프로 표현이 된다. 따라서 설문자는 설문조사를 통해서 데이터의 형태가 어떠한 형태로 이루어져 있는지 손쉽게 파악할 수 있게 된다.

 

  파이차트 또한 앞선 예시를 통해서 예를 들 수 있다. 앞선 설문조사를 통해서 각 영역에 대한 도수가 도출되었다고 해보자. 설문자는 더 나아가서 각 영역의 도수가 전체 도수와 비교했을 때 몇 퍼센트의 비율을 차지하는지 알고 싶을 수 있다. 이럴 때 사용하는 것이 바로 파이차트라고 할 수 있다. 만일 100명이 앞선 설문조사에 응했다고 했을 때, 불만족이 33명이라면, 파이차트에 표현되는 불만족의 비율은 약 33% 로 나타나진다. 


변수의 개수에 따른 그래프

  앞서서 기술통계학의 그래프 기법은 데이터의 종류에 따라서 달라짐을 살펴보았다. 이번에는 변수의 개수에 따라서 그래프의 종류가 달라짐을 살펴보도록 하자. 앞서 살펴본 범주데이터는 수치상 도수분포와 상대도수만을 표현할 수 있음을 살펴보았고 따라서 그래프는 도수와 상대도수를 표현하는 막대 그래프와 파이차트로 나타남을 살펴보았다.

 

  집중해야 될 부분은, 앞서 살펴본 그래프 기법은 모두 데이터의 변수가 하나일 때를 조건으로 한다. 만일 데이터를 표현하는 변수가 두 개가 된다면 다른 그래프 기법을 사용해야만 한다. 그 그래프 기법의 이름은 바로 '교차분류표' 이다. 교차분류포의 예시로 각 성별 정당 지지 명수를 들 수 있다. X축에 남, 녀를 변수로 두고 각각에 "국민의 힘, 민주당, 정의당, 녹색당" 등등의 막대그래프를 그려놓은 것이다. 그렇게 된다면 각각의 성별로 어떤 정당에 몇명이 지지하는지 그래프를 통해서 한눈에 알아볼 수 있다. 밑에 보이는 그림이 바로 교차분류표라고 할 수 있다.

 

출처: http://research.joongang.com/survey/makecrossUSR_btm.php?num=4


정리 

 

  이번 장에서는 기술통계학의 기법 중 그래프 기법에 대해서 살펴보았다. 또한 그래프 기법은 데이터의 종류에 따라서 달라짐도 살펴보았다. 데이터는 크게 범주데이터와 구간데이터로 나뉘며 범주데이터는 범주를 나타내는 데이터이며 구간데이터는 연속된 수치를 나타내는 데이터임을 살펴보았다. 그리고 범주데이터가 표현하는 수치는 도수분포와 상대도수임을 살펴보았으며, 그에 따른 그래프는 막대그래프와 파이차트임을 살펴보았다. 이후 일변량 범주데이터에 따른 그래프 뿐만 아니라 이변량 범주데이터에 따른 그래프 또한 살펴보았다.(교차분류표) 다음 장으로는 데이터의 종류가 구간데이터일 때 어떠한 그래프를 사용하는지 살펴보도록 하자.

 

 

Comments