데이터 한 그릇

기초통계1 : 통계학이란 무엇인가? 본문

통계/기초통계

기초통계1 : 통계학이란 무엇인가?

장사이언스 2021. 2. 23. 00:39

 

  • 데이터 분석에 왜 통계일까?
  • 기초통계 공부를 위한 교재
  • 통계학이란 무엇인가?

 

데이터 분석에 왜 통계일까?

 

데이터 분석을 이루는 세 가지 요소는 컴퓨터 공학, 도메인 지식, 그리고 통계이다. 

데이터 분석가는 이 세 가지를 채득하고 있어야지 효과적인 데이터 분석을 할 수 있다.

따라서 데이터 분석으로 커리어를 전환하기로 결심한 내 입장에서는 필수적으로 통계를 공부할 필요가 있었다. 즉, 데이터 분석에 통계 지식은 필수조건이라고 할 수 있다.

 

하지만 대학교 졸업 후에 진로를 선택해야 하는 내 입장에서는 통계학을 심도깊게 공부하기란 절대적으로 시간이 부족하다고 생각이 들었다. 때문에 현실적인 방안을 찾아야만 했다. 따라서 나는 통계학의 다양한 분야 중에서 기초통계에 집중하여 공부하기로 마음 먹었다.

 

비전공자로서 두달정도 공부를 해본 결과 기초통계는 만만한 난이도가 아니였다. 하지만 도전하는 심정으로 공부하였고, 나름의 성취감도 들게 되었다. 이 성취감이 없어지지 않게 기록을 해야 한다고 판단하였고, 이 블로그에 기록을 하기로 결심하였다.

 

기초통계 공부를 위한 교재

 

기초통계에 관련된 책은 시중에서 다양하게 판매하고 있다. 따라서 비전공자 입장에서는 제대로된 교재를 선택하기란 쉽지 않았다. 실제로 교재를 선택하는데 많은 시간이 들었고 들인 시간에 비해서 나에게 맞는 좋은 책은 찾지 못했다. 그러던 중 지인 중에 경제학과를 다니는 친구가, 기초통계에 관련된 대학 교재를 추천해주었다. 바로 "켈러의 경영경제통계학 (엑셀의 실전적 활용)" 이다.  앞으로 이 블로그에 쓰여질 기초통계 시리즈 글들은 이 교재를 기반으로 쓰여질 예정이다.

 

책의 구성은 초반에 차트의 주제를 설명하고, 주제에 관련된 실제 데이터 예제를 설명하면서 주제를 심도깊게 익혀나가는 것으로 이루어져 있다.

 

켈러의 경영경제통계학

 

본론으로 들어가서...

통계학이란 무엇인가?

 

저자에 따르면 통계학이라는 학문은 데이터로부터 어떠한 정보를 얻는 하나의 방법론이다. 저자는 통계학을 크게 두 가지로 구분고 있다. 바로 기술통계학과 추론통계학이다.

 

1)기술통계학과 추론통계학

 

기술통계학

 

기술통계학은 데이터를 보다 편리하게 정리하고 요약하고 설명하는 통계학을 이야기한다. 그래프는 앞서 설명한 기술통계학 정의에대한 사례로 충분하다. 따라서 그래프는 기술통계학의 기법 중 하나라고 할 수 있다. 또 한편으로 기술통계학은 다른 기법을 가지고 있는데, 바로 수치 기법이다. 우리가 흔히 알고 있는 평균, 분산, 표준편차 등등이 이러한 기법에 속한다.

 

이 수치기법은 크게 두 가지로 구분이 될 수 있는데, 중심 정도의 척도와 변동성의 척도이다.  중심 정도의 척도는 데이터의 중심에 관련된 수치를 나타내는 것으로서 평균, 중앙값, 최빈값 등등이 있다. 변동성은 데이터의 퍼진 정도를 설명하는 것으로써 분산, 표준편차 등등 이라고 할 수 있다.

 

추론통계학

 

추론통계학은 모집단에 대한 어떤 수치를 알기 위해서 표본으로 추출된 집단으로부터 모집단의 모수에 관한 추리를 하는 통계학을 말한다. 후에 모집단과 표본에 관련된 개념을 알아보도록 하자.

 

2)주요 통계학 개념

 

모집단과 모수

 

저자는 모집단이란 "통계전문가가 관심을 가지고 있는 모든 항목의 그룹" 이라고 설명하고 있다. 예를 들어서 우리가 컴퓨터공학과를 다니는 남학생들의 평균 키에 대해서 관심이 있다고 한다면 이 예시의 모집단은 컴퓨터공학과를 다니는 남학생들이라고 할 수 있다. 

 

여기서 모집단의 기술적 척도를 모수라고 부른다. 나는 이 모수에 대해서 그 모집단의 특성을 나타내는 수치라고 이해를 하였다. 앞선 예시에서 모수는 컴퓨터공학과 남학생들의 평균 키 라고 할 수 있다.

 

표본과 통계량

 

저자는 표본에 관해서 "모집단으로부터 추출된 하나의 데이터 집합" 이라고 설명한다. 앞서 모집단의 기술적 척도는 모수라고 하였다. 표본 또한 기술적 척도가 존재하는데 바로 통계량이라고 할 수 있다. 통계량은 임의로 추출된 데이터 집합에서 나타나는 수치를 의미한다. 예를 들어서 앞서 컴퓨터공학과 남학생들의 모집단이 너무 크기 때문에 표본을 추출했다고 가정해보자. 표본을 500명 가량 추출했을 때, 이 500명의 평균 키에 관한 수치는 표본의 통계량이라고 할 수 있다.

 

통계적 추론

 

통계적 추론이란 표본 데이터에 기초하여 모집단에 관한 추정, 예측, 의사 결정을 하는 과정이다. 이러한 통계적 추론에는 신뢰의 척도가 존재하는데 그것은 바로 신뢰수준과 유의수준이다. 통계적 추론은 책의 뒷 장의 추정과 가설검정에 대해서 이야기 하면서 심도깊게 이야기 하도록 하고 여기서는 이정도의 서술로 끝내기로 하자.

 

 

 

 

 

 

 

 

Comments