데이터 한 그릇

머신러닝(3)_전처리 본문

머신러닝/머신러닝기초

머신러닝(3)_전처리

장사이언스 2021. 7. 23. 14:47

 

0. 데이터로드

 

import seaborn as sns

mpg = sns.load_dataset('mpg')

 

seaborn 에 있는 mpg 데이터 셋을 로딩한다.

 

1. 데이터 탐색 (데이터 전처리와 함께)

 

1.1 데이터 구조 파악 및 null 값 제거

 

mpg.info()
mpg.dropna()

 

데이터의 자료구조와 null 값을 파악한다.

null 값이 있는 행을 제거할 때 `dropna` 함수를 사용한다.

단, 본래는 이렇게 함부로 제거하면 안된다. 데이터를 잘 살펴보고 대체할 수 있으면 대체하고 할 수 없으면 지워야 한다.

missingno 를 통해서 null 값 확인

시각화를 통해서 확인

 

`missingno.matrix()`

 

#널값이 있는 부분은 흰줄로 나타남
import matplotlib.pyplot as plt
missingno.matrix(mpg)
plt.savefig('missingno_matrix')

 

`missingno.bar()` 를 사용하기

 

missingno.bar(mpg)
plt.savefig('missingno_bar')

 

mpg.dropna(inplace = True)

null 값을 최종적으로 제거하기!!

 

 

1.2 데이터 타입 숫자형으로 전환

 

머신러닝을 하기 전에는 카테고리형들을 숫자형으로 바꿔야 한다.

그 방법 중에 하나가 onehot encoding 방법이다.

onehot encoding 은 `get_dummies()` 를 사용한다.

 

m.get_dummies()

 

레이블에 해당하면 그 행에 1을 반환하고 해당하지 않으면 0을 반환한다.

 

pd.get_dummies(mpg.origin)

 

판다스를 이용하여 원핫인코딩을 진행한 경우.

Comments