데이터 한 그릇

Notice

Recent Posts

Recent Comments

Link

« 2024/10 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (149)

데이터 한 그릇

머신러닝(7)_피처 스케일링

StandardScaler 피처의 값들의 크기가 크면 머신러닝 성능에 안좋은 영향을 끼친다. 표준화를 시키는 작업. 가우시안 분포 즉, 정규분포를 만들어감 from sklearn.preprocessing import StandardScaler, MinMaxScaler from sklearn.datasets import load_breast_cancer import pandas as pd data_cancer = load_breast_cancer() 사이킷런 데이터 로드하기 data_pd = pd.DataFrame(data = data_cancer.data, columns = data_cancer.feature_names) data_pd['target'] = pd.DataFrame(data = data_c..

머신러닝/머신러닝기초 2021. 7. 23. 15:01

머신러닝(6)_교차검증과 최적 파라미터

교차검증해보기 import numpy as np np.mean(cross_val_score(knn, X_train, y_train)) 최적의 하이퍼 파라미터 찾아보기 temp = [] for i in range(1,20): knn = KNeighborsClassifier(n_neighbors = i) knn.fit(X_train, y_train) temp.append(knn.score(X_test, y_test)) 반복문을 통해서 최적의 하이퍼 파라미터 값을 찾아볼 수 있음. GridSearchCV GridSearchCV 를 통해서 모델의 최적의 하이퍼 파라미터값을 서칭할 수 있다. params = { 'n_neighbors' : [2,3,4,5,6,7], 'weights' : ['distance','u..

머신러닝/머신러닝기초 2021. 7. 23. 14:58

머신러닝(5)_모델을 저장하고 불러오기

1. 모델 저장하기 lr = LogisticRegression(max_iter = 400) lr.fit(x_train, y_train) 모델 객체를 생성하고 학습시키기 import joblib # model save joblib.dump(lr,'./model/iris_model.pkl') `joblib` 을 통해서 특정 모델을 지정된 경로에 저장하기 2. 모델 불러오기 #file -> model load model_from_joblib = joblib.load('./model/iris_model.pkl') model_from_joblib.score(x_test, y_test) 지정된 경로를 적어주고 joblib 을 통해서 불러오기

머신러닝/머신러닝기초 2021. 7. 23. 14:53

머신러닝(4)_교차검증

교차검증은 과적합을 방지하기 위해서 사용되며 `cross_val_score( ,data, target, cv=5)` => data를 5등분한 이후에 4개는 train 1개는 test로 사용한다. 5등분이 번갈아가면서 자신의 역할을 바꾼다. 5개의 학습된 경우의 모델이 나오고 target으로 성능평가한다. => 5개의 성능평과 결과가 나온다. 1.cross_val_score from sklearn.datasets import load_iris from sklearn.linear_model import LogisticRegression from sklearn.model_selection import cross_val_score, train_test_split 필요한 모듈들을 모두 import 해준다. dat..

머신러닝/머신러닝기초 2021. 7. 23. 14:52

머신러닝(3)_전처리

0. 데이터로드 import seaborn as sns mpg = sns.load_dataset('mpg') seaborn 에 있는 mpg 데이터 셋을 로딩한다. 1. 데이터 탐색 (데이터 전처리와 함께) 1.1 데이터 구조 파악 및 null 값 제거 mpg.info() mpg.dropna() 데이터의 자료구조와 null 값을 파악한다. null 값이 있는 행을 제거할 때 `dropna` 함수를 사용한다. 단, 본래는 이렇게 함부로 제거하면 안된다. 데이터를 잘 살펴보고 대체할 수 있으면 대체하고 할 수 없으면 지워야 한다. missingno 를 통해서 null 값 확인 시각화를 통해서 확인 `missingno.matrix()` #널값이 있는 부분은 흰줄로 나타남 import matplotlib.pypl..

머신러닝/머신러닝기초 2021. 7. 23. 14:47

머신러닝(2)_데이터분리

머신러닝(2) 머신러닝 과정을 이해해보기머신러닝의 기초단계 데이터 로드 xfrom sklearn.datasets import load_breast_cancerimport pandas as pdimport numpy as np data_cancer = load_breast_cancer()print(dir(data_cancer))print(data_cancer.DESCR) 사이킷런 유방암 데이터셋 불러오기 데이터 탐색1. 데이터 프레임 만들기xxxxxxxxxx#훈련데이터로 데이터 프레임 만들기data_pd = pd.DataFrame(data = data_cancer.data, columns = data_cancer.feature_names)data_pd.head() #타겟데이터를 꺼내고 concat 으로 ..

머신러닝/머신러닝기초 2021. 7. 21. 17:37

머신러닝 기초(1)

머신러닝(1) 머신러닝 개요 머신러닝의 종류는 크게 3가지로 구분이 된다. 지도학습비지도학습강화학습 판다스를 이용하여 머신러닝 할 데이터를 불러오기 from sklearn.datasets import load_breast_cancer 를 해주고 데이터 셋을 불러온다. xdf_cancer = load_breast_cancer()df_canter = pd.DataFrame(data = df_cancer.data, columns = df_cancer.feature_names) from sklearn.neighbors import KNeighborsClassifier 를 하여 알고리즘 하나를 불러온다. xxxxxxxxxxknn = KNeighborsClassifier() #모델생성knn.fit(data_iri..

머신러닝/머신러닝기초 2021. 7. 21. 17:11

시각화 프로젝트)제주도 창업 인사이트 도출

7월 6일 ~ 7월 20일 까지 진행한 시각화 프로젝트. 처음으로 데이터 분석 프로젝트를 진행해봤다. 그동안 프로젝트를 진행하느라 블로그에 글을 못쓰고 github 에만 파일을 올렸다. 프로젝트를 진행할때 조원들끼리의 시너지가 중요하다는 걸 제대로 느끼게 됐다. 이번 프로젝트는 의사소통에 아쉬운점이 많다. 조원끼리 회의를 통해 소통이 이루어졌지만, 의사소통이 잘 이루어지지 않아서 각자의 능력이 100% 발휘되지 못한거 같아 아쉽다. 프로젝트를 진행함에 있어서 각자가 기간내에 어떤 것을 준비해오면, 각 팀원들이 상대방이 준비해온 것을 꼼꼼하게 읽어보고 피드백하는게 필요해보인다. 분명 준비 기간에 상관관계 등등 내용이 풍부했지만 위의 과정의 부재로 인해서 내용이 빈약해진 측면이 있다. 하지만 결론이 아쉽지만..

Python/시각화 2021. 7. 21. 09:37

Selenium 크롤링(2) : 커피빈 크롤링

자바스크립트 데이터 수집 coffeebean 홈페이지를 통한 실습 from bs4 import BeautifulSoup import requests import pandas as pd import datetime from selenium import webdriver import time 필요한 패키지와 모듈들을 모두 임포트 해준다. path = './lib/chromedriver.exe' driver = webdriver.Chrome(path) url = 'https://www.coffeebeankorea.com/store/store.asp' 드라이브를 구현시켜준다. 단, 본래는 url 을 설정하고 바로 driver.get(url) 을 해서 웹페이지를 띄웠다면, 이번에는 여러 번 띄울 예정이기 때문에 ..

크롤링 2021. 7. 1. 16:52

Selinium 크롤링(1)

동적인 작업을 수행할 수 있는 크롤링 import requests from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By 필요한 패키지와 모듈들 설치 Naver에서 id가 1개일때 그리고 검색어 입력 path = './lib/chromedriver.exe' driver = webdriver.Chrome(path) webdriver 크롬을 다운받았다면 해당 다운받은 경로로 webdriver.chrome 을 가동한다. url = 'https://www.naver.com' driver.get(u..

크롤링 2021. 7. 1. 16:49

Prev 1 ··· 5 6 7 8 9 10 11 ··· 15 Next

목록전체 글 (149)

데이터 한 그릇

티스토리툴바