일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 은준아 화이팅
- 구글 BERT의 정석
- 최소자승법
- 히스토그램
- 감성분석
- 코사인 유사도
- 머신러닝
- 밑바닥부터 시작하는 딥러닝
- Django
- 모두의 딥러닝
- 오래간만에 글쓰네
- 가설검정
- 군집화
- Pandas
- word2vec
- rnn
- F분포
- 밑바닥부터 시작하는 딥러닝2
- numpy
- 기술통계학
- 기초통계
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 다층 퍼셉트론
- 결정계수
- 파이썬 pandas
- student t분포
- 회귀분석
- 차원축소
- 텍스트 분류
- 자연어 처리
- Today
- Total
목록전체 글 (149)
데이터 한 그릇
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ItJZO/btq4bCJq5xC/kUmySyUWZLJKMzaKvHZEMK/img.png)
캐글에 있는 고급회귀 기법으르 사용한 집값 예측 데이터를 분석해 봤다. train 데이터 만으로 분석을 해봤다. 데이터 셋 변수 설명 # Features description SalePrice - the property's sale price in dollars. This is the target variable that you're trying to predict. MSSubClass: The building class MSZoning: The general zoning classification LotFrontage: Linear feet of street connected to property LotArea: Lot size in square feet Street: Type of road acces..
캐글에 있는 자전거 대여 수요 예측 데이터 셋을 통해서 회귀 분석 연습 단순 선형 회귀 모형, Ridge 모형, 라쏘 모형을 통해서 회귀 모형을 만들었다. 만들고 실제 데이터와 예측 모형간의 차이가 크게 나타나는 것을 발견하고 데이터를 전처리 했다. 타겟 데이터의 분포를 히스토그램으로 살펴보니 비대칭적인 분포를 가지고 있음을 확인했고 넘파이의 log1p를 이용하여 최대한 정규화 시켜봤다. 그리고 다시 모델을 학습시키고 각 변수의 회귀 계수를 확인해보니 year 변수의 계수가 가장 크게 나왔다. 자전거의 수요가 연도에 따라서 달라지는 비중이 크진 않을 것이기 때문에 잘못된 예측이라고 판단했다. 변수에 대하여 원핫 코딩을 시행하고 상위 변수 20개만 살펴보니(회귀 계수가 높은), monday-9가 가장 크게..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/VeHxW/btq3PBDCYV0/TqXlvpomJfXu5hmr2O23s1/img.png)
로지스틱 회귀 로지스틱 회귀 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘이다. 로지스틱 회귀 역시 선형 회귀 방법이다. 선형 회귀인지 아닌지는 변수의 degree에 따르는 것이 아니라 변수의 계수에 따라 나뉜다. 로지스틱 회귀의 가장 큰 특징은 학습을 통해서 최적의 선형 회귀선을 찾는 것이 아니라 시그모이드(Sigmoid) 함수 최적선을 찾는 것이다. 많은 자연 현상에서 특정 변수의 확률 값은 선형이 아니라 시그모이드 함수와 같은 S자 커브 형태를 가진다. S자 커브 형태의 시그모이드 함수의 가장 큰 특징은 X가 아무리 +,- 쪽으로 나아가도 0이나 1에 수렴한다는 것이다. import pandas as pd from sklearn.datasets import load_breast_cance..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/UCUcn/btq3TsenTsx/V6bGquiIVr0kOSB4FykIfK/img.png)
규제 선형 모델의 개요 릿지 회귀 라쏘 회귀 엘라스틱넷 회귀 선형 회귀 모델을 위한 데이터 변환 규제 선형 모델의 개요 앞서 종속 변수와 독립 변수의 관계가 곡선의 관계를 가지고 있을 때, 일차 방정식의 관계로 파악한다면 과소적합하게 모델을 만든 것이라고 할 수 있고, 더 큰 다항식의 관계로 파악하게 되면 모델이 복잡해지고 변동성이 커져서 오히려 예측력이 떨어진다는 것을 살펴봤다. 지금까지의 선형 회귀 모델 같은 경우에는 RSS, 비용 함수를 줄이는 것에 초점을 맞춰서 식을 만들었다. 하지만 RSS를 최소화 하는 것에만 초점을 두어 모델을 만드는 경우, 학습 데이터를 과적합하게 학습하여 모델이 필요 이상의 다항식으로 나아가게 되고 회귀 계수가 커지면서 과적합하게 되는 문제를 가진다. 따라서 새로운 기준이..
다항 회귀 이해 다항 회귀를 이용한 과소적합 및 과적합 이해 다항 회귀 이해 단순 선형 회귀 같은 경우에는 종속변수와 독립변수와의 관계가 일차방정식의 관계를 가진 회귀 모형이였다. 지금부터 알아볼 다항 회귀 같은 경우에는 종속변수와 독립변수의 관계가 일차방정식 이외의 2차 3차 이상의 관계를 가지는 회귀 모형을 알아볼 예정이다. 이를 다항 회귀라고 부른다. 주의해야할 점은 다항 회귀가 일차방정식의 "선"의 모양이 아니기 때문에 선형 회귀가 아니라고 착각할 수 있다는 점이다. 회귀 모형이 선형인지 선형이 아닌지에 대한 판단은 회귀 모형의 변수, 피처에 따라서 나뉘는 것이 아니라 회귀 모형의 계수에 따라서 나뉜다. 만일 y = ax + (a+1) * x^2 라고 했을 때, 변수가 일차 이상의 이차항을 보이고..
회귀 소개 단순 선형 회귀를 통한 회귀 이해 비용 최소화하기 - 경사 하강법(Gradient Descent) 소개 회귀 평가 지표 회귀 소개 통계학 용어를 빌리면, 회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 칭한다. 예를 들어서 아파트의 방의 수, 방의 크기, 주변 학군 등에 따라서 아파트의 가격이 결정이 되는 경우, 종속변수는 아파트의 가격이라고 할 수 있으며 방의 수 , 방의 크기, 주변 학군은 독립변수라고 할 수 있다. 회귀 모델의 확정적 모델같은 경우에는 y= ax와 같은 식으로 표현이 가능하다. 앞선 아파트의 가격 예시를 통해 확정적 모델을 만들면 y=ax1(방의 크기) + bx2(방의 수) + cx3(주변 학군) + b 라고 할 수 있다. 하지만 현실 세계..
로지스틱 회귀 모형과 LightGBM 을 통해서 분류 임계값 조정과 GridSearchCV로 파라미터 최적화는 시키지 않았음 중요한 피처를 정규분포화 시킴(numpy log1p, StandaraScaler 사용) Class(타겟 피처)와 상관관계 높은 피처를 선정하여 이상치 제거 후 모델링 진행 데이터가 편향되어 있기 때문에 imblearn 패키지를 이용하여 SMOTE으로 오버 샘플링 진행 참고 : 파이썬 머신러닝 완벽 가이드
개요 하이퍼 파라미터 개요 LightGBM의 가장 큰 장점은 XGBoost보다 학습에 걸리는 시간이 훨씬 적다는 점이다. 또한 메모리 사용량도 상대적으로 적다. 하지만 예측 성능에는 큰 차이가 없다. LightGBM의 한 가지 단점으로는 과적합의 위험이 있을 수 있다. LightGBM은 일반 GBM 계열의 트리 분할 방법과 다르게 리프 중심 트리 분할을 택하고 있다. 본래 트리는 트리를 뻗어나갈 때 균형 트리 분할 방식을 사용한다. 최대한 균형 잡힌 트리를 지향하기 때문에 과적합을 방지할 수 있다. 하지만 반대로 균형 잡힌 트리를 만드느라 소요되는 시간이 길다는 단점이 있다. LightGBM은 균형을 잡는데 시간을 많이 소요하지 않고 최대 손실 값을 가지는 리프 노드를 지속적으로 분할하면서 트리의 깊이가..
XGBoost 개요 사이킷런 래퍼 XGBoost 하이퍼 파라미터 XGBoost 개요 xgboost는 트리 기반의 앙상블 학습에서 가장 각광받고 있는 알고리즘 중 하나이다. GBM 대비 빠른 수행 시간을 보이고 있으며 그에 뒤지지 않는 뛰어난 예측 성능을 가지고 있다. xgboost의 핵심 라이브러리는 C/C++ 로 작성돼 있다. XGBoost 개발팀은 파이썬에서도 연동이 되게끔 파이썬 패키지를 제공하고 있다. 파이썬 패키지 안에는 xgboost 전용의 파이썬 패키지와 싸이킷런과 호환되는 래퍼용 xgboost가 존재한다.(파이썬 패키지 내에 1. xgboost 전용, 2. 사이킷런과 호환되는 패키지) 여기서 다룰 것은 사이킷런과 호환되는 xgboost를 살펴보려고 한다. 사이킷런과 호환되는 xgboost같..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bboWSE/btq2ynm7334/SAlipn0OgW2rA7sTKDyKxk/img.png)
랜덤 포레스트의 개요 랜덤 포레스트 하이퍼 파라미터 및 튜닝 랜덤 포레스트의 개요 배깅은 앞서 말한 보팅과는 다르게 서로 다른 알고리즘을 합친 것이 아니라 서로 같은 알고리즘으로 여러 개의 분류기를 만들어서 보팅으로 최종 결정하는 알고리즘이다. 배깅의 대표적인 알고리즘은 랜덤 포레스트(Random Forest) 이다. 랜덤 포레스트는 직관적이며, 다양한 영역에서 높은 예측 성능을 보이고 있다. 먼저 원본 데이터에서 서브 데이터로 분류기의 개수에 맞게 샘플링한다. 그 이후 각각의 샘플링된 데이터에서 각각의 분류기들이 예측을 하게 된다. 예측을 통해서 target 변수의 각각의 레이블에 대한 확률값을 도출하게 된다. 이때 모든 분류기들의 각각의 레이블에 대한 확률값들을 소프팅 보팅하여 최종적인 결과값을 반환..