일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 텍스트 분류
- numpy
- 히스토그램
- 감성분석
- 밑바닥부터 시작하는 딥러닝2
- 군집화
- 결정계수
- 머신러닝
- 구글 BERT의 정석
- 가설검정
- 기술통계학
- 차원축소
- 코사인 유사도
- 다층 퍼셉트론
- 회귀분석
- 기초통계
- 밑바닥부터 시작하는 딥러닝
- 파이썬 pandas
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- word2vec
- rnn
- F분포
- 자연어 처리
- 최소자승법
- Pandas
- student t분포
- 은준아 화이팅
- 오래간만에 글쓰네
- Django
- 모두의 딥러닝
- Today
- Total
목록머신러닝/캐글 예제 연습 (3)
데이터 한 그릇
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ItJZO/btq4bCJq5xC/kUmySyUWZLJKMzaKvHZEMK/img.png)
캐글에 있는 고급회귀 기법으르 사용한 집값 예측 데이터를 분석해 봤다. train 데이터 만으로 분석을 해봤다. 데이터 셋 변수 설명 # Features description SalePrice - the property's sale price in dollars. This is the target variable that you're trying to predict. MSSubClass: The building class MSZoning: The general zoning classification LotFrontage: Linear feet of street connected to property LotArea: Lot size in square feet Street: Type of road acces..
캐글에 있는 자전거 대여 수요 예측 데이터 셋을 통해서 회귀 분석 연습 단순 선형 회귀 모형, Ridge 모형, 라쏘 모형을 통해서 회귀 모형을 만들었다. 만들고 실제 데이터와 예측 모형간의 차이가 크게 나타나는 것을 발견하고 데이터를 전처리 했다. 타겟 데이터의 분포를 히스토그램으로 살펴보니 비대칭적인 분포를 가지고 있음을 확인했고 넘파이의 log1p를 이용하여 최대한 정규화 시켜봤다. 그리고 다시 모델을 학습시키고 각 변수의 회귀 계수를 확인해보니 year 변수의 계수가 가장 크게 나왔다. 자전거의 수요가 연도에 따라서 달라지는 비중이 크진 않을 것이기 때문에 잘못된 예측이라고 판단했다. 변수에 대하여 원핫 코딩을 시행하고 상위 변수 20개만 살펴보니(회귀 계수가 높은), monday-9가 가장 크게..