Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- rnn
- 자연어 처리
- F분포
- 은준아 화이팅
- 최소자승법
- 군집화
- 텍스트 분류
- 구글 BERT의 정석
- 밑바닥부터 시작하는 딥러닝
- 모두의 딥러닝
- 파이썬 pandas
- 회귀분석
- 밑바닥부터 시작하는 딥러닝2
- 히스토그램
- 감성분석
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 결정계수
- 기초통계
- word2vec
- 오래간만에 글쓰네
- 머신러닝
- 가설검정
- numpy
- Pandas
- 차원축소
- student t분포
- Django
- 기술통계학
- 다층 퍼셉트론
- 코사인 유사도
Archives
- Today
- Total
데이터 한 그릇
자전거 대여 수요 예측 본문
캐글에 있는 자전거 대여 수요 예측 데이터 셋을 통해서 회귀 분석 연습
단순 선형 회귀 모형, Ridge 모형, 라쏘 모형을 통해서 회귀 모형을 만들었다.
만들고 실제 데이터와 예측 모형간의 차이가 크게 나타나는 것을 발견하고 데이터를 전처리 했다.
타겟 데이터의 분포를 히스토그램으로 살펴보니 비대칭적인 분포를 가지고 있음을 확인했고
넘파이의 log1p를 이용하여 최대한 정규화 시켜봤다. 그리고 다시 모델을 학습시키고 각 변수의 회귀 계수를 확인해보니 year 변수의 계수가 가장 크게 나왔다.
자전거의 수요가 연도에 따라서 달라지는 비중이 크진 않을 것이기 때문에 잘못된 예측이라고 판단했다.
변수에 대하여 원핫 코딩을 시행하고 상위 변수 20개만 살펴보니(회귀 계수가 높은), monday-9가 가장 크게 나타났다. 어느 정도 맞다고 판단하여 분석을 끝냈다.
(RMSLE, RMSE, MAE을 이용하여 모형 판단)
'머신러닝 > 캐글 예제 연습' 카테고리의 다른 글
캐글)House prices : Advanced Regression Techniques (0) | 2021.05.05 |
---|---|
분류연습)Credit Card Fraud Data 분석 (0) | 2021.04.15 |
Comments