Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- rnn
- 결정계수
- 히스토그램
- 은준아 화이팅
- 기초통계
- 구글 BERT의 정석
- 오래간만에 글쓰네
- 최소자승법
- 다층 퍼셉트론
- 군집화
- 가설검정
- F분포
- Pandas
- numpy
- 감성분석
- 코사인 유사도
- 밑바닥부터 시작하는 딥러닝
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- student t분포
- 머신러닝
- Django
- 밑바닥부터 시작하는 딥러닝2
- 차원축소
- 모두의 딥러닝
- 텍스트 분류
- 파이썬 pandas
- 자연어 처리
- 기술통계학
- 회귀분석
- word2vec
Archives
- Today
- Total
데이터 한 그릇
자전거 대여 수요 예측 본문
캐글에 있는 자전거 대여 수요 예측 데이터 셋을 통해서 회귀 분석 연습
단순 선형 회귀 모형, Ridge 모형, 라쏘 모형을 통해서 회귀 모형을 만들었다.
만들고 실제 데이터와 예측 모형간의 차이가 크게 나타나는 것을 발견하고 데이터를 전처리 했다.
타겟 데이터의 분포를 히스토그램으로 살펴보니 비대칭적인 분포를 가지고 있음을 확인했고
넘파이의 log1p를 이용하여 최대한 정규화 시켜봤다. 그리고 다시 모델을 학습시키고 각 변수의 회귀 계수를 확인해보니 year 변수의 계수가 가장 크게 나왔다.
자전거의 수요가 연도에 따라서 달라지는 비중이 크진 않을 것이기 때문에 잘못된 예측이라고 판단했다.
변수에 대하여 원핫 코딩을 시행하고 상위 변수 20개만 살펴보니(회귀 계수가 높은), monday-9가 가장 크게 나타났다. 어느 정도 맞다고 판단하여 분석을 끝냈다.
(RMSLE, RMSE, MAE을 이용하여 모형 판단)
'머신러닝 > 캐글 예제 연습' 카테고리의 다른 글
캐글)House prices : Advanced Regression Techniques (0) | 2021.05.05 |
---|---|
분류연습)Credit Card Fraud Data 분석 (0) | 2021.04.15 |
Comments