데이터 한 그릇

자전거 대여 수요 예측 본문

머신러닝/캐글 예제 연습

자전거 대여 수요 예측

장사이언스 2021. 5. 3. 20:51

 

 

캐글에 있는 자전거 대여 수요 예측 데이터 셋을 통해서 회귀 분석 연습

 

단순 선형 회귀 모형, Ridge 모형, 라쏘 모형을 통해서 회귀 모형을 만들었다. 

 

만들고 실제 데이터와 예측 모형간의 차이가 크게 나타나는 것을 발견하고 데이터를 전처리 했다.

 

타겟 데이터의 분포를 히스토그램으로 살펴보니 비대칭적인 분포를 가지고 있음을 확인했고 

 

넘파이의 log1p를 이용하여 최대한 정규화 시켜봤다. 그리고 다시 모델을 학습시키고 각 변수의 회귀 계수를 확인해보니 year 변수의 계수가 가장 크게 나왔다.

 

자전거의 수요가 연도에 따라서 달라지는 비중이 크진 않을 것이기 때문에 잘못된 예측이라고 판단했다.

 

변수에 대하여 원핫 코딩을 시행하고 상위 변수 20개만 살펴보니(회귀 계수가 높은), monday-9가 가장 크게 나타났다. 어느 정도 맞다고 판단하여 분석을 끝냈다.

 

(RMSLE, RMSE, MAE을 이용하여 모형 판단)

 

자전거 대여 수요 예측.ipynb
0.09MB

Comments