일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 밑바닥부터 시작하는 딥러닝2
- 텍스트 분류
- 밑바닥부터 시작하는 딥러닝
- 결정계수
- Django
- 군집화
- 은준아 화이팅
- 기초통계
- 회귀분석
- 히스토그램
- rnn
- 코사인 유사도
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 오래간만에 글쓰네
- Pandas
- 다층 퍼셉트론
- 머신러닝
- 가설검정
- 파이썬 pandas
- student t분포
- 기술통계학
- 구글 BERT의 정석
- 차원축소
- word2vec
- 감성분석
- 모두의 딥러닝
- numpy
- F분포
- 최소자승법
- 자연어 처리
- Today
- Total
목록머신러닝 (36)
데이터 한 그릇
캐글에 있는 자전거 대여 수요 예측 데이터 셋을 통해서 회귀 분석 연습 단순 선형 회귀 모형, Ridge 모형, 라쏘 모형을 통해서 회귀 모형을 만들었다. 만들고 실제 데이터와 예측 모형간의 차이가 크게 나타나는 것을 발견하고 데이터를 전처리 했다. 타겟 데이터의 분포를 히스토그램으로 살펴보니 비대칭적인 분포를 가지고 있음을 확인했고 넘파이의 log1p를 이용하여 최대한 정규화 시켜봤다. 그리고 다시 모델을 학습시키고 각 변수의 회귀 계수를 확인해보니 year 변수의 계수가 가장 크게 나왔다. 자전거의 수요가 연도에 따라서 달라지는 비중이 크진 않을 것이기 때문에 잘못된 예측이라고 판단했다. 변수에 대하여 원핫 코딩을 시행하고 상위 변수 20개만 살펴보니(회귀 계수가 높은), monday-9가 가장 크게..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/VeHxW/btq3PBDCYV0/TqXlvpomJfXu5hmr2O23s1/img.png)
로지스틱 회귀 로지스틱 회귀 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘이다. 로지스틱 회귀 역시 선형 회귀 방법이다. 선형 회귀인지 아닌지는 변수의 degree에 따르는 것이 아니라 변수의 계수에 따라 나뉜다. 로지스틱 회귀의 가장 큰 특징은 학습을 통해서 최적의 선형 회귀선을 찾는 것이 아니라 시그모이드(Sigmoid) 함수 최적선을 찾는 것이다. 많은 자연 현상에서 특정 변수의 확률 값은 선형이 아니라 시그모이드 함수와 같은 S자 커브 형태를 가진다. S자 커브 형태의 시그모이드 함수의 가장 큰 특징은 X가 아무리 +,- 쪽으로 나아가도 0이나 1에 수렴한다는 것이다. import pandas as pd from sklearn.datasets import load_breast_cance..