일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 은준아 화이팅
- 오래간만에 글쓰네
- 머신러닝
- 기술통계학
- rnn
- 밑바닥부터 시작하는 딥러닝2
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- word2vec
- F분포
- 자연어 처리
- 모두의 딥러닝
- 감성분석
- 기초통계
- Pandas
- 다층 퍼셉트론
- 코사인 유사도
- 군집화
- 히스토그램
- 가설검정
- numpy
- 밑바닥부터 시작하는 딥러닝
- 파이썬 pandas
- 텍스트 분류
- 회귀분석
- Django
- student t분포
- 차원축소
- 결정계수
- 구글 BERT의 정석
- 최소자승법
- Today
- Total
목록머신러닝 (36)
데이터 한 그릇
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bboWSE/btq2ynm7334/SAlipn0OgW2rA7sTKDyKxk/img.png)
랜덤 포레스트의 개요 랜덤 포레스트 하이퍼 파라미터 및 튜닝 랜덤 포레스트의 개요 배깅은 앞서 말한 보팅과는 다르게 서로 다른 알고리즘을 합친 것이 아니라 서로 같은 알고리즘으로 여러 개의 분류기를 만들어서 보팅으로 최종 결정하는 알고리즘이다. 배깅의 대표적인 알고리즘은 랜덤 포레스트(Random Forest) 이다. 랜덤 포레스트는 직관적이며, 다양한 영역에서 높은 예측 성능을 보이고 있다. 먼저 원본 데이터에서 서브 데이터로 분류기의 개수에 맞게 샘플링한다. 그 이후 각각의 샘플링된 데이터에서 각각의 분류기들이 예측을 하게 된다. 예측을 통해서 target 변수의 각각의 레이블에 대한 확률값을 도출하게 된다. 이때 모든 분류기들의 각각의 레이블에 대한 확률값들을 소프팅 보팅하여 최종적인 결과값을 반환..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/HxD2n/btq1XUd3Imi/CHM0DW2C9Uhar1HtkGR8jK/img.png)
GBM의 개요 및 실습 앙상블 기법에는 크게 보팅, 배깅, 부스팅이 있음을 살펴봤다. 앞서 보팅 기법과 배깅의 대표적 기법인 랜덤 포레스트를 살펴봤다. 따라서 이번에는 부스팅 기법을 살펴보려고 한다. 부스팅 알고리즘은 여러 개의 약한 학습기를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선해 나가면서 학습하는 방식이다. 부스팅의 대표적인 구현은 크게 AdaBoost(Adaptive boosting) 와 그래디언트 부스트가 있다. 먼저 AdaBoost의 알고리즘 원리를 살펴보도록 하자. 첫 번째 step1을 살펴보면 첫 번째 약한 학습기가 분류 기준 1로 +와 -의 분류를 예측한 것을 볼 수 있다. 하지만 동그라미 쳐져 있는 +들을 살펴보면 정확하게 분류가 이루어지지 않았다는..