일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 기초통계
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 결정계수
- Pandas
- 다층 퍼셉트론
- 밑바닥부터 시작하는 딥러닝2
- 가설검정
- 자연어 처리
- 차원축소
- word2vec
- 기술통계학
- 군집화
- rnn
- 구글 BERT의 정석
- 은준아 화이팅
- 밑바닥부터 시작하는 딥러닝
- 최소자승법
- 회귀분석
- 히스토그램
- 감성분석
- 오래간만에 글쓰네
- student t분포
- 머신러닝
- F분포
- 코사인 유사도
- 텍스트 분류
- numpy
- 모두의 딥러닝
- Django
- 파이썬 pandas
- Today
- Total
목록머신러닝/분류 (9)
데이터 한 그릇
정밀도 재현율 트레이드 오프 정밀도 / 재현율 트레이드 오프 (Trade-off) 업무에 따라 정밀도/재현율 중요도 다름 분류하려는 업무 특성사 정밀도 도는 재현율이 특별히 강조되어야 할 경우 분류의 결정 임계값(Threshold)을 조정해서 정밀도 도는 재현율의 수치를 높일 수 있음 그러나 정밀도와 재현율은 상호 보완적인 평가 지표이기 때문에 어느 한쪽을 강제로 높이면 다른 하나의 수치는 떨어지는데 이를 정밀도/재현율의 트레이드 오프라고 함 사이킷런에서는 분류 결정 임계값을 조절해서 정밀도와 재현율의 성능 수치를 상호 보완적으로 조정 가능 분류 결정 임계값 Positive 예측값을 결정하는 확률의 기준 임계값을 낮출수록 True 값이 많아짐 사이킷런의 분류 알고리즘에서 결정 확률을 구하는 방식 예측 데..
개요 하이퍼 파라미터 개요 LightGBM의 가장 큰 장점은 XGBoost보다 학습에 걸리는 시간이 훨씬 적다는 점이다. 또한 메모리 사용량도 상대적으로 적다. 하지만 예측 성능에는 큰 차이가 없다. LightGBM의 한 가지 단점으로는 과적합의 위험이 있을 수 있다. LightGBM은 일반 GBM 계열의 트리 분할 방법과 다르게 리프 중심 트리 분할을 택하고 있다. 본래 트리는 트리를 뻗어나갈 때 균형 트리 분할 방식을 사용한다. 최대한 균형 잡힌 트리를 지향하기 때문에 과적합을 방지할 수 있다. 하지만 반대로 균형 잡힌 트리를 만드느라 소요되는 시간이 길다는 단점이 있다. LightGBM은 균형을 잡는데 시간을 많이 소요하지 않고 최대 손실 값을 가지는 리프 노드를 지속적으로 분할하면서 트리의 깊이가..