일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 모두의 딥러닝
- 다층 퍼셉트론
- 구글 BERT의 정석
- 텍스트 분류
- 최소자승법
- Pandas
- 결정계수
- 오래간만에 글쓰네
- 히스토그램
- 코사인 유사도
- 밑바닥부터 시작하는 딥러닝
- 감성분석
- 은준아 화이팅
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 머신러닝
- 가설검정
- 차원축소
- F분포
- rnn
- 밑바닥부터 시작하는 딥러닝2
- Django
- word2vec
- 자연어 처리
- 군집화
- 기술통계학
- 파이썬 pandas
- 회귀분석
- numpy
- student t분포
- 기초통계
- Today
- Total
목록전체 글 (149)
데이터 한 그릇
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/HxD2n/btq1XUd3Imi/CHM0DW2C9Uhar1HtkGR8jK/img.png)
GBM의 개요 및 실습 앙상블 기법에는 크게 보팅, 배깅, 부스팅이 있음을 살펴봤다. 앞서 보팅 기법과 배깅의 대표적 기법인 랜덤 포레스트를 살펴봤다. 따라서 이번에는 부스팅 기법을 살펴보려고 한다. 부스팅 알고리즘은 여러 개의 약한 학습기를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선해 나가면서 학습하는 방식이다. 부스팅의 대표적인 구현은 크게 AdaBoost(Adaptive boosting) 와 그래디언트 부스트가 있다. 먼저 AdaBoost의 알고리즘 원리를 살펴보도록 하자. 첫 번째 step1을 살펴보면 첫 번째 약한 학습기가 분류 기준 1로 +와 -의 분류를 예측한 것을 볼 수 있다. 하지만 동그라미 쳐져 있는 +들을 살펴보면 정확하게 분류가 이루어지지 않았다는..
랜덤 포레스트의 개요 및 실습 랜덤 포레스트는 배깅(bagging) 방식의 대표적인 방법이라고 할 수 있겠다. 배깅은 보팅과 다르게 단일한 알고리즘의 결합으로 이루어져 있으며 일반적으로 결정 트리가 기본적인 알고리즘이라고 할 수 있다. 랜덤포레스트는 전체 데이터에서 각각의 분류기를 위하여 데이터를 샘플링하고 각각의 분류기는 샘플링된 데이터를 학습하여 결과값을 내어놓으며 그 결과값을 소프트 보팅을 통해서 최종 결과값을 내어놓게 된다. 이때 개별 분류기가 학습하는 샘플링된 데이터는 전체 데이터에서 일부가 중첩되게 샘플링된 데이터 세트이다. 이렇게 여러 개의 데이터 세트를 중첩되게 분리하는 것을 부트스트래핑(bootstrapping) 이라고 부른다. uci human activity recognition 데이..
앙상블 학습 개요 보팅 유형 위스콘신 유방암 데이터를 통한 앙상블 기법 유형 중 보팅 기법 살펴보기 앙상블 학습 개요 앙상블 학습(Ensemble Learning) 을 통한 분류는 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법을 말한다. 앙상블 알고리즘의 대표는 크게 랜덤 포레스트와 그래디언트 부스팅이라고 할 수 있다. 하지만 요즘 부스팅 기법이 많이 애용이 되면서 XGboost와 LightGBM 기법이 발명이 되었다. 앙상블 학습의 유형은 전통적으로 크게 보팅(Voting), 배깅(Bagging), 부스팅(Boosting)의 세 가지로 나눌 수 있다. 먼저 보팅은 서로 다른 알고리즘을 결합한 앙상블 유형이라고 할 수 있으며 배깅은 서로 ..
분류(Classification)의 개요 결정 트리 분류의 개요 분류 머신러닝은 지도학습 유형 중 하나라고 할 수 있다. 분류는 다양한 머신러닝 알고리즘으로 구현할 수 있는데, 이 책을 통해서 집중적으로 살펴볼 알고리즘은 앙상블 방법(Ensemble Method) 이다. 앙상블은 서로 다른(또는 같은) 머신러닝 알고리즘을 결합한 형태이다. 앙상블은 서로 다른/또는 다른 알고리즘을 결합한 형태도 존재하지만 일반적으로는 배깅(Bagging)과 부스팅(Boosting) 방식으로 나뉜다. 배깅 방식의 대표는 랜덤 포레스트(Random Forest) 라고 할 수 있다. 랜덤포레스트는 뛰어난 예측 성능과 상대적으로 빠른 수행시간 그리고 유연성 등을 가지고 있다. 하지만 근래에는 앙상블의 다른 유형인 부스팅 방식이 ..
다중회귀모형과 필요조건 회귀계수의 추정과 다중회귀모형의 평가 회귀모형의 진단 2 https://kurt7191.tistory.com/27 기초통계 17 : 단순선형회귀분석과 상관관계분석 모형 회귀계수의 추정 오차변수의 필요조건 선형회귀모형의 평가 회귀분석(regression analysis)은 다른 변수에 기초하여 한 변수의 값을 예측하기 위해 사용한다. 이 통계기법은 종속변수(dependent var kurt7191.tistory.com 앞선 장에서는 1개의 독립변수가 종속변수에 영향을 끼치는 회귀모형을 만들었다. 이번 장에서는 여러 개의 독립변수가 종속변수에 영향을 끼치는 모형에 대해서 살펴볼 예정이다. 다수의 독립변수가 한 개의 종속변수에 영향을 끼치는 것이 일반적이며 독립변수의 개수를 제한하는 것..
피마 인디언 당뇨병 예측¶ Column information¶1)Pregnancies (임신횟수) =>Number of times pregnant 2)Glucose (포도당) =>Plasma glucose concentration a 2 hours in an oral glucose tolerance test 3)BloodPressure (혈압) =>Diastolic blood pressure (mm Hg) 4)SkinThickness (삼두근 피부 두께) =>Triceps skin fold thickness (mm) 5)Insulin (2시간 혈청 인슐린) =>2-Hour serum insulin (mu U/ml) 6)BMI (체질량지수) =>Body mass index (weight in kg/(hei..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/R5duM/btq1owLB2fN/bv9euqDCytwNLnIfBzOTG1/img.png)
모형 회귀계수의 추정 오차변수의 필요조건 선형회귀모형의 평가 회귀분석(regression analysis)은 다른 변수에 기초하여 한 변수의 값을 예측하기 위해 사용한다. 이 통계기법은 종속변수(dependent variable) 라고 불리는 변수와 종속변수와 관련되어 있다고 여겨지는 독립변수(independent variable) 간의 관계를 나타내는 수학적 모형이라고 할 수 있다. 만일 종속변수와의 상관분석만을 목적으로 한다면 앞서 기술통계학에서 배웠듯이 그래프(산포도)와 통계수치들(공분산, 상관계수, 결정계수) 을 통해서도 가능하다. 회귀분석을 하는 또 하나의 다른 이유는 예측하는 것에 있다. 모형 모형의 종류는 크게 확정적 모형(deterministic model)과 확률적 모형(probabili..
카이제곱 적합도 검정 분할표 카이제곱검정 kurt7191.tistory.com/23?category=1000998 기초통계 15 : 분산분석(3) 일원분산분석 다중비교검정 이인자분산분석 https://kurt7191.tistory.com/20?category=1000998 기초통계 14 : 분산분석(2) 일원분산분석 다중비교검정 분산분석 실험계획법 랜덤화블럭(이원) 분산분석 이인자 kurt7191.tistory.com 카이제곱 적합도 검정 앞선 통계적 추론들 같은 경우에는 모든 변수들이 구간데이터일 때 사용하는 통계적 추론 기법들이다. 이번에는 모든 데이터들이 범주데이터일 경우 사용하는 통계적 추론 기법이라고 할 수 있다. 카이제곱검정은(Chi-Squared Tests)은 우리가 가지고 있는 변수들이 모..
정확도(Accuracy) 오차행렬(Confusion Matrix) 정밀도(Precision) 재현율(Recall) F1 스코어 ROC AUC 먼저 머신러닝이 진행되는 프로세스에 대해서 살펴보도록 하자. 머신러닝 프로세스는 거칠게 3가지로 나뉠 수 있다. 데이터 가공/변환 모델 학습/예측 평가(Evaluation) 앞서 타이타닉 생존자 예측 모델의 경우에도, 로지스틱 회귀 분석과 의사결정나무를 통해 만든 모델을 "정확도"를 통해서 평가하였다. 이처럼 모델은 어떤 척도를 가지고 평가를 받게 되는데, 평가의 척도(성능평가지표)는 머신러닝 모델이 회귀모형인지 분류모형인지에 따라 나뉜다. 회귀모델의 경우 대부분이 실제값과 예상값의 오차의 평균을 지표로 삼아 평가한다. 실제값과 예상값의 오차에 제곱을 하고 루트를 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/Ye9E1/btq01qkuna7/yBZKQ9PiAVA1OFRI1x0uJk/img.jpg)
파이썬 머신러닝 공부를 위해서 위키북스의 "파이썬 머신러닝 완벽가이드" 를 선택했다. 이 책의 장점은 머신러닝 이론을 충실히 다룬점도 있지만, 캐글을 이용하여 해당 관련 주제를 실습 할 수 있게끔 예제를 준다는 것이다. 이 책을 통해서 배우려고 하는 것은 아래와 같다. 파이썬 머신러닝 모델 평가 방법 파이썬 머신러닝 모델 원리 파이썬 머신러닝 모델 구축 방법 파이썬 머신러닝 텍스트 분석 파이썬 머신러닝 데이터 분석 실습 앞으로 블로그에 게시한 데이터분석/이론 파트는 이 책을 기반으로 서술하려고 한다. 다음 글로는 파이썬 머신러닝 모델 평가에 대해서 살펴보려고 한다. kurt7191.tistory.com/25?category=1011825 머신러닝 평가 : 분류모형 평가 정확도(Accuracy) 오차행렬(..