일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 밑바닥부터 시작하는 딥러닝
- numpy
- 히스토그램
- 다층 퍼셉트론
- 코사인 유사도
- 군집화
- 텍스트 분류
- 최소자승법
- 머신러닝
- 구글 BERT의 정석
- 기초통계
- 모두의 딥러닝
- 회귀분석
- 밑바닥부터 시작하는 딥러닝2
- word2vec
- 차원축소
- 결정계수
- 자연어 처리
- Django
- 은준아 화이팅
- 오래간만에 글쓰네
- 파이썬 pandas
- 가설검정
- 감성분석
- F분포
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 기술통계학
- rnn
- student t분포
- Pandas
- Today
- Total
목록머신러닝/군집화 (5)
데이터 한 그릇
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/byFj6S/btq5LW5AiNF/MUJU4lkAYhvmDzwbwEPFZK/img.png)
DBSCAN 개요 DBSCAN 적용하기 DBSCAN 개요 만일 데이터 셋이 복잡한 기하학적 분포를 가지고 있다면 앞서 살펴봤던 K-MEAN, GMM으로는 효과적인 군집화를 하기 어렵다. DBSCAN 같은 경우에는 복잡한 기하학적 분포를 가지고 있는 데이터를 군집화할 때 효과적으로 군집화를 수행할 수 있다. DBSCAN을 구성하는 가장 중요한 두 가지 파라미터는 입실론(epsilon)으로 표기하는 주변 영역과 이 입실론 주변 영역에 포함되는 최소 데이터 개수이다. (입실론 영역, 영역 내 최소 데이터 개수) 데이터 세트 내의 데이터 포인트에 대해서 입실론 내 최소 데이터의 개수에 따라 다르게 정의내린다. 핵심 포인트(core point) : 입신론 주변 영역 내에 최소 데이터 개수 이상의 데이터를 가지고 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/sxu7z/btq5of7wISt/5pCagliCnYBg5G2zQt1QOK/img.png)
GMM(Gaussian Mixture Model) 소개 GMM과 K-평균 비교 GMM 소개 GMM은 분석 대상의 데이터 셋이 여러 개의 가우시안 분포를 가지고 있는 데이터들의 결합으로 생성됐다는 가정하에서 군집화를 수행하는 방식을 말한다. 만일 분석 데이터 셋이 세 개의 가우시안 분포가 합쳐져 있다고 가정해보자. GMM분석은 먼저 전체의 데이터 셋에서 개별 가우시안 분포를 추출한다. 만일 정규분포 여러개가 합쳐진 데이터 셋이라면 전체 데이터 셋의 분포모양을 통해서 그러한 사실을 쉽게 파악 가능하다.(분포의 모양 때문에) 만일 각각의 분포를 추출해서 분석을 하게 되면, 각각의 군집을 따로 분석한 것과 같다. 결국 GMM군집화 방식은 LABEL들이 추출된 각각의 분포 중에 어디에 속하는지 결정하는 방식이다...