일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 회귀분석
- 차원축소
- 구글 BERT의 정석
- word2vec
- 다층 퍼셉트론
- 감성분석
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- numpy
- 밑바닥부터 시작하는 딥러닝2
- 군집화
- 텍스트 분류
- 모두의 딥러닝
- 자연어 처리
- 파이썬 pandas
- rnn
- 히스토그램
- 오래간만에 글쓰네
- 코사인 유사도
- 최소자승법
- 머신러닝
- student t분포
- 가설검정
- 은준아 화이팅
- Pandas
- F분포
- Django
- 기술통계학
- 밑바닥부터 시작하는 딥러닝
- 결정계수
- 기초통계
- Today
- Total
목록군집화 (4)
데이터 한 그릇
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/sxu7z/btq5of7wISt/5pCagliCnYBg5G2zQt1QOK/img.png)
GMM(Gaussian Mixture Model) 소개 GMM과 K-평균 비교 GMM 소개 GMM은 분석 대상의 데이터 셋이 여러 개의 가우시안 분포를 가지고 있는 데이터들의 결합으로 생성됐다는 가정하에서 군집화를 수행하는 방식을 말한다. 만일 분석 데이터 셋이 세 개의 가우시안 분포가 합쳐져 있다고 가정해보자. GMM분석은 먼저 전체의 데이터 셋에서 개별 가우시안 분포를 추출한다. 만일 정규분포 여러개가 합쳐진 데이터 셋이라면 전체 데이터 셋의 분포모양을 통해서 그러한 사실을 쉽게 파악 가능하다.(분포의 모양 때문에) 만일 각각의 분포를 추출해서 분석을 하게 되면, 각각의 군집을 따로 분석한 것과 같다. 결국 GMM군집화 방식은 LABEL들이 추출된 각각의 분포 중에 어디에 속하는지 결정하는 방식이다...
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/WujKZ/btq5pES7LiN/A1aBi7feYYAnfhohxJJk1K/img.png)
k-평균 알고리즘 이해 군집화 알고리즘 테스트 해보기 군집평가 k-평균 알고리즘 이해 k-평균 알고리즘은 군집화 데이터 분석을 할 때 가장 많이 사용되는 알고리즘 중 하나이다. 특정 지점을 임의로 선택하고 그 지점에 가까운 데이터들을 선택하는 군집화 기법이다. 처음에 임의로 지정되었던 군집 중심점은 첫 선택된 데이터들의 평균 중심지점을 계산하고 그곳으로 이동한다. 계속 이러한 과정을 반복하면서 더이상 군집 중심점의 이동이 없다면 데이터 학습을 마치게 된다. k-평균은 알고리즘이 단순하고 간결하다는 장점을 가지고 있다. 반면에 군집화의 정확도가 떨어지고 반복을 수행하는 횟수가 많을수록 처리속도가 느리다는 단점도 존재한다. from sklearn.preprocessing import scale from sk..