일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- word2vec
- 자연어 처리
- 군집화
- 텍스트 분류
- 밑바닥부터 시작하는 딥러닝
- 차원축소
- 다층 퍼셉트론
- 파이썬 pandas
- 기초통계
- 모두의 딥러닝
- rnn
- 히스토그램
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 밑바닥부터 시작하는 딥러닝2
- student t분포
- 최소자승법
- 감성분석
- 머신러닝
- 코사인 유사도
- numpy
- 오래간만에 글쓰네
- 회귀분석
- 구글 BERT의 정석
- 가설검정
- 기술통계학
- Pandas
- Django
- 결정계수
- 은준아 화이팅
- F분포
- Today
- Total
목록머신러닝/텍스트 분석 (4)
데이터 한 그릇
클렌징(Cleansing) 토큰화(Tokenization) 필터링/스톱 워드 제거/철자 수정 Stemming Lemmatization 텍스트 분석의 큰 프로세스를 살펴보자면 문서에서 단어 기반으로 하여 피처를 뽑은 후에 피처에 벡터 값을 부여하는 작업이 필요하다. 하지만 피처에 벡터값을 부여하는 작업을 하기 전에 본 데이터에 대한 전처리 작업이 필요하다. 전처리 작업은 크게 클렌징, 토큰화, 필터링/스톱 워드 제거/ 철자 수정/Stemming/Lemmatization 등이 있다. 각각의 전처리 작업을 실습해보도록 하자. 클렌징 텍스트에서 분석에 오히려 방해가 되는 불피요한 문자 등을 제거하는 작업을 말한다. 예를 들어서 인터넷에서 크롤링한 데이터가 있다고 했을 때, html 기호 등을 사전에 삭제하는 작..
텍스트 분석 텍스트 분석 이해 텍스트 분석 NLP 와 텍스트 분석은 머신러닝이 발전한 이후에 분리해서 구분하는게 큰 의미가 없다. 하지만 굳이 구분을 하자면 다음과 같다. NLP 는 기계가 인간의 언어를 이해하고 해석하는데 중점을 두고 기술이 발전해왔다. 텍스트 분석은 비정형 데이터에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전해왔다. NLP 는 텍스트 분석 기술 진보의 동력이라고 할 수 있으며, 따라서 NLP 가 발전함에 따라 텍스트 분석 기술도 발전해왔다. 또한 머신러닝은 NLP 와 텍스트 분석 기술 발전의 동력이라고 할 수 있으며, 따라서 머신러닝이 발달함에 따라 NLP 기술과 텍스트 분석 기술이 발전해왔다. 우리가 다뤄볼 주제는 텍스트 분석이며 텍스트 분석의 영역은 크게 다음과..