일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 최소자승법
- Django
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 가설검정
- word2vec
- Pandas
- 감성분석
- 자연어 처리
- 기초통계
- 모두의 딥러닝
- 히스토그램
- 결정계수
- 머신러닝
- 텍스트 분류
- 회귀분석
- numpy
- 기술통계학
- 코사인 유사도
- 다층 퍼셉트론
- 오래간만에 글쓰네
- 구글 BERT의 정석
- 차원축소
- student t분포
- 은준아 화이팅
- 밑바닥부터 시작하는 딥러닝
- 군집화
- 밑바닥부터 시작하는 딥러닝2
- F분포
- rnn
- 파이썬 pandas
- Today
- Total
목록머신러닝 (36)
데이터 한 그릇
Bag of Words - BOW BOW 모델은 문서가 가지는 모든 단어들을 문맥과 순서를 무시하고 일괄적으로 단어에 대한 빈도 값을 부여해 피처 값을 추출하는 모델이다. 비유적으로, 양념감자를 예시로들 수 있다. 문서에 있는 모든 단어들을 추출하여 양념감자 팩에 넣고 뒤섞는 것이 이에 비유될 수 있다. Bag of Words 자체가 이런 비유에서 모델 이름이 생성됐다. 프로세스는 다음과 같다. 만일 문장 1 과 문장 2가 있다면 문장1과 문장2의 모든 단어들을 중복을 제외하고 추출한후 칼럼으로 나열한다. 그리개별문장들을 인덱스로 설정하고 각 인덱스에서 칼럼에 나열되어 있는 단어들의 횟수들을 value 값으로 측정한다. 이러한 프로세스를 가지는 BOW 는 쉽고 빠른 구축을 할 수 있다는 장점이 있다. 하..
클렌징(Cleansing) 토큰화(Tokenization) 필터링/스톱 워드 제거/철자 수정 Stemming Lemmatization 텍스트 분석의 큰 프로세스를 살펴보자면 문서에서 단어 기반으로 하여 피처를 뽑은 후에 피처에 벡터 값을 부여하는 작업이 필요하다. 하지만 피처에 벡터값을 부여하는 작업을 하기 전에 본 데이터에 대한 전처리 작업이 필요하다. 전처리 작업은 크게 클렌징, 토큰화, 필터링/스톱 워드 제거/ 철자 수정/Stemming/Lemmatization 등이 있다. 각각의 전처리 작업을 실습해보도록 하자. 클렌징 텍스트에서 분석에 오히려 방해가 되는 불피요한 문자 등을 제거하는 작업을 말한다. 예를 들어서 인터넷에서 크롤링한 데이터가 있다고 했을 때, html 기호 등을 사전에 삭제하는 작..