'머신러닝' 카테고리의 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록머신러닝 (36)

데이터 한 그릇

텍스트 분석(3) - Bag of Words (BOW)

Bag of Words - BOW BOW 모델은 문서가 가지는 모든 단어들을 문맥과 순서를 무시하고 일괄적으로 단어에 대한 빈도 값을 부여해 피처 값을 추출하는 모델이다. 비유적으로, 양념감자를 예시로들 수 있다. 문서에 있는 모든 단어들을 추출하여 양념감자 팩에 넣고 뒤섞는 것이 이에 비유될 수 있다. Bag of Words 자체가 이런 비유에서 모델 이름이 생성됐다. 프로세스는 다음과 같다. 만일 문장 1 과 문장 2가 있다면 문장1과 문장2의 모든 단어들을 중복을 제외하고 추출한후 칼럼으로 나열한다. 그리개별문장들을 인덱스로 설정하고 각 인덱스에서 칼럼에 나열되어 있는 단어들의 횟수들을 value 값으로 측정한다. 이러한 프로세스를 가지는 BOW 는 쉽고 빠른 구축을 할 수 있다는 장점이 있다. 하..

머신러닝/텍스트 분석 2021. 9. 2. 17:28

텍스트 분석(2) - 텍스트 전처리, 정규화

클렌징(Cleansing) 토큰화(Tokenization) 필터링/스톱 워드 제거/철자 수정 Stemming Lemmatization 텍스트 분석의 큰 프로세스를 살펴보자면 문서에서 단어 기반으로 하여 피처를 뽑은 후에 피처에 벡터 값을 부여하는 작업이 필요하다. 하지만 피처에 벡터값을 부여하는 작업을 하기 전에 본 데이터에 대한 전처리 작업이 필요하다. 전처리 작업은 크게 클렌징, 토큰화, 필터링/스톱 워드 제거/ 철자 수정/Stemming/Lemmatization 등이 있다. 각각의 전처리 작업을 실습해보도록 하자. 클렌징 텍스트에서 분석에 오히려 방해가 되는 불피요한 문자 등을 제거하는 작업을 말한다. 예를 들어서 인터넷에서 크롤링한 데이터가 있다고 했을 때, html 기호 등을 사전에 삭제하는 작..

머신러닝/텍스트 분석 2021. 9. 1. 17:29

Prev 1 2 3 4 5 ··· 18 Next

목록머신러닝 (36)

데이터 한 그릇

티스토리툴바