'머신러닝/텍스트 분석' 카테고리의 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록머신러닝/텍스트 분석 (4)

데이터 한 그릇

텍스트 분석(2) - 텍스트 전처리, 정규화

클렌징(Cleansing) 토큰화(Tokenization) 필터링/스톱 워드 제거/철자 수정 Stemming Lemmatization 텍스트 분석의 큰 프로세스를 살펴보자면 문서에서 단어 기반으로 하여 피처를 뽑은 후에 피처에 벡터 값을 부여하는 작업이 필요하다. 하지만 피처에 벡터값을 부여하는 작업을 하기 전에 본 데이터에 대한 전처리 작업이 필요하다. 전처리 작업은 크게 클렌징, 토큰화, 필터링/스톱 워드 제거/ 철자 수정/Stemming/Lemmatization 등이 있다. 각각의 전처리 작업을 실습해보도록 하자. 클렌징 텍스트에서 분석에 오히려 방해가 되는 불피요한 문자 등을 제거하는 작업을 말한다. 예를 들어서 인터넷에서 크롤링한 데이터가 있다고 했을 때, html 기호 등을 사전에 삭제하는 작..

머신러닝/텍스트 분석 2021. 9. 1. 17:29

텍스트 분석(1)

텍스트 분석 텍스트 분석 이해 텍스트 분석 NLP 와 텍스트 분석은 머신러닝이 발전한 이후에 분리해서 구분하는게 큰 의미가 없다. 하지만 굳이 구분을 하자면 다음과 같다. NLP 는 기계가 인간의 언어를 이해하고 해석하는데 중점을 두고 기술이 발전해왔다. 텍스트 분석은 비정형 데이터에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전해왔다. NLP 는 텍스트 분석 기술 진보의 동력이라고 할 수 있으며, 따라서 NLP 가 발전함에 따라 텍스트 분석 기술도 발전해왔다. 또한 머신러닝은 NLP 와 텍스트 분석 기술 발전의 동력이라고 할 수 있으며, 따라서 머신러닝이 발달함에 따라 NLP 기술과 텍스트 분석 기술이 발전해왔다. 우리가 다뤄볼 주제는 텍스트 분석이며 텍스트 분석의 영역은 크게 다음과..

머신러닝/텍스트 분석 2021. 9. 1. 15:30

Prev 1 2 Next

목록머신러닝/텍스트 분석 (4)

데이터 한 그릇

티스토리툴바