데이터 한 그릇

자연어 처리 개요_텍스트 분류 본문

NLP/텐서플로2와 머신러닝으로 시작하는 자연어처리

자연어 처리 개요_텍스트 분류

장사이언스 2022. 1. 9. 14:25

자연어 처리 개요_텍스트 분류(Text Classification)

 

자연어 처리 기술을 통해,

특정 텍스트를 사람들이 지정한 몇 가지 범주(class) 중에 어디 속하는지 분류하는 문제.

 

이 텍스트는 어떤 범주에 들어갈까?

 

텍스트 분류 문제는 class 가 두 개인 이진 분류 문제일수도 있고 class 가 여러 개인 다중 분류 문제일수도 있다.

 


텍스트 분류의 예시

 

스팸 분류

 

이진분류 문제.

이 메일이 스팸이냐 스팸이 아니냐?

 

감정 분류

 

이 글이 긍정적인 글이냐 부정적인 글이냐?

경우에 따라는 이진 분류 문제가 아니라 다중 분류 문제일수도 있다. ''중립'' 을 추가해서.

뉴스 기사 분류

이 글이 어떤 주제에 속하는가?

(스포츠, 연예, 정치, 경제 등등)

 

그렇다면 텍스트 분류 문제는 어떻게 해결할 수 있을까!!?

 

지도 학습을 통한 텍스트 분류

 

종류

  • 나이브 베이즈 분류
  • 서포트 벡터 머신
  • 신경망
  • 선형 분류
  • 로지스틱 분류
  • 랜덤 포레스트

 

비지도 학습을 통한 텍스트 분류

  • k-평균 군집화
  • 계층적 군집화

 

이외에도 딥러닝을 활용한 텍스트 분류 작업도 진행된다.

즉, 텍스트 분류의 방식에는, 지도학습의 머신러닝, 비지도 학습의 k-평균, 계층적 군집화 그리고 딥러닝 활용이 있다.

Comments