데이터 한 그릇

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (149)

데이터 한 그릇

텍스트 요약을 위한 BERTSUM 탐색

텍스트 요약 태스크를 수행하기 위해서 사전 학습된 BERT 모델을 활용해 파인 튜닝을 진행하는 법을 알아본다. 텍스트 요약에 맞춰 파인 튜닝된 BERT 모델을 BERTSUM 모델이라고 한다. (텍스트 요약에 맞춘 파인 튜닝 BERT 모델 : BERTSUM) 먼저 다양한 텍스트 요약 방식을 이해 (추출 요약, 생성 요약) 그리고 밑의 세 가지 추출 요약 수행 법을 배운다. 분류기가 있는 BERTSUM 트랜스포머를 활용한 BERTSUM LSTM을 활용한 BERTSUM 그 다음으로는 추출 요약을 수행하기 위해 BERTSUM을 어떻게 활용하는지 알아본다. 그 다음으로 ROUGE 메트릭 : 텍스트 요약 평가 지표를 알아본다. (ROUGE - N, ROUGE - L) 그 다음으로 BERTSUM 모델의 성능을 확인한..

NLP/구글 BERT의 정석 2022. 2. 17. 10:44

BERT 파생 모델 2 : 지식 증류 기반

저번 장에서 사전 학습된 BERT 모델을 사용하는 방법을 살펴봤다. 다운 스트림 태스크에서 사전 학습된 BERT를 파인 튜닝할 수 있었다. Issue: 다만, 사전 학습된 BERT 는 계산 비용이 많이 들고, **매개변수가 많고** 추론에 시간이 오래 걸린다. solution : 사전 학습된 대형 BERT (large BERT) 를 소형 BERT(small BERT) 로 지식을 이전하는 **지식 증류**를 사용할 수 있다. (대형 BERT => 소형 BERT) 지식 증류 소개 DistilBERT : BERT의 증류 버전 TinyBERT 소개 BERT 에서 신경망으로 지식 전달 지식 증류 소개 지식 증류(Knowledge distillation) 대형 모델의 동작을 재현하기 위해서 소형 모델을 학습시키는 ..

NLP/구글 BERT의 정석 2022. 2. 16. 15:04

BERT 파생 모델

BERT의 파생 모델 I: ALBERT, RoBERTa, ELECTRA, SpanBERT ALBERT : BERT 의 라이트 버전 (BERT 아키텍처의 변화가 거의 없는 편) RoBERT : BERT 파생 버전 중에 가장 많이 쓰이는 방법 중 하나. 사전 학습 단계에서 몇 가지 차이가 존재. ELECTRA : 다른 파생 모델들과 달리 생성기(generator) 와 판별기(discriminator) 를 사용한다. 또한 사전 학습 과정에 교체된 토큰 판별 태스크(replaced token detection task) 라는 태스크를 사용한다. SpanBERT : SpanBERT는 질문-응답, 관계 추출 등과 같은 태스크에 널리 사용되고 있다. ALBERT RoBERT ELECTRA SpanBERT ALBERT..

NLP/구글 BERT의 정석 2022. 2. 15. 14:56

BERT 활용하기

이 장에서는 사전 학습된 BERT 를 사용하는 방법을 알아볼 것. 구글에서 오픈 소스로 제공한 사전 학습된 BERT 모델의 다양한 구성을 살펴본다. (구성) 사전 학습된 BERT 모델을 특징 추출기로 사용하는 방법 확인. 허깅페이스의 트랜스포머 라이브러리, 이를 활용해 사전 학습된 BERT에서 임베딩 추출 방법 BERT의 모든 인코더 레이어에서 임베딩을 추출하는 방법 다운스트림 태스크를 위한 BERT 파인 튜닝 방법 "텍스트 분류 작업"을 위해 사전 학습된 BERT를 **파인튜닝**하는 방법 "감정 분석 작업''을 위해 BERT를 **파인튜닝**하는 방법 *파인튜닝 : 사전 학습된 가중치 값을 원하는 태스크에 적용하고, 가중치를 그 태스크에 맞게 조정하는 작업 사전 학습된 BERT 모델 탐색 우리는 앞선..

NLP/구글 BERT의 정석 2022. 2. 10. 14:04

BERT 이해하기

두 가지 태스크 기반 BERT 모델이 사전 학습을 어떻게 진행하는지 살펴볼 것. 마스크 언어 모델링(Masked language modeling) : (MLM) 다음 문장 예측 (Next sentence prediction) : (NSP) 마지막장 바이트 쌍 인코딩 바이트 수준 바이트 쌍 인코딩 워드피스 하위 단어 토큰화 알고리즘들 알아볼 것. 이번 장에서 알아볼 것들 BERT의 기본 개념 BERT의 동작 방식 BERT의 구조 BERT 사전 학습 사전 학습 절차 하위 단어 토큰화 알고리즘 BERT 의 기본 개념 BERT는 word2vec 과 같은 다른 인기 있는 임베딩 모델이 고려하지 못한 문맥(context) 에 대해서 고려한다. 문맥 기반 임베딩 모델과 문맥 독립 임베딩 모델의 차이를 살펴보자. A ..

NLP/구글 BERT의 정석 2022. 2. 9. 12:44

BERT시작하기 - 트랜스포머 입문

트랜스포머 소개 RNN과 LSTM 네트워크는 다음 단어 예측, 기계번역, 텍스트 생성에 사용된다. 그러나 RNN 기반의 모델들은 네트워크 장기 의존선 문제가 있다. 이러한 한계를 극복하고자 "Attention is all you Need" 라는 논문에서 트랜스포머 아키텍처를 제안한다. 트랜스포머 기반으로 BERT, GPT-3, T5 등과 같은 혁명적인 아키텍처가 발전하는 기반이 마련됐다. 트랜스포머는 RNN에서 사용한 순환 방식을 사용하지 않고 순수하게 어텐션만 사용한다. 트랜스포머는 셀프 어텐션이라는 특수한 형태의 어텐션을 사용한다. (순수하게 어텐션만 사용, 셀프 어텐션 기술 사용) 트랜스포머의 인코더 디코더의 작동원리는 대략적으로 이해해보자. 먼저 영어를 프랑스어로 바꾸는 작업을 하고 싶다고 하자...

NLP/구글 BERT의 정석 2022. 2. 3. 16:57

RNN을 사용한 문장 생성(seq2seq모델)

언어 모델을 이용해서 "문장 생성" 을 할 것 seq2seq 모델을 이해 해볼 것 언어 모델을 사용한 문장 생성 RNN을 사용한 문장 생성의 순서 앞의 LSTM 신경망을 살펴봤는데, LSTM 을 살펴보면서 LSTM 을 이용한 언어 모델에 대해서도 살펴봤다. (밑바닥 290그림) 먼저 학습된 LSTM 언어 모델이 있다고 가정해보자. 이 언어 모델은 "You say goodbye and I say hello" 라는 시퀀스 데이터를 학습했다. (먼저 학습된 모델 준비) 이 학습한 모델에 문장을 생성하기 위해서 첫 데이터로 "I" 를 입력했다고 가정해보자. I를 입력받은 모델은 Embedding 계층을 거친 입력 데이터 Xt를 LSTM 계층으로 전달하게 되고, 가중치 매개변수 Wt 와 곱해진 이후 다음 계층인 ..

NLP/밑바닥부터 시작하는 딥러닝 2022. 1. 28. 15:32

텍스트 유사도

텍스트 유사도 쿼라 데이터 사용(질의 응답 데이터) 비슷한 질문끼리 분류할 수 있다면, 미리 잘 작성된 답변을 중복 사용할 수 있게 된다. 질문들이 서로 유사한지 유사하지 않은지 유사도를 판별해야 한다. 데이터 EDA 데이터 불러오기 !kaggle competitions download -c quora-question-pairs import numpy as np import pandas as pd import os import matplotlib.pyplot as plt import seaborn as sns from pathlib import Path %matplotlib inline DATA_IN_PATH = './data_in/' train_data = pd.read_csv(DATA_IN_PATH ..

NLP/텐서플로2와 머신러닝으로 시작하는 자연어처리 2022. 1. 28. 15:20

텍스트 분류(2) - 다양한 모델링 기법

모델링 1. 머신러닝 모델 : 선형 회귀 모델, 랜덤 포레스트 모델 등등 2. 딥러닝 모델 : 합성곱 신경망(CNN), 순환 신경망(RNN) 등등 TF-IDF 를 활용한 모델 구현 TF-IDF 단어 임베딩 이후, Logistic Regression 모델을 활용한 감성 분류 모델을 만들 것.(머신러닝 감성 분석) DATA_IN_PATH = './data_in/' TRAIN_CLEAN_DATA = 'train_clean.csv' train_data = pd.read_csv(DATA_IN_PATH + TRAIN_CLEAN_DATA) reviews = list(train_data['review']) sentiments = list(train_data['sentiment']) 전처리된 데이터를 불러오고 revie..

NLP/텐서플로2와 머신러닝으로 시작하는 자연어처리 2022. 1. 27. 17:02

텍스트 분류(1) - 텍스트 데이터 EDA 및 전처리

텍스트 데이터에서 다양한 방법으로 텍스트 분류 모델을 만들기 전에, EDA 작업과 전처리 작업을 진행할 예정. 데이터는 kaggle 에 있는 wrod2vec -nlp-tutorial 데이터를 사용할 것. 이때 캐글의 데이터는 직접 홈페이지 다운 방식이 아니라 api 를 사용. 데이터 EDA import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns !kaggle competitions download -c word2vec-nlp-tutorial 캐글 api 이용해서 wrod2vec -nlp-tutorial 데이터 다운. DATA_IN_PATH = './data_in/' TRAIN_INPUT_DATA..

NLP/텐서플로2와 머신러닝으로 시작하는 자연어처리 2022. 1. 27. 15:57

Prev 1 2 3 4 5 6 ··· 15 Next

목록전체 글 (149)

데이터 한 그릇

티스토리툴바