일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 오래간만에 글쓰네
- 텍스트 분류
- 밑바닥부터 시작하는 딥러닝
- 기술통계학
- Pandas
- student t분포
- 감성분석
- 히스토그램
- rnn
- Django
- 밑바닥부터 시작하는 딥러닝2
- word2vec
- 최소자승법
- 모두의 딥러닝
- 은준아 화이팅
- 다층 퍼셉트론
- 군집화
- 회귀분석
- 코사인 유사도
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- F분포
- 자연어 처리
- 파이썬 pandas
- 결정계수
- 차원축소
- numpy
- 머신러닝
- 기초통계
- 가설검정
- 구글 BERT의 정석
- Today
- Total
목록NLP/구글 BERT의 정석 (7)
데이터 한 그릇
저번 장에서 사전 학습된 BERT 모델을 사용하는 방법을 살펴봤다. 다운 스트림 태스크에서 사전 학습된 BERT를 파인 튜닝할 수 있었다. Issue: 다만, 사전 학습된 BERT 는 계산 비용이 많이 들고, **매개변수가 많고** 추론에 시간이 오래 걸린다. solution : 사전 학습된 대형 BERT (large BERT) 를 소형 BERT(small BERT) 로 지식을 이전하는 **지식 증류**를 사용할 수 있다. (대형 BERT => 소형 BERT) 지식 증류 소개 DistilBERT : BERT의 증류 버전 TinyBERT 소개 BERT 에서 신경망으로 지식 전달 지식 증류 소개 지식 증류(Knowledge distillation) 대형 모델의 동작을 재현하기 위해서 소형 모델을 학습시키는 ..
BERT의 파생 모델 I: ALBERT, RoBERTa, ELECTRA, SpanBERT ALBERT : BERT 의 라이트 버전 (BERT 아키텍처의 변화가 거의 없는 편) RoBERT : BERT 파생 버전 중에 가장 많이 쓰이는 방법 중 하나. 사전 학습 단계에서 몇 가지 차이가 존재. ELECTRA : 다른 파생 모델들과 달리 생성기(generator) 와 판별기(discriminator) 를 사용한다. 또한 사전 학습 과정에 교체된 토큰 판별 태스크(replaced token detection task) 라는 태스크를 사용한다. SpanBERT : SpanBERT는 질문-응답, 관계 추출 등과 같은 태스크에 널리 사용되고 있다. ALBERT RoBERT ELECTRA SpanBERT ALBERT..