일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- rnn
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 최소자승법
- Pandas
- numpy
- F분포
- 히스토그램
- 밑바닥부터 시작하는 딥러닝2
- 머신러닝
- word2vec
- 텍스트 분류
- 모두의 딥러닝
- 기초통계
- student t분포
- 군집화
- 결정계수
- 자연어 처리
- 코사인 유사도
- 다층 퍼셉트론
- 은준아 화이팅
- 기술통계학
- 밑바닥부터 시작하는 딥러닝
- Django
- 오래간만에 글쓰네
- 감성분석
- 구글 BERT의 정석
- 가설검정
- 차원축소
- 회귀분석
- 파이썬 pandas
- Today
- Total
목록구글 BERT의 정석 (4)
데이터 한 그릇
두 가지 태스크 기반 BERT 모델이 사전 학습을 어떻게 진행하는지 살펴볼 것. 마스크 언어 모델링(Masked language modeling) : (MLM) 다음 문장 예측 (Next sentence prediction) : (NSP) 마지막장 바이트 쌍 인코딩 바이트 수준 바이트 쌍 인코딩 워드피스 하위 단어 토큰화 알고리즘들 알아볼 것. 이번 장에서 알아볼 것들 BERT의 기본 개념 BERT의 동작 방식 BERT의 구조 BERT 사전 학습 사전 학습 절차 하위 단어 토큰화 알고리즘 BERT 의 기본 개념 BERT는 word2vec 과 같은 다른 인기 있는 임베딩 모델이 고려하지 못한 문맥(context) 에 대해서 고려한다. 문맥 기반 임베딩 모델과 문맥 독립 임베딩 모델의 차이를 살펴보자. A ..
트랜스포머 소개 RNN과 LSTM 네트워크는 다음 단어 예측, 기계번역, 텍스트 생성에 사용된다. 그러나 RNN 기반의 모델들은 네트워크 장기 의존선 문제가 있다. 이러한 한계를 극복하고자 "Attention is all you Need" 라는 논문에서 트랜스포머 아키텍처를 제안한다. 트랜스포머 기반으로 BERT, GPT-3, T5 등과 같은 혁명적인 아키텍처가 발전하는 기반이 마련됐다. 트랜스포머는 RNN에서 사용한 순환 방식을 사용하지 않고 순수하게 어텐션만 사용한다. 트랜스포머는 셀프 어텐션이라는 특수한 형태의 어텐션을 사용한다. (순수하게 어텐션만 사용, 셀프 어텐션 기술 사용) 트랜스포머의 인코더 디코더의 작동원리는 대략적으로 이해해보자. 먼저 영어를 프랑스어로 바꾸는 작업을 하고 싶다고 하자...