일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 밑바닥부터 시작하는 딥러닝
- 감성분석
- F분포
- 히스토그램
- 차원축소
- 가설검정
- 자연어 처리
- 다층 퍼셉트론
- word2vec
- 텍스트 분류
- 모두의 딥러닝
- student t분포
- 기술통계학
- Pandas
- 은준아 화이팅
- 코사인 유사도
- numpy
- 파이썬 pandas
- 밑바닥부터 시작하는 딥러닝2
- 기초통계
- Django
- rnn
- 결정계수
- 머신러닝
- 군집화
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 구글 BERT의 정석
- 오래간만에 글쓰네
- 최소자승법
- 회귀분석
- Today
- Total
목록NLP (21)
데이터 한 그릇
트랜스포머 소개 RNN과 LSTM 네트워크는 다음 단어 예측, 기계번역, 텍스트 생성에 사용된다. 그러나 RNN 기반의 모델들은 네트워크 장기 의존선 문제가 있다. 이러한 한계를 극복하고자 "Attention is all you Need" 라는 논문에서 트랜스포머 아키텍처를 제안한다. 트랜스포머 기반으로 BERT, GPT-3, T5 등과 같은 혁명적인 아키텍처가 발전하는 기반이 마련됐다. 트랜스포머는 RNN에서 사용한 순환 방식을 사용하지 않고 순수하게 어텐션만 사용한다. 트랜스포머는 셀프 어텐션이라는 특수한 형태의 어텐션을 사용한다. (순수하게 어텐션만 사용, 셀프 어텐션 기술 사용) 트랜스포머의 인코더 디코더의 작동원리는 대략적으로 이해해보자. 먼저 영어를 프랑스어로 바꾸는 작업을 하고 싶다고 하자...
언어 모델을 이용해서 "문장 생성" 을 할 것 seq2seq 모델을 이해 해볼 것 언어 모델을 사용한 문장 생성 RNN을 사용한 문장 생성의 순서 앞의 LSTM 신경망을 살펴봤는데, LSTM 을 살펴보면서 LSTM 을 이용한 언어 모델에 대해서도 살펴봤다. (밑바닥 290그림) 먼저 학습된 LSTM 언어 모델이 있다고 가정해보자. 이 언어 모델은 "You say goodbye and I say hello" 라는 시퀀스 데이터를 학습했다. (먼저 학습된 모델 준비) 이 학습한 모델에 문장을 생성하기 위해서 첫 데이터로 "I" 를 입력했다고 가정해보자. I를 입력받은 모델은 Embedding 계층을 거친 입력 데이터 Xt를 LSTM 계층으로 전달하게 되고, 가중치 매개변수 Wt 와 곱해진 이후 다음 계층인 ..