일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 군집화
- 회귀분석
- student t분포
- 차원축소
- rnn
- 코사인 유사도
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 기술통계학
- Pandas
- 파이썬 pandas
- 밑바닥부터 시작하는 딥러닝2
- 머신러닝
- 감성분석
- 다층 퍼셉트론
- 은준아 화이팅
- 오래간만에 글쓰네
- 구글 BERT의 정석
- 가설검정
- 모두의 딥러닝
- 밑바닥부터 시작하는 딥러닝
- 텍스트 분류
- numpy
- F분포
- word2vec
- Django
- 히스토그램
- 최소자승법
- 결정계수
- 기초통계
- 자연어 처리
- Today
- Total
목록전체 글 (149)
데이터 한 그릇
어텐션의 구조 지금까지 배운 seq2seq를 한층 더 강력하게 하는 `어텐션 메커니즘` 을 알아볼 것. 먼저 seq2seq 의 문제를 살펴보고 그 후에 어텐션의 구조를 설명. seq2seq의 문제점 먼저 다시 복습할겸 Encoder의 원리로 돌아가면, Encoder 에 입력 데이터, 시퀀스 데이터를 넣어주면 LSTM 계층을 거쳐서 입력 데이터를 고정된 길이의 벡터로 만들어준다. 여기서 고정된 벡터가 효율적으로 보였지만 사실 이게 큰 문제다. 인코더에서 입력 데이터를 고정된 길이로 바꾸기 때문에 손실된 정보들이 존재한다. 즉, 문장이 아무리 길어도 고정된 길이의 벡터로 바꾸기 때문에 손실되는 정보가 발생한다. 따라서 이러한 이유로 Encoder 를 개선해애ㅑ 한다. (문제 1 : Encoder 가 입력 시..
RNN 은 그 구조도 단순하여 구현도 쉬웠지만 단점이 존재한다. 바로 성능이 좋지 않다는 점인데, 그 이유는 멀리 떨어진 장기(long term) 관계를 잘 학습할 수 없기 때문이다. 따라서 이번 장에서는 단순 RNN 성능을 보완한 LSTM 이나 GRU 계층이 쓰인다. LSTM이나 GRU 는 게이트(gate) 라는 구조가 더해진다. 이 게이트 덕분에 장기 의존 관계를 학습할 수 있다. (멀리 떨어진 단어를 잘 학습할 수 있다.) RNN 의 문제점 RNN은 장기 의존 관계를 잘 학습할 수 없는데, 그 이유는 기울기 소실 문제가 일어나거나 기울기 폭발 문제가 일어나기 때문이다. 기울기 소실 문제는 오차역전파시 기울기가 소실되는 문제를 의미하고 기울기 폭발 문제는 그 반대로 기울기가 너무 큰 숫자가 되는 것을..
보호되어 있는 글입니다.
순환 신경망(RNN) 지금까지 우리가 살펴봤던 신경망은 모두 피드포워드(feed forward) 신경망이다. 피드포워드 신경망은 값의 흐름이 단방향인 신경망을 의미한다. 하지만 피드포워드 신경망은 시계열 데이터의 성질이나 패턴에 대해서 제대로 학습할 수 없다. 따라서 그 대체로 등장한 신경망이 "순환 신경망(RNN)" 이다. 확률과 언어 모델 word2vec을 확률 관점에서 바라보다. 말뭉치 W가 있다고 가정해보자. 말뭉치 W는 [w1, w2, w3, wt-1, wt, wt+1, w....] 로 이루어져 있다고 하자. word2vec 은 타깃단어를 맥락 단어들로 추론하는 방법을 사용한다. 타깃단어를 wt 라고 정하고 맥락 단어들을 wt-1, wt+1 로 정한다. 즉, wt-1, wt+1 이 주어졌을 때,..
word2vec 개선 앞에서 만든 word2vec 같은 경우 CBOW 모델이였다. CBOW 모델은 말뭉치의 크기 커지면 계산 시간이 너무 많이 걸린다는 단점이 있다. 이번 장에서는 word2vec 의 속도 개선을 할 것. 첫 번째 개선으로는 `Embedding` 이라는 새로운 계층을 만들 것. 두 번째 개선으로는 `네거티브 샘플링`이라는 새로운 손실 함수를 도입한다. word2vec 개선(1) word2vec 이 시간이 많이 걸리는 두 가지 이유는 아래와 같다. 입력층의 원핫 표현과 가중치 행렬 W_in 의 곱 계산(4.1절에서 해결) 은닉층과 가중치 행렬 W_out 의 곱 및 Softmax 계층의 계산 **첫 번째**는 입력층 단어의 원핫 표현이다. 만일 문서의 전체 말뭉치 개수가 7개면 원핫 표현된 ..
word2vec 컴퓨터가 이해할 수 있게 단어를 표현하는 방식에 대해서 저번에 다루었다. ***시소러스 방식, 통계 기반 방식(동시발생행렬, ppmi)*** 이 이외에 다른 방식으로 `추론 기반 방식` 이 있다는 걸 언급했었는데, 이번 장에서는 추론 기반 방식 중 하나인 `word2vec` 에 대해서 살펴볼 것. 추론 기반 기법과 신경망 `분포 가설` 은 통계 기반 기법의 원리이지만 "추론 기반 기법" 에도 분포 가설은 원리로 작동한다. 통계 기반 기법의 문제점 현업에서는 데이터가 너무 크기 때문에 동시발생행렬 혹은 ppmi 를 만들 때 너무 거대한 행렬을 만들게 된다. 이를 svd한다고 한다는 게 실행하기 어렵다. 통계 기반 기법은 모든 데이터를 한꺼번에 사용한다는 점이 있는데, 미니배치 기법은 모든 ..
자연어 처리란? 한국어와 영어 등 우리가 사용하는 언어를 자연어(Natural Language) 라고 부름. 자연어 처리 : Natural Language Proccessing(NLP) 단어의 의미 문장안에 여러 단어들이 포함되어 있음. 단어는 의미의 최소 단위. (이번장) ***"컴퓨터에게 단어의 의미 이해시키기" , 다른 말로 정확히 말하면 "컴퓨터가 단어의 의미를 잘 파악하는 표현 방법"*** 구체적인 이번장과 다음장에서 알아볼 기술 (컴퓨터에게 단어의 의미를 이해시키는 방법 3가지) 시소러스를 활용한 기법(이번) 통계 기반 기법 (이번) 추론 기반 기법(word2vec) (다음) 시소러스 시소러스 방법(표현)을 이용해서 자연어 단어를 컴퓨터가 알아들을 수 있게 표현. 시소러스 유의어 사전 기본적으..
OBIM paper review pdf 보관
OBIM: A computational model to estimate brand image from online Paper Review Abstract 이 논문은 소비자 리뷰들로부터, 브랜드 이미지를 수치로 정량화 할 수 있는 모델 OBIM 을 소개하려고 함. 브랜드 이미지는 3개의 주요 brand associations 와 관련있다. "favourability", "strength", "uniqueness" 따라서, 우리는 브랜드 이미지를 알아내기 위해서 이 associations 들을 알아내야만 한다. 이 글은 NLP 기술을 이용해서 리뷰 데이터로부터 associations 들을 추출하려고 한다. 이 추출된 3개의 associations 들은 sentiment, co-word network anal..
합성곱 신경망(CNN) 기존 신경망의 계층 구조(일반적인) 5층을 세워보자. (Affine -> Relu) => (Affine -> Relu) => (Affine -> Relu) => (Affine -> Relu) => (Affine -> Softmax) ------> CNN 신경망의 계층 구조(일반적인) (Conv -> Relu -> Pooling) => (Conv -> Relu -> Pooling) => (Conv -> Relu) => (Affine -> Relu) -> (Affine-> Softma) 합성곱 계층 완전연결 계층의 문제점 (Affine 계층이 문제점) Affine 계층의 문제점은 데이터의 공간적 형상에 담긴 정보를 무시한다는 점이다. 즉, 데이터의 형상이 무시된다는 것. 예를 들어서 ..