일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 모두의 딥러닝
- rnn
- 다층 퍼셉트론
- 밑바닥부터 시작하는 딥러닝
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 최소자승법
- 파이썬 pandas
- 회귀분석
- 밑바닥부터 시작하는 딥러닝2
- Pandas
- 구글 BERT의 정석
- Django
- numpy
- 머신러닝
- student t분포
- 자연어 처리
- 가설검정
- 오래간만에 글쓰네
- 기초통계
- 은준아 화이팅
- 차원축소
- 코사인 유사도
- 결정계수
- 군집화
- 감성분석
- F분포
- word2vec
- 텍스트 분류
- 기술통계학
- 히스토그램
- Today
- Total
목록전체 글 (149)
데이터 한 그릇
시계열 데이터를 살펴보면 Trend 가 있고 Sesonality 그리고 Cycle 이 존재한다 이때 Cycle 은 알 수 없어서 잘 넣지 않는다 전통적인 통계 기법은 AR, MA, ARIMA 등등의 방식들이 있다 이때 머신러닝 관점에서 AR 모델을 생각해보면 딥러닝과 매핑이 됨을 인지할 수 있다 딥러닝의 입력층 각 노드는 각 시점값이라고 할 수 있다(x_t-1 ... x_t-k) CNN과 RNN 을 통한 시계열 예측을 시도해볼 예정 인공신경망 시계열 예측 # -*- coding: utf-8 -*- """ Air pollution PRES prediction by MLP @author: kjw """ import pandas as pd import numpy as np from matplotlib impo..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/Rr6TM/btrOvcrM2e6/MQByaH9OQK9WMg71bmDPF0/img.png)
1. 유용한 시각화 시계열의 완벽한 탐색적 분석의 핵심을 그래프다 시간축에 대한 그래프를 반드시 시각화 해야만 한다 이 책의 저자는 복잡도에 따라서 다양한 시각화 기법을 살펴본다 1.1 1차원 시각화 require(timevis) donations
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/UIPUN/btrOtFUMyJl/J4UkFzUIPCvbKLPpR7mDIk/img.png)
1. 자체상관의 파악과 이해 시계열의 자체상관의 개념은 특정 시점의 값이 다른 시점의 값과 상관관계가 있다는 것 ("자체상관"은 공식적인 언어 X) 아주 raw 하게 예시를 들어보면, 일일 온도를 측정한 데이터를 가정했을 때, 5월 15일의 온도가 높아질 때 8월 15일의 온도도 높아짐을 발견하여 두 날짜간의 상관관계가 존재함을 밝혀낼 수 있다(반대도 가능) 반면에 상관관계가 0에 가깝다는 사실을 알게 된다. 즉, 5월 15일의 온도 정보만으로는 8월 15일의 온도 범위의 어떤 정보도 알 수 없다 (여기까지가 자체상관을 raw 하게 간략하게 설명한 것) 위의 자체상관 개념을 자기상관(autocorrelation)으로 확장할 수 있다. 특정 시점에 고정되지 않는 자기상관은 자체상관을 일반화한 것, 특히 고..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/FFRKT/btrOoA0dXdl/B5mOBA4pawkCuA17ka6GsK/img.png)
이번 장에서는 시계열을 위한 탐색적 자료 분석 논의를 두 부분으로 나누어 설명한다 시계열에 사용되는 데이터 응용 기법 (히스토그램, 도표 그리기, 그룹화 연산) 시계열 분석의 근본적인 시간 기법 강조 (이 기법은 시계열 데이터를 위해 특별히 개발되었으며, 데이터가 서로 시간 관계가 있는 상황에서만 의미가 있음) 1. 친숙한 방법 비시계열 데이터에 적용하는 방법과 동일한 탐색적 자료 분석 방법 쓸 수 있는 열, 각 열이 가지는 값의 범위, 가장 알맞은 측정 단위와 같은 것을 알고 싶을 것 또한 다음 아래와 같은 질문에 대한 답을 얻고 싶을 것 긴밀한 상관관계를 가지는 열이 있는가? 관심 대상 변수의 전체 평균과 분산은 무엇인가? 분석값의 범위는 무엇인가? 다른 논리적 단위나 기간에 따라 값이 달라지는가? ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/vrTcV/btrOnr27IAx/t61Jea7KXAQYA291Dcg9v1/img.png)
계절성 데이터 데이터의 계정성은 특정 행동의 빈도가 안정적으로 반복해서 나타나는 것을 의미한다 동시에 여러 빈도가 다르게 발생하는 것도 가능하다. 가령 인간의 행동은 일일(매일 같은 시간에 먹는 점심), 주간(이번 주와 다음 주 월요일의 유사성), 연간(새해의 낮은 교통량)의 계절적인 변화를 갖는 경향이 있다 물리적인 시스템도 계절성을 가지며, 태양 주위를 지구가 공전하는데 걸리는 기간과 같은 것 계절성의 식별 및 처리는 모델링 과정의 한 부분, 반면에 이는 경제적으로 중요한 미국의 직업 보고서처럼 데이터 정리의 한 형태가 되기도 한다 실제로 정부가 제공하는 여러가지 통계, 특히 경제부문의 통계가 공개용 양식으로 옮겨질 때는 계절성을 제가하는 비계절화(deseasonalized) 가 수행된다 분석하려고 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/8SVl2/btrOnMFR2vy/ktIqK9jY7wIkIKQxKjkepk/img.png)
날씨가 급 추워져 감기 걸린 이슈로 이번 글이 오래 걸림 데이터 평활 시계열 데이터의 경우 무작위적인 변화량이 존재하는데. 평활(smoothing)은 무작위적인 변화를 줄이는 방법들 중 하나이다 주어진 시계열 자료에 평균을 취하는 것은 가장 단순한 평활법이지만, 모든 과거 관측값을 동일한 가중치로 다루기 때문에 추세가 존재하는 경우 좋은 지표가 될 수 없다 https://min23th.tistory.com/20 지수평활 평활할 때, 모든 시점의 데이터를 똑같이 취급하지 않고 최근 데이터일수록 더 유익한 것으로 다루고 싶을 수 있다. 이럴 때 사용되는 게 지수평활이다 누락된 데이터를 그 주변값의 평균값으로 대치하는 이동평균과는 대조적으로 지수평활은 좀 더 최근 데이터일수록 더 많은 가중치를 줘서 시간의 특..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dcl4TK/btrN5wQyRBs/26o55LHckeldtv90lcAcL1/img.png)
누락된 데이터(결측 데이터) 시계열의 빈도 변경(업샘플링, 다운샘플링) 데이터 평활 데이터의 계절적 변동 문제 해결 의도치 않은 사전관찰의 방지 누락된 데이터 다루기 시계열 데이터의 경우 비시계열 데이터보다 더 많은 결측값이 발생한다 따라서 시계열의 누락된 데이터를 다루기위한 다양한 방법이 제시됐다 대치법: 데이터셋 전체의 관측에 기반하여 누락된 데이터를 채워 넣는 방법 보간법: 대치법의 한 형태로 인접한 데이터를 사용하여 누락된 데이터를 추정하는 방법 영향받은 기간 삭제: 누락된 데이터의 기간을 완전히 사용하지 않는 방법 누락된 데이터에 대치법을 시험하기 위한 데이터셋 준비 대치법 사용법을 알아보기 위함임 미국 정부가 발표한 월간 실업 자료(https://data.bls.gov/timeseries/LN..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dCNgQ1/btrNXtVb7WY/S3nrQEeiJU49Yet7lwgqik/img.png)
온라인 레포에서 시계열 데이터를 찾는 방법 시계열을 고려하지 않고 수집된 데이터에서 시계열 데이터를 발견하고 준비하는 방법 시계열 데이터를 다룰 때 나타나는 일반적인 난제, 특히 타임스팸프가 초래하는 어려움을 다루는 방법 시계열 데이터는 어디서 찾는가? 미리 준비된 데이터 셋 발견된 시계열 미리 준비된 데이터 셋 UCI 머신러닝 저장소 UEA 및 UCR 시계열 분류 저장소 정부 시계열 데이터셋 CompEngine R 패키지: Mcomp 와 M4comp2018 발견된 시계열 타임스탬프가 어디에나 존재할 수 있다는 관점에서 보면, 시계열이라고 명시되지 않은 구조화된 데이터에서 시계열 데이터를 찾는 것은 쉬운 일 ex) 회사의 하루 총 거래량, 여성 고객의 주당 지출 총액, 다변량 시계열 데이터도 생성도 가능..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/SJc6P/btrNXYTSOJX/trvgx12LB9zQQTzfdySqyk/img.jpg)
1. Time Series 분석 공부 이유 지금까지 주로 NLP 를 이용한 데이터 마이닝 기법을 많이 공부했는데, 다른 유형의 데이터 분석과 결합하면 더 좋은 시너지를 낼 것으로 판단 위 이유의 연장선, 주가 예측에 관심이 가게 됐는데 주가 데이터와 뉴스 데이터를 결합하여 주가를 예측하는 작업에 관심이 가게 됐음 대부분의 기업은 시계열 데이터를 다루는 부서가 많음 즉, NLP 를 세컨드 기술, 주 기술이 시계열 데이터 분석인 경우가 많음, 경쟁력을 가지기 위해 시계열 데이터 공부 쓸 수 있는 논문 주제의 다양성을 위해 2. 책 선정 이유 경제학과 학부생들이 많이 보는 계량경제학 책을 사서 보려고 했으나 많은 시간이 들것을 우려, 효율적이게 실무를 할 수 있을 정도의 이론과 실습을 정리해놓은 책을 찾다가 ..
BERT 를 영어가 아닌 다른 언어에 적용할 수 있을까? M-BERT(multilingual - BERT) 는 영어 이외의 다른 언어에서도 표현을 계산한다. multilingual - BERT 이해하기 multilingual - BERT 의 다국어 특징 XLM XLM - R 이해하기 언어별 BERT M-BERT 이해하기 BERT는 본래 영어 텍스트만 사용 가능하다. 프랑스어나 스페인어는 어떻게 해야할까? M-BERT 사용한다. M-BERT 로 영어를 포함한 다른 언어들의 표현을 얻을 수 있다. 본래의 BERT 는 영어 위키피디아와 토론토 책 말뭉치를 가지고 MSM, NSP 로 학습되었다. M-BERT 는 영어 위키피디아뿐 아니라 104개 언어의 위키피디아 텍스트로 학습되었다. 어떤 언어는 특정 언어보다 ..