일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Pandas
- 모두의 딥러닝
- Django
- 히스토그램
- 밑바닥부터 시작하는 딥러닝2
- 차원축소
- 텍스트 분류
- 기초통계
- 회귀분석
- 자연어 처리
- 밑바닥부터 시작하는 딥러닝
- word2vec
- 은준아 화이팅
- rnn
- 오래간만에 글쓰네
- 결정계수
- 코사인 유사도
- 다층 퍼셉트론
- 감성분석
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 머신러닝
- numpy
- 구글 BERT의 정석
- F분포
- 군집화
- 최소자승법
- 파이썬 pandas
- 기술통계학
- student t분포
- 가설검정
- Today
- Total
목록전체 글 (149)
데이터 한 그릇
그리디 현재 상황에서 지금 당장 좋은 것만 고르는 방법 최소한의 아이디어를 떠올릴 수 있는 능력 요구 정당성 분석이 중요 일반적인 상황에서는 최적의 해를 보장할 수 없을 때가 많지만 코딩 테스트의 경우 대부분 그리디 문제로 얻은 해가 최적의 해가 됨 이를 추론할 수 있는 능력을 길러야함 구현:시뮬레이션, 완전 탐색 위주 구현: 머릿속에 있는 알고리즘을 소스코드로 바꾸는 과정 코딩 테스트에서 구현 유형 문제 풀이를 떠올리는 것은 쉬움, 그러나 소스 코드로 옮기기 어려움 예시 알고리즘은 간단하지만 코드가 지나칠만큼 길어지는 유형 실수 연산을 다루고, 특정 소수점 자리까지 출력해야 하는 문제 문자열을 특정한 기준에 따라서 끊어 처리해야 하는 문제 적절한 라이브러리를 찾아서 사용해야하는 문제 파이썬의 경우에는 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/v8fms/btrQl5J7b1Q/4Q59NAXwgdGUJ5cGx4kg30/img.png)
지금까지 기본 ANN 과 CNN 을 활용한 시계열 예측을 시도해봤다 다음으로는 RNN 을 활용하여 시계열을 예측해보려고 한다 df = pd.read_csv('PRSA_data_2010.1.1-2014.12.31.csv') print('Shape of the dataframe:', df.shape) df.head() 마찬가지로 datetime 칼럼을 생성해야만한다 df['datetime'] = df[['year', 'month', 'day', 'hour']].\ apply(lambda row: datetime.datetime(year=row['year'], \ month=row['month'], day=row['day'],hour=row['hour']), axis=1) df.sort_values('date..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/yTP8r/btrQkGdrBat/gwZXR9km8lQome09lyCI40/img.png)
가전제품의 전기 사용량을 CNN을 활용하여 예측해볼 예정이다 df=pd.read_csv('energydata_complete.csv') df.head() Appliances 칼럼을 활용하여 시계열 예측 작업을 수행할 예정 from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler(feature_range=(0, 1)) df['scaled_App'] = scaler.fit_transform(np.array(df['Appliances']).reshape(-1, 1)) df.head() 0과 1사이로 Appliances 를 스케일링한다 from datetime import datetime split_date = datetime(year=2016,..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/yUZdc/btrQljovZd1/zEGjbkLQZrQKyhy5mz5PD0/img.png)
(한양대학교 BI수업 참조) 날씨 관련 데이터를 활용하여 간단한 전처리부터, ANN모델까지 돌려볼 예정이다. task 는 날씨 관련 특징을 예측하는 작업을 수행한다 #Read the dataset into a pandas.DataFrame df = pd.read_csv('PRSA_data_2010.1.1-2014.12.31.csv') print('Shape of the dataframe:', df.shape) 데이터를 읽은 결과 따로 datetime type 의 칼럼이 존재하는 게 아니라, year, month, day 칼럼으로 날짜 feature 가 나뉘어져 있음을 알 수 있다 시계열적인 분석을 하기 위해서는 datetime 이 필요하기 때문에 year, month, day feature를 활용하여 d..
DTW 의 규칙은 다음과 같다 - 한 시계열의 모든 시간은 최소한 다른 시계열의 한 시간에 대응해야 한다 - 각 시계열의 처음과 끝은 서로 처음과 끝에 대응해야 한다 - 시간 간의 매핑은 과거가 아니라 미래로 이동하는 관계만 표현해야 한다, 한 시계열의 시간축상에서 이미 지난 시간을 다른 시계열의 시간에 대응할 수는 없다. 잠깐... 이 책을 계속 봐본 결과 시계열을 위한 머신러닝은 개쓰레기 장인거 같다, 번역 문제인지 원본 문제인지 모르겠는데 공부하는 시간이 아깝다, 딥러닝 장은 다를 수 있으니 거기까지 봐보고 거기도 쓰레기면 그냥 구글링해서 시계열 구현해야겠다
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/p9F7Y/btrPXtsyJEq/fKpqpoRPC3TI7dkrlo660K/img.png)
시계열 분석에서의 머신러닝 기법은 비교적 새로운 분야이지만, 가능성을 보여준 분야다 우리가 지금까지 다뤘던 (AR, MA, ARMA, ARIMA) 에서 다뤘던 통계 모델과는 다르다 하지만 머신러닝이 다른 분야에서 유용했던것처럼 시계열에서도 유용함을 입증했다 시계열을 위한 머신러닝은 클러스터링과 트리 기반 방법론으로 예측과 분류 문제를 다룬다 시계열의 특징 생성은 트리 기반 방법론에서 반드시 필요한 과정이다 ARIMA 모델과는 달리 '시간을 인식' 하는 방법론이 아니기 때문이다 클러스터링 및 거리 기반의 분류는 입력(input) 으로 원본 시계열이나 특징을 사용할 수 있다 시계열 자체를 입력으로 사용하려면, 동적시간워핑(DTW) 라는 거리 평가 지표를 알아야 한다 시계열에 직접적으로 적용되는 동적시간워핑은..
이번 장은 시계열 분석을 머신러닝에 적용하는 다음 장의 내용에 대한 대비로 볼 수 있다 시계열을 위한 feature 생성 및 선택에 대해 다룬다 특징 생성이란 시계열 데이터의 가장 중요한 특성을 정량화하여 수치 및 범주형 레이블로 압축하는 방법을 찾는 과정이다 시계열을 묘사할 수 있는 특징들의 집합을 짧게 표현하여 원시 시계열로 압축하곤 한다 특징 생성의 목적은 전체 시계열에 대해 가능한 한 많은 정보를 적은 수의 지표로 압축하는 것 또한 압축된 지표로 시계열의 가장 중요한 정보를 식별하고 그 외의 나머지는 제거할 수도 있다 이 기법은 비시계열을 위해서 개발됏지만 시계열에서도 좋은 결과를 낼 수 있는 머신러닝 기법에 중요하다 만일 특징을 생성했다면 그 특징이 정말로 유용한지 명확히 판단해야 한다 전통적인..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/J0UbI/btrPAIXHe6g/9YEDLnTyyML41i83m3FJbk/img.png)
벡터자기회귀 실세계에서는 서로 관련성이 있는 여러 시계열이 병렬로 존재할 수 있다 여러 변수에 대한 AR(p) 모델을 생성해볼 수 있다, 이러한 모델은 변수들에게 서로 영향을 주고받는 상황을 제공한다는 장점을 가진다 대신 적합은 모든 변수에 대해 균등하게 이루어진다 한편 계열이 정상이 아닌 경우 전에 살펴본 모델처럼 차분이 적용될 수 있다 외생변수와 내생변수 변수가 서로 영향을 주는 모델을 사용할 때 통계에서는 이 변수들을 내생변수(endogenous) 라고 한다 모델 내에서 보이는 현상을 통해 이 변수들의 값이 설명될 수 있다는 의미이다 외생변수(exogenous) 는 이와는 대조적인 개념으로 모델 내에서는 변수들의 설명이 어렵다는 뜻을 가진다 즉 가정을 통한 설명이 불가능하다는 의미다 따라서 이러한 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/4GFYc/btrPuHpSlPd/wjpfbXE9dyd0rwhvttBvE0/img.png)
이동평균 모델(MA) MA 모형은 과거의 예측 오차를 활용하여 미래를 예측하는데 활용 이동평균 모델은 각 시점의 데이터가 최근의 과거 값에 대한 "오차" 항으로 구성된 함수로 표현된 가정에 의존한다 이때 각 오차항은 서로 독립적이다 AR, MA 동등성 여러 상황에서 MA 과저은 무한 차수의 AR 과정으로 표현될 수 있다 마찬가지로 무한 차수의 MA 과정으로 AR 과정을 표현할 수 있는 상황도 많다 자세한 내용은 MA 과정의 가역성, 월드표현정리, MA/AR 고정의 이중성을 살펴보면 된다 이동평균 모델은 자기회귀 모델과 유사하게 표현될 수 있다 단 선형 방정식을 구성하는 항들이 과정 자체에 대한 현재와 과거 값이 아니라, 현재와 과거의 오차항을 가리킨다는 점이 다르다 따라서 차수 q에 대한 MA 모델을 다..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/c5B2du/btrPbCXIZ84/701hDZ6GH9sIsRYscpSSV0/img.png)
이 장에서는 시계열에 대한 몇 가지 선형적인 통계 모델을 살펴볼 것 이 모델들은 선형 회귀와 관련이 있지만, 각 데이터를 서로 독립적으로 가정하는 비시계열 데이터에 적용되는 표준 방법과는 다른 관점으로 같은 시계열 내 데이터 간 발생하는 상관관계를 알 수 있게 해준다 이번 장에서 다루는 모델은 아래와 같다 자귀회귀(Autoregressive,AR) 이동평균(Moving average, MA) 자기회귀누적이동평균(Autoregressive integrated moving average, ARIMA) 벡터자기회귀(Vector autoregression, VAR) 계층형(hierarchical) 위 모델들은 전통적으로 시계열 예측의 핵심 요소 1. 선형회귀를 사용하지 않는 이유 선형회귀 분석은 독립항등분포(I..