일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 감성분석
- 자연어 처리
- 회귀분석
- Pandas
- 오래간만에 글쓰네
- 기술통계학
- 구글 BERT의 정석
- 최소자승법
- rnn
- 가설검정
- 다층 퍼셉트론
- 차원축소
- 기초통계
- F분포
- 밑바닥부터 시작하는 딥러닝
- word2vec
- 코사인 유사도
- 파이썬 pandas
- 텍스트 분류
- 결정계수
- Django
- 히스토그램
- 은준아 화이팅
- numpy
- 군집화
- 머신러닝
- student t분포
- 모두의 딥러닝
- 밑바닥부터 시작하는 딥러닝2
- Today
- Total
데이터 한 그릇
3)계절성 데이터, 시간대, 사전관찰의 방지 본문
계절성 데이터
데이터의 계정성은 특정 행동의 빈도가 안정적으로 반복해서 나타나는 것을 의미한다
동시에 여러 빈도가 다르게 발생하는 것도 가능하다. 가령 인간의 행동은 일일(매일 같은 시간에 먹는 점심), 주간(이번 주와 다음 주 월요일의 유사성), 연간(새해의 낮은 교통량)의 계절적인 변화를 갖는 경향이 있다
물리적인 시스템도 계절성을 가지며, 태양 주위를 지구가 공전하는데 걸리는 기간과 같은 것
계절성의 식별 및 처리는 모델링 과정의 한 부분, 반면에 이는 경제적으로 중요한 미국의 직업 보고서처럼 데이터 정리의 한 형태가 되기도 한다
실제로 정부가 제공하는 여러가지 통계, 특히 경제부문의 통계가 공개용 양식으로 옮겨질 때는 계절성을 제가하는 비계절화(deseasonalized) 가 수행된다
분석하려고 하는 데이터가 계절성을 가지고 있는지 아닌지 확인할 때 시각화를 사용하면 유용하다
단, 산점도를 이용하여 그래프를 그리게 되면 데이터의 평균과 분산을 확인할 수 있다는 점에서 유용하지만 계절성을 확인하는건 어려울 수 있다 (분산이 증가함을 확인하여 추세를 확인할 순 있다)
따라서 선 그래프를 이용해서 데이터에 대해 시각화하고 확인해야 데이터의 계절성을 체크할 수 있다.
선그래프를 이용하여 계절성을 확인하는 것과 동시에 계절성의 종류에 대한 정보를 얻을 수 있다 (계절성을 띈다는 사실 외에도 배수적인 계절성의 변동 크기도 알 수 있다)
전체 값이 커지면 커질수록 계절성의 변동도 커진다 (고점과 저점 사이의 크기로 생각해볼 수 있다)
##R
plot(stl(AirPassengers, "periodic"))
위의 R코드로 데이터를 계쩔성(seasonal), 추세(trend), 나머지(remainder) 요소로 쉽게 분해할 수 있다
reaminder 요소로 알 수 있는 잔차는 시계열의 시작과 끝에서 가장 크다. 따라서 해당 시계열이 가산적보다는 배수적인 계절성을 보인다는 사실을 이 특정 분해가 고려하지 않았다는 것을 알 수 있다(R) 평균적인 계절변동(seasonal variance)을 계절성 요소에 대한 변동으로 정한 것으로 보인다
계절성 데이터와 순환성 데이터
계절성 시계열은 일련의 동작이 정해진 기간 동안 반복되는 시계열, 24시간과 12개월의 시즌과 같이 서로 다른 속도의 계절성을 반영하는 여러 개의 주기성이 있을 수 있다
순환성 시계열 또한 반복적인 동작을 보이긴 하지만, 기간이 가변적이라는 점이 다르다
예로, 주식시장의 호황과 불황의 주기처럼 불확실한 기간이 있는 비즈니스 주기가 있다
또한 화산은 순환적인 행보를 보이지만 계절적인 행동을 보이지 않는다
시간대
시간대를 이해하기란 굉장히 힘들다
그 이유는 아래와 같다
- 시간대는 정치적 사회적 결정에 의해 형성
- 언어 간 또는 HTTP 프로토콜을 통해 표준 시간대 정보를 전송하는 표준 방법이 없음
- 시간대에 이름을 짓거나 일광 절약(daylight saving)의 시작과 종료일을 결정하기 위한 단일화된 프로토콜이 없음)
- 일광 절약으로 한 해에 몇 시간씩 시간의 중복이 밠갱
파이썬을 활용하여 시간대에 관한 작업 진행 (생략)
사전관찰의 방지
안타깝지만 사전관찰을 확정 진단하는 통계 방법은 존재하지 않는다
사전관찰 특징을 이용할지 말지 결정하기란 굉장히 힘들며 모델을 돌려봐야 이 여부를 판단할 수 있다
(생략)
'시계열 분석 > Practical TIme Series Analysis' 카테고리의 다른 글
4)시계열의 탐색적 자료 분석2 (0) | 2022.10.13 |
---|---|
4)시계열의 탐색적 자료 분석 (0) | 2022.10.12 |
2)데이터 정리2 (0) | 2022.10.12 |
2) 데이터 정리 (1) | 2022.10.08 |
1) 시계열 데이터의 발견 및 다루기 (1) | 2022.10.06 |