다변량분석 : 2020/09/07 - [머신러닝 with R/데이터마이닝 with R] - 삼성전자 중회귀분석 with R - 심화편
요인분석 : 2020/09/09 - [머신러닝 with R/데이터마이닝 with R] - 요인분석(Factor Analysis) with R
주성분분석 : 2020/09/09 - [머신러닝 with R/데이터마이닝 with R] - 주성분분석(PCA) with R
구조화방정식 : 2020/09/14 - [머신러닝 with R/데이터마이닝 with R] - 구조방정식(SEM : Structural Equation Model) 모형 with R - 실전편
위와 같이 지금까지 우리가 분석해왔던 방법들은 어떤 시점의 데이터들의 집합 즉 횡단면 자료를 이용해서 분석을 해왔다. 즉 인과관계를 토대로 수리적 분석모형에 따라 수행하는 것이지만 연관되는 모든 것을 고려할 수 없다는 한계가 분명히 있고 이에 따른 예측의 결과도 100% 신뢰할 수 없다. 왜 그럴까? 그렇다. 시간에 종속적인 분석법은 상태가 전이되는 과정을 고려하기 때문에 인과성은 부족하더라도 예측의 결과는 더 신뢰할 수 있는 경우가 많다.
그러나 이런 시계열 모형이라고 해서 완벽하지는 않다. 단기적인 예측에서는 꽤나 유용할 지 모르지만 장기적인 예측에 있어서는 그 효용성이 현저히 떨어지는게 사실이다. 사실 우리가 사는 복잡한 현대 세상은 한치 앞도 모르는 세상이다. 그런 현실에 있어서 반 발짝 앞서서 예측치를 알 수 있다면 그것 또한 상당히 유리한 고지에 있을 수 있다고 생각한다.
자 그럼 시계열 분석을 수행하기 전에 중요한 전제조건을 짚고 넘어가보자.
첫 째, 시계열분석을 수행하기에 앞서 자료에 driving force(추세)가 없는 독립적인 것으로 가정한다. 만약 일정한 추세가 있다고 한다면 이를 제거하고 분석을 수행하여야 한다. 통상 주가의 경우 로그차분을 이용하면 이러한 추세는 거의 제거된다고 볼 수 있다.
둘 째, 인접한 자료들 사이에 상관성이 없는 것으로 가정하고 만약 존재한다면 촐레스키 디콤포지션 등을 이용해서 이를 제거한 뒤 분석한다.
셋 째, 정상성의 조건으로 시계열 자료들 중의 임의로 샘플링 한다고 하더라도 평균과 분산이 일정해야 한다.
이러한 조건들을 만족하면(안되면 전처리작업을 거친 뒤) 본격적으로 시계열 분석을 수행하게 되는데 대부분의 시계열 분석법은 시계열 자료들 사이의 자기상관을 토대로 한 확률모형으로 분석한다. 직전 값이 바로 다음 값에 영향을 미치는 것은 1차 자기상관, 일정한 time_lag : N 기간 후에 영향을 미치는 것을 N차 자기상관이라고 한다.
이러한 속성에 따라 ARIMA(1,1), ARIMA(2,2)...ARIMA(N,N) 이렇게 구분하기도 하는데 대부분의 금융시계열 모형에서는 time_lag가 2차를 잘 넘기지 않는다. 이런 속성을 잘 반영한 인공 신경망으로는 LSTM(Long Short Term Memory)이 있다. 통상 RNN은 직전 신경망에서 처리한 값 + 새로운 인풋값을 적절한 비율로 조합하여 새로운 신경망에 입력하는데 이 단위가 너무 길어지면 오히려 과최적화를 유발할 수 있으므로 적절히 잘라주는 역할이 필요하다. 그러한 역할을 수행하도록 새롭게 연구된 모형이 LSTM, GRU 등이 있는데 이 모형에 대해서는 머신러닝 with Python 에서 상세히 알아보도록 하고 이번 포스트에서는 그냥 이 정도만 짚고 넘어가자.
다음 포스트부터는 R에서 제공하는 time seriers 함수를 이용해서 실전분석에 들어가 볼건데 각 함수의 인자들이 의미하는 바가 뭔지 그리고 분석을 통해 나오는 결과를 어떻게 해석하는지 알아보기로 하자.
> ts
function (data = NA, start = 1, end = numeric(), frequency = 1,
deltat = 1, ts.eps = getOption("ts.eps"), class = if (nseries >
1) c("mts", "ts", "matrix") else "ts", names = if (!is.null(dimnames(data))) colnames(data) else paste("Series",
seq(nseries)))
'시계열모델링' 카테고리의 다른 글
시계열 자료의 평활법 - 회귀평활 part 1 (0) | 2020.10.15 |
---|---|
시계열자료의 평활법 - 지수 평활법 (0) | 2020.10.15 |
시계열 자료의 평활법 - 이동평균 평활법 (0) | 2020.10.15 |
시계열 자료의 상관분석과 검정 (0) | 2020.10.12 |
시계열 자료의 허구적 인과관계 (0) | 2020.10.12 |
댓글