시계열 분석
시계열 데이터의 이해
시간 의존성 (Temporal Dependence 또는 Autocorrelation): 시계열 데이터의 가장 중요한 특징은 인접한 관측값들이 서로 영향을 미치는 경향이 있다는 것입니다. 과거의 값이 현재 값에 영향을 미치거나, 현재의 값이 미래 값에 영향을 줄 수 있습니다. 이러한 자기상관성은 시계열 분석의 핵심적인 고려 사항입니다.
추세 (Trend): 장기적으로 데이터가 증가하거나 감소하는 지속적인 움직임을 나타냅니다. 경제 성장, 기술 발전, 인구 변화 등이 추세를 유발하는 요인이 될 수 있습니다.
계절성 (Seasonality): 일정한 기간(주, 월, 분기, 연 등)을 주기로 반복되는 패턴을 나타냅니다. 날씨 변화, 명절, 휴가 등이 계절성의 원인이 될 수 있습니다.
순환 변동 (Cyclical Variation): 장기적인 추세에서 벗어나 불규칙하게 나타나는 상승과 하락의 움직임입니다. 경기 변동 등이 순환 변동의 대표적인 예시이며, 계절성보다 주기가 길고 예측하기 어렵습니다.
불규칙 변동 (Irregular Variation 또는 Random Noise): 추세, 계절성, 순환 변동으로 설명할 수 없는 예측 불가능한 변동입니다. 갑작스러운 사건, 자연재해, 정책 변화 등이 불규칙 변동의 원인이 될 수 있습니다.
시계열 분해
이동 평균법 (Moving Average): 특정 기간 동안의 평균값을 계산하여 추세 성분을 추정하는 방법입니다. 계절성이나 불규칙 변동을 평활화하는 효과가 있습니다.
필터링 (Filtering): 특정 주파수 성분을 강조하거나 제거하는 필터를 적용하여 시계열을 분해하는 방법입니다 (예: Hodrick-Prescott 필터).
통계적 모델 기반 분해: ARIMA 모델과 같은 통계적 모델을 이용하여 추세 및 계절성 성분을 추정하고 잔차를 분리하는 방법입니다.
자기회귀 모델
자기회귀 모델 (Autoregressive Model, AR)은 현재 시점의 값이 과거 자신의 값에 선형적으로 의존한다고 가정하는 시계열 예측 모델입니다. AR 모델은 시계열 데이터에 강한 자기상관성이 존재할 때 효과적입니다. 모델의 차수 p를 결정하는 것은 중요한 과정이며, 자기상관 함수 (ACF)와 부분 자기상관 함수 (PACF)를 분석하여 적절한 차수를 선택할 수 있습니다.
이동평균 모델
이동평균 모델 (Moving Average Model, MA)은 현재 시점의 값이 과거의 예측 오차항에 선형적으로 의존한다고 가정하는 시계열 예측 모델입니다. MA 모델은 과거의 예측 오차가 현재 값에 영향을 미치는 패턴을 모델링하는 데 유용합니다. AR 모델과 마찬가지로 모델의 차수 q를 결정하는 것이 중요하며, ACF와 PACF 분석을 통해 적절한 차수를 선택할 수 있습니다.
ARIMA 모델
ARIMA (Autoregressive Integrated Moving Average) 모델은 비정상 시계열 데이터를 분석하고 예측하는 데 널리 사용되는 강력한 통계적 모델입니다. ARIMA 모델은 자기회귀 (AR) 성분, 차분 (I, Integration) 성분, 이동평균 (MA) 성분을 결합하여 시계열 데이터의 다양한 패턴을 효과적으로 포착합니다. ARIMA(p, d, q) 모델은 다음과 같이 세 개의 파라미터로 정의됩니다.
p (Autoregressive order): 자기회귀 (AR) 성분의 차수, 즉 과거 몇 시점까지의 자신의 값이 현재 값에 영향을 미치는지를 나타냅니다.
d (Integrated order): 차분 (Integration) 성분의 차수, 즉 시계열 데이터를 정상 시계열로 만들기 위해 몇 번 차분해야 하는지를 나타냅니다. 차분은 시계열 데이터의 추세 성분을 제거하는 데 사용됩니다.
q (Moving Average order): 이동평균 (MA) 성분의 차수, 즉 과거 몇 시점까지의 예측 오차가 현재 값에 영향을 미치는지를 나타냅니다.