1. Introduction
지금까지는 수익률을 예측하기 위해 모델을 선정하고 어떠한 팩터를 사용할지를 배웠다면, 이번에는 수익률을 예측하는 방법론에 대해 학습하였다. 공부하면서 느끼는 것은 통계학, 특히 회귀분석과 매우 밀접한 관계가 있어 도움이 되었다. LSE부터 GLS까지 전개과정이 깊이 있게 나오진 않지만, 어떻게 사용되는지를 설명하고 있다. 또한, 시계열 모형(VAR)이 사용되는 파트가 잠깐 나와서 VAR와 관련된 모형을 정리하고자 한다.
목표: 미래 수익률 예측
- 미래의 팩터 프리미엄, 팩터 노출 값 필요
핀더멘털 팩터 모델
- 팩터 노출(설명변수): t시점의 시작에 측정 → 예측 필요 없음
- 팩터 프리미엄: 일정하게 유지될 것이라고 가정
- 수익률(종속변수): t시간 동안 측정
경제팩터 모델
- 팩터 프리미엄(설명변수): t시점의 끝에 측정 → 예측 필요
- 팩터 노출: 일정하게 유지될 것이라고 가정
- 수익률(종속변수): t시간 동안 측정
팩터 노출: 모델과 관계없이 예측 필요 없음
팩터 프리미엄: 모델에 따라 예측 필요
2. Prediction
미래의 수익률을 예측하기 위해서는 선행적으로 팩터 프리미엄의 예측이 필요하다. 팩터 프리미엄은 대개 경제학자들이 발표하는 예측, 다양한 경제 예측 기관, 그리고 여러 회사의 연구 분석가들로부터 얻을 수 있으며, 이들의 예측 값을 산술평균하여 사용할 수 있다.
이러한 예측에는 항상 불확실성이 뒤따라온다. 불확실성을 어떻게 통제하는지가 중요한데, 이를 위해 대표값이 필요하다. 평균과 분산이 그 예이며, 신뢰도는 분산의 역수를 취해 구해준다. 분산이 크다는 것은 그만큼 데이터가 흩어져 있어 예측의 불확실성이 크다는 뜻이다.
벡터자기회귀(VAR)
VAR 모형은 다음과 같은 이유로 사용된다:
- 신뢰할 수 없음
- 특정 팩터에 대한 외부 예측을 찾을 수 없음
- 만족스러운 예측 모델이 존재하지 않음
포트폴리오 매니저들은 위의 이유로 계량경제학적, 통계학적 모형을 선호하며, VAR가 그중 하나다. 절차가 다소 기계적이나 표본 외 예측(out-of-sample forecasting)에서 좋은 성능을 보인다고 한다.
3. AR (AutoRegressive Model)
AR 모델은 과거 값이 현재 값에 영향을 준다는 개념을 바탕으로 한다. lag을 늘릴수록 즉, 과거값을 많이 사용할수록 모형의 파라미터를 추정하기 위해 사용되는 데이터의 수는 줄어들 것이다.
$$
Y_t = c + \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \dots + \phi_p Y_{t-p} + \epsilon_t
$$
- ($Y_t$): 현재 시점의 값
- (c): 상수항
- ($\phi_i$): 자기회귀 계수
- ($\epsilon_t$): 오차항
4. MA (Moving Average Model)
MA 모델은 과거의 오차항이 현재 값에 영향을 주는 구조이다.lag을 늘릴수록 즉, 많은 오차항을 사용할수록 추정해야하는 파라미터의 수가 증가할 것이다.
$$
Y_t = \mu + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \dots + \theta_q \epsilon_{t-q} + \epsilon_t
$$
- ($\mu$): 평균
- ($\theta_i$): 이동 평균 계수
- ($\epsilon_t$): 백색 잡음(white noise)
5. ARIMA (AutoRegressive Integrated Moving Average)
ARIMA 모델은 AR과 MA 모델을 결합하고, 차분을 통해 비정상성을 제거한 모델이다.
$$
(1 - \sum_{i=1}^{p} \phi_i L^i)(1 - L)^d Y_t = (1 + \sum_{j=1}^{q} \theta_j L^j)\epsilon_t
$$
- (L): 시차 연산자(lag operator)
- (d): 차분 횟수
- AR(p): 자기회귀 항
- MA(q): 이동 평균 항
ARIMA 모델에서는 정상성이라는 개념이 중요하다.
- 강한 정상성
어떤 시계열 $y_{t}$가 정상성을 만족한다는 것은 $(y_{t_1}, ..., y_{t_n}$의 분포가 $(y_{t_1+s}, ..., y_{t_n+s}$의 분포와 동일하다는 것이다. 하지만 이는 joint pdf를 구해야 하므로 잘 사용하지는 않는다.
- 약한 정상성
1) 평균이 시점 t에 의존하지 않고 $\mu$를 가져야 함.
2) $cov(y_{t},y_{t+s}) = cov(y_{0}, y_{s})$ for all t&s
3) 1)&2)가 finite
모형을 wold's representation theorem의 형태로 바꿔 증명하기도 한다.
$y_t = \mu + \sum_{j=0}^{\infty} \theta_j \epsilon_{t-j} \quad \text{for} \quad \sum_{j=0}^{\infty} \theta_j^2 < \infty \quad \text{and} \quad \theta_0 = 1, \quad \epsilon_t \sim WN(0, \sigma^2)$
정상성을 만족하는지 확인하기 위해서는 ACF plot을 그려야 하며, ACF가 천천히 감소하면 정상성을 만족하지 않는다고 할 수 있다.
정상성을 만족하지 않는다면, 분산을 안정화하기 위해 Box-Cox transformation을 하거나, 평균을 안정화하기 위해 차분 및 계절 차분을 진행하면 된다.차분의 차수를 결정하기 위해서는 ADF test, KPSS test를 하면 된다.
6. VAR (Vector AutoRegression)
VAR 모델은 다변량 시계열 데이터를 다루기 위한 확장된 자기회귀(AR) 모형이다. 단변량과 마찬가지로, VMA, VARMA 모형도 존재한다.
두 시계열 간의 연관성을 정리해보자면,
1) 모든 $k\geq0$에 대해 $\rho_{ij}(k)=\rho_{ji}(k)=0$이면 두 시계열 사이에 선형상관 관계가 없다.
2) $\rho_{ij}(k)\neq0$이면 두 시계열 사이에 동행상관 관계가 있다.
3) 임의의 $k>0$에 대해 $\rho_{ij}(k)=0$이고 $\rho_{ji}(k)=0$이면 두 시계열 사이에 선후행 관계는 없다.
4) 모든 $k>0$에 대해 $\rho_{ij}(k)=0$이지만, 임의의 $l>0$에 대해 $\rho_{ij}(k)\neq0$이면 $Z_{jt}$에서 $Z_{it}$ 한쪽 방향으로만 선형 관계가 있다.
5) 임의의 $k>0$와 $l>0$에 대해 $\rho_{ij}(k)\neq0$와 $\rho_{ji}(l)\neq0$이 성립한다면 두 시계열 사이 피드백 관계가 있다.
$$
Y_{1,t} = a_1 + a_{11} Y_{1,t-1} + a_{12}Y_{2,t-1} + u_{1,t} $$ $$
Y_{2,t} = a_2 + a_{21}Y_{1,t-1} + a_{22}Y_{2,t-1} + u_{2,t}
$$
- ($Y_{1,t}$): 시점 (t)에서의 첫번째 벡터 형태 데이터
- ($Y_{2,t}$): 시점 (t)에서의 두번째 벡터 형태 데이터
- ($a$): 계수 행렬
- ($u_t$): 평균 0, 공분산 행렬 $\Sigma$인 자기상관관계가 없는 확률 오차 벡터
- $\Sigma$: m*m 차원의 양정치(positive definite) 행렬
그랜저 인과성(Granger causality)
- $\phi_{12}=0$이고 $\phi_{21}\neq0$인 경우, $Z_{1t}$는 $Z_{2,t-1}$에 의존하지 않고 $Z_{2t}$는 $Z_{1,t-1}$에 의존
- $Z_{1,t-1}$를 알면 $Z_{2t}$를 예측하는 데 도움을 주지만, 그 역은 성립하지 않음
- 입력변수 $Z_{1t}$에서 출력변수 $Z_{2t}$ 방향으로의 인과성
- 원인과 결과를 의미하지 않고, 단지 예측력 측면에서 $Z_{1t}$는 $Z_{2t}$의 설명변수 역할을 함
VAR 모델은 각 변수 간의 상호 작용을 반영하여 경제 지표 및 금융 데이터 분석에서 널리 사용된다.
'이론' 카테고리의 다른 글
[투자에서의 세금 관리 전략] (1) | 2025.05.10 |
---|---|
[ETF 리밸런싱과 거래 비용이 투자 성과에 미치는 영향] (0) | 2025.04.03 |
[Z-Score 기반 주식 스크리닝과 동적 상관계수 분석] (1) | 2025.03.05 |
[신뢰할 수 있는 모델을 구축하기 위한 유의점] (0) | 2025.02.21 |
[알고리즘 코테] 그래프 이론 (0) | 2024.03.27 |