이론

[Z-Score 기반 주식 스크리닝과 동적 상관계수 분석]

난 지민 2025. 3. 5. 14:44

1. 주식 스크리닝

주식 스크리닝에 대한 여러 기법을 배우며 순차적, 동시적 스크리닝 기법에 대해 알 수 있었다. 특히, 동시적 스크리닝에서는 여러 통계적 지식들이 응용되어 전개된다. Z-score를 통해 주식을 스크리닝하고 포트폴리오의 가중치를 결정한다. 또한, Z-score를 활용하여 수익률 역시 구할 수 있다. 간단한 선형 회귀식으로 전개가 된다.

수익률 회귀식

$$r_{i,t} = \gamma_i + \delta Z_{i,t-1} + \varepsilon_{i,t}$$

$T+1$ 시점에 대한 주식 $i$의 예상 수익률

$$ E(r_{i,T+1}) = \gamma_i + \delta Z_{i,T} $$

문제점

1. Z-스코어는 다른 기간으로 크게 변하지 않을 수 있지만, 팩터 프리미엄은 상당히 변할 수 있음
    - 해결책 : 단일 시점에 대한 단일 교차 회귀 분석을 수행하는 대신 더 긴 기간의 역사적 데이터에 대한 패널 회귀를 실행하는 것
2. Z-스코어와 향후 수익률 간의 상관관계가 낮을 수 있다는 것

단순 회귀식을 수식적으로 변형한 식

$$ E(r_{it}|z_{i, t-1})-E(r_{t}) = \delta[z_{i, t-1}-E(z_{t-1})] $$
$$ =\frac{C(r_{t}, z_{t-1})}{V(z_{t-1}}z_{i, t-1}= \rho(r_{t},z_{t-1})S(r_{t})z_{i, t-1} $$
$$ = IC * volatility * score $$

  • IC : 종합 Z-스코어 또는 raw signal과 수익률의 상관계수
  • volatility : 횡단면의 유동성

횡단면, 패널 회귀분석 시 실제 수익률의 가장 좋은 예측치

$$ \hat{r_{it}}=\hat{\bar{r_{i}}}+\hat{\rho}(r_{t},z_{t-1})\hat{S}(r_{t})z_{t-1} $$

  • 수익률 & Z-스코어 상관계수 1 → 상대적인 Z-스코어 값을 유지한 채 Z-스코어의 분포를 변환하기

$$ \tilde{Z_{it}^{1}} = Z_{it}\sigma_{r} + \mu_{r}$$

  • 그러나 현실에서 수익률 & Z-스코어 완벽한 상관관계일 때가 드뭄 → 경험에 의한 상관계수 추정치

$$ \tilde{Z_{it}^{2}} = \hat{\rho}(r_{t},z_{t-1})Z_{it}\sigma_{r} + \mu_{r}$$

→ 과거 데이터를 사용해 미래를 외삽하기에 오류가 생길 수 있음

→ 상관계수가 낮으면, 수익률에 대한 부분적인 설명을 나타냄

 

2. 동적 상관계수

이처럼 상관계수를 활용하여 수익률을 구하거나 Z-score의 분포 변환에 사용한다. 그렇다면, 상관계수를 정확히 추정하는 방법은 무엇일까?
시간에 따라 변동이 큰 주식 데이터를 사용하여 상관계수를 구하기에는 오류가 발생할 여지가 크다. 따라서 동적으로 상관계수를 업데이트하는 방법에 대해 정리하고자 한다.

이 모형을 설명하려면, CCC 모형에 대해 먼저 언급해야겠다. 이는 다변량 GARCH 모형을 추정할 때 모수들의 수가 급격히 늘어나는 어려움을 극복하기 위해 Bollersiev(1990)가 조건부 상관계수를 상수로 고정시켜 모수를 줄인 CCC 모형을 제안하였다고 한다.

CCC 모형

$$
H_{t} = D_{t}RD_{t}=(\rho_{ij} \sqrt{h_{ii,t} h_{jj,t}}) $$
$$
D_{t}=diag(h_{11,t}^{\frac{1}{2}}, ... , h_{kk,t}^{\frac{1}{2}}) $$

  • $h_{ii,t}$ : t시점의 자산 i의 조건부 분산으로 GARCH(1,1)을 따르는 CCC 모형은 다음과 같이 계산 가능함.

$$h_{ii,t}=w_{i}+\alpha_{i}a_{i,t-1}^2+\beta_{i}h_{ii,t-1}, i=1, ... , k $$

DCC 모형

DCC 모형의 경우, 조건부 상관계수 행렬이 시간에 따라 변하지 않는다는 가정으로 추정의 어려움을 극복하였지만, 실제 시계열 자료의 특성에는 부합하지 않음. Engle(2002), Tse와 Tsui(2002)는 시간에 의존하는 조건부 상관계수 행렬을 만들었음.
$$
H_{t} = D_{t}R_{t}D_{t}=(\rho_{ij} \sqrt{h_{ii,t} h_{jj,t}}) $$
$$
D_{t}=diag(h_{11,t}^{\frac{1}{2}}, ... , h_{kk,t}^{\frac{1}{2}}) $$
$$
R_{t}=diag(q_{11,t}^{-\frac{1}{2}}, ... , q_{kk,t}^{-\frac{1}{2}})Q_{t}diag(q_{11,t}^{-\frac{1}{2}}, ... , q_{kk,t}^{-\frac{1}{2}})
$$
$$ Q_{t} = (1-\alpha-\beta) \bar{Q}+\alpha u_{t-1}u_{t-1}^{T} +\beta Q_{t-1} $$

$Q_{t}$를 정의함으로써 조건부 상관계수 행렬이 시간에 따라 계속 변화하는 형태를 갖게 됨.


GARCH 모형은 오차항이 일정한 분산을 갖는 WN로 가정한 기존 이론에 대비하여 잔차의 절댓값 또는 제곱값에 autocorelation이 존재한다는 것을 가정으로 발전한 이론이다. 따라서 오차항의 분산에 대한 변동성 분석으로 GARCH 모형이 발전하였고, 모수 추정에 상관계수를 사용하는 것이 CCC, DCC 모형이다. 수익률과 Z-score의 상관관계도 이러한 모형을 이용하여 변동성 동태에 대한 상관관계를 시간에 따라 동적으로 계산할 수 있다면, 시차에 따른 오류를 줄일 수 있을 것이다.

 

참고 문헌

최성미, 홍선영, 최문선, 백지선, 황선영 and 박진아. (2009). DCC 모델링을 이용한 다변량-GARCH 모형의 분석 및 응용. 응용통계연구, 22(5), 995-1005.