본문 바로가기

이론

[신뢰할 수 있는 모델을 구축하기 위한 유의점]

1.  데이터 분석의 함정

퀀트를 제대로 배우기 시작한지 갓 일주일에 접어들어 배운 것을 정리하기에 급급하지만, 생각보다 내 전공과 관련해 생각해볼 지점이 많아 정리해보고자 한다. 정확한 QEPM을 만들기 위해서는 팩터 선정이 중요하다. 팩터와 수익률 간의 관계를 고려해 최적의 모델을 선정해야 하기 때문이다. 

  • 연구자들이 흔히 빠지는 함정 
    • "과거 데이터가 현재에 영향을 미친다"는 가정의 문제점 : 그러나 미래에도 영향을 미친다는 보장이 없음.
    • 이론적 근거 없이 데이터에 맞춘 변수 선택 : 주식 수익률과 높은 상관관계를 보이는 팩터들을 만들어내지만, 그 팩터들과 수익률 간의 관계는 피상적일 뿐임.

첫번째는 예측이라는 task의 본질적인 문제다. 예측은 불확실성을 수반할 수 밖에 없다. 특히, 두번째에 공감된다. 데이터 분석을 하다보면, 많은 feature 중 이를 줄여 target을 잘 설명하는 feature를 찾아야 할 때가 많다. 그렇다면, 통계학 전공인 나는 여러 변수 선택 기법을 사용해 변수를 선택한다. 물론 성능이 높아질 때도 있으나 원하는 결과가 안 나올 때도 많다. 그럴 때마다 데이터에 대한 도메인 지식의 부재가 아쉽다. 테크니컬한 방식보다 데이터 자체 즉, 도메인과 관련된 배경 지식을 활용할 수 있을 것이다. 그런 지점에 있어 지금 배우고 있는 퀀트에 생소한 용어들을 하나씩 알아가는 지금, 금융의 흐름을 알 수 있어 새롭다. 

 

2.  단계적 회귀 (Stepwise Regression)의 문제점

  • 단계적 회귀 기법의 작동 원리
    • 유의한 변수를 선택하기 위한 기법으로 변수 추가 + 제거 방식 (Forward Selection, Backward Elimination)
  • 통계적 문제점
    • 다중 비교 문제 (Multiple Testing Problem) → p-value가 과소평가될 위험
    • 과적합 (Overfitting) → 특정 샘플에서는 잘 맞지만, 새로운 데이터에서는 성능 저하
  • 경제학적 문제점
    • 변수 선택이 데이터 주도적 (Data-Driven)으로 이루어져 경제 이론과 괴리됨
    • 인과 관계 검증 부족 → 단순 상관 관계만 반영될 위험통계적으로 유의하지 않다, 유의하다고 결론을 내리면 그 결론에 도달하게 된 이론적 배경을 설명하기 어려움. 

 인과 관계와 상관 관계의 차이는 수업 시간 여러 번 강조된다. 인과 관계는 하나의 변수가 다른 변수에 직접적인 영향을 주는 경우며, 상관 관계는 두 변수 간의 연관성을 의미한다. 상관 관계가 있다고 해서 인과 관계가 성립하는 것은 아니다. 두 변수에 모두 영향을 미치는 제3의 변수를 고려해야 할 것이다. 경제학적 관점과 통계적 관점을 만족하는 팩터 선정을 위해서는 통계 이론을 통한 결론으로 매듭짓는 것이 아니라 추가적인 경제학적 이론을 위반하는 것이 없는지 살펴볼 필요가 있다. (이는 사실 어느 도메인이나 유효하다.)

 

3.  Sequential Specification Search의 위험

  • 개념
    • 여러 모델을 시도하면서 가장 좋은 결과를 찾는 과정에서 생기는 문제
  • 통계적 문제점
    • 데이터 마이닝(Data Mining) → 우연한 패턴을 진짜처럼 해석할 위험
    • p-value hacking → 연구자가 원하는 결과를 얻기 위해 변수와 모델을 바꿈
  • 경제학적 문제점
    • 가설이 검증되기보다 "데이터에 맞춘 모델"이 될 가능성
    • 정책적 의사 결정의 오류 → 특정 변수의 효과가 과장될 위험

연구 과정에서 다양한 모델을 검토하는 것은 필연적이지만, SSS는 데이터에 집중한 과도한 탐색으로 인해 연구의 신뢰성을 훼손할 위험이 있다. 특정 변수의 효과가 과장되지 않도록, 선행 연구를 활용해 연구 과정의 투명성을 높이는 것이 중요할 것이다.

 

4.  해결 : 신뢰할 수 있는 모델 구축을 위한 접근법

신뢰할 수 있는 모델을 구축하기 위해서는 데이터에서 단순히 유의미한 패턴을 찾는 것이 아니라, 이론적 타당성과 통계적 검증이 균형을 이루는 접근이 필요하다. 특정 모델링 기법이 우연한 패턴을 실제 효과로 착각하게 하거나, 연구자가 원하는 결과를 얻기 위해 변수와 모델을 조작하는 위험을 방지하려면, 먼저 경제학적 직관과 이론을 바탕으로 가설을 설정하고, 그 후 일관된 통계적 기법을 활용해 이를 검증하는 과정이 필수적이다. 또한, 변수 선택의 불확실성을 반영하고 과적합을 방지하는 기법을 적용해 모델의 일반화 성능을 높여야 하며, 결과 해석 시에도 단순히 통계적으로 유의미한지를 넘어 경제학적으로도 합리적인지 평가해야 한다. 결국, 신뢰할 수 있는 분석이란 데이터에 맞춘 결과를 도출하는 것이 아니라, 이론과 데이터가 조화를 이루도록 설계된 모델을 통해 경제적 의미와 통계적 정합성을 동시에 확보하는 데서 출발해야 하겠다.