Machine Learning models in finance are highly susceptible to model drift, where predictive performance declines as data distributions shift. This issue is especially acute in developing economies such as those in Central Asia and the Caucasus - including Tajikistan, Uzbekistan, Kazakhstan, and Azerbaijan - where frequent and unpredictable macroeconomics shocks destabilize financial data. To the best of our knowledge, this is among the first studies to examine drift mitigation methods on financial datasets from these regions. We investigate the use of synthetic outliers, a largely unexplored approach, to improve model stability against unforeseen shocks. To evaluate effectiveness, we introduce a two-level framework that measures both the extent of performance degradation and the severity of shocks. Our experiments on macroeconomic tabular datasets show that adding a small proportion of synthetic outliers generally improves stability compared to baseline models, though the optimal amount varies by dataset and model
- 논문 ID: 2510.09294
- 제목: Mitigating Model Drift in Developing Economies Using Synthetic Data and Outliers
- 저자: Ilyas Varshavskiy, Bonu Boboeva, Shuhrat Khalilbekov, Azizjon Azimi, Sergey Shulgin, Akhlitdin Nizamitdinov, Haitz Sáez de Ocáriz Borde
- 분류: cs.LG (기계학습)
- 발표 학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Generative AI in Finance
- 논문 링크: https://arxiv.org/abs/2510.09294
금융 분야의 기계학습 모델은 모델 드리프트에 극도로 취약하다. 즉, 데이터 분포가 변할 때 예측 성능이 저하된다. 이 문제는 개발도상국, 특히 중앙아시아 및 남캅카스 지역(타지키스탄, 우즈베키스탄, 카자흐스탄, 아제르바이잔 포함)에서 특히 심각하다. 이 지역에서는 빈번하고 예측 불가능한 거시경제 충격이 금융 데이터의 안정성을 훼손한다. 저자들의 지식으로는 이 지역의 금융 데이터셋에서 드리프트 완화 방법을 연구한 최초의 연구 중 하나이다. 본 논문은 합성 이상치를 사용하여 모델의 예상치 못한 충격에 대한 안정성을 향상시키는 기본적이면서도 거의 탐구되지 않은 방법을 연구한다. 유효성을 평가하기 위해 저자들은 성능 저하 정도와 충격 심각도를 모두 측정하는 이중 계층 프레임워크를 도입했다. 거시경제 표 형식 데이터셋에 대한 실험은 소량의 합성 이상치를 추가하면 일반적으로 기준선 모델보다 안정성이 향상됨을 보여주지만, 최적 수량은 데이터셋과 모델에 따라 다르다.
본 연구는 분포 변화에 직면했을 때 금융 기계학습 모델의 모델 드리프트 문제를 해결하고자 한다. 특히 개발도상국에서 빈번한 거시경제 충격으로 인한 모델 성능의 급격한 저하를 다룬다.
- 경제적 영향 심각: 개발도상국에서 모델 실패의 비용은 매우 높을 수 있으며, 특히 신용 위험 평가 같은 중요한 금융 응용 분야에서 그렇다
- 충격의 빈번성과 예측 불가능성: 중앙아시아 및 남캅카스 지역은 무역 분쟁, 무장 분쟁 등 외부 충격에 자주 직면하여 데이터 분포의 급격한 변화를 초래한다
- 연구 공백: 기존 모델 드리프트 연구는 주로 성숙한 금융 시장에 집중되어 있으며 개발도상국에 대한 관심이 부족하다
- 수동적 대응: 지표 모니터링, 재훈련 등 전통적 방법은 드리프트 발생 후에만 조치를 취한다
- 데이터 의존성: 모델 재훈련을 위해 실제 데이터가 나타날 때까지 기다려야 한다
- 지역 특수성 부족: 개발도상국의 특수한 상황에 맞춘 해결책이 부족하다
저자들은 훈련 단계에서 합성 이상치를 도입하여 모델을 극단적인 상황에 미리 적응시킴으로써 미지의 충격에 직면했을 때 모델의 견고성을 향상시키는 능동적 전략을 제안한다.
- 새로운 안정성 평가 프레임워크 제안: 안정화 점수(SS)와 안정화 향상(SU) 두 지표를 포함하여 충격 하에서 모델의 안정성 성능을 정량화할 수 있다
- 합성 이상치의 혁신적 사용: zGAN으로 생성된 합성 이상치를 활용하여 돌발적 충격에 대한 모델의 견고성을 강화한다
- 지역 연구 공백 해소: 중앙아시아 및 남캅카스 지역의 금융 데이터셋에서 모델 드리프트 완화 방법을 처음으로 체계적으로 연구한다
- 오픈소스 구현 제공: 합성 데이터를 포함한 완전한 코드, 지표 및 실험을 공개한다
입력: 금융 표 형식 데이터(신용 위험 예측 작업)
출력: 이진 분류 결과(채무 불이행/정상)
목표: 외부 충격으로 인한 데이터 분포 변화에 직면했을 때 모델 예측 성능의 안정성 유지
충격은 데이터 생성 프로세스에서 특징 분포의 즉각적인 상당한 변화를 초래하는 돌발 사건으로 정의된다. 분포 변화(DS)는 다음 공식으로 계산된다:
DS=∣C∣+∣N∣1(∑c∈CdTV(Pbaseline(c),Pshocked(c))+∑n∈NdKS(Pbaseline(n),Pshocked(n)))≥τ
여기서 C와 N은 각각 범주형 및 수치형 특징을 나타내고, dTV와 dKS는 각각 전체 변동 거리와 Kolmogorov-Smirnov 통계량을 나타낸다.
드리프트 하에서 모델이 예측 성능을 유지하는 능력을 정량화한다:
SS=1−1+log(1+DS+ε)∣A^base−A^shock∣∈[0.5,1]
여기서 A^base와 A^shock는 각각 기준선 및 충격 데이터에서의 모델 성능을 나타낸다.
드리프트 하에서 두 모델의 상대적 우위를 비교한다:
SU=w⋅(wB′⋅SSB−wA′⋅SSA)
여기서 가중치는 시그모이드 함수를 통해 계산되며, 모델의 내부 안정성과 상대적 우월성을 고려한다.
zGAN 생성기를 사용하며, 다음을 포함한다:
- 표준 GAN 구성요소: 생성기-판별기 아키텍처
- 이상치 조건 공분산 생성기(covGEN): 극값 이론과 호환되는 다변량 분포에서 거시 이상치 샘플링
- 조건부 VAE: 공분산 행렬 제공
- 해시 유사성 필터: 실제 기록과의 과도한 유사성 방지
- 능동적 안정화 전략: 드리프트 발생 후 대응하는 대신 훈련 단계에서 모델을 극단적 상황에 노출시킨다
- 이중 계층 평가 프레임워크: SS는 단일 모델 안정성을 측정하고, SU는 모델 간 상대적 우위를 비교한다
- 지역 특수성 설계: 개발도상국의 거시경제 충격 특성에 맞게 설계된 방법
- 비단조 최적화: 최적 이상치 비율은 일반적으로 5-10% 범위이며, 많을수록 좋은 것은 아니다
실험은 5개 개발도상국의 비공개 신용 위험 데이터셋을 사용했다:
- A1 (타지키스탄): 무역 분쟁 충격, DS=0.2250
- A4 (우즈베키스탄): 명확한 충격 없음, DS=0.0050
- A5 (카자흐스탄): 무장 분쟁 충격, DS=0.1212
- A6 (요르단): 명확한 충격 없음, DS=0.0026
- A9 (아제르바이잔): 무장 분쟁 충격, DS=0.1802
- 공개 데이터셋 (Lending Club): 무역 분쟁 충격, DS=0.1193
모든 작업은 이진 채무 불이행 예측이며 클래스 불균형(약 2-12%)이 있다.
- AUC_base: 충격 전 성능
- AUC_shock: 충격 후 성능
- SS: 안정화 점수
- SU: 안정화 향상
8가지 기계학습 모델을 테스트했다:
- CatBoost, TabPFN, FT-Transformer, HGBoosting
- NGBoost, XGBoost, LightGBM, TabNet
- 데이터 분할: 80/20 훈련/테스트 분할
- 합성 데이터 비율: 50/50 실제/합성 혼합
- 이상치 비율: 0%, 1%, 3%, 5%, 7%, 10%, 50%, 100%
- Monte Carlo 평가: 51회 무작위 분할
- 전역 하이퍼파라미터: (k1, k2, k3) = (100, 1000, 1000)
표 1의 최고 결과에 따르면:
- A1 (타지키스탄): TabNet 이상치 없음 SU=0.8441 달성
- A4 (우즈베키스탄): TabPFN 50% 이상치 SU=0.7449 달성
- A9 (아제르바이잔): TabPFN 5% 이상치 SU=0.9981 달성
- 공개 데이터셋: FT-Transformer 100% 이상치 SU=0.8884 달성
- 유연한 아키텍처가 가장 큰 이득: TabPFN과 FT-Transformer는 충격 하에서 일반적으로 가장 높은 SU 값을 달성한다
- 이상치 비율의 비단조성: 중간 정도의 주입량(5-10%)이 자주 SU를 최대화하며, 너무 적거나 많으면 이득이 감소한다
- 이득과 충격 강도의 상관성: DS가 높은 데이터셋(A1, A9)에서 개선이 가장 크고, DS가 최소일 때(A4, A6) 개선이 제한적이다
모든 모델-데이터셋 조합에서:
- 53%의 경우: 0이 아닌 이상치 비율 추가가 안정성 개선(135/256)
- 83%의 최고 구성: 이상치를 포함한 훈련이 이상치 없는 훈련보다 우수(10/12)
- 모델 차이 유의미: HGBoosting, NGBoost, XGBoost, LightGBM은 50% 경우에서 이득, FT-Transformer는 75% 경우에서 이득, CatBoost, TabPFN, TabNet은 100% 경우에서 이득
타지키스탄 데이터셋의 "tjs/usd" 환율 특징 분석에서:
- 합성 이상치는 분포 꼬리에 합리적인 극값을 형성한다
- 5-10% 이상치 비율은 진정성을 유지하면서 충분한 극값 노출을 제공한다
- UMAP 투영은 합성 데이터가 실제 데이터와 높은 유사성을 보이며 이상치가 경계 영역에 적절히 분포함을 보여준다
- 시간적 드리프트: 의존 관계가 시간에 따라 점진적으로 진화
- 조건부 드리프트: 새 데이터가 특징 공간의 충분히 표현되지 않은 영역에서 나옴
- 상황적 드리프트: 외부 충격으로 인한 입력-출력 관계의 갑작스러운 변화
전통적 방법에는 ADWIN 알고리즘, 증분 학습, 슬라이딩 윈도우 등이 포함되며, 주로 수동적 대응 전략이다.
관련 연구에는 분포 외 표 형식 샘플을 생성하는 TabOOD 프레임워크와 비즈니스 프로세스의 드리프트 감지를 위한 합성 데이터 사용이 포함되지만, 드리프트 완화를 위한 합성 이상치의 목표 지향적 사용에 대한 연구는 여전히 드물다.
- 합성 이상치의 효과성: 대부분의 경우 돌발적 충격 하에서 모델 안정성을 향상시킬 수 있다
- 최적 비율의 존재: 일반적으로 5-10% 범위이며, 극값 노출과 데이터 품질의 균형을 맞춰야 한다
- 아키텍처 민감성: 유연한 신경망 아키텍처가 전통적 트리 모델보다 이상치 정보를 더 잘 활용한다
- 지역 적용성: 방법은 개발도상국의 여러 국가 데이터셋에서 효과를 보여준다
- 통용 규칙 부재: 최적 이상치 백분율 선택을 위한 통용 방법을 찾지 못했다
- 데이터셋 제한: 주로 신용 위험 작업에서 검증되었으며, 다른 금융 작업의 적용 가능성은 미지수이다
- 충격 유형 제한: 주로 거시경제 충격을 대상으로 하며, 다른 유형의 드리프트에 대한 효과는 불명확하다
- 계산 오버헤드: 추가 생성 모델 훈련이 필요하여 계산 비용이 증가한다
- 적응형 이상치 비율: 최적 이상치 비율을 자동으로 결정할 수 있는 휴리스틱 개발
- 다중 유형 충격: 더 많은 유형의 분포 변화 시나리오로 확장
- 실시간 적응: 온라인 학습과 결합하여 동적 조정 구현
- 이론적 분석: 더 깊이 있는 이론적 보증 및 분석 제공
- 문제의 중요성 두드러짐: 무시되었지만 중요한 개발도상국 응용 분야에 초점
- 방법의 혁신성 강함: 능동적 이상치 주입 전략은 참신하고 실용적 가치가 있다
- 평가 프레임워크 완성도: SS와 SU 지표 설계가 합리적이고 모델 안정성을 포괄적으로 평가할 수 있다
- 실험 설계 엄밀함: 51회 Monte Carlo 반복, 다중 데이터셋, 다양한 모델 비교 실험
- 오픈소스 기여: 완전한 코드와 데이터 제공으로 재현성 향상
- 데이터셋 비공개성: 핵심 데이터셋을 공개할 수 없어 결과의 검증 가능성 제한
- 이론적 기초 약함: 이상치가 왜 안정성을 향상시키는지에 대한 깊이 있는 이론적 분석 부족
- 하이퍼파라미터 민감성: SU 지표의 k1, k2, k3 파라미터 선택에 충분한 이론적 지도 부족
- 적용 범위 불명확: 주로 표 형식 데이터에서 검증되었으며, 다른 데이터 유형의 적용 가능성 미지수
- 계산 효율성: 방법의 계산 오버헤드 및 확장성 분석 부재
- 학술적 기여: 모델 드리프트 연구에 새로운 관점과 방법 제공
- 실용적 가치: 개발도상국 금융 기관에 직접 응용 가치 제공
- 방법의 영감성: 능동적 안정화 전략이 더 많은 관련 연구에 영감을 줄 수 있다
- 데이터셋 가치: 비공개이지만 해당 지역 연구에 중요한 실증적 기초 제공
- 개발도상국 금융 기관: 빈번한 외부 충격에 직면한 금융 환경에 특히 적합
- 신용 위험 관리: 채무 불이행 예측 등 중요 작업에서 모델 견고성 향상
- 거시경제 불안정 지역: 정치, 경제 불확실성이 있는 모든 시장
- 능동적 위험 관리: 수동적 대응이 아닌 사전 예방이 필요한 시나리오
논문은 31편의 관련 문헌을 인용하며, 주요 내용은 다음과 같다:
- 모델 드리프트 기초 연구: Hinder et al. (2024), Halstead et al. (2022) 등 개념 드리프트 관련 종합 연구
- 드리프트 감지 방법: ADWIN 알고리즘 (Bifet & Gavaldà, 2007), 온라인 학습 방법 등
- 합성 데이터 생성: GAN 관련 연구 (Goodfellow et al., 2014), TabOOD 프레임워크 (Puranik et al., 2024)
- 기계학습 모델: CatBoost, XGBoost, LightGBM 등 주류 모델의 원본 논문
- 통계 방법: 극값 이론 (de Haan & Ferreira, 2006), Kolmogorov-Smirnov 검정 등
종합 평가: 이는 중요하지만 무시되었던 응용 분야(개발도상국 금융 안정성)에서 혁신적 해결책을 제시하는 고품질 논문이다. 방법이 참신하고 실험이 충분하며 실제 응용에 중요한 가치가 있지만, 이론적 깊이와 통용성 측면에서 개선의 여지가 있다.