2025-11-24T19:07:18.605056

Mitigating Model Drift in Developing Economies Using Synthetic Data and Outliers

Varshavskiy, Boboeva, Khalilbekov et al.

Machine Learning models in finance are highly susceptible to model drift, where predictive performance declines as data distributions shift. This issue is especially acute in developing economies such as those in Central Asia and the Caucasus - including Tajikistan, Uzbekistan, Kazakhstan, and Azerbaijan - where frequent and unpredictable macroeconomics shocks destabilize financial data. To the best of our knowledge, this is among the first studies to examine drift mitigation methods on financial datasets from these regions. We investigate the use of synthetic outliers, a largely unexplored approach, to improve model stability against unforeseen shocks. To evaluate effectiveness, we introduce a two-level framework that measures both the extent of performance degradation and the severity of shocks. Our experiments on macroeconomic tabular datasets show that adding a small proportion of synthetic outliers generally improves stability compared to baseline models, though the optimal amount varies by dataset and model

academic

Mitigating Model Drift in Developing Economies Using Synthetic Data and Outliers

基本信息

论文ID: 2510.09294
标题: Mitigating Model Drift in Developing Economies Using Synthetic Data and Outliers
作者: Ilyas Varshavskiy, Bonu Boboeva, Shuhrat Khalilbekov, Azizjon Azimi, Sergey Shulgin, Akhlitdin Nizamitdinov, Haitz Sáez de Ocáriz Borde
分类: cs.LG (Machine Learning)
发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Generative AI in Finance
论文链接: https://arxiv.org/abs/2510.09294

摘要

金融领域的机器学习模型极易受到模型漂移影响，即当数据分布发生变化时预测性能会下降。这个问题在发展中经济体尤其严重，特别是中亚和高加索地区（包括塔吉克斯坦、乌兹别克斯坦、哈萨克斯坦和阿塞拜疆），频繁且不可预测的宏观经济冲击会破坏金融数据的稳定性。据作者了解，这是首批在这些地区的金融数据集上研究漂移缓解方法的研究之一。本文研究使用合成异常值这一基本未被探索的方法来提高模型对意外冲击的稳定性。为评估有效性，作者引入了一个双层框架，既测量性能下降程度又测量冲击严重程度。在宏观经济表格数据集上的实验表明，添加少量合成异常值通常比基线模型提高稳定性，尽管最优数量因数据集和模型而异。

经济影响严重：在发展中经济体，模型失效的成本可能非常高昂，特别是在信贷风险评估等关键金融应用中
冲击频繁且不可预测：中亚和高加索地区经常面临贸易冲突、武装冲突等外部冲击，导致数据分布急剧变化
研究空白：现有的模型漂移研究主要集中在成熟金融市场，对发展中经济体关注不足

现有方法局限性

被动应对：传统方法如监控指标、重新训练等都是在漂移发生后才采取行动
数据依赖：需要等待真实世界数据来重新训练模型
地区特异性不足：缺乏针对发展中经济体特殊情况的解决方案

研究动机

作者提出主动式策略，通过在训练阶段引入合成异常值来提前让模型适应极端情况，从而提高模型在面临未知冲击时的鲁棒性。

核心贡献

提出了新的稳定性评估框架：包括稳定化评分(SS)和稳定化提升(SU)两个指标，能够量化模型在冲击下的稳定性表现
创新性地使用合成异常值：利用zGAN生成的合成异常值来增强模型对突发冲击的鲁棒性
填补了地区研究空白：首次在中亚和高加索地区的金融数据集上系统研究模型漂移缓解方法
提供了开源实现：发布了完整的代码、指标和实验，包括合成数据

其中C和N分别表示分类和数值特征， $d_{TV}$ 和 $d_{KS}$ 分别表示总变差距离和Kolmogorov-Smirnov统计量。

2. 稳定化评分(SS)

量化模型在漂移下保持预测性能的能力：

$SS = 1 - \frac{|\hat{A}_{base} - \hat{A}_{shock}|}{1 + \log(1 + DS + \varepsilon)} \in [0.5, 1]$

其中 $\hat{A}_{base}$ 和 $\hat{A}_{shock}$ 分别表示基线和冲击数据上的模型性能。

3. 稳定化提升(SU)

比较两个模型在漂移下的相对优势：

$SU = w \cdot (w'_B \cdot SS_B - w'_A \cdot SS_A)$

其中权重通过sigmoid函数计算，考虑了模型的内部稳定性和相对优越性。

4. 合成异常值生成

使用zGAN生成器，包含：

标准GAN组件：生成器-判别器架构
异常值条件协方差生成器(covGEN)：从极值理论兼容的多元分布中采样宏观异常值
条件VAE：提供协方差矩阵
哈希相似性过滤器：避免与真实记录过于相似

技术创新点

主动式稳定化策略：不是等待漂移发生后再应对，而是在训练阶段就让模型接触极端情况
双层评估框架：SS测量单个模型稳定性，SU比较模型间的相对优势
地区特异性设计：针对发展中经济体的宏观经济冲击特点设计方法
非单调优化：发现最优异常值比例通常在5-10%，而非越多越好

实验设置

数据集

实验使用了来自5个发展中经济体的私有信贷风险数据集：

A1 (塔吉克斯坦)：贸易冲突冲击，DS=0.2250
A4 (乌兹别克斯坦)：无明确冲击，DS=0.0050
A5 (哈萨克斯坦)：武装冲突冲击，DS=0.1212
A6 (约旦)：无明确冲击，DS=0.0026
A9 (阿塞拜疆)：武装冲突冲击，DS=0.1802
开放数据集 (Lending Club)：贸易冲突冲击，DS=0.1193

所有任务都是二元违约预测，类别不平衡（约2-12%）。

评价指标

AUC_base：冲击前性能
AUC_shock：冲击后性能
SS：稳定化评分
SU：稳定化提升

对比方法

测试了8种机器学习模型：

CatBoost, TabPFN, FT-Transformer, HGBoosting
NGBoost, XGBoost, LightGBM, TabNet

实现细节

数据分割：80/20训练测试分割
合成数据比例：50/50真实/合成混合
异常值比例：0%, 1%, 3%, 5%, 7%, 10%, 50%, 100%
Monte Carlo评估：51次随机分割
全局超参数：(k1, k2, k3) = (100, 1000, 1000)

实验结果

主要结果

根据表1的最佳结果：

A1 (塔吉克斯坦)：TabNet无异常值达到SU=0.8441
A4 (乌兹别克斯坦)：TabPFN 50%异常值达到SU=0.7449
A9 (阿塞拜疆)：TabPFN 5%异常值达到SU=0.9981
开放数据集：FT-Transformer 100%异常值达到SU=0.8884

关键发现

灵活架构受益最多：TabPFN和FT-Transformer在冲击下通常获得最高SU值
异常值比例非单调：中等注入量(5-10%)经常最大化SU，过小或过大都会削弱收益
收益与冲击强度相关：在DS较高的数据集(A1, A9)上改进最大，DS最小时(A4, A6)改进有限

统计分析

在所有模型-数据集配对中：

53%的案例：添加非零异常值比例改善稳定性(135/256)
83%的最佳配置：包含异常值的训练优于无异常值(10/12)
模型差异显著：HGBoosting、NGBoost、XGBoost、LightGBM在50%案例中受益，FT-Transformer在75%案例中受益，CatBoost、TabPFN、TabNet在100%案例中受益