2025-11-24T19:07:18.605056

Mitigating Model Drift in Developing Economies Using Synthetic Data and Outliers

Varshavskiy, Boboeva, Khalilbekov et al.
Machine Learning models in finance are highly susceptible to model drift, where predictive performance declines as data distributions shift. This issue is especially acute in developing economies such as those in Central Asia and the Caucasus - including Tajikistan, Uzbekistan, Kazakhstan, and Azerbaijan - where frequent and unpredictable macroeconomics shocks destabilize financial data. To the best of our knowledge, this is among the first studies to examine drift mitigation methods on financial datasets from these regions. We investigate the use of synthetic outliers, a largely unexplored approach, to improve model stability against unforeseen shocks. To evaluate effectiveness, we introduce a two-level framework that measures both the extent of performance degradation and the severity of shocks. Our experiments on macroeconomic tabular datasets show that adding a small proportion of synthetic outliers generally improves stability compared to baseline models, though the optimal amount varies by dataset and model
academic

Mitigating Model Drift in Developing Economies Using Synthetic Data and Outliers

基本信息

  • 论文ID: 2510.09294
  • 标题: Mitigating Model Drift in Developing Economies Using Synthetic Data and Outliers
  • 作者: Ilyas Varshavskiy, Bonu Boboeva, Shuhrat Khalilbekov, Azizjon Azimi, Sergey Shulgin, Akhlitdin Nizamitdinov, Haitz Sáez de Ocáriz Borde
  • 分类: cs.LG (Machine Learning)
  • 发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Generative AI in Finance
  • 论文链接: https://arxiv.org/abs/2510.09294

摘要

金融领域的机器学习模型极易受到模型漂移影响,即当数据分布发生变化时预测性能会下降。这个问题在发展中经济体尤其严重,特别是中亚和高加索地区(包括塔吉克斯坦、乌兹别克斯坦、哈萨克斯坦和阿塞拜疆),频繁且不可预测的宏观经济冲击会破坏金融数据的稳定性。据作者了解,这是首批在这些地区的金融数据集上研究漂移缓解方法的研究之一。本文研究使用合成异常值这一基本未被探索的方法来提高模型对意外冲击的稳定性。为评估有效性,作者引入了一个双层框架,既测量性能下降程度又测量冲击严重程度。在宏观经济表格数据集上的实验表明,添加少量合成异常值通常比基线模型提高稳定性,尽管最优数量因数据集和模型而异。

研究背景与动机

问题定义

本研究要解决金融机器学习模型在面临分布变化时的模型漂移问题,特别是在发展中经济体中由于频繁的宏观经济冲击导致的模型性能急剧下降。

问题重要性

  1. 经济影响严重:在发展中经济体,模型失效的成本可能非常高昂,特别是在信贷风险评估等关键金融应用中
  2. 冲击频繁且不可预测:中亚和高加索地区经常面临贸易冲突、武装冲突等外部冲击,导致数据分布急剧变化
  3. 研究空白:现有的模型漂移研究主要集中在成熟金融市场,对发展中经济体关注不足

现有方法局限性

  1. 被动应对:传统方法如监控指标、重新训练等都是在漂移发生后才采取行动
  2. 数据依赖:需要等待真实世界数据来重新训练模型
  3. 地区特异性不足:缺乏针对发展中经济体特殊情况的解决方案

研究动机

作者提出主动式策略,通过在训练阶段引入合成异常值来提前让模型适应极端情况,从而提高模型在面临未知冲击时的鲁棒性。

核心贡献

  1. 提出了新的稳定性评估框架:包括稳定化评分(SS)和稳定化提升(SU)两个指标,能够量化模型在冲击下的稳定性表现
  2. 创新性地使用合成异常值:利用zGAN生成的合成异常值来增强模型对突发冲击的鲁棒性
  3. 填补了地区研究空白:首次在中亚和高加索地区的金融数据集上系统研究模型漂移缓解方法
  4. 提供了开源实现:发布了完整的代码、指标和实验,包括合成数据

方法详解

任务定义

输入:金融表格数据(信贷风险预测任务) 输出:二元分类结果(违约/正常) 目标:在面临外部冲击导致的数据分布变化时,保持模型预测性能的稳定性

核心方法框架

1. 冲击定义和分布变化测量

冲击被定义为数据生成过程中导致特征分布立即显著变化的突发事件。分布变化(DS)通过以下公式计算:

DS=1C+N(cCdTV(Pbaseline(c),Pshocked(c))+nNdKS(Pbaseline(n),Pshocked(n)))τDS = \frac{1}{|C|+|N|}\left(\sum_{c \in C} d_{TV}(P_{baseline}(c), P_{shocked}(c)) + \sum_{n \in N} d_{KS}(P_{baseline}(n), P_{shocked}(n))\right) \geq \tau

其中C和N分别表示分类和数值特征,dTVd_{TV}dKSd_{KS}分别表示总变差距离和Kolmogorov-Smirnov统计量。

2. 稳定化评分(SS)

量化模型在漂移下保持预测性能的能力:

SS=1A^baseA^shock1+log(1+DS+ε)[0.5,1]SS = 1 - \frac{|\hat{A}_{base} - \hat{A}_{shock}|}{1 + \log(1 + DS + \varepsilon)} \in [0.5, 1]

其中A^base\hat{A}_{base}A^shock\hat{A}_{shock}分别表示基线和冲击数据上的模型性能。

3. 稳定化提升(SU)

比较两个模型在漂移下的相对优势:

SU=w(wBSSBwASSA)SU = w \cdot (w'_B \cdot SS_B - w'_A \cdot SS_A)

其中权重通过sigmoid函数计算,考虑了模型的内部稳定性和相对优越性。

4. 合成异常值生成

使用zGAN生成器,包含:

  • 标准GAN组件:生成器-判别器架构
  • 异常值条件协方差生成器(covGEN):从极值理论兼容的多元分布中采样宏观异常值
  • 条件VAE:提供协方差矩阵
  • 哈希相似性过滤器:避免与真实记录过于相似

技术创新点

  1. 主动式稳定化策略:不是等待漂移发生后再应对,而是在训练阶段就让模型接触极端情况
  2. 双层评估框架:SS测量单个模型稳定性,SU比较模型间的相对优势
  3. 地区特异性设计:针对发展中经济体的宏观经济冲击特点设计方法
  4. 非单调优化:发现最优异常值比例通常在5-10%,而非越多越好

实验设置

数据集

实验使用了来自5个发展中经济体的私有信贷风险数据集:

  • A1 (塔吉克斯坦):贸易冲突冲击,DS=0.2250
  • A4 (乌兹别克斯坦):无明确冲击,DS=0.0050
  • A5 (哈萨克斯坦):武装冲突冲击,DS=0.1212
  • A6 (约旦):无明确冲击,DS=0.0026
  • A9 (阿塞拜疆):武装冲突冲击,DS=0.1802
  • 开放数据集 (Lending Club):贸易冲突冲击,DS=0.1193

所有任务都是二元违约预测,类别不平衡(约2-12%)。

评价指标

  • AUC_base:冲击前性能
  • AUC_shock:冲击后性能
  • SS:稳定化评分
  • SU:稳定化提升

对比方法

测试了8种机器学习模型:

  • CatBoost, TabPFN, FT-Transformer, HGBoosting
  • NGBoost, XGBoost, LightGBM, TabNet

实现细节

  • 数据分割:80/20训练测试分割
  • 合成数据比例:50/50真实/合成混合
  • 异常值比例:0%, 1%, 3%, 5%, 7%, 10%, 50%, 100%
  • Monte Carlo评估:51次随机分割
  • 全局超参数:(k1, k2, k3) = (100, 1000, 1000)

实验结果

主要结果

根据表1的最佳结果:

  • A1 (塔吉克斯坦):TabNet无异常值达到SU=0.8441
  • A4 (乌兹别克斯坦):TabPFN 50%异常值达到SU=0.7449
  • A9 (阿塞拜疆):TabPFN 5%异常值达到SU=0.9981
  • 开放数据集:FT-Transformer 100%异常值达到SU=0.8884

关键发现

  1. 灵活架构受益最多:TabPFN和FT-Transformer在冲击下通常获得最高SU值
  2. 异常值比例非单调:中等注入量(5-10%)经常最大化SU,过小或过大都会削弱收益
  3. 收益与冲击强度相关:在DS较高的数据集(A1, A9)上改进最大,DS最小时(A4, A6)改进有限

统计分析

在所有模型-数据集配对中:

  • 53%的案例:添加非零异常值比例改善稳定性(135/256)
  • 83%的最佳配置:包含异常值的训练优于无异常值(10/12)
  • 模型差异显著:HGBoosting、NGBoost、XGBoost、LightGBM在50%案例中受益,FT-Transformer在75%案例中受益,CatBoost、TabPFN、TabNet在100%案例中受益

案例分析

从塔吉克斯坦数据集的"tjs/usd"汇率特征分析可以看出:

  • 合成异常值在分布尾部形成合理的极值
  • 5-10%异常值比例在保持真实性的同时提供足够的极值暴露
  • UMAP投影显示合成数据与真实数据高度相似,异常值适当分布在边界区域

相关工作

漂移检测与适应方法

  • 时间漂移:依赖关系随时间逐渐演化
  • 条件漂移:新数据来自特征空间的未充分表示区域
  • 情境漂移:由于外部冲击导致输入-输出关系突然变化

传统方法包括ADWIN算法、增量学习、滑动窗口等,主要是被动应对策略。

合成数据研究

相关工作包括TabOOD框架生成分布外表格样本,以及合成数据用于业务流程中的漂移检测,但针对性使用合成异常值缓解漂移的研究仍然很少。

结论与讨论

主要结论

  1. 合成异常值有效:在大多数情况下能够提高模型在突发冲击下的稳定性
  2. 最优比例存在:通常在5-10%范围内,需要平衡极值暴露和数据质量
  3. 架构敏感性:灵活的神经网络架构比传统树模型更能利用异常值信息
  4. 地区适用性:方法在发展中经济体的多个国家数据集上都显示出效果

局限性

  1. 缺乏通用规则:没有找到选择最佳异常值百分比的通用方法
  2. 数据集限制:主要在信贷风险任务上验证,其他金融任务的适用性未知
  3. 冲击类型局限:主要针对宏观经济冲击,其他类型漂移的效果不明
  4. 计算开销:需要训练额外的生成模型增加了计算成本

未来方向

  1. 自适应异常值比例:开发能够自动确定最优异常值比例的启发式方法
  2. 多类型冲击:扩展到更多类型的分布变化场景
  3. 实时适应:结合在线学习实现动态调整
  4. 理论分析:提供更深入的理论保证和分析

深度评价

优点

  1. 问题重要性突出:聚焦发展中经济体这一被忽视但重要的应用场景
  2. 方法创新性强:主动式异常值注入策略具有新颖性和实用价值
  3. 评估框架完善:SS和SU指标设计合理,能够全面评估模型稳定性
  4. 实验设计严谨:51次Monte Carlo重复、多个数据集、多种模型的对比实验
  5. 开源贡献:提供完整的代码和数据,增强了可复现性

不足

  1. 数据集私有性:核心数据集无法公开,限制了结果的可验证性
  2. 理论基础薄弱:缺乏对为什么异常值能提高稳定性的深入理论分析
  3. 超参数敏感性:SU指标的k1,k2,k3参数选择缺乏充分的理论指导
  4. 适用范围不明:主要在表格数据上验证,对其他数据类型的适用性未知
  5. 计算效率:没有分析方法的计算开销和扩展性

影响力

  1. 学术贡献:为模型漂移研究提供了新的视角和方法
  2. 实用价值:对发展中经济体的金融机构具有直接应用价值
  3. 方法启发性:主动式稳定化策略可能启发更多相关研究
  4. 数据集价值:尽管私有,但为该地区研究提供了重要的实证基础

适用场景

  1. 发展中经济体金融机构:特别适用于面临频繁外部冲击的金融环境
  2. 信贷风险管理:在违约预测等关键任务中提高模型鲁棒性
  3. 宏观经济不稳定地区:任何面临政治、经济不确定性的市场
  4. 主动风险管理:需要提前防范而非被动应对的场景

参考文献

论文引用了31篇相关文献,主要包括:

  1. 模型漂移基础研究:Hinder et al. (2024), Halstead et al. (2022) 等关于概念漂移的综述性工作
  2. 漂移检测方法:ADWIN算法 (Bifet & Gavaldà, 2007),在线学习方法等
  3. 合成数据生成:GAN相关工作 (Goodfellow et al., 2014),TabOOD框架 (Puranik et al., 2024)
  4. 机器学习模型:CatBoost, XGBoost, LightGBM等主流模型的原始论文
  5. 统计方法:极值理论 (de Haan & Ferreira, 2006),Kolmogorov-Smirnov检验等

总体评价:这是一篇在重要但被忽视的应用领域(发展中经济体金融稳定性)提出创新解决方案的高质量论文。方法新颖,实验充分,对实际应用具有重要价值,但在理论深度和通用性方面还有提升空间。