2025-11-24T19:07:18.605056

Mitigating Model Drift in Developing Economies Using Synthetic Data and Outliers

Varshavskiy, Boboeva, Khalilbekov et al.
Machine Learning models in finance are highly susceptible to model drift, where predictive performance declines as data distributions shift. This issue is especially acute in developing economies such as those in Central Asia and the Caucasus - including Tajikistan, Uzbekistan, Kazakhstan, and Azerbaijan - where frequent and unpredictable macroeconomics shocks destabilize financial data. To the best of our knowledge, this is among the first studies to examine drift mitigation methods on financial datasets from these regions. We investigate the use of synthetic outliers, a largely unexplored approach, to improve model stability against unforeseen shocks. To evaluate effectiveness, we introduce a two-level framework that measures both the extent of performance degradation and the severity of shocks. Our experiments on macroeconomic tabular datasets show that adding a small proportion of synthetic outliers generally improves stability compared to baseline models, though the optimal amount varies by dataset and model
academic

Minderung von Modelldrift in Entwicklungsländern mittels synthetischer Daten und Ausreißer

Grundinformationen

  • Paper-ID: 2510.09294
  • Titel: Mitigating Model Drift in Developing Economies Using Synthetic Data and Outliers
  • Autoren: Ilyas Varshavskiy, Bonu Boboeva, Shuhrat Khalilbekov, Azizjon Azimi, Sergey Shulgin, Akhlitdin Nizamitdinov, Haitz Sáez de Ocáriz Borde
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungskonferenz: 39. Konferenz über Neuronale Informationsverarbeitungssysteme (NeurIPS 2025) Workshop: Generative KI im Finanzwesen
  • Paper-Link: https://arxiv.org/abs/2510.09294

Zusammenfassung

Maschinelle-Lernmodelle im Finanzbereich sind äußerst anfällig für Modelldrift, d. h. die Verschlechterung der Vorhersageleistung bei Änderungen der Datenverteilung. Dieses Problem ist in Entwicklungsländern besonders akut, insbesondere in Zentralasien und dem Kaukasus (einschließlich Tadschikistan, Usbekistan, Kasachstan und Aserbaidschan), wo häufige und unvorhersehbare makroökonomische Schocks die Stabilität von Finanzdaten beeinträchtigen. Nach Kenntnis der Autoren ist dies eine der ersten Studien, die Drift-Minderungsmethoden auf Finanzdatensätzen aus diesen Regionen untersucht. Das Papier erforscht die Verwendung synthetischer Ausreißer – eine bislang weitgehend unerforschte Methode – zur Verbesserung der Modellstabilität gegenüber unerwarteten Schocks. Zur Bewertung der Wirksamkeit führen die Autoren ein zweischichtiges Rahmenwerk ein, das sowohl den Umfang der Leistungsverschlechterung als auch die Schwere des Schocks misst. Experimente auf makroökonomischen Tabellendatensätzen zeigen, dass das Hinzufügen einer geringen Anzahl synthetischer Ausreißer die Stabilität typischerweise gegenüber dem Baseline-Modell verbessert, obwohl die optimale Menge je nach Datensatz und Modell variiert.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich mit dem Problem der Modelldrift bei Finanzmaschinenlernmodellen angesichts von Verteilungsänderungen, insbesondere in Entwicklungsländern, wo häufige makroökonomische Schocks zu drastischen Leistungseinbußen führen.

Bedeutung des Problems

  1. Schwerwiegende wirtschaftliche Auswirkungen: In Entwicklungsländern können die Kosten von Modellausfällen erheblich sein, besonders bei kritischen Finanzanwendungen wie der Kreditrisikobeurteilung
  2. Häufige und unvorhersehbare Schocks: Die Region Zentralasien und Kaukasus ist häufig mit Handelskonflikten, bewaffneten Konflikten und anderen externen Schocks konfrontiert, die zu drastischen Verteilungsänderungen führen
  3. Forschungslücke: Bestehende Forschung zur Modelldrift konzentriert sich hauptsächlich auf reife Finanzmärkte und vernachlässigt Entwicklungsländer

Einschränkungen bestehender Methoden

  1. Reaktive Ansätze: Traditionelle Methoden wie Metrik-Überwachung und Neutraining werden erst nach Auftreten der Drift durchgeführt
  2. Datenabhängigkeit: Erfordert das Warten auf echte Daten zum Neutraining von Modellen
  3. Mangelnde regionale Spezifität: Fehlende Lösungen für die besonderen Bedingungen von Entwicklungsländern

Forschungsmotivation

Die Autoren schlagen eine proaktive Strategie vor, die durch die Einführung synthetischer Ausreißer während der Trainingsphase Modelle vorab an extreme Szenarien anpasst und damit die Robustheit gegenüber unbekannten Schocks erhöht.

Kernbeiträge

  1. Neues Stabilitätsbewertungsrahmenwerk: Umfasst zwei Metriken – Stabilitätswert (SS) und Stabilitätssteigerung (SU) – die die Stabilitätsleistung von Modellen unter Schocks quantifizieren
  2. Innovative Verwendung synthetischer Ausreißer: Nutzt von zGAN generierte synthetische Ausreißer zur Verbesserung der Modellrobustheit gegenüber plötzlichen Schocks
  3. Schließung einer regionalen Forschungslücke: Erste systematische Untersuchung von Drift-Minderungsmethoden auf Finanzdatensätzen aus Zentralasien und dem Kaukasus
  4. Open-Source-Implementierung: Veröffentlichung von vollständigem Code, Metriken und Experimenten einschließlich synthetischer Daten

Methodische Details

Aufgabendefinition

Eingabe: Finanzielle Tabellendaten (Kreditrisiko-Vorhersageaufgabe) Ausgabe: Binäre Klassifizierungsergebnisse (Zahlungsausfall/Normal) Ziel: Aufrechterhaltung der Stabilitätsleistung des Modells bei Datenverteilungsänderungen durch externe Schocks

Kernmethodisches Rahmenwerk

1. Schockdefinition und Messung der Verteilungsänderung

Ein Schock wird als ein plötzliches Ereignis definiert, das zu unmittelbaren signifikanten Änderungen in der Merkmalsverteilung des Datengenerierungsprozesses führt. Die Verteilungsänderung (DS) wird wie folgt berechnet:

DS=1C+N(cCdTV(Pbaseline(c),Pshocked(c))+nNdKS(Pbaseline(n),Pshocked(n)))τDS = \frac{1}{|C|+|N|}\left(\sum_{c \in C} d_{TV}(P_{baseline}(c), P_{shocked}(c)) + \sum_{n \in N} d_{KS}(P_{baseline}(n), P_{shocked}(n))\right) \geq \tau

wobei C und N jeweils kategorische und numerische Merkmale darstellen, und dTVd_{TV} und dKSd_{KS} jeweils die Totalvariationsdistanz und die Kolmogorov-Smirnov-Statistik darstellen.

2. Stabilitätswert (SS)

Quantifiziert die Fähigkeit eines Modells, die Vorhersageleistung unter Drift zu bewahren:

SS=1A^baseA^shock1+log(1+DS+ε)[0.5,1]SS = 1 - \frac{|\hat{A}_{base} - \hat{A}_{shock}|}{1 + \log(1 + DS + \varepsilon)} \in [0.5, 1]

wobei A^base\hat{A}_{base} und A^shock\hat{A}_{shock} jeweils die Modellleistung auf Baseline- und Schockdaten darstellen.

3. Stabilitätssteigerung (SU)

Vergleicht den relativen Vorteil zweier Modelle unter Drift:

SU=w(wBSSBwASSA)SU = w \cdot (w'_B \cdot SS_B - w'_A \cdot SS_A)

wobei Gewichte durch eine Sigmoid-Funktion berechnet werden und die interne Stabilität und relative Überlegenheit des Modells berücksichtigen.

4. Generierung synthetischer Ausreißer

Verwendet einen zGAN-Generator mit:

  • Standard-GAN-Komponenten: Generator-Diskriminator-Architektur
  • Ausreißer-Bedingter-Kovarianzgenerator (covGEN): Stichprobenentnahme makroökonomischer Ausreißer aus extremwerttheoretisch kompatiblen multivariaten Verteilungen
  • Bedingtes VAE: Bereitstellung von Kovarianzmatrizen
  • Hash-Ähnlichkeitsfilter: Vermeidung übermäßiger Ähnlichkeit mit echten Datensätzen

Technische Innovationen

  1. Proaktive Stabilitätsstrategie: Statt auf Drift-Auftreten zu warten, wird das Modell bereits während des Trainings extremen Szenarien ausgesetzt
  2. Zweischichtiges Bewertungsrahmenwerk: SS misst einzelne Modellstabilität, SU vergleicht relative Vorteile zwischen Modellen
  3. Regionale Spezifität: Methode ist auf makroökonomische Schocks in Entwicklungsländern zugeschnitten
  4. Nicht-monotone Optimierung: Optimale Ausreißerquote liegt typischerweise bei 5-10%, nicht „je mehr desto besser"

Experimentelle Einrichtung

Datensätze

Experimente verwenden private Kreditrisikodatensätze aus 5 Entwicklungsländern:

  • A1 (Tadschikistan): Handelskonflikt-Schock, DS=0,2250
  • A4 (Usbekistan): Kein eindeutiger Schock, DS=0,0050
  • A5 (Kasachstan): Bewaffneter-Konflikt-Schock, DS=0,1212
  • A6 (Jordanien): Kein eindeutiger Schock, DS=0,0026
  • A9 (Aserbaidschan): Bewaffneter-Konflikt-Schock, DS=0,1802
  • Offener Datensatz (Lending Club): Handelskonflikt-Schock, DS=0,1193

Alle Aufgaben sind binäre Zahlungsausfallvorhersagen mit Klassenungleichgewicht (ca. 2-12%).

Bewertungsmetriken

  • AUC_base: Leistung vor Schock
  • AUC_shock: Leistung nach Schock
  • SS: Stabilitätswert
  • SU: Stabilitätssteigerung

Vergleichsmethoden

Getestete 8 Maschinenlernmodelle:

  • CatBoost, TabPFN, FT-Transformer, HGBoosting
  • NGBoost, XGBoost, LightGBM, TabNet

Implementierungsdetails

  • Datenteilung: 80/20 Trainings-Test-Aufteilung
  • Anteil synthetischer Daten: 50/50 echte/synthetische Mischung
  • Ausreißerquote: 0%, 1%, 3%, 5%, 7%, 10%, 50%, 100%
  • Monte-Carlo-Bewertung: 51 zufällige Aufteilungen
  • Globale Hyperparameter: (k1, k2, k3) = (100, 1000, 1000)

Experimentelle Ergebnisse

Hauptergebnisse

Nach Tabelle 1 beste Ergebnisse:

  • A1 (Tadschikistan): TabNet ohne Ausreißer erreicht SU=0,8441
  • A4 (Usbekistan): TabPFN mit 50% Ausreißer erreicht SU=0,7449
  • A9 (Aserbaidschan): TabPFN mit 5% Ausreißer erreicht SU=0,9981
  • Offener Datensatz: FT-Transformer mit 100% Ausreißer erreicht SU=0,8884

Wichtigste Erkenntnisse

  1. Flexible Architekturen profitieren am meisten: TabPFN und FT-Transformer erzielen unter Schocks typischerweise die höchsten SU-Werte
  2. Ausreißerquote ist nicht monoton: Mittlere Injektionsmengen (5-10%) maximieren häufig SU, zu kleine oder zu große Mengen schwächen die Gewinne ab
  3. Gewinne korrelieren mit Schockstärke: Größte Verbesserungen bei Datensätzen mit höherem DS (A1, A9), begrenzte Verbesserungen bei minimalem DS (A4, A6)

Statistische Analyse

Über alle Modell-Datensatz-Paare hinweg:

  • 53% der Fälle: Hinzufügen von Ausreißern verbessert Stabilität (135/256)
  • 83% der besten Konfigurationen: Training mit Ausreißern übertrifft Training ohne (10/12)
  • Signifikante Modellunterschiede: HGBoosting, NGBoost, XGBoost, LightGBM profitieren in 50% der Fälle, FT-Transformer in 75%, CatBoost, TabPFN, TabNet in 100%

Fallstudie

Analyse des Wechselkursmerkmals „tjs/usd" aus dem tadschikischen Datensatz zeigt:

  • Synthetische Ausreißer bilden angemessene Extremwerte in Verteilungsschwänzen
  • 5-10% Ausreißerquote bewahrt Authentizität bei ausreichender Extremwert-Exposition
  • UMAP-Projektion zeigt hohe Ähnlichkeit zwischen synthetischen und echten Daten mit angemessen verteilten Ausreißern in Randbereichen

Verwandte Arbeiten

Drift-Erkennungs- und Adaptationsmethoden

  • Zeitliche Drift: Abhängigkeitsbeziehungen entwickeln sich allmählich über die Zeit
  • Bedingte Drift: Neue Daten stammen aus unterrepräsentierten Regionen des Merkmalsraums
  • Kontextuelle Drift: Plötzliche Änderungen der Input-Output-Beziehung aufgrund externer Schocks

Traditionelle Methoden umfassen ADWIN-Algorithmus, inkrementelles Lernen und gleitende Fenster, hauptsächlich reaktive Strategien.

Synthetische Datenforschung

Verwandte Arbeiten umfassen das TabOOD-Rahmenwerk zur Generierung verteilungsexterner Tabellenstichproben und synthetische Daten für Drift-Erkennung in Geschäftsprozessen, aber die gezielte Verwendung synthetischer Ausreißer zur Drift-Minderung bleibt untererforscht.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Synthetische Ausreißer sind wirksam: Verbessern in den meisten Fällen die Modellstabilität bei plötzlichen Schocks
  2. Optimale Quote existiert: Typischerweise im Bereich 5-10%, erfordert Ausgleich zwischen Extremwert-Exposition und Datenqualität
  3. Architektur-Sensitivität: Flexible neuronale Netzwerk-Architekturen nutzen Ausreißer-Informationen besser als traditionelle Baummodelle
  4. Regionale Anwendbarkeit: Methode zeigt Wirksamkeit auf Datensätzen aus mehreren Ländern in Entwicklungsländern

Einschränkungen

  1. Fehlende universelle Regeln: Keine Methode zur Auswahl der optimalen Ausreißerquote gefunden
  2. Datensatz-Limitierungen: Hauptsächlich auf Kreditrisiko-Aufgaben validiert, Anwendbarkeit auf andere Finanzaufgaben unklar
  3. Schocktyp-Limitierungen: Hauptsächlich auf makroökonomische Schocks ausgerichtet, Wirksamkeit bei anderen Drift-Typen unklar
  4. Rechnerischer Aufwand: Erfordert Training zusätzlicher Generierungsmodelle, erhöht Rechenkosten

Zukünftige Richtungen

  1. Adaptive Ausreißerquote: Entwicklung heuristischer Methoden zur automatischen Bestimmung der optimalen Ausreißerquote
  2. Mehrere Schocktypen: Erweiterung auf mehr Arten von Verteilungsänderungen
  3. Echtzeit-Anpassung: Integration mit Online-Lernen für dynamische Anpassung
  4. Theoretische Analyse: Bereitstellung tieferer theoretischer Garantien und Analysen

Tiefgreifende Bewertung

Stärken

  1. Hervorragende Problembedeutung: Konzentriert sich auf das vernachlässigte aber wichtige Anwendungsszenario von Entwicklungsländern
  2. Starke methodische Innovation: Proaktive Ausreißer-Injektionsstrategie ist neuartig und praktisch wertvoll
  3. Umfassendes Bewertungsrahmenwerk: SS- und SU-Metriken sind gut konzipiert und ermöglichen umfassende Stabilitätsbewertung
  4. Strenge Experimentaldesign: 51 Monte-Carlo-Wiederholungen, mehrere Datensätze, Vergleich mehrerer Modelle
  5. Open-Source-Beitrag: Bereitstellung von vollständigem Code und Daten erhöht Reproduzierbarkeit

Schwächen

  1. Datensatz-Privatheit: Kerndatensätze können nicht öffentlich gemacht werden, begrenzt Ergebnis-Verifizierbarkeit
  2. Schwache theoretische Grundlagen: Fehlende tiefgreifende theoretische Analyse, warum Ausreißer Stabilität verbessern
  3. Hyperparameter-Sensitivität: Auswahl der k1, k2, k3-Parameter für SU-Metrik mangelt es an theoretischer Anleitung
  4. Unklar Anwendungsbereich: Hauptsächlich auf Tabellendaten validiert, Anwendbarkeit auf andere Datentypen unklar
  5. Rechnerische Effizienz: Keine Analyse von Rechenaufwand und Skalierbarkeit der Methode

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektive und Methode für Modelldrift-Forschung
  2. Praktischer Wert: Direkte Anwendbarkeit für Finanzinstitutionen in Entwicklungsländern
  3. Methodische Inspiration: Proaktive Stabilitätsstrategie könnte weitere verwandte Forschung inspirieren
  4. Datensatz-Wert: Trotz Privatheit bietet wichtige empirische Grundlage für Forschung in der Region

Anwendungsszenarien

  1. Finanzinstitutionen in Entwicklungsländern: Besonders geeignet für Finanzumgebungen mit häufigen externen Schocks
  2. Kreditrisikomanagement: Erhöht Modellrobustheit bei kritischen Aufgaben wie Zahlungsausfallvorhersage
  3. Makroökonomisch instabile Regionen: Jeder Markt mit politischer und wirtschaftlicher Unsicherheit
  4. Proaktives Risikomanagement: Szenarien, die Vorbeugung statt reaktive Reaktion erfordern

Literaturverzeichnis

Das Papier zitiert 31 verwandte Arbeiten, hauptsächlich:

  1. Grundlagenforschung zu Modelldrift: Hinder et al. (2024), Halstead et al. (2022) und andere Übersichtsarbeiten zu Konzeptdrift
  2. Drift-Erkennungsmethoden: ADWIN-Algorithmus (Bifet & Gavaldà, 2007), Online-Lernmethoden
  3. Synthetische Datengenerierung: GAN-bezogene Arbeiten (Goodfellow et al., 2014), TabOOD-Rahmenwerk (Puranik et al., 2024)
  4. Maschinenlernmodelle: Originalarbeiten zu CatBoost, XGBoost, LightGBM und anderen Mainstream-Modellen
  5. Statistische Methoden: Extremwerttheorie (de Haan & Ferreira, 2006), Kolmogorov-Smirnov-Test

Gesamtbewertung: Dies ist ein hochqualitatives Papier, das eine innovative Lösung für ein wichtiges aber vernachlässigtes Anwendungsgebiet (Finanzstabilität in Entwicklungsländern) bietet. Die Methode ist neuartig, die Experimente umfassend, und die praktische Anwendbarkeit ist bedeutsam, aber es gibt noch Raum für Verbesserungen in theoretischer Tiefe und Universalität.