Machine Learning models in finance are highly susceptible to model drift, where predictive performance declines as data distributions shift. This issue is especially acute in developing economies such as those in Central Asia and the Caucasus - including Tajikistan, Uzbekistan, Kazakhstan, and Azerbaijan - where frequent and unpredictable macroeconomics shocks destabilize financial data. To the best of our knowledge, this is among the first studies to examine drift mitigation methods on financial datasets from these regions. We investigate the use of synthetic outliers, a largely unexplored approach, to improve model stability against unforeseen shocks. To evaluate effectiveness, we introduce a two-level framework that measures both the extent of performance degradation and the severity of shocks. Our experiments on macroeconomic tabular datasets show that adding a small proportion of synthetic outliers generally improves stability compared to baseline models, though the optimal amount varies by dataset and model
Mitigazione della Deriva del Modello nelle Economie in Sviluppo Utilizzando Dati Sintetici e Outlier
- ID Articolo: 2510.09294
- Titolo: Mitigazione della Deriva del Modello nelle Economie in Sviluppo Utilizzando Dati Sintetici e Outlier
- Autori: Ilyas Varshavskiy, Bonu Boboeva, Shuhrat Khalilbekov, Azizjon Azimi, Sergey Shulgin, Akhlitdin Nizamitdinov, Haitz Sáez de Ocáriz Borde
- Classificazione: cs.LG (Machine Learning)
- Conferenza di Pubblicazione: 39ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale (NeurIPS 2025) Workshop: Intelligenza Artificiale Generativa in Finanza
- Link dell'Articolo: https://arxiv.org/abs/2510.09294
I modelli di machine learning nel settore finanziario sono estremamente vulnerabili alla deriva del modello, ovvero al deterioramento delle prestazioni predittive quando la distribuzione dei dati cambia. Questo problema è particolarmente grave nelle economie in sviluppo, specialmente nell'Asia centrale e nel Caucaso (inclusi Tagikistan, Uzbekistan, Kazakistan e Azerbaigian), dove gli shock macroeconomici frequenti e imprevedibili compromettono la stabilità dei dati finanziari. Secondo gli autori, questo è uno dei primi studi a esaminare metodi di mitigazione della deriva su dataset finanziari di queste regioni. L'articolo indaga l'uso di outlier sintetici, un metodo fondamentalmente inesplorato, per aumentare la stabilità del modello di fronte a shock inaspettati. Per valutare l'efficacia, gli autori introducono un framework a due livelli che misura sia il grado di degradazione delle prestazioni che la gravità dello shock. Gli esperimenti su dataset tabulari macroeconomici dimostrano che l'aggiunta di una piccola quantità di outlier sintetici generalmente migliora la stabilità rispetto ai modelli di base, sebbene la quantità ottimale vari a seconda del dataset e del modello.
Questo studio affronta il problema della deriva del modello nei modelli di machine learning finanziari di fronte a cambiamenti nella distribuzione, in particolare il calo acuto delle prestazioni del modello causato da frequenti shock macroeconomici nelle economie in sviluppo.
- Impatto Economico Significativo: Nelle economie in sviluppo, il costo del fallimento del modello può essere estremamente elevato, specialmente in applicazioni finanziarie critiche come la valutazione del rischio di credito
- Shock Frequenti e Imprevedibili: L'Asia centrale e il Caucaso affrontano frequentemente conflitti commerciali, conflitti armati e altri shock esterni che causano cambiamenti drastici nella distribuzione dei dati
- Lacuna nella Ricerca: La ricerca esistente sulla deriva del modello si concentra principalmente su mercati finanziari maturi, con scarsa attenzione alle economie in sviluppo
- Approccio Passivo: I metodi tradizionali come il monitoraggio delle metriche e il riaddestrament sono azioni intraprese solo dopo che la deriva si è verificata
- Dipendenza dai Dati: Richiedono l'attesa di dati del mondo reale per riaddestrare il modello
- Mancanza di Specificità Regionale: Mancano soluzioni specifiche per le circostanze particolari delle economie in sviluppo
Gli autori propongono una strategia proattiva introducendo outlier sintetici durante la fase di addestramento per preparare in anticipo il modello a situazioni estreme, aumentando così la robustezza del modello di fronte a shock sconosciuti.
- Propone un nuovo framework di valutazione della stabilità: Include due metriche, il Punteggio di Stabilizzazione (SS) e l'Incremento di Stabilizzazione (SU), che quantificano le prestazioni di stabilità del modello sotto shock
- Utilizza innovativamente outlier sintetici: Sfrutta outlier sintetici generati da zGAN per aumentare la robustezza del modello agli shock improvvisi
- Colma una lacuna nella ricerca regionale: Primo studio sistematico dei metodi di mitigazione della deriva del modello su dataset finanziari dell'Asia centrale e del Caucaso
- Fornisce un'implementazione open-source: Rilascia codice completo, metriche ed esperimenti, inclusi i dati sintetici
Input: Dati tabulari finanziari (compito di previsione del rischio di credito)
Output: Risultato di classificazione binaria (insolvenza/normale)
Obiettivo: Mantenere la stabilità delle prestazioni predittive del modello di fronte a cambiamenti nella distribuzione dei dati causati da shock esterni
Lo shock è definito come un evento improvviso nel processo di generazione dei dati che causa un cambiamento significativo e immediato nella distribuzione delle caratteristiche. Il cambiamento di distribuzione (DS) è calcolato mediante la seguente formula:
DS=∣C∣+∣N∣1(∑c∈CdTV(Pbaseline(c),Pshocked(c))+∑n∈NdKS(Pbaseline(n),Pshocked(n)))≥τ
dove C e N rappresentano rispettivamente le caratteristiche categoriche e numeriche, e dTV e dKS rappresentano rispettivamente la distanza di variazione totale e la statistica di Kolmogorov-Smirnov.
Quantifica la capacità del modello di mantenere le prestazioni predittive sotto deriva:
SS=1−1+log(1+DS+ε)∣A^base−A^shock∣∈[0.5,1]
dove A^base e A^shock rappresentano rispettivamente le prestazioni del modello su dati di base e dati sotto shock.
Confronta il vantaggio relativo di due modelli sotto deriva:
SU=w⋅(wB′⋅SSB−wA′⋅SSA)
dove i pesi sono calcolati mediante funzioni sigmoid, considerando la stabilità interna del modello e il vantaggio relativo.
Utilizza il generatore zGAN, che include:
- Componenti GAN Standard: Architettura generatore-discriminatore
- Generatore di Covarianza Condizionata per Outlier (covGEN): Campiona outlier macroeconomici da distribuzioni multivariate compatibili con la teoria dei valori estremi
- VAE Condizionato: Fornisce matrici di covarianza
- Filtro di Similarità Hash: Evita somiglianze eccessive con record reali
- Strategia di Stabilizzazione Proattiva: Invece di attendere che la deriva si verifichi, il modello viene esposto a situazioni estreme durante la fase di addestramento
- Framework di Valutazione a Due Livelli: SS misura la stabilità del singolo modello, SU confronta il vantaggio relativo tra modelli
- Design Specifico per la Regione: Il metodo è progettato in base alle caratteristiche degli shock macroeconomici nelle economie in sviluppo
- Ottimizzazione Non Monotona: La percentuale ottimale di outlier è solitamente tra il 5-10%, non necessariamente più è meglio
Gli esperimenti utilizzano dataset privati di rischio di credito da 5 economie in sviluppo:
- A1 (Tagikistan): Shock da conflitto commerciale, DS=0.2250
- A4 (Uzbekistan): Nessuno shock evidente, DS=0.0050
- A5 (Kazakistan): Shock da conflitto armato, DS=0.1212
- A6 (Giordania): Nessuno shock evidente, DS=0.0026
- A9 (Azerbaigian): Shock da conflitto armato, DS=0.1802
- Dataset Aperto (Lending Club): Shock da conflitto commerciale, DS=0.1193
Tutti i compiti sono previsioni binarie di insolvenza con squilibrio di classe (circa 2-12%).
- AUC_base: Prestazioni prima dello shock
- AUC_shock: Prestazioni dopo lo shock
- SS: Punteggio di Stabilizzazione
- SU: Incremento di Stabilizzazione
Sono stati testati 8 modelli di machine learning:
- CatBoost, TabPFN, FT-Transformer, HGBoosting
- NGBoost, XGBoost, LightGBM, TabNet
- Divisione dei dati: Divisione addestramento/test 80/20
- Proporzione di dati sintetici: Miscela 50/50 reale/sintetica
- Proporzione di outlier: 0%, 1%, 3%, 5%, 7%, 10%, 50%, 100%
- Valutazione Monte Carlo: 51 divisioni casuali
- Iperparametri globali: (k1, k2, k3) = (100, 1000, 1000)
Secondo i migliori risultati della Tabella 1:
- A1 (Tagikistan): TabNet senza outlier raggiunge SU=0.8441
- A4 (Uzbekistan): TabPFN con 50% outlier raggiunge SU=0.7449
- A9 (Azerbaigian): TabPFN con 5% outlier raggiunge SU=0.9981
- Dataset Aperto: FT-Transformer con 100% outlier raggiunge SU=0.8884
- Architetture Flessibili Traggono Maggior Beneficio: TabPFN e FT-Transformer generalmente ottengono i valori SU più alti sotto shock
- Proporzione di Outlier Non Monotona: L'iniezione di quantità moderate (5-10%) spesso massimizza SU, mentre quantità troppo piccole o troppo grandi riducono i benefici
- Benefici Correlati all'Intensità dello Shock: I miglioramenti sono massimi su dataset con DS più elevato (A1, A9), mentre sono limitati quando DS è minimo (A4, A6)
Tra tutte le coppie modello-dataset:
- 53% dei casi: L'aggiunta di una proporzione di outlier non nulla migliora la stabilità (135/256)
- 83% delle configurazioni ottimali: L'addestramento con outlier supera quello senza outlier (10/12)
- Differenze di Modello Significative: HGBoosting, NGBoost, XGBoost, LightGBM traggono beneficio nel 50% dei casi, FT-Transformer nel 75% dei casi, CatBoost, TabPFN, TabNet nel 100% dei casi
Dall'analisi della caratteristica "tjs/usd" del tasso di cambio del dataset del Tagikistan si può osservare:
- Gli outlier sintetici formano valori estremi ragionevoli nella coda della distribuzione
- La proporzione di outlier del 5-10% fornisce un'esposizione sufficiente ai valori estremi mantenendo l'autenticità
- La proiezione UMAP mostra che i dati sintetici sono altamente simili ai dati reali, con outlier appropriatamente distribuiti nelle aree di confine
- Deriva Temporale: Le relazioni di dipendenza evolvono gradualmente nel tempo
- Deriva Condizionale: I nuovi dati provengono da regioni sottorapresentate dello spazio delle caratteristiche
- Deriva Contestuale: Le relazioni input-output cambiano improvvisamente a causa di shock esterni
I metodi tradizionali includono l'algoritmo ADWIN, l'apprendimento incrementale, le finestre scorrevoli, ecc., principalmente strategie di risposta passiva.
I lavori correlati includono il framework TabOOD per generare campioni tabulari fuori distribuzione e l'uso di dati sintetici per il rilevamento della deriva nei processi aziendali, ma la ricerca sull'uso mirato di outlier sintetici per mitigare la deriva rimane ancora scarsa.
- Gli Outlier Sintetici Sono Efficaci: Nella maggior parte dei casi, aumentano la stabilità del modello di fronte a shock improvvisi
- Esiste una Proporzione Ottimale: Solitamente nell'intervallo 5-10%, che bilancia l'esposizione ai valori estremi e la qualità dei dati
- Sensibilità dell'Architettura: Le architetture di reti neurali flessibili possono sfruttare meglio le informazioni degli outlier rispetto ai modelli tradizionali basati su alberi
- Applicabilità Regionale: Il metodo mostra efficacia su dataset di più paesi nelle economie in sviluppo
- Mancanza di Regole Universali: Non è stato trovato un metodo universale per selezionare la percentuale ottimale di outlier
- Limitazioni del Dataset: La validazione è principalmente su compiti di rischio di credito, l'applicabilità ad altri compiti finanziari è sconosciuta
- Limitazione dei Tipi di Shock: Il metodo è principalmente rivolto agli shock macroeconomici, l'effetto su altri tipi di deriva non è chiaro
- Costo Computazionale: Richiede l'addestramento di modelli generativi aggiuntivi, aumentando il costo computazionale
- Proporzione di Outlier Adattiva: Sviluppare metodi euristici che determinino automaticamente la proporzione ottimale di outlier
- Shock di Tipi Multipli: Estendere a più scenari di cambiamento di distribuzione
- Adattamento in Tempo Reale: Combinare con l'apprendimento online per l'adattamento dinamico
- Analisi Teorica: Fornire garanzie teoriche più profonde e analisi
- Importanza del Problema Evidente: Si concentra su economie in sviluppo, uno scenario di applicazione trascurato ma importante
- Forte Innovazione del Metodo: La strategia di iniezione proattiva di outlier è innovativa e di valore pratico
- Framework di Valutazione Completo: Le metriche SS e SU sono ben progettate e valutano completamente la stabilità del modello
- Progettazione Sperimentale Rigorosa: Esperimenti di confronto con 51 ripetizioni Monte Carlo, dataset multipli e modelli diversi
- Contributo Open-Source: Fornisce codice e dati completi, migliorando la riproducibilità
- Natura Privata dei Dataset: I dataset principali non possono essere resi pubblici, limitando la verificabilità dei risultati
- Fondamenti Teorici Deboli: Manca un'analisi teorica approfondita del perché gli outlier migliorano la stabilità
- Sensibilità agli Iperparametri: La scelta dei parametri k1, k2, k3 della metrica SU manca di guida teorica sufficiente
- Ambito di Applicabilità Poco Chiaro: La validazione è principalmente su dati tabulari, l'applicabilità ad altri tipi di dati è sconosciuta
- Efficienza Computazionale: Non è stata analizzata la complessità computazionale e la scalabilità del metodo
- Contributo Accademico: Fornisce una nuova prospettiva e metodo per la ricerca sulla deriva del modello
- Valore Pratico: Ha valore di applicazione diretta per le istituzioni finanziarie nelle economie in sviluppo
- Ispirazione Metodologica: La strategia di stabilizzazione proattiva può ispirare ulteriori ricerche correlate
- Valore del Dataset: Sebbene privato, fornisce una base empirica importante per la ricerca nella regione
- Istituzioni Finanziarie nelle Economie in Sviluppo: Particolarmente adatto ad ambienti finanziari che affrontano frequenti shock esterni
- Gestione del Rischio di Credito: Aumenta la robustezza del modello in compiti critici come la previsione dell'insolvenza
- Regioni con Instabilità Macroeconomica: Qualsiasi mercato che affronti incertezza politica ed economica
- Gestione Proattiva del Rischio: Scenari che richiedono prevenzione anticipata piuttosto che risposta passiva
L'articolo cita 31 lavori correlati, principalmente includenti:
- Ricerca Fondamentale sulla Deriva del Modello: Lavori di sintesi di Hinder et al. (2024), Halstead et al. (2022) sulla deriva concettuale
- Metodi di Rilevamento della Deriva: Algoritmo ADWIN (Bifet & Gavaldà, 2007), metodi di apprendimento online, ecc.
- Generazione di Dati Sintetici: Lavori correlati a GAN (Goodfellow et al., 2014), framework TabOOD (Puranik et al., 2024)
- Modelli di Machine Learning: Articoli originali di CatBoost, XGBoost, LightGBM e altri modelli mainstream
- Metodi Statistici: Teoria dei valori estremi (de Haan & Ferreira, 2006), test di Kolmogorov-Smirnov, ecc.
Valutazione Complessiva: Questo è un articolo di alta qualità che propone una soluzione innovativa in un importante ma trascurato dominio di applicazione (stabilità finanziaria nelle economie in sviluppo). Il metodo è innovativo, gli esperimenti sono completi e il valore per l'applicazione pratica è significativo, ma c'è ancora spazio per miglioramenti nella profondità teorica e nella generalizzabilità.