The usage of eXplainable Artificial Intelligence (XAI) methods has become essential in practical applications, given the increasing deployment of Artificial Intelligence (AI) models and the legislative requirements put forward in the latest years. A fundamental but often underestimated aspect of the explanations is their robustness, a key property that should be satisfied in order to trust the explanations. In this study, we provide some preliminary insights on evaluating the reliability of explanations in the specific case of unbalanced datasets, which are very frequent in high-risk use-cases, but at the same time considerably challenging for both AI models and XAI methods. We propose a simple evaluation focused on the minority class (i.e. the less frequent one) that leverages on-manifold generation of neighbours, explanation aggregation and a metric to test explanation consistency. We present a use-case based on a tabular dataset with numerical features focusing on the occurrence of frost events.
- ID Articolo: 2507.09545
- Titolo: Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events
- Autori: Ilaria Vascotto, Valentina Blasone, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
- Classificazione: cs.LG (Machine Learning)
- Data di Pubblicazione/Conferenza: Late-breaking work, 3rd World Conference on eXplainable Artificial Intelligence (9-11 luglio 2025, Istanbul, Turchia)
- Link Articolo: https://arxiv.org/abs/2507.09545
L'utilizzo di metodi di Intelligenza Artificiale Esplicabile (XAI) è diventato cruciale nelle applicazioni pratiche, grazie alla crescente diffusione dei modelli di IA e ai requisiti normativi proposti negli ultimi anni. La robustezza delle spiegazioni rappresenta un aspetto fondamentale ma spesso sottovalutato, costituendo un attributo chiave che le spiegazioni affidabili devono soddisfare. Questo studio fornisce alcuni insegnamenti preliminari sulla valutazione dell'affidabilità delle spiegazioni nel caso specifico di dataset sbilanciati. I dataset sbilanciati sono molto comuni nei casi d'uso ad alto rischio, ma al contempo presentano sfide considerevoli sia per i modelli di IA che per i metodi XAI. Proponiamo un semplice metodo di valutazione focalizzato sulla classe minoritaria (ossia la classe con frequenza inferiore), che sfrutta la generazione di vicini su varietà, l'aggregazione di spiegazioni e metriche per testare la coerenza delle spiegazioni. Dimostriamo il metodo su dataset tabulari con caratteristiche numeriche, utilizzando come caso d'uso l'occorrenza di eventi di gelo.
Il problema centrale affrontato da questo studio è: come valutare l'affidabilità delle spiegazioni XAI in dataset sbilanciati. Nello specifico, quando il dataset contiene un numero estremamente ridotto di campioni della classe minoritaria, i metodi di spiegazione tradizionali possono produrre risultati inaffidabili.
- Requisiti Normativi: Normative come il GDPR e l'AI Act impongono requisiti di trasparenza per applicazioni ad alto rischio
- Necessità Pratiche: Settori ad alto rischio come medicina, climatologia e rilevamento delle frodi affrontano frequentemente problemi di squilibrio dei dati
- Crisi di Fiducia: Su dataset sbilanciati, anche se un modello raggiunge un'accuratezza del 99%, potrebbe semplicemente predire la classe maggioritaria
- Metodi LIME e SHAP mostrano scarsa robustezza su dataset sbilanciati
- Mancanza di Valutazione Mirata: I metodi esistenti si concentrano principalmente sulle prestazioni complessive, trascurando le specificità della classe minoritaria
- Instabilità delle Spiegazioni: Input simili possono produrre spiegazioni radicalmente diverse
Gli autori ritengono che la valutazione dell'affidabilità delle spiegazioni per la classe minoritaria sia particolarmente importante nei dataset sbilanciati, poiché:
- La previsione accurata di eventi rari è cruciale nelle applicazioni ad alto rischio
- La classe maggioritaria è facile da predire, quindi le sue spiegazioni potrebbero non essere necessariamente affidabili
- Sono necessari metodi specializzati per valutare la robustezza delle spiegazioni della classe minoritaria
- Propone un framework di valutazione dell'affidabilità delle spiegazioni specificamente progettato per dataset sbilanciati, focalizzato su campioni della classe minoritaria
- Progetta un metodo di generazione di vicini basato su varietà, garantendo che i campioni perturbati rimangono sulla varietà dei dati
- Introduce metriche di coerenza, valutando l'affidabilità mediante il confronto tra spiegazioni originali e spiegazioni aggregate localmente
- Valida il metodo su un compito reale di previsione del gelo, caratterizzato da un elevato squilibrio (99:1)
Dato un dataset sbilanciato D=(X,y), dove P(y=0)≫P(y=1) (0 è la classe maggioritaria, 1 è la classe minoritaria), addestriamo una rete neurale f(⋅), con l'obiettivo di valutare l'affidabilità del metodo di spiegazione e sui campioni della classe minoritaria.
Adotta la generazione di vicini su varietà basata su clustering k-medoids:
Procedura:
- Applica clustering k-medoids al set di validazione, ottenendo kmedoids cluster
- Dimensione media di ogni cluster nk=10
- Estrae il medoid di ogni cluster come punto rappresentativo
- Per ogni campione di test, trova il medoid corrispondente e i suoi knn=5 vicini più prossimi
Formula di Perturbazione:
x~j=(1−λˉ)⋅xj+λˉ⋅xMj
dove λˉ∼Beta(λ⋅100,(1−λ)⋅100)
Calcola la media ponderata delle spiegazioni per i campioni della classe minoritaria:
eˉ(x)=∑x~∈Nπ(x,x~)∑x~∈Ne(x~)⋅π(x,x~)
dove il peso π(x,x~)=dist(x,x~)1
Definisce due metriche di valutazione:
Robustezza Locale:
R^(x)=∣N∣1∑x~∈Nρ(e(x),e(x~))
Coerenza:
C^(x)=ρ(e(x),eˉ(x))
dove ρ è il coefficiente di correlazione di Spearman
- Generazione di Vicini Consapevole della Varietà: Rispetto al rumore gaussiano casuale, il metodo basato su medoid genera vicini più conformi alla distribuzione dei dati
- Valutazione Specializzata per la Classe Minoritaria: Si concentra sui campioni più critici ma più fragili della classe minoritaria
- Introduzione di Metriche di Coerenza: Valuta la coerenza locale confrontando le spiegazioni originali con le spiegazioni aggregate
- Aggregazione di Spiegazioni Ponderata per Distanza: Calcola la media ponderata delle spiegazioni in base alla distanza tra i campioni
Dataset di Previsione del Gelo:
- Fonte: Dati di rianalisi ERA5 (ECMWF) + dati proprietari di compagnie assicurative
- Intervallo Temporale: 2009-2024 (15 anni)
- Ambito Geografico: Intero territorio della Polonia
- Caratteristiche: 8 variabili atmosferiche numeriche (normalizzate)
- Obiettivo: Classificazione binaria (occorrenza o meno di gelo)
- Grado di Squilibrio: 99% vs 1% (altamente sbilanciato)
- Divisione dei Dati: Training set 75%, validation set 15%, test set 10% (stratificato per regione)
- Prestazioni del Modello: F1-score (appropriato per dataset sbilanciati)
- Affidabilità delle Spiegazioni: Robustezza locale R^(x) e coerenza C^(x)
- Misure di Correlazione: Coefficiente di correlazione di Spearman
Metodi di Spiegazione:
- Integrated Gradients: Metodo di attribuzione basato su integrazione del gradiente
- DeepLIFT: Metodo basato sulla propagazione delle differenze di attivazione
- Layer-wise Relevance Propagation (LRP): Propagazione della rilevanza per strato
- Metodo Ensemble: Combinazione ponderata dei tre metodi precedenti
Confronto della Generazione di Vicini:
- Generazione con rumore gaussiano casuale vs generazione su varietà basata su medoid
- Architettura del Modello: Rete neurale completamente connessa a 5 strati, attivazione ReLU, output sigmoid
- Funzione di Perdita: Focal Loss (γ=2.5,α=0.75)
- Ottimizzatore: RAdam, tasso di apprendimento 0.0001
- Configurazione di Addestramento: 100 epoch, dimensione batch 256
- Parametri dei Vicini: knn=5,λ=0.05, dimensione dei vicini n=100
| Dataset | F1 Classe Maggioritaria | F1 Classe Minoritaria | Numero Campioni Classe Minoritaria |
|---|
| Training set | 1.00 | 0.66 | ~2,500 |
| Validation set | 1.00 | 0.50 | ~450 |
| Test set | 1.00 | 0.51 | ~300 |
| Metodo | Robustezza R^(x) | Coerenza C^(x) |
|---|
| Integrated Gradients | 89.34% (±8.35%) | 97.56% (±3.58%) |
| DeepLIFT | 97.69% (±2.26%) | 99.40% (±1.51%) |
| LRP | 76.77% (±15.70%) | 89.86% (±19.95%) |
| Ensemble | 79.03% (±12.56%) | 89.20% (±13.73%) |
- Importanza del Metodo di Generazione dei Vicini: Il metodo basato su medoid mostra prestazioni significativamente migliori rispetto al rumore casuale sulla classe minoritaria
- DeepLIFT Presenta le Migliori Prestazioni: Raggiunge i punteggi più alti e le deviazioni standard più basse in entrambe le metriche di robustezza e coerenza
- Instabilità di LRP: A causa del problema della scomparsa del gradiente, LRP mostra le prestazioni più instabili
- Fragilità della Classe Minoritaria: Le spiegazioni della classe minoritaria sono più facilmente influenzate dalla scelta del metodo di generazione dei vicini rispetto alla classe maggioritaria
Mediante il confronto tra generazione casuale di vicini e generazione basata su medoid, dimostra che:
- Il metodo casuale produce maggiori spostamenti di distribuzione sulla classe minoritaria
- Il metodo basato su medoid preserva meglio la struttura della varietà dei dati
- La classe minoritaria è più sensibile alla scelta del metodo di generazione dei vicini
- Limitazioni di LIME e SHAP: Studi precedenti hanno dimostrato che questi metodi presentano scarse prestazioni sotto attacchi avversariali
- Stabilità delle Spiegazioni: I lavori esistenti si concentrano principalmente sulla stabilità delle spiegazioni in casi generali, mancando di ricerca specializzata su dati sbilanciati
- Metodi Tradizionali: Ricampionamento, apprendimento sensibile ai costi, ecc.
- Metodi di Deep Learning: Funzioni di perdita specializzate come Focal Loss per gestire lo squilibrio
- Sfide di Valutazione: Le metriche di valutazione tradizionali falliscono su dati estremamente sbilanciati
Rispetto ai lavori esistenti, questo articolo è il primo a studiare sistematicamente il problema dell'affidabilità dei metodi XAI in dataset sbilanciati, proponendo un framework di valutazione specializzato.
- L'affidabilità delle spiegazioni in dataset sbilanciati è un problema importante ma trascurato
- Le spiegazioni della classe minoritaria richiedono metodi di valutazione speciali, i metodi tradizionali potrebbero produrre risultati fuorvianti
- La generazione di vicini basata su varietà può migliorare significativamente l'affidabilità della valutazione
- DeepLIFT mostra le migliori prestazioni nel compito di previsione del gelo, con elevata robustezza e coerenza
- Il metodo è ancora in fase preliminare: Richiede validazione su più dataset e scenari
- Considera solo dati tabulari: Non affronta immagini, testi e altri tipi di dati
- Limitazioni delle Metriche di Valutazione: Le metriche attuali potrebbero non catturare completamente la qualità delle spiegazioni
- Costo Computazionale: La generazione di numerosi vicini per ogni campione aumenta il costo computazionale
- Estensione a Diversi Gradi di Squilibrio: Investigare le prestazioni del metodo con diversi livelli di squilibrio
- Dati Multimodali: Estendere il metodo a immagini, testi e altri tipi di dati
- Analisi dell'Incertezza: Combinare la quantificazione dell'incertezza per migliorare la valutazione della classe minoritaria
- Dati Spazio-Temporali: Considerare le proprietà specifiche delle dimensioni spaziali e temporali
- Importanza del Problema: Affronta un problema importante ma trascurato nel campo dell'XAI
- Innovazione del Metodo: Propone un framework di valutazione mirato con fondamenti teorici
- Completezza Sperimentale: Validazione in scenari reali con valore applicativo pratico
- Chiarezza della Presentazione: Struttura dell'articolo chiara e descrizione dettagliata del metodo
- Scala Sperimentale Limitata: Validazione su un solo dataset, mancanza di prove di universalità
- Analisi Teorica Insufficiente: Mancanza di analisi approfondita delle proprietà teoriche del metodo
- Limitazioni dei Metodi di Base: Nessun confronto con metodi XAI specializzati per dati sbilanciati
- Metriche di Valutazione Singolari: Dipendenza principalmente da metriche di correlazione, potrebbe non riflettere completamente la qualità delle spiegazioni
- Contributo Accademico: Fornisce nuove prospettive per l'applicazione di XAI su dati sbilanciati
- Valore Pratico: Offre indicazioni per la distribuzione di XAI in applicazioni ad alto rischio
- Riproducibilità: Il codice è open-source, facilitando la riproduzione e l'estensione
- Applicazioni ad Alto Rischio: Diagnosi medica, controllo del rischio finanziario, avvisi meteorologici, ecc.
- Dati Estremamente Sbilanciati: Rilevamento delle frodi, rilevamento di anomalie, previsione di eventi rari
- Settori con Requisiti Normativi Rigorosi: Industrie che richiedono IA esplicabile
L'articolo cita importanti lavori nel campo dell'XAI, inclusi:
- Metodi classici come LIME 3 e SHAP 4
- Metodi di spiegazione per reti neurali come Integrated Gradients 11, DeepLIFT 12, LRP 13
- Tecniche di apprendimento su dati sbilanciati come Focal Loss 7
- Lavori correlati sull'analisi di robustezza 5, 9, 10
Valutazione Complessiva: Questo è un lavoro di ricerca preliminare che affronta un importante problema pratico. Sebbene vi sia spazio per miglioramenti nella scala sperimentale e nella profondità teorica, apre una nuova direzione di ricerca per la valutazione dell'affidabilità dell'XAI su dataset sbilanciati, con buone prospettive di applicazione pratica.