2025-11-25T17:22:18.138717

Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events

Vascotto, Blasone, Rodriguez et al.

The usage of eXplainable Artificial Intelligence (XAI) methods has become essential in practical applications, given the increasing deployment of Artificial Intelligence (AI) models and the legislative requirements put forward in the latest years. A fundamental but often underestimated aspect of the explanations is their robustness, a key property that should be satisfied in order to trust the explanations. In this study, we provide some preliminary insights on evaluating the reliability of explanations in the specific case of unbalanced datasets, which are very frequent in high-risk use-cases, but at the same time considerably challenging for both AI models and XAI methods. We propose a simple evaluation focused on the minority class (i.e. the less frequent one) that leverages on-manifold generation of neighbours, explanation aggregation and a metric to test explanation consistency. We present a use-case based on a tabular dataset with numerical features focusing on the occurrence of frost events.

academic

Valutazione dell'affidabilità delle spiegazioni in dataset sbilanciati: un caso d'uso sull'occorrenza di eventi di gelo

Informazioni Fondamentali

ID Articolo: 2507.09545
Titolo: Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events
Autori: Ilaria Vascotto, Valentina Blasone, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione/Conferenza: Late-breaking work, 3rd World Conference on eXplainable Artificial Intelligence (9-11 luglio 2025, Istanbul, Turchia)
Link Articolo: https://arxiv.org/abs/2507.09545

Riassunto

L'utilizzo di metodi di Intelligenza Artificiale Esplicabile (XAI) è diventato cruciale nelle applicazioni pratiche, grazie alla crescente diffusione dei modelli di IA e ai requisiti normativi proposti negli ultimi anni. La robustezza delle spiegazioni rappresenta un aspetto fondamentale ma spesso sottovalutato, costituendo un attributo chiave che le spiegazioni affidabili devono soddisfare. Questo studio fornisce alcuni insegnamenti preliminari sulla valutazione dell'affidabilità delle spiegazioni nel caso specifico di dataset sbilanciati. I dataset sbilanciati sono molto comuni nei casi d'uso ad alto rischio, ma al contempo presentano sfide considerevoli sia per i modelli di IA che per i metodi XAI. Proponiamo un semplice metodo di valutazione focalizzato sulla classe minoritaria (ossia la classe con frequenza inferiore), che sfrutta la generazione di vicini su varietà, l'aggregazione di spiegazioni e metriche per testare la coerenza delle spiegazioni. Dimostriamo il metodo su dataset tabulari con caratteristiche numeriche, utilizzando come caso d'uso l'occorrenza di eventi di gelo.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questo studio è: come valutare l'affidabilità delle spiegazioni XAI in dataset sbilanciati. Nello specifico, quando il dataset contiene un numero estremamente ridotto di campioni della classe minoritaria, i metodi di spiegazione tradizionali possono produrre risultati inaffidabili.

Analisi dell'Importanza

Requisiti Normativi: Normative come il GDPR e l'AI Act impongono requisiti di trasparenza per applicazioni ad alto rischio
Necessità Pratiche: Settori ad alto rischio come medicina, climatologia e rilevamento delle frodi affrontano frequentemente problemi di squilibrio dei dati
Crisi di Fiducia: Su dataset sbilanciati, anche se un modello raggiunge un'accuratezza del 99%, potrebbe semplicemente predire la classe maggioritaria

Limitazioni dei Metodi Esistenti

Metodi LIME e SHAP mostrano scarsa robustezza su dataset sbilanciati
Mancanza di Valutazione Mirata: I metodi esistenti si concentrano principalmente sulle prestazioni complessive, trascurando le specificità della classe minoritaria
Instabilità delle Spiegazioni: Input simili possono produrre spiegazioni radicalmente diverse

Motivazione della Ricerca

Gli autori ritengono che la valutazione dell'affidabilità delle spiegazioni per la classe minoritaria sia particolarmente importante nei dataset sbilanciati, poiché:

La previsione accurata di eventi rari è cruciale nelle applicazioni ad alto rischio
La classe maggioritaria è facile da predire, quindi le sue spiegazioni potrebbero non essere necessariamente affidabili
Sono necessari metodi specializzati per valutare la robustezza delle spiegazioni della classe minoritaria

Contributi Principali

Propone un framework di valutazione dell'affidabilità delle spiegazioni specificamente progettato per dataset sbilanciati, focalizzato su campioni della classe minoritaria
Progetta un metodo di generazione di vicini basato su varietà, garantendo che i campioni perturbati rimangono sulla varietà dei dati
Introduce metriche di coerenza, valutando l'affidabilità mediante il confronto tra spiegazioni originali e spiegazioni aggregate localmente
Valida il metodo su un compito reale di previsione del gelo, caratterizzato da un elevato squilibrio (99:1)

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un dataset sbilanciato $\mathcal{D} = (X,y)$ , dove $P(y=0) \gg P(y=1)$ (0 è la classe maggioritaria, 1 è la classe minoritaria), addestriamo una rete neurale $f(\cdot)$ , con l'obiettivo di valutare l'affidabilità del metodo di spiegazione $e$ sui campioni della classe minoritaria.

Architettura del Modello

1. Generazione di Vicini (Neighbourhood Generation)

Adotta la generazione di vicini su varietà basata su clustering k-medoids:

Procedura:

Applica clustering k-medoids al set di validazione, ottenendo $k_{medoids}$ cluster
Dimensione media di ogni cluster $n_k = 10$
Estrae il medoid di ogni cluster come punto rappresentativo
Per ogni campione di test, trova il medoid corrispondente e i suoi $k_{nn}=5$ vicini più prossimi

Formula di Perturbazione: $\tilde{x}_j = (1-\bar{\lambda}) \cdot x_j + \bar{\lambda} \cdot x_{M_j}$ dove $\bar{\lambda} \sim Beta(\lambda \cdot 100, (1-\lambda) \cdot 100)$

2. Media Locale (Local Averaging)

Calcola la media ponderata delle spiegazioni per i campioni della classe minoritaria: $\bar{e}(x) = \frac{\sum_{\tilde{x} \in \mathcal{N}} e(\tilde{x}) \cdot \pi(x,\tilde{x})}{\sum_{\tilde{x} \in \mathcal{N}} \pi(x,\tilde{x})}$ dove il peso $\pi(x,\tilde{x}) = \frac{1}{dist(x,\tilde{x})}$

3. Valutazione dell'Affidabilità

Definisce due metriche di valutazione:

Robustezza Locale: $\hat{\mathcal{R}}(x) = \frac{1}{|\mathcal{N}|} \sum_{\tilde{x} \in \mathcal{N}} \rho(e(x), e(\tilde{x}))$

Coerenza: $\hat{\mathcal{C}}(x) = \rho(e(x), \bar{e}(x))$ dove $\rho$ è il coefficiente di correlazione di Spearman

Punti di Innovazione Tecnica

Generazione di Vicini Consapevole della Varietà: Rispetto al rumore gaussiano casuale, il metodo basato su medoid genera vicini più conformi alla distribuzione dei dati
Valutazione Specializzata per la Classe Minoritaria: Si concentra sui campioni più critici ma più fragili della classe minoritaria
Introduzione di Metriche di Coerenza: Valuta la coerenza locale confrontando le spiegazioni originali con le spiegazioni aggregate
Aggregazione di Spiegazioni Ponderata per Distanza: Calcola la media ponderata delle spiegazioni in base alla distanza tra i campioni

Configurazione Sperimentale

Dataset

Dataset di Previsione del Gelo:

Fonte: Dati di rianalisi ERA5 (ECMWF) + dati proprietari di compagnie assicurative
Intervallo Temporale: 2009-2024 (15 anni)
Ambito Geografico: Intero territorio della Polonia
Caratteristiche: 8 variabili atmosferiche numeriche (normalizzate)
Obiettivo: Classificazione binaria (occorrenza o meno di gelo)
Grado di Squilibrio: 99% vs 1% (altamente sbilanciato)
Divisione dei Dati: Training set 75%, validation set 15%, test set 10% (stratificato per regione)

Metriche di Valutazione

Prestazioni del Modello: F1-score (appropriato per dataset sbilanciati)
Affidabilità delle Spiegazioni: Robustezza locale $\hat{\mathcal{R}}(x)$ e coerenza $\hat{\mathcal{C}}(x)$
Misure di Correlazione: Coefficiente di correlazione di Spearman

Metodi di Confronto

Metodi di Spiegazione:

Integrated Gradients: Metodo di attribuzione basato su integrazione del gradiente
DeepLIFT: Metodo basato sulla propagazione delle differenze di attivazione
Layer-wise Relevance Propagation (LRP): Propagazione della rilevanza per strato
Metodo Ensemble: Combinazione ponderata dei tre metodi precedenti

Confronto della Generazione di Vicini:

Generazione con rumore gaussiano casuale vs generazione su varietà basata su medoid

Dettagli di Implementazione

Architettura del Modello: Rete neurale completamente connessa a 5 strati, attivazione ReLU, output sigmoid
Funzione di Perdita: Focal Loss ( $\gamma=2.5, \alpha=0.75$ )
Ottimizzatore: RAdam, tasso di apprendimento 0.0001
Configurazione di Addestramento: 100 epoch, dimensione batch 256
Parametri dei Vicini: $k_{nn}=5, \lambda=0.05$ , dimensione dei vicini $n=100$

Risultati Sperimentali

Risultati Principali

Prestazioni del Modello

Dataset	F1 Classe Maggioritaria	F1 Classe Minoritaria	Numero Campioni Classe Minoritaria
Training set	1.00	0.66	~2,500
Validation set	1.00	0.50	~450
Test set	1.00	0.51	~300

Confronto delle Prestazioni dei Metodi di Spiegazione

Metodo	Robustezza $\hat{\mathcal{R}}(x)$	Coerenza $\hat{\mathcal{C}}(x)$
Integrated Gradients	89.34% (±8.35%)	97.56% (±3.58%)
DeepLIFT	97.69% (±2.26%)	99.40% (±1.51%)
LRP	76.77% (±15.70%)	89.86% (±19.95%)
Ensemble	79.03% (±12.56%)	89.20% (±13.73%)

Risultati Chiave

Importanza del Metodo di Generazione dei Vicini: Il metodo basato su medoid mostra prestazioni significativamente migliori rispetto al rumore casuale sulla classe minoritaria
DeepLIFT Presenta le Migliori Prestazioni: Raggiunge i punteggi più alti e le deviazioni standard più basse in entrambe le metriche di robustezza e coerenza
Instabilità di LRP: A causa del problema della scomparsa del gradiente, LRP mostra le prestazioni più instabili
Fragilità della Classe Minoritaria: Le spiegazioni della classe minoritaria sono più facilmente influenzate dalla scelta del metodo di generazione dei vicini rispetto alla classe maggioritaria

Esperimenti di Ablazione

Mediante il confronto tra generazione casuale di vicini e generazione basata su medoid, dimostra che:

Il metodo casuale produce maggiori spostamenti di distribuzione sulla classe minoritaria
Il metodo basato su medoid preserva meglio la struttura della varietà dei dati
La classe minoritaria è più sensibile alla scelta del metodo di generazione dei vicini

Lavori Correlati

Ricerca sulla Robustezza di XAI

Limitazioni di LIME e SHAP: Studi precedenti hanno dimostrato che questi metodi presentano scarse prestazioni sotto attacchi avversariali
Stabilità delle Spiegazioni: I lavori esistenti si concentrano principalmente sulla stabilità delle spiegazioni in casi generali, mancando di ricerca specializzata su dati sbilanciati

Apprendimento su Dati Sbilanciati

Metodi Tradizionali: Ricampionamento, apprendimento sensibile ai costi, ecc.
Metodi di Deep Learning: Funzioni di perdita specializzate come Focal Loss per gestire lo squilibrio
Sfide di Valutazione: Le metriche di valutazione tradizionali falliscono su dati estremamente sbilanciati

Contributi di Questo Articolo

Rispetto ai lavori esistenti, questo articolo è il primo a studiare sistematicamente il problema dell'affidabilità dei metodi XAI in dataset sbilanciati, proponendo un framework di valutazione specializzato.

Conclusioni e Discussione

Conclusioni Principali

L'affidabilità delle spiegazioni in dataset sbilanciati è un problema importante ma trascurato
Le spiegazioni della classe minoritaria richiedono metodi di valutazione speciali, i metodi tradizionali potrebbero produrre risultati fuorvianti
La generazione di vicini basata su varietà può migliorare significativamente l'affidabilità della valutazione
DeepLIFT mostra le migliori prestazioni nel compito di previsione del gelo, con elevata robustezza e coerenza

Limitazioni

Il metodo è ancora in fase preliminare: Richiede validazione su più dataset e scenari
Considera solo dati tabulari: Non affronta immagini, testi e altri tipi di dati
Limitazioni delle Metriche di Valutazione: Le metriche attuali potrebbero non catturare completamente la qualità delle spiegazioni
Costo Computazionale: La generazione di numerosi vicini per ogni campione aumenta il costo computazionale

Direzioni Future

Estensione a Diversi Gradi di Squilibrio: Investigare le prestazioni del metodo con diversi livelli di squilibrio
Dati Multimodali: Estendere il metodo a immagini, testi e altri tipi di dati
Analisi dell'Incertezza: Combinare la quantificazione dell'incertezza per migliorare la valutazione della classe minoritaria
Dati Spazio-Temporali: Considerare le proprietà specifiche delle dimensioni spaziali e temporali

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Affronta un problema importante ma trascurato nel campo dell'XAI
Innovazione del Metodo: Propone un framework di valutazione mirato con fondamenti teorici
Completezza Sperimentale: Validazione in scenari reali con valore applicativo pratico
Chiarezza della Presentazione: Struttura dell'articolo chiara e descrizione dettagliata del metodo

Carenze

Scala Sperimentale Limitata: Validazione su un solo dataset, mancanza di prove di universalità
Analisi Teorica Insufficiente: Mancanza di analisi approfondita delle proprietà teoriche del metodo
Limitazioni dei Metodi di Base: Nessun confronto con metodi XAI specializzati per dati sbilanciati
Metriche di Valutazione Singolari: Dipendenza principalmente da metriche di correlazione, potrebbe non riflettere completamente la qualità delle spiegazioni

Impatto

Contributo Accademico: Fornisce nuove prospettive per l'applicazione di XAI su dati sbilanciati
Valore Pratico: Offre indicazioni per la distribuzione di XAI in applicazioni ad alto rischio
Riproducibilità: Il codice è open-source, facilitando la riproduzione e l'estensione

Scenari Applicabili

Applicazioni ad Alto Rischio: Diagnosi medica, controllo del rischio finanziario, avvisi meteorologici, ecc.
Dati Estremamente Sbilanciati: Rilevamento delle frodi, rilevamento di anomalie, previsione di eventi rari
Settori con Requisiti Normativi Rigorosi: Industrie che richiedono IA esplicabile

Bibliografia

L'articolo cita importanti lavori nel campo dell'XAI, inclusi:

Metodi classici come LIME 3 e SHAP 4
Metodi di spiegazione per reti neurali come Integrated Gradients 11, DeepLIFT 12, LRP 13
Tecniche di apprendimento su dati sbilanciati come Focal Loss 7
Lavori correlati sull'analisi di robustezza 5, 9, 10

Valutazione Complessiva: Questo è un lavoro di ricerca preliminare che affronta un importante problema pratico. Sebbene vi sia spazio per miglioramenti nella scala sperimentale e nella profondità teorica, apre una nuova direzione di ricerca per la valutazione dell'affidabilità dell'XAI su dataset sbilanciati, con buone prospettive di applicazione pratica.