2025-11-20T00:01:14.681107

When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

Vascotto, Rodriguez, Bonaita et al.

Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.

academic

Quando Puoi Fidarti delle Tue Spiegazioni? Un'Analisi di Robustezza sulle Importanze delle Caratteristiche

Informazioni Fondamentali

ID Articolo: 2406.14349
Titolo: When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
Autori: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: Giugno 2024 (preprint arXiv, aggiornato ad aprile 2025)
Link dell'Articolo: https://arxiv.org/abs/2406.14349

Riassunto

Con il continuo perfezionamento della normativa sull'intelligenza artificiale, la necessità di intelligenza artificiale esplicabile (XAI) è in costante crescita. Tuttavia, la mancanza di standard normalizzati per la validazione dei metodi di spiegazione rimane un ostacolo principale nello sviluppo di sistemi affidabili. Questo articolo affronta il problema della robustezza delle spiegazioni, spesso trascurato ma cruciale nell'XAI, proponendo un nuovo metodo di analisi per valutare la robustezza delle spiegazioni delle reti neurali rispetto a perturbazioni non avversariali. Il metodo sfrutta l'ipotesi della varietà per generare punti dati perturbati che si conformano alla distribuzione dei dati osservati, e propone un metodo di ensemble per aggregare molteplici spiegazioni, dimostrando i benefici della fusione delle spiegazioni per comprendere le decisioni del modello e valutare la robustezza.

Contesto di Ricerca e Motivazione

Contesto del Problema

Requisiti Normativi: Normative come l'AI Act dell'UE e il GDPR enfatizzano l'importanza della trasparenza e dell'esplicabilità dei sistemi di IA
Dilemma della Scatola Nera: I moderni sistemi di IA presentano caratteristiche di scatola nera a causa del gran numero di parametri, mancando di trasparenza
Instabilità dei Metodi di Spiegazione: I metodi XAI esistenti come LIME e SHAP presentano problemi intrinseci di instabilità
Mancanza di Standardizzazione: Assenza di criteri normalizzati per la validazione dei metodi di spiegazione

Motivazione della Ricerca

Valutazione della Robustezza: La robustezza delle spiegazioni è un elemento centrale per garantire l'affidabilità del sistema e delle spiegazioni
Necessità Pratica: Fornire ai professionisti un quadro pratico per valutare l'affidabilità delle spiegazioni del modello
Problema della Discrepanza nelle Spiegazioni: Risolvere il problema dei risultati conflittuali quando si applicano molteplici metodi di spiegazione allo stesso punto dati

Contributi Principali

Stimatore di Robustezza: Propone un insieme di proprietà che uno stimatore di robustezza ideale dovrebbe soddisfare, e dimostra che il metodo proposto soddisfa tutte queste proprietà
Metodo di Ensemble per Spiegazioni: Affronta il problema della discrepanza nelle spiegazioni delle reti neurali proponendo un metodo di ensemble basato sul ranking delle caratteristiche
Framework di Perturbazione Non-Avversariale: Introduce un framework per testare la robustezza delle spiegazioni rispetto a perturbazioni non-avversariali e valuta l'affidabilità nelle applicazioni pratiche
Metodo di Valutazione della Validazione della Robustezza: Propone un nuovo metodo di valutazione della validazione dello stimatore di robustezza, affrontando il problema della mancanza di uno standard reale

Dettagli Metodologici

Definizione del Compito

Dato un dataset tabulare D = (X,y), contenente N punti dati e m caratteristiche, il compito è valutare la robustezza di un metodo di spiegazione e applicato a una rete neurale f, dove la spiegazione è presentata sotto forma di vettore di importanza delle caratteristiche.

Stimatore di Robustezza

Definizione Centrale

La robustezza è definita come la capacità del metodo di spiegazione di fornire spiegazioni coerenti quando l'input viene modificato:

x → x̃, e(x) → e(x̃) ⟹ r(x,e) = g(x,x̃,e)

Sei Proprietà Fondamentali

L'articolo propone sei proprietà chiave che uno stimatore di robustezza dovrebbe soddisfare:

Proprietà 1: La robustezza è l'aspettativa della robustezza individuale
Proprietà 2: I punteggi di robustezza dei punti vicini sono simili
Proprietà 3: L'estimatore include incertezza
Proprietà 4: Le perturbazioni sulla varietà hanno robustezza più elevata rispetto a quelle al di fuori della varietà
Proprietà 5: La robustezza degli stimatori aggregati è limitata
Proprietà 6: Le spiegazioni di modelli equivalenti hanno robustezza simile

Calcolo della Robustezza

Utilizza il coefficiente di correlazione di rango di Spearman per calcolare la robustezza:

R̂(xi,Ni,e,f) = (1/|Ni|) ∑(x̃i∈Ni) ρ(e(xi,f), e(x̃i,f))

Meccanismo di Generazione del Vicinato

Vicinato Casuale (NR)

Variabili numeriche: Aggiunta di rumore bianco gaussiano
Variabili categoriche: Inversione casuale

Vicinato Basato su Centroidi (NM)

Meccanismo più raffinato che sfrutta l'ipotesi della varietà:

Eseguire il clustering k-centroidi sul set di validazione
Trovare i kM centroidi più vicini per ogni centro di clustering
Utilizzare la distribuzione Beta per la perturbazione mediante interpolazione

Metodo di Ensemble

Propone una media ponderata basata sul ranking delle caratteristiche:

a(i,j)ens = (∑L l=1 r(i,j)l · w(i,j)l) / (∑L l=1 w(i,j)l) · (1 + λn̄(i,j))

dove è incluso un termine di penalità per l'incoerenza di segno, e lo schema di ponderazione considera la grandezza relativa dell'importanza delle caratteristiche.

Framework di Valutazione dell'Affidabilità

Utilizza un regressore k-nearest neighbor per predire la robustezza locale, classificando i punti dati in tre categorie:

Punti Robusti: R̂(xi) ≥ rth e Rknn(xi) ≥ rth
Punti Incerti: R̂(xi) ≥ rth ma Rknn(xi) < rth
Punti Non Robusti: R̂(xi) < rth

Configurazione Sperimentale

Dataset

Utilizza 8 dataset tabulari pubblici:

Dataset Giocattolo: beans, cancer, mushroom, white wine
Dataset Reali: adult, bank marketing, heloc, ocean

Metodi XAI

Si concentra su metodi specifici per reti neurali:

DeepLIFT: Calcola l'importanza delle caratteristiche basata sulla differenza rispetto a un punto di riferimento
Integrated Gradients: Integra i gradienti lungo il percorso dalla linea di base all'input
Layer-wise Relevance Propagation (LRP): Propagazione della rilevanza basata sulla retropropagazione

Strategia di Validazione

Utilizza tre reti neurali con accuratezza simile ma architetture diverse per la validazione, valutando l'efficacia della stima della robustezza attraverso l'analisi ROC/AUC.

Risultati Sperimentali

Principali Scoperte

Effetto della Generazione del Vicinato

Il vicinato basato su centroidi (NM) produce punteggi di robustezza più elevati rispetto al vicinato casuale (NR)
Il metodo NM genera perturbazioni più conformi alla varietà dei dati, validando la Proprietà 4

Vantaggi del Metodo di Ensemble

La robustezza delle spiegazioni aggregate funge da stima conservativa della robustezza dei metodi individuali
Può considerare la robustezza dei metodi individuali e la coerenza a livello di caratteristica
Fornisce spiegazioni più affidabili rispetto ai metodi di media semplice

Risultati della Classificazione dell'Affidabilità

Con soglia rth = 0.80:

Nella maggior parte dei dataset, i punti robusti costituiscono la maggioranza
La proporzione di punti incerti e non robusti non è trascurabile
Il dataset mushroom presenta un caso speciale poiché tutti e tre i modelli raggiungono il 100% di accuratezza

Analisi di Validazione

L'analisi ROC/AUC mostra:

Il metodo di ensemble combinato con il vicinato basato su centroidi presenta le migliori prestazioni nella maggior parte dei dataset
La proporzione di incoerenza nelle previsioni del modello tra i punti non robusti è generalmente superiore a quella tra i punti robusti
Supporta l'ipotesi di utilizzare la coerenza delle previsioni del modello come indicatore di validazione della robustezza

Lavori Correlati

Limitazioni dei Metodi XAI

LIME: Naturalmente instabile a causa della casualità nella generazione del vicinato
SHAP: Influenzato dalla correlazione delle caratteristiche, dalla variabilità del campionamento e dallo spostamento della distribuzione dei dati
Metodi Basati su Gradienti: Sebbene più robusti dei metodi di perturbazione, presentano ancora instabilità

Metodi di Valutazione della Robustezza

Attacchi Avversariali: Si concentrano su attacchi che manipolano malevolmente le spiegazioni
Perturbazione Casuale: Valutano i punti deboli intrinseci
Manipolazione del Modello: Influenzano le spiegazioni modificando la funzione di perdita e altri aspetti

Metodi di Misurazione Esistenti

Includono correlazione ordinale, intersezione top-k, corrispondenza di regole, ecc., ma mancano di una misura unificata e limitata.

Conclusioni e Discussione

Conclusioni Principali

Lo stimatore di robustezza proposto soddisfa tutte le proprietà teoriche, fornendo una misura limitata nell'intervallo 0,1
La generazione del vicinato basata sulla varietà è più appropriata della perturbazione casuale per valutare la vera robustezza
Il metodo di ensemble può affrontare efficacemente il problema della discrepanza nelle spiegazioni, fornendo spiegazioni più affidabili
Il framework può identificare i punti dati in aree incerte, migliorando l'affidabilità nelle applicazioni pratiche

Limitazioni

Complessità Computazionale: Richiede il passaggio in rete per ogni punto dati, ogni perturbazione e ogni metodo
Sensibilità ai Parametri: La generazione del vicinato e la selezione della soglia richiedono un'attenta sintonizzazione
Ipotesi di Validazione: Si basa sull'ipotesi che la coerenza delle previsioni del modello sia un indicatore proxy della robustezza, che potrebbe non essere sempre valida

Direzioni Future

Generalizzazione del Modello: Estensione ad altri modelli di machine learning come i modelli basati su alberi
Robustezza Avversariale: Ricerca sulla relazione con gli attacchi avversariali e le capacità di difesa
Robustezza del Classificatore: Esplorazione di come utilizzare le spiegazioni per migliorare la robustezza del classificatore

Valutazione Approfondita

Punti di Forza

Rigore Teorico: Propone un quadro teorico completo dello stimatore di robustezza, con sei proprietà chiaramente definite
Innovazione Metodologica: La generazione del vicinato basata sulla varietà e il metodo di ensemble che considera la coerenza di segno presentano novità
Valore Pratico: Fornisce un processo completo di valutazione dell'affidabilità con significato orientativo per le applicazioni pratiche
Esperimenti Completi: Esperimenti sufficienti su più dataset, inclusi studi di ablazione e analisi di validazione

Insufficienze

Sovraccarico Computazionale: La complessità computazionale del metodo è relativamente elevata, il che potrebbe limitare le applicazioni su larga scala
Dipendenza dai Parametri: Molteplici iperparametri richiedono sintonizzazione, aumentando la complessità del metodo
Limitazioni della Validazione: Il metodo di validazione in assenza di uno standard reale ha ancora spazio per miglioramenti
Ambito di Applicabilità: Principalmente focalizzato su dati tabulari e reti neurali, con generalizzabilità da verificare

Impatto

Contributo Accademico: Fornisce un quadro teorico e metodologico sistematico per la valutazione della robustezza dell'XAI
Guida Pratica: Fornisce ai professionisti strumenti specifici per valutare l'affidabilità delle spiegazioni
Promozione della Standardizzazione: Contribuisce all'istituzione di criteri normalizzati per la valutazione dei metodi XAI

Scenari di Applicabilità

Validazione delle spiegazioni in scenari di applicazione dell'IA ad alto rischio
Situazioni che richiedono il confronto e la selezione di molteplici metodi XAI
Ambienti normativi con requisiti rigorosi di affidabilità delle spiegazioni
Analisi delle spiegazioni delle reti neurali su dati tabulari

Bibliografia

L'articolo cita importanti lavori nel campo dell'XAI, inclusi metodi classici come LIME e SHAP, nonché ricerche all'avanguardia sulla robustezza delle spiegazioni e gli attacchi avversariali, fornendo una solida base teorica per questa ricerca.