2025-11-20T00:01:14.681107

When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

Vascotto, Rodriguez, Bonaita et al.
Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.
academic

Quando Puoi Fidarti delle Tue Spiegazioni? Un'Analisi di Robustezza sulle Importanze delle Caratteristiche

Informazioni Fondamentali

  • ID Articolo: 2406.14349
  • Titolo: When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
  • Autori: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: Giugno 2024 (preprint arXiv, aggiornato ad aprile 2025)
  • Link dell'Articolo: https://arxiv.org/abs/2406.14349

Riassunto

Con il continuo perfezionamento della normativa sull'intelligenza artificiale, la necessità di intelligenza artificiale esplicabile (XAI) è in costante crescita. Tuttavia, la mancanza di standard normalizzati per la validazione dei metodi di spiegazione rimane un ostacolo principale nello sviluppo di sistemi affidabili. Questo articolo affronta il problema della robustezza delle spiegazioni, spesso trascurato ma cruciale nell'XAI, proponendo un nuovo metodo di analisi per valutare la robustezza delle spiegazioni delle reti neurali rispetto a perturbazioni non avversariali. Il metodo sfrutta l'ipotesi della varietà per generare punti dati perturbati che si conformano alla distribuzione dei dati osservati, e propone un metodo di ensemble per aggregare molteplici spiegazioni, dimostrando i benefici della fusione delle spiegazioni per comprendere le decisioni del modello e valutare la robustezza.

Contesto di Ricerca e Motivazione

Contesto del Problema

  1. Requisiti Normativi: Normative come l'AI Act dell'UE e il GDPR enfatizzano l'importanza della trasparenza e dell'esplicabilità dei sistemi di IA
  2. Dilemma della Scatola Nera: I moderni sistemi di IA presentano caratteristiche di scatola nera a causa del gran numero di parametri, mancando di trasparenza
  3. Instabilità dei Metodi di Spiegazione: I metodi XAI esistenti come LIME e SHAP presentano problemi intrinseci di instabilità
  4. Mancanza di Standardizzazione: Assenza di criteri normalizzati per la validazione dei metodi di spiegazione

Motivazione della Ricerca

  • Valutazione della Robustezza: La robustezza delle spiegazioni è un elemento centrale per garantire l'affidabilità del sistema e delle spiegazioni
  • Necessità Pratica: Fornire ai professionisti un quadro pratico per valutare l'affidabilità delle spiegazioni del modello
  • Problema della Discrepanza nelle Spiegazioni: Risolvere il problema dei risultati conflittuali quando si applicano molteplici metodi di spiegazione allo stesso punto dati

Contributi Principali

  1. Stimatore di Robustezza: Propone un insieme di proprietà che uno stimatore di robustezza ideale dovrebbe soddisfare, e dimostra che il metodo proposto soddisfa tutte queste proprietà
  2. Metodo di Ensemble per Spiegazioni: Affronta il problema della discrepanza nelle spiegazioni delle reti neurali proponendo un metodo di ensemble basato sul ranking delle caratteristiche
  3. Framework di Perturbazione Non-Avversariale: Introduce un framework per testare la robustezza delle spiegazioni rispetto a perturbazioni non-avversariali e valuta l'affidabilità nelle applicazioni pratiche
  4. Metodo di Valutazione della Validazione della Robustezza: Propone un nuovo metodo di valutazione della validazione dello stimatore di robustezza, affrontando il problema della mancanza di uno standard reale

Dettagli Metodologici

Definizione del Compito

Dato un dataset tabulare D = (X,y), contenente N punti dati e m caratteristiche, il compito è valutare la robustezza di un metodo di spiegazione e applicato a una rete neurale f, dove la spiegazione è presentata sotto forma di vettore di importanza delle caratteristiche.

Stimatore di Robustezza

Definizione Centrale

La robustezza è definita come la capacità del metodo di spiegazione di fornire spiegazioni coerenti quando l'input viene modificato:

x → x̃, e(x) → e(x̃) ⟹ r(x,e) = g(x,x̃,e)

Sei Proprietà Fondamentali

L'articolo propone sei proprietà chiave che uno stimatore di robustezza dovrebbe soddisfare:

  1. Proprietà 1: La robustezza è l'aspettativa della robustezza individuale
  2. Proprietà 2: I punteggi di robustezza dei punti vicini sono simili
  3. Proprietà 3: L'estimatore include incertezza
  4. Proprietà 4: Le perturbazioni sulla varietà hanno robustezza più elevata rispetto a quelle al di fuori della varietà
  5. Proprietà 5: La robustezza degli stimatori aggregati è limitata
  6. Proprietà 6: Le spiegazioni di modelli equivalenti hanno robustezza simile

Calcolo della Robustezza

Utilizza il coefficiente di correlazione di rango di Spearman per calcolare la robustezza:

R̂(xi,Ni,e,f) = (1/|Ni|) ∑(x̃i∈Ni) ρ(e(xi,f), e(x̃i,f))

Meccanismo di Generazione del Vicinato

Vicinato Casuale (NR)

  • Variabili numeriche: Aggiunta di rumore bianco gaussiano
  • Variabili categoriche: Inversione casuale

Vicinato Basato su Centroidi (NM)

Meccanismo più raffinato che sfrutta l'ipotesi della varietà:

  1. Eseguire il clustering k-centroidi sul set di validazione
  2. Trovare i kM centroidi più vicini per ogni centro di clustering
  3. Utilizzare la distribuzione Beta per la perturbazione mediante interpolazione

Metodo di Ensemble

Propone una media ponderata basata sul ranking delle caratteristiche:

a(i,j)ens = (∑L l=1 r(i,j)l · w(i,j)l) / (∑L l=1 w(i,j)l) · (1 + λn̄(i,j))

dove è incluso un termine di penalità per l'incoerenza di segno, e lo schema di ponderazione considera la grandezza relativa dell'importanza delle caratteristiche.

Framework di Valutazione dell'Affidabilità

Utilizza un regressore k-nearest neighbor per predire la robustezza locale, classificando i punti dati in tre categorie:

  1. Punti Robusti: R̂(xi) ≥ rth e Rknn(xi) ≥ rth
  2. Punti Incerti: R̂(xi) ≥ rth ma Rknn(xi) < rth
  3. Punti Non Robusti: R̂(xi) < rth

Configurazione Sperimentale

Dataset

Utilizza 8 dataset tabulari pubblici:

  • Dataset Giocattolo: beans, cancer, mushroom, white wine
  • Dataset Reali: adult, bank marketing, heloc, ocean

Metodi XAI

Si concentra su metodi specifici per reti neurali:

  • DeepLIFT: Calcola l'importanza delle caratteristiche basata sulla differenza rispetto a un punto di riferimento
  • Integrated Gradients: Integra i gradienti lungo il percorso dalla linea di base all'input
  • Layer-wise Relevance Propagation (LRP): Propagazione della rilevanza basata sulla retropropagazione

Strategia di Validazione

Utilizza tre reti neurali con accuratezza simile ma architetture diverse per la validazione, valutando l'efficacia della stima della robustezza attraverso l'analisi ROC/AUC.

Risultati Sperimentali

Principali Scoperte

Effetto della Generazione del Vicinato

  • Il vicinato basato su centroidi (NM) produce punteggi di robustezza più elevati rispetto al vicinato casuale (NR)
  • Il metodo NM genera perturbazioni più conformi alla varietà dei dati, validando la Proprietà 4

Vantaggi del Metodo di Ensemble

  • La robustezza delle spiegazioni aggregate funge da stima conservativa della robustezza dei metodi individuali
  • Può considerare la robustezza dei metodi individuali e la coerenza a livello di caratteristica
  • Fornisce spiegazioni più affidabili rispetto ai metodi di media semplice

Risultati della Classificazione dell'Affidabilità

Con soglia rth = 0.80:

  • Nella maggior parte dei dataset, i punti robusti costituiscono la maggioranza
  • La proporzione di punti incerti e non robusti non è trascurabile
  • Il dataset mushroom presenta un caso speciale poiché tutti e tre i modelli raggiungono il 100% di accuratezza

Analisi di Validazione

L'analisi ROC/AUC mostra:

  • Il metodo di ensemble combinato con il vicinato basato su centroidi presenta le migliori prestazioni nella maggior parte dei dataset
  • La proporzione di incoerenza nelle previsioni del modello tra i punti non robusti è generalmente superiore a quella tra i punti robusti
  • Supporta l'ipotesi di utilizzare la coerenza delle previsioni del modello come indicatore di validazione della robustezza

Lavori Correlati

Limitazioni dei Metodi XAI

  • LIME: Naturalmente instabile a causa della casualità nella generazione del vicinato
  • SHAP: Influenzato dalla correlazione delle caratteristiche, dalla variabilità del campionamento e dallo spostamento della distribuzione dei dati
  • Metodi Basati su Gradienti: Sebbene più robusti dei metodi di perturbazione, presentano ancora instabilità

Metodi di Valutazione della Robustezza

  • Attacchi Avversariali: Si concentrano su attacchi che manipolano malevolmente le spiegazioni
  • Perturbazione Casuale: Valutano i punti deboli intrinseci
  • Manipolazione del Modello: Influenzano le spiegazioni modificando la funzione di perdita e altri aspetti

Metodi di Misurazione Esistenti

Includono correlazione ordinale, intersezione top-k, corrispondenza di regole, ecc., ma mancano di una misura unificata e limitata.

Conclusioni e Discussione

Conclusioni Principali

  1. Lo stimatore di robustezza proposto soddisfa tutte le proprietà teoriche, fornendo una misura limitata nell'intervallo 0,1
  2. La generazione del vicinato basata sulla varietà è più appropriata della perturbazione casuale per valutare la vera robustezza
  3. Il metodo di ensemble può affrontare efficacemente il problema della discrepanza nelle spiegazioni, fornendo spiegazioni più affidabili
  4. Il framework può identificare i punti dati in aree incerte, migliorando l'affidabilità nelle applicazioni pratiche

Limitazioni

  1. Complessità Computazionale: Richiede il passaggio in rete per ogni punto dati, ogni perturbazione e ogni metodo
  2. Sensibilità ai Parametri: La generazione del vicinato e la selezione della soglia richiedono un'attenta sintonizzazione
  3. Ipotesi di Validazione: Si basa sull'ipotesi che la coerenza delle previsioni del modello sia un indicatore proxy della robustezza, che potrebbe non essere sempre valida

Direzioni Future

  1. Generalizzazione del Modello: Estensione ad altri modelli di machine learning come i modelli basati su alberi
  2. Robustezza Avversariale: Ricerca sulla relazione con gli attacchi avversariali e le capacità di difesa
  3. Robustezza del Classificatore: Esplorazione di come utilizzare le spiegazioni per migliorare la robustezza del classificatore

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Propone un quadro teorico completo dello stimatore di robustezza, con sei proprietà chiaramente definite
  2. Innovazione Metodologica: La generazione del vicinato basata sulla varietà e il metodo di ensemble che considera la coerenza di segno presentano novità
  3. Valore Pratico: Fornisce un processo completo di valutazione dell'affidabilità con significato orientativo per le applicazioni pratiche
  4. Esperimenti Completi: Esperimenti sufficienti su più dataset, inclusi studi di ablazione e analisi di validazione

Insufficienze

  1. Sovraccarico Computazionale: La complessità computazionale del metodo è relativamente elevata, il che potrebbe limitare le applicazioni su larga scala
  2. Dipendenza dai Parametri: Molteplici iperparametri richiedono sintonizzazione, aumentando la complessità del metodo
  3. Limitazioni della Validazione: Il metodo di validazione in assenza di uno standard reale ha ancora spazio per miglioramenti
  4. Ambito di Applicabilità: Principalmente focalizzato su dati tabulari e reti neurali, con generalizzabilità da verificare

Impatto

  1. Contributo Accademico: Fornisce un quadro teorico e metodologico sistematico per la valutazione della robustezza dell'XAI
  2. Guida Pratica: Fornisce ai professionisti strumenti specifici per valutare l'affidabilità delle spiegazioni
  3. Promozione della Standardizzazione: Contribuisce all'istituzione di criteri normalizzati per la valutazione dei metodi XAI

Scenari di Applicabilità

  • Validazione delle spiegazioni in scenari di applicazione dell'IA ad alto rischio
  • Situazioni che richiedono il confronto e la selezione di molteplici metodi XAI
  • Ambienti normativi con requisiti rigorosi di affidabilità delle spiegazioni
  • Analisi delle spiegazioni delle reti neurali su dati tabulari

Bibliografia

L'articolo cita importanti lavori nel campo dell'XAI, inclusi metodi classici come LIME e SHAP, nonché ricerche all'avanguardia sulla robustezza delle spiegazioni e gli attacchi avversariali, fornendo una solida base teorica per questa ricerca.