When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
Vascotto, Rodriguez, Bonaita et al.
Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.
academic
Quando Puoi Fidarti delle Tue Spiegazioni? Un'Analisi di Robustezza sulle Importanze delle Caratteristiche
Con il continuo perfezionamento della normativa sull'intelligenza artificiale, la necessità di intelligenza artificiale esplicabile (XAI) è in costante crescita. Tuttavia, la mancanza di standard normalizzati per la validazione dei metodi di spiegazione rimane un ostacolo principale nello sviluppo di sistemi affidabili. Questo articolo affronta il problema della robustezza delle spiegazioni, spesso trascurato ma cruciale nell'XAI, proponendo un nuovo metodo di analisi per valutare la robustezza delle spiegazioni delle reti neurali rispetto a perturbazioni non avversariali. Il metodo sfrutta l'ipotesi della varietà per generare punti dati perturbati che si conformano alla distribuzione dei dati osservati, e propone un metodo di ensemble per aggregare molteplici spiegazioni, dimostrando i benefici della fusione delle spiegazioni per comprendere le decisioni del modello e valutare la robustezza.
Requisiti Normativi: Normative come l'AI Act dell'UE e il GDPR enfatizzano l'importanza della trasparenza e dell'esplicabilità dei sistemi di IA
Dilemma della Scatola Nera: I moderni sistemi di IA presentano caratteristiche di scatola nera a causa del gran numero di parametri, mancando di trasparenza
Instabilità dei Metodi di Spiegazione: I metodi XAI esistenti come LIME e SHAP presentano problemi intrinseci di instabilità
Mancanza di Standardizzazione: Assenza di criteri normalizzati per la validazione dei metodi di spiegazione
Valutazione della Robustezza: La robustezza delle spiegazioni è un elemento centrale per garantire l'affidabilità del sistema e delle spiegazioni
Necessità Pratica: Fornire ai professionisti un quadro pratico per valutare l'affidabilità delle spiegazioni del modello
Problema della Discrepanza nelle Spiegazioni: Risolvere il problema dei risultati conflittuali quando si applicano molteplici metodi di spiegazione allo stesso punto dati
Stimatore di Robustezza: Propone un insieme di proprietà che uno stimatore di robustezza ideale dovrebbe soddisfare, e dimostra che il metodo proposto soddisfa tutte queste proprietà
Metodo di Ensemble per Spiegazioni: Affronta il problema della discrepanza nelle spiegazioni delle reti neurali proponendo un metodo di ensemble basato sul ranking delle caratteristiche
Framework di Perturbazione Non-Avversariale: Introduce un framework per testare la robustezza delle spiegazioni rispetto a perturbazioni non-avversariali e valuta l'affidabilità nelle applicazioni pratiche
Metodo di Valutazione della Validazione della Robustezza: Propone un nuovo metodo di valutazione della validazione dello stimatore di robustezza, affrontando il problema della mancanza di uno standard reale
Dato un dataset tabulare D = (X,y), contenente N punti dati e m caratteristiche, il compito è valutare la robustezza di un metodo di spiegazione e applicato a una rete neurale f, dove la spiegazione è presentata sotto forma di vettore di importanza delle caratteristiche.
dove è incluso un termine di penalità per l'incoerenza di segno, e lo schema di ponderazione considera la grandezza relativa dell'importanza delle caratteristiche.
Utilizza tre reti neurali con accuratezza simile ma architetture diverse per la validazione, valutando l'efficacia della stima della robustezza attraverso l'analisi ROC/AUC.
Complessità Computazionale: Richiede il passaggio in rete per ogni punto dati, ogni perturbazione e ogni metodo
Sensibilità ai Parametri: La generazione del vicinato e la selezione della soglia richiedono un'attenta sintonizzazione
Ipotesi di Validazione: Si basa sull'ipotesi che la coerenza delle previsioni del modello sia un indicatore proxy della robustezza, che potrebbe non essere sempre valida
Rigore Teorico: Propone un quadro teorico completo dello stimatore di robustezza, con sei proprietà chiaramente definite
Innovazione Metodologica: La generazione del vicinato basata sulla varietà e il metodo di ensemble che considera la coerenza di segno presentano novità
Valore Pratico: Fornisce un processo completo di valutazione dell'affidabilità con significato orientativo per le applicazioni pratiche
Esperimenti Completi: Esperimenti sufficienti su più dataset, inclusi studi di ablazione e analisi di validazione
L'articolo cita importanti lavori nel campo dell'XAI, inclusi metodi classici come LIME e SHAP, nonché ricerche all'avanguardia sulla robustezza delle spiegazioni e gli attacchi avversariali, fornendo una solida base teorica per questa ricerca.