2025-11-20T00:01:14.681107

When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

Vascotto, Rodriguez, Bonaita et al.

Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.

academic

Quand Pouvez-vous Faire Confiance à Vos Explications ? Une Analyse de Robustesse sur les Importances de Caractéristiques

Informations Fondamentales

ID de l'article: 2406.14349
Titre: When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
Auteurs: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
Classification: cs.LG (Apprentissage Automatique)
Date de Publication: Juin 2024 (prépublication arXiv, mise à jour avril 2025)
Lien de l'article: https://arxiv.org/abs/2406.14349

Résumé

Avec l'amélioration continue de la réglementation en intelligence artificielle, la demande d'intelligence artificielle explicable (XAI) augmente régulièrement. Cependant, l'absence de normes standardisées pour la validation des méthodes d'explication reste un obstacle majeur au développement de systèmes fiables. Cet article aborde la question de la robustesse des explications, souvent négligée mais cruciale en XAI, en proposant une nouvelle méthode d'analyse pour évaluer la robustesse des explications de réseaux de neurones face à des perturbations non adversariales. La méthode exploite l'hypothèse de variété pour générer des points de données perturbés conformes à la distribution des données observées, et propose une méthode d'ensemble pour agréger plusieurs explications, démontrant les avantages de la fusion d'explications pour la compréhension des décisions du modèle et l'évaluation de la robustesse.

Contexte et Motivation de la Recherche

Contexte du Problème

Exigences Réglementaires: La loi sur l'IA de l'Union Européenne et le RGPD soulignent l'importance de la transparence et de l'explicabilité des systèmes d'IA
Dilemme de la Boîte Noire: Les systèmes d'IA modernes présentent un caractère de boîte noire en raison de leurs nombreux paramètres, manquant de transparence
Instabilité des Méthodes d'Explication: Les méthodes XAI existantes telles que LIME et SHAP présentent des problèmes d'instabilité inhérents
Absence de Normalisation: Absence de critères standardisés pour valider les méthodes d'explication

Motivation de la Recherche

Évaluation de la Robustesse: La robustesse des explications est un élément central pour assurer la fiabilité du système et des explications
Besoins Pratiques: Fournir aux praticiens un cadre pratique pour évaluer la fiabilité des explications du modèle
Problème de Divergence d'Explications: Résoudre le problème des résultats conflictuels produits par plusieurs méthodes d'explication appliquées au même point de données

Contributions Principales

Estimateur de Robustesse: Propose un ensemble de propriétés que tout estimateur de robustesse idéal devrait satisfaire, et démontre que la méthode proposée satisfait toutes ces propriétés
Méthode d'Ensemble d'Explications: Face au problème de divergence des explications de réseaux de neurones, propose une méthode d'ensemble d'explications basée sur le classement des caractéristiques
Cadre de Perturbation Non-Adversariale: Introduit un cadre pour tester la robustesse des explications face à des perturbations non-adversariales et évalue sa fiabilité dans les applications pratiques
Méthode d'Évaluation de Validation de Robustesse: Propose une nouvelle méthode d'évaluation de validation d'estimateur de robustesse, résolvant le problème de l'absence d'étalon-or réel

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de données tabulaires D = (X,y) contenant N points de données et m caractéristiques, la tâche consiste à évaluer la robustesse d'une méthode d'explication e appliquée à un réseau de neurones f, où l'explication se présente sous la forme d'un vecteur d'importance de caractéristiques.

Estimateur de Robustesse

Définition Centrale

La robustesse est définie comme la capacité d'une méthode d'explication à fournir des explications cohérentes lorsque l'entrée est modifiée :

x → x̃, e(x) → e(x̃) ⟹ r(x,e) = g(x,x̃,e)

Six Propriétés Clés

L'article propose six propriétés clés que tout estimateur de robustesse devrait satisfaire :

Propriété 1: La robustesse est l'espérance de la robustesse individuelle
Propriété 2: Les scores de robustesse des points proches sont similaires
Propriété 3: L'estimation inclut l'incertitude
Propriété 4: Les perturbations sur la variété présentent une robustesse plus élevée que celles en dehors de la variété
Propriété 5: La robustesse des explicateurs agrégés est bornée
Propriété 6: Les explications des modèles équivalents présentent une robustesse similaire

Calcul de la Robustesse

Utilise le coefficient de corrélation de rang de Spearman pour calculer la robustesse :

R̂(xi,Ni,e,f) = (1/|Ni|) ∑(x̃i∈Ni) ρ(e(xi,f), e(x̃i,f))

Mécanisme de Génération de Voisinage

Voisinage Aléatoire (NR)

Variables numériques: Ajout de bruit blanc gaussien
Variables catégoriques: Inversion aléatoire

Voisinage Basé sur les Centres (NM)

Mécanisme plus raffiné exploitant l'hypothèse de variété :

Effectuer un clustering k-centres sur l'ensemble de validation
Trouver kM centres les plus proches pour chaque centre de cluster
Utiliser une distribution Beta pour les perturbations par interpolation

Méthode d'Ensemble

Propose une moyenne pondérée basée sur le classement des caractéristiques :

a(i,j)ens = (∑L l=1 r(i,j)l · w(i,j)l) / (∑L l=1 w(i,j)l) · (1 + λn̄(i,j))

où est inclus un terme de pénalité pour l'incohérence de signe, et le schéma de pondération considère la magnitude relative de l'importance des caractéristiques.

Cadre d'Évaluation de la Fiabilité

Utilise un régresseur k-plus proches voisins pour prédire la robustesse locale, classant les points de données en trois catégories :

Points Robustes: R̂(xi) ≥ rth et Rknn(xi) ≥ rth
Points Incertains: R̂(xi) ≥ rth mais Rknn(xi) < rth
Points Non-Robustes: R̂(xi) < rth

Configuration Expérimentale

Ensembles de Données

Utilise 8 ensembles de données tabulaires publics :

Ensembles de Jouets: beans, cancer, mushroom, white wine
Ensembles Réels: adult, bank marketing, heloc, ocean

Méthodes XAI

Se concentre sur les méthodes spécifiques aux réseaux de neurones :

DeepLIFT: Calcule l'importance des caractéristiques basée sur les différences de référence
Integrated Gradients: Intègre les gradients le long du chemin de la ligne de base à l'entrée
Layer-wise Relevance Propagation (LRP): Propagation de pertinence basée sur la rétropropagation

Stratégie de Validation

Utilise trois réseaux de neurones avec une précision similaire mais des architectures différentes pour la validation, évaluant l'efficacité de l'estimation de robustesse par analyse ROC/AUC.

Résultats Expérimentaux

Principales Conclusions

Efficacité de la Génération de Voisinage

Le voisinage basé sur les centres (NM) produit des scores de robustesse plus élevés que le voisinage aléatoire (NR)
La méthode NM génère des perturbations plus conformes à la variété de données, validant la Propriété 4

Avantages de la Méthode d'Ensemble

La robustesse des explications d'ensemble agit comme une estimation conservative de la robustesse des méthodes individuelles
Peut considérer la robustesse des méthodes individuelles et la cohérence au niveau des caractéristiques
Fournit des explications plus fiables par rapport aux méthodes de moyenne simple

Résultats de Classification de Fiabilité

Au seuil rth = 0,80 :

Les points robustes dominent dans la plupart des ensembles de données
Les proportions de points incertains et non-robustes ne sont pas négligeables
L'ensemble de données mushroom présente un cas particulier en raison de la précision de 100% des trois modèles

Analyse de Validation

L'analyse ROC/AUC montre :

La méthode d'ensemble associée au voisinage basé sur les centres présente les meilleures performances sur la plupart des ensembles de données
La proportion de prédictions incohérentes du modèle parmi les points non-robustes est généralement plus élevée que parmi les points robustes
Soutient l'hypothèse d'utiliser la cohérence des prédictions du modèle comme indicateur de validation de robustesse

Travaux Connexes

Limitations des Méthodes XAI

LIME: Naturellement instable en raison du caractère aléatoire de la génération de voisinage
SHAP: Affectée par la corrélation des caractéristiques, la variabilité d'échantillonnage et le décalage de distribution des données
Méthodes de Gradient: Bien que plus robustes que les méthodes de perturbation, elles présentent toujours une instabilité

Méthodes d'Évaluation de Robustesse

Attaques Adversariales: Se concentrent sur les attaques manipulant malveillamment les explications
Perturbations Aléatoires: Évaluent les faiblesses inhérentes
Manipulation de Modèle: Influencent les explications en modifiant les fonctions de perte, etc.

Méthodes de Mesure Existantes

Incluent la corrélation ordinale, l'intersection top-k, la correspondance de règles, etc., mais manquent d'une mesure unifiée et bornée.

Conclusions et Discussion

Conclusions Principales

L'estimateur de robustesse proposé satisfait toutes les propriétés théoriques, fournissant une mesure bornée dans la plage 0,1
La génération de voisinage basée sur la variété est plus appropriée que les perturbations aléatoires pour évaluer la robustesse réelle
La méthode d'ensemble peut traiter efficacement le problème de divergence d'explications, fournissant des explications plus fiables
Le cadre peut identifier les points de données dans les zones incertaines, améliorant la fiabilité dans les applications pratiques

Limitations

Complexité Computationnelle: Nécessite des passages en réseau pour chaque point de données, chaque perturbation, chaque méthode
Sensibilité aux Paramètres: La génération de voisinage et le choix de seuil nécessitent un ajustement minutieux
Hypothèses de Validation: Dépend de l'hypothèse que la cohérence des prédictions du modèle agit comme indicateur de robustesse, ce qui peut ne pas toujours être valide

Directions Futures

Généralisation du Modèle: Étendre à d'autres modèles d'apprentissage automatique tels que les modèles basés sur les arbres
Robustesse Adversariale: Étudier les relations avec les attaques adversariales et les capacités de défense
Robustesse du Classificateur: Explorer comment utiliser les explications pour améliorer la robustesse du classificateur

Évaluation Approfondie

Points Forts

Rigueur Théorique: Propose un cadre théorique complet d'estimateur de robustesse, incluant six propriétés clairement définies
Innovation Méthodologique: La génération de voisinage basée sur la variété et la méthode d'ensemble considérant la cohérence de signe présentent une nouveauté
Valeur Pratique: Fournit un processus complet d'évaluation de fiabilité, offrant des conseils pour les applications pratiques
Expériences Complètes: Expériences suffisantes sur plusieurs ensembles de données, incluant des études d'ablation et des analyses de validation

Insuffisances

Surcharge Computationnelle: La complexité computationnelle de la méthode est relativement élevée, pouvant limiter les applications à grande échelle
Dépendance aux Paramètres: Plusieurs hyperparamètres nécessitent un ajustement, augmentant la complexité de la méthode
Limitations de Validation: La méthode de validation manquant d'étalon-or réel laisse place à l'amélioration
Portée d'Application: Principalement axée sur les données tabulaires et les réseaux de neurones, la généralisation reste à vérifier

Impact

Contribution Académique: Fournit un cadre théorique et méthodologique systématique pour l'évaluation de robustesse en XAI
Orientation Pratique: Fournit aux praticiens des outils concrets pour évaluer la fiabilité des explications
Avancement de la Normalisation: Contribue à l'établissement de critères standardisés pour l'évaluation des méthodes XAI

Scénarios Applicables

Validation d'explications dans les applications d'IA à haut risque
Situations nécessitant la comparaison et la sélection de plusieurs méthodes XAI
Environnements réglementaires avec exigences strictes de fiabilité des explications
Analyse d'explications de réseaux de neurones sur données tabulaires

Références

L'article cite les travaux importants du domaine XAI, incluant les méthodes classiques telles que LIME et SHAP, ainsi que les recherches de pointe récentes sur la robustesse des explications et les attaques adversariales, fournissant une base théorique solide pour cette recherche.