When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
Vascotto, Rodriguez, Bonaita et al.
Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.
academic
Quand Pouvez-vous Faire Confiance à Vos Explications ? Une Analyse de Robustesse sur les Importances de Caractéristiques
Avec l'amélioration continue de la réglementation en intelligence artificielle, la demande d'intelligence artificielle explicable (XAI) augmente régulièrement. Cependant, l'absence de normes standardisées pour la validation des méthodes d'explication reste un obstacle majeur au développement de systèmes fiables. Cet article aborde la question de la robustesse des explications, souvent négligée mais cruciale en XAI, en proposant une nouvelle méthode d'analyse pour évaluer la robustesse des explications de réseaux de neurones face à des perturbations non adversariales. La méthode exploite l'hypothèse de variété pour générer des points de données perturbés conformes à la distribution des données observées, et propose une méthode d'ensemble pour agréger plusieurs explications, démontrant les avantages de la fusion d'explications pour la compréhension des décisions du modèle et l'évaluation de la robustesse.
Exigences Réglementaires: La loi sur l'IA de l'Union Européenne et le RGPD soulignent l'importance de la transparence et de l'explicabilité des systèmes d'IA
Dilemme de la Boîte Noire: Les systèmes d'IA modernes présentent un caractère de boîte noire en raison de leurs nombreux paramètres, manquant de transparence
Instabilité des Méthodes d'Explication: Les méthodes XAI existantes telles que LIME et SHAP présentent des problèmes d'instabilité inhérents
Absence de Normalisation: Absence de critères standardisés pour valider les méthodes d'explication
Évaluation de la Robustesse: La robustesse des explications est un élément central pour assurer la fiabilité du système et des explications
Besoins Pratiques: Fournir aux praticiens un cadre pratique pour évaluer la fiabilité des explications du modèle
Problème de Divergence d'Explications: Résoudre le problème des résultats conflictuels produits par plusieurs méthodes d'explication appliquées au même point de données
Estimateur de Robustesse: Propose un ensemble de propriétés que tout estimateur de robustesse idéal devrait satisfaire, et démontre que la méthode proposée satisfait toutes ces propriétés
Méthode d'Ensemble d'Explications: Face au problème de divergence des explications de réseaux de neurones, propose une méthode d'ensemble d'explications basée sur le classement des caractéristiques
Cadre de Perturbation Non-Adversariale: Introduit un cadre pour tester la robustesse des explications face à des perturbations non-adversariales et évalue sa fiabilité dans les applications pratiques
Méthode d'Évaluation de Validation de Robustesse: Propose une nouvelle méthode d'évaluation de validation d'estimateur de robustesse, résolvant le problème de l'absence d'étalon-or réel
Étant donné un ensemble de données tabulaires D = (X,y) contenant N points de données et m caractéristiques, la tâche consiste à évaluer la robustesse d'une méthode d'explication e appliquée à un réseau de neurones f, où l'explication se présente sous la forme d'un vecteur d'importance de caractéristiques.
où est inclus un terme de pénalité pour l'incohérence de signe, et le schéma de pondération considère la magnitude relative de l'importance des caractéristiques.
Utilise trois réseaux de neurones avec une précision similaire mais des architectures différentes pour la validation, évaluant l'efficacité de l'estimation de robustesse par analyse ROC/AUC.
Complexité Computationnelle: Nécessite des passages en réseau pour chaque point de données, chaque perturbation, chaque méthode
Sensibilité aux Paramètres: La génération de voisinage et le choix de seuil nécessitent un ajustement minutieux
Hypothèses de Validation: Dépend de l'hypothèse que la cohérence des prédictions du modèle agit comme indicateur de robustesse, ce qui peut ne pas toujours être valide
Rigueur Théorique: Propose un cadre théorique complet d'estimateur de robustesse, incluant six propriétés clairement définies
Innovation Méthodologique: La génération de voisinage basée sur la variété et la méthode d'ensemble considérant la cohérence de signe présentent une nouveauté
Valeur Pratique: Fournit un processus complet d'évaluation de fiabilité, offrant des conseils pour les applications pratiques
Expériences Complètes: Expériences suffisantes sur plusieurs ensembles de données, incluant des études d'ablation et des analyses de validation
L'article cite les travaux importants du domaine XAI, incluant les méthodes classiques telles que LIME et SHAP, ainsi que les recherches de pointe récentes sur la robustesse des explications et les attaques adversariales, fournissant une base théorique solide pour cette recherche.