Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
Vascotto, Rodriguez, Bonaita et al.
The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
academic
Au-delà de l'XAI mono-modèle : agrégation d'explications multi-modèles pour une confiance accrue
Avec l'utilisation croissante des modèles d'intelligence artificielle dans les applications à haut risque du monde réel, les questions de fiabilité et d'utilisation éthique suscitent une attention accrue tant sur le plan technique que législatif. Le domaine de l'intelligence artificielle explicable (XAI) répond à ce défi en fournissant des explications qui révèlent le processus décisionnel des modèles de boîte noire complexes. Bien que la robustesse soit un attribut important, elle est souvent négligée au cours du développement : seules les méthodes d'explication robustes peuvent accroître la confiance envers l'ensemble du système. Cet article étudie le rôle de la robustesse en utilisant l'importance des caractéristiques agrégées à partir de plusieurs modèles (k-plus proches voisins, forêts aléatoires et réseaux de neurones). Les résultats préliminaires démontrent le potentiel d'amélioration de la fiabilité des applications tout en exploitant les capacités prédictives de plusieurs modèles.
Cette recherche vise à résoudre deux défauts clés des méthodes XAI existantes :
Manque de robustesse des explications : Les méthodes d'explication populaires telles que LIME et SHAP ont été prouvées manquer de robustesse dans plusieurs études, mais sont toujours largement appliquées dans des scénarios à haut risque
Problème de divergence des explications : Lorsque plusieurs méthodes d'explication sont appliquées à la même instance, elles produisent des explications contradictoires. En l'absence de critère de vérité pour les explications, il est impossible de sélectionner la méthode optimale
Avec les exigences législatives telles que le RGPD et la Loi sur l'IA exigeant la transparence des modèles, la fiabilité des explications devient cruciale. La confiance envers les explications est le fondement de la confiance envers le modèle lui-même, ce qui est particulièrement important dans les applications à haut risque.
Les méthodes dominantes telles que LIME et SHAP présentent des problèmes de robustesse, produisant des explications incohérentes pour des entrées similaires
Les méthodes d'explication mono-modèle ne peuvent pas exploiter pleinement les capacités prédictives de plusieurs modèles
Absence de stratégies efficaces d'agrégation d'explications pour traiter les divergences entre différents modèles
Sur la base de travaux antérieurs concernant les explications d'ensembles de réseaux de neurones, cet article propose d'étendre la méthode à plusieurs catégories de modèles différentes, visant à améliorer la fiabilité globale du système en agrégeant les explications de différents processus décisionnels.
Cet article se concentre sur les tâches de classification binaire sur données tabulaires, avec l'objectif de générer des explications d'importance des caractéristiques fiables pour chaque instance prédite. L'entrée est une instance de données tabulaires, la sortie est un vecteur d'attribution de caractéristiques normalisé.
Utiliser la moyenne arithmétique au niveau des caractéristiques :
a_agg = (1/L) × Σ(l=1 à L) a_l
Où L=3 est le nombre de modèles. Lorsque les prédictions des modèles sont incohérentes, les explications des modèles en désaccord sont inversées pour assurer que les explications pointent vers la même classe.
Tous les modèles atteignent une précision supérieure à 80% sur tous les ensembles de données (sauf k-NN sur HELOC avec 75,51%). Le réseau de neurones fonctionne mieux sur les ensembles de données complexes, tandis que les forêts aléatoires fonctionnent mieux sur les ensembles de données simples.
La relation entre la cohérence prédictive des modèles et la taille du voisinage valide l'hypothèse : lorsque les trois modèles font des prédictions cohérentes, une taille de voisinage plus grande est généralement obtenue, indiquant que cette région possède une meilleure robustesse des explications.
Les résultats en annexe montrent que les scores de robustesse de LIME et SHAP sont bien en dessous du seuil de 0,5, validant les conclusions de la littérature concernant l'instabilité de ces méthodes et justifiant leur exclusion.
Contribution académique : Fournit une nouvelle perspective pour la recherche sur la robustesse XAI, particulièrement dans la direction de l'agrégation multi-modèles
Valeur pratique : Fournit un cadre pratique pour l'IA de confiance dans les applications à haut risque
Reproductibilité : Description claire de la méthode, implémentation d'algorithme relativement simple
L'article cite les travaux importants du domaine XAI, notamment :
Les articles originaux de LIME et SHAP ainsi que les critiques de leur robustesse
Les méthodes d'explication des réseaux de neurones telles que DeepLIFT et Integrated Gradients
Les recherches connexes sur l'évaluation de la robustesse et l'agrégation d'explications
Les documents législatifs tels que le RGPD et la Loi sur l'IA de l'UE
Évaluation générale : Cet article apporte une contribution importante à la recherche sur la robustesse XAI. Bien que la méthode soit relativement simple, elle résout un problème pratiquement important et fournit des outils précieux pour le développement de l'IA de confiance. La valeur principale de l'article réside dans l'ouverture d'une nouvelle direction de recherche sur l'agrégation d'explications entre types de modèles et la fourniture d'un cadre d'évaluation systématique. Les directions des travaux futurs sont clairement définies, jetant les bases pour le développement ultérieur de ce domaine.