2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.

The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.

academic

Au-delà de l'XAI mono-modèle : agrégation d'explications multi-modèles pour une confiance accrue

Informations de base

ID de l'article : 2510.11164
Titre : Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
Auteurs : Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
Classification : cs.LG (Apprentissage automatique)
Date de publication/Conférence : TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
Lien de l'article : https://arxiv.org/abs/2510.11164

Résumé

Avec l'utilisation croissante des modèles d'intelligence artificielle dans les applications à haut risque du monde réel, les questions de fiabilité et d'utilisation éthique suscitent une attention accrue tant sur le plan technique que législatif. Le domaine de l'intelligence artificielle explicable (XAI) répond à ce défi en fournissant des explications qui révèlent le processus décisionnel des modèles de boîte noire complexes. Bien que la robustesse soit un attribut important, elle est souvent négligée au cours du développement : seules les méthodes d'explication robustes peuvent accroître la confiance envers l'ensemble du système. Cet article étudie le rôle de la robustesse en utilisant l'importance des caractéristiques agrégées à partir de plusieurs modèles (k-plus proches voisins, forêts aléatoires et réseaux de neurones). Les résultats préliminaires démontrent le potentiel d'amélioration de la fiabilité des applications tout en exploitant les capacités prédictives de plusieurs modèles.

Contexte et motivation de la recherche

Définition du problème

Cette recherche vise à résoudre deux défauts clés des méthodes XAI existantes :

Manque de robustesse des explications : Les méthodes d'explication populaires telles que LIME et SHAP ont été prouvées manquer de robustesse dans plusieurs études, mais sont toujours largement appliquées dans des scénarios à haut risque
Problème de divergence des explications : Lorsque plusieurs méthodes d'explication sont appliquées à la même instance, elles produisent des explications contradictoires. En l'absence de critère de vérité pour les explications, il est impossible de sélectionner la méthode optimale

Importance

Avec les exigences législatives telles que le RGPD et la Loi sur l'IA exigeant la transparence des modèles, la fiabilité des explications devient cruciale. La confiance envers les explications est le fondement de la confiance envers le modèle lui-même, ce qui est particulièrement important dans les applications à haut risque.

Limitations des approches existantes

Les méthodes dominantes telles que LIME et SHAP présentent des problèmes de robustesse, produisant des explications incohérentes pour des entrées similaires
Les méthodes d'explication mono-modèle ne peuvent pas exploiter pleinement les capacités prédictives de plusieurs modèles
Absence de stratégies efficaces d'agrégation d'explications pour traiter les divergences entre différents modèles

Motivation de la recherche

Sur la base de travaux antérieurs concernant les explications d'ensembles de réseaux de neurones, cet article propose d'étendre la méthode à plusieurs catégories de modèles différentes, visant à améliorer la fiabilité globale du système en agrégeant les explications de différents processus décisionnels.

Contributions principales

Proposition de deux nouvelles méthodes d'attribution de caractéristiques :
- Méthode d'importance des caractéristiques basée sur la distance pour les modèles k-NN
- Méthode d'attribution de caractéristiques basée sur l'impureté des nœuds pour les forêts aléatoires
Développement d'un cadre d'agrégation d'explications multi-modèles :
- Intégration des explications de k-NN, forêts aléatoires et réseaux de neurones
- Agrégation de l'importance des caractéristiques par moyenne arithmétique
Introduction d'un mécanisme d'évaluation de la robustesse :
- Utilisation d'une méthode de génération de voisinage basée sur les points centraux
- Quantification de la robustesse des explications via le coefficient de corrélation de Spearman
Vérification de la relation entre la cohérence des modèles et la robustesse des explications :
- Démonstration que la cohérence prédictive multi-modèles peut servir d'indicateur de fiabilité des explications

Détails de la méthode

Définition de la tâche

Cet article se concentre sur les tâches de classification binaire sur données tabulaires, avec l'objectif de générer des explications d'importance des caractéristiques fiables pour chaque instance prédite. L'entrée est une instance de données tabulaires, la sortie est un vecteur d'attribution de caractéristiques normalisé.

Architecture du modèle

Méthode d'explication k-NN

L'algorithme est basé sur le mécanisme de raisonnement par distance de k-NN :

Pour un point de prédiction x, sélectionner respectivement k' plus proches voisins de la classe prédite c et de la classe opposée ¬c
Calculer la distance moyenne des caractéristiques à chaque groupe de voisins D_c et D_¬c
L'importance des caractéristiques est définie comme : e = D_¬c - D_c
Normaliser en vecteur unitaire pour assurer la comparabilité

Méthode d'explication des forêts aléatoires

Basée sur l'impureté des nœuds dans le chemin décisionnel :

Pour chaque arbre de la forêt, suivre le chemin décisionnel du point de données
Selon que la prédiction d'un seul arbre est cohérente avec la prédiction de la forêt, accumuler respectivement l'impureté des nœuds à e_c ou e_¬c
L'explication finale est : e = (p_¬c + ε) × e_c - p_c × e_¬c
Où p_c et p_¬c sont les probabilités prédites, ε=0,01 pour éviter les valeurs nulles

Stratégie d'agrégation

Utiliser la moyenne arithmétique au niveau des caractéristiques :

a_agg = (1/L) × Σ(l=1 à L) a_l

Où L=3 est le nombre de modèles. Lorsque les prédictions des modèles sont incohérentes, les explications des modèles en désaccord sont inversées pour assurer que les explications pointent vers la même classe.

Évaluation de la robustesse

Génération de voisinage

Utiliser une méthode basée sur les points centraux :

Effectuer un clustering k-medoid sur l'ensemble de validation
Pour chaque point de données, trouver le centre de cluster correspondant et ses k_M points centraux les plus proches
Générer des perturbations conformes à la variété de données via une distribution bêta et un remplacement probabiliste

Calcul de la robustesse

Utiliser le coefficient de corrélation de rang de Spearman :

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

Où N est l'ensemble des points de voisinage maintenant la cohérence prédictive.

Configuration expérimentale

Ensembles de données

Utilisation de 5 ensembles de données tabulaires publics pour des tâches de classification binaire :

Adult : 36 177/8 045/1 000 (entraînement/validation/test), 5 caractéristiques numériques, 7 caractéristiques catégoriques
Bank : 36 168/8 043/1 000, 5 caractéristiques numériques, 9 caractéristiques catégoriques
HELOC : 8 367/1 592/500, 14 caractéristiques numériques, 2 caractéristiques catégoriques
Cancer : 397/121/50, 15 caractéristiques numériques, 0 caractéristique catégorique
White Wine : 3 918/780/200, 9 caractéristiques numériques, 0 caractéristique catégorique

Métriques d'évaluation

Score de robustesse : Valeur moyenne basée sur le coefficient de corrélation de Spearman
Taille du voisinage : Proportion de points perturbés conservés après filtrage
Valeur AUC : Aire sous la courbe ROC basée sur la cohérence des modèles

Méthodes de comparaison

Méthode d'explication personnalisée k-NN
Méthode d'explication personnalisée des forêts aléatoires
Méthode DeepLIFT pour les réseaux de neurones
Résultats agrégés des trois méthodes
Comparaison avec LIME et SHAP en annexe

Détails d'implémentation

k-NN : k=15 (adult, bank), k=5 (autres)
Forêts aléatoires : 25 apprenants de base
Réseau de neurones : Perceptron multicouche standard
Génération de voisinage : k_M=5, α=0,05, α_cat=0,05
Taux de conservation du voisinage cible : ≥95%

Résultats expérimentaux

Résultats principaux

Performance des modèles

Tous les modèles atteignent une précision supérieure à 80% sur tous les ensembles de données (sauf k-NN sur HELOC avec 75,51%). Le réseau de neurones fonctionne mieux sur les ensembles de données complexes, tandis que les forêts aléatoires fonctionnent mieux sur les ensembles de données simples.

Comparaison de la robustesse

Scores de robustesse moyenne (%) :

Ensemble de données	k-NN	RF	NN	Agrégation
Adult	61,12	88,67	85,03	74,58
Bank	52,27	73,52	78,74	65,75
HELOC	71,01	80,56	84,23	77,92
Cancer	83,31	81,07	98,40	84,93
Wine	69,55	66,60	92,96	66,74

Les résultats montrent :

La méthode k-NN présente la robustesse la plus faible, ce qui est conforme à sa dépendance aux voisins distants
La méthode de réseau de neurones présente la robustesse la plus élevée
La robustesse de la méthode d'agrégation se situe entre celles des méthodes constitutives, conformément aux attentes théoriques

Analyse de la cohérence des modèles

La relation entre la cohérence prédictive des modèles et la taille du voisinage valide l'hypothèse : lorsque les trois modèles font des prédictions cohérentes, une taille de voisinage plus grande est généralement obtenue, indiquant que cette région possède une meilleure robustesse des explications.

Évaluation de validation

Vérification de la relation entre la cohérence des modèles et la robustesse des explications par analyse ROC :

Comparaison des valeurs AUC :

Ensemble de données	k-NN	RF	NN	Agrégation
Adult	0,4480	0,5417	0,6970	0,5901
Bank	0,4128	0,6257	0,3861	0,6097
HELOC	0,6573	0,6049	0,6748	0,6095
Cancer	0,8397	0,9212	0,7120	0,9212
Wine	0,5088	0,4698	0,0469	0,4951

La méthode d'agrégation fonctionne bien dans la plupart des cas, mais la méthode k-NN fonctionne mal dans certains scénarios.

Comparaison avec LIME/SHAP

Les résultats en annexe montrent que les scores de robustesse de LIME et SHAP sont bien en dessous du seuil de 0,5, validant les conclusions de la littérature concernant l'instabilité de ces méthodes et justifiant leur exclusion.

Travaux connexes

Développement du domaine XAI

Méthodes d'explication locale : Approches indépendantes du modèle telles que LIME et SHAP
Méthodes spécifiques aux réseaux de neurones : DeepLIFT, Integrated Gradients, LRP, etc.
Recherche sur la robustesse : Évaluation et amélioration de la stabilité des méthodes d'explication

Recherche sur l'agrégation d'explications

Les travaux antérieurs se concentraient principalement sur plusieurs instances d'un seul type de modèle
Cet article étend l'agrégation d'explications à différents types de modèles

Besoins motivés par la législation

Exigence du « droit à l'explication » du RGPD
Exigences de transparence de la Loi sur l'IA de l'UE pour les applications à haut risque

Conclusion et discussion

Conclusions principales

Faisabilité de l'agrégation multi-modèles : Démonstration que les explications de différents types de modèles peuvent être efficacement agrégées
Relation entre cohérence et robustesse : Vérification que la cohérence prédictive multi-modèles peut servir d'indicateur de fiabilité des explications
Stratégie d'explication conservatrice : La méthode d'agrégation fournit une stratégie d'explication conservatrice mais fiable

Limitations

Méthode d'agrégation simple : Utilisation actuelle de la moyenne arithmétique, incapable de traiter les modèles de divergence complexes
Dépendance de la méthode k-NN : Sensibilité à l'hyperparamètre k', variabilité élevée
Complétude de l'évaluation : Nécessité d'une validation plus complète dans des scénarios d'application réels
Limitation des types de modèles : Test limité à trois types de modèles

Directions futures

Les auteurs proposent explicitement quatre directions d'amélioration :

Développer des stratégies d'agrégation plus complexes pour traiter les cas de divergence extrême
Améliorer la méthode d'explication k-NN pour réduire la dépendance aux hyperparamètres
Effectuer une évaluation de validation plus complète dans des cas d'usage réels
Étendre à d'autres types de modèles et méthodes XAI

Évaluation approfondie

Points forts

Importance du problème : Résolution d'une question clé du domaine XAI — la robustesse et la fiabilité des explications
Innovation méthodologique :
- Première proposition d'agrégation d'explications entre types de modèles
- Nouvelles méthodes d'attribution de caractéristiques pour k-NN et RF
- Cadre systématique d'évaluation de la robustesse
Suffisance expérimentale :
- Validation sur plusieurs ensembles de données
- Analyse d'ablation complète
- Comparaison avec les méthodes dominantes
Fondement théorique : Établissement d'une relation théorique entre la cohérence des modèles et la robustesse des explications

Insuffisances

Limitations méthodologiques :
- Stratégie d'agrégation trop simple, risquant de perdre des informations importantes
- Fondement théorique relativement faible de la méthode k-NN
- Applicable uniquement aux tâches de classification binaire
Configuration expérimentale :
- Taille relativement petite des ensembles de données
- Absence de validation dans des scénarios réels d'applications à haut risque
- Analyse insuffisante des coûts de calcul
Profondeur d'analyse :
- Analyse insuffisante des cas d'échec de la méthode d'agrégation
- Absence d'analyse quantitative de la contribution de différents types de modèles

Impact

Contribution académique : Fournit une nouvelle perspective pour la recherche sur la robustesse XAI, particulièrement dans la direction de l'agrégation multi-modèles
Valeur pratique : Fournit un cadre pratique pour l'IA de confiance dans les applications à haut risque
Reproductibilité : Description claire de la méthode, implémentation d'algorithme relativement simple

Scénarios d'application

Scénarios de prise de décision à haut risque : Domaines tels que la finance et la santé nécessitant une IA explicable et fiable
Conformité réglementaire : Applications devant satisfaire aux exigences du RGPD et autres réglementations
Audit de modèles : Scénarios nécessitant l'évaluation de la fiabilité des systèmes d'IA
Plateforme de recherche : Fournit un cadre de base pour la recherche sur la robustesse XAI

Références

L'article cite les travaux importants du domaine XAI, notamment :

Les articles originaux de LIME et SHAP ainsi que les critiques de leur robustesse
Les méthodes d'explication des réseaux de neurones telles que DeepLIFT et Integrated Gradients
Les recherches connexes sur l'évaluation de la robustesse et l'agrégation d'explications
Les documents législatifs tels que le RGPD et la Loi sur l'IA de l'UE

Évaluation générale : Cet article apporte une contribution importante à la recherche sur la robustesse XAI. Bien que la méthode soit relativement simple, elle résout un problème pratiquement important et fournit des outils précieux pour le développement de l'IA de confiance. La valeur principale de l'article réside dans l'ouverture d'une nouvelle direction de recherche sur l'agrégation d'explications entre types de modèles et la fourniture d'un cadre d'évaluation systématique. Les directions des travaux futurs sont clairement définies, jetant les bases pour le développement ultérieur de ce domaine.