The usage of eXplainable Artificial Intelligence (XAI) methods has become essential in practical applications, given the increasing deployment of Artificial Intelligence (AI) models and the legislative requirements put forward in the latest years. A fundamental but often underestimated aspect of the explanations is their robustness, a key property that should be satisfied in order to trust the explanations. In this study, we provide some preliminary insights on evaluating the reliability of explanations in the specific case of unbalanced datasets, which are very frequent in high-risk use-cases, but at the same time considerably challenging for both AI models and XAI methods. We propose a simple evaluation focused on the minority class (i.e. the less frequent one) that leverages on-manifold generation of neighbours, explanation aggregation and a metric to test explanation consistency. We present a use-case based on a tabular dataset with numerical features focusing on the occurrence of frost events.
- ID de l'article : 2507.09545
- Titre : Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events
- Auteurs : Ilaria Vascotto, Valentina Blasone, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
- Classification : cs.LG (Apprentissage automatique)
- Date de publication/Conférence : Travaux de dernière minute, 3e Conférence mondiale sur l'intelligence artificielle explicable (9-11 juillet 2025, Istanbul, Turquie)
- Lien de l'article : https://arxiv.org/abs/2507.09545
L'utilisation de méthodes d'intelligence artificielle explicable (XAI) est devenue cruciale dans les applications pratiques, grâce au déploiement croissant de modèles d'IA et aux exigences législatives proposées récemment. La robustesse des explications est un aspect fondamental mais souvent sous-estimé, constituant un attribut clé que les explications doivent satisfaire pour être dignes de confiance. Cette étude fournit des aperçus préliminaires sur l'évaluation de la fiabilité des explications dans le cas spécifique des ensembles de données déséquilibrés. Les ensembles de données déséquilibrés sont très courants dans les cas d'usage à haut risque, mais posent simultanément des défis considérables aux modèles d'IA et aux méthodes XAI. Nous proposons une méthode d'évaluation simple se concentrant sur la classe minoritaire (c'est-à-dire les catégories moins fréquentes), qui exploite la génération de voisins sur les variétés, l'agrégation d'explications et une mesure testant la cohérence des explications. Nous la démontrons sur un ensemble de données tabulaires basé sur des caractéristiques numériques, en utilisant l'occurrence de gelées comme cas d'usage.
Le problème fondamental que cette étude vise à résoudre est : comment évaluer la fiabilité des explications XAI dans les ensembles de données déséquilibrés. Plus précisément, lorsque l'ensemble de données contient très peu d'échantillons de la classe minoritaire, les méthodes d'explication traditionnelles peuvent produire des résultats peu fiables.
- Exigences législatives : Les réglementations telles que le RGPD et la Loi sur l'IA imposent des exigences de transparence pour les applications à haut risque
- Besoins pratiques : Les domaines à haut risque tels que la médecine, le climat et la détection de fraude font face à des problèmes de déséquilibre des données
- Crise de confiance : Sur les ensembles de données déséquilibrés, même si un modèle atteint une précision de 99 %, il peut simplement prédire la classe majoritaire
- Les méthodes LIME et SHAP présentent une robustesse médiocre sur les ensembles de données déséquilibrés
- Manque d'évaluation ciblée : Les méthodes existantes se concentrent principalement sur les performances globales, négligeant les particularités de la classe minoritaire
- Instabilité des explications : Des entrées similaires peuvent produire des explications radicalement différentes
Les auteurs estiment que dans les ensembles de données déséquilibrés, l'évaluation de la fiabilité des explications de la classe minoritaire est particulièrement importante, car :
- La prédiction précise d'événements rares est cruciale dans les applications à haut risque
- La classe majoritaire est facile à prédire, ses explications ne sont pas nécessairement fiables
- Des méthodes spécialisées sont nécessaires pour évaluer la robustesse des explications de la classe minoritaire
- Proposition d'un cadre d'évaluation de la fiabilité des explications pour les ensembles de données déséquilibrés, se concentrant sur les échantillons de la classe minoritaire
- Conception d'une méthode de génération de voisins basée sur les variétés, garantissant que les échantillons perturbés se situent sur la variété des données
- Introduction d'une mesure de cohérence, évaluant la fiabilité en comparant les explications originales avec les explications moyennes pondérées localement
- Validation de l'efficacité de la méthode sur une tâche réelle de prédiction de gelées, caractérisée par un déséquilibre extrême (99:1)
Étant donné un ensemble de données déséquilibré D=(X,y), où P(y=0)≫P(y=1) (0 pour la classe majoritaire, 1 pour la classe minoritaire), entraîner un réseau de neurones f(⋅), l'objectif est d'évaluer la fiabilité de la méthode d'explication e sur les échantillons de la classe minoritaire.
Utilisation de la génération de voisins sur les variétés basée sur le clustering k-medoids :
Étapes :
- Application du clustering k-medoids sur l'ensemble de validation, obtenant kmedoids clusters
- Taille moyenne de chaque cluster nk=10
- Extraction du medoid de chaque cluster comme point représentatif
- Pour chaque échantillon de test, trouver son medoid correspondant et ses knn=5 voisins les plus proches
Formule de perturbation :
x~j=(1−λˉ)⋅xj+λˉ⋅xMj
où λˉ∼Beta(λ⋅100,(1−λ)⋅100)
Calcul de l'explication moyenne pondérée pour les échantillons de la classe minoritaire :
eˉ(x)=∑x~∈Nπ(x,x~)∑x~∈Ne(x~)⋅π(x,x~)
où le poids π(x,x~)=dist(x,x~)1
Définition de deux métriques d'évaluation :
Robustesse locale :
R^(x)=∣N∣1∑x~∈Nρ(e(x),e(x~))
Cohérence :
C^(x)=ρ(e(x),eˉ(x))
où ρ est le coefficient de corrélation de rang de Spearman
- Génération de voisins sensible aux variétés : Comparée au bruit gaussien aléatoire, la méthode basée sur medoid génère des voisins plus conformes à la distribution des données
- Évaluation spécialisée pour la classe minoritaire : Concentration sur les échantillons les plus critiques mais les plus fragiles
- Introduction de la mesure de cohérence : Évaluation de la cohérence locale en comparant les explications originales et agrégées
- Agrégation d'explications pondérées par la distance : Moyenne pondérée des explications selon la distance entre les échantillons
Ensemble de données de prédiction de gelées :
- Source : Données de réanalyse ERA5 (ECMWF) + données propriétaires d'une compagnie d'assurance
- Période : 2009-2024 (15 ans)
- Couverture géographique : Ensemble de la Pologne
- Caractéristiques : 8 variables atmosphériques numérisées (traitées par normalisation)
- Cible : Classification binaire (occurrence ou non de gelées)
- Degré de déséquilibre : 99 % vs 1 % (déséquilibre extrême)
- Division des données : Ensemble d'entraînement 75 %, ensemble de validation 15 %, ensemble de test 10 % (stratification par région)
- Performance du modèle : F1-score (adapté aux ensembles de données déséquilibrés)
- Fiabilité des explications : Robustesse locale R^(x) et cohérence C^(x)
- Mesure de corrélation : Coefficient de corrélation de rang de Spearman
Méthodes d'explication :
- Integrated Gradients : Méthode d'attribution basée sur l'intégration de gradients
- DeepLIFT : Méthode basée sur la propagation des différences d'activation
- Layer-wise Relevance Propagation (LRP) : Propagation de pertinence par couche
- Méthode d'ensemble : Combinaison pondérée des trois méthodes ci-dessus
Comparaison de la génération de voisins :
- Génération de bruit gaussien aléatoire vs génération de variétés basée sur medoid
- Architecture du modèle : Réseau de neurones entièrement connecté à 5 couches, activation ReLU, sortie sigmoid
- Fonction de perte : Focal Loss (γ=2.5,α=0.75)
- Optimiseur : RAdam, taux d'apprentissage 0.0001
- Configuration d'entraînement : 100 epochs, taille de batch 256
- Paramètres de voisinage : knn=5,λ=0.05, taille de voisinage n=100
| Ensemble de données | F1 classe majoritaire | F1 classe minoritaire | Nombre d'échantillons minoritaires |
|---|
| Ensemble d'entraînement | 1.00 | 0.66 | ~2,500 |
| Ensemble de validation | 1.00 | 0.50 | ~450 |
| Ensemble de test | 1.00 | 0.51 | ~300 |
| Méthode | Robustesse R^(x) | Cohérence C^(x) |
|---|
| Integrated Gradients | 89.34 % (±8.35 %) | 97.56 % (±3.58 %) |
| DeepLIFT | 97.69 % (±2.26 %) | 99.40 % (±1.51 %) |
| LRP | 76.77 % (±15.70 %) | 89.86 % (±19.95 %) |
| Ensemble | 79.03 % (±12.56 %) | 89.20 % (±13.73 %) |
- Importance de la méthode de génération de voisins : La méthode basée sur medoid surpasse significativement le bruit aléatoire sur la classe minoritaire
- Performance optimale de DeepLIFT : Obtient les scores les plus élevés et les écarts-types les plus faibles sur les deux métriques
- Instabilité de LRP : En raison du problème de disparition de gradients, LRP présente les performances les plus instables
- Fragilité de la classe minoritaire : Les explications de la classe minoritaire sont plus sensibles au choix de la méthode de génération de voisins que celles de la classe majoritaire
Par comparaison entre la génération de voisins aléatoires et la génération basée sur medoid, il est démontré que :
- La méthode aléatoire produit un décalage de distribution plus important sur la classe minoritaire
- La méthode basée sur medoid préserve mieux la structure de la variété des données
- La classe minoritaire est plus sensible au choix de la méthode de génération de voisins
- Limitations de LIME et SHAP : Des études existantes montrent que ces méthodes présentent des performances médiocres face aux attaques adversariales
- Stabilité des explications : Les travaux existants se concentrent principalement sur la stabilité des explications dans les cas généraux, manquant d'études spécialisées sur les données déséquilibrées
- Méthodes traditionnelles : Rééchantillonnage, apprentissage sensible aux coûts, etc.
- Méthodes d'apprentissage profond : Focal Loss et autres fonctions de perte spécialisées pour traiter le déséquilibre
- Défis d'évaluation : Les métriques d'évaluation traditionnelles échouent sur les données extrêmement déséquilibrées
Comparé aux travaux existants, cet article étudie systématiquement pour la première fois le problème de la fiabilité des méthodes XAI dans les ensembles de données déséquilibrés, proposant un cadre d'évaluation spécialisé.
- La fiabilité des explications dans les ensembles de données déséquilibrés est un problème important mais négligé
- Les explications de la classe minoritaire nécessitent des méthodes d'évaluation spéciales, les méthodes traditionnelles pouvant produire des résultats trompeurs
- La génération de voisins basée sur les variétés peut améliorer significativement la fiabilité de l'évaluation
- DeepLIFT présente les meilleures performances dans la tâche de prédiction de gelées, avec une robustesse et une cohérence élevées
- La méthode en est encore à un stade préliminaire : Nécessite une validation sur plus d'ensembles de données et de scénarios
- Considère uniquement les données tabulaires : N'inclut pas d'autres types de données telles que les images et le texte
- Limitations des métriques d'évaluation : Les métriques actuelles peuvent ne pas capturer complètement la qualité des explications
- Coût de calcul : La génération d'un grand nombre de voisins pour chaque échantillon augmente le coût de calcul
- Extension à différents ratios de déséquilibre : Étudier la performance de la méthode sous différents degrés de déséquilibre
- Données multimodales : Étendre la méthode aux images, au texte et à d'autres types de données
- Analyse d'incertitude : Combiner la quantification d'incertitude pour améliorer l'évaluation de la classe minoritaire
- Données spatio-temporelles : Considérer les particularités des dimensions spatio-temporelles
- Importance du problème : Aborde un problème important mais négligé dans le domaine de XAI
- Innovation méthodologique : Propose un cadre d'évaluation ciblé avec une base théorique
- Suffisance expérimentale : Validation sur des scénarios réels, avec une valeur d'application pratique
- Clarté de la rédaction : Structure claire de l'article, description détaillée de la méthode
- Échelle expérimentale limitée : Validation sur un seul ensemble de données, manque de preuve d'universalité
- Analyse théorique insuffisante : Manque d'analyse approfondie des propriétés théoriques de la méthode
- Limitation des méthodes de base : Pas de comparaison avec d'autres méthodes XAI spécialisées pour les données déséquilibrées
- Métriques d'évaluation uniques : Dépend principalement de métriques de corrélation, peut ne pas refléter complètement la qualité des explications
- Contribution académique : Fournit de nouvelles perspectives pour l'application de XAI sur les données déséquilibrées
- Valeur pratique : Offre des orientations pour le déploiement de XAI dans les applications à haut risque
- Reproductibilité : Le code est en open source, facilitant la reproduction et l'extension
- Applications à haut risque : Diagnostic médical, contrôle des risques financiers, alerte météorologique, etc.
- Données extrêmement déséquilibrées : Détection de fraude, détection d'anomalies, prédiction d'événements rares
- Domaines aux exigences réglementaires strictes : Industries nécessitant une IA explicable
L'article cite des travaux importants dans le domaine de XAI, notamment :
- Les méthodes classiques LIME 3 et SHAP 4
- Les méthodes d'explication de réseaux de neurones Integrated Gradients 11, DeepLIFT 12, LRP 13
- Les techniques d'apprentissage déséquilibré Focal Loss 7
- Les travaux connexes d'analyse de robustesse 5, 9, 10
Évaluation globale : Ceci est un travail de recherche préliminaire portant attention à un problème pratique important. Bien qu'il y ait de la place pour amélioration en termes d'échelle expérimentale et de profondeur théorique, il ouvre une nouvelle direction de recherche pour l'évaluation de la fiabilité de XAI sur les ensembles de données déséquilibrés, avec de bonnes perspectives d'application.