In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.
- ID de l'article : 2510.08737
- Titre : SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
- Auteurs : Justin Lin (Département de Mathématiques, Université de l'Indiana), Julia Fukuyama (Département de Statistiques, Université de l'Indiana)
- Classification : cs.LG, stat.ME, stat.ML
- Date de publication : 9 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.08737v1
À l'ère du développement rapide des données et des technologies, les grands modèles de boîte noire sont devenus dominants en raison de leur capacité à traiter des volumes massifs de données et à apprendre des relations complexes entre entrées et sorties. Cependant, le défaut majeur de ces méthodes réside dans leur incapacité à interpréter le processus de prédiction, rendant leur application dans les scénarios à haut risque peu fiable et dangereuse. L'analyse SHAP (SHapley Additive exPlanations) en tant que méthode d'IA interprétable gagne en popularité grâce à sa capacité à expliquer les prédictions des modèles à l'aide de caractéristiques originales. Cet article propose une analyse de clustering des valeurs SHAP, qui non seulement regroupe les échantillons obtenant les mêmes prédictions, mais plus important encore, regroupe les échantillons obtenant les mêmes prédictions pour des raisons similaires. L'efficacité de la méthode est démontrée par des expériences de simulation et une étude de cas sur la maladie d'Alzheimer (utilisant la base de données ADNI), et une méthode de généralisation du graphique de cascade pour les problèmes de classification multi-classe est proposée.
Avec l'augmentation continue de la complexité des modèles d'apprentissage automatique, les modèles de boîte noire excellent en termes de précision prédictive, mais leur manque d'interprétabilité crée des obstacles à l'application dans les domaines à haut risque tels que la médecine. L'analyse de clustering traditionnelle basée uniquement sur les caractéristiques des données originales ne peut pas révéler les différents chemins par lesquels les échantillons arrivent aux mêmes résultats de prédiction.
- Besoins d'application médicale : Dans les maladies hétérogènes telles que la maladie d'Alzheimer, différents patients peuvent arriver au même résultat diagnostique par des mécanismes pathologiques complètement différents
- Médecine de précision : Comprendre l'hétérogénéité des maladies aide à élaborer des plans de traitement personnalisés
- Interprétabilité des modèles : Dans les scénarios de prise de décision à haut risque, il est crucial de comprendre les raisons des prédictions du modèle
- Méthodes de clustering traditionnelles : Basées uniquement sur les caractéristiques des données originales, elles ne peuvent pas capturer les relations complexes entrées-sorties apprises par le modèle
- Recherche limitée sur le clustering des valeurs SHAP : La littérature existante contient très peu d'études sur le clustering des valeurs SHAP
- Outils de visualisation insuffisants : Les problèmes de classification multi-classe manquent de méthodes efficaces de visualisation des valeurs SHAP
- Proposition d'une méthode de clustering supervisé basée sur SHAP : Clustering basé sur les valeurs SHAP plutôt que sur les données originales, révélant les différents chemins par lesquels les échantillons arrivent aux mêmes prédictions
- Développement d'un graphique de cascade haute dimension : Généralisation du graphique de cascade traditionnel aux problèmes de classification multi-classe, supportant la visualisation de vecteurs SHAP de dimension k
- Fourniture d'un processus d'analyse complet : Flux de travail en cinq étapes comprenant la modélisation prédictive, l'analyse SHAP, la visualisation, l'analyse de clustering et l'interprétation des clusters
- Validation de l'efficacité de la méthode : Vérification de l'applicabilité pratique de la méthode par des expériences de simulation et des cas réels de maladie d'Alzheimer
Étant donné un ensemble de données d'entraînement X' ⊂ X ⊂ R^p et un modèle entraîné f: X → R, calculer pour chaque échantillon x ∈ X les valeurs SHAP φ(f;x)₁, ..., φ(f;x)ₚ, telles que :
∑i=1pϕ(f;x)i=f(x)−E[f(X′)]
L'objectif est de regrouper la matrice des valeurs SHAP pour découvrir des groupes d'échantillons ayant des interprétations de modèle similaires.
- Utilisation de XGBoost pour construire le modèle prédictif
- Validation croisée répétée pour assurer la performance de généralisation du modèle
- Classification binaire : Une valeur SHAP par caractéristique
- Classification multi-classe : Un vecteur SHAP de dimension k par caractéristique (k étant le nombre de classes)
- Utilisation de l'algorithme TreeSHAP pour calculer les valeurs SHAP des modèles arborescents
- Validation croisée pour éviter le surapprentissage
- Utilisation d'UMAP pour la réduction de dimensionnalité et la visualisation
- Préservation de la structure locale, appropriée pour la détection de clusters
- Adoption de HDBSCAN pour le clustering hiérarchique par densité
- Capacité à gérer le bruit et le clustering à densité variable
- Utilisation de cartes thermiques pour analyser les données originales
- Adoption de graphiques de cascade haute dimension pour l'interprétation des clusters
Le graphique de cascade traditionnel ne s'applique qu'aux valeurs SHAP unidimensionnelles et ne peut pas traiter les vecteurs SHAP de dimension k pour la classification multi-classe.
- Projection dans le sous-espace de classe : Sélection de deux classes, ignorant les valeurs SHAP des autres classes, appropriée pour les comparaisons par paires entre classes
- Projection PCA : Projection dans le sous-espace bidimensionnel conservant le plus d'informations, conservant les informations de toutes les k classes mais avec une interprétation des axes plus complexe
Considération de la séquence de vecteurs SHAP comme un chemin dans l'espace de dimension k, où chaque segment de chemin correspond à la contribution d'une caractéristique, partant du point de prédiction moyenne pour atteindre le point de prédiction spécifique de l'échantillon.
- Modèle de génération : Régression logistique multinomiale
- Taille de l'échantillon : 1 500 échantillons, 10 caractéristiques
- Conception conceptuelle : Création de différents chemins menant à la même classe cible
- Définition des fonctions :
- f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
- f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
- où βⱼ,ᵢ ~ N(0,1)
- Source des données : Base de données de l'Initiative en Neuroimagerie de la Maladie d'Alzheimer
- Taille de l'échantillon : 2 422 patients, 39 caractéristiques
- Classes cibles : Cognitif Normal (CN), Trouble Cognitif Léger (MCI), Maladie d'Alzheimer/Démence (AD)
- Prétraitement : Suppression des données de visite et des informations d'appareil, mise à l'échelle linéaire à l'intervalle 0,1
- Performance de classification : Précision, rappel, score F1
- Qualité du clustering : Vérification par visualisation et connaissance du domaine
- Modèle prédictif : XGBoost
- Méthode de réduction de dimensionnalité : UMAP
- Algorithme de clustering : HDBSCAN
- Validation croisée : Validation croisée répétée pour le calcul des valeurs SHAP
Le modèle XGBoost montre d'excellentes performances sur l'ensemble de test :
- Précision globale : 90 %
- Scores F1 par classe : 0,88-0,92
- Démonstration de la fiabilité de l'interprétation du modèle
- Absence de structure de clustering dans les données originales : La visualisation UMAP montre l'absence de motif de clustering évident dans les données originales
- Les valeurs SHAP révèlent 4 clusters :
- Cluster 0 : x₁ < 0, x₂ < 0 → Classe 0
- Cluster 3 : x₁ > 0, x₂ > 0 → Classe 1
- Clusters 1 et 2 : x₁, x₂ de signes opposés → Classe 2 (deux chemins différents)
- Identification réussie des deux chemins différents menant à la classe 2
- Cluster 1 : x₁ > 0, x₂ < 0
- Cluster 2 : x₁ < 0, x₂ > 0
L'analyse ultérieure révèle que le cluster 3 peut être subdivisé en deux sous-clusters, la différence principale résidant dans la contribution de la caractéristique 8, validant la stabilité de la méthode.
- Précision globale : 93 %
- Performance par classe : CN (F1=0,96), MCI (F1=0,92), AD (F1=0,86)
- CDRSB (Score Total de l'Échelle de Démence Clinique) : Facteur prédictif le plus important
- LDELTOTAL : Effet significatif dans la distinction entre CN et MCI
- mPACCdigit et MMSE : Importants dans la distinction entre MCI et AD
- Patients CN : Clusters 0 et 4, avec des motifs SHAP similaires malgré des génotypes APOE4 différents
- Patients MCI : Clusters 3 et 6
- Cluster 3 : Contribution CDRSB à AD = -1,50 (protecteur)
- Cluster 6 : Contribution CDRSB à AD = -0,50 (risque)
- Patients AD : Clusters 1, 2, 5, présentant différents chemins de maladie
- Révélation de l'hétérogénéité au sein des mêmes catégories diagnostiques
- L'évaluation CDRSB peut être utilisée pour la stratification des risques chez les patients MCI
- Différents clusters AD peuvent nécessiter des stratégies thérapeutiques différentes
- Fondements théoriques : Basés sur les valeurs de Shapley (Lloyd Shapley, 1953)
- Développement moderne : Application à l'apprentissage automatique par Lundberg et Lee (2017)
- Algorithme TreeSHAP : Spécialement conçu pour le calcul des valeurs SHAP des modèles arborescents
- Méthodes traditionnelles : K-means, clustering hiérarchique et autres basés sur les caractéristiques originales
- Clustering par densité : DBSCAN et sa version améliorée HDBSCAN
- Clustering supervisé : Méthodes de clustering intégrant les informations d'apprentissage supervisé
La recherche existante est extrêmement limitée, cet article constituant une contribution importante dans ce domaine et posant les fondations pour les recherches futures.
- Efficacité du clustering basé sur SHAP : Capable de découvrir des regroupements significatifs non observables dans les données originales
- Utilité du graphique de cascade haute dimension : Résolution réussie du problème de visualisation des valeurs SHAP pour la classification multi-classe
- Valeur d'application médicale : Démonstration du potentiel d'application pratique dans la recherche sur la maladie d'Alzheimer
- Aperçu de l'hétérogénéité des maladies : Révélation de différents chemins pathologiques au sein des mêmes catégories diagnostiques
- Complexité computationnelle : Nécessité de calculer un grand nombre de valeurs SHAP, coût de calcul élevé
- Dépendance au modèle : Les résultats du clustering dépendent de la qualité du modèle prédictif sous-jacent
- Sensibilité aux paramètres : Le choix des paramètres d'algorithmes tels que HDBSCAN peut influencer les résultats
- Limitation du nombre de classes : La visualisation du graphique de cascade haute dimension reste limitée par le nombre de classes
- Extension des méthodes de visualisation : Développement d'autres versions haute dimension des graphiques SHAP (graphiques en barres, cartes thermiques, graphiques en essaim, etc.)
- Optimisation des algorithmes : Amélioration de l'efficacité computationnelle pour les données à grande échelle
- Analyse théorique : Établissement des fondements théoriques du clustering basé sur SHAP
- Extension des applications : Validation de l'universalité de la méthode dans d'autres domaines
- Innovation forte : Première proposition systématique d'une méthode de clustering supervisé basée sur SHAP
- Valeur pratique élevée : Importance d'application dans les domaines à haut risque tels que la médecine
- Méthode complète : Fourniture d'un flux de travail complet de la modélisation à l'interprétation
- Vérification suffisante : Double vérification par simulation et cas réels
- Innovation en visualisation : Le graphique de cascade haute dimension résout le problème d'interprétabilité pour la classification multi-classe
- Fondements théoriques faibles : Manque d'analyse théorique du clustering basé sur SHAP
- Efficacité computationnelle : Les problèmes de complexité computationnelle pour les applications à grande échelle ne sont pas suffisamment discutés
- Sélection des paramètres : Les principes directeurs pour le choix des paramètres des algorithmes de clustering manquent de clarté
- Signification statistique : Absence de tests de signification statistique des résultats du clustering
- Expériences comparatives insuffisantes : Comparaisons limitées avec d'autres méthodes de clustering interprétable
- Contribution académique : Apport de nouvelles perspectives aux domaines de l'IA interprétable et du clustering supervisé
- Valeur pratique : Potentiel d'application directe dans des domaines tels que la médecine de précision
- Généralisation de la méthode : Le flux de travail peut être étendu à d'autres domaines et problèmes
- Recherche ultérieure : Ouverture de nouvelles directions pour l'application approfondie des valeurs SHAP
- Diagnostic médical : Analyse de l'hétérogénéité des maladies et traitement personnalisé
- Gestion des risques financiers : Stratification des risques clients et stratégies différenciées
- Systèmes de recommandation : Analyse des motifs de comportement des utilisateurs
- Contrôle de qualité : Analyse des différentes causes des défauts de produits
L'article cite 23 références importantes couvrant la théorie SHAP, les algorithmes de clustering, les méthodes de visualisation et la recherche sur la maladie d'Alzheimer, fournissant un bon soutien théorique pour la recherche interdisciplinaire.
Évaluation Globale : Ceci est un article de recherche interdisciplinaire de haute qualité qui apporte des contributions importantes au domaine de l'intersection entre l'IA interprétable et le clustering supervisé. La méthode est fortement innovante, la vérification expérimentale est complète, et elle possède une valeur importante pour les applications à haut risque tels que le domaine médical. Bien qu'il y ait encore de la place pour l'amélioration en termes d'analyse théorique et d'efficacité computationnelle, il pose les fondations pour les recherches ultérieures.