2025-11-12T09:04:09.780506

SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot

Lin, Fukuyama

In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.

academic

Clustering Supervisé Basé sur SHAP pour la Classification d'Échantillons et le Graphique de Cascade Généralisé

Informations Fondamentales

ID de l'article : 2510.08737
Titre : SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
Auteurs : Justin Lin (Département de Mathématiques, Université de l'Indiana), Julia Fukuyama (Département de Statistiques, Université de l'Indiana)
Classification : cs.LG, stat.ME, stat.ML
Date de publication : 9 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.08737v1

Résumé

À l'ère du développement rapide des données et des technologies, les grands modèles de boîte noire sont devenus dominants en raison de leur capacité à traiter des volumes massifs de données et à apprendre des relations complexes entre entrées et sorties. Cependant, le défaut majeur de ces méthodes réside dans leur incapacité à interpréter le processus de prédiction, rendant leur application dans les scénarios à haut risque peu fiable et dangereuse. L'analyse SHAP (SHapley Additive exPlanations) en tant que méthode d'IA interprétable gagne en popularité grâce à sa capacité à expliquer les prédictions des modèles à l'aide de caractéristiques originales. Cet article propose une analyse de clustering des valeurs SHAP, qui non seulement regroupe les échantillons obtenant les mêmes prédictions, mais plus important encore, regroupe les échantillons obtenant les mêmes prédictions pour des raisons similaires. L'efficacité de la méthode est démontrée par des expériences de simulation et une étude de cas sur la maladie d'Alzheimer (utilisant la base de données ADNI), et une méthode de généralisation du graphique de cascade pour les problèmes de classification multi-classe est proposée.

Contexte et Motivation de la Recherche

Définition du Problème

Avec l'augmentation continue de la complexité des modèles d'apprentissage automatique, les modèles de boîte noire excellent en termes de précision prédictive, mais leur manque d'interprétabilité crée des obstacles à l'application dans les domaines à haut risque tels que la médecine. L'analyse de clustering traditionnelle basée uniquement sur les caractéristiques des données originales ne peut pas révéler les différents chemins par lesquels les échantillons arrivent aux mêmes résultats de prédiction.

Importance de la Recherche

Besoins d'application médicale : Dans les maladies hétérogènes telles que la maladie d'Alzheimer, différents patients peuvent arriver au même résultat diagnostique par des mécanismes pathologiques complètement différents
Médecine de précision : Comprendre l'hétérogénéité des maladies aide à élaborer des plans de traitement personnalisés
Interprétabilité des modèles : Dans les scénarios de prise de décision à haut risque, il est crucial de comprendre les raisons des prédictions du modèle

Limitations des Méthodes Existantes

Méthodes de clustering traditionnelles : Basées uniquement sur les caractéristiques des données originales, elles ne peuvent pas capturer les relations complexes entrées-sorties apprises par le modèle
Recherche limitée sur le clustering des valeurs SHAP : La littérature existante contient très peu d'études sur le clustering des valeurs SHAP
Outils de visualisation insuffisants : Les problèmes de classification multi-classe manquent de méthodes efficaces de visualisation des valeurs SHAP

Contributions Principales

Proposition d'une méthode de clustering supervisé basée sur SHAP : Clustering basé sur les valeurs SHAP plutôt que sur les données originales, révélant les différents chemins par lesquels les échantillons arrivent aux mêmes prédictions
Développement d'un graphique de cascade haute dimension : Généralisation du graphique de cascade traditionnel aux problèmes de classification multi-classe, supportant la visualisation de vecteurs SHAP de dimension k
Fourniture d'un processus d'analyse complet : Flux de travail en cinq étapes comprenant la modélisation prédictive, l'analyse SHAP, la visualisation, l'analyse de clustering et l'interprétation des clusters
Validation de l'efficacité de la méthode : Vérification de l'applicabilité pratique de la méthode par des expériences de simulation et des cas réels de maladie d'Alzheimer

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de données d'entraînement X' ⊂ X ⊂ R^p et un modèle entraîné f: X → R, calculer pour chaque échantillon x ∈ X les valeurs SHAP φ(f;x)₁, ..., φ(f;x)ₚ, telles que :

$\sum_{i=1}^{p} \phi(f;x)_i = f(x) - E[f(X')]$

L'objectif est de regrouper la matrice des valeurs SHAP pour découvrir des groupes d'échantillons ayant des interprétations de modèle similaires.

Flux de Travail du Clustering Supervisé

1. Modélisation Prédictive

Utilisation de XGBoost pour construire le modèle prédictif
Validation croisée répétée pour assurer la performance de généralisation du modèle

2. Analyse SHAP

Classification binaire : Une valeur SHAP par caractéristique
Classification multi-classe : Un vecteur SHAP de dimension k par caractéristique (k étant le nombre de classes)
Utilisation de l'algorithme TreeSHAP pour calculer les valeurs SHAP des modèles arborescents
Validation croisée pour éviter le surapprentissage

3. Visualisation

Utilisation d'UMAP pour la réduction de dimensionnalité et la visualisation
Préservation de la structure locale, appropriée pour la détection de clusters

4. Analyse de Clustering

Adoption de HDBSCAN pour le clustering hiérarchique par densité
Capacité à gérer le bruit et le clustering à densité variable

5. Interprétation des Clusters

Utilisation de cartes thermiques pour analyser les données originales
Adoption de graphiques de cascade haute dimension pour l'interprétation des clusters

Innovation du Graphique de Cascade Haute Dimension

Limitations du Graphique de Cascade Traditionnel

Le graphique de cascade traditionnel ne s'applique qu'aux valeurs SHAP unidimensionnelles et ne peut pas traiter les vecteurs SHAP de dimension k pour la classification multi-classe.

Solution Proposée

Projection dans le sous-espace de classe : Sélection de deux classes, ignorant les valeurs SHAP des autres classes, appropriée pour les comparaisons par paires entre classes
Projection PCA : Projection dans le sous-espace bidimensionnel conservant le plus d'informations, conservant les informations de toutes les k classes mais avec une interprétation des axes plus complexe

Représentation Mathématique

Considération de la séquence de vecteurs SHAP comme un chemin dans l'espace de dimension k, où chaque segment de chemin correspond à la contribution d'une caractéristique, partant du point de prédiction moyenne pour atteindre le point de prédiction spécifique de l'échantillon.

Configuration Expérimentale

Ensembles de Données

Données de Simulation

Modèle de génération : Régression logistique multinomiale
Taille de l'échantillon : 1 500 échantillons, 10 caractéristiques
Conception conceptuelle : Création de différents chemins menant à la même classe cible
Définition des fonctions :
- f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
- f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
- où βⱼ,ᵢ ~ N(0,1)

Données ADNI

Source des données : Base de données de l'Initiative en Neuroimagerie de la Maladie d'Alzheimer
Taille de l'échantillon : 2 422 patients, 39 caractéristiques
Classes cibles : Cognitif Normal (CN), Trouble Cognitif Léger (MCI), Maladie d'Alzheimer/Démence (AD)
Prétraitement : Suppression des données de visite et des informations d'appareil, mise à l'échelle linéaire à l'intervalle 0,1

Indicateurs d'Évaluation

Performance de classification : Précision, rappel, score F1
Qualité du clustering : Vérification par visualisation et connaissance du domaine

Détails d'Implémentation

Modèle prédictif : XGBoost
Méthode de réduction de dimensionnalité : UMAP
Algorithme de clustering : HDBSCAN
Validation croisée : Validation croisée répétée pour le calcul des valeurs SHAP

Résultats Expérimentaux

Résultats des Expériences de Simulation

Performance du Modèle

Le modèle XGBoost montre d'excellentes performances sur l'ensemble de test :

Précision globale : 90 %
Scores F1 par classe : 0,88-0,92
Démonstration de la fiabilité de l'interprétation du modèle

Découvertes de Clustering

Absence de structure de clustering dans les données originales : La visualisation UMAP montre l'absence de motif de clustering évident dans les données originales
Les valeurs SHAP révèlent 4 clusters :
- Cluster 0 : x₁ < 0, x₂ < 0 → Classe 0
- Cluster 3 : x₁ > 0, x₂ > 0 → Classe 1
- Clusters 1 et 2 : x₁, x₂ de signes opposés → Classe 2 (deux chemins différents)

Vérification du Graphique de Cascade Haute Dimension

Identification réussie des deux chemins différents menant à la classe 2
Cluster 1 : x₁ > 0, x₂ < 0
Cluster 2 : x₁ < 0, x₂ > 0

Clustering Plus Fin

L'analyse ultérieure révèle que le cluster 3 peut être subdivisé en deux sous-clusters, la différence principale résidant dans la contribution de la caractéristique 8, validant la stabilité de la méthode.

Résultats de l'Étude de Cas ADNI

Performance du Modèle

Précision globale : 93 %
Performance par classe : CN (F1=0,96), MCI (F1=0,92), AD (F1=0,86)

Identification des Caractéristiques Clés

CDRSB (Score Total de l'Échelle de Démence Clinique) : Facteur prédictif le plus important
LDELTOTAL : Effet significatif dans la distinction entre CN et MCI
mPACCdigit et MMSE : Importants dans la distinction entre MCI et AD

Découvertes de Clustering

Patients CN : Clusters 0 et 4, avec des motifs SHAP similaires malgré des génotypes APOE4 différents
Patients MCI : Clusters 3 et 6
- Cluster 3 : Contribution CDRSB à AD = -1,50 (protecteur)
- Cluster 6 : Contribution CDRSB à AD = -0,50 (risque)
Patients AD : Clusters 1, 2, 5, présentant différents chemins de maladie

Signification Clinique

Révélation de l'hétérogénéité au sein des mêmes catégories diagnostiques
L'évaluation CDRSB peut être utilisée pour la stratification des risques chez les patients MCI
Différents clusters AD peuvent nécessiter des stratégies thérapeutiques différentes

Travaux Connexes

Développement de l'Analyse SHAP

Fondements théoriques : Basés sur les valeurs de Shapley (Lloyd Shapley, 1953)
Développement moderne : Application à l'apprentissage automatique par Lundberg et Lee (2017)
Algorithme TreeSHAP : Spécialement conçu pour le calcul des valeurs SHAP des modèles arborescents

Évolution des Méthodes de Clustering

Méthodes traditionnelles : K-means, clustering hiérarchique et autres basés sur les caractéristiques originales
Clustering par densité : DBSCAN et sa version améliorée HDBSCAN
Clustering supervisé : Méthodes de clustering intégrant les informations d'apprentissage supervisé

Recherche sur le Clustering des Valeurs SHAP

La recherche existante est extrêmement limitée, cet article constituant une contribution importante dans ce domaine et posant les fondations pour les recherches futures.

Conclusions et Discussion

Conclusions Principales

Efficacité du clustering basé sur SHAP : Capable de découvrir des regroupements significatifs non observables dans les données originales
Utilité du graphique de cascade haute dimension : Résolution réussie du problème de visualisation des valeurs SHAP pour la classification multi-classe
Valeur d'application médicale : Démonstration du potentiel d'application pratique dans la recherche sur la maladie d'Alzheimer
Aperçu de l'hétérogénéité des maladies : Révélation de différents chemins pathologiques au sein des mêmes catégories diagnostiques

Limitations

Complexité computationnelle : Nécessité de calculer un grand nombre de valeurs SHAP, coût de calcul élevé
Dépendance au modèle : Les résultats du clustering dépendent de la qualité du modèle prédictif sous-jacent
Sensibilité aux paramètres : Le choix des paramètres d'algorithmes tels que HDBSCAN peut influencer les résultats
Limitation du nombre de classes : La visualisation du graphique de cascade haute dimension reste limitée par le nombre de classes

Directions Futures

Extension des méthodes de visualisation : Développement d'autres versions haute dimension des graphiques SHAP (graphiques en barres, cartes thermiques, graphiques en essaim, etc.)
Optimisation des algorithmes : Amélioration de l'efficacité computationnelle pour les données à grande échelle
Analyse théorique : Établissement des fondements théoriques du clustering basé sur SHAP
Extension des applications : Validation de l'universalité de la méthode dans d'autres domaines

Évaluation Approfondie

Points Forts

Innovation forte : Première proposition systématique d'une méthode de clustering supervisé basée sur SHAP
Valeur pratique élevée : Importance d'application dans les domaines à haut risque tels que la médecine
Méthode complète : Fourniture d'un flux de travail complet de la modélisation à l'interprétation
Vérification suffisante : Double vérification par simulation et cas réels
Innovation en visualisation : Le graphique de cascade haute dimension résout le problème d'interprétabilité pour la classification multi-classe

Insuffisances

Fondements théoriques faibles : Manque d'analyse théorique du clustering basé sur SHAP
Efficacité computationnelle : Les problèmes de complexité computationnelle pour les applications à grande échelle ne sont pas suffisamment discutés
Sélection des paramètres : Les principes directeurs pour le choix des paramètres des algorithmes de clustering manquent de clarté
Signification statistique : Absence de tests de signification statistique des résultats du clustering
Expériences comparatives insuffisantes : Comparaisons limitées avec d'autres méthodes de clustering interprétable

Impact

Contribution académique : Apport de nouvelles perspectives aux domaines de l'IA interprétable et du clustering supervisé
Valeur pratique : Potentiel d'application directe dans des domaines tels que la médecine de précision
Généralisation de la méthode : Le flux de travail peut être étendu à d'autres domaines et problèmes
Recherche ultérieure : Ouverture de nouvelles directions pour l'application approfondie des valeurs SHAP

Scénarios d'Application

Diagnostic médical : Analyse de l'hétérogénéité des maladies et traitement personnalisé
Gestion des risques financiers : Stratification des risques clients et stratégies différenciées
Systèmes de recommandation : Analyse des motifs de comportement des utilisateurs
Contrôle de qualité : Analyse des différentes causes des défauts de produits

Références Bibliographiques

L'article cite 23 références importantes couvrant la théorie SHAP, les algorithmes de clustering, les méthodes de visualisation et la recherche sur la maladie d'Alzheimer, fournissant un bon soutien théorique pour la recherche interdisciplinaire.

Évaluation Globale : Ceci est un article de recherche interdisciplinaire de haute qualité qui apporte des contributions importantes au domaine de l'intersection entre l'IA interprétable et le clustering supervisé. La méthode est fortement innovante, la vérification expérimentale est complète, et elle possède une valeur importante pour les applications à haut risque tels que le domaine médical. Bien qu'il y ait encore de la place pour l'amélioration en termes d'analyse théorique et d'efficacité computationnelle, il pose les fondations pour les recherches ultérieures.