2025-11-12T09:04:09.780506

SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot

Lin, Fukuyama
In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.
academic

Clustering Supervisé Basé sur SHAP pour la Classification d'Échantillons et le Graphique de Cascade Généralisé

Informations Fondamentales

  • ID de l'article : 2510.08737
  • Titre : SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
  • Auteurs : Justin Lin (Département de Mathématiques, Université de l'Indiana), Julia Fukuyama (Département de Statistiques, Université de l'Indiana)
  • Classification : cs.LG, stat.ME, stat.ML
  • Date de publication : 9 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.08737v1

Résumé

À l'ère du développement rapide des données et des technologies, les grands modèles de boîte noire sont devenus dominants en raison de leur capacité à traiter des volumes massifs de données et à apprendre des relations complexes entre entrées et sorties. Cependant, le défaut majeur de ces méthodes réside dans leur incapacité à interpréter le processus de prédiction, rendant leur application dans les scénarios à haut risque peu fiable et dangereuse. L'analyse SHAP (SHapley Additive exPlanations) en tant que méthode d'IA interprétable gagne en popularité grâce à sa capacité à expliquer les prédictions des modèles à l'aide de caractéristiques originales. Cet article propose une analyse de clustering des valeurs SHAP, qui non seulement regroupe les échantillons obtenant les mêmes prédictions, mais plus important encore, regroupe les échantillons obtenant les mêmes prédictions pour des raisons similaires. L'efficacité de la méthode est démontrée par des expériences de simulation et une étude de cas sur la maladie d'Alzheimer (utilisant la base de données ADNI), et une méthode de généralisation du graphique de cascade pour les problèmes de classification multi-classe est proposée.

Contexte et Motivation de la Recherche

Définition du Problème

Avec l'augmentation continue de la complexité des modèles d'apprentissage automatique, les modèles de boîte noire excellent en termes de précision prédictive, mais leur manque d'interprétabilité crée des obstacles à l'application dans les domaines à haut risque tels que la médecine. L'analyse de clustering traditionnelle basée uniquement sur les caractéristiques des données originales ne peut pas révéler les différents chemins par lesquels les échantillons arrivent aux mêmes résultats de prédiction.

Importance de la Recherche

  1. Besoins d'application médicale : Dans les maladies hétérogènes telles que la maladie d'Alzheimer, différents patients peuvent arriver au même résultat diagnostique par des mécanismes pathologiques complètement différents
  2. Médecine de précision : Comprendre l'hétérogénéité des maladies aide à élaborer des plans de traitement personnalisés
  3. Interprétabilité des modèles : Dans les scénarios de prise de décision à haut risque, il est crucial de comprendre les raisons des prédictions du modèle

Limitations des Méthodes Existantes

  1. Méthodes de clustering traditionnelles : Basées uniquement sur les caractéristiques des données originales, elles ne peuvent pas capturer les relations complexes entrées-sorties apprises par le modèle
  2. Recherche limitée sur le clustering des valeurs SHAP : La littérature existante contient très peu d'études sur le clustering des valeurs SHAP
  3. Outils de visualisation insuffisants : Les problèmes de classification multi-classe manquent de méthodes efficaces de visualisation des valeurs SHAP

Contributions Principales

  1. Proposition d'une méthode de clustering supervisé basée sur SHAP : Clustering basé sur les valeurs SHAP plutôt que sur les données originales, révélant les différents chemins par lesquels les échantillons arrivent aux mêmes prédictions
  2. Développement d'un graphique de cascade haute dimension : Généralisation du graphique de cascade traditionnel aux problèmes de classification multi-classe, supportant la visualisation de vecteurs SHAP de dimension k
  3. Fourniture d'un processus d'analyse complet : Flux de travail en cinq étapes comprenant la modélisation prédictive, l'analyse SHAP, la visualisation, l'analyse de clustering et l'interprétation des clusters
  4. Validation de l'efficacité de la méthode : Vérification de l'applicabilité pratique de la méthode par des expériences de simulation et des cas réels de maladie d'Alzheimer

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de données d'entraînement X' ⊂ X ⊂ R^p et un modèle entraîné f: X → R, calculer pour chaque échantillon x ∈ X les valeurs SHAP φ(f;x)₁, ..., φ(f;x)ₚ, telles que :

i=1pϕ(f;x)i=f(x)E[f(X)]\sum_{i=1}^{p} \phi(f;x)_i = f(x) - E[f(X')]

L'objectif est de regrouper la matrice des valeurs SHAP pour découvrir des groupes d'échantillons ayant des interprétations de modèle similaires.

Flux de Travail du Clustering Supervisé

1. Modélisation Prédictive

  • Utilisation de XGBoost pour construire le modèle prédictif
  • Validation croisée répétée pour assurer la performance de généralisation du modèle

2. Analyse SHAP

  • Classification binaire : Une valeur SHAP par caractéristique
  • Classification multi-classe : Un vecteur SHAP de dimension k par caractéristique (k étant le nombre de classes)
  • Utilisation de l'algorithme TreeSHAP pour calculer les valeurs SHAP des modèles arborescents
  • Validation croisée pour éviter le surapprentissage

3. Visualisation

  • Utilisation d'UMAP pour la réduction de dimensionnalité et la visualisation
  • Préservation de la structure locale, appropriée pour la détection de clusters

4. Analyse de Clustering

  • Adoption de HDBSCAN pour le clustering hiérarchique par densité
  • Capacité à gérer le bruit et le clustering à densité variable

5. Interprétation des Clusters

  • Utilisation de cartes thermiques pour analyser les données originales
  • Adoption de graphiques de cascade haute dimension pour l'interprétation des clusters

Innovation du Graphique de Cascade Haute Dimension

Limitations du Graphique de Cascade Traditionnel

Le graphique de cascade traditionnel ne s'applique qu'aux valeurs SHAP unidimensionnelles et ne peut pas traiter les vecteurs SHAP de dimension k pour la classification multi-classe.

Solution Proposée

  1. Projection dans le sous-espace de classe : Sélection de deux classes, ignorant les valeurs SHAP des autres classes, appropriée pour les comparaisons par paires entre classes
  2. Projection PCA : Projection dans le sous-espace bidimensionnel conservant le plus d'informations, conservant les informations de toutes les k classes mais avec une interprétation des axes plus complexe

Représentation Mathématique

Considération de la séquence de vecteurs SHAP comme un chemin dans l'espace de dimension k, où chaque segment de chemin correspond à la contribution d'une caractéristique, partant du point de prédiction moyenne pour atteindre le point de prédiction spécifique de l'échantillon.

Configuration Expérimentale

Ensembles de Données

Données de Simulation

  • Modèle de génération : Régression logistique multinomiale
  • Taille de l'échantillon : 1 500 échantillons, 10 caractéristiques
  • Conception conceptuelle : Création de différents chemins menant à la même classe cible
  • Définition des fonctions :
    • f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
    • f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
    • où βⱼ,ᵢ ~ N(0,1)

Données ADNI

  • Source des données : Base de données de l'Initiative en Neuroimagerie de la Maladie d'Alzheimer
  • Taille de l'échantillon : 2 422 patients, 39 caractéristiques
  • Classes cibles : Cognitif Normal (CN), Trouble Cognitif Léger (MCI), Maladie d'Alzheimer/Démence (AD)
  • Prétraitement : Suppression des données de visite et des informations d'appareil, mise à l'échelle linéaire à l'intervalle 0,1

Indicateurs d'Évaluation

  • Performance de classification : Précision, rappel, score F1
  • Qualité du clustering : Vérification par visualisation et connaissance du domaine

Détails d'Implémentation

  • Modèle prédictif : XGBoost
  • Méthode de réduction de dimensionnalité : UMAP
  • Algorithme de clustering : HDBSCAN
  • Validation croisée : Validation croisée répétée pour le calcul des valeurs SHAP

Résultats Expérimentaux

Résultats des Expériences de Simulation

Performance du Modèle

Le modèle XGBoost montre d'excellentes performances sur l'ensemble de test :

  • Précision globale : 90 %
  • Scores F1 par classe : 0,88-0,92
  • Démonstration de la fiabilité de l'interprétation du modèle

Découvertes de Clustering

  1. Absence de structure de clustering dans les données originales : La visualisation UMAP montre l'absence de motif de clustering évident dans les données originales
  2. Les valeurs SHAP révèlent 4 clusters :
    • Cluster 0 : x₁ < 0, x₂ < 0 → Classe 0
    • Cluster 3 : x₁ > 0, x₂ > 0 → Classe 1
    • Clusters 1 et 2 : x₁, x₂ de signes opposés → Classe 2 (deux chemins différents)

Vérification du Graphique de Cascade Haute Dimension

  • Identification réussie des deux chemins différents menant à la classe 2
  • Cluster 1 : x₁ > 0, x₂ < 0
  • Cluster 2 : x₁ < 0, x₂ > 0

Clustering Plus Fin

L'analyse ultérieure révèle que le cluster 3 peut être subdivisé en deux sous-clusters, la différence principale résidant dans la contribution de la caractéristique 8, validant la stabilité de la méthode.

Résultats de l'Étude de Cas ADNI

Performance du Modèle

  • Précision globale : 93 %
  • Performance par classe : CN (F1=0,96), MCI (F1=0,92), AD (F1=0,86)

Identification des Caractéristiques Clés

  1. CDRSB (Score Total de l'Échelle de Démence Clinique) : Facteur prédictif le plus important
  2. LDELTOTAL : Effet significatif dans la distinction entre CN et MCI
  3. mPACCdigit et MMSE : Importants dans la distinction entre MCI et AD

Découvertes de Clustering

  1. Patients CN : Clusters 0 et 4, avec des motifs SHAP similaires malgré des génotypes APOE4 différents
  2. Patients MCI : Clusters 3 et 6
    • Cluster 3 : Contribution CDRSB à AD = -1,50 (protecteur)
    • Cluster 6 : Contribution CDRSB à AD = -0,50 (risque)
  3. Patients AD : Clusters 1, 2, 5, présentant différents chemins de maladie

Signification Clinique

  • Révélation de l'hétérogénéité au sein des mêmes catégories diagnostiques
  • L'évaluation CDRSB peut être utilisée pour la stratification des risques chez les patients MCI
  • Différents clusters AD peuvent nécessiter des stratégies thérapeutiques différentes

Travaux Connexes

Développement de l'Analyse SHAP

  • Fondements théoriques : Basés sur les valeurs de Shapley (Lloyd Shapley, 1953)
  • Développement moderne : Application à l'apprentissage automatique par Lundberg et Lee (2017)
  • Algorithme TreeSHAP : Spécialement conçu pour le calcul des valeurs SHAP des modèles arborescents

Évolution des Méthodes de Clustering

  • Méthodes traditionnelles : K-means, clustering hiérarchique et autres basés sur les caractéristiques originales
  • Clustering par densité : DBSCAN et sa version améliorée HDBSCAN
  • Clustering supervisé : Méthodes de clustering intégrant les informations d'apprentissage supervisé

Recherche sur le Clustering des Valeurs SHAP

La recherche existante est extrêmement limitée, cet article constituant une contribution importante dans ce domaine et posant les fondations pour les recherches futures.

Conclusions et Discussion

Conclusions Principales

  1. Efficacité du clustering basé sur SHAP : Capable de découvrir des regroupements significatifs non observables dans les données originales
  2. Utilité du graphique de cascade haute dimension : Résolution réussie du problème de visualisation des valeurs SHAP pour la classification multi-classe
  3. Valeur d'application médicale : Démonstration du potentiel d'application pratique dans la recherche sur la maladie d'Alzheimer
  4. Aperçu de l'hétérogénéité des maladies : Révélation de différents chemins pathologiques au sein des mêmes catégories diagnostiques

Limitations

  1. Complexité computationnelle : Nécessité de calculer un grand nombre de valeurs SHAP, coût de calcul élevé
  2. Dépendance au modèle : Les résultats du clustering dépendent de la qualité du modèle prédictif sous-jacent
  3. Sensibilité aux paramètres : Le choix des paramètres d'algorithmes tels que HDBSCAN peut influencer les résultats
  4. Limitation du nombre de classes : La visualisation du graphique de cascade haute dimension reste limitée par le nombre de classes

Directions Futures

  1. Extension des méthodes de visualisation : Développement d'autres versions haute dimension des graphiques SHAP (graphiques en barres, cartes thermiques, graphiques en essaim, etc.)
  2. Optimisation des algorithmes : Amélioration de l'efficacité computationnelle pour les données à grande échelle
  3. Analyse théorique : Établissement des fondements théoriques du clustering basé sur SHAP
  4. Extension des applications : Validation de l'universalité de la méthode dans d'autres domaines

Évaluation Approfondie

Points Forts

  1. Innovation forte : Première proposition systématique d'une méthode de clustering supervisé basée sur SHAP
  2. Valeur pratique élevée : Importance d'application dans les domaines à haut risque tels que la médecine
  3. Méthode complète : Fourniture d'un flux de travail complet de la modélisation à l'interprétation
  4. Vérification suffisante : Double vérification par simulation et cas réels
  5. Innovation en visualisation : Le graphique de cascade haute dimension résout le problème d'interprétabilité pour la classification multi-classe

Insuffisances

  1. Fondements théoriques faibles : Manque d'analyse théorique du clustering basé sur SHAP
  2. Efficacité computationnelle : Les problèmes de complexité computationnelle pour les applications à grande échelle ne sont pas suffisamment discutés
  3. Sélection des paramètres : Les principes directeurs pour le choix des paramètres des algorithmes de clustering manquent de clarté
  4. Signification statistique : Absence de tests de signification statistique des résultats du clustering
  5. Expériences comparatives insuffisantes : Comparaisons limitées avec d'autres méthodes de clustering interprétable

Impact

  1. Contribution académique : Apport de nouvelles perspectives aux domaines de l'IA interprétable et du clustering supervisé
  2. Valeur pratique : Potentiel d'application directe dans des domaines tels que la médecine de précision
  3. Généralisation de la méthode : Le flux de travail peut être étendu à d'autres domaines et problèmes
  4. Recherche ultérieure : Ouverture de nouvelles directions pour l'application approfondie des valeurs SHAP

Scénarios d'Application

  1. Diagnostic médical : Analyse de l'hétérogénéité des maladies et traitement personnalisé
  2. Gestion des risques financiers : Stratification des risques clients et stratégies différenciées
  3. Systèmes de recommandation : Analyse des motifs de comportement des utilisateurs
  4. Contrôle de qualité : Analyse des différentes causes des défauts de produits

Références Bibliographiques

L'article cite 23 références importantes couvrant la théorie SHAP, les algorithmes de clustering, les méthodes de visualisation et la recherche sur la maladie d'Alzheimer, fournissant un bon soutien théorique pour la recherche interdisciplinaire.


Évaluation Globale : Ceci est un article de recherche interdisciplinaire de haute qualité qui apporte des contributions importantes au domaine de l'intersection entre l'IA interprétable et le clustering supervisé. La méthode est fortement innovante, la vérification expérimentale est complète, et elle possède une valeur importante pour les applications à haut risque tels que le domaine médical. Bien qu'il y ait encore de la place pour l'amélioration en termes d'analyse théorique et d'efficacité computationnelle, il pose les fondations pour les recherches ultérieures.