2025-11-12T09:04:09.780506

SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot

Lin, Fukuyama
In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.
academic

SHAP-basierte überwachte Clusterung zur Stichprobenklassifizierung und das verallgemeinerte Wasserfalldiagramm

Grundinformationen

  • Papier-ID: 2510.08737
  • Titel: SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
  • Autoren: Justin Lin (Indiana University Mathematics Department), Julia Fukuyama (Indiana University Statistics Department)
  • Klassifizierung: cs.LG, stat.ME, stat.ML
  • Veröffentlichungsdatum: 9. Oktober 2025 (arXiv Preprint)
  • Papierlink: https://arxiv.org/abs/2510.08737v1

Zusammenfassung

In einer Zeit der rasanten Daten- und Technologieentwicklung sind große Black-Box-Modelle aufgrund ihrer Fähigkeit, massive Datenmengen zu verarbeiten und komplexe Input-Output-Beziehungen zu erlernen, zum Standard geworden. Der Nachteil dieser Methoden liegt jedoch in ihrer mangelnden Interpretierbarkeit des Vorhersageprozesses, was ihre Anwendung in Hochrisikoszenarien unzuverlässig und gefährlich macht. Die SHAP-Analyse (SHapley Additive exPlanations) als Methode der interpretierbaren KI wird zunehmend populär, da sie Modellvorhersagen mit ursprünglichen Merkmalen erklären kann. Dieses Papier schlägt eine Clusteranalyse von SHAP-Werten vor, die nicht nur Stichproben mit identischen Vorhersagen gruppiert, sondern noch wichtiger, Stichproben gruppiert, die aus ähnlichen Gründen identische Vorhersagen erhalten. Die Wirksamkeit der Methode wird durch Simulationsexperimente und eine Fallstudie zur Alzheimer-Krankheit (unter Verwendung der ADNI-Datenbank) demonstriert, und es wird eine verallgemeinerte Wasserfalldiagramm-Methode für Mehrklassen-Probleme vorgeschlagen.

Forschungshintergrund und Motivation

Problemdefinition

Mit zunehmender Komplexität von Maschinenlernmodellen zeigen Black-Box-Modelle hervorragende Vorhersageleistungen, aber ihre mangelnde Interpretierbarkeit stellt Anwendungshindernisse in Hochrisikobereichen wie der Medizin dar. Traditionelle Clusteranalysen basieren nur auf ursprünglichen Datenmerkalen und können nicht die verschiedenen Wege offenbaren, auf denen Stichproben zu identischen Vorhersageergebnissen gelangen.

Forschungsbedeutung

  1. Medizinische Anwendungsanforderungen: Bei heterogenen Krankheiten wie Alzheimer können verschiedene Patienten durch völlig unterschiedliche pathologische Mechanismen zu identischen Diagnoseergebnissen gelangen
  2. Präzisionsmedizin: Das Verständnis der Krankheitsheterogenität hilft bei der Entwicklung personalisierter Behandlungspläne
  3. Modellinterpretierbarkeit: In Hochrisiko-Entscheidungsszenarien ist es entscheidend, die Gründe für Modellvorhersagen zu verstehen

Einschränkungen bestehender Methoden

  1. Traditionelle Clusteringmethoden: Basieren nur auf ursprünglichen Datenmerkalen und können komplexe Input-Output-Beziehungen, die das Modell erlernt hat, nicht erfassen
  2. Begrenzte SHAP-Wert-Clusterforschung: Die vorhandene Literatur zu SHAP-Wert-Clustering ist äußerst begrenzt
  3. Unzureichende Visualisierungswerkzeuge: Mehrklassen-Probleme mangelt es an effektiven SHAP-Wert-Visualisierungsmethoden

Kernbeiträge

  1. Vorschlag einer SHAP-basierten überwachten Clusteringmethode: Clustering basierend auf SHAP-Werten statt ursprünglichen Daten, um verschiedene Wege zu identischen Vorhersagen offenzulegen
  2. Entwicklung hochdimensionaler Wasserfalldiagramme: Verallgemeinerung traditioneller Wasserfalldiagramme auf Mehrklassen-Probleme mit Unterstützung für k-dimensionale SHAP-Vektor-Visualisierung
  3. Bereitstellung eines vollständigen Analyseverfahrens: Ein fünfschrittiger Arbeitsablauf mit Vorhersagemodellierung, SHAP-Analyse, Visualisierung, Clusteranalyse und Cluster-Interpretation
  4. Validierung der Methodeneffektivität: Überprüfung der praktischen Anwendbarkeit durch Simulationsexperimente und echte Alzheimer-Fälle

Methodische Details

Aufgabendefinition

Gegeben ein Trainingsdatensatz X' ⊂ X ⊂ R^p und ein trainiertes Modell f: X → R, berechnen Sie für jede Stichprobe x ∈ X die SHAP-Werte φ(f;x)₁, ..., φ(f;x)ₚ, so dass:

i=1pϕ(f;x)i=f(x)E[f(X)]\sum_{i=1}^{p} \phi(f;x)_i = f(x) - E[f(X')]

Das Ziel ist das Clustering der SHAP-Wert-Matrix, um Stichprobengruppen mit ähnlichen Modellinterpretationen zu entdecken.

Arbeitsablauf für überwachtes Clustering

1. Vorhersagemodellierung

  • Verwendung von XGBoost zur Erstellung des Vorhersagemodells
  • Sicherung der Modellverallgemeinerungsleistung durch wiederholte Kreuzvalidierung

2. SHAP-Analyse

  • Binärklassifizierung: Jedes Merkmal entspricht einem SHAP-Wert
  • Mehrklassifizierung: Jedes Merkmal entspricht einem k-dimensionalen SHAP-Vektor (k ist die Anzahl der Klassen)
  • Verwendung des TreeSHAP-Algorithmus zur Berechnung von SHAP-Werten für Baummodelle
  • Vermeidung von Überanpassung durch Kreuzvalidierung

3. Visualisierung

  • Verwendung von UMAP für Dimensionsreduktions-Visualisierung
  • Beibehaltung lokaler Strukturen, geeignet für Cluster-Erkennung

4. Clusteranalyse

  • Anwendung von HDBSCAN für hierarchisches Dichte-Clustering
  • Fähigkeit zur Handhabung von Rauschen und variablem Dichte-Clustering

5. Cluster-Interpretation

  • Verwendung von Heatmaps zur Analyse ursprünglicher Daten
  • Anwendung hochdimensionaler Wasserfalldiagramme zur Interpretation

Innovation bei hochdimensionalen Wasserfalldiagrammen

Einschränkungen traditioneller Wasserfalldiagramme

Traditionelle Wasserfalldiagramme sind nur für eindimensionale SHAP-Werte geeignet und können k-dimensionale SHAP-Vektoren bei Mehrklassen-Problemen nicht verarbeiten.

Lösungsansatz

  1. Projektion in Klassenunterraum: Auswahl von zwei Klassen, Ignorieren von SHAP-Werten anderer Klassen, geeignet für paarweise Vergleiche zwischen Klassen
  2. PCA-Projektion: Projektion in den zweidimensionalen Unterraum, der die meisten Informationen behält, behält alle k Klassen-Informationen bei, aber die Achseninterpretation ist komplexer

Mathematische Darstellung

Betrachten Sie die SHAP-Vektor-Sequenz als einen Pfad im k-dimensionalen Raum, wobei jedes Pfadsegment den Beitrag eines Merkmals darstellt, ausgehend vom durchschnittlichen Vorhersagepunkt bis zum spezifischen Vorhersagepunkt der Stichprobe.

Experimentelle Einrichtung

Datensätze

Simulationsdaten

  • Generierungsmodell: Multinomiale logistische Regression
  • Stichprobengröße: 1.500 Stichproben, 10-dimensionale Merkmale
  • Designgedanke: Erstellung verschiedener Wege zur Erreichung derselben Zielklasse
  • Funktionsdefinition:
    • f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
    • f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
    • wobei βⱼ,ᵢ ~ N(0,1)

ADNI-Daten

  • Datenquelle: Alzheimer's Disease Neuroimaging Initiative-Datenbank
  • Stichprobengröße: 2.422 Patienten, 39 Merkmale
  • Zielklassen: Kognitiv normal (CN), leichte kognitive Beeinträchtigung (MCI), Alzheimer-Krankheit/Demenz (AD)
  • Vorverarbeitung: Entfernung von Besuchsdaten und Geräteinformationen, lineare Skalierung auf 0,1-Intervall

Bewertungsmetriken

  • Klassifizierungsleistung: Präzision, Recall, F1-Score
  • Cluster-Qualität: Validierung durch Visualisierung und Domänenwissen

Implementierungsdetails

  • Vorhersagemodell: XGBoost
  • Dimensionsreduktionsmethode: UMAP
  • Clustering-Algorithmus: HDBSCAN
  • Kreuzvalidierung: Wiederholte Kreuzvalidierung zur Berechnung von SHAP-Werten

Experimentelle Ergebnisse

Simulationsexperiment-Ergebnisse

Modellleistung

Das XGBoost-Modell zeigt hervorragende Leistung auf dem Testsatz:

  • Gesamtgenauigkeit: 90%
  • F1-Scores pro Klasse: 0,88-0,92
  • Bestätigt die Zuverlässigkeit der Modellinterpretation

Cluster-Erkenntnisse

  1. Keine Clusterstruktur in ursprünglichen Daten: UMAP-Visualisierung zeigt keine offensichtlichen Clustermuster in ursprünglichen Daten
  2. SHAP-Werte offenbaren 4 Cluster:
    • Cluster 0: x₁ < 0, x₂ < 0 → Klasse 0
    • Cluster 3: x₁ > 0, x₂ > 0 → Klasse 1
    • Cluster 1 und 2: x₁, x₂ mit unterschiedlichen Vorzeichen → Klasse 2 (zwei verschiedene Wege)

Hochdimensionale Wasserfalldiagramm-Validierung

  • Erfolgreiche Identifizierung zweier verschiedener Wege zur Erreichung von Klasse 2
  • Cluster 1: x₁ > 0, x₂ < 0
  • Cluster 2: x₁ < 0, x₂ > 0

Feineres Clustering

Weitere Analysen zeigen, dass Cluster 3 in zwei Unter-Cluster unterteilt werden kann, mit Unterschieden hauptsächlich im Beitrag von Merkmal 8, was die Stabilität der Methode validiert.

ADNI-Fallstudie-Ergebnisse

Modellleistung

  • Gesamtgenauigkeit: 93%
  • Leistung pro Klasse: CN (F1=0,96), MCI (F1=0,92), AD (F1=0,86)

Identifizierung von Schlüsselmerkalen

  1. CDRSB (Clinical Dementia Rating Scale Sum of Boxes): Wichtigster Vorhersagefaktor
  2. LDELTOTAL: Signifikante Rolle bei der Unterscheidung zwischen CN und MCI
  3. mPACCdigit und MMSE: Wichtig bei der Unterscheidung zwischen MCI und AD

Cluster-Erkenntnisse

  1. CN-Patienten: Cluster 0 und 4, ähnliche SHAP-Muster trotz unterschiedlicher APOE4-Genotypen
  2. MCI-Patienten: Cluster 3 und 6
    • Cluster 3: CDRSB-Beitrag zu AD = -1,50 (protektiv)
    • Cluster 6: CDRSB-Beitrag zu AD = -0,50 (Risiko)
  3. AD-Patienten: Cluster 1, 2, 5, zeigen verschiedene Krankheitswege

Klinische Bedeutung

  • Offenlegung von Heterogenität innerhalb derselben Diagnoseklasse
  • CDRSB-Bewertung kann zur Risikostratifizierung von MCI-Patienten verwendet werden
  • Verschiedene AD-Cluster können unterschiedliche Behandlungsstrategien erfordern

Verwandte Arbeiten

SHAP-Analyse-Entwicklung

  • Theoretische Grundlagen: Basierend auf Shapley-Werten (Lloyd Shapley, 1953)
  • Moderne Entwicklung: Lundberg und Lee (2017) wendeten diese auf maschinelles Lernen an
  • TreeSHAP-Algorithmus: Speziell für SHAP-Wert-Berechnung in Baummodellen

Clustering-Methoden-Entwicklung

  • Traditionelle Methoden: K-means, hierarchisches Clustering basierend auf ursprünglichen Merkmalen
  • Dichte-Clustering: DBSCAN und seine verbesserte Version HDBSCAN
  • Überwachtes Clustering: Clustering-Methoden, die Informationen aus überwachtem Lernen integrieren

SHAP-Wert-Clusterforschung

Die vorhandene Forschung ist äußerst begrenzt, dieses Papier ist ein wichtiger Beitrag in diesem Bereich und legt den Grundstein für nachfolgende Forschungen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Effektivität von SHAP-basiertem Clustering: Kann bedeutungsvolle Gruppierungen entdecken, die in ursprünglichen Daten nicht beobachtbar sind
  2. Praktikabilität hochdimensionaler Wasserfalldiagramme: Erfolgreich gelöst das Visualisierungsproblem von SHAP-Werten bei Mehrklassen-Problemen
  3. Medizinischer Anwendungswert: Zeigt praktisches Anwendungspotenzial in der Alzheimer-Forschung
  4. Erkenntnisse zur Krankheitsheterogenität: Offenlegung verschiedener pathologischer Wege innerhalb derselben Diagnoseklasse

Einschränkungen

  1. Rechenkomplexität: Erfordert Berechnung großer Mengen von SHAP-Werten mit hohen Rechenkosten
  2. Modellabhängigkeit: Clustering-Ergebnisse hängen von der Qualität des zugrunde liegenden Vorhersagemodells ab
  3. Parametersensitivität: Die Parameterauswahl von Algorithmen wie HDBSCAN kann die Ergebnisse beeinflussen
  4. Klassenzahlbeschränkung: Die Visualisierung hochdimensionaler Wasserfalldiagramme wird immer noch durch die Anzahl der Klassen begrenzt

Zukünftige Richtungen

  1. Erweiterung der Visualisierungsmethoden: Entwicklung hochdimensionaler Versionen anderer SHAP-Diagramme (Balkendiagramme, Heatmaps, Bienenschwarm-Diagramme usw.)
  2. Algorithmus-Optimierung: Verbesserung der Recheneffizienz für großskalige Daten
  3. Theoretische Analyse: Etablierung theoretischer Grundlagen für SHAP-basiertes Clustering
  4. Anwendungserweiterung: Validierung der Universalität der Methode in mehr Bereichen

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Erste systematische Vorschlag einer SHAP-basierten überwachten Clustering-Methode
  2. Hoher praktischer Wert: Wichtige Anwendungswerte in Hochrisikobereichen wie der Medizin
  3. Vollständige Methode: Bereitstellung eines vollständigen Arbeitsablaufs von der Modellierung bis zur Interpretation
  4. Ausreichende Validierung: Doppelte Validierung durch Simulation und echte Fälle
  5. Visualisierungs-Innovation: Hochdimensionale Wasserfalldiagramme lösen das Interpretierungsproblem bei Mehrklassen-Problemen

Mängel

  1. Schwache theoretische Grundlagen: Mangel an theoretischer Analyse von SHAP-basiertem Clustering
  2. Recheneffizienz: Rechenkomplexitätsprobleme bei großskaliger Anwendung nicht ausreichend diskutiert
  3. Parameterauswahl: Unklare Richtlinien für die Parameterauswahl von Clustering-Algorithmen
  4. Statistische Signifikanz: Mangel an statistischen Signifikanztests für Clustering-Ergebnisse
  5. Unzureichende Vergleichsexperimente: Begrenzte Vergleiche mit anderen interpretierbaren Clustering-Methoden

Einfluss

  1. Akademischer Beitrag: Bietet neue Perspektiven für interpretierbare KI und überwachtes Clustering
  2. Praktischer Wert: Direktes Anwendungspotenzial in Bereichen wie Präzisionsmedizin
  3. Methodenverbreitung: Der Arbeitsablauf kann auf andere Bereiche und Probleme verallgemeinert werden
  4. Nachfolgeforschung: Eröffnet neue Richtungen für tiefere Anwendungen von SHAP-Werten

Anwendungsszenarien

  1. Medizinische Diagnose: Analyse der Krankheitsheterogenität und personalisierte Behandlung
  2. Finanzielle Risikokontrolle: Kundrisiko-Stratifizierung und differenzierte Strategien
  3. Empfehlungssysteme: Analyse von Benutzerverhaltensmuster
  4. Qualitätskontrolle: Analyse verschiedener Ursachen von Produktmängeln

Literaturverzeichnis

Das Papier zitiert 23 wichtige Referenzen, die SHAP-Theorie, Clustering-Algorithmen, Visualisierungsmethoden und Alzheimer-Forschung abdecken und eine gute theoretische Unterstützung für interdisziplinäre Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives interdisziplinäres Forschungspapier, das wichtige Beiträge im Schnittpunkt von interpretierbarer KI und überwachtem Clustering leistet. Die Methode ist stark innovativ, die experimentelle Validierung ist ausreichend, und sie hat wichtige Werte in Hochrisiko-Anwendungsbereichen wie der Medizin. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Recheneffizienz gibt, legt es eine gute Grundlage für nachfolgende Forschungen.