2025-11-12T09:04:09.780506

SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot

Lin, Fukuyama
In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.
academic

Clustering Supervisionato Basato su SHAP per la Classificazione di Campioni e il Grafico a Cascata Generalizzato

Informazioni Fondamentali

  • ID Articolo: 2510.08737
  • Titolo: SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
  • Autori: Justin Lin (Indiana University Mathematics Department), Julia Fukuyama (Indiana University Statistics Department)
  • Classificazione: cs.LG, stat.ME, stat.ML
  • Data di Pubblicazione: 9 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.08737v1

Riassunto

Nell'era dello sviluppo rapido dei dati e della tecnologia, i modelli black-box di grandi dimensioni sono diventati prevalenti grazie alla loro capacità di elaborare enormi quantità di dati e apprendere relazioni complesse tra input e output. Tuttavia, il difetto di questi metodi risiede nell'incapacità di interpretare il processo predittivo, rendendo la loro applicazione inaffidabile e pericolosa in scenari ad alto rischio. L'analisi SHAP (SHapley Additive exPlanations) come metodo di IA interpretabile sta diventando sempre più popolare grazie alla sua capacità di spiegare le previsioni del modello utilizzando le caratteristiche originali. Questo articolo propone l'analisi di clustering sui valori SHAP, che non solo raggruppa i campioni che ottengono la stessa previsione, ma più importantemente raggruppa i campioni che ottengono la stessa previsione per ragioni simili. L'efficacia del metodo è dimostrata attraverso esperimenti di simulazione e uno studio di caso sulla malattia di Alzheimer (utilizzando il database ADNI), e viene proposto un metodo di generalizzazione del grafico a cascata per problemi di classificazione multiclasse.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con l'aumento continuo della complessità dei modelli di machine learning, i modelli black-box mostrano prestazioni eccellenti in termini di accuratezza predittiva, ma la loro mancanza di interpretabilità crea ostacoli all'applicazione in settori ad alto rischio come la medicina. L'analisi di clustering tradizionale si basa solo sulle caratteristiche dei dati originali e non può rivelare i diversi percorsi attraverso i quali i campioni raggiungono lo stesso risultato predittivo.

Importanza della Ricerca

  1. Esigenze di Applicazione Medica: In malattie eterogenee come la malattia di Alzheimer, diversi pazienti possono raggiungere lo stesso risultato diagnostico attraverso meccanismi patologici completamente diversi
  2. Medicina di Precisione: Comprendere l'eterogeneità della malattia aiuta a formulare piani di trattamento personalizzati
  3. Interpretabilità del Modello: In scenari di decisione ad alto rischio, è fondamentale comprendere le ragioni delle previsioni del modello

Limitazioni dei Metodi Esistenti

  1. Metodi di Clustering Tradizionali: Si basano solo sulle caratteristiche dei dati originali e non possono catturare le complesse relazioni input-output apprese dal modello
  2. Ricerca Limitata sul Clustering dei Valori SHAP: La ricerca sul clustering dei valori SHAP nella letteratura esistente è estremamente limitata
  3. Strumenti di Visualizzazione Insufficienti: Mancano metodi efficaci di visualizzazione dei valori SHAP per problemi di classificazione multiclasse

Contributi Principali

  1. Propone il Metodo di Clustering Supervisionato Basato su SHAP: Esegue il clustering basato sui valori SHAP piuttosto che sui dati originali, rivelando i diversi percorsi attraverso i quali i campioni raggiungono la stessa previsione
  2. Sviluppa il Grafico a Cascata ad Alta Dimensionalità: Generalizza il grafico a cascata tradizionale a problemi di classificazione multiclasse, supportando la visualizzazione di vettori SHAP k-dimensionali
  3. Fornisce un Flusso di Lavoro Analitico Completo: Include un flusso di lavoro a cinque fasi contenente modellazione predittiva, analisi SHAP, visualizzazione, analisi di clustering e interpretazione del clustering
  4. Verifica l'Efficacia del Metodo: Valida la praticità del metodo attraverso esperimenti di simulazione e casi reali di malattia di Alzheimer

Dettagli del Metodo

Definizione del Compito

Dato un set di dati di addestramento X' ⊂ X ⊂ R^p e un modello addestrato f: X → R, calcolare i valori SHAP φ(f;x)₁, ..., φ(f;x)ₚ per ogni campione x ∈ X, tale che:

i=1pϕ(f;x)i=f(x)E[f(X)]\sum_{i=1}^{p} \phi(f;x)_i = f(x) - E[f(X')]

L'obiettivo è eseguire il clustering sulla matrice dei valori SHAP per scoprire gruppi di campioni con interpretazioni di modello simili.

Flusso di Lavoro del Clustering Supervisionato

1. Modellazione Predittiva

  • Utilizza XGBoost per costruire il modello predittivo
  • Assicura le prestazioni di generalizzazione del modello attraverso la convalida incrociata ripetuta

2. Analisi SHAP

  • Classificazione Binaria: Ogni caratteristica corrisponde a un valore SHAP
  • Classificazione Multiclasse: Ogni caratteristica corrisponde a un vettore SHAP k-dimensionale (k è il numero di classi)
  • Utilizza l'algoritmo TreeSHAP per calcolare i valori SHAP dei modelli ad albero
  • Evita l'overfitting attraverso la convalida incrociata

3. Visualizzazione

  • Utilizza UMAP per la riduzione dimensionale e la visualizzazione
  • Preserva la struttura locale, adatto al rilevamento di clustering

4. Analisi di Clustering

  • Adotta HDBSCAN per il clustering gerarchico basato sulla densità
  • Può gestire il rumore e il clustering a densità variabile

5. Interpretazione del Clustering

  • Utilizza mappe di calore per analizzare i dati originali
  • Impiega grafici a cascata ad alta dimensionalità per l'interpretazione

Innovazione del Grafico a Cascata ad Alta Dimensionalità

Limitazioni del Grafico a Cascata Tradizionale

Il grafico a cascata tradizionale è applicabile solo ai valori SHAP unidimensionali e non può gestire vettori SHAP k-dimensionali della classificazione multiclasse.

Soluzione Proposta

  1. Proiezione nello Spazio delle Sottoclassi: Selezionare due classi, ignorare i valori SHAP delle altre classi, adatto per confronti a coppie tra classi
  2. Proiezione PCA: Proiettare nello spazio bidimensionale che conserva la maggior parte delle informazioni, conservando tutte le k classi ma con assi di interpretazione più complessi

Rappresentazione Matematica

Considerare la sequenza di vettori SHAP come un percorso nello spazio k-dimensionale, dove ogni segmento del percorso corrisponde al contributo di una caratteristica, partendo dal punto di previsione media e raggiungendo il punto di previsione specifico del campione.

Configurazione Sperimentale

Set di Dati

Dati di Simulazione

  • Modello Generativo: Regressione logistica multinomiale
  • Scala Campionaria: 1.500 campioni, 10 caratteristiche dimensionali
  • Idea di Progettazione: Creare diversi percorsi che raggiungono la stessa classe target
  • Definizione della Funzione:
    • f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
    • f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
    • dove βⱼ,ᵢ ~ N(0,1)

Dati ADNI

  • Fonte Dati: Database dell'Alzheimer's Disease Neuroimaging Initiative
  • Scala Campionaria: 2.422 pazienti, 39 caratteristiche
  • Classi Target: Cognitivamente Normale (CN), Decadimento Cognitivo Lieve (MCI), Malattia di Alzheimer/Demenza (AD)
  • Preelaborazione: Rimozione dei dati di visita e informazioni sui dispositivi, ridimensionamento lineare all'intervallo 0,1

Metriche di Valutazione

  • Prestazioni di Classificazione: Precisione, Richiamo, Punteggio F1
  • Qualità del Clustering: Verificata attraverso visualizzazione e conoscenza del dominio

Dettagli di Implementazione

  • Modello Predittivo: XGBoost
  • Metodo di Riduzione Dimensionale: UMAP
  • Algoritmo di Clustering: HDBSCAN
  • Convalida Incrociata: Convalida incrociata ripetuta per il calcolo dei valori SHAP

Risultati Sperimentali

Risultati degli Esperimenti di Simulazione

Prestazioni del Modello

Il modello XGBoost mostra prestazioni eccellenti sul set di test:

  • Accuratezza Complessiva: 90%
  • Punteggio F1 per Classe: 0,88-0,92
  • Dimostra l'affidabilità dell'interpretazione del modello

Scoperte di Clustering

  1. Nessuna Struttura di Clustering nei Dati Originali: La visualizzazione UMAP mostra nessun modello di clustering evidente nei dati originali
  2. I Valori SHAP Rivelano 4 Cluster:
    • Cluster 0: x₁ < 0, x₂ < 0 → Classe 0
    • Cluster 3: x₁ > 0, x₂ > 0 → Classe 1
    • Cluster 1 e 2: x₁, x₂ di segno opposto → Classe 2 (due percorsi diversi)

Verifica del Grafico a Cascata ad Alta Dimensionalità

  • Ha identificato con successo i due diversi percorsi che raggiungono la Classe 2
  • Cluster 1: x₁ > 0, x₂ < 0
  • Cluster 2: x₁ < 0, x₂ > 0

Clustering Più Granulare

L'analisi ulteriore rivela che il Cluster 3 può essere suddiviso in due sotto-cluster, con la principale differenza nella caratteristica 8, verificando la stabilità del metodo.

Risultati dello Studio di Caso ADNI

Prestazioni del Modello

  • Accuratezza Complessiva: 93%
  • Prestazioni per Classe: CN (F1=0,96), MCI (F1=0,92), AD (F1=0,86)

Identificazione delle Caratteristiche Chiave

  1. CDRSB (Scala di Valutazione della Demenza Clinica Totale): Il fattore predittivo più importante
  2. LDELTOTAL: Significativamente efficace nella distinzione tra CN e MCI
  3. mPACCdigit e MMSE: Importanti nella distinzione tra MCI e AD

Scoperte di Clustering

  1. Pazienti CN: Cluster 0 e 4, con modelli SHAP simili nonostante diversi genotipi APOE4
  2. Pazienti MCI: Cluster 3 e 6
    • Cluster 3: Contributo CDRSB ad AD di -1,50 (protettivo)
    • Cluster 6: Contributo CDRSB ad AD di -0,50 (di rischio)
  3. Pazienti AD: Cluster 1, 2, 5, che mostrano diversi percorsi di malattia

Significato Clinico

  • Rivela l'eterogeneità all'interno della stessa categoria diagnostica
  • La valutazione CDRSB può essere utilizzata per la stratificazione del rischio nei pazienti MCI
  • Diversi cluster AD possono richiedere strategie terapeutiche diverse

Lavori Correlati

Sviluppo dell'Analisi SHAP

  • Fondamenti Teorici: Basato sui valori di Shapley (Lloyd Shapley, 1953)
  • Sviluppo Moderno: Lundberg e Lee (2017) l'hanno applicato al machine learning
  • Algoritmo TreeSHAP: Specializzato nel calcolo dei valori SHAP per modelli ad albero

Evoluzione dei Metodi di Clustering

  • Metodi Tradizionali: K-means, clustering gerarchico e altri basati su caratteristiche originali
  • Clustering Basato sulla Densità: DBSCAN e la sua versione migliorata HDBSCAN
  • Clustering Supervisionato: Metodi di clustering che incorporano informazioni di apprendimento supervisionato

Ricerca sul Clustering dei Valori SHAP

La ricerca esistente è estremamente limitata, e questo articolo rappresenta un contributo importante in questo campo, gettando le basi per la ricerca successiva.

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Clustering Basato su SHAP: Può scoprire raggruppamenti significativi che non possono essere osservati nei dati originali
  2. Praticità del Grafico a Cascata ad Alta Dimensionalità: Risolve con successo il problema della visualizzazione dei valori SHAP nella classificazione multiclasse
  3. Valore di Applicazione Medica: Mostra potenziale di applicazione pratica nella ricerca sulla malattia di Alzheimer
  4. Intuizioni sull'Eterogeneità della Malattia: Rivela diversi percorsi patologici all'interno della stessa categoria diagnostica

Limitazioni

  1. Complessità Computazionale: Richiede il calcolo di una grande quantità di valori SHAP, con costi computazionali elevati
  2. Dipendenza dal Modello: I risultati del clustering dipendono dalla qualità del modello predittivo sottostante
  3. Sensibilità ai Parametri: La scelta dei parametri di algoritmi come HDBSCAN può influenzare i risultati
  4. Limitazione del Numero di Classi: La visualizzazione del grafico a cascata rimane limitata dal numero di classi

Direzioni Future

  1. Estensione dei Metodi di Visualizzazione: Sviluppare versioni ad alta dimensionalità di altri grafici SHAP (grafici a barre, mappe di calore, grafici a sciame, ecc.)
  2. Ottimizzazione dell'Algoritmo: Migliorare l'efficienza computazionale per dati su larga scala
  3. Analisi Teorica: Stabilire fondamenti teorici per il clustering basato su SHAP
  4. Estensione dell'Applicazione: Verificare l'universalità del metodo in più campi

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo a proporre sistematicamente il metodo di clustering supervisionato basato su SHAP
  2. Alto Valore Pratico: Ha importante valore di applicazione in settori ad alto rischio come la medicina
  3. Metodo Completo: Fornisce un flusso di lavoro completo dalla modellazione all'interpretazione
  4. Verifica Sufficiente: Doppia verifica attraverso esperimenti di simulazione e casi reali
  5. Innovazione nella Visualizzazione: Il grafico a cascata ad alta dimensionalità risolve il problema dell'interpretabilità nella classificazione multiclasse

Insufficienze

  1. Fondamenti Teorici Deboli: Manca l'analisi teorica del clustering basato su SHAP
  2. Efficienza Computazionale: Il problema della complessità computazionale nelle applicazioni su larga scala non è sufficientemente discusso
  3. Selezione dei Parametri: Mancano linee guida chiare per la scelta dei parametri degli algoritmi di clustering
  4. Significatività Statistica: Manca il test di significatività statistica dei risultati del clustering
  5. Esperimenti di Confronto Insufficienti: Il confronto con altri metodi di clustering interpretabile è limitato

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive ai campi dell'IA interpretabile e del clustering supervisionato
  2. Valore Pratico: Ha potenziale di applicazione diretta in medicina di precisione e altri settori
  3. Propagazione del Metodo: Il flusso di lavoro può essere generalizzato ad altri campi e problemi
  4. Ricerca Successiva: Apre nuove direzioni per l'applicazione approfondita dei valori SHAP

Scenari Applicabili

  1. Diagnosi Medica: Analisi dell'eterogeneità della malattia e trattamento personalizzato
  2. Gestione del Rischio Finanziario: Stratificazione del rischio dei clienti e strategie differenziate
  3. Sistemi di Raccomandazione: Analisi dei modelli di comportamento degli utenti
  4. Controllo di Qualità: Analisi delle diverse cause dei difetti dei prodotti

Bibliografia

L'articolo cita 23 importanti riferimenti che coprono la teoria SHAP, algoritmi di clustering, metodi di visualizzazione e ricerca sulla malattia di Alzheimer in più campi, fornendo un buon supporto teorico per la ricerca interdisciplinare.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità nel campo interdisciplinare dell'intersezione tra IA interpretabile e clustering supervisionato. Il metodo è fortemente innovativo, la verifica sperimentale è sufficiente e ha importante valore in applicazioni ad alto rischio come la medicina. Sebbene vi sia ancora spazio per miglioramenti nell'analisi teorica e nell'efficienza computazionale, getta una buona base per la ricerca successiva.