2025-11-12T09:04:09.780506

SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot

Lin, Fukuyama

In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.

academic

Clustering Supervisionato Basato su SHAP per la Classificazione di Campioni e il Grafico a Cascata Generalizzato

Informazioni Fondamentali

ID Articolo: 2510.08737
Titolo: SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
Autori: Justin Lin (Indiana University Mathematics Department), Julia Fukuyama (Indiana University Statistics Department)
Classificazione: cs.LG, stat.ME, stat.ML
Data di Pubblicazione: 9 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.08737v1

Riassunto

Nell'era dello sviluppo rapido dei dati e della tecnologia, i modelli black-box di grandi dimensioni sono diventati prevalenti grazie alla loro capacità di elaborare enormi quantità di dati e apprendere relazioni complesse tra input e output. Tuttavia, il difetto di questi metodi risiede nell'incapacità di interpretare il processo predittivo, rendendo la loro applicazione inaffidabile e pericolosa in scenari ad alto rischio. L'analisi SHAP (SHapley Additive exPlanations) come metodo di IA interpretabile sta diventando sempre più popolare grazie alla sua capacità di spiegare le previsioni del modello utilizzando le caratteristiche originali. Questo articolo propone l'analisi di clustering sui valori SHAP, che non solo raggruppa i campioni che ottengono la stessa previsione, ma più importantemente raggruppa i campioni che ottengono la stessa previsione per ragioni simili. L'efficacia del metodo è dimostrata attraverso esperimenti di simulazione e uno studio di caso sulla malattia di Alzheimer (utilizzando il database ADNI), e viene proposto un metodo di generalizzazione del grafico a cascata per problemi di classificazione multiclasse.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con l'aumento continuo della complessità dei modelli di machine learning, i modelli black-box mostrano prestazioni eccellenti in termini di accuratezza predittiva, ma la loro mancanza di interpretabilità crea ostacoli all'applicazione in settori ad alto rischio come la medicina. L'analisi di clustering tradizionale si basa solo sulle caratteristiche dei dati originali e non può rivelare i diversi percorsi attraverso i quali i campioni raggiungono lo stesso risultato predittivo.

Importanza della Ricerca

Esigenze di Applicazione Medica: In malattie eterogenee come la malattia di Alzheimer, diversi pazienti possono raggiungere lo stesso risultato diagnostico attraverso meccanismi patologici completamente diversi
Medicina di Precisione: Comprendere l'eterogeneità della malattia aiuta a formulare piani di trattamento personalizzati
Interpretabilità del Modello: In scenari di decisione ad alto rischio, è fondamentale comprendere le ragioni delle previsioni del modello

Limitazioni dei Metodi Esistenti

Metodi di Clustering Tradizionali: Si basano solo sulle caratteristiche dei dati originali e non possono catturare le complesse relazioni input-output apprese dal modello
Ricerca Limitata sul Clustering dei Valori SHAP: La ricerca sul clustering dei valori SHAP nella letteratura esistente è estremamente limitata
Strumenti di Visualizzazione Insufficienti: Mancano metodi efficaci di visualizzazione dei valori SHAP per problemi di classificazione multiclasse

Contributi Principali

Propone il Metodo di Clustering Supervisionato Basato su SHAP: Esegue il clustering basato sui valori SHAP piuttosto che sui dati originali, rivelando i diversi percorsi attraverso i quali i campioni raggiungono la stessa previsione
Sviluppa il Grafico a Cascata ad Alta Dimensionalità: Generalizza il grafico a cascata tradizionale a problemi di classificazione multiclasse, supportando la visualizzazione di vettori SHAP k-dimensionali
Fornisce un Flusso di Lavoro Analitico Completo: Include un flusso di lavoro a cinque fasi contenente modellazione predittiva, analisi SHAP, visualizzazione, analisi di clustering e interpretazione del clustering
Verifica l'Efficacia del Metodo: Valida la praticità del metodo attraverso esperimenti di simulazione e casi reali di malattia di Alzheimer

Dettagli del Metodo

Definizione del Compito

Dato un set di dati di addestramento X' ⊂ X ⊂ R^p e un modello addestrato f: X → R, calcolare i valori SHAP φ(f;x)₁, ..., φ(f;x)ₚ per ogni campione x ∈ X, tale che:

$\sum_{i=1}^{p} \phi(f;x)_i = f(x) - E[f(X')]$

L'obiettivo è eseguire il clustering sulla matrice dei valori SHAP per scoprire gruppi di campioni con interpretazioni di modello simili.

Flusso di Lavoro del Clustering Supervisionato

1. Modellazione Predittiva

Utilizza XGBoost per costruire il modello predittivo
Assicura le prestazioni di generalizzazione del modello attraverso la convalida incrociata ripetuta

2. Analisi SHAP

Classificazione Binaria: Ogni caratteristica corrisponde a un valore SHAP
Classificazione Multiclasse: Ogni caratteristica corrisponde a un vettore SHAP k-dimensionale (k è il numero di classi)
Utilizza l'algoritmo TreeSHAP per calcolare i valori SHAP dei modelli ad albero
Evita l'overfitting attraverso la convalida incrociata

3. Visualizzazione

Utilizza UMAP per la riduzione dimensionale e la visualizzazione
Preserva la struttura locale, adatto al rilevamento di clustering

4. Analisi di Clustering

Adotta HDBSCAN per il clustering gerarchico basato sulla densità
Può gestire il rumore e il clustering a densità variabile

5. Interpretazione del Clustering

Utilizza mappe di calore per analizzare i dati originali
Impiega grafici a cascata ad alta dimensionalità per l'interpretazione

Innovazione del Grafico a Cascata ad Alta Dimensionalità

Limitazioni del Grafico a Cascata Tradizionale

Il grafico a cascata tradizionale è applicabile solo ai valori SHAP unidimensionali e non può gestire vettori SHAP k-dimensionali della classificazione multiclasse.

Soluzione Proposta

Proiezione nello Spazio delle Sottoclassi: Selezionare due classi, ignorare i valori SHAP delle altre classi, adatto per confronti a coppie tra classi
Proiezione PCA: Proiettare nello spazio bidimensionale che conserva la maggior parte delle informazioni, conservando tutte le k classi ma con assi di interpretazione più complessi

Rappresentazione Matematica

Considerare la sequenza di vettori SHAP come un percorso nello spazio k-dimensionale, dove ogni segmento del percorso corrisponde al contributo di una caratteristica, partendo dal punto di previsione media e raggiungendo il punto di previsione specifico del campione.

Configurazione Sperimentale

Set di Dati

Dati di Simulazione

Modello Generativo: Regressione logistica multinomiale
Scala Campionaria: 1.500 campioni, 10 caratteristiche dimensionali
Idea di Progettazione: Creare diversi percorsi che raggiungono la stessa classe target
Definizione della Funzione:
- f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
- f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
- dove βⱼ,ᵢ ~ N(0,1)

Dati ADNI

Fonte Dati: Database dell'Alzheimer's Disease Neuroimaging Initiative
Scala Campionaria: 2.422 pazienti, 39 caratteristiche
Classi Target: Cognitivamente Normale (CN), Decadimento Cognitivo Lieve (MCI), Malattia di Alzheimer/Demenza (AD)
Preelaborazione: Rimozione dei dati di visita e informazioni sui dispositivi, ridimensionamento lineare all'intervallo 0,1

Metriche di Valutazione

Prestazioni di Classificazione: Precisione, Richiamo, Punteggio F1
Qualità del Clustering: Verificata attraverso visualizzazione e conoscenza del dominio

Dettagli di Implementazione

Modello Predittivo: XGBoost
Metodo di Riduzione Dimensionale: UMAP
Algoritmo di Clustering: HDBSCAN
Convalida Incrociata: Convalida incrociata ripetuta per il calcolo dei valori SHAP

Risultati Sperimentali

Risultati degli Esperimenti di Simulazione

Prestazioni del Modello

Il modello XGBoost mostra prestazioni eccellenti sul set di test:

Accuratezza Complessiva: 90%
Punteggio F1 per Classe: 0,88-0,92
Dimostra l'affidabilità dell'interpretazione del modello

Scoperte di Clustering

Nessuna Struttura di Clustering nei Dati Originali: La visualizzazione UMAP mostra nessun modello di clustering evidente nei dati originali
I Valori SHAP Rivelano 4 Cluster:
- Cluster 0: x₁ < 0, x₂ < 0 → Classe 0
- Cluster 3: x₁ > 0, x₂ > 0 → Classe 1
- Cluster 1 e 2: x₁, x₂ di segno opposto → Classe 2 (due percorsi diversi)

Verifica del Grafico a Cascata ad Alta Dimensionalità

Ha identificato con successo i due diversi percorsi che raggiungono la Classe 2
Cluster 1: x₁ > 0, x₂ < 0
Cluster 2: x₁ < 0, x₂ > 0

Clustering Più Granulare

L'analisi ulteriore rivela che il Cluster 3 può essere suddiviso in due sotto-cluster, con la principale differenza nella caratteristica 8, verificando la stabilità del metodo.

Risultati dello Studio di Caso ADNI

Prestazioni del Modello

Accuratezza Complessiva: 93%
Prestazioni per Classe: CN (F1=0,96), MCI (F1=0,92), AD (F1=0,86)

Identificazione delle Caratteristiche Chiave

CDRSB (Scala di Valutazione della Demenza Clinica Totale): Il fattore predittivo più importante
LDELTOTAL: Significativamente efficace nella distinzione tra CN e MCI
mPACCdigit e MMSE: Importanti nella distinzione tra MCI e AD

Scoperte di Clustering

Pazienti CN: Cluster 0 e 4, con modelli SHAP simili nonostante diversi genotipi APOE4
Pazienti MCI: Cluster 3 e 6
- Cluster 3: Contributo CDRSB ad AD di -1,50 (protettivo)
- Cluster 6: Contributo CDRSB ad AD di -0,50 (di rischio)
Pazienti AD: Cluster 1, 2, 5, che mostrano diversi percorsi di malattia

Significato Clinico

Rivela l'eterogeneità all'interno della stessa categoria diagnostica
La valutazione CDRSB può essere utilizzata per la stratificazione del rischio nei pazienti MCI
Diversi cluster AD possono richiedere strategie terapeutiche diverse

Lavori Correlati

Sviluppo dell'Analisi SHAP

Fondamenti Teorici: Basato sui valori di Shapley (Lloyd Shapley, 1953)
Sviluppo Moderno: Lundberg e Lee (2017) l'hanno applicato al machine learning
Algoritmo TreeSHAP: Specializzato nel calcolo dei valori SHAP per modelli ad albero

Evoluzione dei Metodi di Clustering

Metodi Tradizionali: K-means, clustering gerarchico e altri basati su caratteristiche originali
Clustering Basato sulla Densità: DBSCAN e la sua versione migliorata HDBSCAN
Clustering Supervisionato: Metodi di clustering che incorporano informazioni di apprendimento supervisionato

Ricerca sul Clustering dei Valori SHAP

La ricerca esistente è estremamente limitata, e questo articolo rappresenta un contributo importante in questo campo, gettando le basi per la ricerca successiva.

Conclusioni e Discussione

Conclusioni Principali

Efficacia del Clustering Basato su SHAP: Può scoprire raggruppamenti significativi che non possono essere osservati nei dati originali
Praticità del Grafico a Cascata ad Alta Dimensionalità: Risolve con successo il problema della visualizzazione dei valori SHAP nella classificazione multiclasse
Valore di Applicazione Medica: Mostra potenziale di applicazione pratica nella ricerca sulla malattia di Alzheimer
Intuizioni sull'Eterogeneità della Malattia: Rivela diversi percorsi patologici all'interno della stessa categoria diagnostica

Limitazioni

Complessità Computazionale: Richiede il calcolo di una grande quantità di valori SHAP, con costi computazionali elevati
Dipendenza dal Modello: I risultati del clustering dipendono dalla qualità del modello predittivo sottostante
Sensibilità ai Parametri: La scelta dei parametri di algoritmi come HDBSCAN può influenzare i risultati
Limitazione del Numero di Classi: La visualizzazione del grafico a cascata rimane limitata dal numero di classi

Direzioni Future

Estensione dei Metodi di Visualizzazione: Sviluppare versioni ad alta dimensionalità di altri grafici SHAP (grafici a barre, mappe di calore, grafici a sciame, ecc.)
Ottimizzazione dell'Algoritmo: Migliorare l'efficienza computazionale per dati su larga scala
Analisi Teorica: Stabilire fondamenti teorici per il clustering basato su SHAP
Estensione dell'Applicazione: Verificare l'universalità del metodo in più campi

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo a proporre sistematicamente il metodo di clustering supervisionato basato su SHAP
Alto Valore Pratico: Ha importante valore di applicazione in settori ad alto rischio come la medicina
Metodo Completo: Fornisce un flusso di lavoro completo dalla modellazione all'interpretazione
Verifica Sufficiente: Doppia verifica attraverso esperimenti di simulazione e casi reali
Innovazione nella Visualizzazione: Il grafico a cascata ad alta dimensionalità risolve il problema dell'interpretabilità nella classificazione multiclasse

Insufficienze

Fondamenti Teorici Deboli: Manca l'analisi teorica del clustering basato su SHAP
Efficienza Computazionale: Il problema della complessità computazionale nelle applicazioni su larga scala non è sufficientemente discusso
Selezione dei Parametri: Mancano linee guida chiare per la scelta dei parametri degli algoritmi di clustering
Significatività Statistica: Manca il test di significatività statistica dei risultati del clustering
Esperimenti di Confronto Insufficienti: Il confronto con altri metodi di clustering interpretabile è limitato

Impatto

Contributo Accademico: Fornisce nuove prospettive ai campi dell'IA interpretabile e del clustering supervisionato
Valore Pratico: Ha potenziale di applicazione diretta in medicina di precisione e altri settori
Propagazione del Metodo: Il flusso di lavoro può essere generalizzato ad altri campi e problemi
Ricerca Successiva: Apre nuove direzioni per l'applicazione approfondita dei valori SHAP

Scenari Applicabili

Diagnosi Medica: Analisi dell'eterogeneità della malattia e trattamento personalizzato
Gestione del Rischio Finanziario: Stratificazione del rischio dei clienti e strategie differenziate
Sistemi di Raccomandazione: Analisi dei modelli di comportamento degli utenti
Controllo di Qualità: Analisi delle diverse cause dei difetti dei prodotti

Bibliografia

L'articolo cita 23 importanti riferimenti che coprono la teoria SHAP, algoritmi di clustering, metodi di visualizzazione e ricerca sulla malattia di Alzheimer in più campi, fornendo un buon supporto teorico per la ricerca interdisciplinare.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità nel campo interdisciplinare dell'intersezione tra IA interpretabile e clustering supervisionato. Il metodo è fortemente innovativo, la verifica sperimentale è sufficiente e ha importante valore in applicazioni ad alto rischio come la medicina. Sebbene vi sia ancora spazio per miglioramenti nell'analisi teorica e nell'efficienza computazionale, getta una buona base per la ricerca successiva.