In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.
- ID Articolo: 2510.08737
- Titolo: SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
- Autori: Justin Lin (Indiana University Mathematics Department), Julia Fukuyama (Indiana University Statistics Department)
- Classificazione: cs.LG, stat.ME, stat.ML
- Data di Pubblicazione: 9 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.08737v1
Nell'era dello sviluppo rapido dei dati e della tecnologia, i modelli black-box di grandi dimensioni sono diventati prevalenti grazie alla loro capacità di elaborare enormi quantità di dati e apprendere relazioni complesse tra input e output. Tuttavia, il difetto di questi metodi risiede nell'incapacità di interpretare il processo predittivo, rendendo la loro applicazione inaffidabile e pericolosa in scenari ad alto rischio. L'analisi SHAP (SHapley Additive exPlanations) come metodo di IA interpretabile sta diventando sempre più popolare grazie alla sua capacità di spiegare le previsioni del modello utilizzando le caratteristiche originali. Questo articolo propone l'analisi di clustering sui valori SHAP, che non solo raggruppa i campioni che ottengono la stessa previsione, ma più importantemente raggruppa i campioni che ottengono la stessa previsione per ragioni simili. L'efficacia del metodo è dimostrata attraverso esperimenti di simulazione e uno studio di caso sulla malattia di Alzheimer (utilizzando il database ADNI), e viene proposto un metodo di generalizzazione del grafico a cascata per problemi di classificazione multiclasse.
Con l'aumento continuo della complessità dei modelli di machine learning, i modelli black-box mostrano prestazioni eccellenti in termini di accuratezza predittiva, ma la loro mancanza di interpretabilità crea ostacoli all'applicazione in settori ad alto rischio come la medicina. L'analisi di clustering tradizionale si basa solo sulle caratteristiche dei dati originali e non può rivelare i diversi percorsi attraverso i quali i campioni raggiungono lo stesso risultato predittivo.
- Esigenze di Applicazione Medica: In malattie eterogenee come la malattia di Alzheimer, diversi pazienti possono raggiungere lo stesso risultato diagnostico attraverso meccanismi patologici completamente diversi
- Medicina di Precisione: Comprendere l'eterogeneità della malattia aiuta a formulare piani di trattamento personalizzati
- Interpretabilità del Modello: In scenari di decisione ad alto rischio, è fondamentale comprendere le ragioni delle previsioni del modello
- Metodi di Clustering Tradizionali: Si basano solo sulle caratteristiche dei dati originali e non possono catturare le complesse relazioni input-output apprese dal modello
- Ricerca Limitata sul Clustering dei Valori SHAP: La ricerca sul clustering dei valori SHAP nella letteratura esistente è estremamente limitata
- Strumenti di Visualizzazione Insufficienti: Mancano metodi efficaci di visualizzazione dei valori SHAP per problemi di classificazione multiclasse
- Propone il Metodo di Clustering Supervisionato Basato su SHAP: Esegue il clustering basato sui valori SHAP piuttosto che sui dati originali, rivelando i diversi percorsi attraverso i quali i campioni raggiungono la stessa previsione
- Sviluppa il Grafico a Cascata ad Alta Dimensionalità: Generalizza il grafico a cascata tradizionale a problemi di classificazione multiclasse, supportando la visualizzazione di vettori SHAP k-dimensionali
- Fornisce un Flusso di Lavoro Analitico Completo: Include un flusso di lavoro a cinque fasi contenente modellazione predittiva, analisi SHAP, visualizzazione, analisi di clustering e interpretazione del clustering
- Verifica l'Efficacia del Metodo: Valida la praticità del metodo attraverso esperimenti di simulazione e casi reali di malattia di Alzheimer
Dato un set di dati di addestramento X' ⊂ X ⊂ R^p e un modello addestrato f: X → R, calcolare i valori SHAP φ(f;x)₁, ..., φ(f;x)ₚ per ogni campione x ∈ X, tale che:
∑i=1pϕ(f;x)i=f(x)−E[f(X′)]
L'obiettivo è eseguire il clustering sulla matrice dei valori SHAP per scoprire gruppi di campioni con interpretazioni di modello simili.
- Utilizza XGBoost per costruire il modello predittivo
- Assicura le prestazioni di generalizzazione del modello attraverso la convalida incrociata ripetuta
- Classificazione Binaria: Ogni caratteristica corrisponde a un valore SHAP
- Classificazione Multiclasse: Ogni caratteristica corrisponde a un vettore SHAP k-dimensionale (k è il numero di classi)
- Utilizza l'algoritmo TreeSHAP per calcolare i valori SHAP dei modelli ad albero
- Evita l'overfitting attraverso la convalida incrociata
- Utilizza UMAP per la riduzione dimensionale e la visualizzazione
- Preserva la struttura locale, adatto al rilevamento di clustering
- Adotta HDBSCAN per il clustering gerarchico basato sulla densità
- Può gestire il rumore e il clustering a densità variabile
- Utilizza mappe di calore per analizzare i dati originali
- Impiega grafici a cascata ad alta dimensionalità per l'interpretazione
Il grafico a cascata tradizionale è applicabile solo ai valori SHAP unidimensionali e non può gestire vettori SHAP k-dimensionali della classificazione multiclasse.
- Proiezione nello Spazio delle Sottoclassi: Selezionare due classi, ignorare i valori SHAP delle altre classi, adatto per confronti a coppie tra classi
- Proiezione PCA: Proiettare nello spazio bidimensionale che conserva la maggior parte delle informazioni, conservando tutte le k classi ma con assi di interpretazione più complessi
Considerare la sequenza di vettori SHAP come un percorso nello spazio k-dimensionale, dove ogni segmento del percorso corrisponde al contributo di una caratteristica, partendo dal punto di previsione media e raggiungendo il punto di previsione specifico del campione.
- Modello Generativo: Regressione logistica multinomiale
- Scala Campionaria: 1.500 campioni, 10 caratteristiche dimensionali
- Idea di Progettazione: Creare diversi percorsi che raggiungono la stessa classe target
- Definizione della Funzione:
- f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
- f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
- dove βⱼ,ᵢ ~ N(0,1)
- Fonte Dati: Database dell'Alzheimer's Disease Neuroimaging Initiative
- Scala Campionaria: 2.422 pazienti, 39 caratteristiche
- Classi Target: Cognitivamente Normale (CN), Decadimento Cognitivo Lieve (MCI), Malattia di Alzheimer/Demenza (AD)
- Preelaborazione: Rimozione dei dati di visita e informazioni sui dispositivi, ridimensionamento lineare all'intervallo 0,1
- Prestazioni di Classificazione: Precisione, Richiamo, Punteggio F1
- Qualità del Clustering: Verificata attraverso visualizzazione e conoscenza del dominio
- Modello Predittivo: XGBoost
- Metodo di Riduzione Dimensionale: UMAP
- Algoritmo di Clustering: HDBSCAN
- Convalida Incrociata: Convalida incrociata ripetuta per il calcolo dei valori SHAP
Il modello XGBoost mostra prestazioni eccellenti sul set di test:
- Accuratezza Complessiva: 90%
- Punteggio F1 per Classe: 0,88-0,92
- Dimostra l'affidabilità dell'interpretazione del modello
- Nessuna Struttura di Clustering nei Dati Originali: La visualizzazione UMAP mostra nessun modello di clustering evidente nei dati originali
- I Valori SHAP Rivelano 4 Cluster:
- Cluster 0: x₁ < 0, x₂ < 0 → Classe 0
- Cluster 3: x₁ > 0, x₂ > 0 → Classe 1
- Cluster 1 e 2: x₁, x₂ di segno opposto → Classe 2 (due percorsi diversi)
- Ha identificato con successo i due diversi percorsi che raggiungono la Classe 2
- Cluster 1: x₁ > 0, x₂ < 0
- Cluster 2: x₁ < 0, x₂ > 0
L'analisi ulteriore rivela che il Cluster 3 può essere suddiviso in due sotto-cluster, con la principale differenza nella caratteristica 8, verificando la stabilità del metodo.
- Accuratezza Complessiva: 93%
- Prestazioni per Classe: CN (F1=0,96), MCI (F1=0,92), AD (F1=0,86)
- CDRSB (Scala di Valutazione della Demenza Clinica Totale): Il fattore predittivo più importante
- LDELTOTAL: Significativamente efficace nella distinzione tra CN e MCI
- mPACCdigit e MMSE: Importanti nella distinzione tra MCI e AD
- Pazienti CN: Cluster 0 e 4, con modelli SHAP simili nonostante diversi genotipi APOE4
- Pazienti MCI: Cluster 3 e 6
- Cluster 3: Contributo CDRSB ad AD di -1,50 (protettivo)
- Cluster 6: Contributo CDRSB ad AD di -0,50 (di rischio)
- Pazienti AD: Cluster 1, 2, 5, che mostrano diversi percorsi di malattia
- Rivela l'eterogeneità all'interno della stessa categoria diagnostica
- La valutazione CDRSB può essere utilizzata per la stratificazione del rischio nei pazienti MCI
- Diversi cluster AD possono richiedere strategie terapeutiche diverse
- Fondamenti Teorici: Basato sui valori di Shapley (Lloyd Shapley, 1953)
- Sviluppo Moderno: Lundberg e Lee (2017) l'hanno applicato al machine learning
- Algoritmo TreeSHAP: Specializzato nel calcolo dei valori SHAP per modelli ad albero
- Metodi Tradizionali: K-means, clustering gerarchico e altri basati su caratteristiche originali
- Clustering Basato sulla Densità: DBSCAN e la sua versione migliorata HDBSCAN
- Clustering Supervisionato: Metodi di clustering che incorporano informazioni di apprendimento supervisionato
La ricerca esistente è estremamente limitata, e questo articolo rappresenta un contributo importante in questo campo, gettando le basi per la ricerca successiva.
- Efficacia del Clustering Basato su SHAP: Può scoprire raggruppamenti significativi che non possono essere osservati nei dati originali
- Praticità del Grafico a Cascata ad Alta Dimensionalità: Risolve con successo il problema della visualizzazione dei valori SHAP nella classificazione multiclasse
- Valore di Applicazione Medica: Mostra potenziale di applicazione pratica nella ricerca sulla malattia di Alzheimer
- Intuizioni sull'Eterogeneità della Malattia: Rivela diversi percorsi patologici all'interno della stessa categoria diagnostica
- Complessità Computazionale: Richiede il calcolo di una grande quantità di valori SHAP, con costi computazionali elevati
- Dipendenza dal Modello: I risultati del clustering dipendono dalla qualità del modello predittivo sottostante
- Sensibilità ai Parametri: La scelta dei parametri di algoritmi come HDBSCAN può influenzare i risultati
- Limitazione del Numero di Classi: La visualizzazione del grafico a cascata rimane limitata dal numero di classi
- Estensione dei Metodi di Visualizzazione: Sviluppare versioni ad alta dimensionalità di altri grafici SHAP (grafici a barre, mappe di calore, grafici a sciame, ecc.)
- Ottimizzazione dell'Algoritmo: Migliorare l'efficienza computazionale per dati su larga scala
- Analisi Teorica: Stabilire fondamenti teorici per il clustering basato su SHAP
- Estensione dell'Applicazione: Verificare l'universalità del metodo in più campi
- Forte Innovatività: Primo a proporre sistematicamente il metodo di clustering supervisionato basato su SHAP
- Alto Valore Pratico: Ha importante valore di applicazione in settori ad alto rischio come la medicina
- Metodo Completo: Fornisce un flusso di lavoro completo dalla modellazione all'interpretazione
- Verifica Sufficiente: Doppia verifica attraverso esperimenti di simulazione e casi reali
- Innovazione nella Visualizzazione: Il grafico a cascata ad alta dimensionalità risolve il problema dell'interpretabilità nella classificazione multiclasse
- Fondamenti Teorici Deboli: Manca l'analisi teorica del clustering basato su SHAP
- Efficienza Computazionale: Il problema della complessità computazionale nelle applicazioni su larga scala non è sufficientemente discusso
- Selezione dei Parametri: Mancano linee guida chiare per la scelta dei parametri degli algoritmi di clustering
- Significatività Statistica: Manca il test di significatività statistica dei risultati del clustering
- Esperimenti di Confronto Insufficienti: Il confronto con altri metodi di clustering interpretabile è limitato
- Contributo Accademico: Fornisce nuove prospettive ai campi dell'IA interpretabile e del clustering supervisionato
- Valore Pratico: Ha potenziale di applicazione diretta in medicina di precisione e altri settori
- Propagazione del Metodo: Il flusso di lavoro può essere generalizzato ad altri campi e problemi
- Ricerca Successiva: Apre nuove direzioni per l'applicazione approfondita dei valori SHAP
- Diagnosi Medica: Analisi dell'eterogeneità della malattia e trattamento personalizzato
- Gestione del Rischio Finanziario: Stratificazione del rischio dei clienti e strategie differenziate
- Sistemi di Raccomandazione: Analisi dei modelli di comportamento degli utenti
- Controllo di Qualità: Analisi delle diverse cause dei difetti dei prodotti
L'articolo cita 23 importanti riferimenti che coprono la teoria SHAP, algoritmi di clustering, metodi di visualizzazione e ricerca sulla malattia di Alzheimer in più campi, fornendo un buon supporto teorico per la ricerca interdisciplinare.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità nel campo interdisciplinare dell'intersezione tra IA interpretabile e clustering supervisionato. Il metodo è fortemente innovativo, la verifica sperimentale è sufficiente e ha importante valore in applicazioni ad alto rischio come la medicina. Sebbene vi sia ancora spazio per miglioramenti nell'analisi teorica e nell'efficienza computazionale, getta una buona base per la ricerca successiva.