2025-11-12T09:04:09.780506

SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot

Lin, Fukuyama

In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.

academic

SHAP-based監督クラスタリングによるサンプル分類と一般化ウォーターフォールプロット

基本情報

論文ID: 2510.08737
タイトル: SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
著者: Justin Lin（インディアナ大学数学科）、Julia Fukuyama（インディアナ大学統計学科）
分類: cs.LG, stat.ME, stat.ML
発表日: 2025年10月9日（arXiv プレプリント）
論文リンク: https://arxiv.org/abs/2510.08737v1

要旨

データと技術の急速な発展の時代において、大規模ブラックボックスモデルは膨大なデータを処理し、複雑な入出力関係を学習する能力により主流となっている。しかし、これらの手法の欠点は予測プロセスの解釈不可能性にあり、高リスク環境での応用を信頼できず危険なものにしている。SHAP（SHapley Additive exPlanations）分析は、元の特徴を用いてモデル予測を説明できるため、解釈可能AI手法として急速に普及している。本論文は、SHAP値に対するクラスタリング分析を提案し、同じ予測を得たサンプルをグループ化するだけでなく、より重要なことに、類似の理由で同じ予測を得たサンプルをグループ化する。シミュレーション実験とアルツハイマー病ケーススタディ（ADNIデータベースを使用）を通じて方法の有効性を実証し、多クラス問題のウォーターフォールプロット一般化手法を提案する。

研究背景と動機

問題定義

機械学習モデルの複雑性が増すにつれ、ブラックボックスモデルは予測精度の面で優れた性能を示すが、解釈可能性の欠如は医療などの高リスク領域での応用に障害をもたらしている。従来のクラスタリング分析は元のデータ特徴のみに基づいており、サンプルが同じ予測結果に到達する異なる経路を明らかにすることができない。

研究の重要性

医学応用の必要性：アルツハイマー病などの異質性疾患では、異なる患者が全く異なる病理メカニズムを通じて同じ診断結果に到達する可能性がある
精密医療：疾患の異質性を理解することは、個別化治療計画の策定に役立つ
モデル解釈可能性：高リスク意思決定シナリオでは、モデル予測の理由を理解することが重要である

既存手法の限界

従来のクラスタリング手法：元のデータ特徴のみに基づいており、モデルが学習した複雑な入出力関係を捉えられない
SHAP値クラスタリング研究の稀少性：既存文献におけるSHAP値クラスタリングの研究は極めて限定的である
可視化ツールの不足：多クラス問題ではSHAP値の効果的な可視化手法が不足している

中核的貢献

SHAP-based監督クラスタリング手法の提案：元のデータではなくSHAP値に基づくクラスタリングにより、サンプルが同じ予測に到達する異なる経路を明らかにする
高次元ウォーターフォールプロットの開発：従来のウォーターフォールプロットを多クラス問題に一般化し、k次元SHAPベクトルの可視化をサポート
完全な分析フローの提供：予測モデリング、SHAP分析、可視化、クラスタリング分析、クラスタ解釈の5段階ワークフローを含む
方法の有効性検証：シミュレーション実験とアルツハイマー病の実際のケースを通じて方法の実用性を検証

方法の詳細

タスク定義

訓練データセットX' ⊂ X ⊂ R^pと訓練済みモデルf: X → Rが与えられたとき、各サンプルx ∈ Xに対してSHAP値φ(f;x)₁, ..., φ(f;x)ₚを計算し、以下を満たす：

$\sum_{i=1}^{p} \phi(f;x)_i = f(x) - E[f(X')]$

目標はSHAP値行列をクラスタリングし、類似したモデル解釈を持つサンプルグループを発見することである。

監督クラスタリングワークフロー

1. 予測モデリング

XGBoostを用いて予測モデルを構築
反復交差検証によりモデルの汎化性能を確保

2. SHAP分析

二値分類：各特徴は1つのSHAP値に対応
多クラス分類：各特徴はk次元SHAPベクトル（kはクラス数）に対応
TreeSHAPアルゴリズムを用いて木モデルのSHAP値を計算
交差検証により過学習を回避

3. 可視化

UMAP用いて次元削減可視化を実施
局所構造を保持し、クラスタリング検出に適している

4. クラスタリング分析

階層密度クラスタリングにHDBSCANを採用
ノイズと可変密度クラスタリングを処理可能

5. クラスタ解釈

ヒートマップを用いて元のデータを分析
高次元ウォーターフォールプロットでクラスタを解釈

高次元ウォーターフォールプロットの革新

従来のウォーターフォールプロットの限界

従来のウォーターフォールプロットは1次元SHAP値のみに適用可能であり、多クラスのk次元SHAPベクトルを処理できない。

解決策

クラス部分空間への投影：2つのクラスを選択し、他のクラスのSHAP値を無視し、クラス間の二者択一比較に適する
PCA投影：最も情報を保持する2次元部分空間に投影し、すべてのk個クラスの情報を保持するが軸の解釈が複雑

数学的表現

SHAP値ベクトル列をk次元空間内のパスと見なし、各パスセグメントは特徴の寄与に対応し、平均予測点から出発してサンプルの具体的な予測点に到達する。

実験設定

データセット

シミュレーションデータ

生成モデル：多項ロジスティック回帰
サンプル規模：1,500サンプル、10次元特徴
設計思想：同じ目標クラスに到達する異なる経路を作成
関数定義：
- f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
- f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
- ここでβⱼ,ᵢ ~ N(0,1)

ADNIデータ

データソース：アルツハイマー病神経画像イニシアチブデータベース
サンプル規模：2,422名の患者、39の特徴
目標クラス：認知正常（CN）、軽度認知障害（MCI）、アルツハイマー病/認知症（AD）
前処理：訪問データ、デバイス情報などを削除、0,1区間に線形スケーリング

評価指標

分類性能：精度、再現率、F1スコア
クラスタリング品質：可視化と領域知識による検証

実装詳細

予測モデル：XGBoost
次元削減手法：UMAP
クラスタリングアルゴリズム：HDBSCAN
交差検証：反復交差検証によるSHAP値計算

実験結果

シミュレーション実験結果

モデル性能

XGBoostモデルはテストセットで優れた性能を示す：

全体精度：90%
各クラスF1スコア：0.88-0.92
モデル解釈の信頼性を証明

クラスタリング発見

元のデータにはクラスタ構造なし：UMAP可視化は元のデータに明らかなクラスタパターンがないことを示す
SHAP値が4つのクラスタを明らかに：
- クラスタ0：x₁ < 0, x₂ < 0 → クラス0
- クラスタ3：x₁ > 0, x₂ > 0 → クラス1
- クラスタ1と2：x₁, x₂が異符号 → クラス2（2つの異なる経路）

高次元ウォーターフォールプロット検証

クラス2に到達する2つの異なる経路を正常に識別
クラスタ1：x₁ > 0, x₂ < 0
クラスタ2：x₁ < 0, x₂ > 0

より詳細なクラスタリング

さらなる分析により、クラスタ3は2つのサブクラスタに細分化でき、主な違いは特徴8の寄与にあることが判明し、方法の安定性を検証した。

ADNIケーススタディ結果

モデル性能

全体精度：93%
各クラス性能：CN（F1=0.96）、MCI（F1=0.92）、AD（F1=0.86）

主要特徴の識別

CDRSB（臨床認知症評価スケール総スコア）：最も重要な予測因子
LDELTOTAL：CNとMCI区別に顕著な作用
mPACCdigitとMMSE：MCIとAD区別に重要

クラスタリング発見

CN患者：クラスタ0と4、APOE4遺伝子型は異なるがSHAPパターンは類似
MCI患者：クラスタ3と6
- クラスタ3：CDRSBのADへの寄与は-1.50（保護的）
- クラスタ6：CDRSBのADへの寄与は-0.50（リスク的）
AD患者：クラスタ1、2、5、異なる疾患経路を示す