In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.
- 論文ID: 2510.08737
- タイトル: SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
- 著者: Justin Lin(インディアナ大学数学科)、Julia Fukuyama(インディアナ大学統計学科)
- 分類: cs.LG, stat.ME, stat.ML
- 発表日: 2025年10月9日(arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.08737v1
データと技術の急速な発展の時代において、大規模ブラックボックスモデルは膨大なデータを処理し、複雑な入出力関係を学習する能力により主流となっている。しかし、これらの手法の欠点は予測プロセスの解釈不可能性にあり、高リスク環境での応用を信頼できず危険なものにしている。SHAP(SHapley Additive exPlanations)分析は、元の特徴を用いてモデル予測を説明できるため、解釈可能AI手法として急速に普及している。本論文は、SHAP値に対するクラスタリング分析を提案し、同じ予測を得たサンプルをグループ化するだけでなく、より重要なことに、類似の理由で同じ予測を得たサンプルをグループ化する。シミュレーション実験とアルツハイマー病ケーススタディ(ADNIデータベースを使用)を通じて方法の有効性を実証し、多クラス問題のウォーターフォールプロット一般化手法を提案する。
機械学習モデルの複雑性が増すにつれ、ブラックボックスモデルは予測精度の面で優れた性能を示すが、解釈可能性の欠如は医療などの高リスク領域での応用に障害をもたらしている。従来のクラスタリング分析は元のデータ特徴のみに基づいており、サンプルが同じ予測結果に到達する異なる経路を明らかにすることができない。
- 医学応用の必要性:アルツハイマー病などの異質性疾患では、異なる患者が全く異なる病理メカニズムを通じて同じ診断結果に到達する可能性がある
- 精密医療:疾患の異質性を理解することは、個別化治療計画の策定に役立つ
- モデル解釈可能性:高リスク意思決定シナリオでは、モデル予測の理由を理解することが重要である
- 従来のクラスタリング手法:元のデータ特徴のみに基づいており、モデルが学習した複雑な入出力関係を捉えられない
- SHAP値クラスタリング研究の稀少性:既存文献におけるSHAP値クラスタリングの研究は極めて限定的である
- 可視化ツールの不足:多クラス問題ではSHAP値の効果的な可視化手法が不足している
- SHAP-based監督クラスタリング手法の提案:元のデータではなくSHAP値に基づくクラスタリングにより、サンプルが同じ予測に到達する異なる経路を明らかにする
- 高次元ウォーターフォールプロットの開発:従来のウォーターフォールプロットを多クラス問題に一般化し、k次元SHAPベクトルの可視化をサポート
- 完全な分析フローの提供:予測モデリング、SHAP分析、可視化、クラスタリング分析、クラスタ解釈の5段階ワークフローを含む
- 方法の有効性検証:シミュレーション実験とアルツハイマー病の実際のケースを通じて方法の実用性を検証
訓練データセットX' ⊂ X ⊂ R^pと訓練済みモデルf: X → Rが与えられたとき、各サンプルx ∈ Xに対してSHAP値φ(f;x)₁, ..., φ(f;x)ₚを計算し、以下を満たす:
∑i=1pϕ(f;x)i=f(x)−E[f(X′)]
目標はSHAP値行列をクラスタリングし、類似したモデル解釈を持つサンプルグループを発見することである。
- XGBoostを用いて予測モデルを構築
- 反復交差検証によりモデルの汎化性能を確保
- 二値分類:各特徴は1つのSHAP値に対応
- 多クラス分類:各特徴はk次元SHAPベクトル(kはクラス数)に対応
- TreeSHAPアルゴリズムを用いて木モデルのSHAP値を計算
- 交差検証により過学習を回避
- UMAP用いて次元削減可視化を実施
- 局所構造を保持し、クラスタリング検出に適している
- 階層密度クラスタリングにHDBSCANを採用
- ノイズと可変密度クラスタリングを処理可能
- ヒートマップを用いて元のデータを分析
- 高次元ウォーターフォールプロットでクラスタを解釈
従来のウォーターフォールプロットは1次元SHAP値のみに適用可能であり、多クラスのk次元SHAPベクトルを処理できない。
- クラス部分空間への投影:2つのクラスを選択し、他のクラスのSHAP値を無視し、クラス間の二者択一比較に適する
- PCA投影:最も情報を保持する2次元部分空間に投影し、すべてのk個クラスの情報を保持するが軸の解釈が複雑
SHAP値ベクトル列をk次元空間内のパスと見なし、各パスセグメントは特徴の寄与に対応し、平均予測点から出発してサンプルの具体的な予測点に到達する。
- 生成モデル:多項ロジスティック回帰
- サンプル規模:1,500サンプル、10次元特徴
- 設計思想:同じ目標クラスに到達する異なる経路を作成
- 関数定義:
- f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
- f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
- ここでβⱼ,ᵢ ~ N(0,1)
- データソース:アルツハイマー病神経画像イニシアチブデータベース
- サンプル規模:2,422名の患者、39の特徴
- 目標クラス:認知正常(CN)、軽度認知障害(MCI)、アルツハイマー病/認知症(AD)
- 前処理:訪問データ、デバイス情報などを削除、0,1区間に線形スケーリング
- 分類性能:精度、再現率、F1スコア
- クラスタリング品質:可視化と領域知識による検証
- 予測モデル:XGBoost
- 次元削減手法:UMAP
- クラスタリングアルゴリズム:HDBSCAN
- 交差検証:反復交差検証によるSHAP値計算
XGBoostモデルはテストセットで優れた性能を示す:
- 全体精度:90%
- 各クラスF1スコア:0.88-0.92
- モデル解釈の信頼性を証明
- 元のデータにはクラスタ構造なし:UMAP可視化は元のデータに明らかなクラスタパターンがないことを示す
- SHAP値が4つのクラスタを明らかに:
- クラスタ0:x₁ < 0, x₂ < 0 → クラス0
- クラスタ3:x₁ > 0, x₂ > 0 → クラス1
- クラスタ1と2:x₁, x₂が異符号 → クラス2(2つの異なる経路)
- クラス2に到達する2つの異なる経路を正常に識別
- クラスタ1:x₁ > 0, x₂ < 0
- クラスタ2:x₁ < 0, x₂ > 0
さらなる分析により、クラスタ3は2つのサブクラスタに細分化でき、主な違いは特徴8の寄与にあることが判明し、方法の安定性を検証した。
- 全体精度:93%
- 各クラス性能:CN(F1=0.96)、MCI(F1=0.92)、AD(F1=0.86)
- CDRSB(臨床認知症評価スケール総スコア):最も重要な予測因子
- LDELTOTAL:CNとMCI区別に顕著な作用
- mPACCdigitとMMSE:MCIとAD区別に重要
- CN患者:クラスタ0と4、APOE4遺伝子型は異なるがSHAPパターンは類似
- MCI患者:クラスタ3と6
- クラスタ3:CDRSBのADへの寄与は-1.50(保護的)
- クラスタ6:CDRSBのADへの寄与は-0.50(リスク的)
- AD患者:クラスタ1、2、5、異なる疾患経路を示す
- 同じ診断クラス内の異質性を明らかに
- CDRSB評価はMCI患者のリスク層別化に利用可能
- 異なるADクラスタは異なる治療戦略が必要な可能性
- 理論的基礎:Shapley値(Lloyd Shapley, 1953)に基づく
- 現代的発展:Lundbergと Lee(2017)による機械学習への応用
- TreeSHAPアルゴリズム:木モデル用のSHAP値計算に特化
- 従来の手法:K-means、階層クラスタリングなど元の特徴に基づく
- 密度クラスタリング:DBSCANおよびその改良版HDBSCAN
- 監督クラスタリング:監督学習情報を組み合わせたクラスタリング手法
既存研究は極めて限定的であり、本論文はこの分野の重要な貢献の一つであり、後続研究の基礎を築いている。
- SHAP-baseクラスタリングの有効性:元のデータでは観察できない意味のあるグループ分けを発見可能
- 高次元ウォーターフォールプロットの実用性:多クラスSHAP値可視化問題を成功裏に解決
- 医学応用の価値:アルツハイマー病研究における実際の応用可能性を実証
- 疾患異質性の洞察:同じ診断クラス内の異なる病理経路を明らかに
- 計算複雑性:大量のSHAP値計算が必要で、計算コストが高い
- モデル依存性:クラスタリング結果は基礎となる予測モデルの品質に依存
- パラメータ感度:HDBSCANなどのアルゴリズムのパラメータ選択が結果に影響する可能性
- クラス数の制限:高次元ウォーターフォールプロットの可視化はクラス数に制限される
- 可視化手法の拡張:他のSHAPプロット(棒グラフ、ヒートマップ、蜂群プロットなど)の高次元版を開発
- アルゴリズム最適化:大規模データの計算効率を向上
- 理論分析:SHAP-baseクラスタリングの理論的基礎を確立
- 応用拡張:より多くの分野で方法の普遍性を検証
- 革新性が強い:SHAP-base監督クラスタリング手法を初めて体系的に提案
- 実用価値が高い:医療などの高リスク分野での重要な応用価値
- 方法が完全:モデリングから解釈までの完全なワークフローを提供
- 検証が十分:シミュレーションと実際のケースによる二重検証
- 可視化の革新:高次元ウォーターフォールプロットが多クラス解釈可能性問題を解決
- 理論的基礎が弱い:SHAP-baseクラスタリングの理論分析が不足
- 計算効率:大規模応用時の計算複雑性問題が十分に議論されていない
- パラメータ選択:クラスタリングアルゴリズムのパラメータ選択指針が不明確
- 統計的有意性:クラスタリング結果の統計的有意性検定が不足
- 比較実験不足:他の解釈可能クラスタリング手法との比較が限定的
- 学術的貢献:解釈可能AI及び監督クラスタリング分野に新しい視点を提供
- 実用的価値:精密医療などの分野での直接的な応用可能性
- 手法の推広:ワークフローは他の分野や問題に推広可能
- 後続研究:SHAP値の深い応用に新しい方向を開拓
- 医療診断:疾患異質性分析と個別化治療
- 金融リスク管理:顧客リスク層別化と差別化戦略
- 推奨システム:ユーザー行動パターン分析
- 品質管理:製品欠陥の異なる原因分析
論文は23篇の重要な文献を引用しており、SHAP理論、クラスタリングアルゴリズム、可視化手法、アルツハイマー病研究など複数の分野をカバーし、学際的研究に良好な理論的支援を提供している。
総合評価:これは解釈可能AIと監督クラスタリングの交差分野における重要な貢献をした高品質の学際的研究論文である。方法の革新性が強く、実験検証が十分であり、医療などの高リスク応用分野で重要な価値を持つ。理論分析と計算効率の面でまだ改善の余地があるが、後続研究の良好な基礎を築いている。