2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.

The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.

academic

単一モデルXAIを超えて：信頼性向上のための複数モデル説明の集約

基本情報

論文ID: 2510.11164
タイトル: Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
著者: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
分類: cs.LG（機械学習）
発表時期/会議: TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
論文リンク: https://arxiv.org/abs/2510.11164

要約

人工知能モデルが現実世界の高リスク応用に広く使用されるにつれて、その信頼性と倫理的使用に関する問題は、技術的および立法的観点から、ますます注目を集めています。説明可能人工知能（XAI）分野は、複雑なブラックボックスモデルの意思決定プロセスを明らかにするための説明を提供することで、この課題に対処しています。堅牢性は重要な属性ですが、開発プロセスでしばしば見落とされています。堅牢な説明方法のみが、システム全体への信頼を増加させることができます。本論文は、複数のモデル（k近傍法、ランダムフォレスト、ニューラルネットワーク）から集約された特徴重要度を使用することで、堅牢性の役割を調査しています。初期結果は、複数のモデルの予測能力を活用しながら、アプリケーションの信頼性を向上させる可能性を示しています。

研究背景と動機

問題定義

本研究が解決しようとする中核的な問題は、既存のXAI方法の2つの重要な欠陥です：

説明の堅牢性不足：LIMEやSHAPなどの一般的な説明方法は、複数の研究で堅牢性の欠如が証明されていますが、依然として高リスクシナリオで広く適用されています
説明の相違問題：複数の説明方法が同じインスタンスに適用されるとき、相互に矛盾する説明が生成されます。説明の真値基準がないため、最適な方法を選択することができません

重要性

GDPRとAI法案などの立法がモデルの透明性を要求するにつれて、説明の信頼性は極めて重要になります。説明への信頼を通じてのみ、モデル自体への信頼を構築することができます。これは高リスク応用において特に重要です。

既存方法の限界

LIMEやSHAPなどの主流方法は堅牢性の問題を抱えており、類似の入力に対して矛盾した説明を生成します
単一モデルの説明方法は、複数のモデルの予測能力を十分に活用することができません
異なるモデル間の説明の相違に対処するための効果的な説明集約戦略が不足しています

研究動機

ニューラルネットワークアンサンブル説明に関する以前の研究に基づいて、本論文は方法を異なるカテゴリーの複数のモデルに拡張することを提案しており、異なる意思決定プロセスの説明を集約することで、システム全体の信頼性を向上させることを目指しています。

中核的貢献

2つの新しい特徴帰属方法を提案：
- k近傍法モデル用の距離ベース特徴重要度方法
- ランダムフォレスト用のノード不純度ベース特徴帰属方法
複数モデル説明集約フレームワークを開発：
- k-NN、ランダムフォレスト、ニューラルネットワークの説明を統合
- 算術平均による特徴重要度の集約
堅牢性評価メカニズムを導入：
- 中心点ベースの近傍生成方法を使用
- Spearman相関係数による説明堅牢性の定量化
モデル一貫性と説明堅牢性の関係を検証：
- 複数モデル予測の一貫性が説明信頼性の指標として機能することを証明

方法の詳細

タスク定義

本論文は表形式データの二値分類タスクに焦点を当てており、各予測インスタンスに対して信頼できる特徴重要度説明を生成することが目標です。入力は表形式データインスタンスであり、出力は正規化された特徴帰属ベクトルです。

モデルアーキテクチャ

k近傍法説明方法

アルゴリズムはk-NNの距離推論メカニズムに基づいています：

予測点xに対して、予測クラスcと対立クラス¬cからそれぞれk'個の最近傍を選択
各近傍グループまでの平均特徴距離D_cおよびD_¬cを計算
特徴重要度を以下のように定義：e = D_¬c - D_c
比較可能性を確保するために単位ベクトルに正規化

ランダムフォレスト説明方法

決定経路内のノード不純度に基づいています：

フォレスト内の各ツリーについて、データポイントの決定経路を追跡
単一ツリーの予測がフォレスト予測と一致するかどうかに基づいて、ノード不純度をe_cまたはe_¬cに別々に累積
最終的な説明：e = (p_¬c + ε) × e_c - p_c × e_¬c
ここでp_cおよびp_¬cは予測確率であり、ε=0.01はゼロ値を回避します

集約戦略

特徴レベルの算術平均を採用：

a_agg = (1/L) × Σ(l=1 to L) a_l

ここでL=3はモデル数です。モデル予測が一貫していない場合、分歧するモデルの説明を反転させて、説明が同じクラスを指すようにします。

堅牢性評価

近傍生成

中心点ベースの方法を採用：

検証セットに対してk-medoidクラスタリングを実行
各データポイントについて、対応するクラスタ中心とそのk_M個の最近傍中心を検出
ベータ分布と確率置換を通じて、データ多様体に適合した摂動を生成

堅牢性計算

Spearman順位相関係数を使用：

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

ここでNは予測が一貫している近傍点の集合です。

実験設定

データセット

二値分類タスク用の5つの公開表形式データセットを使用：

Adult: 36,177/8,045/1,000（訓練/検証/テスト）、5つの数値特徴、7つのカテゴリ特徴
Bank: 36,168/8,043/1,000、5つの数値特徴、9つのカテゴリ特徴
HELOC: 8,367/1,592/500、14の数値特徴、2つのカテゴリ特徴
Cancer: 397/121/50、15の数値特徴、0個のカテゴリ特徴
White Wine: 3,918/780/200、9つの数値特徴、0個のカテゴリ特徴

評価指標

堅牢性スコア：Spearman相関係数の平均値に基づく
近傍サイズ：フィルタリング後に保持された摂動点の割合
AUC値：モデル一貫性に基づくROC曲線下面積

比較方法

k-NNカスタム説明方法
ランダムフォレストカスタム説明方法
ニューラルネットワークのDeepLIFT方法
3つの方法の集約結果
付録内のLIMEおよびSHAPとの比較

実装詳細

k-NN: k=15（adult、bank）、k=5（その他）
ランダムフォレスト: 25個の基学習器
ニューラルネットワーク: 標準多層パーセプトロン
近傍生成: k_M=5、α=0.05、α_cat=0.05
ターゲット近傍保持率: ≥95%

実験結果

主要結果

モデルパフォーマンス

すべてのモデルは各データセット上で80%以上の精度を達成しています（HELOCのk-NNを除き75.51%）。ニューラルネットワークは複雑なデータセット上で最高のパフォーマンスを示し、ランダムフォレストはシンプルなデータセット上で最高のパフォーマンスを示しています。

堅牢性比較

平均堅牢性スコア（%）：

データセット	k-NN	RF	NN	集約
Adult	61.12	88.67	85.03	74.58
Bank	52.27	73.52	78.74	65.75
HELOC	71.01	80.56	84.23	77.92
Cancer	83.31	81.07	98.40	84.93
Wine	69.55	66.60	92.96	66.74

結果は以下を示しています：

k-NN方法は堅牢性が最も低く、遠い近傍への依存という特性と一致しています
ニューラルネットワーク方法は堅牢性が最も高い
集約方法の堅牢性は各構成方法の間にあり、理論的予測と一致しています

モデル一貫性分析

モデル予測一貫性と近傍サイズの関係は仮説を検証しています。3つのモデルの予測が一貫している場合、通常より大きな近傍規模が得られ、その領域がより良い説明堅牢性を持つことを示しています。

検証評価

ROC分析を通じてモデル一貫性と説明堅牢性の関係を検証：

AUC値比較：

データセット	k-NN	RF	NN	集約
Adult	0.4480	0.5417	0.6970	0.5901
Bank	0.4128	0.6257	0.3861	0.6097
HELOC	0.6573	0.6049	0.6748	0.6095
Cancer	0.8397	0.9212	0.7120	0.9212
Wine	0.5088	0.4698	0.0469	0.4951

集約方法はほとんどの場合良好なパフォーマンスを示していますが、k-NN方法は特定のシナリオで効果が低い場合があります。

LIME/SHAPとの比較

付録の結果は、LIMEおよびSHAPの堅牢性スコアが0.5閾値をはるかに下回ることを示しており、これらの方法の不安定性に関する文献の発見を検証し、それらを除外する決定を支持しています。

結論と考察

主要な結論

複数モデル集約の実現可能性：異なるタイプのモデルからの説明を効果的に集約できることを証明
堅牢性と一貫性の関係：モデル予測の一貫性が説明信頼性の指標として機能することを検証
保守的説明戦略：集約方法は保守的ながら信頼できる説明戦略を提供

限界

集約方法の単純性：現在は算術平均を使用しており、複雑な分歧パターンに対処できません
k-NN方法の依存性：ハイパーパラメータk'に敏感であり、変動性が大きい
評価の完全性：より包括的な実際のアプリケーションシナリオでの検証が必要です
モデルタイプの制限：3つのモデルタイプのみをテストしています

将来の方向性

著者は4つの改善方向を明確に提案しています：

極端な分歧ケースに対処するためのより複雑な集約戦略の開発
ハイパーパラメータ依存性を減らすためのk-NN説明方法の改善
実際のユースケースでのより完全な検証評価
他のモデルタイプとXAI方法への拡張

深層評価

利点

問題の重要性：XAI分野の重要な問題—説明堅牢性と信頼性を解決
方法の革新性：
- モデルタイプ間の説明集約を初めて提案
- 新規なk-NNおよびRF特徴帰属方法
- 体系的な堅牢性評価フレームワーク
実験の充分性：
- 複数のデータセットでの検証
- 完全なアブレーション分析
- 主流方法との比較
理論的基礎：モデル一貫性と説明堅牢性の理論的関連性を確立

不足点

方法の限界：
- 集約戦略が過度に単純で、重要な情報を失う可能性があります
- k-NN方法の理論的基礎が相対的に弱い
- 二値分類タスクのみに適用可能
実験設定：
- データセットサイズが相対的に小さい
- 実際の高リスク応用シナリオでの検証が不足している
- 計算コストの分析が不足している
分析の深さ：
- 集約方法が失敗するケースの分析が十分ではない
- 異なるモデルタイプの貢献度の定量的分析が不足している

影響力

学術的貢献：XAI堅牢性研究に新しい視点を提供し、特に複数モデル集約の方向性を示しています
実用的価値：高リスク応用における信頼できるAIのための実用的フレームワークを提供
再現性：方法の説明が明確で、アルゴリズム実装が比較的シンプル

適用シナリオ

高リスク意思決定シナリオ：金融、医療など、説明可能で信頼できるAIが必要な分野
規制コンプライアンス：GDPRなどの規制要件を満たす必要があるアプリケーション
モデル監査：AIシステムの信頼性を評価する必要があるシナリオ
研究プラットフォーム：XAI堅牢性研究のための基礎フレームワークを提供

参考文献

論文はXAI分野の重要な文献を引用しており、以下を含みます：

LIMEおよびSHAPの原論文とその堅牢性批判
DeepLIFT、Integrated Gradientsなどのニューラルネットワーク説明方法
関連する堅牢性評価および説明集約研究
GDPRおよびEU AI法などの立法文書

総合評価：これはXAI堅牢性研究の方向性において重要な貢献を持つ論文です。方法は相対的にシンプルですが、実際に重要な問題を解決し、信頼できるAIの発展に価値のあるツールを提供しています。論文の主な価値は、モデルタイプ間の説明集約研究を開拓し、体系的な評価フレームワークを提供することにあります。将来の研究の方向性は明確であり、この分野のさらなる発展のための基礎を築いています。