The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
論文ID : 2510.11164タイトル : Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness著者 : Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi分類 : cs.LG(機械学習)発表時期/会議 : TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)論文リンク : https://arxiv.org/abs/2510.11164 人工知能モデルが現実世界の高リスク応用に広く使用されるにつれて、その信頼性と倫理的使用に関する問題は、技術的および立法的観点から、ますます注目を集めています。説明可能人工知能(XAI)分野は、複雑なブラックボックスモデルの意思決定プロセスを明らかにするための説明を提供することで、この課題に対処しています。堅牢性は重要な属性ですが、開発プロセスでしばしば見落とされています。堅牢な説明方法のみが、システム全体への信頼を増加させることができます。本論文は、複数のモデル(k近傍法、ランダムフォレスト、ニューラルネットワーク)から集約された特徴重要度を使用することで、堅牢性の役割を調査しています。初期結果は、複数のモデルの予測能力を活用しながら、アプリケーションの信頼性を向上させる可能性を示しています。
本研究が解決しようとする中核的な問題は、既存のXAI方法の2つの重要な欠陥です:
説明の堅牢性不足 :LIMEやSHAPなどの一般的な説明方法は、複数の研究で堅牢性の欠如が証明されていますが、依然として高リスクシナリオで広く適用されています説明の相違問題 :複数の説明方法が同じインスタンスに適用されるとき、相互に矛盾する説明が生成されます。説明の真値基準がないため、最適な方法を選択することができませんGDPRとAI法案などの立法がモデルの透明性を要求するにつれて、説明の信頼性は極めて重要になります。説明への信頼を通じてのみ、モデル自体への信頼を構築することができます。これは高リスク応用において特に重要です。
LIMEやSHAPなどの主流方法は堅牢性の問題を抱えており、類似の入力に対して矛盾した説明を生成します 単一モデルの説明方法は、複数のモデルの予測能力を十分に活用することができません 異なるモデル間の説明の相違に対処するための効果的な説明集約戦略が不足しています ニューラルネットワークアンサンブル説明に関する以前の研究に基づいて、本論文は方法を異なるカテゴリーの複数のモデルに拡張することを提案しており、異なる意思決定プロセスの説明を集約することで、システム全体の信頼性を向上させることを目指しています。
2つの新しい特徴帰属方法を提案 :k近傍法モデル用の距離ベース特徴重要度方法 ランダムフォレスト用のノード不純度ベース特徴帰属方法 複数モデル説明集約フレームワークを開発 :k-NN、ランダムフォレスト、ニューラルネットワークの説明を統合 算術平均による特徴重要度の集約 堅牢性評価メカニズムを導入 :中心点ベースの近傍生成方法を使用 Spearman相関係数による説明堅牢性の定量化 モデル一貫性と説明堅牢性の関係を検証 :複数モデル予測の一貫性が説明信頼性の指標として機能することを証明 本論文は表形式データの二値分類タスクに焦点を当てており、各予測インスタンスに対して信頼できる特徴重要度説明を生成することが目標です。入力は表形式データインスタンスであり、出力は正規化された特徴帰属ベクトルです。
アルゴリズムはk-NNの距離推論メカニズムに基づいています:
予測点xに対して、予測クラスcと対立クラス¬cからそれぞれk'個の最近傍を選択 各近傍グループまでの平均特徴距離D_cおよびD_¬cを計算 特徴重要度を以下のように定義:e = D_¬c - D_c 比較可能性を確保するために単位ベクトルに正規化 決定経路内のノード不純度に基づいています:
フォレスト内の各ツリーについて、データポイントの決定経路を追跡 単一ツリーの予測がフォレスト予測と一致するかどうかに基づいて、ノード不純度をe_cまたはe_¬cに別々に累積 最終的な説明:e = (p_¬c + ε) × e_c - p_c × e_¬c ここでp_cおよびp_¬cは予測確率であり、ε=0.01はゼロ値を回避します 特徴レベルの算術平均を採用:
a_agg = (1/L) × Σ(l=1 to L) a_l
ここでL=3はモデル数です。モデル予測が一貫していない場合、分歧するモデルの説明を反転させて、説明が同じクラスを指すようにします。
中心点ベースの方法を採用:
検証セットに対してk-medoidクラスタリングを実行 各データポイントについて、対応するクラスタ中心とそのk_M個の最近傍中心を検出 ベータ分布と確率置換を通じて、データ多様体に適合した摂動を生成 Spearman順位相関係数を使用:
R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))
ここでNは予測が一貫している近傍点の集合です。
二値分類タスク用の5つの公開表形式データセットを使用:
Adult : 36,177/8,045/1,000(訓練/検証/テスト)、5つの数値特徴、7つのカテゴリ特徴Bank : 36,168/8,043/1,000、5つの数値特徴、9つのカテゴリ特徴HELOC : 8,367/1,592/500、14の数値特徴、2つのカテゴリ特徴Cancer : 397/121/50、15の数値特徴、0個のカテゴリ特徴White Wine : 3,918/780/200、9つの数値特徴、0個のカテゴリ特徴堅牢性スコア :Spearman相関係数の平均値に基づく近傍サイズ :フィルタリング後に保持された摂動点の割合AUC値 :モデル一貫性に基づくROC曲線下面積k-NNカスタム説明方法 ランダムフォレストカスタム説明方法 ニューラルネットワークのDeepLIFT方法 3つの方法の集約結果 付録内のLIMEおよびSHAPとの比較 k-NN: k=15(adult、bank)、k=5(その他) ランダムフォレスト: 25個の基学習器 ニューラルネットワーク: 標準多層パーセプトロン 近傍生成: k_M=5、α=0.05、α_cat=0.05 ターゲット近傍保持率: ≥95% すべてのモデルは各データセット上で80%以上の精度を達成しています(HELOCのk-NNを除き75.51%)。ニューラルネットワークは複雑なデータセット上で最高のパフォーマンスを示し、ランダムフォレストはシンプルなデータセット上で最高のパフォーマンスを示しています。
平均堅牢性スコア(%):
データセット k-NN RF NN 集約 Adult 61.12 88.67 85.03 74.58 Bank 52.27 73.52 78.74 65.75 HELOC 71.01 80.56 84.23 77.92 Cancer 83.31 81.07 98.40 84.93 Wine 69.55 66.60 92.96 66.74
結果は以下を示しています:
k-NN方法は堅牢性が最も低く、遠い近傍への依存という特性と一致しています ニューラルネットワーク方法は堅牢性が最も高い 集約方法の堅牢性は各構成方法の間にあり、理論的予測と一致しています モデル予測一貫性と近傍サイズの関係は仮説を検証しています。3つのモデルの予測が一貫している場合、通常より大きな近傍規模が得られ、その領域がより良い説明堅牢性を持つことを示しています。
ROC分析を通じてモデル一貫性と説明堅牢性の関係を検証:
AUC値比較:
データセット k-NN RF NN 集約 Adult 0.4480 0.5417 0.6970 0.5901 Bank 0.4128 0.6257 0.3861 0.6097 HELOC 0.6573 0.6049 0.6748 0.6095 Cancer 0.8397 0.9212 0.7120 0.9212 Wine 0.5088 0.4698 0.0469 0.4951
集約方法はほとんどの場合良好なパフォーマンスを示していますが、k-NN方法は特定のシナリオで効果が低い場合があります。
付録の結果は、LIMEおよびSHAPの堅牢性スコアが0.5閾値をはるかに下回ることを示しており、これらの方法の不安定性に関する文献の発見を検証し、それらを除外する決定を支持しています。
局所説明方法 :LIME、SHAPなどのモデル非依存方法ニューラルネットワーク特定方法 :DeepLIFT、Integrated Gradients、LRPなど堅牢性研究 :説明方法の安定性の評価と改善以前の研究は主に単一モデルタイプの複数インスタンスに焦点を当てていました 本論文は異なるモデルタイプの説明集約に拡張しています GDPRの「説明を受ける権利」要件 EU AI法案による高リスク応用への透明性要件 複数モデル集約の実現可能性 :異なるタイプのモデルからの説明を効果的に集約できることを証明堅牢性と一貫性の関係 :モデル予測の一貫性が説明信頼性の指標として機能することを検証保守的説明戦略 :集約方法は保守的ながら信頼できる説明戦略を提供集約方法の単純性 :現在は算術平均を使用しており、複雑な分歧パターンに対処できませんk-NN方法の依存性 :ハイパーパラメータk'に敏感であり、変動性が大きい評価の完全性 :より包括的な実際のアプリケーションシナリオでの検証が必要ですモデルタイプの制限 :3つのモデルタイプのみをテストしています著者は4つの改善方向を明確に提案しています:
極端な分歧ケースに対処するためのより複雑な集約戦略の開発 ハイパーパラメータ依存性を減らすためのk-NN説明方法の改善 実際のユースケースでのより完全な検証評価 他のモデルタイプとXAI方法への拡張 問題の重要性 :XAI分野の重要な問題—説明堅牢性と信頼性を解決方法の革新性 :
モデルタイプ間の説明集約を初めて提案 新規なk-NNおよびRF特徴帰属方法 体系的な堅牢性評価フレームワーク 実験の充分性 :
複数のデータセットでの検証 完全なアブレーション分析 主流方法との比較 理論的基礎 :モデル一貫性と説明堅牢性の理論的関連性を確立方法の限界 :
集約戦略が過度に単純で、重要な情報を失う可能性があります k-NN方法の理論的基礎が相対的に弱い 二値分類タスクのみに適用可能 実験設定 :
データセットサイズが相対的に小さい 実際の高リスク応用シナリオでの検証が不足している 計算コストの分析が不足している 分析の深さ :
集約方法が失敗するケースの分析が十分ではない 異なるモデルタイプの貢献度の定量的分析が不足している 学術的貢献 :XAI堅牢性研究に新しい視点を提供し、特に複数モデル集約の方向性を示しています実用的価値 :高リスク応用における信頼できるAIのための実用的フレームワークを提供再現性 :方法の説明が明確で、アルゴリズム実装が比較的シンプル高リスク意思決定シナリオ :金融、医療など、説明可能で信頼できるAIが必要な分野規制コンプライアンス :GDPRなどの規制要件を満たす必要があるアプリケーションモデル監査 :AIシステムの信頼性を評価する必要があるシナリオ研究プラットフォーム :XAI堅牢性研究のための基礎フレームワークを提供論文はXAI分野の重要な文献を引用しており、以下を含みます:
LIMEおよびSHAPの原論文とその堅牢性批判 DeepLIFT、Integrated Gradientsなどのニューラルネットワーク説明方法 関連する堅牢性評価および説明集約研究 GDPRおよびEU AI法などの立法文書 総合評価 :これはXAI堅牢性研究の方向性において重要な貢献を持つ論文です。方法は相対的にシンプルですが、実際に重要な問題を解決し、信頼できるAIの発展に価値のあるツールを提供しています。論文の主な価値は、モデルタイプ間の説明集約研究を開拓し、体系的な評価フレームワークを提供することにあります。将来の研究の方向性は明確であり、この分野のさらなる発展のための基礎を築いています。