2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.

The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.

academic

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

基本信息

论文ID: 2510.11164
标题: Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
作者: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
分类: cs.LG (机器学习)
发表时间/会议: TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
论文链接: https://arxiv.org/abs/2510.11164

摘要

随着人工智能模型在现实世界高风险应用中的广泛使用，其可信度和伦理使用问题从技术和立法角度都受到了越来越多的关注。可解释人工智能(XAI)领域通过提供解释来揭示复杂黑盒模型的决策过程，以应对这一挑战。尽管鲁棒性是一个重要属性，但在开发过程中往往被忽视：只有鲁棒的解释方法才能增加对整个系统的信任。本文通过使用从多个模型(k近邻、随机森林和神经网络)中聚合的特征重要性来研究鲁棒性的作用。初步结果展示了在利用多个模型预测能力的同时提高应用可信度的潜力。

研究背景与动机

问题定义

本研究要解决的核心问题是现有XAI方法的两个关键缺陷：

解释鲁棒性不足：流行的解释方法如LIME和SHAP已被证明在多项研究中缺乏鲁棒性，但仍被广泛应用于高风险场景
解释分歧问题：当多种解释方法应用于同一实例时产生相互矛盾的解释，由于缺乏解释的真值标准，无法选择最优方法

重要性

随着GDPR和AI法案等立法要求模型透明度，解释的可信度变得至关重要。只有通过信任解释才能建立对模型本身的信任，这在高风险应用中尤为重要。

现有方法局限性

LIME和SHAP等主流方法存在鲁棒性问题，在相似输入下产生不一致的解释
单一模型解释方法无法充分利用多个模型的预测能力
缺乏有效的解释聚合策略来处理不同模型间的解释分歧

研究动机

基于之前在神经网络集成解释方面的工作，本文提出将方法扩展到多种不同类别的模型，旨在通过聚合不同决策过程的解释来提高系统的整体可信度。

核心贡献

提出了两种新的特征归因方法：
- 针对k近邻模型的距离基础特征重要性方法
- 针对随机森林的基于节点不纯度的特征归因方法
开发了多模型解释聚合框架：
- 整合k-NN、随机森林和神经网络的解释
- 通过算术平均进行特征重要性聚合
引入了鲁棒性评估机制：
- 使用基于中心点的邻域生成方法
- 通过Spearman相关系数量化解释鲁棒性
验证了模型一致性与解释鲁棒性的关系：
- 证明了多模型预测一致性可作为解释可信度的指标

方法详解

任务定义

本文专注于表格数据的二分类任务，目标是为每个预测实例生成可信的特征重要性解释。输入为表格数据实例，输出为标准化的特征归因向量。

模型架构

k近邻解释方法

算法基于k-NN的距离推理机制：

对于预测点x，分别从预测类别c和对立类别¬c中选择k'个最近邻
计算到每组邻居的平均特征距离D_c和D_¬c
特征重要性定义为：e = D_¬c - D_c
标准化为单位向量确保可比性

随机森林解释方法

基于决策路径中的节点不纯度：

对森林中每棵树，跟踪数据点的决策路径
根据单棵树预测是否与森林预测一致，分别累积节点不纯度到e_c或e_¬c
最终解释为：e = (p_¬c + ε) × e_c - p_c × e_¬c
其中p_c和p_¬c为预测概率，ε=0.01避免零值

聚合策略

采用特征级算术平均：

a_agg = (1/L) × Σ(l=1 to L) a_l

其中L=3为模型数量。当模型预测不一致时，对分歧模型的解释取反号以确保解释指向相同类别。

鲁棒性评估

邻域生成

采用基于中心点的方法：

对验证集进行k-medoid聚类
对每个数据点，找到对应聚类中心及其k_M个最近中心点
通过Beta分布和概率替换生成符合数据流形的扰动

鲁棒性计算

使用Spearman秩相关系数：

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

其中N为保持预测一致的邻域点集合。

实验设置

数据集

使用5个公开的表格数据集进行二分类任务：

Adult: 36,177/8,045/1,000 (训练/验证/测试)，5个数值特征，7个分类特征
Bank: 36,168/8,043/1,000，5个数值特征，9个分类特征
HELOC: 8,367/1,592/500，14个数值特征，2个分类特征
Cancer: 397/121/50，15个数值特征，0个分类特征
White Wine: 3,918/780/200，9个数值特征，0个分类特征

评价指标

鲁棒性分数：基于Spearman相关系数的平均值
邻域大小：过滤后保留的扰动点比例
AUC值：基于模型一致性的ROC曲线下面积

对比方法

k-NN自定义解释方法
随机森林自定义解释方法
神经网络的DeepLIFT方法
三种方法的聚合结果
附录中与LIME、SHAP的对比

实现细节

k-NN: k=15(adult,bank), k=5(其他)
随机森林: 25个基学习器
神经网络: 标准多层感知机
邻域生成: k_M=5, α=0.05, α_cat=0.05
目标邻域保留率: ≥95%

实验结果

主要结果

模型性能

所有模型在各数据集上均达到80%以上准确率(HELOC上k-NN除外为75.51%)。神经网络在复杂数据集上表现最佳，随机森林在简单数据集上表现最好。

鲁棒性对比

平均鲁棒性分数(%):

数据集	k-NN	RF	NN	聚合
Adult	61.12	88.67	85.03	74.58
Bank	52.27	73.52	78.74	65.75
HELOC	71.01	80.56	84.23	77.92
Cancer	83.31	81.07	98.40	84.93
Wine	69.55	66.60	92.96	66.74

结果显示：

k-NN方法鲁棒性最低，符合其依赖远距离邻居的特性
神经网络方法鲁棒性最高
聚合方法的鲁棒性介于各组成方法之间，符合理论预期

模型一致性分析

模型预测一致性与邻域大小的关系验证了假设：当三个模型预测一致时，通常能获得更大的邻域规模，表明该区域具有更好的解释鲁棒性。

验证评估

通过ROC分析验证模型一致性与解释鲁棒性的关系：

AUC值对比:

数据集	k-NN	RF	NN	聚合
Adult	0.4480	0.5417	0.6970	0.5901
Bank	0.4128	0.6257	0.3861	0.6097
HELOC	0.6573	0.6049	0.6748	0.6095
Cancer	0.8397	0.9212	0.7120	0.9212
Wine	0.5088	0.4698	0.0469	0.4951