2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.
The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
academic

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

基本信息

  • 论文ID: 2510.11164
  • 标题: Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
  • 作者: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • 分类: cs.LG (机器学习)
  • 发表时间/会议: TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
  • 论文链接: https://arxiv.org/abs/2510.11164

摘要

随着人工智能模型在现实世界高风险应用中的广泛使用,其可信度和伦理使用问题从技术和立法角度都受到了越来越多的关注。可解释人工智能(XAI)领域通过提供解释来揭示复杂黑盒模型的决策过程,以应对这一挑战。尽管鲁棒性是一个重要属性,但在开发过程中往往被忽视:只有鲁棒的解释方法才能增加对整个系统的信任。本文通过使用从多个模型(k近邻、随机森林和神经网络)中聚合的特征重要性来研究鲁棒性的作用。初步结果展示了在利用多个模型预测能力的同时提高应用可信度的潜力。

研究背景与动机

问题定义

本研究要解决的核心问题是现有XAI方法的两个关键缺陷:

  1. 解释鲁棒性不足:流行的解释方法如LIME和SHAP已被证明在多项研究中缺乏鲁棒性,但仍被广泛应用于高风险场景
  2. 解释分歧问题:当多种解释方法应用于同一实例时产生相互矛盾的解释,由于缺乏解释的真值标准,无法选择最优方法

重要性

随着GDPR和AI法案等立法要求模型透明度,解释的可信度变得至关重要。只有通过信任解释才能建立对模型本身的信任,这在高风险应用中尤为重要。

现有方法局限性

  • LIME和SHAP等主流方法存在鲁棒性问题,在相似输入下产生不一致的解释
  • 单一模型解释方法无法充分利用多个模型的预测能力
  • 缺乏有效的解释聚合策略来处理不同模型间的解释分歧

研究动机

基于之前在神经网络集成解释方面的工作,本文提出将方法扩展到多种不同类别的模型,旨在通过聚合不同决策过程的解释来提高系统的整体可信度。

核心贡献

  1. 提出了两种新的特征归因方法
    • 针对k近邻模型的距离基础特征重要性方法
    • 针对随机森林的基于节点不纯度的特征归因方法
  2. 开发了多模型解释聚合框架
    • 整合k-NN、随机森林和神经网络的解释
    • 通过算术平均进行特征重要性聚合
  3. 引入了鲁棒性评估机制
    • 使用基于中心点的邻域生成方法
    • 通过Spearman相关系数量化解释鲁棒性
  4. 验证了模型一致性与解释鲁棒性的关系
    • 证明了多模型预测一致性可作为解释可信度的指标

方法详解

任务定义

本文专注于表格数据的二分类任务,目标是为每个预测实例生成可信的特征重要性解释。输入为表格数据实例,输出为标准化的特征归因向量。

模型架构

k近邻解释方法

算法基于k-NN的距离推理机制:

  1. 对于预测点x,分别从预测类别c和对立类别¬c中选择k'个最近邻
  2. 计算到每组邻居的平均特征距离D_c和D_¬c
  3. 特征重要性定义为:e = D_¬c - D_c
  4. 标准化为单位向量确保可比性

随机森林解释方法

基于决策路径中的节点不纯度:

  1. 对森林中每棵树,跟踪数据点的决策路径
  2. 根据单棵树预测是否与森林预测一致,分别累积节点不纯度到e_c或e_¬c
  3. 最终解释为:e = (p_¬c + ε) × e_c - p_c × e_¬c
  4. 其中p_c和p_¬c为预测概率,ε=0.01避免零值

聚合策略

采用特征级算术平均:

a_agg = (1/L) × Σ(l=1 to L) a_l

其中L=3为模型数量。当模型预测不一致时,对分歧模型的解释取反号以确保解释指向相同类别。

鲁棒性评估

邻域生成

采用基于中心点的方法:

  1. 对验证集进行k-medoid聚类
  2. 对每个数据点,找到对应聚类中心及其k_M个最近中心点
  3. 通过Beta分布和概率替换生成符合数据流形的扰动

鲁棒性计算

使用Spearman秩相关系数:

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

其中N为保持预测一致的邻域点集合。

实验设置

数据集

使用5个公开的表格数据集进行二分类任务:

  • Adult: 36,177/8,045/1,000 (训练/验证/测试),5个数值特征,7个分类特征
  • Bank: 36,168/8,043/1,000,5个数值特征,9个分类特征
  • HELOC: 8,367/1,592/500,14个数值特征,2个分类特征
  • Cancer: 397/121/50,15个数值特征,0个分类特征
  • White Wine: 3,918/780/200,9个数值特征,0个分类特征

评价指标

  • 鲁棒性分数:基于Spearman相关系数的平均值
  • 邻域大小:过滤后保留的扰动点比例
  • AUC值:基于模型一致性的ROC曲线下面积

对比方法

  • k-NN自定义解释方法
  • 随机森林自定义解释方法
  • 神经网络的DeepLIFT方法
  • 三种方法的聚合结果
  • 附录中与LIME、SHAP的对比

实现细节

  • k-NN: k=15(adult,bank), k=5(其他)
  • 随机森林: 25个基学习器
  • 神经网络: 标准多层感知机
  • 邻域生成: k_M=5, α=0.05, α_cat=0.05
  • 目标邻域保留率: ≥95%

实验结果

主要结果

模型性能

所有模型在各数据集上均达到80%以上准确率(HELOC上k-NN除外为75.51%)。神经网络在复杂数据集上表现最佳,随机森林在简单数据集上表现最好。

鲁棒性对比

平均鲁棒性分数(%):

数据集k-NNRFNN聚合
Adult61.1288.6785.0374.58
Bank52.2773.5278.7465.75
HELOC71.0180.5684.2377.92
Cancer83.3181.0798.4084.93
Wine69.5566.6092.9666.74

结果显示:

  • k-NN方法鲁棒性最低,符合其依赖远距离邻居的特性
  • 神经网络方法鲁棒性最高
  • 聚合方法的鲁棒性介于各组成方法之间,符合理论预期

模型一致性分析

模型预测一致性与邻域大小的关系验证了假设:当三个模型预测一致时,通常能获得更大的邻域规模,表明该区域具有更好的解释鲁棒性。

验证评估

通过ROC分析验证模型一致性与解释鲁棒性的关系:

AUC值对比:

数据集k-NNRFNN聚合
Adult0.44800.54170.69700.5901
Bank0.41280.62570.38610.6097
HELOC0.65730.60490.67480.6095
Cancer0.83970.92120.71200.9212
Wine0.50880.46980.04690.4951

聚合方法在多数情况下表现良好,但k-NN方法在某些场景下效果不佳。

与LIME/SHAP对比

附录结果显示LIME和SHAP的鲁棒性分数远低于0.5阈值,验证了文献中关于这些方法不稳定性的发现,支持了排除它们的决定。

相关工作

XAI领域发展

  • 局部解释方法:LIME、SHAP等模型无关方法
  • 神经网络特定方法:DeepLIFT、Integrated Gradients、LRP等
  • 鲁棒性研究:针对解释方法稳定性的评估和改进

解释聚合研究

  • 之前工作主要集中在单一模型类型的多个实例
  • 本文扩展到不同模型类型的解释聚合

立法驱动需求

  • GDPR的"解释权"要求
  • EU AI法案对高风险应用的透明度要求

结论与讨论

主要结论

  1. 多模型聚合可行性:证明了不同类型模型的解释可以有效聚合
  2. 鲁棒性与一致性关系:验证了模型预测一致性可作为解释可信度的指标
  3. 保守解释策略:聚合方法提供了保守但可信的解释策略

局限性

  1. 聚合方法简单:当前使用算术平均,无法处理复杂的分歧模式
  2. k-NN方法依赖性:对超参数k'敏感,变异性较大
  3. 评估完整性:需要更全面的实际应用场景验证
  4. 模型类型限制:仅测试了三种模型类型

未来方向

作者明确提出四个改进方向:

  1. 开发更复杂的聚合策略处理极端分歧情况
  2. 改进k-NN解释方法减少超参数依赖
  3. 在实际用例中进行更完整的验证评估
  4. 扩展到其他模型类型和XAI方法

深度评价

优点

  1. 问题重要性:解决了XAI领域的关键问题—解释鲁棒性和可信度
  2. 方法创新性
    • 首次提出跨模型类型的解释聚合
    • 新颖的k-NN和RF特征归因方法
    • 系统的鲁棒性评估框架
  3. 实验充分性
    • 多个数据集验证
    • 完整的消融分析
    • 与主流方法的对比
  4. 理论基础:建立了模型一致性与解释鲁棒性的理论联系

不足

  1. 方法局限性
    • 聚合策略过于简单,可能丢失重要信息
    • k-NN方法的理论基础相对薄弱
    • 仅适用于二分类任务
  2. 实验设置
    • 数据集规模相对较小
    • 缺乏真实高风险应用场景的验证
    • 对计算成本的分析不足
  3. 分析深度
    • 对聚合方法失效情况的分析不够深入
    • 缺乏对不同模型类型贡献度的定量分析

影响力

  1. 学术贡献:为XAI鲁棒性研究提供了新思路,特别是多模型聚合方向
  2. 实用价值:为高风险应用中的可信AI提供了实用框架
  3. 可复现性:方法描述清晰,算法实现相对简单

适用场景

  • 高风险决策场景:金融、医疗等需要可解释和可信AI的领域
  • 监管合规:需要满足GDPR等法规要求的应用
  • 模型审计:需要评估AI系统可信度的场景
  • 研究平台:为XAI鲁棒性研究提供基础框架

参考文献

论文引用了XAI领域的重要文献,包括:

  • LIME和SHAP的原始论文及其鲁棒性批评
  • DeepLIFT、Integrated Gradients等神经网络解释方法
  • 相关的鲁棒性评估和解释聚合研究
  • 立法文件如GDPR和EU AI Act

总体评价:这是一篇在XAI鲁棒性研究方向上有重要贡献的论文。虽然方法相对简单,但解决了实际重要问题,为可信AI的发展提供了有价值的工具。论文的主要价值在于开创了跨模型类型解释聚合的研究方向,并提供了系统的评估框架。未来工作的方向明确,为该领域的进一步发展奠定了基础。