2025-11-20T00:01:14.681107

When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

Vascotto, Rodriguez, Bonaita et al.
Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.
academic

When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

基本信息

  • 论文ID: 2406.14349
  • 标题: When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
  • 作者: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • 分类: cs.LG (Machine Learning)
  • 发表时间: 2024年6月 (arXiv预印本,2025年4月更新)
  • 论文链接: https://arxiv.org/abs/2406.14349

摘要

随着人工智能法规的不断完善,对可解释人工智能(XAI)的需求日益增长。然而,缺乏标准化的解释方法验证标准仍是开发可信系统的主要障碍。本文针对XAI中经常被忽视但至关重要的解释鲁棒性问题,提出了一种新颖的分析方法来评估神经网络解释对非对抗性扰动的鲁棒性。该方法利用流形假设生成符合观察数据分布的扰动数据点,并提出了一种集成方法来聚合多种解释,展示了合并解释对理解模型决策和评估鲁棒性的益处。

研究背景与动机

问题背景

  1. 法规要求: 欧盟AI法案和GDPR等法规强调了AI系统透明度和可解释性的重要性
  2. 黑盒困境: 现代AI系统由于参数众多而呈现黑盒特性,缺乏透明度
  3. 解释方法的不稳定性: 现有XAI方法如LIME和SHAP存在固有的不稳定性问题
  4. 标准化缺失: 缺乏验证解释方法的标准化准则

研究动机

  • 鲁棒性评估: 解释的鲁棒性是确保系统和解释可信度的核心要素
  • 实用性需求: 为从业者提供评估模型解释可信度的实用框架
  • 解释分歧问题: 解决多种解释方法应用于同一数据点时产生冲突结果的问题

核心贡献

  1. 鲁棒性估计器: 提出了一套理想的鲁棒性估计器应满足的性质,并证明所提方法满足所有这些性质
  2. 解释集成方法: 针对神经网络解释的分歧问题,提出了基于特征排序的解释集成方法
  3. 非对抗性扰动框架: 引入了测试解释对非对抗性扰动鲁棒性的框架,并评估其在实际应用中的可信度
  4. 验证评估方法: 提出了新颖的鲁棒性估计验证评估方法,解决缺乏真实标准的问题

方法详解

任务定义

给定表格数据集D = (X,y),包含N个数据点和m个特征,任务是评估应用于神经网络f的解释方法e的鲁棒性,其中解释以特征重要性向量的形式呈现。

鲁棒性估计器

核心定义

鲁棒性定义为解释方法在输入被修改时提供一致解释的能力:

x → x̃, e(x) → e(x̃) ⟹ r(x,e) = g(x,x̃,e)

六大性质

论文提出鲁棒性估计器应满足的六个关键性质:

  1. Property 1: 鲁棒性是个体鲁棒性的期望
  2. Property 2: 邻近点的鲁棒性分数相近
  3. Property 3: 估计中包含不确定性
  4. Property 4: 流形上扰动比流形外扰动具有更高鲁棒性
  5. Property 5: 聚合解释器的鲁棒性有界
  6. Property 6: 等价模型的解释具有相似鲁棒性

鲁棒性计算

使用Spearman秩相关系数计算鲁棒性:

R̂(xi,Ni,e,f) = (1/|Ni|) ∑(x̃i∈Ni) ρ(e(xi,f), e(x̃i,f))

邻域生成机制

随机邻域(NR)

  • 数值变量:添加高斯白噪声
  • 分类变量:随机翻转

基于中心点的邻域(NM)

利用流形假设的更精细机制:

  1. 对验证集进行k-中心点聚类
  2. 为每个聚类中心找到kM个最近邻中心
  3. 使用Beta分布进行插值扰动

集成方法

提出基于特征排序的加权平均集成:

a(i,j)ens = (∑L l=1 r(i,j)l · w(i,j)l) / (∑L l=1 w(i,j)l) · (1 + λn̄(i,j))

其中包含符号不一致的惩罚项,权重方案考虑了特征重要性的相对大小。

可信度评估框架

使用k近邻回归器预测局部鲁棒性,将数据点分为三类:

  1. 鲁棒点: R̂(xi) ≥ rth 且 Rknn(xi) ≥ rth
  2. 不确定点: R̂(xi) ≥ rth 但 Rknn(xi) < rth
  3. 非鲁棒点: R̂(xi) < rth

实验设置

数据集

使用8个公开表格数据集:

  • 玩具数据集: beans, cancer, mushroom, white wine
  • 实际数据集: adult, bank marketing, heloc, ocean

XAI方法

专注于神经网络特定的方法:

  • DeepLIFT: 基于参考点差异计算特征重要性
  • Integrated Gradients: 沿基线到输入的路径积分梯度
  • Layer-wise Relevance Propagation (LRP): 基于反向传播的相关性传播

验证策略

使用三个具有相似准确性但不同架构的神经网络进行验证,通过ROC/AUC分析评估鲁棒性估计的有效性。

实验结果

主要发现

邻域生成效果

  • 基于中心点的邻域(NM)比随机邻域(NR)产生更高的鲁棒性分数
  • NM方法生成的扰动更符合数据流形,验证了Property 4

集成方法优势

  • 集成解释的鲁棒性作为个体方法鲁棒性的保守估计
  • 能够考虑个体方法的鲁棒性和特征级一致性
  • 相比简单平均方法,提供更可靠的解释

可信度分类结果

在rth = 0.80阈值下:

  • 大多数数据集中鲁棒点占多数
  • 不确定点和非鲁棒点比例不可忽略
  • mushroom数据集由于三个模型都达到100%准确率而呈现特殊情况

验证分析

ROC/AUC分析显示:

  • 集成方法配合基于中心点邻域在大多数数据集上表现最佳
  • 非鲁棒点中模型预测不一致的比例普遍高于鲁棒点
  • 支持了使用模型预测一致性作为鲁棒性验证指标的假设

相关工作

XAI方法局限性

  • LIME: 由于邻域生成的随机性而天然不稳定
  • SHAP: 受特征相关性、采样变异性和数据分布偏移影响
  • 梯度方法: 虽然比扰动方法更鲁棒,但仍存在不稳定性

鲁棒性评估方法

  • 对抗攻击: 关注恶意操纵解释的攻击
  • 随机扰动: 评估固有弱点
  • 模型操纵: 通过修改损失函数等方式影响解释

现有度量方法

包括秩序相关性、top-k交集、规则匹配等,但缺乏统一的有界度量标准。

结论与讨论

主要结论

  1. 提出的鲁棒性估计器满足所有理论性质,提供0,1范围内的有界度量
  2. 基于流形的邻域生成比随机扰动更适合评估真实鲁棒性
  3. 集成方法能有效处理解释分歧问题,提供更可靠的解释
  4. 框架能识别不确定区域的数据点,提高实际应用的可信度

局限性

  1. 计算复杂度: 需要为每个数据点、每个扰动、每个方法进行网络传递
  2. 参数敏感性: 邻域生成和阈值选择需要仔细调优
  3. 验证假设: 依赖模型预测一致性作为鲁棒性代理指标的假设可能不总是成立

未来方向

  1. 模型泛化: 扩展到树基模型等其他机器学习模型
  2. 对抗鲁棒性: 研究与对抗攻击的关系及防御能力
  3. 分类器鲁棒性: 探索如何利用解释提高分类器鲁棒性

深度评价

优点

  1. 理论严谨: 提出完整的鲁棒性估计器理论框架,包含六个明确定义的性质
  2. 方法创新: 基于流形假设的邻域生成和考虑符号一致性的集成方法具有新颖性
  3. 实用价值: 提供完整的可信度评估流程,对实际应用具有指导意义
  4. 实验全面: 在多个数据集上进行充分实验,包含消融研究和验证分析

不足

  1. 计算开销: 方法的计算复杂度较高,可能限制大规模应用
  2. 参数依赖: 多个超参数需要调优,增加了方法的复杂性
  3. 验证局限: 缺乏真实标准的验证方法仍有改进空间
  4. 适用范围: 主要针对表格数据和神经网络,泛化性有待验证

影响力

  1. 学术贡献: 为XAI鲁棒性评估提供了系统性的理论和方法框架
  2. 实践指导: 为从业者提供了评估解释可信度的具体工具
  3. 标准化推进: 有助于建立XAI方法评估的标准化准则

适用场景

  • 高风险AI应用场景的解释验证
  • 需要多种XAI方法比较和选择的场合
  • 对解释可信度有严格要求的监管环境
  • 表格数据的神经网络解释分析

参考文献

论文引用了XAI领域的重要工作,包括LIME、SHAP等经典方法,以及近年来在解释鲁棒性、对抗攻击等方面的前沿研究,为本研究提供了坚实的理论基础。