2025-11-25T17:22:18.138717

Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events

Vascotto, Blasone, Rodriguez et al.
The usage of eXplainable Artificial Intelligence (XAI) methods has become essential in practical applications, given the increasing deployment of Artificial Intelligence (AI) models and the legislative requirements put forward in the latest years. A fundamental but often underestimated aspect of the explanations is their robustness, a key property that should be satisfied in order to trust the explanations. In this study, we provide some preliminary insights on evaluating the reliability of explanations in the specific case of unbalanced datasets, which are very frequent in high-risk use-cases, but at the same time considerably challenging for both AI models and XAI methods. We propose a simple evaluation focused on the minority class (i.e. the less frequent one) that leverages on-manifold generation of neighbours, explanation aggregation and a metric to test explanation consistency. We present a use-case based on a tabular dataset with numerical features focusing on the occurrence of frost events.
academic

Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events

基本信息

  • 论文ID: 2507.09545
  • 标题: Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events
  • 作者: Ilaria Vascotto, Valentina Blasone, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
  • 分类: cs.LG (机器学习)
  • 发表时间/会议: Late-breaking work, 3rd World Conference on eXplainable Artificial Intelligence (July 09–11, 2025, Istanbul, Turkey)
  • 论文链接: https://arxiv.org/abs/2507.09545

摘要

可解释人工智能(XAI)方法的使用在实际应用中变得至关重要,这得益于人工智能模型的日益部署以及近年来提出的立法要求。解释的鲁棒性是一个基本但经常被低估的方面,是信任解释所应满足的关键属性。本研究在不平衡数据集的特定情况下,对评估解释可靠性提供了一些初步见解。不平衡数据集在高风险用例中非常常见,但同时对AI模型和XAI方法都带来了相当大的挑战。我们提出了一种专注于少数类(即频率较低的类别)的简单评估方法,该方法利用流形上的邻居生成、解释聚合和测试解释一致性的度量。我们基于数值特征的表格数据集,以霜冻事件的发生为用例进行了展示。

研究背景与动机

问题定义

本研究要解决的核心问题是:在不平衡数据集中如何评估XAI解释的可靠性。具体来说,当数据集中少数类样本极少时,传统的解释方法可能产生不可信的结果。

重要性分析

  1. 立法要求:GDPR和AI Act等法规对高风险应用的透明性提出了要求
  2. 实际需求:医疗、气候、欺诈检测等高风险领域经常面临不平衡数据问题
  3. 信任危机:在不平衡数据集上,即使模型达到99%准确率,也可能只是简单预测多数类

现有方法局限性

  1. LIME和SHAP等方法在不平衡数据集上表现出较差的鲁棒性
  2. 缺乏针对性评估:现有方法主要关注整体性能,忽视了少数类的特殊性
  3. 解释不稳定:相似输入可能产生截然不同的解释

研究动机

作者认为在不平衡数据集中,少数类的解释可靠性评估尤为重要,因为:

  • 准确预测稀有事件在高风险应用中至关重要
  • 多数类容易预测,其解释不一定可信
  • 需要专门的方法来评估少数类解释的鲁棒性

核心贡献

  1. 提出了针对不平衡数据集的解释可靠性评估框架,专注于少数类样本
  2. 设计了基于流形的邻居生成方法,确保扰动样本在数据流形上
  3. 引入了一致性度量,通过比较原始解释与局部加权平均解释来评估可靠性
  4. 在真实霜冻预测任务上验证了方法的有效性,该任务具有高度不平衡的特点(99:1)

方法详解

任务定义

给定不平衡数据集 D=(X,y)\mathcal{D} = (X,y),其中 P(y=0)P(y=1)P(y=0) \gg P(y=1)(0为多数类,1为少数类),训练神经网络 f()f(\cdot),目标是评估解释方法 ee 在少数类样本上的可靠性。

模型架构

1. 邻居生成 (Neighbourhood Generation)

采用基于k-medoids聚类的流形上邻居生成:

步骤

  • 对验证集应用k-medoids聚类,获得 kmedoidsk_{medoids} 个簇
  • 每个簇平均大小 nk=10n_k = 10
  • 提取每个簇的medoid作为代表点
  • 对测试样本,找到其对应的medoid及其 knn=5k_{nn}=5 个最近邻

扰动公式x~j=(1λˉ)xj+λˉxMj\tilde{x}_j = (1-\bar{\lambda}) \cdot x_j + \bar{\lambda} \cdot x_{M_j} 其中 λˉBeta(λ100,(1λ)100)\bar{\lambda} \sim Beta(\lambda \cdot 100, (1-\lambda) \cdot 100)

2. 局部平均 (Local Averaging)

对少数类样本计算加权平均解释: eˉ(x)=x~Ne(x~)π(x,x~)x~Nπ(x,x~)\bar{e}(x) = \frac{\sum_{\tilde{x} \in \mathcal{N}} e(\tilde{x}) \cdot \pi(x,\tilde{x})}{\sum_{\tilde{x} \in \mathcal{N}} \pi(x,\tilde{x})} 其中权重 π(x,x~)=1dist(x,x~)\pi(x,\tilde{x}) = \frac{1}{dist(x,\tilde{x})}

3. 可靠性评估

定义两个评估指标:

局部鲁棒性R^(x)=1Nx~Nρ(e(x),e(x~))\hat{\mathcal{R}}(x) = \frac{1}{|\mathcal{N}|} \sum_{\tilde{x} \in \mathcal{N}} \rho(e(x), e(\tilde{x}))

一致性C^(x)=ρ(e(x),eˉ(x))\hat{\mathcal{C}}(x) = \rho(e(x), \bar{e}(x)) 其中 ρ\rho 为Spearman秩相关系数

技术创新点

  1. 流形感知的邻居生成:相比随机高斯噪声,基于medoid的方法能生成更符合数据分布的邻居
  2. 针对少数类的专门评估:专注于最关键但最脆弱的少数类样本
  3. 一致性度量的引入:通过比较原始解释与聚合解释来评估局部一致性
  4. 距离加权的解释聚合:根据样本间距离对解释进行加权平均

实验设置

数据集

霜冻预测数据集

  • 来源:ERA5再分析数据(ECMWF) + 保险公司专有数据
  • 时间跨度:2009-2024年(15年)
  • 地理范围:波兰全境
  • 特征:8个数值化大气变量(标准化处理)
  • 目标:二分类(霜冻发生与否)
  • 不平衡程度:99% vs 1%(高度不平衡)
  • 数据划分:训练集75%、验证集15%、测试集10%(按地区分层)

评价指标

  • 模型性能:F1-score(适合不平衡数据集)
  • 解释可靠性:局部鲁棒性 R^(x)\hat{\mathcal{R}}(x) 和一致性 C^(x)\hat{\mathcal{C}}(x)
  • 相关性度量:Spearman秩相关系数

对比方法

解释方法

  1. Integrated Gradients:基于梯度积分的归因方法
  2. DeepLIFT:基于激活差异传播的方法
  3. Layer-wise Relevance Propagation (LRP):层级相关性传播
  4. Ensemble方法:上述三种方法的加权组合

邻居生成对比

  • 随机高斯噪声生成 vs 基于medoid的流形生成

实现细节

  • 模型架构:5层全连接神经网络,ReLU激活,sigmoid输出
  • 损失函数:Focal Loss (γ=2.5,α=0.75\gamma=2.5, \alpha=0.75)
  • 优化器:RAdam,学习率0.0001
  • 训练设置:100个epoch,批大小256
  • 邻居参数knn=5,λ=0.05k_{nn}=5, \lambda=0.05,邻居大小n=100n=100

实验结果

主要结果

模型性能

数据集多数类F1少数类F1少数类样本数
训练集1.000.66~2,500
验证集1.000.50~450
测试集1.000.51~300

解释方法性能对比

方法鲁棒性 R^(x)\hat{\mathcal{R}}(x)一致性 C^(x)\hat{\mathcal{C}}(x)
Integrated Gradients89.34% (±8.35%)97.56% (±3.58%)
DeepLIFT97.69% (±2.26%)99.40% (±1.51%)
LRP76.77% (±15.70%)89.86% (±19.95%)
Ensemble79.03% (±12.56%)89.20% (±13.73%)

关键发现

  1. 邻居生成方法的重要性:基于medoid的方法相比随机噪声在少数类上表现显著更好
  2. DeepLIFT表现最优:在鲁棒性和一致性两个指标上都取得最高分数和最低标准差
  3. LRP的不稳定性:由于梯度消失问题,LRP表现最不稳定
  4. 少数类的脆弱性:少数类解释比多数类解释更容易受到邻居生成方法的影响

消融实验

通过对比随机邻居生成和基于medoid的邻居生成,证明了:

  • 随机方法在少数类上产生更大的分布偏移
  • 基于medoid的方法能更好地保持数据流形结构
  • 少数类对邻居生成方法的选择更为敏感

相关工作

XAI鲁棒性研究

  • LIME和SHAP的局限性:已有研究表明这些方法在对抗攻击下表现不佳
  • 解释稳定性:现有工作主要关注一般情况下的解释稳定性,缺乏对不平衡数据的专门研究

不平衡学习

  • 传统方法:重采样、代价敏感学习等
  • 深度学习方法:Focal Loss等专门处理不平衡的损失函数
  • 评估挑战:传统评估指标在极度不平衡数据上失效

本文贡献

相比现有工作,本文首次系统性地研究了不平衡数据集中XAI方法的可靠性问题,提出了专门的评估框架。

结论与讨论

主要结论

  1. 不平衡数据集中的解释可靠性是一个重要但被忽视的问题
  2. 少数类解释需要特殊的评估方法,传统方法可能产生误导性结果
  3. 基于流形的邻居生成能显著提高评估的可靠性
  4. DeepLIFT在霜冻预测任务中表现最佳,具有高鲁棒性和一致性

局限性

  1. 方法仍处于初步阶段:需要更多数据集和场景的验证
  2. 仅考虑了表格数据:未涉及图像、文本等其他数据类型
  3. 评估指标的局限性:当前指标可能无法完全捕捉解释质量
  4. 计算开销:为每个样本生成大量邻居增加了计算成本

未来方向

  1. 扩展到不同不平衡比例:研究方法在不同不平衡程度下的表现
  2. 多模态数据:将方法扩展到图像、文本等数据类型
  3. 不确定性分析:结合不确定性量化改进少数类评估
  4. 时空数据:考虑时空维度的特殊性质

深度评价

优点

  1. 问题重要性:关注了XAI领域一个重要但被忽视的问题
  2. 方法创新性:提出了针对性的评估框架,具有理论基础
  3. 实验充分性:在真实场景中验证,具有实际应用价值
  4. 写作清晰度:论文结构清晰,方法描述详细

不足

  1. 实验规模有限:仅在一个数据集上进行了验证,缺乏普适性证明
  2. 理论分析不足:缺乏对方法理论性质的深入分析
  3. 基线方法局限:未与其他专门处理不平衡数据的XAI方法对比
  4. 评估指标单一:主要依赖相关性指标,可能无法全面反映解释质量

影响力

  1. 学术贡献:为XAI在不平衡数据上的应用提供了新思路
  2. 实用价值:对高风险应用中的XAI部署具有指导意义
  3. 可复现性:代码已开源,便于复现和扩展

适用场景

  • 高风险应用:医疗诊断、金融风控、气象预警等
  • 极度不平衡数据:欺诈检测、异常检测、稀有事件预测
  • 监管要求严格的领域:需要可解释AI的行业应用

参考文献

论文引用了XAI领域的重要工作,包括:

  • LIME 3 和 SHAP 4 等经典方法
  • Integrated Gradients 11、DeepLIFT 12、LRP 13 等神经网络解释方法
  • Focal Loss 7 等不平衡学习技术
  • 相关的鲁棒性分析工作 5, 9, 10

总体评价:这是一篇关注重要实际问题的初步研究工作。虽然在实验规模和理论深度上还有提升空间,但为XAI在不平衡数据集上的可靠性评估开辟了新的研究方向,具有较好的应用前景。