2025-11-25T17:22:18.138717

Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events

Vascotto, Blasone, Rodriguez et al.

The usage of eXplainable Artificial Intelligence (XAI) methods has become essential in practical applications, given the increasing deployment of Artificial Intelligence (AI) models and the legislative requirements put forward in the latest years. A fundamental but often underestimated aspect of the explanations is their robustness, a key property that should be satisfied in order to trust the explanations. In this study, we provide some preliminary insights on evaluating the reliability of explanations in the specific case of unbalanced datasets, which are very frequent in high-risk use-cases, but at the same time considerably challenging for both AI models and XAI methods. We propose a simple evaluation focused on the minority class (i.e. the less frequent one) that leverages on-manifold generation of neighbours, explanation aggregation and a metric to test explanation consistency. We present a use-case based on a tabular dataset with numerical features focusing on the occurrence of frost events.

academic

Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events

基本信息

论文ID: 2507.09545
标题: Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events
作者: Ilaria Vascotto, Valentina Blasone, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
分类: cs.LG (机器学习)
发表时间/会议: Late-breaking work, 3rd World Conference on eXplainable Artificial Intelligence (July 09–11, 2025, Istanbul, Turkey)
论文链接: https://arxiv.org/abs/2507.09545

摘要

可解释人工智能(XAI)方法的使用在实际应用中变得至关重要，这得益于人工智能模型的日益部署以及近年来提出的立法要求。解释的鲁棒性是一个基本但经常被低估的方面，是信任解释所应满足的关键属性。本研究在不平衡数据集的特定情况下，对评估解释可靠性提供了一些初步见解。不平衡数据集在高风险用例中非常常见，但同时对AI模型和XAI方法都带来了相当大的挑战。我们提出了一种专注于少数类(即频率较低的类别)的简单评估方法，该方法利用流形上的邻居生成、解释聚合和测试解释一致性的度量。我们基于数值特征的表格数据集，以霜冻事件的发生为用例进行了展示。

研究背景与动机

问题定义

本研究要解决的核心问题是：在不平衡数据集中如何评估XAI解释的可靠性。具体来说，当数据集中少数类样本极少时，传统的解释方法可能产生不可信的结果。

重要性分析

立法要求：GDPR和AI Act等法规对高风险应用的透明性提出了要求
实际需求：医疗、气候、欺诈检测等高风险领域经常面临不平衡数据问题
信任危机：在不平衡数据集上，即使模型达到99%准确率，也可能只是简单预测多数类

现有方法局限性

LIME和SHAP等方法在不平衡数据集上表现出较差的鲁棒性
缺乏针对性评估：现有方法主要关注整体性能，忽视了少数类的特殊性
解释不稳定：相似输入可能产生截然不同的解释

研究动机

作者认为在不平衡数据集中，少数类的解释可靠性评估尤为重要，因为：

准确预测稀有事件在高风险应用中至关重要
多数类容易预测，其解释不一定可信
需要专门的方法来评估少数类解释的鲁棒性

核心贡献

提出了针对不平衡数据集的解释可靠性评估框架，专注于少数类样本
设计了基于流形的邻居生成方法，确保扰动样本在数据流形上
引入了一致性度量，通过比较原始解释与局部加权平均解释来评估可靠性
在真实霜冻预测任务上验证了方法的有效性，该任务具有高度不平衡的特点(99:1)

方法详解

任务定义

给定不平衡数据集 $\mathcal{D} = (X,y)$ ，其中 $P(y=0) \gg P(y=1)$ （0为多数类，1为少数类），训练神经网络 $f(\cdot)$ ，目标是评估解释方法 $e$ 在少数类样本上的可靠性。

模型架构

1. 邻居生成 (Neighbourhood Generation)

采用基于k-medoids聚类的流形上邻居生成：

步骤：

对验证集应用k-medoids聚类，获得 $k_{medoids}$ 个簇
每个簇平均大小 $n_k = 10$
提取每个簇的medoid作为代表点
对测试样本，找到其对应的medoid及其 $k_{nn}=5$ 个最近邻

扰动公式： $\tilde{x}_j = (1-\bar{\lambda}) \cdot x_j + \bar{\lambda} \cdot x_{M_j}$ 其中 $\bar{\lambda} \sim Beta(\lambda \cdot 100, (1-\lambda) \cdot 100)$

2. 局部平均 (Local Averaging)

对少数类样本计算加权平均解释： $\bar{e}(x) = \frac{\sum_{\tilde{x} \in \mathcal{N}} e(\tilde{x}) \cdot \pi(x,\tilde{x})}{\sum_{\tilde{x} \in \mathcal{N}} \pi(x,\tilde{x})}$ 其中权重 $\pi(x,\tilde{x}) = \frac{1}{dist(x,\tilde{x})}$

3. 可靠性评估

定义两个评估指标：

局部鲁棒性： $\hat{\mathcal{R}}(x) = \frac{1}{|\mathcal{N}|} \sum_{\tilde{x} \in \mathcal{N}} \rho(e(x), e(\tilde{x}))$

一致性： $\hat{\mathcal{C}}(x) = \rho(e(x), \bar{e}(x))$ 其中 $\rho$ 为Spearman秩相关系数

技术创新点

流形感知的邻居生成：相比随机高斯噪声，基于medoid的方法能生成更符合数据分布的邻居
针对少数类的专门评估：专注于最关键但最脆弱的少数类样本
一致性度量的引入：通过比较原始解释与聚合解释来评估局部一致性
距离加权的解释聚合：根据样本间距离对解释进行加权平均

实验设置

数据集

霜冻预测数据集：

来源：ERA5再分析数据(ECMWF) + 保险公司专有数据
时间跨度：2009-2024年(15年)
地理范围：波兰全境
特征：8个数值化大气变量(标准化处理)
目标：二分类(霜冻发生与否)
不平衡程度：99% vs 1%(高度不平衡)
数据划分：训练集75%、验证集15%、测试集10%(按地区分层)

评价指标

模型性能：F1-score(适合不平衡数据集)
解释可靠性：局部鲁棒性 $\hat{\mathcal{R}}(x)$ 和一致性 $\hat{\mathcal{C}}(x)$
相关性度量：Spearman秩相关系数

对比方法

解释方法：

Integrated Gradients：基于梯度积分的归因方法
DeepLIFT：基于激活差异传播的方法
Layer-wise Relevance Propagation (LRP)：层级相关性传播
Ensemble方法：上述三种方法的加权组合

邻居生成对比：

随机高斯噪声生成 vs 基于medoid的流形生成

实现细节

模型架构：5层全连接神经网络，ReLU激活，sigmoid输出
损失函数：Focal Loss ( $\gamma=2.5, \alpha=0.75$ )
优化器：RAdam，学习率0.0001
训练设置：100个epoch，批大小256
邻居参数： $k_{nn}=5, \lambda=0.05$ ，邻居大小 $n=100$

数据集	多数类F1	少数类F1	少数类样本数
训练集	1.00	0.66	~2,500
验证集	1.00	0.50	~450
测试集	1.00	0.51	~300

解释方法性能对比

方法	鲁棒性 $\hat{\mathcal{R}}(x)$	一致性 $\hat{\mathcal{C}}(x)$
Integrated Gradients	89.34% (±8.35%)	97.56% (±3.58%)
DeepLIFT	97.69% (±2.26%)	99.40% (±1.51%)
LRP	76.77% (±15.70%)	89.86% (±19.95%)
Ensemble	79.03% (±12.56%)	89.20% (±13.73%)