2025-11-25T17:22:18.138717

Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events

Vascotto, Blasone, Rodriguez et al.

The usage of eXplainable Artificial Intelligence (XAI) methods has become essential in practical applications, given the increasing deployment of Artificial Intelligence (AI) models and the legislative requirements put forward in the latest years. A fundamental but often underestimated aspect of the explanations is their robustness, a key property that should be satisfied in order to trust the explanations. In this study, we provide some preliminary insights on evaluating the reliability of explanations in the specific case of unbalanced datasets, which are very frequent in high-risk use-cases, but at the same time considerably challenging for both AI models and XAI methods. We propose a simple evaluation focused on the minority class (i.e. the less frequent one) that leverages on-manifold generation of neighbours, explanation aggregation and a metric to test explanation consistency. We present a use-case based on a tabular dataset with numerical features focusing on the occurrence of frost events.

academic

Оценка надежности объяснений в несбалансированных наборах данных: применение к прогнозированию морозных событий

Основная информация

ID статьи: 2507.09545
Название: Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events
Авторы: Ilaria Vascotto, Valentina Blasone, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
Классификация: cs.LG (машинное обучение)
Время публикации/конференция: Работа с поздним сроком подачи, 3-я Всемирная конференция по объяснимому искусственному интеллекту (9–11 июля 2025 г., Стамбул, Турция)
Ссылка на статью: https://arxiv.org/abs/2507.09545

Аннотация

Использование методов объяснимого искусственного интеллекта (XAI) становится критически важным в практических приложениях благодаря растущему развертыванию моделей ИИ и законодательным требованиям, предложенным в последние годы. Робастность объяснений является фундаментальным, но часто недооцениваемым аспектом, являющимся ключевым свойством, которое должны удовлетворять надежные объяснения. Данное исследование предоставляет предварительные сведения об оценке надежности объяснений в конкретном случае несбалансированных наборов данных. Несбалансированные наборы данных очень распространены в высокорисковых вариантах использования, но одновременно представляют значительные вызовы как для моделей ИИ, так и для методов XAI. Мы предлагаем простой метод оценки, сосредоточенный на меньшинстве классов (т.е. классах с более низкой частотой), который использует генерацию соседей на многообразии, агрегацию объяснений и метрику для проверки согласованности объяснений. Мы демонстрируем это на табличном наборе данных с числовыми признаками, используя в качестве примера прогнозирование возникновения морозных событий.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование: как оценить надежность объяснений XAI в несбалансированных наборах данных. Конкретно, когда в наборе данных очень мало образцов меньшинства, традиционные методы объяснения могут давать ненадежные результаты.

Анализ важности

Законодательные требования: Нормативные акты, такие как GDPR и AI Act, требуют прозрачности для высокорисковых приложений
Практические потребности: Высокорисковые области, такие как здравоохранение, климатология и обнаружение мошенничества, часто сталкиваются с проблемой несбалансированных данных
Кризис доверия: На несбалансированных наборах данных, даже если модель достигает 99% точности, она может просто предсказывать класс большинства

Ограничения существующих методов

Методы LIME и SHAP демонстрируют плохую робастность на несбалансированных наборах данных
Отсутствие целевой оценки: Существующие методы в основном сосредоточены на общей производительности, игнорируя особенности класса меньшинства
Нестабильность объяснений: Похожие входные данные могут давать совершенно разные объяснения

Исследовательская мотивация

Авторы считают, что оценка надежности объяснений класса меньшинства в несбалансированных наборах данных особенно важна, потому что:

Точное прогнозирование редких событий критично в высокорисковых приложениях
Класс большинства легко предсказывается, его объяснения не обязательно надежны
Необходимы специальные методы для оценки робастности объяснений класса меньшинства

Основные вклады

Предложена структура оценки надежности объяснений для несбалансированных наборов данных, сосредоточенная на образцах класса меньшинства
Разработан метод генерации соседей на основе многообразия, обеспечивающий нахождение возмущенных образцов на многообразии данных
Введена метрика согласованности, оценивающая надежность путем сравнения исходного объяснения с локально взвешенным средним объяснением
Метод проверен на реальной задаче прогнозирования морозов, которая характеризуется высокой степенью несбалансированности (99:1)

Подробное описание методики

Определение задачи

Дан несбалансированный набор данных $\mathcal{D} = (X,y)$ , где $P(y=0) \gg P(y=1)$ (0 — класс большинства, 1 — класс меньшинства), обучена нейронная сеть $f(\cdot)$ , целью является оценка надежности метода объяснения $e$ на образцах класса меньшинства.

Архитектура модели

1. Генерация соседей (Neighbourhood Generation)

Использует генерацию соседей на многообразии на основе кластеризации k-medoids:

Шаги:

Применить k-medoids кластеризацию к набору валидации, получить $k_{medoids}$ кластеров
Средний размер каждого кластера $n_k = 10$
Извлечь medoid каждого кластера в качестве репрезентативной точки
Для тестового образца найти соответствующий medoid и его $k_{nn}=5$ ближайших соседей

Формула возмущения: $\tilde{x}_j = (1-\bar{\lambda}) \cdot x_j + \bar{\lambda} \cdot x_{M_j}$ где $\bar{\lambda} \sim Beta(\lambda \cdot 100, (1-\lambda) \cdot 100)$

2. Локальное усреднение (Local Averaging)

Вычисление взвешенного среднего объяснения для образцов класса меньшинства: $\bar{e}(x) = \frac{\sum_{\tilde{x} \in \mathcal{N}} e(\tilde{x}) \cdot \pi(x,\tilde{x})}{\sum_{\tilde{x} \in \mathcal{N}} \pi(x,\tilde{x})}$ где вес $\pi(x,\tilde{x}) = \frac{1}{dist(x,\tilde{x})}$

3. Оценка надежности

Определены две метрики оценки:

Локальная робастность: $\hat{\mathcal{R}}(x) = \frac{1}{|\mathcal{N}|} \sum_{\tilde{x} \in \mathcal{N}} \rho(e(x), e(\tilde{x}))$

Согласованность: $\hat{\mathcal{C}}(x) = \rho(e(x), \bar{e}(x))$ где $\rho$ — коэффициент ранговой корреляции Спирмена

Технические инновации

Генерация соседей с учетом многообразия: По сравнению со случайным гауссовским шумом, метод на основе medoid генерирует соседей, более соответствующих распределению данных
Специальная оценка для класса меньшинства: Сосредоточение на наиболее критичных, но наиболее хрупких образцах класса меньшинства
Введение метрики согласованности: Оценка локальной согласованности путем сравнения исходного объяснения с агрегированным объяснением
Взвешенное по расстоянию агрегирование объяснений: Взвешенное усреднение объяснений в соответствии с расстояниями между образцами

Экспериментальная установка

Набор данных

Набор данных для прогнозирования морозов:

Источник: Данные переанализа ERA5 (ECMWF) + собственные данные страховой компании
Временной диапазон: 2009–2024 годы (15 лет)
Географический охват: Вся территория Польши
Признаки: 8 числовых атмосферных переменных (нормализованные)
Целевая переменная: Бинарная классификация (наличие/отсутствие морозов)
Степень несбалансированности: 99% против 1% (высокая степень несбалансированности)
Разделение данных: Обучающий набор 75%, валидационный набор 15%, тестовый набор 10% (стратифицированное по регионам)

Метрики оценки

Производительность модели: F1-score (подходит для несбалансированных наборов данных)
Надежность объяснений: Локальная робастность $\hat{\mathcal{R}}(x)$ и согласованность $\hat{\mathcal{C}}(x)$
Метрика корреляции: Коэффициент ранговой корреляции Спирмена

Методы сравнения

Методы объяснения:

Integrated Gradients: Метод атрибуции на основе интеграла градиентов
DeepLIFT: Метод на основе распространения разностей активаций
Layer-wise Relevance Propagation (LRP): Послойное распространение релевантности
Ансамблевый метод: Взвешенная комбинация трех вышеупомянутых методов

Сравнение методов генерации соседей:

Генерация со случайным гауссовским шумом против генерации на основе medoid на многообразии

Детали реализации

Архитектура модели: 5-слойная полносвязная нейронная сеть, активация ReLU, выход sigmoid
Функция потерь: Focal Loss ( $\gamma=2.5, \alpha=0.75$ )
Оптимизатор: RAdam, скорость обучения 0.0001
Параметры обучения: 100 эпох, размер батча 256
Параметры соседей: $k_{nn}=5, \lambda=0.05$ , размер соседства $n=100$

Результаты экспериментов

Основные результаты

Производительность модели

Набор данных	F1 класса большинства	F1 класса меньшинства	Количество образцов класса меньшинства
Обучающий набор	1.00	0.66	~2,500
Валидационный набор	1.00	0.50	~450
Тестовый набор	1.00	0.51	~300

Сравнение производительности методов объяснения

Метод	Робастность $\hat{\mathcal{R}}(x)$	Согласованность $\hat{\mathcal{C}}(x)$
Integrated Gradients	89.34% (±8.35%)	97.56% (±3.58%)
DeepLIFT	97.69% (±2.26%)	99.40% (±1.51%)
LRP	76.77% (±15.70%)	89.86% (±19.95%)
Ансамбль	79.03% (±12.56%)	89.20% (±13.73%)

Ключевые находки

Важность метода генерации соседей: Метод на основе medoid показывает значительно лучшие результаты на классе меньшинства по сравнению со случайным шумом
Оптимальная производительность DeepLIFT: Достигает наивысших баллов и наименьшего стандартного отклонения по обеим метрикам робастности и согласованности
Нестабильность LRP: Из-за проблемы исчезающего градиента LRP показывает наиболее нестабильные результаты
Хрупкость класса меньшинства: Объяснения класса меньшинства более подвержены влиянию выбора метода генерации соседей

Абляционные эксперименты

Путем сравнения генерации случайных соседей и генерации соседей на основе medoid доказано, что:

Случайный метод вызывает большее смещение распределения на классе меньшинства
Метод на основе medoid лучше сохраняет структуру многообразия данных
Класс меньшинства более чувствителен к выбору метода генерации соседей

Связанные работы

Исследования робастности XAI

Ограничения LIME и SHAP: Существующие исследования показывают плохую производительность этих методов при противодействующих атаках
Стабильность объяснений: Существующие работы в основном сосредоточены на стабильности объяснений в общих случаях, отсутствует специальное исследование для несбалансированных данных

Обучение на несбалансированных данных

Традиционные методы: Переборка, обучение с учетом стоимости и т.д.
Методы глубокого обучения: Функции потерь, специально разработанные для несбалансированных данных, такие как Focal Loss
Проблемы оценки: Традиционные метрики оценки неэффективны на крайне несбалансированных данных

Вклад данной работы

По сравнению с существующими работами, данная статья впервые систематически исследует проблему надежности методов XAI на несбалансированных наборах данных и предлагает специальную структуру оценки.

Выводы и обсуждение

Основные выводы

Надежность объяснений в несбалансированных наборах данных — это важная, но часто игнорируемая проблема
Объяснения класса меньшинства требуют специальных методов оценки, традиционные методы могут давать вводящие в заблуждение результаты
Генерация соседей на основе многообразия может значительно повысить надежность оценки
DeepLIFT показывает лучшую производительность в задаче прогнозирования морозов с высокой робастностью и согласованностью

Ограничения

Метод все еще находится на предварительной стадии: Требуется проверка на большем количестве наборов данных и сценариев
Рассматриваются только табличные данные: Не охватывает изображения, текст и другие типы данных
Ограничения метрик оценки: Текущие метрики могут не полностью отражать качество объяснений
Вычислительные затраты: Генерация большого количества соседей для каждого образца увеличивает вычислительные расходы

Направления будущих исследований

Расширение на различные степени несбалансированности: Исследование производительности метода при различных уровнях несбалансированности
Мультимодальные данные: Расширение метода на изображения, текст и другие типы данных
Анализ неопределенности: Улучшение оценки класса меньшинства путем интеграции квантификации неопределенности
Пространственно-временные данные: Учет особенностей пространственно-временного измерения

Глубокая оценка

Преимущества

Важность проблемы: Обращает внимание на важную, но часто игнорируемую проблему в области XAI
Инновационность метода: Предлагает целевую структуру оценки с теоретической основой
Полнота экспериментов: Проверка на реальных сценариях с практической ценностью применения
Ясность изложения: Четкая структура статьи с подробным описанием методики

Недостатки

Ограниченный масштаб экспериментов: Проверка только на одном наборе данных, отсутствует доказательство универсальности
Недостаточный теоретический анализ: Отсутствует глубокий анализ теоретических свойств метода
Ограниченность базовых методов: Отсутствует сравнение с другими методами XAI, специально разработанными для несбалансированных данных
Единственность метрик оценки: В основном опирается на метрики корреляции, которые могут не полностью отражать качество объяснений

Влияние

Академический вклад: Предоставляет новые идеи для применения XAI на несбалансированных данных
Практическая ценность: Имеет руководящее значение для развертывания XAI в высокорисковых приложениях
Воспроизводимость: Код открыт, что облегчает воспроизведение и расширение

Применимые сценарии

Высокорисковые приложения: Медицинская диагностика, финансовый контроль рисков, метеорологические предупреждения и т.д.
Крайне несбалансированные данные: Обнаружение мошенничества, обнаружение аномалий, прогнозирование редких событий
Области со строгими нормативными требованиями: Отрасли, требующие объяснимого ИИ

Библиография

Статья ссылается на важные работы в области XAI, включая:

Классические методы LIME 3 и SHAP 4
Методы объяснения нейронных сетей Integrated Gradients 11, DeepLIFT 12, LRP 13
Технологии обучения на несбалансированных данных, такие как Focal Loss 7
Связанные работы по анализу робастности 5, 9, 10

Общая оценка: Это предварительная исследовательская работа, обращающая внимание на важную практическую проблему. Хотя существует место для улучшения в масштабе экспериментов и глубине теоретического анализа, работа открывает новое направление исследований в области оценки надежности XAI на несбалансированных наборах данных и имеет хорошие перспективы практического применения.