The usage of eXplainable Artificial Intelligence (XAI) methods has become essential in practical applications, given the increasing deployment of Artificial Intelligence (AI) models and the legislative requirements put forward in the latest years. A fundamental but often underestimated aspect of the explanations is their robustness, a key property that should be satisfied in order to trust the explanations. In this study, we provide some preliminary insights on evaluating the reliability of explanations in the specific case of unbalanced datasets, which are very frequent in high-risk use-cases, but at the same time considerably challenging for both AI models and XAI methods. We propose a simple evaluation focused on the minority class (i.e. the less frequent one) that leverages on-manifold generation of neighbours, explanation aggregation and a metric to test explanation consistency. We present a use-case based on a tabular dataset with numerical features focusing on the occurrence of frost events.
- ID статьи: 2507.09545
- Название: Assessing reliability of explanations in unbalanced datasets: a use-case on the occurrence of frost events
- Авторы: Ilaria Vascotto, Valentina Blasone, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
- Классификация: cs.LG (машинное обучение)
- Время публикации/конференция: Работа с поздним сроком подачи, 3-я Всемирная конференция по объяснимому искусственному интеллекту (9–11 июля 2025 г., Стамбул, Турция)
- Ссылка на статью: https://arxiv.org/abs/2507.09545
Использование методов объяснимого искусственного интеллекта (XAI) становится критически важным в практических приложениях благодаря растущему развертыванию моделей ИИ и законодательным требованиям, предложенным в последние годы. Робастность объяснений является фундаментальным, но часто недооцениваемым аспектом, являющимся ключевым свойством, которое должны удовлетворять надежные объяснения. Данное исследование предоставляет предварительные сведения об оценке надежности объяснений в конкретном случае несбалансированных наборов данных. Несбалансированные наборы данных очень распространены в высокорисковых вариантах использования, но одновременно представляют значительные вызовы как для моделей ИИ, так и для методов XAI. Мы предлагаем простой метод оценки, сосредоточенный на меньшинстве классов (т.е. классах с более низкой частотой), который использует генерацию соседей на многообразии, агрегацию объяснений и метрику для проверки согласованности объяснений. Мы демонстрируем это на табличном наборе данных с числовыми признаками, используя в качестве примера прогнозирование возникновения морозных событий.
Основная проблема, которую решает данное исследование: как оценить надежность объяснений XAI в несбалансированных наборах данных. Конкретно, когда в наборе данных очень мало образцов меньшинства, традиционные методы объяснения могут давать ненадежные результаты.
- Законодательные требования: Нормативные акты, такие как GDPR и AI Act, требуют прозрачности для высокорисковых приложений
- Практические потребности: Высокорисковые области, такие как здравоохранение, климатология и обнаружение мошенничества, часто сталкиваются с проблемой несбалансированных данных
- Кризис доверия: На несбалансированных наборах данных, даже если модель достигает 99% точности, она может просто предсказывать класс большинства
- Методы LIME и SHAP демонстрируют плохую робастность на несбалансированных наборах данных
- Отсутствие целевой оценки: Существующие методы в основном сосредоточены на общей производительности, игнорируя особенности класса меньшинства
- Нестабильность объяснений: Похожие входные данные могут давать совершенно разные объяснения
Авторы считают, что оценка надежности объяснений класса меньшинства в несбалансированных наборах данных особенно важна, потому что:
- Точное прогнозирование редких событий критично в высокорисковых приложениях
- Класс большинства легко предсказывается, его объяснения не обязательно надежны
- Необходимы специальные методы для оценки робастности объяснений класса меньшинства
- Предложена структура оценки надежности объяснений для несбалансированных наборов данных, сосредоточенная на образцах класса меньшинства
- Разработан метод генерации соседей на основе многообразия, обеспечивающий нахождение возмущенных образцов на многообразии данных
- Введена метрика согласованности, оценивающая надежность путем сравнения исходного объяснения с локально взвешенным средним объяснением
- Метод проверен на реальной задаче прогнозирования морозов, которая характеризуется высокой степенью несбалансированности (99:1)
Дан несбалансированный набор данных D=(X,y), где P(y=0)≫P(y=1) (0 — класс большинства, 1 — класс меньшинства), обучена нейронная сеть f(⋅), целью является оценка надежности метода объяснения e на образцах класса меньшинства.
Использует генерацию соседей на многообразии на основе кластеризации k-medoids:
Шаги:
- Применить k-medoids кластеризацию к набору валидации, получить kmedoids кластеров
- Средний размер каждого кластера nk=10
- Извлечь medoid каждого кластера в качестве репрезентативной точки
- Для тестового образца найти соответствующий medoid и его knn=5 ближайших соседей
Формула возмущения:
x~j=(1−λˉ)⋅xj+λˉ⋅xMj
где λˉ∼Beta(λ⋅100,(1−λ)⋅100)
Вычисление взвешенного среднего объяснения для образцов класса меньшинства:
eˉ(x)=∑x~∈Nπ(x,x~)∑x~∈Ne(x~)⋅π(x,x~)
где вес π(x,x~)=dist(x,x~)1
Определены две метрики оценки:
Локальная робастность:
R^(x)=∣N∣1∑x~∈Nρ(e(x),e(x~))
Согласованность:
C^(x)=ρ(e(x),eˉ(x))
где ρ — коэффициент ранговой корреляции Спирмена
- Генерация соседей с учетом многообразия: По сравнению со случайным гауссовским шумом, метод на основе medoid генерирует соседей, более соответствующих распределению данных
- Специальная оценка для класса меньшинства: Сосредоточение на наиболее критичных, но наиболее хрупких образцах класса меньшинства
- Введение метрики согласованности: Оценка локальной согласованности путем сравнения исходного объяснения с агрегированным объяснением
- Взвешенное по расстоянию агрегирование объяснений: Взвешенное усреднение объяснений в соответствии с расстояниями между образцами
Набор данных для прогнозирования морозов:
- Источник: Данные переанализа ERA5 (ECMWF) + собственные данные страховой компании
- Временной диапазон: 2009–2024 годы (15 лет)
- Географический охват: Вся территория Польши
- Признаки: 8 числовых атмосферных переменных (нормализованные)
- Целевая переменная: Бинарная классификация (наличие/отсутствие морозов)
- Степень несбалансированности: 99% против 1% (высокая степень несбалансированности)
- Разделение данных: Обучающий набор 75%, валидационный набор 15%, тестовый набор 10% (стратифицированное по регионам)
- Производительность модели: F1-score (подходит для несбалансированных наборов данных)
- Надежность объяснений: Локальная робастность R^(x) и согласованность C^(x)
- Метрика корреляции: Коэффициент ранговой корреляции Спирмена
Методы объяснения:
- Integrated Gradients: Метод атрибуции на основе интеграла градиентов
- DeepLIFT: Метод на основе распространения разностей активаций
- Layer-wise Relevance Propagation (LRP): Послойное распространение релевантности
- Ансамблевый метод: Взвешенная комбинация трех вышеупомянутых методов
Сравнение методов генерации соседей:
- Генерация со случайным гауссовским шумом против генерации на основе medoid на многообразии
- Архитектура модели: 5-слойная полносвязная нейронная сеть, активация ReLU, выход sigmoid
- Функция потерь: Focal Loss (γ=2.5,α=0.75)
- Оптимизатор: RAdam, скорость обучения 0.0001
- Параметры обучения: 100 эпох, размер батча 256
- Параметры соседей: knn=5,λ=0.05, размер соседства n=100
| Набор данных | F1 класса большинства | F1 класса меньшинства | Количество образцов класса меньшинства |
|---|
| Обучающий набор | 1.00 | 0.66 | ~2,500 |
| Валидационный набор | 1.00 | 0.50 | ~450 |
| Тестовый набор | 1.00 | 0.51 | ~300 |
| Метод | Робастность R^(x) | Согласованность C^(x) |
|---|
| Integrated Gradients | 89.34% (±8.35%) | 97.56% (±3.58%) |
| DeepLIFT | 97.69% (±2.26%) | 99.40% (±1.51%) |
| LRP | 76.77% (±15.70%) | 89.86% (±19.95%) |
| Ансамбль | 79.03% (±12.56%) | 89.20% (±13.73%) |
- Важность метода генерации соседей: Метод на основе medoid показывает значительно лучшие результаты на классе меньшинства по сравнению со случайным шумом
- Оптимальная производительность DeepLIFT: Достигает наивысших баллов и наименьшего стандартного отклонения по обеим метрикам робастности и согласованности
- Нестабильность LRP: Из-за проблемы исчезающего градиента LRP показывает наиболее нестабильные результаты
- Хрупкость класса меньшинства: Объяснения класса меньшинства более подвержены влиянию выбора метода генерации соседей
Путем сравнения генерации случайных соседей и генерации соседей на основе medoid доказано, что:
- Случайный метод вызывает большее смещение распределения на классе меньшинства
- Метод на основе medoid лучше сохраняет структуру многообразия данных
- Класс меньшинства более чувствителен к выбору метода генерации соседей
- Ограничения LIME и SHAP: Существующие исследования показывают плохую производительность этих методов при противодействующих атаках
- Стабильность объяснений: Существующие работы в основном сосредоточены на стабильности объяснений в общих случаях, отсутствует специальное исследование для несбалансированных данных
- Традиционные методы: Переборка, обучение с учетом стоимости и т.д.
- Методы глубокого обучения: Функции потерь, специально разработанные для несбалансированных данных, такие как Focal Loss
- Проблемы оценки: Традиционные метрики оценки неэффективны на крайне несбалансированных данных
По сравнению с существующими работами, данная статья впервые систематически исследует проблему надежности методов XAI на несбалансированных наборах данных и предлагает специальную структуру оценки.
- Надежность объяснений в несбалансированных наборах данных — это важная, но часто игнорируемая проблема
- Объяснения класса меньшинства требуют специальных методов оценки, традиционные методы могут давать вводящие в заблуждение результаты
- Генерация соседей на основе многообразия может значительно повысить надежность оценки
- DeepLIFT показывает лучшую производительность в задаче прогнозирования морозов с высокой робастностью и согласованностью
- Метод все еще находится на предварительной стадии: Требуется проверка на большем количестве наборов данных и сценариев
- Рассматриваются только табличные данные: Не охватывает изображения, текст и другие типы данных
- Ограничения метрик оценки: Текущие метрики могут не полностью отражать качество объяснений
- Вычислительные затраты: Генерация большого количества соседей для каждого образца увеличивает вычислительные расходы
- Расширение на различные степени несбалансированности: Исследование производительности метода при различных уровнях несбалансированности
- Мультимодальные данные: Расширение метода на изображения, текст и другие типы данных
- Анализ неопределенности: Улучшение оценки класса меньшинства путем интеграции квантификации неопределенности
- Пространственно-временные данные: Учет особенностей пространственно-временного измерения
- Важность проблемы: Обращает внимание на важную, но часто игнорируемую проблему в области XAI
- Инновационность метода: Предлагает целевую структуру оценки с теоретической основой
- Полнота экспериментов: Проверка на реальных сценариях с практической ценностью применения
- Ясность изложения: Четкая структура статьи с подробным описанием методики
- Ограниченный масштаб экспериментов: Проверка только на одном наборе данных, отсутствует доказательство универсальности
- Недостаточный теоретический анализ: Отсутствует глубокий анализ теоретических свойств метода
- Ограниченность базовых методов: Отсутствует сравнение с другими методами XAI, специально разработанными для несбалансированных данных
- Единственность метрик оценки: В основном опирается на метрики корреляции, которые могут не полностью отражать качество объяснений
- Академический вклад: Предоставляет новые идеи для применения XAI на несбалансированных данных
- Практическая ценность: Имеет руководящее значение для развертывания XAI в высокорисковых приложениях
- Воспроизводимость: Код открыт, что облегчает воспроизведение и расширение
- Высокорисковые приложения: Медицинская диагностика, финансовый контроль рисков, метеорологические предупреждения и т.д.
- Крайне несбалансированные данные: Обнаружение мошенничества, обнаружение аномалий, прогнозирование редких событий
- Области со строгими нормативными требованиями: Отрасли, требующие объяснимого ИИ
Статья ссылается на важные работы в области XAI, включая:
- Классические методы LIME 3 и SHAP 4
- Методы объяснения нейронных сетей Integrated Gradients 11, DeepLIFT 12, LRP 13
- Технологии обучения на несбалансированных данных, такие как Focal Loss 7
- Связанные работы по анализу робастности 5, 9, 10
Общая оценка: Это предварительная исследовательская работа, обращающая внимание на важную практическую проблему. Хотя существует место для улучшения в масштабе экспериментов и глубине теоретического анализа, работа открывает новое направление исследований в области оценки надежности XAI на несбалансированных наборах данных и имеет хорошие перспективы практического применения.