2025-11-20T00:01:14.681107

When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

Vascotto, Rodriguez, Bonaita et al.

Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.

academic

Когда вы можете доверять своим объяснениям? Анализ надежности оценок важности признаков

Основная информация

ID статьи: 2406.14349
Название: When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
Авторы: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
Категория: cs.LG (Машинное обучение)
Дата публикации: июнь 2024 г. (препринт arXiv, обновлено в апреле 2025 г.)
Ссылка на статью: https://arxiv.org/abs/2406.14349

Аннотация

С совершенствованием нормативно-правовой базы в области искусственного интеллекта растет спрос на интерпретируемый искусственный интеллект (XAI). Однако отсутствие стандартизированных критериев проверки методов объяснения остается основным препятствием на пути разработки надежных систем. В данной работе предлагается новый аналитический метод для оценки надежности объяснений нейронных сетей при воздействии неадверсарных возмущений, решая часто игнорируемую, но критически важную проблему надежности объяснений в XAI. Метод использует гипотезу многообразия для генерирования возмущенных точек данных, соответствующих распределению наблюдаемых данных, и предлагает ансамблевый подход для агрегирования нескольких объяснений, демонстрируя преимущества объединенных объяснений для понимания решений модели и оценки надежности.

Исследовательский контекст и мотивация

Проблемный фон

Нормативные требования: Закон об искусственном интеллекте ЕС и GDPR подчеркивают важность прозрачности и интерпретируемости систем ИИ
Дилемма черного ящика: Современные системы ИИ из-за большого количества параметров представляют собой черный ящик, лишены прозрачности
Нестабильность методов объяснения: Существующие методы XAI, такие как LIME и SHAP, имеют внутренние проблемы нестабильности
Отсутствие стандартизации: Отсутствуют стандартизированные критерии проверки методов объяснения

Исследовательская мотивация

Оценка надежности: Надежность объяснений является ключевым элементом обеспечения доверия к системе и объяснениям
Практические потребности: Предоставление практиков инструментами для оценки надежности объяснений модели
Проблема расхождения объяснений: Решение проблемы конфликтующих результатов при применении различных методов объяснения к одной точке данных

Основные вклады

Оценитель надежности: Предложен набор свойств, которые должны удовлетворять идеальные оценители надежности, и доказано, что предложенный метод удовлетворяет всем этим свойствам
Метод ансамблирования объяснений: Предложен метод ансамблирования объяснений нейронных сетей на основе ранжирования признаков для решения проблемы расхождения
Структура неадверсарных возмущений: Введена структура для тестирования надежности объяснений при неадверсарных возмущениях и оценки их надежности в практических приложениях
Метод проверки оценки надежности: Предложен новый метод проверки оценки надежности, решающий проблему отсутствия истинного стандарта

Подробное описание методов

Определение задачи

Для табличного набора данных D = (X,y), содержащего N точек данных и m признаков, задача состоит в оценке надежности метода объяснения e, применяемого к нейронной сети f, где объяснения представлены в виде векторов важности признаков.

Оценитель надежности

Основное определение

Надежность определяется как способность метода объяснения обеспечивать согласованные объяснения при изменении входных данных:

x → x̃, e(x) → e(x̃) ⟹ r(x,e) = g(x,x̃,e)

Шесть ключевых свойств

Статья предлагает шесть ключевых свойств, которые должны удовлетворяться оценителем надежности:

Свойство 1: Надежность является математическим ожиданием индивидуальной надежности
Свойство 2: Оценки надежности соседних точек близки друг к другу
Свойство 3: Оценка включает неопределенность
Свойство 4: Возмущения на многообразии имеют более высокую надежность, чем возмущения вне многообразия
Свойство 5: Надежность агрегированного объяснителя ограничена
Свойство 6: Объяснения эквивалентных моделей имеют сходную надежность

Расчет надежности

Используется коэффициент ранговой корреляции Спирмена для расчета надежности:

R̂(xi,Ni,e,f) = (1/|Ni|) ∑(x̃i∈Ni) ρ(e(xi,f), e(x̃i,f))

Механизм генерирования окрестности

Случайная окрестность (NR)

Числовые переменные: добавление гауссовского белого шума
Категориальные переменные: случайное переключение

Окрестность на основе центроидов (NM)

Более тонкий механизм, использующий гипотезу многообразия:

Кластеризация набора валидации с помощью k-центроидов
Поиск kM ближайших соседних центроидов для каждого центроида кластера
Интерполяционные возмущения с использованием бета-распределения

Метод ансамблирования

Предложено взвешенное усреднение на основе ранжирования признаков:

a(i,j)ens = (∑L l=1 r(i,j)l · w(i,j)l) / (∑L l=1 w(i,j)l) · (1 + λn̄(i,j))

где включен штрафной член за несогласованность знаков, а схема взвешивания учитывает относительную величину важности признаков.

Структура оценки надежности

Использование регрессора k-ближайших соседей для предсказания локальной надежности, классификация точек данных на три категории:

Надежные точки: R̂(xi) ≥ rth и Rknn(xi) ≥ rth
Неопределенные точки: R̂(xi) ≥ rth но Rknn(xi) < rth
Ненадежные точки: R̂(xi) < rth

Экспериментальная установка

Наборы данных

Использованы 8 открытых табличных наборов данных:

Игрушечные наборы данных: beans, cancer, mushroom, white wine
Практические наборы данных: adult, bank marketing, heloc, ocean

Методы XAI

Сосредоточение на методах, специфичных для нейронных сетей:

DeepLIFT: Расчет важности признаков на основе разности относительно контрольной точки
Integrated Gradients: Интегрирование градиентов вдоль пути от базовой линии к входу
Layer-wise Relevance Propagation (LRP): Распространение релевантности на основе обратного распространения

Стратегия проверки

Использование трех нейронных сетей с аналогичной точностью, но различной архитектурой для проверки, оценка эффективности оценки надежности с помощью анализа ROC/AUC.

Результаты экспериментов

Основные выводы

Эффективность генерирования окрестности

Окрестность на основе центроидов (NM) дает более высокие оценки надежности, чем случайная окрестность (NR)
Возмущения, генерируемые методом NM, лучше соответствуют многообразию данных, что подтверждает Свойство 4

Преимущества метода ансамблирования

Надежность объединенного объяснения служит консервативной оценкой надежности отдельных методов
Способен учитывать надежность отдельных методов и согласованность на уровне признаков
Обеспечивает более надежные объяснения по сравнению с простым усреднением

Результаты классификации надежности

При пороге rth = 0,80:

В большинстве наборов данных надежные точки составляют большинство
Доля неопределенных и ненадежных точек не пренебрежима
Набор данных mushroom представляет особый случай, так как все три модели достигают 100% точности

Анализ проверки

Анализ ROC/AUC показывает:

Метод ансамблирования в сочетании с окрестностью на основе центроидов показывает лучшие результаты на большинстве наборов данных
Доля несогласованных предсказаний моделей в ненадежных точках обычно выше, чем в надежных точках
Подтверждает гипотезу об использовании согласованности предсказаний модели в качестве показателя надежности

Связанные работы

Ограничения методов XAI

LIME: Естественно нестабилен из-за случайности генерирования окрестности
SHAP: Подвержен влиянию корреляции признаков, вариативности выборки и смещения распределения данных
Методы на основе градиентов: Хотя более надежны, чем методы возмущения, все еще имеют проблемы нестабильности

Методы оценки надежности

Адверсарные атаки: Сосредоточение на атаках, целью которых является злонамеренное манипулирование объяснениями
Случайные возмущения: Оценка внутренних слабостей
Манипуляция моделью: Влияние на объяснения путем изменения функции потерь и других способов

Существующие методы измерения

Включают корреляцию порядка, пересечение top-k, сопоставление правил и другие, но отсутствует единый ограниченный показатель.

Заключение и обсуждение

Основные выводы

Предложенный оценитель надежности удовлетворяет всем теоретическим свойствам, обеспечивая ограниченный показатель в диапазоне 0,1
Генерирование окрестности на основе многообразия более подходит для оценки реальной надежности, чем случайные возмущения
Метод ансамблирования эффективно решает проблему расхождения объяснений, обеспечивая более надежные объяснения
Структура способна выявлять точки данных в неопределенных областях, повышая надежность практических приложений

Ограничения

Вычислительная сложность: Требует прямого распространения сети для каждой точки данных, каждого возмущения и каждого метода
Чувствительность к параметрам: Генерирование окрестности и выбор порога требуют тщательной настройки
Предположения проверки: Зависит от предположения об использовании согласованности предсказаний модели в качестве прокси для надежности, которое может быть не всегда справедливо

Направления будущих исследований

Обобщение модели: Расширение на другие модели машинного обучения, такие как древовидные модели
Адверсарная надежность: Исследование взаимосвязи с адверсарными атаками и способности защиты
Надежность классификатора: Исследование способов использования объяснений для повышения надежности классификатора

Глубокая оценка

Преимущества

Теоретическая строгость: Предложена полная теоретическая структура оценителя надежности с шестью четко определенными свойствами
Методологическая инновация: Генерирование окрестности на основе гипотезы многообразия и метод ансамблирования с учетом согласованности знаков обладают новизной
Практическая ценность: Обеспечивает полный процесс оценки надежности с практическим руководством для приложений
Комплексные эксперименты: Проведены достаточные эксперименты на нескольких наборах данных, включая абляционные исследования и анализ проверки

Недостатки

Вычислительные затраты: Высокая вычислительная сложность метода может ограничить крупномасштабные приложения
Зависимость от параметров: Множество гиперпараметров требуют настройки, что увеличивает сложность метода
Ограничения проверки: Методы проверки без истинного стандарта все еще имеют место для улучшения
Область применения: Сосредоточение на табличных данных и нейронных сетях, обобщаемость требует проверки

Влияние

Академический вклад: Обеспечивает систематическую теоретическую и методологическую структуру для оценки надежности XAI
Практическое руководство: Предоставляет практикам конкретные инструменты для оценки надежности объяснений
Продвижение стандартизации: Способствует установлению стандартизированных критериев оценки методов XAI

Применимые сценарии

Проверка объяснений в высокорисковых приложениях ИИ
Ситуации, требующие сравнения и выбора между несколькими методами XAI
Нормативные среды со строгими требованиями к надежности объяснений
Анализ объяснений нейронных сетей для табличных данных

Библиография

Статья ссылается на важные работы в области XAI, включая классические методы LIME и SHAP, а также передовые исследования в области надежности объяснений и адверсарных атак в последние годы, обеспечивая прочную теоретическую основу для данного исследования.