When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances
Vascotto, Rodriguez, Bonaita et al.
Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model's decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.
academic
Когда вы можете доверять своим объяснениям? Анализ надежности оценок важности признаков
С совершенствованием нормативно-правовой базы в области искусственного интеллекта растет спрос на интерпретируемый искусственный интеллект (XAI). Однако отсутствие стандартизированных критериев проверки методов объяснения остается основным препятствием на пути разработки надежных систем. В данной работе предлагается новый аналитический метод для оценки надежности объяснений нейронных сетей при воздействии неадверсарных возмущений, решая часто игнорируемую, но критически важную проблему надежности объяснений в XAI. Метод использует гипотезу многообразия для генерирования возмущенных точек данных, соответствующих распределению наблюдаемых данных, и предлагает ансамблевый подход для агрегирования нескольких объяснений, демонстрируя преимущества объединенных объяснений для понимания решений модели и оценки надежности.
Оценитель надежности: Предложен набор свойств, которые должны удовлетворять идеальные оценители надежности, и доказано, что предложенный метод удовлетворяет всем этим свойствам
Метод ансамблирования объяснений: Предложен метод ансамблирования объяснений нейронных сетей на основе ранжирования признаков для решения проблемы расхождения
Структура неадверсарных возмущений: Введена структура для тестирования надежности объяснений при неадверсарных возмущениях и оценки их надежности в практических приложениях
Метод проверки оценки надежности: Предложен новый метод проверки оценки надежности, решающий проблему отсутствия истинного стандарта
Для табличного набора данных D = (X,y), содержащего N точек данных и m признаков, задача состоит в оценке надежности метода объяснения e, применяемого к нейронной сети f, где объяснения представлены в виде векторов важности признаков.
Использование трех нейронных сетей с аналогичной точностью, но различной архитектурой для проверки, оценка эффективности оценки надежности с помощью анализа ROC/AUC.
Вычислительная сложность: Требует прямого распространения сети для каждой точки данных, каждого возмущения и каждого метода
Чувствительность к параметрам: Генерирование окрестности и выбор порога требуют тщательной настройки
Предположения проверки: Зависит от предположения об использовании согласованности предсказаний модели в качестве прокси для надежности, которое может быть не всегда справедливо
Теоретическая строгость: Предложена полная теоретическая структура оценителя надежности с шестью четко определенными свойствами
Методологическая инновация: Генерирование окрестности на основе гипотезы многообразия и метод ансамблирования с учетом согласованности знаков обладают новизной
Практическая ценность: Обеспечивает полный процесс оценки надежности с практическим руководством для приложений
Комплексные эксперименты: Проведены достаточные эксперименты на нескольких наборах данных, включая абляционные исследования и анализ проверки
Статья ссылается на важные работы в области XAI, включая классические методы LIME и SHAP, а также передовые исследования в области надежности объяснений и адверсарных атак в последние годы, обеспечивая прочную теоретическую основу для данного исследования.