Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
Vascotto, Rodriguez, Bonaita et al.
The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.
academic
За пределами одномодельного XAI: агрегирование объяснений нескольких моделей для повышения надежности
С широким использованием моделей искусственного интеллекта в высокорисковых приложениях реального мира вопросы надежности и этичного использования привлекают все большее внимание как с технической, так и с законодательной точек зрения. Область интерпретируемого искусственного интеллекта (XAI) решает эту проблему, предоставляя объяснения, которые раскрывают процесс принятия решений сложными черными ящиками. Хотя надежность является важным свойством, она часто упускается из виду в процессе разработки: только надежные методы объяснения могут повысить доверие ко всей системе. В данной работе исследуется роль надежности путем использования важности признаков, агрегированных из нескольких моделей (k-ближайших соседей, случайный лес и нейронные сети). Предварительные результаты демонстрируют потенциал повышения надежности приложений при одновременном использовании прогностических возможностей нескольких моделей.
Исследование направлено на решение двух ключевых недостатков существующих методов XAI:
Недостаточная надежность объяснений: Популярные методы объяснения, такие как LIME и SHAP, доказано не обладают надежностью в многочисленных исследованиях, но по-прежнему широко применяются в высокорисковых сценариях
Проблема расхождения объяснений: Противоречивые объяснения, возникающие при применении нескольких методов объяснения к одному экземпляру; из-за отсутствия эталонного стандарта истинности объяснений невозможно выбрать оптимальный метод
С принятием законодательства, такого как GDPR и Закон об искусственном интеллекте, требующих прозрачности моделей, надежность объяснений становится критически важной. Доверие к самой модели может быть установлено только через доверие к объяснениям, что особенно важно в высокорисковых приложениях.
На основе предыдущих работ по объяснению ансамблей нейронных сетей в данной статье предлагается расширить метод на модели различных категорий, целью которого является повышение общей надежности системы путем агрегирования объяснений различных процессов принятия решений.
Данная работа сосредоточена на задачах бинарной классификации табличных данных с целью создания надежных объяснений важности признаков для каждого предсказанного экземпляра. Входные данные представляют собой экземпляры табличных данных, выходные данные — нормализованный вектор атрибуции признаков.
Используется арифметическое среднее на уровне признаков:
a_agg = (1/L) × Σ(l=1 to L) a_l
Где L=3 — количество моделей. Когда прогнозы моделей не совпадают, объяснения расходящихся моделей инвертируются для обеспечения направления объяснений на один и тот же класс.
Все модели достигают точности выше 80% на всех наборах данных (k-NN на HELOC составляет 75.51%). Нейронные сети показывают лучшие результаты на сложных наборах данных, случайный лес — на простых.
Проверка связи между согласованностью прогнозов моделей и размером окрестности подтверждает гипотезу: когда три модели дают согласованные прогнозы, обычно получается большая окрестность, что указывает на лучшую надежность объяснений в этой области.
Результаты в приложении показывают, что оценки надежности LIME и SHAP намного ниже порога 0.5, что подтверждает выводы литературы о нестабильности этих методов и обосновывает решение исключить их.
Статья цитирует важные работы в области XAI, включая:
Оригинальные статьи LIME и SHAP и критику их надежности
Методы объяснения нейронных сетей, такие как DeepLIFT, Integrated Gradients и другие
Связанные исследования оценки надежности и агрегирования объяснений
Нормативные документы, такие как GDPR и EU AI Act
Общая оценка: Это статья с важным вкладом в направление исследований надежности XAI. Хотя методы относительно просты, они решают практически важные проблемы и предоставляют ценные инструменты для развития надежного искусственного интеллекта. Основная ценность статьи заключается в открытии направления исследований агрегирования объяснений между типами моделей и предоставлении систематической структуры оценки. Четкие направления будущих работ закладывают основу для дальнейшего развития этой области.