2025-11-19T09:40:14.113488

Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness

Vascotto, Rodriguez, Bonaita et al.

The use of Artificial Intelligence (AI) models in real-world and high-risk applications has intensified the discussion about their trustworthiness and ethical usage, from both a technical and a legislative perspective. The field of eXplainable Artificial Intelligence (XAI) addresses this challenge by proposing explanations that bring to light the decision-making processes of complex black-box models. Despite being an essential property, the robustness of explanations is often an overlooked aspect during development: only robust explanation methods can increase the trust in the system as a whole. This paper investigates the role of robustness through the usage of a feature importance aggregation derived from multiple models ($k$-nearest neighbours, random forest and neural networks). Preliminary results showcase the potential in increasing the trustworthiness of the application, while leveraging multiple model's predictive power.

academic

За пределами одномодельного XAI: агрегирование объяснений нескольких моделей для повышения надежности

Основная информация

ID статьи: 2510.11164
Название: Beyond single-model XAI: aggregating multi-model explanations for enhanced trustworthiness
Авторы: Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi
Классификация: cs.LG (машинное обучение)
Время публикации/конференция: TRUST-AI: The European Workshop on Trustworthy AI (ECAI 2025)
Ссылка на статью: https://arxiv.org/abs/2510.11164

Аннотация

С широким использованием моделей искусственного интеллекта в высокорисковых приложениях реального мира вопросы надежности и этичного использования привлекают все большее внимание как с технической, так и с законодательной точек зрения. Область интерпретируемого искусственного интеллекта (XAI) решает эту проблему, предоставляя объяснения, которые раскрывают процесс принятия решений сложными черными ящиками. Хотя надежность является важным свойством, она часто упускается из виду в процессе разработки: только надежные методы объяснения могут повысить доверие ко всей системе. В данной работе исследуется роль надежности путем использования важности признаков, агрегированных из нескольких моделей (k-ближайших соседей, случайный лес и нейронные сети). Предварительные результаты демонстрируют потенциал повышения надежности приложений при одновременном использовании прогностических возможностей нескольких моделей.

Исследовательский контекст и мотивация

Определение проблемы

Исследование направлено на решение двух ключевых недостатков существующих методов XAI:

Недостаточная надежность объяснений: Популярные методы объяснения, такие как LIME и SHAP, доказано не обладают надежностью в многочисленных исследованиях, но по-прежнему широко применяются в высокорисковых сценариях
Проблема расхождения объяснений: Противоречивые объяснения, возникающие при применении нескольких методов объяснения к одному экземпляру; из-за отсутствия эталонного стандарта истинности объяснений невозможно выбрать оптимальный метод

Значимость

С принятием законодательства, такого как GDPR и Закон об искусственном интеллекте, требующих прозрачности моделей, надежность объяснений становится критически важной. Доверие к самой модели может быть установлено только через доверие к объяснениям, что особенно важно в высокорисковых приложениях.

Ограничения существующих подходов

Основные методы, такие как LIME и SHAP, имеют проблемы с надежностью, создавая несогласованные объяснения для похожих входных данных
Методы объяснения для одной модели не могут полностью использовать прогностические возможности нескольких моделей
Отсутствуют эффективные стратегии агрегирования объяснений для обработки расхождений между различными моделями

Исследовательская мотивация

На основе предыдущих работ по объяснению ансамблей нейронных сетей в данной статье предлагается расширить метод на модели различных категорий, целью которого является повышение общей надежности системы путем агрегирования объяснений различных процессов принятия решений.

Основные вклады

Предложены два новых метода атрибуции признаков:
- Метод важности признаков на основе расстояния для моделей k-NN
- Метод атрибуции признаков на основе примеси узлов для случайного леса
Разработана структура агрегирования объяснений многомодельных систем:
- Интеграция объяснений k-NN, случайного леса и нейронных сетей
- Агрегирование важности признаков посредством арифметического среднего
Введен механизм оценки надежности:
- Использование метода генерации окрестности на основе центральной точки
- Количественная оценка надежности объяснений с помощью коэффициента ранговой корреляции Спирмена
Проверена связь между согласованностью моделей и надежностью объяснений:
- Доказано, что согласованность прогнозов нескольких моделей может служить показателем надежности объяснений

Подробное описание методов

Определение задачи

Данная работа сосредоточена на задачах бинарной классификации табличных данных с целью создания надежных объяснений важности признаков для каждого предсказанного экземпляра. Входные данные представляют собой экземпляры табличных данных, выходные данные — нормализованный вектор атрибуции признаков.

Архитектура модели

Метод объяснения k-NN

Алгоритм основан на механизме рассуждений на основе расстояния k-NN:

Для точки прогнозирования x выбираются k' ближайших соседей отдельно из класса прогнозирования c и противоположного класса ¬c
Вычисляются средние расстояния признаков до каждой группы соседей D_c и D_¬c
Важность признака определяется как: e = D_¬c - D_c
Нормализация в единичный вектор обеспечивает сравнимость

Метод объяснения случайного леса

Основан на примеси узлов в пути решения:

Для каждого дерева в лесу отслеживается путь решения точки данных
В зависимости от того, совпадает ли прогноз одного дерева с прогнозом леса, примесь узлов накапливается в e_c или e_¬c
Итоговое объяснение: e = (p_¬c + ε) × e_c - p_c × e_¬c
Где p_c и p_¬c — вероятности прогнозирования, ε=0.01 для избежания нулевых значений

Стратегия агрегирования

Используется арифметическое среднее на уровне признаков:

a_agg = (1/L) × Σ(l=1 to L) a_l

Где L=3 — количество моделей. Когда прогнозы моделей не совпадают, объяснения расходящихся моделей инвертируются для обеспечения направления объяснений на один и тот же класс.

Оценка надежности

Генерация окрестности

Используется метод на основе центральной точки:

Выполняется кластеризация k-medoid набора валидации
Для каждой точки данных находится соответствующий центр кластера и его k_M ближайших центров
Возмущения, соответствующие многообразию данных, генерируются с помощью бета-распределения и вероятностной замены

Расчет надежности

Используется коэффициент ранговой корреляции Спирмена:

R̂(x,N,e,f) = (1/|N|) × Σ(x̃∈N) ρ(e(x), e(x̃))

Где N — множество точек окрестности, сохраняющих согласованность прогнозирования.

Экспериментальная установка

Наборы данных

Для задач бинарной классификации используются 5 открытых наборов табличных данных:

Adult: 36,177/8,045/1,000 (обучение/валидация/тестирование), 5 числовых признаков, 7 категориальных признаков
Bank: 36,168/8,043/1,000, 5 числовых признаков, 9 категориальных признаков
HELOC: 8,367/1,592/500, 14 числовых признаков, 2 категориальных признака
Cancer: 397/121/50, 15 числовых признаков, 0 категориальных признаков
White Wine: 3,918/780/200, 9 числовых признаков, 0 категориальных признаков

Метрики оценки

Оценка надежности: Среднее значение на основе коэффициента ранговой корреляции Спирмена
Размер окрестности: Доля сохраненных возмущенных точек после фильтрации
Значение AUC: Площадь под кривой ROC на основе согласованности моделей

Методы сравнения

Пользовательский метод объяснения k-NN
Пользовательский метод объяснения случайного леса
Метод DeepLIFT для нейронных сетей
Агрегированные результаты трех методов
Сравнение с LIME и SHAP в приложении

Детали реализации

k-NN: k=15 (adult, bank), k=5 (остальные)
Случайный лес: 25 базовых учащихся
Нейронная сеть: стандартный многослойный персептрон
Генерация окрестности: k_M=5, α=0.05, α_cat=0.05
Целевая доля сохранения окрестности: ≥95%

Результаты экспериментов

Основные результаты

Производительность модели

Все модели достигают точности выше 80% на всех наборах данных (k-NN на HELOC составляет 75.51%). Нейронные сети показывают лучшие результаты на сложных наборах данных, случайный лес — на простых.

Сравнение надежности

Средние оценки надежности (%):

Набор данных	k-NN	RF	NN	Агрегирование
Adult	61.12	88.67	85.03	74.58
Bank	52.27	73.52	78.74	65.75
HELOC	71.01	80.56	84.23	77.92
Cancer	83.31	81.07	98.40	84.93
Wine	69.55	66.60	92.96	66.74

Результаты показывают:

Метод k-NN имеет самую низкую надежность, что соответствует его зависимости от удаленных соседей
Метод нейронной сети имеет самую высокую надежность
Надежность агрегированного метода находится между составляющими методами, что соответствует теоретическим ожиданиям

Анализ согласованности моделей

Проверка связи между согласованностью прогнозов моделей и размером окрестности подтверждает гипотезу: когда три модели дают согласованные прогнозы, обычно получается большая окрестность, что указывает на лучшую надежность объяснений в этой области.

Оценка валидации

Проверка связи между согласованностью моделей и надежностью объяснений посредством анализа ROC:

Сравнение значений AUC:

Набор данных	k-NN	RF	NN	Агрегирование
Adult	0.4480	0.5417	0.6970	0.5901
Bank	0.4128	0.6257	0.3861	0.6097
HELOC	0.6573	0.6049	0.6748	0.6095
Cancer	0.8397	0.9212	0.7120	0.9212
Wine	0.5088	0.4698	0.0469	0.4951

Агрегированный метод показывает хорошие результаты в большинстве случаев, но метод k-NN неэффективен в некоторых сценариях.

Сравнение с LIME/SHAP

Результаты в приложении показывают, что оценки надежности LIME и SHAP намного ниже порога 0.5, что подтверждает выводы литературы о нестабильности этих методов и обосновывает решение исключить их.

Связанные работы

Развитие области XAI

Методы локального объяснения: LIME, SHAP и другие модельно-независимые методы
Методы, специфичные для нейронных сетей: DeepLIFT, Integrated Gradients, LRP и другие
Исследования надежности: Оценка и улучшение стабильности методов объяснения

Исследования агрегирования объяснений

Предыдущие работы в основном сосредоточены на нескольких экземплярах одного типа модели
Данная работа расширяет агрегирование объяснений на различные типы моделей

Потребности, обусловленные законодательством

Требование GDPR о "праве на объяснение"
Требования Закона об искусственном интеллекте ЕС к прозрачности высокорисковых приложений

Выводы и обсуждение

Основные выводы

Осуществимость агрегирования многомодельных систем: Доказано, что объяснения различных типов моделей могут быть эффективно агрегированы
Связь между надежностью и согласованностью: Проверено, что согласованность прогнозов моделей может служить показателем надежности объяснений
Консервативная стратегия объяснения: Агрегированный метод обеспечивает консервативную, но надежную стратегию объяснения

Ограничения

Простота метода агрегирования: Текущее использование арифметического среднего не может обработать сложные модели расхождений
Зависимость метода k-NN: Чувствительность к гиперпараметру k', высокая вариативность
Полнота оценки: Требуется более полная проверка в реальных сценариях приложений
Ограничение типов моделей: Протестированы только три типа моделей

Направления будущих исследований

Авторы четко определили четыре направления улучшения:

Разработка более сложных стратегий агрегирования для обработки экстремальных расхождений
Улучшение метода объяснения k-NN для снижения зависимости от гиперпараметров
Более полная оценка валидации в реальных примерах использования
Расширение на другие типы моделей и методы XAI

Глубокая оценка

Преимущества

Важность проблемы: Решает ключевую проблему в области XAI — надежность и доверие к объяснениям
Инновационность метода:
- Первое предложение агрегирования объяснений между типами моделей
- Новые методы атрибуции признаков для k-NN и RF
- Систематическая структура оценки надежности
Полнота экспериментов:
- Валидация на нескольких наборах данных
- Полный анализ абляции
- Сравнение с основными методами
Теоретическая база: Установлена теоретическая связь между согласованностью моделей и надежностью объяснений

Недостатки

Ограничения метода:
- Стратегия агрегирования слишком проста, может привести к потере важной информации
- Теоретическая база метода k-NN относительно слаба
- Применимо только к задачам бинарной классификации
Экспериментальная установка:
- Относительно небольшие размеры наборов данных
- Отсутствие валидации на реальных высокорисковых сценариях приложений
- Недостаточный анализ вычислительных затрат
Глубина анализа:
- Недостаточный анализ случаев отказа агрегированного метода
- Отсутствие количественного анализа вклада различных типов моделей

Влияние

Академический вклад: Предоставляет новые идеи для исследований надежности XAI, особенно в направлении агрегирования многомодельных систем
Практическая ценность: Предоставляет практическую структуру для надежного искусственного интеллекта в высокорисковых приложениях
Воспроизводимость: Четкое описание методов, относительно простая реализация алгоритмов

Применимые сценарии

Высокорисковые сценарии принятия решений: Финансовые, медицинские и другие области, требующие интерпретируемого и надежного искусственного интеллекта
Соответствие нормативным требованиям: Приложения, требующие соответствия GDPR и другим нормативным актам
Аудит моделей: Сценарии, требующие оценки надежности систем искусственного интеллекта
Исследовательская платформа: Предоставляет базовую структуру для исследований надежности XAI

Библиография

Статья цитирует важные работы в области XAI, включая:

Оригинальные статьи LIME и SHAP и критику их надежности
Методы объяснения нейронных сетей, такие как DeepLIFT, Integrated Gradients и другие
Связанные исследования оценки надежности и агрегирования объяснений
Нормативные документы, такие как GDPR и EU AI Act

Общая оценка: Это статья с важным вкладом в направление исследований надежности XAI. Хотя методы относительно просты, они решают практически важные проблемы и предоставляют ценные инструменты для развития надежного искусственного интеллекта. Основная ценность статьи заключается в открытии направления исследований агрегирования объяснений между типами моделей и предоставлении систематической структуры оценки. Четкие направления будущих работ закладывают основу для дальнейшего развития этой области.