In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.
SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
- ID статьи: 2510.08737
- Название: SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
- Авторы: Justin Lin (Математический факультет Университета Индианы), Julia Fukuyama (Факультет статистики Университета Индианы)
- Классификация: cs.LG, stat.ME, stat.ML
- Дата публикации: 9 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.08737v1
В эпоху быстрого развития данных и технологий крупные черные ящики моделей стали основным инструментом благодаря их способности обрабатывать массивные объемы данных и изучать сложные отношения между входом и выходом. Однако недостатком этих методов является невозможность интерпретации процесса прогнозирования, что делает их применение ненадежным и опасным в высокорисковых сценариях. Анализ SHAP (SHapley Additive exPlanations) как метод интерпретируемого искусственного интеллекта становится все более популярным благодаря его способности объяснять прогнозы модели с помощью исходных признаков. В данной статье предлагается проведение кластеризации значений SHAP, которая не только группирует образцы, получившие одинаковые прогнозы, но, что более важно, группирует образцы, получившие одинаковые прогнозы по схожим причинам. Эффективность метода демонстрируется на основе симуляционных экспериментов и тематического исследования болезни Альцгеймера (с использованием базы данных ADNI), а также предлагается обобщенный метод диаграммы водопада для задач многоклассовой классификации.
С постоянным увеличением сложности моделей машинного обучения черные ящики демонстрируют превосходную точность прогнозирования, однако их недостаток интерпретируемости создает препятствия для применения в высокорисковых областях, таких как медицина. Традиционный анализ кластеризации основан только на исходных признаках данных и не может выявить различные пути, по которым образцы приходят к одному и тому же результату прогнозирования.
- Потребности медицинского применения: При гетерогенных заболеваниях, таких как болезнь Альцгеймера, разные пациенты могут приходить к одному и тому же диагностическому результату через совершенно разные патологические механизмы
- Персонализированная медицина: Понимание гетерогенности заболевания помогает разработать индивидуальные планы лечения
- Интерпретируемость модели: В высокорисковых сценариях принятия решений критически важно понимать причины прогнозов модели
- Традиционные методы кластеризации: Основаны только на исходных признаках данных, не могут захватить сложные отношения вход-выход, изученные моделью
- Редкие исследования кластеризации значений SHAP: Исследования кластеризации значений SHAP в существующей литературе крайне ограничены
- Недостаточные инструменты визуализации: Отсутствуют эффективные методы визуализации значений SHAP для задач многоклассовой классификации
- Предложен метод SHAP-based контролируемой кластеризации: Кластеризация на основе значений SHAP, а не исходных данных, выявляет различные пути достижения одного и того же прогноза
- Разработана многомерная диаграмма водопада: Обобщение традиционной диаграммы водопада на задачи многоклассовой классификации с поддержкой визуализации k-мерных SHAP-векторов
- Предоставлен полный процесс анализа: Пятиэтапный рабочий процесс, включающий прогнозное моделирование, анализ SHAP, визуализацию, анализ кластеризации и интерпретацию кластеров
- Проверена эффективность метода: Практичность метода подтверждена симуляционными экспериментами и реальным тематическим исследованием болезни Альцгеймера
Дан набор обучающих данных X' ⊂ X ⊂ R^p и обученная модель f: X → R. Для каждого образца x ∈ X вычисляются значения SHAP φ(f;x)₁, ..., φ(f;x)ₚ такие, что:
∑i=1pϕ(f;x)i=f(x)−E[f(X′)]
Цель состоит в кластеризации матрицы значений SHAP для обнаружения групп образцов с похожими интерпретациями модели.
- Построение прогнозной модели с использованием XGBoost
- Обеспечение обобщаемости модели через повторную перекрестную проверку
- Бинарная классификация: Каждому признаку соответствует одно значение SHAP
- Многоклассовая классификация: Каждому признаку соответствует k-мерный SHAP-вектор (k — количество классов)
- Использование алгоритма TreeSHAP для вычисления значений SHAP древовидных моделей
- Избежание переобучения через перекрестную проверку
- Использование UMAP для снижения размерности и визуализации
- Сохранение локальной структуры, подходит для обнаружения кластеров
- Применение HDBSCAN для иерархической кластеризации на основе плотности
- Способность обрабатывать шум и кластеризацию с переменной плотностью
- Использование тепловых карт для анализа исходных данных
- Применение многомерной диаграммы водопада для интерпретации
Традиционная диаграмма водопада применима только к одномерным значениям SHAP и не может обрабатывать k-мерные SHAP-векторы многоклассовой классификации.
- Проекция на подпространство классов: Выбор двух классов, игнорирование значений SHAP других классов, подходит для попарного сравнения между классами
- Проекция PCA: Проекция на двумерное подпространство, сохраняющее наибольшее количество информации, сохраняет информацию всех k классов, но интерпретация осей более сложна
Последовательность SHAP-векторов рассматривается как путь в k-мерном пространстве, где каждый сегмент пути соответствует вкладу одного признака, начиная от точки среднего прогноза и заканчивая конкретной точкой прогноза образца.
- Модель генерирования: Многомерная логистическая регрессия
- Масштаб выборки: 1500 образцов, 10-мерные признаки
- Идея проектирования: Создание различных путей достижения одного целевого класса
- Определение функции:
- f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
- f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
- где βⱼ,ᵢ ~ N(0,1)
- Источник данных: База данных Инициативы нейровизуализации болезни Альцгеймера
- Масштаб выборки: 2422 пациента, 39 признаков
- Целевые классы: Когнитивно нормальные (CN), легкие когнитивные нарушения (MCI), болезнь Альцгеймера/деменция (AD)
- Предварительная обработка: Удаление информации о посещениях и устройствах, линейное масштабирование в интервал 0,1
- Производительность классификации: Точность, полнота, F1-мера
- Качество кластеризации: Проверка через визуализацию и знания предметной области
- Прогнозная модель: XGBoost
- Метод снижения размерности: UMAP
- Алгоритм кластеризации: HDBSCAN
- Перекрестная проверка: Повторная перекрестная проверка для вычисления значений SHAP
Модель XGBoost показала отличные результаты на тестовом наборе:
- Общая точность: 90%
- F1-мера для каждого класса: 0,88-0,92
- Подтверждает надежность интерпретации модели
- Отсутствие структуры кластеризации в исходных данных: Визуализация UMAP показывает отсутствие явных паттернов кластеризации в исходных данных
- Четыре кластера выявлены значениями SHAP:
- Кластер 0: x₁ < 0, x₂ < 0 → класс 0
- Кластер 3: x₁ > 0, x₂ > 0 → класс 1
- Кластеры 1 и 2: x₁, x₂ противоположного знака → класс 2 (два различных пути)
- Успешно идентифицированы два различных пути достижения класса 2
- Кластер 1: x₁ > 0, x₂ < 0
- Кластер 2: x₁ < 0, x₂ > 0
Дальнейший анализ показал, что кластер 3 может быть разделен на два подкластера, основное различие заключается в вкладе признака 8, что подтверждает стабильность метода.
- Общая точность: 93%
- Производительность каждого класса: CN (F1=0,96), MCI (F1=0,92), AD (F1=0,86)
- CDRSB (общий балл клинической шкалы деменции): Наиболее важный прогностический фактор
- LDELTOTAL: Значительное влияние на различие между CN и MCI
- mPACCdigit и MMSE: Важны для различия между MCI и AD
- Пациенты CN: Кластеры 0 и 4, несмотря на различные генотипы APOE4, имеют схожие паттерны SHAP
- Пациенты MCI: Кластеры 3 и 6
- Кластер 3: вклад CDRSB в AD составляет -1,50 (защитный эффект)
- Кластер 6: вклад CDRSB в AD составляет -0,50 (риск)
- Пациенты AD: Кластеры 1, 2, 5, демонстрирующие различные пути развития заболевания
- Выявлена гетерогенность внутри одного диагностического класса
- Оценка CDRSB может использоваться для стратификации риска пациентов с MCI
- Различные кластеры AD могут требовать различных стратегий лечения
- Теоретическая основа: Основана на значениях Шепли (Lloyd Shapley, 1953)
- Современное развитие: Применение к машинному обучению Lundberg и Lee (2017)
- Алгоритм TreeSHAP: Специализирован для вычисления значений SHAP древовидных моделей
- Традиционные методы: K-means, иерархическая кластеризация и другие, основанные на исходных признаках
- Кластеризация на основе плотности: DBSCAN и его улучшенная версия HDBSCAN
- Контролируемая кластеризация: Методы кластеризации, объединяющие информацию контролируемого обучения
Существующие исследования крайне ограничены; данная статья является важным вкладом в эту область и закладывает основу для последующих исследований.
- Эффективность SHAP-based кластеризации: Способна выявлять значимые группировки, которые невозможно наблюдать в исходных данных
- Практичность многомерной диаграммы водопада: Успешно решает проблему визуализации значений SHAP для многоклассовой классификации
- Ценность медицинского применения: Демонстрирует потенциал практического применения в исследованиях болезни Альцгеймера
- Понимание гетерогенности заболевания: Выявляет различные патологические пути внутри одного диагностического класса
- Вычислительная сложность: Требует вычисления большого количества значений SHAP, высокие вычислительные затраты
- Зависимость от модели: Результаты кластеризации зависят от качества базовой прогнозной модели
- Чувствительность параметров: Выбор параметров алгоритмов, таких как HDBSCAN, может влиять на результаты
- Ограничение количества классов: Визуализация многомерной диаграммы водопада все еще ограничена количеством классов
- Расширение методов визуализации: Разработка многомерных версий других диаграмм SHAP (столбчатые диаграммы, тепловые карты, диаграммы роя и т.д.)
- Оптимизация алгоритмов: Повышение вычислительной эффективности для крупномасштабных данных
- Теоретический анализ: Установление теоретической основы для SHAP-based кластеризации
- Расширение применения: Проверка универсальности метода в большем количестве областей
- Высокая инновационность: Первая систематическая разработка метода SHAP-based контролируемой кластеризации
- Высокая практическая ценность: Имеет важное применение в высокорисковых областях, таких как медицина
- Полнота метода: Предоставляет полный рабочий процесс от моделирования до интерпретации
- Достаточная проверка: Двойная проверка через симуляционные и реальные примеры
- Инновация визуализации: Многомерная диаграмма водопада решает проблему интерпретируемости многоклассовой классификации
- Слабая теоретическая база: Отсутствует теоретический анализ SHAP-based кластеризации
- Вычислительная эффективность: Проблемы вычислительной сложности при крупномасштабном применении недостаточно обсуждены
- Выбор параметров: Недостаточно четких принципов выбора параметров алгоритмов кластеризации
- Статистическая значимость: Отсутствует проверка статистической значимости результатов кластеризации
- Недостаточные сравнительные эксперименты: Ограниченное сравнение с другими методами интерпретируемой кластеризации
- Академический вклад: Предоставляет новые идеи для областей интерпретируемого искусственного интеллекта и контролируемой кластеризации
- Практическая ценность: Имеет прямое применение в областях, таких как персонализированная медицина
- Распространение метода: Рабочий процесс может быть обобщен на другие области и задачи
- Последующие исследования: Открывает новые направления для глубокого применения значений SHAP
- Медицинская диагностика: Анализ гетерогенности заболеваний и персонализированное лечение
- Финансовый риск-менеджмент: Стратификация рисков клиентов и дифференцированные стратегии
- Системы рекомендаций: Анализ паттернов поведения пользователей
- Контроль качества: Анализ различных причин дефектов продуктов
Статья цитирует 23 важные работы, охватывающие теорию SHAP, алгоритмы кластеризации, методы визуализации и исследования болезни Альцгеймера, обеспечивая хорошую теоретическую поддержку для междисциплинарных исследований.
Общая оценка: Это высококачественная междисциплинарная исследовательская статья, которая вносит важный вклад в пересечение интерпретируемого искусственного интеллекта и контролируемой кластеризации. Метод обладает высокой инновационностью, экспериментальная проверка достаточна, и он имеет важную ценность для применения в высокорисковых областях, таких как медицина. Хотя есть место для улучшения в теоретическом анализе и вычислительной эффективности, работа закладывает хорошую основу для последующих исследований.