2025-11-12T09:04:09.780506

SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot

Lin, Fukuyama

In this growing age of data and technology, large black-box models are becoming the norm due to their ability to handle vast amounts of data and learn incredibly complex input-output relationships. The deficiency of these methods, however, is their inability to explain the prediction process, making them untrustworthy and their use precarious in high-stakes situations. SHapley Additive exPlanations (SHAP) analysis is an explainable AI method growing in popularity for its ability to explain model predictions in terms of the original features. For each sample and feature in the data set, we associate a SHAP value that quantifies the contribution of that feature to the prediction of that sample. Clustering these SHAP values can provide insight into the data by grouping samples that not only received the same prediction, but received the same prediction for similar reasons. In doing so, we map the various pathways through which distinct samples arrive at the same prediction. To showcase this methodology, we present a simulated experiment in addition to a case study in Alzheimer's disease using data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) database. We also present a novel generalization of the waterfall plot for multi-classification.

academic

SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot

Основная информация

ID статьи: 2510.08737
Название: SHAP-Based Supervised Clustering for Sample Classification and the Generalized Waterfall Plot
Авторы: Justin Lin (Математический факультет Университета Индианы), Julia Fukuyama (Факультет статистики Университета Индианы)
Классификация: cs.LG, stat.ME, stat.ML
Дата публикации: 9 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.08737v1

Аннотация

В эпоху быстрого развития данных и технологий крупные черные ящики моделей стали основным инструментом благодаря их способности обрабатывать массивные объемы данных и изучать сложные отношения между входом и выходом. Однако недостатком этих методов является невозможность интерпретации процесса прогнозирования, что делает их применение ненадежным и опасным в высокорисковых сценариях. Анализ SHAP (SHapley Additive exPlanations) как метод интерпретируемого искусственного интеллекта становится все более популярным благодаря его способности объяснять прогнозы модели с помощью исходных признаков. В данной статье предлагается проведение кластеризации значений SHAP, которая не только группирует образцы, получившие одинаковые прогнозы, но, что более важно, группирует образцы, получившие одинаковые прогнозы по схожим причинам. Эффективность метода демонстрируется на основе симуляционных экспериментов и тематического исследования болезни Альцгеймера (с использованием базы данных ADNI), а также предлагается обобщенный метод диаграммы водопада для задач многоклассовой классификации.

Исследовательский контекст и мотивация

Определение проблемы

С постоянным увеличением сложности моделей машинного обучения черные ящики демонстрируют превосходную точность прогнозирования, однако их недостаток интерпретируемости создает препятствия для применения в высокорисковых областях, таких как медицина. Традиционный анализ кластеризации основан только на исходных признаках данных и не может выявить различные пути, по которым образцы приходят к одному и тому же результату прогнозирования.

Значимость исследования

Потребности медицинского применения: При гетерогенных заболеваниях, таких как болезнь Альцгеймера, разные пациенты могут приходить к одному и тому же диагностическому результату через совершенно разные патологические механизмы
Персонализированная медицина: Понимание гетерогенности заболевания помогает разработать индивидуальные планы лечения
Интерпретируемость модели: В высокорисковых сценариях принятия решений критически важно понимать причины прогнозов модели

Ограничения существующих методов

Традиционные методы кластеризации: Основаны только на исходных признаках данных, не могут захватить сложные отношения вход-выход, изученные моделью
Редкие исследования кластеризации значений SHAP: Исследования кластеризации значений SHAP в существующей литературе крайне ограничены
Недостаточные инструменты визуализации: Отсутствуют эффективные методы визуализации значений SHAP для задач многоклассовой классификации

Основные вклады

Предложен метод SHAP-based контролируемой кластеризации: Кластеризация на основе значений SHAP, а не исходных данных, выявляет различные пути достижения одного и того же прогноза
Разработана многомерная диаграмма водопада: Обобщение традиционной диаграммы водопада на задачи многоклассовой классификации с поддержкой визуализации k-мерных SHAP-векторов
Предоставлен полный процесс анализа: Пятиэтапный рабочий процесс, включающий прогнозное моделирование, анализ SHAP, визуализацию, анализ кластеризации и интерпретацию кластеров
Проверена эффективность метода: Практичность метода подтверждена симуляционными экспериментами и реальным тематическим исследованием болезни Альцгеймера

Подробное описание метода

Определение задачи

Дан набор обучающих данных X' ⊂ X ⊂ R^p и обученная модель f: X → R. Для каждого образца x ∈ X вычисляются значения SHAP φ(f;x)₁, ..., φ(f;x)ₚ такие, что:

$\sum_{i=1}^{p} \phi(f;x)_i = f(x) - E[f(X')]$

Цель состоит в кластеризации матрицы значений SHAP для обнаружения групп образцов с похожими интерпретациями модели.

Рабочий процесс контролируемой кластеризации

1. Прогнозное моделирование

Построение прогнозной модели с использованием XGBoost
Обеспечение обобщаемости модели через повторную перекрестную проверку

2. Анализ SHAP

Бинарная классификация: Каждому признаку соответствует одно значение SHAP
Многоклассовая классификация: Каждому признаку соответствует k-мерный SHAP-вектор (k — количество классов)
Использование алгоритма TreeSHAP для вычисления значений SHAP древовидных моделей
Избежание переобучения через перекрестную проверку

3. Визуализация

Использование UMAP для снижения размерности и визуализации
Сохранение локальной структуры, подходит для обнаружения кластеров

4. Анализ кластеризации

Применение HDBSCAN для иерархической кластеризации на основе плотности
Способность обрабатывать шум и кластеризацию с переменной плотностью

5. Интерпретация кластеров

Использование тепловых карт для анализа исходных данных
Применение многомерной диаграммы водопада для интерпретации

Инновация многомерной диаграммы водопада

Ограничения традиционной диаграммы водопада

Традиционная диаграмма водопада применима только к одномерным значениям SHAP и не может обрабатывать k-мерные SHAP-векторы многоклассовой классификации.

Решение

Проекция на подпространство классов: Выбор двух классов, игнорирование значений SHAP других классов, подходит для попарного сравнения между классами
Проекция PCA: Проекция на двумерное подпространство, сохраняющее наибольшее количество информации, сохраняет информацию всех k классов, но интерпретация осей более сложна

Математическое представление

Последовательность SHAP-векторов рассматривается как путь в k-мерном пространстве, где каждый сегмент пути соответствует вкладу одного признака, начиная от точки среднего прогноза и заканчивая конкретной точкой прогноза образца.

Экспериментальная установка

Наборы данных

Симуляционные данные

Модель генерирования: Многомерная логистическая регрессия
Масштаб выборки: 1500 образцов, 10-мерные признаки
Идея проектирования: Создание различных путей достижения одного целевого класса
Определение функции:
- f₁(x) = 4x₁x₂ + 4x₁ + 4x₂ + Σβ₁,ᵢxᵢ
- f₂(x) = 4x₁x₂ - 4x₁ - 4x₂ + Σβ₂,ᵢxᵢ
- где βⱼ,ᵢ ~ N(0,1)

Данные ADNI

Источник данных: База данных Инициативы нейровизуализации болезни Альцгеймера
Масштаб выборки: 2422 пациента, 39 признаков
Целевые классы: Когнитивно нормальные (CN), легкие когнитивные нарушения (MCI), болезнь Альцгеймера/деменция (AD)
Предварительная обработка: Удаление информации о посещениях и устройствах, линейное масштабирование в интервал 0,1

Метрики оценки

Производительность классификации: Точность, полнота, F1-мера
Качество кластеризации: Проверка через визуализацию и знания предметной области

Детали реализации

Прогнозная модель: XGBoost
Метод снижения размерности: UMAP
Алгоритм кластеризации: HDBSCAN
Перекрестная проверка: Повторная перекрестная проверка для вычисления значений SHAP

Результаты экспериментов

Результаты симуляционных экспериментов

Производительность модели

Модель XGBoost показала отличные результаты на тестовом наборе:

Общая точность: 90%
F1-мера для каждого класса: 0,88-0,92
Подтверждает надежность интерпретации модели

Обнаружения кластеризации

Отсутствие структуры кластеризации в исходных данных: Визуализация UMAP показывает отсутствие явных паттернов кластеризации в исходных данных
Четыре кластера выявлены значениями SHAP:
- Кластер 0: x₁ < 0, x₂ < 0 → класс 0
- Кластер 3: x₁ > 0, x₂ > 0 → класс 1
- Кластеры 1 и 2: x₁, x₂ противоположного знака → класс 2 (два различных пути)

Проверка многомерной диаграммы водопада

Успешно идентифицированы два различных пути достижения класса 2
Кластер 1: x₁ > 0, x₂ < 0
Кластер 2: x₁ < 0, x₂ > 0

Более тонкая кластеризация

Дальнейший анализ показал, что кластер 3 может быть разделен на два подкластера, основное различие заключается в вкладе признака 8, что подтверждает стабильность метода.

Результаты тематического исследования ADNI

Производительность модели

Общая точность: 93%
Производительность каждого класса: CN (F1=0,96), MCI (F1=0,92), AD (F1=0,86)

Идентификация ключевых признаков

CDRSB (общий балл клинической шкалы деменции): Наиболее важный прогностический фактор
LDELTOTAL: Значительное влияние на различие между CN и MCI
mPACCdigit и MMSE: Важны для различия между MCI и AD

Обнаружения кластеризации

Пациенты CN: Кластеры 0 и 4, несмотря на различные генотипы APOE4, имеют схожие паттерны SHAP
Пациенты MCI: Кластеры 3 и 6
- Кластер 3: вклад CDRSB в AD составляет -1,50 (защитный эффект)
- Кластер 6: вклад CDRSB в AD составляет -0,50 (риск)
Пациенты AD: Кластеры 1, 2, 5, демонстрирующие различные пути развития заболевания

Клиническое значение

Выявлена гетерогенность внутри одного диагностического класса
Оценка CDRSB может использоваться для стратификации риска пациентов с MCI
Различные кластеры AD могут требовать различных стратегий лечения

Связанные работы

Развитие анализа SHAP

Теоретическая основа: Основана на значениях Шепли (Lloyd Shapley, 1953)
Современное развитие: Применение к машинному обучению Lundberg и Lee (2017)
Алгоритм TreeSHAP: Специализирован для вычисления значений SHAP древовидных моделей

Эволюция методов кластеризации

Традиционные методы: K-means, иерархическая кластеризация и другие, основанные на исходных признаках
Кластеризация на основе плотности: DBSCAN и его улучшенная версия HDBSCAN
Контролируемая кластеризация: Методы кластеризации, объединяющие информацию контролируемого обучения

Исследования кластеризации значений SHAP

Существующие исследования крайне ограничены; данная статья является важным вкладом в эту область и закладывает основу для последующих исследований.

Заключение и обсуждение

Основные выводы

Эффективность SHAP-based кластеризации: Способна выявлять значимые группировки, которые невозможно наблюдать в исходных данных
Практичность многомерной диаграммы водопада: Успешно решает проблему визуализации значений SHAP для многоклассовой классификации
Ценность медицинского применения: Демонстрирует потенциал практического применения в исследованиях болезни Альцгеймера
Понимание гетерогенности заболевания: Выявляет различные патологические пути внутри одного диагностического класса

Ограничения

Вычислительная сложность: Требует вычисления большого количества значений SHAP, высокие вычислительные затраты
Зависимость от модели: Результаты кластеризации зависят от качества базовой прогнозной модели
Чувствительность параметров: Выбор параметров алгоритмов, таких как HDBSCAN, может влиять на результаты
Ограничение количества классов: Визуализация многомерной диаграммы водопада все еще ограничена количеством классов

Будущие направления

Расширение методов визуализации: Разработка многомерных версий других диаграмм SHAP (столбчатые диаграммы, тепловые карты, диаграммы роя и т.д.)
Оптимизация алгоритмов: Повышение вычислительной эффективности для крупномасштабных данных
Теоретический анализ: Установление теоретической основы для SHAP-based кластеризации
Расширение применения: Проверка универсальности метода в большем количестве областей

Глубокая оценка

Преимущества

Высокая инновационность: Первая систематическая разработка метода SHAP-based контролируемой кластеризации
Высокая практическая ценность: Имеет важное применение в высокорисковых областях, таких как медицина
Полнота метода: Предоставляет полный рабочий процесс от моделирования до интерпретации
Достаточная проверка: Двойная проверка через симуляционные и реальные примеры
Инновация визуализации: Многомерная диаграмма водопада решает проблему интерпретируемости многоклассовой классификации

Недостатки

Слабая теоретическая база: Отсутствует теоретический анализ SHAP-based кластеризации
Вычислительная эффективность: Проблемы вычислительной сложности при крупномасштабном применении недостаточно обсуждены
Выбор параметров: Недостаточно четких принципов выбора параметров алгоритмов кластеризации
Статистическая значимость: Отсутствует проверка статистической значимости результатов кластеризации
Недостаточные сравнительные эксперименты: Ограниченное сравнение с другими методами интерпретируемой кластеризации

Влияние

Академический вклад: Предоставляет новые идеи для областей интерпретируемого искусственного интеллекта и контролируемой кластеризации
Практическая ценность: Имеет прямое применение в областях, таких как персонализированная медицина
Распространение метода: Рабочий процесс может быть обобщен на другие области и задачи
Последующие исследования: Открывает новые направления для глубокого применения значений SHAP

Применимые сценарии

Медицинская диагностика: Анализ гетерогенности заболеваний и персонализированное лечение
Финансовый риск-менеджмент: Стратификация рисков клиентов и дифференцированные стратегии
Системы рекомендаций: Анализ паттернов поведения пользователей
Контроль качества: Анализ различных причин дефектов продуктов

Библиография

Статья цитирует 23 важные работы, охватывающие теорию SHAP, алгоритмы кластеризации, методы визуализации и исследования болезни Альцгеймера, обеспечивая хорошую теоретическую поддержку для междисциплинарных исследований.

Общая оценка: Это высококачественная междисциплинарная исследовательская статья, которая вносит важный вклад в пересечение интерпретируемого искусственного интеллекта и контролируемой кластеризации. Метод обладает высокой инновационностью, экспериментальная проверка достаточна, и он имеет важную ценность для применения в высокорисковых областях, таких как медицина. Хотя есть место для улучшения в теоретическом анализе и вычислительной эффективности, работа закладывает хорошую основу для последующих исследований.