2025-11-14T13:34:11.421709

Explaining Models under Multivariate Bernoulli Distribution via Hoeffding Decomposition

Ferrere, Bousquet, Gamboa et al.

Explaining the behavior of predictive models with random inputs can be achieved through sub-models decomposition, where such sub-models have easier interpretable features. Arising from the uncertainty quantification community, recent results have demonstrated the existence and uniqueness of a generalized Hoeffding decomposition for such predictive models when the stochastic input variables are correlated, based on concepts of oblique projection onto L 2 subspaces. This article focuses on the case where the input variables have Bernoulli distributions and provides a complete description of this decomposition. We show that in this case the underlying L 2 subspaces are one-dimensional and that the functional decomposition is explicit. This leads to a complete interpretability framework and theoretically allows reverse engineering. Explicit indicators of the influence of inputs on the output prediction (exemplified by Sobol' indices and Shapley effects) can be explicitly derived. Illustrated by numerical experiments, this type of analysis proves useful for addressing decision-support problems, based on binary decision diagrams, Boolean networks or binary neural networks. The article outlines perspectives for exploring high-dimensional settings and, beyond the case of binary inputs, extending these findings to models with finite countable inputs.

academic

Объяснение моделей при многомерном распределении Бернулли через разложение Хёффдинга

Основная информация

ID статьи: 2510.07088
Название: Explaining Models under Multivariate Bernoulli Distribution via Hoeffding Decomposition
Авторы: Baptiste Ferrere, Nicolas Bousquet, Fabrice Gamboa, Jean-Michel Loubes, Joseph Muré
Классификация: stat.ML cs.LG
Дата публикации: 10 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2510.07088

Аннотация

В данной статье исследуется проблема интерпретируемости предсказательных моделей со случайными входными данными путём разложения на подмодели для понимания поведения модели. На основе последних достижений в области количественной оценки неопределённости авторы предоставляют полное описание обобщённого разложения Хёффдинга для случая, когда входные переменные подчиняются многомерному распределению Бернулли. Исследование показывает, что в этом случае базовое подпространство L² является одномерным, а разложение функции является явным, что создаёт основу для полной структуры интерпретируемости, теоретически позволяющей проводить обратный инжиниринг. Авторы также выводят явные показатели влияния входных данных на выходные предсказания (такие как индексы Соболя и эффекты Шепли) и проверяют эффективность метода на задачах поддержки принятия решений посредством численных экспериментов.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Как объяснить поведение сложных предсказательных моделей с коррелированными двоичными входными переменными
Практическая необходимость: В машинном обучении и количественной оценке неопределённости входные переменные часто не являются независимыми, тогда как традиционное разложение Хёффдинга предполагает независимость, что является чрезмерно ограничивающим в практических приложениях
Области применения: Двоичные диаграммы решений, булевы сети, двоичные нейронные сети, представления молекулярной структуры, вероятностные булевы сети и др.

Исследовательская мотивация

Традиционное разложение Хёффдинга (HD) требует взаимной независимости входных переменных, что во многих практических приложениях нереалистично. Хотя теоретическая основа обобщённого разложения Хёффдинга (GHD) уже существует, отсутствуют явные методы конструирования для конкретных распределений. Многомерное распределение Бернулли как важный частный случай имеет широкое применение во многих областях.

Ограничения существующих методов

Предположение о независимости: Классическое HD требует независимости входных переменных, что ограничивает область применения
Вычислительная сложность: Существующие методы GHD не имеют явного конструирования и сложны в практическом вычислении
Недостаточная интерпретируемость: Отсутствует полная структура интерпретируемости для двоичных входных данных

Основные вклады

Теоретический вклад: Доказано, что подпространство L² в случае многомерного Бернулли является одномерным, предоставлено явное представление разложения функции
Конструктивный метод: На основе преобразования базиса Фурье-Уолша-Адамара предложен явный метод вычисления коэффициентов разложения
Структура интерпретируемости: Выведены явные выражения для обобщённых индексов Соболя и эффектов Шепли
Реализация алгоритма: Предоставлены методы усечённого приближения для многомерного случая и гарантии статистической оценки
Проверка приложений: Методология проверена на синтетических и реальных наборах данных

Подробное описание методологии

Определение задачи

Дан d-мерный многомерный случайный вектор Бернулли X = (X₁, ..., Xd) и квадратично интегрируемая функция G: {0,1}^d → R. Цель состоит в нахождении уникального разложения функции:

G(X) = ∑_{A∈P_D} G_A(X_A)

где P_D — это множество всех подмножеств {1,...,d}, разложение удовлетворяет условиям иерархической ортогональности.

Основная теоретическая структура

Разложение Хёффдинга многомерного Бернулли (MBHD)

Центральный теоретический результат — теорема 2.2, устанавливающая явное представление разложения:

Теорема 2.2: Пусть G: {0,1}^d → R, определим:

g(X) := (e_A(X_A)G(X)){A∈P_D}, где e_A(X_A) := (-1)^{∑{j∈A} X_j}/P_A(X_A)
Γ = (Γ_{A,B}){A,B∈P_D} — матрица Грама, Γ{A,B} := Ee_A(X_A)e_B(X_B)
μ — среднее значение g(X)

Тогда GHD задаётся формулой: G(X) = ∑_{A∈P_D} β_A e_A(X_A)

где коэффициенты β удовлетворяют линейной системе: Γβ = μ

Геометрическая интерпретация

Авторы также предоставляют геометрическую интерпретацию (следствие 2.3):

G(X) = ∑_{A∈P_D} ⟨G(X), e*_A(X)⟩e_A(X_A)

где e*_A(X) — косой двойственный вектор к e_A(X_A).

Технические инновации

Свойство одномерного подпространства: Доказано, что каждое пространство разложения Хёффдинга V_A в случае многомерного Бернулли является одномерным
Явное конструирование базиса: Базис преобразования Фурье-Уолша-Адамара {e_A(X_A)}_{A∈P_D} образует иерархически ортогональный базис
Решение линейной системы: Задача разложения преобразуется в решение 2^d-мерной линейной системы Γβ = μ
Свойство исключения: Доказано, что если некоторые переменные не оказывают причинного влияния на предсказание, то соответствующие коэффициенты β должны быть нулевыми

Показатели анализа чувствительности

Обобщённые индексы Соболя

Авторы выводят явное выражение для обобщённых индексов Соболя:

S_A := CovG(X), G_A(X_A)/VarG(X) = β_A β_B Γ_{A,B}/VarG(X)

Эти индексы удовлетворяют условию нормализации ∑_{A∈P_D} S_A = 1, но могут принимать отрицательные значения (при наличии сильной отрицательной корреляции).

Обобщённые эффекты Шепли

На основе дивидендов Харсаньи определены эффекты Шепли:

Sh_i = ∑_{A⊆D: i∈A} S_A/|A|

В случае многомерного Бернулли имеют явное выражение.

Экспериментальная установка

Синтетические эксперименты

Функции линейного порога: Разработан 10-мерный двоичный классификатор G(X) = sign(W^T X + b)
Контроль корреляции: Двоичные векторы с различными уровнями корреляции генерируются путём пороговой обработки многомерного гауссова распределения
Три уровня зависимости: Высокая зависимость (ρ=0.9), средняя зависимость (ρ=0.5), слабая зависимость (ρ=0.1)

Приложение деревьев решений

Двумерное параметрическое исследование: Использование копулы Фарли-Гумбеля-Моргенштерна для контроля структуры зависимости
Набор данных классификации грибов: Набор данных Agaricus-Lepiota из репозитория машинного обучения UCI, 8124 образца, 22 категориальных атрибута

Показатели оценки

Ошибка разложения дисперсии: ‖S^ρ - S^ρ_⊥‖₁, ‖S^ρ - S^ρ_⊥‖₂
Относительная ошибка: нормализованная ошибка относительно истинного значения
Производительность классификации: точность, полнота, F1-мера

Результаты экспериментов

Основные выводы

Влияние зависимости на разложение дисперсии

Эксперименты показывают, что игнорирование входной зависимости приводит к значительным ошибкам приближения:

При высокой зависимости относительная ошибка дисперсии достигает 87%
Относительная ошибка матрицы Соболя при высокой зависимости составляет 75%
По мере снижения корреляции ошибка значительно уменьшается

Результаты анализа дерева решений

Двумерный случай: Успешно восстановлено теоретическое конъюнктивное правило X₁X₂
Классификация грибов: Выявлены 5 ключевых двоичных правил, из которых правило запаха составляет 78.2% общей дисперсии
Иерархия важности признаков: X₁(запах) ≫ X₂(корень стебля) > {X₃,X₄,X₅}(другие признаки)

Статистические гарантии

Авторы предоставляют теоретические гарантии для оценивателей:

Сильная состоятельность: Ĝₙ(x) →^{a.s.} G(x)
Асимптотическая нормальность: центральная предельная теорема
Неасимптотические границы концентрации: неравенства типа Бернштейна

Вычислительная сложность и многомерное приближение

Проклятие размерности

Полное разложение требует решения 2^d-мерной линейной системы, что невозможно в многомерном случае.

Усечённое приближение

Предложен метод сохранения только низкоорядковых членов: G_(x) := ∑_{A∈P_D, |A|≤c} G_A(x_A)

Сложность снижается с O(2^d) до O(d^c), на практике обычно выбирается c ∈ {1,2,3}.

Разложение ошибки

Общая ошибка разлагается на смещение и дисперсию: E(G(x) - Ĝₙ,c(x))² = Смещение² + Дисперсия

Связанные работы

Теория разложения Хёффдинга

Классическое HD (Hoeffding 1948): предположение о независимости входных данных
Обобщённое HD (Chastaing et al. 2012): теоретическая основа для коррелированных входных данных
Последние достижения (Il Idrissi et al. 2025): теория косых проекций

Анализ чувствительности

Индексы Соболя: метод разложения дисперсии
Значения Шепли: метод из теории кооперативных игр
Ядерные методы: альтернативные подходы к обработке структур зависимости

Интерпретируемость машинного обучения

SHAP: метод объяснения на основе значений Шепли
LIME: метод локальной интерпретируемости
Механизмы внимания: интерпретируемость в глубоком обучении

Заключение и обсуждение

Основные выводы

GHD при многомерном распределении Бернулли имеет явную структуру одномерного подпространства
Предоставлен полный конструктивный метод разложения и вычислительная структура
Обобщённые показатели чувствительности могут быть вычислены явно с хорошими теоретическими свойствами
Метод имеет практическую ценность в поддержке принятия решений и объяснении моделей

Ограничения

Предположение о полной поддержке: Требуется положительная вероятность для всех 2^d конфигураций, что может быть чрезмерно строгим в многомерном случае
Вычислительная сложность: Экспоненциальная сложность полного разложения ограничивает многомерные приложения
Смещение усечения: Смещение, вводимое многомерным приближением, требует дальнейшего исследования

Направления будущих исследований

Теоретическое расширение: Ослабление предположения о полной поддержке, расширение на конечные счётные входные данные
Оптимизация алгоритма: Разработка более эффективных методов вычисления для многомерного случая
Расширение приложений: Исследование приложений в глубоком обучении и других моделях машинного обучения

Глубокая оценка

Преимущества

Теоретическая строгость: Предоставлена полная математическая теоретическая основа и доказательства
Методологическая инновативность: Впервые предоставлено явное разложение для случая многомерного Бернулли
Практическая ценность: Имеет прямое применение в объяснении моделей с двоичными входными данными
Полнота: Образует полную цепь от теории к алгоритмам и приложениям

Недостатки

Ограничение области применения: Применимо только к двоичным входным данным с требованием полной поддержки
Многомерные вызовы: Экспоненциальная сложность ограничивает крупномасштабные приложения
Ограниченная экспериментальная проверка: Главным образом проверено в низкомерных и специфических сценариях

Влияние

Теоретический вклад: Предоставляет важный частный случай для теории разложения функций
Методологическая ценность: Предоставляет новый инструмент для объяснения моделей с коррелированными двоичными входными данными
Потенциал приложений: Имеет широкие перспективы применения в области булевых функций, деревьев решений и др.

Применимые сценарии

Двоичные системы принятия решений: Такие как медицинская диагностика, оценка кредитоспособности и др.
Анализ булевых сетей: Сети регуляции генов, логические схемы и др.
Объяснение деревьев решений: Случайные леса, деревья градиентного бустинга и другие ансамблевые методы
Анализ интерпретируемости двоичных нейронных сетей: Анализ чувствительности квантованных нейронных сетей

Список литературы

Статья цитирует 50 соответствующих работ, охватывающих теорию разложения Хёффдинга, анализ чувствительности, интерпретируемость машинного обучения и другие области, предоставляя прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная статья с строгой теорией и инновационной методологией, которая вносит важный вклад в теорию разложения функций при многомерном распределении Бернулли. Хотя существуют вызовы в многомерных приложениях, она предоставляет мощный теоретический инструмент для анализа интерпретируемости моделей с двоичными входными данными.