2025-11-14T13:34:11.421709

Explaining Models under Multivariate Bernoulli Distribution via Hoeffding Decomposition

Ferrere, Bousquet, Gamboa et al.
Explaining the behavior of predictive models with random inputs can be achieved through sub-models decomposition, where such sub-models have easier interpretable features. Arising from the uncertainty quantification community, recent results have demonstrated the existence and uniqueness of a generalized Hoeffding decomposition for such predictive models when the stochastic input variables are correlated, based on concepts of oblique projection onto L 2 subspaces. This article focuses on the case where the input variables have Bernoulli distributions and provides a complete description of this decomposition. We show that in this case the underlying L 2 subspaces are one-dimensional and that the functional decomposition is explicit. This leads to a complete interpretability framework and theoretically allows reverse engineering. Explicit indicators of the influence of inputs on the output prediction (exemplified by Sobol' indices and Shapley effects) can be explicitly derived. Illustrated by numerical experiments, this type of analysis proves useful for addressing decision-support problems, based on binary decision diagrams, Boolean networks or binary neural networks. The article outlines perspectives for exploring high-dimensional settings and, beyond the case of binary inputs, extending these findings to models with finite countable inputs.
academic

Explaining Models under Multivariate Bernoulli Distribution via Hoeffding Decomposition

基本信息

  • 论文ID: 2510.07088
  • 标题: Explaining Models under Multivariate Bernoulli Distribution via Hoeffding Decomposition
  • 作者: Baptiste Ferrere, Nicolas Bousquet, Fabrice Gamboa, Jean-Michel Loubes, Joseph Muré
  • 分类: stat.ML cs.LG
  • 发表时间: 2025年10月10日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2510.07088

摘要

该论文研究了具有随机输入的预测模型的解释性问题,通过子模型分解实现模型行为的理解。基于不确定性量化领域的最新进展,论文针对输入变量服从多元伯努利分布的情况,提供了广义Hoeffding分解的完整描述。研究表明,在此情况下,底层L²子空间是一维的,函数分解是显式的,这为完整的可解释性框架奠定了基础,理论上允许逆向工程。论文还推导出了输入对输出预测影响的显式指标(如Sobol指数和Shapley效应),并通过数值实验验证了该方法在决策支持问题中的有效性。

研究背景与动机

问题定义

  1. 核心问题:如何解释具有相关二元输入变量的复杂预测模型的行为
  2. 现实需求:在机器学习和不确定性量化中,输入变量往往不是独立的,传统的Hoeffding分解假设独立性,这在实际应用中过于限制性
  3. 应用场景:二元决策图、布尔网络、二元神经网络、分子结构表示、概率布尔网络等

研究动机

传统的Hoeffding分解(HD)要求输入变量相互独立,这在许多实际应用中并不现实。虽然已有广义Hoeffding分解(GHD)的理论框架,但缺乏针对特定分布的显式构造方法。多元伯努利分布作为一个重要的特殊情况,在许多领域都有广泛应用。

现有方法局限性

  1. 独立性假设:经典HD要求输入变量独立,限制了应用范围
  2. 计算复杂性:现有GHD方法缺乏显式构造,难以实际计算
  3. 解释性不足:缺乏针对二元输入的完整可解释性框架

核心贡献

  1. 理论贡献:证明了多元伯努利情况下GHD的L²子空间是一维的,提供了显式的函数分解表示
  2. 构造性方法:基于Fourier-Walsh-Hadamard基的变换,给出了分解系数的显式计算方法
  3. 可解释性框架:推导出广义Sobol指数和Shapley效应的显式表达式
  4. 算法实现:提供了高维情况下的截断近似方法和统计估计保证
  5. 应用验证:在合成数据和真实数据集上验证了方法的有效性

方法详解

任务定义

给定一个d维多元伯努利随机向量X = (X₁, ..., Xd)和一个平方可积函数G: {0,1}d → R,目标是找到唯一的函数分解:

G(X) = ∑_{A∈P_D} G_A(X_A)

其中P_D是{1,...,d}的幂集,分解满足层次正交性条件。

核心理论框架

多元伯努利Hoeffding分解(MBHD)

论文的核心理论结果是定理2.2,建立了显式的分解表示:

定理2.2:设G: {0,1}d → R,定义:

  • g(X) := (e_A(X_A)G(X)){A∈P_D},其中e_A(X_A) := (-1)^{∑{j∈A} X_j}/P_A(X_A)
  • Γ = (Γ_{A,B}){A,B∈P_D}为Gram矩阵,Γ{A,B} := Ee_A(X_A)e_B(X_B)
  • μ为g(X)的均值

则GHD由下式给出: G(X) = ∑_{A∈P_D} β_A e_A(X_A)

其中系数β满足线性系统:Γβ = μ

几何解释

论文还提供了几何视角的理解(推论2.3):

G(X) = ∑_{A∈P_D} ⟨G(X), e*_A(X)⟩e_A(X_A)

其中e*_A(X)是e_A(X_A)的斜对偶向量。

技术创新点

  1. 一维子空间性质:证明了多元伯努利情况下每个Hoeffding分解空间V_A都是一维的
  2. 显式基构造:基于变换的Fourier-Walsh-Hadamard基{e_A(X_A)}_{A∈P_D}形成层次正交基
  3. 线性系统求解:将分解问题转化为求解2^d维线性系统Γβ = μ
  4. 排斥性质:证明了如果某些变量对预测无因果影响,则相应的β系数必为零

敏感性分析指标

广义Sobol指数

论文推导出广义Sobol指数的显式表达式:

S_A := CovG(X), G_A(X_A)/VarG(X) = β_A β_B Γ_{A,B}/VarG(X)

这些指数满足归一化条件∑_{A∈P_D} S_A = 1,但可能为负值(当存在强负相关时)。

广义Shapley效应

基于Harsanyi红利的Shapley效应定义:

Sh_i = ∑_{A⊆D: i∈A} S_A/|A|

在多元伯努利情况下具有显式表达式。

实验设置

合成实验

  1. 线性阈值函数:设计了10维二元分类器G(X) = sign(W^T X + b)
  2. 相关性控制:通过阈值化多元高斯分布生成不同相关水平的二元向量
  3. 三种依赖水平:高依赖(ρ=0.9)、中等依赖(ρ=0.5)、弱依赖(ρ=0.1)

决策树应用

  1. 二维参数化研究:使用Farlie-Gumbel-Morgenstern copula控制依赖结构
  2. 蘑菇分类数据集:UCI机器学习库的Agaricus-Lepiota数据集,8124个样本,22个分类属性

评价指标

  • 方差分解误差:‖S^ρ - S^ρ_⊥‖₁, ‖S^ρ - S^ρ_⊥‖₂
  • 相对误差:相对于真实值的归一化误差
  • 分类性能:精确率、召回率、F1分数

实验结果

主要发现

依赖性对方差分解的影响

实验显示,忽略输入依赖性会导致显著的近似误差:

  • 高依赖情况下,相对方差误差达到87%
  • Sobol矩阵的相对误差在高依赖时为75%
  • 随着相关性降低,误差显著减少

决策树分析结果

  1. 二维案例:成功恢复了理论上的conjunctive规则X₁X₂
  2. 蘑菇分类:识别出5个关键二元规则,其中气味规则占总方差的78.2%
  3. 特征重要性层次:X₁(气味) ≫ X₂(茎根) > {X₃,X₄,X₅}(其他特征)

统计保证

论文提供了估计器的理论保证:

  • 强一致性:Ĝₙ(x) →^{a.s.} G(x)
  • 渐近正态性:中心极限定理
  • 非渐近集中界:Bernstein型不等式

计算复杂性与高维近似

维数灾难

完整分解需要求解2^d维线性系统,在高维情况下不可行。

截断近似

提出了保留低阶项的截断方法: G_(x) := ∑_{A∈P_D, |A|≤c} G_A(x_A)

复杂度从O(2^d)降为O(d^c),实践中通常选择c ∈ {1,2,3}。

误差分解

总误差分解为偏差和方差两部分: E(G(x) - Ĝₙ,c(x))² = 偏差² + 方差

相关工作

Hoeffding分解理论

  • 经典HD(Hoeffding 1948):独立输入假设
  • 广义HD(Chastaing et al. 2012):相关输入的理论框架
  • 最新进展(Il Idrissi et al. 2025):斜投影理论

敏感性分析

  • Sobol指数:方差分解方法
  • Shapley值:合作博弈论方法
  • 核方法:处理依赖结构的替代方法

机器学习可解释性

  • SHAP:基于Shapley值的解释方法
  • LIME:局部可解释性方法
  • 注意力机制:深度学习中的可解释性

结论与讨论

主要结论

  1. 多元伯努利分布下的GHD具有显式的一维子空间结构
  2. 提供了完整的构造性分解方法和计算框架
  3. 广义敏感性指标可以显式计算,具有良好的理论性质
  4. 方法在决策支持和模型解释中具有实用价值

局限性

  1. 全支撑假设:要求所有2^d个配置都有正概率,在高维情况下可能过于严格
  2. 计算复杂性:完整分解的指数复杂度限制了高维应用
  3. 截断偏差:高维近似引入的偏差需要进一步研究

未来方向

  1. 理论扩展:放宽全支撑假设,扩展到有限可数输入
  2. 算法优化:开发更高效的高维计算方法
  3. 应用拓展:探索在深度学习和其他机器学习模型中的应用

深度评价

优点

  1. 理论严谨性:提供了完整的数学理论框架和证明
  2. 方法创新性:首次给出多元伯努利情况下的显式分解
  3. 实用价值:在二元输入模型解释中具有直接应用价值
  4. 完整性:从理论到算法到应用形成完整链条

不足

  1. 适用范围限制:仅适用于二元输入,且需要全支撑假设
  2. 高维挑战:指数复杂度限制了大规模应用
  3. 实验验证有限:主要在低维和特定场景下验证

影响力

  1. 理论贡献:为函数分解理论提供了重要的特殊情况
  2. 方法论价值:为处理相关二元输入的模型解释提供了新工具
  3. 应用潜力:在布尔函数、决策树等领域有广泛应用前景

适用场景

  1. 二元决策系统:如医疗诊断、信用评估等
  2. 布尔网络分析:基因调控网络、逻辑电路等
  3. 决策树解释:随机森林、梯度提升树等集成方法
  4. 二元神经网络:量化神经网络的可解释性分析

参考文献

论文引用了50篇相关文献,涵盖了Hoeffding分解理论、敏感性分析、机器学习可解释性等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇理论严谨、方法创新的高质量论文,在多元伯努利分布的函数分解理论方面做出了重要贡献。虽然在高维应用方面存在挑战,但为二元输入模型的可解释性分析提供了强有力的理论工具。