2025-11-14T13:34:11.421709

Explaining Models under Multivariate Bernoulli Distribution via Hoeffding Decomposition

Ferrere, Bousquet, Gamboa et al.
Explaining the behavior of predictive models with random inputs can be achieved through sub-models decomposition, where such sub-models have easier interpretable features. Arising from the uncertainty quantification community, recent results have demonstrated the existence and uniqueness of a generalized Hoeffding decomposition for such predictive models when the stochastic input variables are correlated, based on concepts of oblique projection onto L 2 subspaces. This article focuses on the case where the input variables have Bernoulli distributions and provides a complete description of this decomposition. We show that in this case the underlying L 2 subspaces are one-dimensional and that the functional decomposition is explicit. This leads to a complete interpretability framework and theoretically allows reverse engineering. Explicit indicators of the influence of inputs on the output prediction (exemplified by Sobol' indices and Shapley effects) can be explicitly derived. Illustrated by numerical experiments, this type of analysis proves useful for addressing decision-support problems, based on binary decision diagrams, Boolean networks or binary neural networks. The article outlines perspectives for exploring high-dimensional settings and, beyond the case of binary inputs, extending these findings to models with finite countable inputs.
academic

Explicación de Modelos bajo Distribución Bernoulli Multivariante mediante Descomposición de Hoeffding

Información Básica

  • ID del Artículo: 2510.07088
  • Título: Explaining Models under Multivariate Bernoulli Distribution via Hoeffding Decomposition
  • Autores: Baptiste Ferrere, Nicolas Bousquet, Fabrice Gamboa, Jean-Michel Loubes, Joseph Muré
  • Clasificación: stat.ML cs.LG
  • Fecha de Publicación: 10 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2510.07088

Resumen

Este artículo investiga el problema de interpretabilidad de modelos predictivos con entradas aleatorias mediante descomposición de submodelos para comprender el comportamiento del modelo. Basándose en avances recientes en el campo de la cuantificación de incertidumbre, el artículo proporciona una descripción completa de la descomposición de Hoeffding generalizada para el caso en que las variables de entrada siguen una distribución Bernoulli multivariante. El estudio demuestra que en este caso, el subespacio L² subyacente es unidimensional y la descomposición de funciones es explícita, lo que sienta las bases para un marco de interpretabilidad completo que teóricamente permite la ingeniería inversa. El artículo también deriva indicadores explícitos del impacto de las entradas en la predicción de salida (como índices de Sobol y efectos de Shapley), y verifica la efectividad del método en problemas de apoyo a la toma de decisiones mediante experimentos numéricos.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Cómo explicar el comportamiento de modelos predictivos complejos con variables de entrada binarias correlacionadas
  2. Necesidad Práctica: En aprendizaje automático y cuantificación de incertidumbre, las variables de entrada a menudo no son independientes. La descomposición de Hoeffding tradicional asume independencia, lo que es demasiado restrictivo en aplicaciones prácticas
  3. Escenarios de Aplicación: Diagramas de decisión binaria, redes booleanas, redes neuronales binarias, representación de estructuras moleculares, redes booleanas probabilísticas, etc.

Motivación de la Investigación

La descomposición de Hoeffding tradicional (HD) requiere que las variables de entrada sean mutuamente independientes, lo que no es realista en muchas aplicaciones prácticas. Aunque existe un marco teórico para la descomposición de Hoeffding generalizada (GHD), carecen de métodos de construcción explícitos para distribuciones específicas. La distribución Bernoulli multivariante, como caso especial importante, tiene aplicaciones generalizadas en muchos campos.

Limitaciones de Métodos Existentes

  1. Supuesto de Independencia: La HD clásica requiere independencia de variables de entrada, limitando el rango de aplicación
  2. Complejidad Computacional: Los métodos GHD existentes carecen de construcción explícita, lo que dificulta el cálculo práctico
  3. Interpretabilidad Insuficiente: Falta un marco de interpretabilidad completo para entradas binarias

Contribuciones Principales

  1. Contribución Teórica: Demuestra que el subespacio L² de GHD en el caso Bernoulli multivariante es unidimensional, proporcionando una representación de descomposición de funciones explícita
  2. Método Constructivo: Basado en la transformación de base Fourier-Walsh-Hadamard, proporciona un método de cálculo explícito para coeficientes de descomposición
  3. Marco de Interpretabilidad: Deriva expresiones explícitas para índices de Sobol generalizados y efectos de Shapley
  4. Implementación de Algoritmos: Proporciona métodos de aproximación truncada para casos de alta dimensionalidad y garantías de estimación estadística
  5. Verificación de Aplicación: Verifica la efectividad del método en conjuntos de datos sintéticos y reales

Explicación Detallada del Método

Definición de la Tarea

Dado un vector aleatorio Bernoulli multivariante d-dimensional X = (X₁, ..., Xd) y una función cuadrada integrable G: {0,1}^d → ℝ, el objetivo es encontrar la descomposición de función única:

G(X) = ∑_{A∈P_D} G_A(X_A)

donde P_D es el conjunto potencia de {1,...,d}, y la descomposición satisface condiciones de ortogonalidad jerárquica.

Marco Teórico Principal

Descomposición de Hoeffding Bernoulli Multivariante (MBHD)

El resultado teórico central del artículo es el Teorema 2.2, que establece la representación de descomposición explícita:

Teorema 2.2: Sea G: {0,1}^d → ℝ, defina:

  • g(X) := (e_A(X_A)G(X)){A∈P_D}, donde e_A(X_A) := (-1)^{∑{j∈A} X_j}/P_A(X_A)
  • Γ = (Γ_{A,B}){A,B∈P_D} como matriz de Gram, Γ{A,B} := Ee_A(X_A)e_B(X_B)
  • μ como media de g(X)

Entonces GHD viene dado por: G(X) = ∑_{A∈P_D} β_A e_A(X_A)

donde los coeficientes β satisfacen el sistema lineal: Γβ = μ

Interpretación Geométrica

El artículo también proporciona una comprensión desde la perspectiva geométrica (Corolario 2.3):

G(X) = ∑_{A∈P_D} ⟨G(X), e*_A(X)⟩e_A(X_A)

donde e*_A(X) es el vector dual sesgado de e_A(X_A).

Puntos de Innovación Técnica

  1. Propiedad de Subespacio Unidimensional: Demuestra que cada espacio de descomposición de Hoeffding V_A en el caso Bernoulli multivariante es unidimensional
  2. Construcción de Base Explícita: La base Fourier-Walsh-Hadamard transformada {e_A(X_A)}_{A∈P_D} forma una base jerárquicamente ortogonal
  3. Resolución de Sistema Lineal: Transforma el problema de descomposición en la resolución de un sistema lineal 2^d-dimensional Γβ = μ
  4. Propiedad de Exclusión: Demuestra que si ciertas variables no tienen impacto causal en la predicción, entonces los coeficientes β correspondientes deben ser cero

Indicadores de Análisis de Sensibilidad

Índices de Sobol Generalizados

El artículo deriva la expresión explícita para índices de Sobol generalizados:

S_A := CovG(X), G_A(X_A)/VarG(X) = β_A β_B Γ_{A,B}/VarG(X)

Estos índices satisfacen la condición de normalización ∑_{A∈P_D} S_A = 1, pero pueden ser negativos (cuando existe fuerte correlación negativa).

Efectos de Shapley Generalizados

Definición de efectos de Shapley basada en dividendos de Harsanyi:

Sh_i = ∑_{A⊆D: i∈A} S_A/|A|

Posee expresiones explícitas en el caso Bernoulli multivariante.

Configuración Experimental

Experimentos Sintéticos

  1. Funciones de Umbral Lineal: Se diseñó un clasificador binario 10-dimensional G(X) = sign(W^T X + b)
  2. Control de Correlación: Se generan vectores binarios con diferentes niveles de correlación mediante umbralización de distribución gaussiana multivariante
  3. Tres Niveles de Dependencia: Alta dependencia (ρ=0.9), dependencia media (ρ=0.5), dependencia débil (ρ=0.1)

Aplicación de Árboles de Decisión

  1. Estudio Parametrizado Bidimensional: Uso de cópula Farlie-Gumbel-Morgenstern para controlar la estructura de dependencia
  2. Conjunto de Datos de Clasificación de Hongos: Conjunto de datos Agaricus-Lepiota de la biblioteca de aprendizaje automático UCI, 8124 muestras, 22 atributos categóricos

Métricas de Evaluación

  • Error de descomposición de varianza: ‖S^ρ - S^ρ_⊥‖₁, ‖S^ρ - S^ρ_⊥‖₂
  • Error relativo: Error normalizado relativo al valor verdadero
  • Desempeño de clasificación: Precisión, recuperación, puntuación F1

Resultados Experimentales

Hallazgos Principales

Impacto de la Dependencia en la Descomposición de Varianza

Los experimentos muestran que ignorar la dependencia de entrada resulta en errores de aproximación significativos:

  • En casos de alta dependencia, el error de varianza relativa alcanza el 87%
  • El error relativo de la matriz de Sobol es del 75% en alta dependencia
  • A medida que disminuye la correlación, el error disminuye significativamente

Resultados del Análisis de Árbol de Decisión

  1. Caso Bidimensional: Recuperó exitosamente la regla conjuntiva teórica X₁X₂
  2. Clasificación de Hongos: Identificó 5 reglas binarias clave, con la regla de olor representando el 78.2% de la varianza total
  3. Jerarquía de Importancia de Características: X₁(olor) ≫ X₂(raíz del tallo) > {X₃,X₄,X₅}(otras características)

Garantías Estadísticas

El artículo proporciona garantías teóricas para estimadores:

  • Consistencia fuerte: Ĝₙ(x) →^{a.s.} G(x)
  • Normalidad Asintótica: Teorema del Límite Central
  • Límites de Concentración No Asintóticos: Desigualdades tipo Bernstein

Complejidad Computacional y Aproximación de Alta Dimensionalidad

Maldición de la Dimensionalidad

La descomposición completa requiere resolver un sistema lineal 2^d-dimensional, lo que no es viable en casos de alta dimensionalidad.

Aproximación Truncada

Se propone un método truncado que retiene términos de bajo orden: G_(x) := ∑_{A∈P_D, |A|≤c} G_A(x_A)

La complejidad se reduce de O(2^d) a O(d^c), donde típicamente se elige c ∈ {1,2,3} en la práctica.

Descomposición de Error

El error total se descompone en sesgo y varianza: E(G(x) - Ĝₙ,c(x))² = Sesgo² + Varianza

Trabajo Relacionado

Teoría de Descomposición de Hoeffding

  • HD Clásica (Hoeffding 1948): Supuesto de independencia de entrada
  • HD Generalizada (Chastaing et al. 2012): Marco teórico para entradas correlacionadas
  • Avances Recientes (Il Idrissi et al. 2025): Teoría de proyección sesgada

Análisis de Sensibilidad

  • Índices de Sobol: Método de descomposición de varianza
  • Valores de Shapley: Método de teoría de juegos cooperativos
  • Métodos de Kernel: Enfoque alternativo para manejar estructuras de dependencia

Interpretabilidad del Aprendizaje Automático

  • SHAP: Método de explicación basado en valores de Shapley
  • LIME: Método de interpretabilidad local
  • Mecanismos de Atención: Interpretabilidad en aprendizaje profundo

Conclusiones y Discusión

Conclusiones Principales

  1. La GHD bajo distribución Bernoulli multivariante posee una estructura de subespacio unidimensional explícita
  2. Proporciona un método de descomposición constructivo completo y marco computacional
  3. Los indicadores de sensibilidad generalizados pueden calcularse explícitamente con buenas propiedades teóricas
  4. El método tiene valor práctico en apoyo a la toma de decisiones e interpretación de modelos

Limitaciones

  1. Supuesto de Soporte Completo: Requiere que todas las 2^d configuraciones tengan probabilidad positiva, lo que puede ser demasiado estricto en casos de alta dimensionalidad
  2. Complejidad Computacional: La complejidad exponencial de la descomposición completa limita las aplicaciones de alta dimensionalidad
  3. Sesgo de Truncamiento: El sesgo introducido por la aproximación de alta dimensionalidad requiere investigación adicional

Direcciones Futuras

  1. Extensión Teórica: Relajar el supuesto de soporte completo, extender a entrada contable finita
  2. Optimización de Algoritmos: Desarrollar métodos computacionales más eficientes para alta dimensionalidad
  3. Extensión de Aplicaciones: Explorar aplicaciones en aprendizaje profundo y otros modelos de aprendizaje automático

Evaluación Profunda

Ventajas

  1. Rigor Teórico: Proporciona un marco matemático completo y pruebas rigurosas
  2. Innovación del Método: Primera presentación de descomposición explícita en el caso Bernoulli multivariante
  3. Valor Práctico: Tiene valor de aplicación directa en la explicación de modelos con entrada binaria
  4. Completitud: Forma una cadena completa desde teoría hasta algoritmo hasta aplicación

Insuficiencias

  1. Limitación del Rango de Aplicabilidad: Solo aplicable a entrada binaria, requiere supuesto de soporte completo
  2. Desafío de Alta Dimensionalidad: La complejidad exponencial limita aplicaciones a gran escala
  3. Verificación Experimental Limitada: Principalmente verificada en escenarios de baja dimensionalidad y específicos

Impacto

  1. Contribución Teórica: Proporciona un caso especial importante para la teoría de descomposición de funciones
  2. Valor Metodológico: Proporciona nuevas herramientas para la explicación de modelos con entrada binaria correlacionada
  3. Potencial de Aplicación: Amplio potencial de aplicación en funciones booleanas, árboles de decisión y otros campos

Escenarios Aplicables

  1. Sistemas de Decisión Binaria: Como diagnóstico médico, evaluación de crédito, etc.
  2. Análisis de Redes Booleanas: Redes de regulación génica, circuitos lógicos, etc.
  3. Explicación de Árboles de Decisión: Bosques aleatorios, árboles de aumento de gradiente y otros métodos de conjunto
  4. Análisis de Interpretabilidad de Redes Neuronales Binarias: Análisis de interpretabilidad de redes neuronales cuantificadas

Referencias

El artículo cita 50 referencias relacionadas, cubriendo múltiples campos incluyendo teoría de descomposición de Hoeffding, análisis de sensibilidad, interpretabilidad del aprendizaje automático, etc., proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de alta calidad con teoría rigurosa e innovación metodológica, que hace contribuciones importantes a la teoría de descomposición de funciones bajo distribución Bernoulli multivariante. Aunque existen desafíos en aplicaciones de alta dimensionalidad, proporciona herramientas teóricas poderosas para el análisis de interpretabilidad de modelos con entrada binaria.