2025-11-14T13:34:11.421709

Explaining Models under Multivariate Bernoulli Distribution via Hoeffding Decomposition

Ferrere, Bousquet, Gamboa et al.
Explaining the behavior of predictive models with random inputs can be achieved through sub-models decomposition, where such sub-models have easier interpretable features. Arising from the uncertainty quantification community, recent results have demonstrated the existence and uniqueness of a generalized Hoeffding decomposition for such predictive models when the stochastic input variables are correlated, based on concepts of oblique projection onto L 2 subspaces. This article focuses on the case where the input variables have Bernoulli distributions and provides a complete description of this decomposition. We show that in this case the underlying L 2 subspaces are one-dimensional and that the functional decomposition is explicit. This leads to a complete interpretability framework and theoretically allows reverse engineering. Explicit indicators of the influence of inputs on the output prediction (exemplified by Sobol' indices and Shapley effects) can be explicitly derived. Illustrated by numerical experiments, this type of analysis proves useful for addressing decision-support problems, based on binary decision diagrams, Boolean networks or binary neural networks. The article outlines perspectives for exploring high-dimensional settings and, beyond the case of binary inputs, extending these findings to models with finite countable inputs.
academic

Spiegazione dei Modelli sotto Distribuzione di Bernoulli Multivariata tramite Decomposizione di Hoeffding

Informazioni Fondamentali

  • ID Articolo: 2510.07088
  • Titolo: Explaining Models under Multivariate Bernoulli Distribution via Hoeffding Decomposition
  • Autori: Baptiste Ferrere, Nicolas Bousquet, Fabrice Gamboa, Jean-Michel Loubes, Joseph Muré
  • Classificazione: stat.ML cs.LG
  • Data di Pubblicazione: 10 ottobre 2025 (arXiv v2)
  • Link Articolo: https://arxiv.org/abs/2510.07088

Riassunto

L'articolo affronta il problema dell'interpretabilità dei modelli predittivi con input casuali attraverso la decomposizione di sottomodelli per comprendere il comportamento del modello. Basandosi sui recenti progressi nel campo della quantificazione dell'incertezza, l'articolo fornisce una descrizione completa della decomposizione di Hoeffding generalizzata per il caso in cui le variabili di input seguono una distribuzione di Bernoulli multivariata. La ricerca dimostra che in questo caso lo spazio L² sottostante è unidimensionale e la decomposizione della funzione è esplicita, gettando le basi per un quadro completo di interpretabilità che teoricamente consente l'ingegneria inversa. L'articolo inoltre deriva indicatori espliciti dell'impatto degli input sulla previsione dell'output (come gli indici di Sobol e gli effetti di Shapley) e verifica il metodo attraverso esperimenti numerici nella sua efficacia per i problemi di supporto decisionale.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema centrale: Come spiegare il comportamento di modelli predittivi complessi con variabili di input binarie correlate
  2. Necessità pratica: Nell'apprendimento automatico e nella quantificazione dell'incertezza, le variabili di input spesso non sono indipendenti; la decomposizione tradizionale di Hoeffding assume l'indipendenza, il che è eccessivamente restrittivo nelle applicazioni pratiche
  3. Scenari applicativi: Diagrammi di decisione binaria, reti booleane, reti neurali binarie, rappresentazioni di strutture molecolari, reti booleane probabilistiche

Motivazione della Ricerca

La decomposizione tradizionale di Hoeffding (HD) richiede che le variabili di input siano mutuamente indipendenti, il che non è realistico in molte applicazioni pratiche. Sebbene esista un quadro teorico per la decomposizione di Hoeffding generalizzata (GHD), mancano metodi di costruzione espliciti per distribuzioni specifiche. La distribuzione di Bernoulli multivariata, come caso speciale importante, ha applicazioni diffuse in molti campi.

Limitazioni dei Metodi Esistenti

  1. Assunzione di indipendenza: L'HD classico richiede l'indipendenza delle variabili di input, limitando l'ambito di applicazione
  2. Complessità computazionale: I metodi GHD esistenti mancano di costruzione esplicita, rendendo difficile il calcolo pratico
  3. Interpretabilità insufficiente: Manca un quadro completo di interpretabilità per input binari

Contributi Principali

  1. Contributo teorico: Dimostra che lo spazio L² della GHD nel caso di Bernoulli multivariata è unidimensionale, fornendo una rappresentazione di decomposizione della funzione esplicita
  2. Metodo costruttivo: Basato sulla trasformazione della base di Fourier-Walsh-Hadamard, fornisce un metodo di calcolo esplicito per i coefficienti di decomposizione
  3. Quadro di interpretabilità: Deriva espressioni esplicite per gli indici di Sobol generalizzati e gli effetti di Shapley
  4. Implementazione algoritmica: Fornisce metodi di approssimazione per troncamento in casi ad alta dimensionalità e garanzie di stima statistica
  5. Verifica applicativa: Verifica l'efficacia del metodo su dati sintetici e dataset reali

Dettagli del Metodo

Definizione del Compito

Dato un vettore casuale di Bernoulli multivariato d-dimensionale X = (X₁, ..., Xd) e una funzione quadraticamente integrabile G: {0,1}^d → R, l'obiettivo è trovare l'unica decomposizione della funzione:

G(X) = ∑_{A∈P_D} G_A(X_A)

dove P_D è l'insieme potenza di {1,...,d}, e la decomposizione soddisfa le condizioni di ortogonalità gerarchica.

Quadro Teorico Centrale

Decomposizione di Hoeffding di Bernoulli Multivariata (MBHD)

Il risultato teorico centrale dell'articolo è il Teorema 2.2, che stabilisce la rappresentazione di decomposizione esplicita:

Teorema 2.2: Sia G: {0,1}^d → R, si definisca:

  • g(X) := (e_A(X_A)G(X)){A∈P_D}, dove e_A(X_A) := (-1)^{∑{j∈A} X_j}/P_A(X_A)
  • Γ = (Γ_{A,B}){A,B∈P_D} come matrice di Gram, Γ{A,B} := Ee_A(X_A)e_B(X_B)
  • μ come media di g(X)

Allora la GHD è data da: G(X) = ∑_{A∈P_D} β_A e_A(X_A)

dove i coefficienti β soddisfano il sistema lineare: Γβ = μ

Interpretazione Geometrica

L'articolo fornisce anche un'interpretazione dal punto di vista geometrico (Corollario 2.3):

G(X) = ∑_{A∈P_D} ⟨G(X), e*_A(X)⟩e_A(X_A)

dove e*_A(X) è il vettore duale obliquo di e_A(X_A).

Punti di Innovazione Tecnica

  1. Proprietà dello spazio unidimensionale: Dimostra che ogni spazio di decomposizione di Hoeffding V_A nel caso di Bernoulli multivariata è unidimensionale
  2. Costruzione esplicita della base: La base di Fourier-Walsh-Hadamard trasformata {e_A(X_A)}_{A∈P_D} forma una base gerarchicamente ortogonale
  3. Risoluzione del sistema lineare: Trasforma il problema di decomposizione nella risoluzione di un sistema lineare 2^d-dimensionale Γβ = μ
  4. Proprietà di esclusione: Dimostra che se alcune variabili non hanno impatto causale sulla previsione, i corrispondenti coefficienti β devono essere nulli

Indicatori di Analisi di Sensibilità

Indici di Sobol Generalizzati

L'articolo deriva l'espressione esplicita per gli indici di Sobol generalizzati:

S_A := CovG(X), G_A(X_A)/VarG(X) = β_A β_B Γ_{A,B}/VarG(X)

Questi indici soddisfano la condizione di normalizzazione ∑_{A∈P_D} S_A = 1, ma possono assumere valori negativi (quando esiste una forte correlazione negativa).

Effetti di Shapley Generalizzati

L'effetto di Shapley basato sul dividendo di Harsanyi è definito come:

Sh_i = ∑_{A⊆D: i∈A} S_A/|A|

Nel caso di Bernoulli multivariata ha un'espressione esplicita.

Configurazione Sperimentale

Esperimenti Sintetici

  1. Funzioni di soglia lineare: Progetta classificatori binari 10-dimensionali G(X) = sign(W^T X + b)
  2. Controllo della correlazione: Genera vettori binari con diversi livelli di correlazione attraverso la sogliatura di distribuzioni gaussiane multivariate
  3. Tre livelli di dipendenza: Dipendenza alta (ρ=0.9), dipendenza media (ρ=0.5), dipendenza debole (ρ=0.1)

Applicazione agli Alberi Decisionali

  1. Studio parametrico bidimensionale: Utilizza la copula di Farlie-Gumbel-Morgenstern per controllare la struttura di dipendenza
  2. Dataset di classificazione dei funghi: Dataset Agaricus-Lepiota della libreria UCI Machine Learning, 8124 campioni, 22 attributi categorici

Metriche di Valutazione

  • Errore di decomposizione della varianza: ‖S^ρ - S^ρ_⊥‖₁, ‖S^ρ - S^ρ_⊥‖₂
  • Errore relativo: Errore normalizzato rispetto al valore vero
  • Prestazioni di classificazione: Precisione, Recall, F1-score

Risultati Sperimentali

Scoperte Principali

Impatto della Dipendenza sulla Decomposizione della Varianza

Gli esperimenti mostrano che ignorare la dipendenza dell'input porta a errori di approssimazione significativi:

  • Nel caso di alta dipendenza, l'errore relativo di varianza raggiunge l'87%
  • L'errore relativo della matrice di Sobol è del 75% in caso di alta dipendenza
  • Con la diminuzione della correlazione, l'errore diminuisce significativamente

Risultati dell'Analisi degli Alberi Decisionali

  1. Caso bidimensionale: Recupera con successo la regola congiuntiva teorica X₁X₂
  2. Classificazione dei funghi: Identifica 5 regole binarie critiche, di cui la regola dell'odore rappresenta l'78.2% della varianza totale
  3. Gerarchia di importanza delle caratteristiche: X₁(odore) ≫ X₂(radice dello stelo) > {X₃,X₄,X₅}(altre caratteristiche)

Garanzie Statistiche

L'articolo fornisce garanzie teoriche per gli stimatori:

  • Coerenza forte: Ĝₙ(x) →^{a.s.} G(x)
  • Normalità asintotica: Teorema del limite centrale
  • Limiti di concentrazione non asintotici: Disuguaglianze di tipo Bernstein

Complessità Computazionale e Approssimazione ad Alta Dimensionalità

Maledizione della Dimensionalità

La decomposizione completa richiede la risoluzione di un sistema lineare 2^d-dimensionale, il che non è fattibile in casi ad alta dimensionalità.

Approssimazione per Troncamento

Propone un metodo di troncamento che conserva solo i termini di ordine basso: G_(x) := ∑_{A∈P_D, |A|≤c} G_A(x_A)

La complessità si riduce da O(2^d) a O(d^c), dove nella pratica si sceglie tipicamente c ∈ {1,2,3}.

Decomposizione dell'Errore

L'errore totale si decompone in bias e varianza: E(G(x) - Ĝₙ,c(x))² = Bias² + Varianza

Lavori Correlati

Teoria della Decomposizione di Hoeffding

  • HD classico (Hoeffding 1948): Assunzione di input indipendenti
  • HD generalizzato (Chastaing et al. 2012): Quadro teorico per input correlati
  • Progressi recenti (Il Idrissi et al. 2025): Teoria della proiezione obliqua

Analisi di Sensibilità

  • Indici di Sobol: Metodo di decomposizione della varianza
  • Valori di Shapley: Metodo della teoria dei giochi cooperativi
  • Metodi kernel: Approcci alternativi per gestire strutture di dipendenza

Interpretabilità dell'Apprendimento Automatico

  • SHAP: Metodo di spiegazione basato sui valori di Shapley
  • LIME: Metodo di interpretabilità locale
  • Meccanismi di attenzione: Interpretabilità nell'apprendimento profondo

Conclusioni e Discussione

Conclusioni Principali

  1. La GHD sotto distribuzione di Bernoulli multivariata ha una struttura di sottospazio unidimensionale esplicita
  2. Fornisce un metodo di decomposizione costruttivo completo e un quadro computazionale
  3. Gli indicatori di sensibilità generalizzati possono essere calcolati esplicitamente con buone proprietà teoriche
  4. Il metodo ha valore pratico nel supporto decisionale e nell'interpretazione dei modelli

Limitazioni

  1. Assunzione di supporto completo: Richiede che tutte le 2^d configurazioni abbiano probabilità positiva, il che potrebbe essere eccessivamente restrittivo in casi ad alta dimensionalità
  2. Complessità computazionale: La complessità esponenziale della decomposizione completa limita le applicazioni ad alta dimensionalità
  3. Bias da troncamento: Il bias introdotto dall'approssimazione ad alta dimensionalità richiede ulteriori ricerche

Direzioni Future

  1. Estensione teorica: Allentare l'assunzione di supporto completo, estendere a input finiti numerabili
  2. Ottimizzazione algoritmica: Sviluppare metodi computazionali più efficienti per casi ad alta dimensionalità
  3. Estensione applicativa: Esplorare applicazioni nell'apprendimento profondo e in altri modelli di apprendimento automatico

Valutazione Approfondita

Punti di Forza

  1. Rigore teorico: Fornisce un quadro matematico completo e prove rigorose
  2. Innovazione metodologica: Fornisce per la prima volta una decomposizione esplicita nel caso di Bernoulli multivariata
  3. Valore pratico: Ha valore di applicazione diretta nell'interpretazione di modelli con input binari
  4. Completezza: Forma una catena completa dalla teoria all'algoritmo all'applicazione

Insufficienze

  1. Limitazioni dell'ambito di applicazione: Applicabile solo a input binari e richiede l'assunzione di supporto completo
  2. Sfide ad alta dimensionalità: La complessità esponenziale limita le applicazioni su larga scala
  3. Verifica sperimentale limitata: Principalmente verificata in casi a bassa dimensionalità e scenari specifici

Impatto

  1. Contributo teorico: Fornisce un caso speciale importante per la teoria della decomposizione di funzioni
  2. Valore metodologico: Fornisce nuovi strumenti per l'interpretazione di modelli con input binari correlati
  3. Potenziale applicativo: Ampio potenziale di applicazione nei campi delle funzioni booleane, alberi decisionali e altri

Scenari Applicabili

  1. Sistemi decisionali binari: Come diagnosi medica, valutazione del credito, ecc.
  2. Analisi di reti booleane: Reti di regolazione genica, circuiti logici, ecc.
  3. Interpretazione di alberi decisionali: Foreste casuali, alberi con potenziamento del gradiente e altri metodi ensemble
  4. Analisi di interpretabilità di reti neurali binarie: Analisi di interpretabilità di reti neurali quantizzate

Riferimenti Bibliografici

L'articolo cita 50 lavori correlati, coprendo molteplici campi come la teoria della decomposizione di Hoeffding, l'analisi di sensibilità e l'interpretabilità dell'apprendimento automatico, fornendo una solida base teorica per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità con rigore teorico e innovazione metodologica, che apporta contributi importanti alla teoria della decomposizione di funzioni sotto distribuzione di Bernoulli multivariata. Sebbene presenti sfide nelle applicazioni ad alta dimensionalità, fornisce strumenti teorici potenti per l'analisi di interpretabilità di modelli con input binari.