Explaining the behavior of predictive models with random inputs can be achieved through sub-models decomposition, where such sub-models have easier interpretable features. Arising from the uncertainty quantification community, recent results have demonstrated the existence and uniqueness of a generalized Hoeffding decomposition for such predictive models when the stochastic input variables are correlated, based on concepts of oblique projection onto L 2 subspaces. This article focuses on the case where the input variables have Bernoulli distributions and provides a complete description of this decomposition. We show that in this case the underlying L 2 subspaces are one-dimensional and that the functional decomposition is explicit. This leads to a complete interpretability framework and theoretically allows reverse engineering. Explicit indicators of the influence of inputs on the output prediction (exemplified by Sobol' indices and Shapley effects) can be explicitly derived. Illustrated by numerical experiments, this type of analysis proves useful for addressing decision-support problems, based on binary decision diagrams, Boolean networks or binary neural networks. The article outlines perspectives for exploring high-dimensional settings and, beyond the case of binary inputs, extending these findings to models with finite countable inputs.
- ID Articolo: 2510.07088
- Titolo: Explaining Models under Multivariate Bernoulli Distribution via Hoeffding Decomposition
- Autori: Baptiste Ferrere, Nicolas Bousquet, Fabrice Gamboa, Jean-Michel Loubes, Joseph Muré
- Classificazione: stat.ML cs.LG
- Data di Pubblicazione: 10 ottobre 2025 (arXiv v2)
- Link Articolo: https://arxiv.org/abs/2510.07088
L'articolo affronta il problema dell'interpretabilità dei modelli predittivi con input casuali attraverso la decomposizione di sottomodelli per comprendere il comportamento del modello. Basandosi sui recenti progressi nel campo della quantificazione dell'incertezza, l'articolo fornisce una descrizione completa della decomposizione di Hoeffding generalizzata per il caso in cui le variabili di input seguono una distribuzione di Bernoulli multivariata. La ricerca dimostra che in questo caso lo spazio L² sottostante è unidimensionale e la decomposizione della funzione è esplicita, gettando le basi per un quadro completo di interpretabilità che teoricamente consente l'ingegneria inversa. L'articolo inoltre deriva indicatori espliciti dell'impatto degli input sulla previsione dell'output (come gli indici di Sobol e gli effetti di Shapley) e verifica il metodo attraverso esperimenti numerici nella sua efficacia per i problemi di supporto decisionale.
- Problema centrale: Come spiegare il comportamento di modelli predittivi complessi con variabili di input binarie correlate
- Necessità pratica: Nell'apprendimento automatico e nella quantificazione dell'incertezza, le variabili di input spesso non sono indipendenti; la decomposizione tradizionale di Hoeffding assume l'indipendenza, il che è eccessivamente restrittivo nelle applicazioni pratiche
- Scenari applicativi: Diagrammi di decisione binaria, reti booleane, reti neurali binarie, rappresentazioni di strutture molecolari, reti booleane probabilistiche
La decomposizione tradizionale di Hoeffding (HD) richiede che le variabili di input siano mutuamente indipendenti, il che non è realistico in molte applicazioni pratiche. Sebbene esista un quadro teorico per la decomposizione di Hoeffding generalizzata (GHD), mancano metodi di costruzione espliciti per distribuzioni specifiche. La distribuzione di Bernoulli multivariata, come caso speciale importante, ha applicazioni diffuse in molti campi.
- Assunzione di indipendenza: L'HD classico richiede l'indipendenza delle variabili di input, limitando l'ambito di applicazione
- Complessità computazionale: I metodi GHD esistenti mancano di costruzione esplicita, rendendo difficile il calcolo pratico
- Interpretabilità insufficiente: Manca un quadro completo di interpretabilità per input binari
- Contributo teorico: Dimostra che lo spazio L² della GHD nel caso di Bernoulli multivariata è unidimensionale, fornendo una rappresentazione di decomposizione della funzione esplicita
- Metodo costruttivo: Basato sulla trasformazione della base di Fourier-Walsh-Hadamard, fornisce un metodo di calcolo esplicito per i coefficienti di decomposizione
- Quadro di interpretabilità: Deriva espressioni esplicite per gli indici di Sobol generalizzati e gli effetti di Shapley
- Implementazione algoritmica: Fornisce metodi di approssimazione per troncamento in casi ad alta dimensionalità e garanzie di stima statistica
- Verifica applicativa: Verifica l'efficacia del metodo su dati sintetici e dataset reali
Dato un vettore casuale di Bernoulli multivariato d-dimensionale X = (X₁, ..., Xd) e una funzione quadraticamente integrabile G: {0,1}^d → R, l'obiettivo è trovare l'unica decomposizione della funzione:
G(X) = ∑_{A∈P_D} G_A(X_A)
dove P_D è l'insieme potenza di {1,...,d}, e la decomposizione soddisfa le condizioni di ortogonalità gerarchica.
Il risultato teorico centrale dell'articolo è il Teorema 2.2, che stabilisce la rappresentazione di decomposizione esplicita:
Teorema 2.2: Sia G: {0,1}^d → R, si definisca:
- g(X) := (e_A(X_A)G(X)){A∈P_D}, dove e_A(X_A) := (-1)^{∑{j∈A} X_j}/P_A(X_A)
- Γ = (Γ_{A,B}){A,B∈P_D} come matrice di Gram, Γ{A,B} := Ee_A(X_A)e_B(X_B)
- μ come media di g(X)
Allora la GHD è data da:
G(X) = ∑_{A∈P_D} β_A e_A(X_A)
dove i coefficienti β soddisfano il sistema lineare: Γβ = μ
L'articolo fornisce anche un'interpretazione dal punto di vista geometrico (Corollario 2.3):
G(X) = ∑_{A∈P_D} ⟨G(X), e*_A(X)⟩e_A(X_A)
dove e*_A(X) è il vettore duale obliquo di e_A(X_A).
- Proprietà dello spazio unidimensionale: Dimostra che ogni spazio di decomposizione di Hoeffding V_A nel caso di Bernoulli multivariata è unidimensionale
- Costruzione esplicita della base: La base di Fourier-Walsh-Hadamard trasformata {e_A(X_A)}_{A∈P_D} forma una base gerarchicamente ortogonale
- Risoluzione del sistema lineare: Trasforma il problema di decomposizione nella risoluzione di un sistema lineare 2^d-dimensionale Γβ = μ
- Proprietà di esclusione: Dimostra che se alcune variabili non hanno impatto causale sulla previsione, i corrispondenti coefficienti β devono essere nulli
L'articolo deriva l'espressione esplicita per gli indici di Sobol generalizzati:
S_A := CovG(X), G_A(X_A)/VarG(X) = β_A β_B Γ_{A,B}/VarG(X)
Questi indici soddisfano la condizione di normalizzazione ∑_{A∈P_D} S_A = 1, ma possono assumere valori negativi (quando esiste una forte correlazione negativa).
L'effetto di Shapley basato sul dividendo di Harsanyi è definito come:
Sh_i = ∑_{A⊆D: i∈A} S_A/|A|
Nel caso di Bernoulli multivariata ha un'espressione esplicita.
- Funzioni di soglia lineare: Progetta classificatori binari 10-dimensionali G(X) = sign(W^T X + b)
- Controllo della correlazione: Genera vettori binari con diversi livelli di correlazione attraverso la sogliatura di distribuzioni gaussiane multivariate
- Tre livelli di dipendenza: Dipendenza alta (ρ=0.9), dipendenza media (ρ=0.5), dipendenza debole (ρ=0.1)
- Studio parametrico bidimensionale: Utilizza la copula di Farlie-Gumbel-Morgenstern per controllare la struttura di dipendenza
- Dataset di classificazione dei funghi: Dataset Agaricus-Lepiota della libreria UCI Machine Learning, 8124 campioni, 22 attributi categorici
- Errore di decomposizione della varianza: ‖S^ρ - S^ρ_⊥‖₁, ‖S^ρ - S^ρ_⊥‖₂
- Errore relativo: Errore normalizzato rispetto al valore vero
- Prestazioni di classificazione: Precisione, Recall, F1-score
Gli esperimenti mostrano che ignorare la dipendenza dell'input porta a errori di approssimazione significativi:
- Nel caso di alta dipendenza, l'errore relativo di varianza raggiunge l'87%
- L'errore relativo della matrice di Sobol è del 75% in caso di alta dipendenza
- Con la diminuzione della correlazione, l'errore diminuisce significativamente
- Caso bidimensionale: Recupera con successo la regola congiuntiva teorica X₁X₂
- Classificazione dei funghi: Identifica 5 regole binarie critiche, di cui la regola dell'odore rappresenta l'78.2% della varianza totale
- Gerarchia di importanza delle caratteristiche: X₁(odore) ≫ X₂(radice dello stelo) > {X₃,X₄,X₅}(altre caratteristiche)
L'articolo fornisce garanzie teoriche per gli stimatori:
- Coerenza forte: Ĝₙ(x) →^{a.s.} G(x)
- Normalità asintotica: Teorema del limite centrale
- Limiti di concentrazione non asintotici: Disuguaglianze di tipo Bernstein
La decomposizione completa richiede la risoluzione di un sistema lineare 2^d-dimensionale, il che non è fattibile in casi ad alta dimensionalità.
Propone un metodo di troncamento che conserva solo i termini di ordine basso:
G_(x) := ∑_{A∈P_D, |A|≤c} G_A(x_A)
La complessità si riduce da O(2^d) a O(d^c), dove nella pratica si sceglie tipicamente c ∈ {1,2,3}.
L'errore totale si decompone in bias e varianza:
E(G(x) - Ĝₙ,c(x))² = Bias² + Varianza
- HD classico (Hoeffding 1948): Assunzione di input indipendenti
- HD generalizzato (Chastaing et al. 2012): Quadro teorico per input correlati
- Progressi recenti (Il Idrissi et al. 2025): Teoria della proiezione obliqua
- Indici di Sobol: Metodo di decomposizione della varianza
- Valori di Shapley: Metodo della teoria dei giochi cooperativi
- Metodi kernel: Approcci alternativi per gestire strutture di dipendenza
- SHAP: Metodo di spiegazione basato sui valori di Shapley
- LIME: Metodo di interpretabilità locale
- Meccanismi di attenzione: Interpretabilità nell'apprendimento profondo
- La GHD sotto distribuzione di Bernoulli multivariata ha una struttura di sottospazio unidimensionale esplicita
- Fornisce un metodo di decomposizione costruttivo completo e un quadro computazionale
- Gli indicatori di sensibilità generalizzati possono essere calcolati esplicitamente con buone proprietà teoriche
- Il metodo ha valore pratico nel supporto decisionale e nell'interpretazione dei modelli
- Assunzione di supporto completo: Richiede che tutte le 2^d configurazioni abbiano probabilità positiva, il che potrebbe essere eccessivamente restrittivo in casi ad alta dimensionalità
- Complessità computazionale: La complessità esponenziale della decomposizione completa limita le applicazioni ad alta dimensionalità
- Bias da troncamento: Il bias introdotto dall'approssimazione ad alta dimensionalità richiede ulteriori ricerche
- Estensione teorica: Allentare l'assunzione di supporto completo, estendere a input finiti numerabili
- Ottimizzazione algoritmica: Sviluppare metodi computazionali più efficienti per casi ad alta dimensionalità
- Estensione applicativa: Esplorare applicazioni nell'apprendimento profondo e in altri modelli di apprendimento automatico
- Rigore teorico: Fornisce un quadro matematico completo e prove rigorose
- Innovazione metodologica: Fornisce per la prima volta una decomposizione esplicita nel caso di Bernoulli multivariata
- Valore pratico: Ha valore di applicazione diretta nell'interpretazione di modelli con input binari
- Completezza: Forma una catena completa dalla teoria all'algoritmo all'applicazione
- Limitazioni dell'ambito di applicazione: Applicabile solo a input binari e richiede l'assunzione di supporto completo
- Sfide ad alta dimensionalità: La complessità esponenziale limita le applicazioni su larga scala
- Verifica sperimentale limitata: Principalmente verificata in casi a bassa dimensionalità e scenari specifici
- Contributo teorico: Fornisce un caso speciale importante per la teoria della decomposizione di funzioni
- Valore metodologico: Fornisce nuovi strumenti per l'interpretazione di modelli con input binari correlati
- Potenziale applicativo: Ampio potenziale di applicazione nei campi delle funzioni booleane, alberi decisionali e altri
- Sistemi decisionali binari: Come diagnosi medica, valutazione del credito, ecc.
- Analisi di reti booleane: Reti di regolazione genica, circuiti logici, ecc.
- Interpretazione di alberi decisionali: Foreste casuali, alberi con potenziamento del gradiente e altri metodi ensemble
- Analisi di interpretabilità di reti neurali binarie: Analisi di interpretabilità di reti neurali quantizzate
L'articolo cita 50 lavori correlati, coprendo molteplici campi come la teoria della decomposizione di Hoeffding, l'analisi di sensibilità e l'interpretabilità dell'apprendimento automatico, fornendo una solida base teorica per la ricerca.
Valutazione Complessiva: Questo è un articolo di alta qualità con rigore teorico e innovazione metodologica, che apporta contributi importanti alla teoria della decomposizione di funzioni sotto distribuzione di Bernoulli multivariata. Sebbene presenti sfide nelle applicazioni ad alta dimensionalità, fornisce strumenti teorici potenti per l'analisi di interpretabilità di modelli con input binari.