2025-11-13T15:49:11.287474

Predictive posteriors under hidden confounding

Meixide, Insua
Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.
academic

Posteriori predittivi sotto confondimento nascosto

Informazioni Fondamentali

  • ID Articolo: 2507.05170
  • Titolo: Predictive posteriors under hidden confounding
  • Autori: Carlos García Meixide, David Ríos Insua
  • Classificazione: stat.ME
  • Data di Pubblicazione: arXiv:2507.05170v2 stat.ME 11 Oct 2025
  • Link Articolo: https://arxiv.org/abs/2507.05170v2

Riassunto

La previsione dei risultati in domini esterni presenta sfide significative poiché i fattori di confondimento nascosti possono influenzare simultaneamente le variabili predittive e le variabili di risultato. I metodi esistenti generalmente si basano su ipotesi rigorose, richiedono una conoscenza esplicita degli spostamenti di distribuzione tra domini o introducono schemi di regolarizzazione distorti per migliorare la generalizzazione. Sebbene i metodi di previsione puntuale sotto confondimento nascosto tentino di attenuare queste carenze, generalmente non riescono a fornire una quantificazione dell'incertezza principiata. Questo articolo introduce un framework bayesiano che produce distribuzioni predittive ben calibrate in domini esterni, supporta inferenza modellistica efficace e realizza tassi di contrazione posteriore che migliorano all'aumentare del numero di insiemi di dati osservati. Gli esperimenti di simulazione e le applicazioni mediche evidenziano una copertura empirica significativa del metodo, mantenuta quasi invariata nel passaggio da impostazioni a bassa a media dimensionalità.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è: come condurre previsioni probabilistiche affidabili e fornire una quantificazione dell'incertezza calibrata in domini esterni con spostamento di distribuzione in presenza di fattori di confondimento nascosti?

Importanza del Problema

  1. Ubiquità dello spostamento di distribuzione: Le applicazioni di machine learning incontrano frequentemente incoerenze tra la distribuzione del dominio di addestramento e quella del dominio di test, il che sfida l'assunzione iid standard
  2. Impatto del confondimento nascosto: Le variabili di confondimento non osservate influenzano simultaneamente le variabili predittive X e la variabile di risultato Y, causando il fallimento dei metodi tradizionali
  3. Necessità di quantificazione dell'incertezza: I metodi esistenti si concentrano principalmente sulla previsione puntuale, mancando di meccanismi principiati per la quantificazione dell'incertezza

Limitazioni dei Metodi Esistenti

  1. Ottimizzazione robusta distributiva: Impiega ottimizzazione minimax, ma richiede l'introduzione di distorsione per migliorare la robustezza
  2. Metodi di invarianza causale: Come l'anchor regression, si basano su ipotesi di invarianza rigorose che sono facilmente violate in presenza di confondimento nascosto
  3. Previsione conforme: Sebbene possa fornire intervalli di previsione, ha capacità limitate nel gestire lo spostamento di distribuzione
  4. Metodi causali esistenti: Forniscono principalmente stime puntuali, mancando di quantificazione dell'incertezza

Motivazione della Ricerca

Gli autori, basandosi su lavori precedenti di Invarianza Generativa (GI), mirano a costruire un framework bayesiano unificato che affronti simultaneamente due problemi sfidanti di lunga data: la scoperta causale e la previsione calibrata.

Contributi Principali

  1. Primo framework bayesiano: Propone un framework bayesiano completo per la previsione probabilistica sotto confondimento nascosto, capace di condurre simultaneamente scoperta causale e previsione
  2. Garanzie teoriche: Stabilisce coerenza posteriore, tassi di contrazione e il teorema di Bernstein-von Mises, provando le proprietà asintotiche del metodo
  3. Capacità di test di ipotesi: Fornisce il primo metodo di test di ipotesi computabile per verificare se una variabile è un nodo genitore della risposta target nei modelli di equazioni strutturali lineari
  4. Previsioni calibrate: Realizza previsioni ben calibrate in domini con spostamento di distribuzione, con copertura prossima al livello teorico
  5. Spettro di identificabilità: Chiarisce per la prima volta l'identificabilità debole come fenomeno asintotico nella sua manifestazione empirica

Dettagli del Metodo

Definizione del Compito

Dato un insieme eterogeneo di fonti di dati da E ambienti di addestramento e un ambiente di test target, il compito è:

  • Input: Coppie (X,Y) negli ambienti di addestramento, X nell'ambiente di test
  • Output: Distribuzione predittiva calibrata di Y nell'ambiente di test e intervalli di credibilità per i parametri causali
  • Vincoli: Esistono fattori di confondimento nascosti che influenzano X e Y

Architettura del Modello

Modello di Equazioni Strutturali

Il modello di base è:

X ← ∑_z 1{Z = z}X_z
Y ← α* + γ*^T X + ε_Y

dove Z è l'indicatore di ambiente, ε_Y può essere correlato con X_z (confondimento nascosto).

Modello Bayesiano Gerarchico

Per ogni ambiente e si stabilisce la verosimiglianza:

X_ei ~ N_p(μ_e, Σ_e)
Y_ei | X_ei, w, ϑ_e ~ N(α + γ^T X_ei + K^⊤(X_ei - μ_e), σ_Y^2)

Parametri chiave:

  • w = (β, K): β = (α, γ) contiene i coefficienti di regressione, K assorbe gli effetti del confondimento nascosto
  • ϑ_e = (μ_e, Σ_e, σ_Y^2): Parametri di disturbo specifici dell'ambiente

Specifica della Priore

Adotta una priore gaussiana di tipo ridge:

μ_1, ..., μ_E ~ N_p(μ̂, Σ_μ)
α ~ N(0, τ^2 σ_Y^2)
(γ, K) | τ^2, σ_Y^2 ~ N_2p(0, τ^2 σ_Y^2 I_2p)
σ_Y ~ π(σ_Y) ∝ 1/σ_Y
τ^2 ~ Beta-prime(a_τ, b_τ)

Punti di Innovazione Tecnica

1. Meccanismo di Correzione del Confondimento

Modella esplicitamente l'impatto del confondimento nascosto attraverso il termine K^⊤(X_ei - μ_e), dove:

  • K cattura la struttura di covarianza tra i fattori di confondimento nascosti e le variabili osservate
  • Questo termine ha aspettazione zero in ogni ambiente, non influenzando la stima dell'intercetta

2. Modellazione dell'Eterogeneità Ambientale

Tratta le medie ambientali μ_e come quantità casuali campionate da una distribuzione priore comune, piuttosto che come parametri fissi, realizzando effetti di contrazione vantaggiosi.

3. Gestione dell'Identificabilità

Quando le condizioni di identificabilità sono prossime a essere violate, il metodo bayesiano evita l'instabilità numerica dei metodi frequentisti attraverso contrazione controllata.

4. Criterio di Scoperta Causale

Propone una regola decisionale basata sulla distribuzione posteriore: quando min{|{i: γ_ji < 0}|, |{i: γ_ji > 0}|} < αm, si ritiene che j sia un nodo genitore causale di Y.

Impostazione Sperimentale

Insiemi di Dati

Esperimenti di Simulazione

  1. Esempio a fonte singola: Impostazione unidimensionale, n₁=500, fattore di confondimento nascosto H~N(0,0.5²)
  2. Esempio a fonti multiple: Impostazione multidimensionale, E=p+1 ambienti, variazione sistematica delle medie ambientali

Dati Reali

Analisi dell'IMC: Dati da multiple province spagnole

  • Variabili predittive: Fattori dello stile di vita (consumo di alcol, abitudini di fumo, qualità del sonno, ecc.)
  • Variabile di risultato: IMC
  • Confondimento nascosto: Sesso, livelli di colesterolo e glucosio nel sangue
  • Indicatore di ambiente: Provincia

Metriche di Valutazione

  1. Copertura empirica: Proporzione di intervalli di previsione che contengono il valore vero
  2. Accuratezza della scoperta causale: Capacità di identificare correttamente le variabili causali
  3. Calibrazione predittiva: Grado di corrispondenza tra la distribuzione predittiva e la distribuzione vera

Metodi di Confronto

  1. OLS: Minimi quadrati ordinari
  2. IV: Metodo delle variabili strumentali
  3. Regressione lineare bayesiana standard

Dettagli di Implementazione

  • Campionamento MCMC: Implementato con RStan, 4 catene × 1000 iterazioni
  • Iperparametri: a_τ = b_τ = 1/2 (priore half-Cauchy standard)
  • Calcolo parallelo: 8 core, 3 simulazioni per core

Risultati Sperimentali

Risultati Principali

Prestazioni degli Esperimenti di Simulazione

Confronto della copertura empirica media in impostazione multidimensionale (OLS vs metodo proposto):

n, p2D5D10D
200.88/.96.85/.95.87/.90
500.91/.95.88/.93.83/.94
1000.89/.95.88/.95.85/.94
2000.90/.95.83/.94.80/.95

Scoperte chiave:

  • Il metodo proposto supera OLS in tutti i casi
  • La copertura rimane relativamente stabile all'aumentare della dimensionalità
  • Le prestazioni di OLS si deteriorano notevolmente all'aumentare della dimensionalità

Risultati dell'Esempio a Fonte Singola

  • Stima dei parametri: Le distribuzioni posteriori di β e K sono correttamente centrate sui valori veri 1 e -0.25
  • Prestazioni predittive: Copertura empirica 0.96, prossima al livello teorico 0.95
  • Effetto di confronto: Le previsioni di OLS e IV si discostano completamente dal target

Risultati dell'Applicazione Medica

  • Copertura empirica: 0.95 (livello ideale)
  • Scoperta causale: Identifica solo l'attività fisica come unica variabile causale
  • Analisi comparativa: OLS identifica erroneamente multiple variabili correlate ma non causali (come ex-fumatori)

Verifica Teorica

Attraverso la Figura 2 viene dimostrato il fenomeno dell'identificabilità debole: quando μ→0, la posteriore si contrae verso la media della priore, evitando il problema di matrice non invertibile dei metodi frequentisti.

Lavori Correlati

Principali Direzioni di Ricerca

  1. Ottimizzazione robusta distributiva: Metodo minimax di Sinha et al. (2020)
  2. Invarianza causale: Metodo di previsione invariante di Peters et al. (2016)
  3. Regressione di ancoraggio: Metodo causale per dati eterogenei di Rothenhäusler et al. (2021)
  4. Previsione conforme: Intervalli di previsione robusti di Tibshirani et al. (2019)

Vantaggi di Questo Articolo

  1. Framework unificato: Affronta simultaneamente scoperta causale e calibrazione predittiva
  2. Garanzie teoriche: Fornisce teoria asintotica completa
  3. Praticità: Non richiede regolazione di iperparametri o conoscenza specifica dello spostamento di distribuzione
  4. Robustezza: Rimane efficace sotto confondimento nascosto

Conclusioni e Discussione

Conclusioni Principali

  1. Costruisce con successo un framework bayesiano per la previsione sotto confondimento nascosto
  2. Realizza previsione probabilistica calibrata e scoperta causale efficace
  3. Fornisce una base teorica completa e verifica empirica
  4. Mantiene prestazioni stabili in impostazioni da bassa a media dimensionalità

Limitazioni

  1. Ipotesi gaussiana: Il framework attuale assume che le covariate seguano una distribuzione gaussiana
  2. Modello lineare: Limitato ai modelli di equazioni strutturali lineari
  3. Complessità computazionale: Il campionamento MCMC potrebbe essere lento in impostazioni ad alta dimensionalità
  4. Numero di ambienti: Richiede un numero sufficiente di ambienti di addestramento per garantire l'identificabilità

Direzioni Future

  1. Estensioni non parametriche: Integrazione del framework posteriore martingala, eliminando la necessità di specifica verosimiglianza-priore
  2. Apprendimento avversariale: Applicazione a scenari di machine learning avversariale
  3. Rilassamento delle ipotesi: Consentire variazioni della distribuzione del confondimento tra ambienti
  4. Garanzie PAC: Stabilire teoria di garanzie PAC marginali

Valutazione Approfondita

Punti di Forza

  1. Completezza teorica: Fornisce analisi teorica completa dalla coerenza posteriore al teorema di Bernstein-von Mises
  2. Innovazione metodologica: Primo a realizzare test di ipotesi per scoperta causale sotto confondimento nascosto
  3. Valore pratico: Soluzione unificata a due problemi sfidanti di lunga data
  4. Sufficienza sperimentale: Verifica completa da simulazione ad applicazioni reali
  5. Chiarezza di scrittura: Derivazioni matematiche rigorose e spiegazioni concettuali chiare

Insufficienze

  1. Limitazioni delle ipotesi: L'ipotesi gaussiana e il modello lineare limitano l'ambito di applicabilità
  2. Efficienza computazionale: Il metodo MCMC potrebbe essere lento su dati su larga scala
  3. Sensibilità della priore: Sebbene si affermi insensibilità alla priore, rimane influenzato sotto identificabilità debole
  4. Requisiti ambientali: Richiede ambienti di addestramento multipli, potenzialmente limitato nelle applicazioni pratiche

Impatto

  1. Contributo accademico: Fornisce nuovo framework teorico per inferenza causale e calibrazione predrettiva
  2. Valore pratico: Ampia prospettiva di applicazione in campi con confondimento nascosto come medicina, economia, ecc.
  3. Significato metodologico: Dimostra i vantaggi dei metodi bayesiani nel gestire problemi di identificabilità

Scenari di Applicabilità

  1. Ricerca medica: Studi epidemiologici con fattori di confondimento non osservati
  2. Economia: Inferenza causale nella valutazione delle politiche
  3. Machine learning: Problemi di adattamento di dominio e spostamento di distribuzione
  4. Scienze sociali: Analisi causale in studi osservazionali

Bibliografia

  1. Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
  2. Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
  3. Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
  4. Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.