Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.
academic
Posteriori predittivi sotto confondimento nascosto
La previsione dei risultati in domini esterni presenta sfide significative poiché i fattori di confondimento nascosti possono influenzare simultaneamente le variabili predittive e le variabili di risultato. I metodi esistenti generalmente si basano su ipotesi rigorose, richiedono una conoscenza esplicita degli spostamenti di distribuzione tra domini o introducono schemi di regolarizzazione distorti per migliorare la generalizzazione. Sebbene i metodi di previsione puntuale sotto confondimento nascosto tentino di attenuare queste carenze, generalmente non riescono a fornire una quantificazione dell'incertezza principiata. Questo articolo introduce un framework bayesiano che produce distribuzioni predittive ben calibrate in domini esterni, supporta inferenza modellistica efficace e realizza tassi di contrazione posteriore che migliorano all'aumentare del numero di insiemi di dati osservati. Gli esperimenti di simulazione e le applicazioni mediche evidenziano una copertura empirica significativa del metodo, mantenuta quasi invariata nel passaggio da impostazioni a bassa a media dimensionalità.
Il problema centrale affrontato da questa ricerca è: come condurre previsioni probabilistiche affidabili e fornire una quantificazione dell'incertezza calibrata in domini esterni con spostamento di distribuzione in presenza di fattori di confondimento nascosti?
Ubiquità dello spostamento di distribuzione: Le applicazioni di machine learning incontrano frequentemente incoerenze tra la distribuzione del dominio di addestramento e quella del dominio di test, il che sfida l'assunzione iid standard
Impatto del confondimento nascosto: Le variabili di confondimento non osservate influenzano simultaneamente le variabili predittive X e la variabile di risultato Y, causando il fallimento dei metodi tradizionali
Necessità di quantificazione dell'incertezza: I metodi esistenti si concentrano principalmente sulla previsione puntuale, mancando di meccanismi principiati per la quantificazione dell'incertezza
Ottimizzazione robusta distributiva: Impiega ottimizzazione minimax, ma richiede l'introduzione di distorsione per migliorare la robustezza
Metodi di invarianza causale: Come l'anchor regression, si basano su ipotesi di invarianza rigorose che sono facilmente violate in presenza di confondimento nascosto
Previsione conforme: Sebbene possa fornire intervalli di previsione, ha capacità limitate nel gestire lo spostamento di distribuzione
Metodi causali esistenti: Forniscono principalmente stime puntuali, mancando di quantificazione dell'incertezza
Gli autori, basandosi su lavori precedenti di Invarianza Generativa (GI), mirano a costruire un framework bayesiano unificato che affronti simultaneamente due problemi sfidanti di lunga data: la scoperta causale e la previsione calibrata.
Primo framework bayesiano: Propone un framework bayesiano completo per la previsione probabilistica sotto confondimento nascosto, capace di condurre simultaneamente scoperta causale e previsione
Garanzie teoriche: Stabilisce coerenza posteriore, tassi di contrazione e il teorema di Bernstein-von Mises, provando le proprietà asintotiche del metodo
Capacità di test di ipotesi: Fornisce il primo metodo di test di ipotesi computabile per verificare se una variabile è un nodo genitore della risposta target nei modelli di equazioni strutturali lineari
Previsioni calibrate: Realizza previsioni ben calibrate in domini con spostamento di distribuzione, con copertura prossima al livello teorico
Spettro di identificabilità: Chiarisce per la prima volta l'identificabilità debole come fenomeno asintotico nella sua manifestazione empirica
Tratta le medie ambientali μ_e come quantità casuali campionate da una distribuzione priore comune, piuttosto che come parametri fissi, realizzando effetti di contrazione vantaggiosi.
Quando le condizioni di identificabilità sono prossime a essere violate, il metodo bayesiano evita l'instabilità numerica dei metodi frequentisti attraverso contrazione controllata.
Propone una regola decisionale basata sulla distribuzione posteriore: quando min{|{i: γ_ji < 0}|, |{i: γ_ji > 0}|} < αm, si ritiene che j sia un nodo genitore causale di Y.
Attraverso la Figura 2 viene dimostrato il fenomeno dell'identificabilità debole: quando μ→0, la posteriore si contrae verso la media della priore, evitando il problema di matrice non invertibile dei metodi frequentisti.
Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.