Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.
La predicción de resultados en dominios externos presenta desafíos significativos, ya que los factores de confusión ocultos pueden afectar simultáneamente tanto a las variables predictoras como a las variables de resultado. Los métodos existentes típicamente dependen de supuestos restrictivos, requieren conocimiento explícito de cambios de distribución entre dominios, o introducen esquemas de regularización sesgados para mejorar la generalización. Aunque los métodos de predicción puntual bajo confusión oculta intentan mitigar estas deficiencias, generalmente no proporcionan cuantificación de incertidumbre principista. Este artículo introduce un marco bayesiano que produce distribuciones predictivas bien calibradas en dominios externos, respalda inferencia de modelos efectiva, y logra tasas de contracción posterior mejoradas conforme aumenta el número de conjuntos de datos observados. Los experimentos de simulación y aplicaciones médicas destacan la cobertura empírica significativa del método, manteniéndose casi invariante en transiciones desde configuraciones de baja a dimensionalidad media.
El problema central que aborda esta investigación es: ¿cómo realizar predicciones probabilísticas confiables y proporcionar cuantificación de incertidumbre calibrada en dominios externos con cambio de distribución cuando existen factores de confusión ocultos?
Universalidad del cambio de distribución: Las aplicaciones de aprendizaje automático frecuentemente encuentran inconsistencias en las distribuciones entre dominios de entrenamiento y prueba, desafiando los supuestos estándar iid
Impacto de la confusión oculta: Las variables de confusión no observadas afectan simultáneamente a las variables predictoras X y a la variable de resultado Y, causando el fallo de métodos tradicionales
Necesidad de cuantificación de incertidumbre: Los métodos existentes se enfocaban principalmente en predicción puntual, careciendo de mecanismos principistas para cuantificación de incertidumbre
Optimización robusta distributiva: Emplea optimización minimax, pero requiere introducir sesgo para mejorar robustez
Métodos de invariancia causal: Como regresión de anclaje, dependen de supuestos de invariancia restrictivos, fácilmente violados cuando existe confusión oculta
Predicción conforme: Aunque proporciona intervalos de predicción, tiene capacidad limitada para manejar cambios de distribución
Métodos causales existentes: Principalmente proporcionan estimaciones puntuales, careciendo de cuantificación de incertidumbre
Los autores, basándose en trabajo previo de Invariancia Generativa (GI), buscan construir un marco bayesiano unificado que aborde simultáneamente dos problemas desafiantes de larga data: descubrimiento causal y predicción calibrada.
Primer marco bayesiano: Propone un marco bayesiano completo para predicción probabilística bajo confusión oculta, capaz de realizar simultáneamente descubrimiento causal y predicción
Garantías teóricas: Establece consistencia posterior, tasas de contracción y teorema de Bernstein-von Mises, probando propiedades asintóticas del método
Capacidad de prueba de hipótesis: Proporciona el primer método de prueba de hipótesis computable para verificar si una variable es nodo padre de la respuesta objetivo en modelos de ecuaciones estructurales lineales
Predicción calibrada: Logra predicciones bien calibradas en dominios con cambio de distribución, con cobertura cercana a niveles teóricos
Espectro de identificabilidad: Clarifica por primera vez la identificabilidad débil como fenómeno asintótico en su manifestación empírica
Se tratan las medias de entorno μ_e como cantidades aleatorias muestreadas de una distribución a priori común, en lugar de parámetros fijos, logrando efectos de contracción beneficiosos.
Cuando las condiciones de identificabilidad se violan aproximadamente, el método bayesiano evita inestabilidad numérica de métodos frecuentistas mediante contracción controlada.
Se propone una regla de decisión basada en la distribución posterior: se considera que j es nodo padre causal de Y cuando min{|{i: γ_ji < 0}|, |{i: γ_ji > 0}|} < αm.
La Figura 2 ilustra el fenómeno de identificabilidad débil: cuando μ→0, la posterior se contrae hacia la media a priori, evitando problemas de matriz no invertible en métodos frecuentistas.
Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.