2025-11-13T15:49:11.287474

Predictive posteriors under hidden confounding

Meixide, Insua
Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.
academic

Posteriores predictivos bajo confusión oculta

Información Básica

  • ID del Artículo: 2507.05170
  • Título: Posteriores predictivos bajo confusión oculta
  • Autores: Carlos García Meixide, David Ríos Insua
  • Clasificación: stat.ME
  • Fecha de Publicación: arXiv:2507.05170v2 stat.ME 11 Oct 2025
  • Enlace del Artículo: https://arxiv.org/abs/2507.05170v2

Resumen

La predicción de resultados en dominios externos presenta desafíos significativos, ya que los factores de confusión ocultos pueden afectar simultáneamente tanto a las variables predictoras como a las variables de resultado. Los métodos existentes típicamente dependen de supuestos restrictivos, requieren conocimiento explícito de cambios de distribución entre dominios, o introducen esquemas de regularización sesgados para mejorar la generalización. Aunque los métodos de predicción puntual bajo confusión oculta intentan mitigar estas deficiencias, generalmente no proporcionan cuantificación de incertidumbre principista. Este artículo introduce un marco bayesiano que produce distribuciones predictivas bien calibradas en dominios externos, respalda inferencia de modelos efectiva, y logra tasas de contracción posterior mejoradas conforme aumenta el número de conjuntos de datos observados. Los experimentos de simulación y aplicaciones médicas destacan la cobertura empírica significativa del método, manteniéndose casi invariante en transiciones desde configuraciones de baja a dimensionalidad media.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es: ¿cómo realizar predicciones probabilísticas confiables y proporcionar cuantificación de incertidumbre calibrada en dominios externos con cambio de distribución cuando existen factores de confusión ocultos?

Importancia del Problema

  1. Universalidad del cambio de distribución: Las aplicaciones de aprendizaje automático frecuentemente encuentran inconsistencias en las distribuciones entre dominios de entrenamiento y prueba, desafiando los supuestos estándar iid
  2. Impacto de la confusión oculta: Las variables de confusión no observadas afectan simultáneamente a las variables predictoras X y a la variable de resultado Y, causando el fallo de métodos tradicionales
  3. Necesidad de cuantificación de incertidumbre: Los métodos existentes se enfocaban principalmente en predicción puntual, careciendo de mecanismos principistas para cuantificación de incertidumbre

Limitaciones de Métodos Existentes

  1. Optimización robusta distributiva: Emplea optimización minimax, pero requiere introducir sesgo para mejorar robustez
  2. Métodos de invariancia causal: Como regresión de anclaje, dependen de supuestos de invariancia restrictivos, fácilmente violados cuando existe confusión oculta
  3. Predicción conforme: Aunque proporciona intervalos de predicción, tiene capacidad limitada para manejar cambios de distribución
  4. Métodos causales existentes: Principalmente proporcionan estimaciones puntuales, careciendo de cuantificación de incertidumbre

Motivación de la Investigación

Los autores, basándose en trabajo previo de Invariancia Generativa (GI), buscan construir un marco bayesiano unificado que aborde simultáneamente dos problemas desafiantes de larga data: descubrimiento causal y predicción calibrada.

Contribuciones Principales

  1. Primer marco bayesiano: Propone un marco bayesiano completo para predicción probabilística bajo confusión oculta, capaz de realizar simultáneamente descubrimiento causal y predicción
  2. Garantías teóricas: Establece consistencia posterior, tasas de contracción y teorema de Bernstein-von Mises, probando propiedades asintóticas del método
  3. Capacidad de prueba de hipótesis: Proporciona el primer método de prueba de hipótesis computable para verificar si una variable es nodo padre de la respuesta objetivo en modelos de ecuaciones estructurales lineales
  4. Predicción calibrada: Logra predicciones bien calibradas en dominios con cambio de distribución, con cobertura cercana a niveles teóricos
  5. Espectro de identificabilidad: Clarifica por primera vez la identificabilidad débil como fenómeno asintótico en su manifestación empírica

Detalles del Método

Definición de la Tarea

Dado un conjunto heterogéneo de fuentes de datos de E entornos de entrenamiento y un entorno de prueba objetivo, la tarea consiste en:

  • Entrada: Pares (X,Y) en entornos de entrenamiento, X en entorno de prueba
  • Salida: Distribución predictiva calibrada de Y en entorno de prueba e intervalos de confianza para parámetros causales
  • Restricción: Existen factores de confusión ocultos que afectan tanto X como Y

Arquitectura del Modelo

Modelo de Ecuaciones Estructurales

El modelo base es:

X ← ∑_z 1{Z = z}X_z
Y ← α* + γ*^T X + ε_Y

donde Z es el indicador de entorno, y ε_Y puede estar correlacionado con X_z (confusión oculta).

Modelo Bayesiano Jerárquico

Se establece una verosimilitud para cada entorno e:

X_ei ~ N_p(μ_e, Σ_e)
Y_ei | X_ei, w, ϑ_e ~ N(α + γ^T X_ei + K^⊤(X_ei - μ_e), σ_Y^2)

Parámetros clave:

  • w = (β, K): β = (α, γ) contiene coeficientes de regresión, K absorbe efectos de confusión oculta
  • ϑ_e = (μ_e, Σ_e, σ_Y^2): Parámetros molestos específicos del entorno

Especificación de Prioris

Se adoptan prioris gaussianas tipo ridge:

μ_1, ..., μ_E ~ N_p(μ̂, Σ_μ)
α ~ N(0, τ^2 σ_Y^2)
(γ, K) | τ^2, σ_Y^2 ~ N_2p(0, τ^2 σ_Y^2 I_2p)
σ_Y ~ π(σ_Y) ∝ 1/σ_Y
τ^2 ~ Beta-prime(a_τ, b_τ)

Puntos de Innovación Técnica

1. Mecanismo de Corrección de Confusión

Se modela explícitamente el impacto de confusión oculta mediante el término K^⊤(X_ei - μ_e), donde:

  • K captura la estructura de covarianza entre factores de confusión ocultos y variables observadas
  • Este término tiene esperanza 0 en cada entorno, sin afectar la estimación del intercepto

2. Modelado de Heterogeneidad de Entornos

Se tratan las medias de entorno μ_e como cantidades aleatorias muestreadas de una distribución a priori común, en lugar de parámetros fijos, logrando efectos de contracción beneficiosos.

3. Manejo de Identificabilidad

Cuando las condiciones de identificabilidad se violan aproximadamente, el método bayesiano evita inestabilidad numérica de métodos frecuentistas mediante contracción controlada.

4. Criterio de Descubrimiento Causal

Se propone una regla de decisión basada en la distribución posterior: se considera que j es nodo padre causal de Y cuando min{|{i: γ_ji < 0}|, |{i: γ_ji > 0}|} < αm.

Configuración Experimental

Conjuntos de Datos

Experimentos de Simulación

  1. Ejemplo de fuente única: Configuración unidimensional, n₁=500, factor de confusión oculto H~N(0,0.5²)
  2. Ejemplo multifuente: Configuración multidimensional, E=p+1 entornos, cambios sistemáticos en medias de entorno

Datos Reales

Análisis de IMC: Datos de múltiples provincias españolas

  • Variables predictoras: Factores de estilo de vida (consumo de alcohol, hábitos de fumar, calidad del sueño, etc.)
  • Variable de resultado: IMC
  • Confusión oculta: Sexo, colesterol y niveles de glucosa en sangre
  • Indicador de entorno: Provincia

Métricas de Evaluación

  1. Cobertura empírica: Proporción de intervalos de predicción que contienen valores verdaderos
  2. Precisión del descubrimiento causal: Capacidad de identificar correctamente variables causales
  3. Calibración predictiva: Grado de coincidencia entre distribución predictiva y distribución verdadera

Métodos de Comparación

  1. OLS: Mínimos cuadrados ordinarios
  2. IV: Método de variables instrumentales
  3. Regresión lineal bayesiana estándar

Detalles de Implementación

  • Muestreo MCMC: Implementado con RStan, 4 cadenas × 1000 iteraciones
  • Hiperparámetros: a_τ = b_τ = 1/2 (priori half-Cauchy estándar)
  • Computación paralela: 8 núcleos, 3 simulaciones por núcleo

Resultados Experimentales

Resultados Principales

Desempeño en Experimentos de Simulación

Comparación de cobertura empírica promedio en configuración multidimensional (OLS vs método propuesto):

n, p2D5D10D
200.88/.96.85/.95.87/.90
500.91/.95.88/.93.83/.94
1000.89/.95.88/.95.85/.94
2000.90/.95.83/.94.80/.95

Hallazgos clave:

  • El método propuesto supera a OLS en todas las situaciones
  • La cobertura se mantiene relativamente estable conforme aumenta la dimensionalidad
  • El desempeño de OLS se deteriora notablemente con el aumento de dimensionalidad

Resultados del Ejemplo de Fuente Única

  • Estimación de parámetros: Las distribuciones posteriores de β y K se centran correctamente en valores verdaderos 1 y -0.25
  • Desempeño predictivo: Cobertura empírica 0.96, cercana al nivel teórico 0.95
  • Efecto comparativo: Predicciones de OLS e IV completamente desviadas del objetivo

Resultados de Aplicación Médica

  • Cobertura empírica: 0.95 (nivel ideal)
  • Descubrimiento causal: Solo se identifica actividad física como variable causal única
  • Análisis comparativo: OLS identifica erróneamente múltiples variables correlacionadas pero no causales (como exfumadores)

Verificación Teórica

La Figura 2 ilustra el fenómeno de identificabilidad débil: cuando μ→0, la posterior se contrae hacia la media a priori, evitando problemas de matriz no invertible en métodos frecuentistas.

Trabajo Relacionado

Direcciones de Investigación Principal

  1. Optimización robusta distributiva: Método minimax de Sinha et al. (2020)
  2. Invariancia causal: Método de predicción invariante de Peters et al. (2016)
  3. Regresión de anclaje: Método causal para datos heterogéneos de Rothenhäusler et al. (2021)
  4. Predicción conforme: Intervalos de predicción robustos de Tibshirani et al. (2019)

Ventajas de Este Trabajo

  1. Marco unificado: Aborda simultáneamente descubrimiento causal y calibración predictiva
  2. Garantías teóricas: Proporciona teoría asintótica completa
  3. Practicidad: Sin necesidad de ajuste de hiperparámetros o conocimiento específico de cambio de distribución
  4. Robustez: Mantiene efectividad bajo confusión oculta

Conclusiones y Discusión

Conclusiones Principales

  1. Se construyó exitosamente un marco bayesiano para predicción bajo confusión oculta
  2. Se logró predicción probabilística calibrada y descubrimiento causal efectivo
  3. Se proporcionó base teórica completa y verificación empírica
  4. Se mantuvo desempeño estable en configuraciones de baja a dimensionalidad media

Limitaciones

  1. Supuesto gaussiano: El marco actual asume que las covariables siguen distribución gaussiana
  2. Modelo lineal: Limitado a modelos de ecuaciones estructurales lineales
  3. Complejidad computacional: El muestreo MCMC puede ser lento en configuraciones de alta dimensionalidad
  4. Número de entornos: Requiere suficientes entornos de entrenamiento para asegurar identificabilidad

Direcciones Futuras

  1. Extensiones no paramétricas: Integrar marco de posteriores martingala, eliminando requisitos de especificación de verosimilitud-priori
  2. Aprendizaje adversarial: Aplicación a escenarios de aprendizaje automático adversarial
  3. Relajación de supuestos: Permitir que distribución de confusión varíe entre entornos
  4. Garantías PAC: Establecer teoría de garantías PAC marginales

Evaluación Profunda

Fortalezas

  1. Completitud teórica: Proporciona análisis teórico completo desde consistencia posterior hasta teorema de Bernstein-von Mises
  2. Innovación metodológica: Primera implementación de prueba de hipótesis de descubrimiento causal bajo confusión oculta
  3. Valor práctico: Solución unificada para dos problemas desafiantes de larga data
  4. Suficiencia experimental: Verificación completa desde simulación hasta aplicación real
  5. Claridad de escritura: Derivaciones matemáticas rigurosas, explicaciones conceptuales claras

Insuficiencias

  1. Limitaciones de supuestos: Supuesto gaussiano y modelo lineal restringen rango de aplicabilidad
  2. Eficiencia computacional: Método MCMC puede ser lento en datos a gran escala
  3. Sensibilidad a priori: Aunque se afirma insensibilidad a priori, aún hay impacto bajo identificabilidad débil
  4. Requisitos de entorno: Necesita múltiples entornos de entrenamiento, potencialmente limitado en aplicaciones reales

Impacto

  1. Contribución académica: Proporciona nuevo marco teórico para inferencia causal y calibración predictiva
  2. Valor práctico: Amplias perspectivas de aplicación en medicina, economía y otros campos con confusión oculta
  3. Significado metodológico: Demuestra ventajas del método bayesiano en manejo de problemas de identificabilidad

Escenarios de Aplicabilidad

  1. Investigación médica: Estudios epidemiológicos con factores de confusión no observados
  2. Economía: Inferencia causal en evaluación de políticas
  3. Aprendizaje automático: Adaptación de dominio y problemas de cambio de distribución
  4. Ciencias sociales: Análisis causal en estudios observacionales

Referencias

  1. Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
  2. Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
  3. Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
  4. Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.