2025-11-22T18:49:15.334146

Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets

Wang, SchrÃ¶der, Frauen et al.

Constructing confidence intervals (CIs) for the average treatment effect (ATE) from patient records is crucial to assess the effectiveness and safety of drugs. However, patient records typically come from different hospitals, thus raising the question of how multiple observational datasets can be effectively combined for this purpose. In our paper, we propose a new method that estimates the ATE from multiple observational datasets and provides valid CIs. Our method makes little assumptions about the observational datasets and is thus widely applicable in medical practice. The key idea of our method is that we leverage prediction-powered inferences and thereby essentially `shrink' the CIs so that we offer more precise uncertainty quantification as compared to naÃ¯ve approaches. We further prove the unbiasedness of our method and the validity of our CIs. We confirm our theoretical results through various numerical experiments. Finally, we provide an extension of our method for constructing CIs from combinations of experimental and observational datasets.

academic

Construcción de Intervalos de Confianza para Efectos de Tratamiento Promedio a partir de Múltiples Conjuntos de Datos

Información Básica

ID del Artículo: 2412.11511
Título: Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets
Autores: Yuxin Wang, Maresa Schröder, Dennis Frauen, Jonas Schweisthal, Konstantin Hess & Stefan Feuerriegel (LMU Munich, MCML)
Clasificación: cs.LG, stat.ML
Conferencia de Publicación: ICLR 2025
Enlace del Artículo: https://arxiv.org/abs/2412.11511

Resumen

Este artículo propone un nuevo método para construir intervalos de confianza del efecto de tratamiento promedio (ATE) a partir de múltiples conjuntos de datos observacionales. El método realiza supuestos menos restrictivos sobre los conjuntos de datos observacionales y posee amplia aplicabilidad en la práctica médica. La idea central es utilizar inferencia impulsada por predicción (prediction-powered inference) para "contraer" los intervalos de confianza, proporcionando una cuantificación de incertidumbre más precisa en comparación con métodos ingenuos. El artículo demuestra la insesgadez del método y la validez de los intervalos de confianza, verificando los resultados teóricos mediante experimentos numéricos. Además, extiende el método para manejar combinaciones de conjuntos de datos experimentales y observacionales.

Antecedentes de Investigación y Motivación

Problema Central

En el campo médico, la construcción de intervalos de confianza para el ATE a partir de registros de pacientes es crucial para evaluar la eficacia y seguridad de medicamentos. Sin embargo, los registros de pacientes típicamente provienen de diferentes hospitales, y cómo integrar efectivamente múltiples conjuntos de datos observacionales se convierte en un desafío clave.

Importancia del Problema

Necesidades de Decisión Médica: Los intervalos de confianza confiables son críticos para la toma de decisiones médicas, asegurando opciones de tratamiento basadas en evidencia
Dispersión de Datos: Los registros electrónicos de salud típicamente se distribuyen entre diferentes instituciones médicas y países, requiriendo integración y aprovechamiento
Caso COVID-19: Durante la pandemia, fue necesario evaluar rápidamente la eficacia de medicamentos a partir de datos multicéntricos, como en estudios de nirmatrelvir/ritonavir

Limitaciones de Métodos Existentes

Limitaciones de Estimación Puntual: La mayoría de métodos de múltiples conjuntos de datos se enfoca en estimación puntual, careciendo de cuantificación de incertidumbre
Problemas de Métodos Ingenuos:
- Concatenar directamente conjuntos de datos resulta en estimaciones sesgadas debido a sesgo de confusión
- Utilizar solo el conjunto de datos pequeño ignora información del conjunto grande, resultando en intervalos de confianza excesivamente conservadores
Restricciones de Supuestos: Los métodos existentes asumen relaciones fuertes entre conjuntos de datos

Contribuciones Principales

Metodología Novedosa: Propone un método de construcción de intervalos de confianza de ATE para múltiples conjuntos de datos basado en inferencia impulsada por predicción
Garantías Teóricas: Demuestra la consistencia de la estimación y la validez de los intervalos de confianza
Amplia Aplicabilidad: Extiende el método a escenarios que combinan RCT con conjuntos de datos observacionales
Verificación Experimental: Valida la efectividad del método mediante datos sintéticos y médicos

Explicación Detallada del Método

Definición de la Tarea

Dado un pequeño conjunto de datos observacionales insesgado D₁ (satisfaciendo el supuesto de no confusión) y un gran conjunto de datos observacionales D₂ (permitiendo confusión no observada), el objetivo es estimar el ATE τ = EY¹(1) - Y¹(0) de la población objetivo y construir un intervalo de confianza válido.

Supuestos Principales

Supuestos de D₁:

Consistencia: A¹ = a ⇒ Y¹ = Y¹(a)
Solapamiento: 0 < π¹(x) < 1
No confusión: Y¹(0), Y¹(1) ⊥⊥ A¹ | X¹

Supuestos de D₂ (más flexibles):

Consistencia y solapamiento, pero permitiendo confusión no observada

Arquitectura del Modelo

Marco de Método de Cuatro Pasos

Paso A: Medida de Ajuste (Measure of Fit) Estimar el efecto de tratamiento promedio condicional (CATE) en D₂ usando división de muestras:

τ̂₂(x) = E[Y²(1) - Y²(0) | X² = x]
τ̂₂ = (1/N)∑ᵢτ̂₂(xᵢ)

Paso B: Estimación de Función de Influencia Calcular la puntuación de función de influencia no centrada del estimador AIPW en D₁:

Ỹη̂(xᵢ) = (aᵢ¹/π̂¹(xᵢ) - (1-aᵢ¹)/(1-π̂¹(xᵢ)))yᵢ¹ - (aᵢ¹-π̂¹(xᵢ))/(π̂¹(xᵢ)(1-π̂¹(xᵢ)))[(1-π̂¹(xᵢ))μ̂₁(xᵢ) + π̂¹(xᵢ)μ̂₀(xᵢ)]

Paso C: Corrector (Rectifier) Definir el corrector para cuantificar la diferencia de ATE entre los dos conjuntos de datos:

Δ̂τ = (1/n)∑ᵢ[Ỹη̂(xᵢ) - τ̂₂(xᵢ)]

Paso D: Construcción del Intervalo de Confianza Estimación de ATE impulsada por predicción:

τ̂ᴾᴾ = Δ̂τ + τ̂₂

Intervalo de confianza:

Cᴾᴾα = (τ̂ᴾᴾ ± z₁₋α/₂√(σ̂²Δ/n + σ̂²τ₂/N))

Puntos de Innovación Técnica

Adaptación de Inferencia Impulsada por Predicción: Primera aplicación del marco PPI a la estimación de ATE en inferencia causal
Diseño del Corrector: Diseño ingenioso del corrector para manejar diferencias de distribución entre conjuntos de datos y confusión potencial
Garantías Teóricas: Proporciona prueba de validez asintótica, asegurando la validez estadística del intervalo de confianza
Flexibilidad: Soporta estimadores CATE arbitrarios, sin restricción a métodos específicos

Análisis Teórico

Teorema 4.2 (Validez del Intervalo de Confianza): Bajo condiciones apropiadas,

lim sup P(τ ∈ Cᴾᴾα) ≥ 1-α

Lema Clave 4.1: Normalidad Asintótica del Corrector

√n(Δ̂τ - τ + E[τ₂]) → N(0, σ²Δ)

Configuración Experimental

Conjuntos de Datos

Datos Sintéticos:

Mecanismo de generación de datos basado en procesos gaussianos
Tres escenarios de confusión: leve, moderada, severa
Dimensionalidad de covariables y tamaño de muestra controlables

Datos Médicos:

MIMIC-III: Efecto de ventilación mecánica en el recuento de glóbulos rojos en pacientes de UCI
COVID-19 Brasil: Efecto de comorbilidades en la mortalidad de pacientes con COVID-19

Métricas de Evaluación

Ancho del Intervalo de Confianza: Mide la precisión de la cuantificación de incertidumbre
Cobertura: Verifica la validez estadística del intervalo de confianza
RMSE: Evalúa la precisión de la estimación puntual

Métodos de Comparación

τ̂ᴬᴵᴾᵂ(D₁ only): Línea base ingenua usando solo el conjunto de datos pequeño
τ̂ᴬᴵᴾᵂ(D₂ only): Usando solo el conjunto de datos grande (estimación sesgada)
A-TMLE: Método de van der Laan et al. (RCT + datos observacionales)

Detalles de Implementación

DR-learner para estimación de CATE
Regresión lineal/logística para estimar funciones de interferencia
Ajuste cruzado para evitar sobreajuste
Resultados promediados sobre 5 semillas aleatorias

Resultados Experimentales

Resultados Principales

Desempeño en Datos Sintéticos:

Validez: Los intervalos de confianza cubren consistentemente el ATE verdadero
Mejora de Precisión: Reducción promedio del ancho de IC de 49.99%-55.37% comparado con métodos ingenuos
Estabilidad: Mantiene desempeño excelente bajo diferentes intensidades de confusión

Verificación en Datos Médicos:

MIMIC-III: Reducción del ancho de IC de aproximadamente 3.5 veces
Datos COVID-19: Desempeño excelente bajo diferentes estrategias de división
RMSE mínimo e intervalos de confianza válidos más estrechos

Análisis de Sensibilidad

Impacto del Tamaño del Conjunto de Datos:

Ventaja más evidente cuando N≫n
La magnitud de mejora disminuye gradualmente con el aumento de D₁ (como se esperaba)

Configuración de Alta Dimensionalidad:

Mantiene ventaja en espacios de covariables de 5, 50 y 500 dimensiones
Demuestra robustez del método en configuraciones de alta dimensionalidad

Diferentes Arquitecturas de Modelos:

Soporta redes neuronales, XGBoost y otros modelos base
Demuestra la generalidad del método

Extensión RCT + Datos Observacionales

Método Basado en IPW:

Utiliza puntuaciones de propensión conocidas para simplificar la estimación
Más estable que A-TMLE, evitando problemas numéricos de inversión de matrices

Comparación de Desempeño:

Cubre consistentemente el ATE verdadero
Ancho de IC significativamente menor que métodos base
Mantiene validez incluso bajo escenarios de confusión fuerte

Trabajo Relacionado

Construcción de Intervalos de Confianza para ATE

Los métodos tradicionales se basan en normalidad asintótica o supuestos de muestra finita
Los trabajos existentes se enfocaban principalmente en escenarios de conjunto de datos único

Estimación de ATE en Múltiples Conjuntos de Datos

RCT + Datos Observacionales: Kallus et al., Hatt et al., Demirel et al.
Múltiples Datos Observacionales: Yang & Ding, Guo et al.
Limitaciones: La mayoría se enfoca solo en estimación puntual, careciendo de cuantificación de incertidumbre

Inferencia Impulsada por Predicción

Marco PPI propuesto por Angelopoulos et al.
Aplicaciones principales a cantidades estadísticas tradicionales (media, mediana, etc.)
Este artículo es el primero en aplicarlo a inferencia causal

Conclusiones y Discusión

Conclusiones Principales

Extensión exitosa del marco PPI a inferencia causal de múltiples conjuntos de datos
Proporciona intervalos de confianza válidos con garantías teóricas
Mejora significativa de precisión comparado con métodos ingenuos
Verifica practicidad en datos médicos

Limitaciones

Dependencia de Supuestos: El supuesto de no confusión en D₁ puede violarse en práctica
Supuestos de Distribución: Asume que la distribución marginal de covariables es idéntica
División de Muestras: Requiere D₂ suficientemente grande para división efectiva

Direcciones Futuras

Extensión a CATE: Extender el método a efectos de tratamiento heterogéneos
Análisis de Supervivencia: Aplicación a análisis causal de supervivencia
Integración de Modelos de Lenguaje Grande: Combinar con modelos preentrenados para representación de texto
Análisis de Sensibilidad: Desarrollar métodos robustos a violaciones de supuestos

Evaluación Profunda

Fortalezas

Rigor Teórico: Proporciona análisis teórico asintótico completo y prueba de validez
Valor Práctico: Resuelve necesidades reales en práctica médica
Generalidad del Método: Soporta múltiples estimadores CATE, gran flexibilidad
Experimentos Exhaustivos: Cubre datos sintéticos y reales, múltiples análisis de sensibilidad

Insuficiencias

Restricciones de Supuestos: El supuesto de no confusión es fuerte en aplicaciones reales
Complejidad Computacional: El ajuste cruzado y división de muestras aumentan costo computacional
Extensibilidad Limitada: Se enfoca principalmente en tratamiento binario, extensión a tratamiento continuo no clara

Impacto

Contribución Académica: Primera aplicación de PPI a inferencia causal, abre nuevas direcciones de investigación
Valor Práctico: Proporciona herramientas estadísticas más confiables para decisiones médicas
Reproducibilidad: Proporciona código de código abierto, facilitando verificación y aplicación

Escenarios Aplicables

Investigación Médica Multicéntrica: Integración de datos de pacientes de diferentes hospitales
Evaluación de Seguridad de Medicamentos: Combinación de RCT con datos del mundo real
Formulación de Políticas de Salud: Toma de decisiones basada en evidencia a partir de datos multifuente
Aprobación Regulatoria: Proporciona evidencia estadística para aprobación de medicamentos

Referencias

Angelopoulos et al. (2023). Prediction-powered inference. Science.
van der Laan et al. (2024). Adaptive-TMLE for average treatment effect. arXiv.
Kallus et al. (2018). Removing hidden confounding by experimental grounding. NeurIPS.
Yang & Ding (2020). Combining multiple observational data sources. JASA.

Evaluación General: Este es un artículo de alta calidad en inferencia causal que extiende exitosamente el marco de inferencia impulsada por predicción al problema de estimación de ATE en múltiples conjuntos de datos. El artículo posee fundamentos teóricos sólidos, diseño experimental razonable y valor práctico importante en aplicaciones médicas. Aunque existen algunas limitaciones de supuestos, las contribuciones generales son significativas, proporcionando nuevas herramientas metodológicas al campo de la inferencia causal.