2025-11-22T18:49:15.334146

Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets

Wang, Schröder, Frauen et al.
Constructing confidence intervals (CIs) for the average treatment effect (ATE) from patient records is crucial to assess the effectiveness and safety of drugs. However, patient records typically come from different hospitals, thus raising the question of how multiple observational datasets can be effectively combined for this purpose. In our paper, we propose a new method that estimates the ATE from multiple observational datasets and provides valid CIs. Our method makes little assumptions about the observational datasets and is thus widely applicable in medical practice. The key idea of our method is that we leverage prediction-powered inferences and thereby essentially `shrink' the CIs so that we offer more precise uncertainty quantification as compared to naïve approaches. We further prove the unbiasedness of our method and the validity of our CIs. We confirm our theoretical results through various numerical experiments. Finally, we provide an extension of our method for constructing CIs from combinations of experimental and observational datasets.
academic

Construcción de Intervalos de Confianza para Efectos de Tratamiento Promedio a partir de Múltiples Conjuntos de Datos

Información Básica

  • ID del Artículo: 2412.11511
  • Título: Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets
  • Autores: Yuxin Wang, Maresa Schröder, Dennis Frauen, Jonas Schweisthal, Konstantin Hess & Stefan Feuerriegel (LMU Munich, MCML)
  • Clasificación: cs.LG, stat.ML
  • Conferencia de Publicación: ICLR 2025
  • Enlace del Artículo: https://arxiv.org/abs/2412.11511

Resumen

Este artículo propone un nuevo método para construir intervalos de confianza del efecto de tratamiento promedio (ATE) a partir de múltiples conjuntos de datos observacionales. El método realiza supuestos menos restrictivos sobre los conjuntos de datos observacionales y posee amplia aplicabilidad en la práctica médica. La idea central es utilizar inferencia impulsada por predicción (prediction-powered inference) para "contraer" los intervalos de confianza, proporcionando una cuantificación de incertidumbre más precisa en comparación con métodos ingenuos. El artículo demuestra la insesgadez del método y la validez de los intervalos de confianza, verificando los resultados teóricos mediante experimentos numéricos. Además, extiende el método para manejar combinaciones de conjuntos de datos experimentales y observacionales.

Antecedentes de Investigación y Motivación

Problema Central

En el campo médico, la construcción de intervalos de confianza para el ATE a partir de registros de pacientes es crucial para evaluar la eficacia y seguridad de medicamentos. Sin embargo, los registros de pacientes típicamente provienen de diferentes hospitales, y cómo integrar efectivamente múltiples conjuntos de datos observacionales se convierte en un desafío clave.

Importancia del Problema

  1. Necesidades de Decisión Médica: Los intervalos de confianza confiables son críticos para la toma de decisiones médicas, asegurando opciones de tratamiento basadas en evidencia
  2. Dispersión de Datos: Los registros electrónicos de salud típicamente se distribuyen entre diferentes instituciones médicas y países, requiriendo integración y aprovechamiento
  3. Caso COVID-19: Durante la pandemia, fue necesario evaluar rápidamente la eficacia de medicamentos a partir de datos multicéntricos, como en estudios de nirmatrelvir/ritonavir

Limitaciones de Métodos Existentes

  1. Limitaciones de Estimación Puntual: La mayoría de métodos de múltiples conjuntos de datos se enfoca en estimación puntual, careciendo de cuantificación de incertidumbre
  2. Problemas de Métodos Ingenuos:
    • Concatenar directamente conjuntos de datos resulta en estimaciones sesgadas debido a sesgo de confusión
    • Utilizar solo el conjunto de datos pequeño ignora información del conjunto grande, resultando en intervalos de confianza excesivamente conservadores
  3. Restricciones de Supuestos: Los métodos existentes asumen relaciones fuertes entre conjuntos de datos

Contribuciones Principales

  1. Metodología Novedosa: Propone un método de construcción de intervalos de confianza de ATE para múltiples conjuntos de datos basado en inferencia impulsada por predicción
  2. Garantías Teóricas: Demuestra la consistencia de la estimación y la validez de los intervalos de confianza
  3. Amplia Aplicabilidad: Extiende el método a escenarios que combinan RCT con conjuntos de datos observacionales
  4. Verificación Experimental: Valida la efectividad del método mediante datos sintéticos y médicos

Explicación Detallada del Método

Definición de la Tarea

Dado un pequeño conjunto de datos observacionales insesgado D₁ (satisfaciendo el supuesto de no confusión) y un gran conjunto de datos observacionales D₂ (permitiendo confusión no observada), el objetivo es estimar el ATE τ = EY¹(1) - Y¹(0) de la población objetivo y construir un intervalo de confianza válido.

Supuestos Principales

Supuestos de D₁:

  • Consistencia: A¹ = a ⇒ Y¹ = Y¹(a)
  • Solapamiento: 0 < π¹(x) < 1
  • No confusión: Y¹(0), Y¹(1) ⊥⊥ A¹ | X¹

Supuestos de D₂ (más flexibles):

  • Consistencia y solapamiento, pero permitiendo confusión no observada

Arquitectura del Modelo

Marco de Método de Cuatro Pasos

Paso A: Medida de Ajuste (Measure of Fit) Estimar el efecto de tratamiento promedio condicional (CATE) en D₂ usando división de muestras:

τ̂₂(x) = E[Y²(1) - Y²(0) | X² = x]
τ̂₂ = (1/N)∑ᵢτ̂₂(xᵢ)

Paso B: Estimación de Función de Influencia Calcular la puntuación de función de influencia no centrada del estimador AIPW en D₁:

Ỹη̂(xᵢ) = (aᵢ¹/π̂¹(xᵢ) - (1-aᵢ¹)/(1-π̂¹(xᵢ)))yᵢ¹ - (aᵢ¹-π̂¹(xᵢ))/(π̂¹(xᵢ)(1-π̂¹(xᵢ)))[(1-π̂¹(xᵢ))μ̂₁(xᵢ) + π̂¹(xᵢ)μ̂₀(xᵢ)]

Paso C: Corrector (Rectifier) Definir el corrector para cuantificar la diferencia de ATE entre los dos conjuntos de datos:

Δ̂τ = (1/n)∑ᵢ[Ỹη̂(xᵢ) - τ̂₂(xᵢ)]

Paso D: Construcción del Intervalo de Confianza Estimación de ATE impulsada por predicción:

τ̂ᴾᴾ = Δ̂τ + τ̂₂

Intervalo de confianza:

Cᴾᴾα = (τ̂ᴾᴾ ± z₁₋α/₂√(σ̂²Δ/n + σ̂²τ₂/N))

Puntos de Innovación Técnica

  1. Adaptación de Inferencia Impulsada por Predicción: Primera aplicación del marco PPI a la estimación de ATE en inferencia causal
  2. Diseño del Corrector: Diseño ingenioso del corrector para manejar diferencias de distribución entre conjuntos de datos y confusión potencial
  3. Garantías Teóricas: Proporciona prueba de validez asintótica, asegurando la validez estadística del intervalo de confianza
  4. Flexibilidad: Soporta estimadores CATE arbitrarios, sin restricción a métodos específicos

Análisis Teórico

Teorema 4.2 (Validez del Intervalo de Confianza): Bajo condiciones apropiadas,

lim sup P(τ ∈ Cᴾᴾα) ≥ 1-α

Lema Clave 4.1: Normalidad Asintótica del Corrector

√n(Δ̂τ - τ + E[τ₂]) → N(0, σ²Δ)

Configuración Experimental

Conjuntos de Datos

Datos Sintéticos:

  • Mecanismo de generación de datos basado en procesos gaussianos
  • Tres escenarios de confusión: leve, moderada, severa
  • Dimensionalidad de covariables y tamaño de muestra controlables

Datos Médicos:

  1. MIMIC-III: Efecto de ventilación mecánica en el recuento de glóbulos rojos en pacientes de UCI
  2. COVID-19 Brasil: Efecto de comorbilidades en la mortalidad de pacientes con COVID-19

Métricas de Evaluación

  • Ancho del Intervalo de Confianza: Mide la precisión de la cuantificación de incertidumbre
  • Cobertura: Verifica la validez estadística del intervalo de confianza
  • RMSE: Evalúa la precisión de la estimación puntual

Métodos de Comparación

  1. τ̂ᴬᴵᴾᵂ(D₁ only): Línea base ingenua usando solo el conjunto de datos pequeño
  2. τ̂ᴬᴵᴾᵂ(D₂ only): Usando solo el conjunto de datos grande (estimación sesgada)
  3. A-TMLE: Método de van der Laan et al. (RCT + datos observacionales)

Detalles de Implementación

  • DR-learner para estimación de CATE
  • Regresión lineal/logística para estimar funciones de interferencia
  • Ajuste cruzado para evitar sobreajuste
  • Resultados promediados sobre 5 semillas aleatorias

Resultados Experimentales

Resultados Principales

Desempeño en Datos Sintéticos:

  1. Validez: Los intervalos de confianza cubren consistentemente el ATE verdadero
  2. Mejora de Precisión: Reducción promedio del ancho de IC de 49.99%-55.37% comparado con métodos ingenuos
  3. Estabilidad: Mantiene desempeño excelente bajo diferentes intensidades de confusión

Verificación en Datos Médicos:

  • MIMIC-III: Reducción del ancho de IC de aproximadamente 3.5 veces
  • Datos COVID-19: Desempeño excelente bajo diferentes estrategias de división
  • RMSE mínimo e intervalos de confianza válidos más estrechos

Análisis de Sensibilidad

Impacto del Tamaño del Conjunto de Datos:

  • Ventaja más evidente cuando N≫n
  • La magnitud de mejora disminuye gradualmente con el aumento de D₁ (como se esperaba)

Configuración de Alta Dimensionalidad:

  • Mantiene ventaja en espacios de covariables de 5, 50 y 500 dimensiones
  • Demuestra robustez del método en configuraciones de alta dimensionalidad

Diferentes Arquitecturas de Modelos:

  • Soporta redes neuronales, XGBoost y otros modelos base
  • Demuestra la generalidad del método

Extensión RCT + Datos Observacionales

Método Basado en IPW:

  • Utiliza puntuaciones de propensión conocidas para simplificar la estimación
  • Más estable que A-TMLE, evitando problemas numéricos de inversión de matrices

Comparación de Desempeño:

  • Cubre consistentemente el ATE verdadero
  • Ancho de IC significativamente menor que métodos base
  • Mantiene validez incluso bajo escenarios de confusión fuerte

Trabajo Relacionado

Construcción de Intervalos de Confianza para ATE

  • Los métodos tradicionales se basan en normalidad asintótica o supuestos de muestra finita
  • Los trabajos existentes se enfocaban principalmente en escenarios de conjunto de datos único

Estimación de ATE en Múltiples Conjuntos de Datos

  1. RCT + Datos Observacionales: Kallus et al., Hatt et al., Demirel et al.
  2. Múltiples Datos Observacionales: Yang & Ding, Guo et al.
  3. Limitaciones: La mayoría se enfoca solo en estimación puntual, careciendo de cuantificación de incertidumbre

Inferencia Impulsada por Predicción

  • Marco PPI propuesto por Angelopoulos et al.
  • Aplicaciones principales a cantidades estadísticas tradicionales (media, mediana, etc.)
  • Este artículo es el primero en aplicarlo a inferencia causal

Conclusiones y Discusión

Conclusiones Principales

  1. Extensión exitosa del marco PPI a inferencia causal de múltiples conjuntos de datos
  2. Proporciona intervalos de confianza válidos con garantías teóricas
  3. Mejora significativa de precisión comparado con métodos ingenuos
  4. Verifica practicidad en datos médicos

Limitaciones

  1. Dependencia de Supuestos: El supuesto de no confusión en D₁ puede violarse en práctica
  2. Supuestos de Distribución: Asume que la distribución marginal de covariables es idéntica
  3. División de Muestras: Requiere D₂ suficientemente grande para división efectiva

Direcciones Futuras

  1. Extensión a CATE: Extender el método a efectos de tratamiento heterogéneos
  2. Análisis de Supervivencia: Aplicación a análisis causal de supervivencia
  3. Integración de Modelos de Lenguaje Grande: Combinar con modelos preentrenados para representación de texto
  4. Análisis de Sensibilidad: Desarrollar métodos robustos a violaciones de supuestos

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Proporciona análisis teórico asintótico completo y prueba de validez
  2. Valor Práctico: Resuelve necesidades reales en práctica médica
  3. Generalidad del Método: Soporta múltiples estimadores CATE, gran flexibilidad
  4. Experimentos Exhaustivos: Cubre datos sintéticos y reales, múltiples análisis de sensibilidad

Insuficiencias

  1. Restricciones de Supuestos: El supuesto de no confusión es fuerte en aplicaciones reales
  2. Complejidad Computacional: El ajuste cruzado y división de muestras aumentan costo computacional
  3. Extensibilidad Limitada: Se enfoca principalmente en tratamiento binario, extensión a tratamiento continuo no clara

Impacto

  1. Contribución Académica: Primera aplicación de PPI a inferencia causal, abre nuevas direcciones de investigación
  2. Valor Práctico: Proporciona herramientas estadísticas más confiables para decisiones médicas
  3. Reproducibilidad: Proporciona código de código abierto, facilitando verificación y aplicación

Escenarios Aplicables

  1. Investigación Médica Multicéntrica: Integración de datos de pacientes de diferentes hospitales
  2. Evaluación de Seguridad de Medicamentos: Combinación de RCT con datos del mundo real
  3. Formulación de Políticas de Salud: Toma de decisiones basada en evidencia a partir de datos multifuente
  4. Aprobación Regulatoria: Proporciona evidencia estadística para aprobación de medicamentos

Referencias

  1. Angelopoulos et al. (2023). Prediction-powered inference. Science.
  2. van der Laan et al. (2024). Adaptive-TMLE for average treatment effect. arXiv.
  3. Kallus et al. (2018). Removing hidden confounding by experimental grounding. NeurIPS.
  4. Yang & Ding (2020). Combining multiple observational data sources. JASA.

Evaluación General: Este es un artículo de alta calidad en inferencia causal que extiende exitosamente el marco de inferencia impulsada por predicción al problema de estimación de ATE en múltiples conjuntos de datos. El artículo posee fundamentos teóricos sólidos, diseño experimental razonable y valor práctico importante en aplicaciones médicas. Aunque existen algunas limitaciones de supuestos, las contribuciones generales son significativas, proporcionando nuevas herramientas metodológicas al campo de la inferencia causal.