2025-11-22T18:49:15.334146

Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets

Wang, SchrÃ¶der, Frauen et al.

Constructing confidence intervals (CIs) for the average treatment effect (ATE) from patient records is crucial to assess the effectiveness and safety of drugs. However, patient records typically come from different hospitals, thus raising the question of how multiple observational datasets can be effectively combined for this purpose. In our paper, we propose a new method that estimates the ATE from multiple observational datasets and provides valid CIs. Our method makes little assumptions about the observational datasets and is thus widely applicable in medical practice. The key idea of our method is that we leverage prediction-powered inferences and thereby essentially `shrink' the CIs so that we offer more precise uncertainty quantification as compared to naÃ¯ve approaches. We further prove the unbiasedness of our method and the validity of our CIs. We confirm our theoretical results through various numerical experiments. Finally, we provide an extension of our method for constructing CIs from combinations of experimental and observational datasets.

academic

Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets

基本信息

论文ID: 2412.11511
标题: Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets
作者: Yuxin Wang, Maresa Schröder, Dennis Frauen, Jonas Schweisthal, Konstantin Hess & Stefan Feuerriegel (LMU Munich, MCML)
分类: cs.LG, stat.ML
发表会议: ICLR 2025
论文链接: https://arxiv.org/abs/2412.11511

摘要

本文提出了一种从多个观察性数据集构建平均治疗效应(ATE)置信区间的新方法。该方法对观察性数据集假设较少，在医疗实践中具有广泛适用性。核心思想是利用预测驱动推断(prediction-powered inference)来"收缩"置信区间，相比朴素方法提供更精确的不确定性量化。论文证明了方法的无偏性和置信区间的有效性，并通过数值实验验证了理论结果。此外，还扩展了方法以处理实验和观察性数据集的组合。

研究背景与动机

核心问题

在医疗领域，从患者记录中构建ATE的置信区间对评估药物有效性和安全性至关重要。然而，患者记录通常来自不同医院，如何有效结合多个观察性数据集成为关键挑战。

问题重要性

医疗决策需求：可靠的置信区间对医疗决策制定至关重要，确保基于证据的治疗选择
数据分散性：电子健康记录通常分布在不同医疗机构、国家，需要整合利用
COVID-19案例：疫情期间需要快速从多中心数据评估药物效果，如nirmatrelvir/ritonavir的研究

现有方法局限性

点估计局限：现有多数据集方法主要关注点估计，缺乏不确定性量化
朴素方法问题：
- 直接连接数据集会因混淆偏差导致有偏估计
- 仅使用小数据集忽略大数据集信息，置信区间过于保守
假设限制：现有方法对数据集间关系假设较强

核心贡献

新颖方法论：提出基于预测驱动推断的多数据集ATE置信区间构建方法
理论保证：证明方法的一致性估计和置信区间有效性
广泛适用性：扩展至RCT+观察性数据集组合场景
实验验证：通过合成数据和医疗数据验证方法有效性

方法详解

任务定义

给定小型无偏观察性数据集D₁（满足无混淆性假设）和大型观察性数据集D₂（允许未观察混淆），目标是估计目标总体的ATE τ = EY¹(1) - Y¹(0)并构建有效置信区间。

核心假设

D₁假设：

一致性：A¹ = a ⇒ Y¹ = Y¹(a)
重叠性：0 < π¹(x) < 1
无混淆性：Y¹(0), Y¹(1) ⊥⊥ A¹ | X¹

D₂假设（更宽松）：

一致性和重叠性，但允许未观察混淆

模型架构

四步骤方法框架

步骤A：拟合度量(Measure of Fit) 使用样本分割在D₂上估计条件平均治疗效应(CATE)：

τ̂₂(x) = E[Y²(1) - Y²(0) | X² = x]
τ̂₂ = (1/N)∑ᵢτ̂₂(xᵢ)

步骤B：影响函数估计 计算D₁上AIPW估计器的非中心化影响函数得分：

Ỹη̂(xᵢ) = (aᵢ¹/π̂¹(xᵢ) - (1-aᵢ¹)/(1-π̂¹(xᵢ)))yᵢ¹ - (aᵢ¹-π̂¹(xᵢ))/(π̂¹(xᵢ)(1-π̂¹(xᵢ)))[(1-π̂¹(xᵢ))μ̂₁(xᵢ) + π̂¹(xᵢ)μ̂₀(xᵢ)]

步骤C：校正器(Rectifier) 定义校正器量化两数据集间ATE差异：

Δ̂τ = (1/n)∑ᵢ[Ỹη̂(xᵢ) - τ̂₂(xᵢ)]

步骤D：置信区间构建 预测驱动ATE估计：

τ̂ᴾᴾ = Δ̂τ + τ̂₂

置信区间：

Cᴾᴾα = (τ̂ᴾᴾ ± z₁₋α/₂√(σ̂²Δ/n + σ̂²τ₂/N))

技术创新点

预测驱动推断适配：首次将PPI框架应用于因果推断中的ATE估计
校正器设计：巧妙设计校正器处理数据集间分布差异和潜在混淆
理论保证：提供渐近有效性证明，确保置信区间的统计有效性
灵活性：支持任意CATE估计器，不限制特定方法

理论分析

定理4.2（置信区间有效性）：在适当条件下，

lim sup P(τ ∈ Cᴾᴾα) ≥ 1-α

关键引理4.1：校正器的渐近正态性

√n(Δ̂τ - τ + E[τ₂]) → N(0, σ²Δ)

实验设置

数据集

合成数据：

基于高斯过程的数据生成机制
三种混淆场景：轻微、中等、严重混淆
可控制的协变量维度和样本大小

医疗数据：

MIMIC-III：ICU患者机械通气对红细胞计数的影响
巴西COVID-19：合并症对COVID-19患者死亡率的影响

评价指标

置信区间宽度：衡量不确定性量化精度
覆盖率：验证置信区间统计有效性
RMSE：评估点估计精度

对比方法

τ̂ᴬᴵᴾᵂ(D₁ only)：仅使用小数据集的朴素基线
τ̂ᴬᴵᴾᵂ(D₂ only)：仅使用大数据集（有偏估计）
A-TMLE：van der Laan等人的方法（RCT+观察性数据）

实现细节

DR-learner用于CATE估计
线性/逻辑回归估计干扰函数
交叉拟合避免过拟合
5个随机种子平均结果

实验结果

主要结果

合成数据表现：

有效性：置信区间始终覆盖真实ATE
精度提升：相比朴素方法，CI宽度平均减少49.99%-55.37%
稳定性：在不同混淆强度下保持优异表现

医疗数据验证：

MIMIC-III：CI宽度减少约3.5倍
COVID-19数据：在不同分割策略下均表现优异
最小RMSE和最窄有效置信区间

敏感性分析

数据集大小影响：

N≫n时优势更明显
随着D₁增大，改进幅度逐渐减小（符合预期）

高维设置：

在5维、50维、500维协变量空间中均保持优势
证明方法在高维设置下的鲁棒性

不同模型架构：

支持神经网络、XGBoost等多种基础模型
展现方法的通用性

RCT+观察性数据扩展

IPW基础方法：

利用已知倾向得分简化估计
相比A-TMLE更稳定，避免矩阵求逆的数值问题

性能对比：

一致覆盖真实ATE
CI宽度显著小于基线方法
在强混淆场景下仍保持有效性

结论与讨论

主要结论

成功将PPI框架扩展至多数据集因果推断
提供理论保证的有效置信区间
相比朴素方法显著提高精度
在医疗数据上验证实用性

局限性

假设依赖：D₁的无混淆性假设在实践中可能违反
分布假设：假设边际协变量分布相同
样本分割：需要足够大的D₂进行有效分割

未来方向

扩展至CATE：将方法扩展到异质性治疗效应
生存分析：应用于因果生存分析
大语言模型集成：结合预训练模型进行文本表示
敏感性分析：开发对假设违反的鲁棒方法

深度评价

优点

理论严谨：提供完整的渐近理论分析和有效性证明
实用价值：解决医疗实践中的真实需求
方法通用：支持多种CATE估计器，灵活性强
实验充分：涵盖合成和真实数据，多种敏感性分析

不足

假设限制：无混淆性假设在实际应用中较强
计算复杂度：交叉拟合和样本分割增加计算成本
有限扩展性：主要针对二元治疗，连续治疗扩展不明确

影响力

学术贡献：首次将PPI应用于因果推断，开辟新研究方向
实践价值：为医疗决策提供更可靠的统计工具
可复现性：提供开源代码，便于验证和应用

适用场景

多中心医疗研究：整合不同医院的患者数据
药物安全性评估：结合RCT和真实世界数据
健康政策制定：基于多源数据的循证决策
监管审批：为药物审批提供统计证据

参考文献

Angelopoulos et al. (2023). Prediction-powered inference. Science.
van der Laan et al. (2024). Adaptive-TMLE for average treatment effect. arXiv.
Kallus et al. (2018). Removing hidden confounding by experimental grounding. NeurIPS.
Yang & Ding (2020). Combining multiple observational data sources. JASA.

总体评价：这是一篇高质量的因果推断论文，成功将预测驱动推断框架应用于多数据集ATE估计问题。论文理论基础扎实，实验设计合理，在医疗应用中具有重要实用价值。虽然存在一些假设限制，但整体贡献显著，为因果推断领域提供了新的方法论工具。