Adjustment for ``super'' or ``prognostic'' composite covariates has become more popular in randomized trials recently. These prognostic covariates are often constructed from historical data by fitting a predictive model of the outcome on the raw covariates. A natural question that we have been asked by applied researchers is whether this can be done without the historical data: can the prognostic covariate be constructed or derived from the trial data itself, possibly using different folds of the data, before adjusting for it? Here we clarify that such ``within-trial'' prognostic adjustment is nothing more than a form of targeted maximum likelihood estimation (TMLE), a well-studied procedure for optimal inference. We demonstrate the equivalence with a simulation study and discuss the pros and cons of within-trial prognostic adjustment (standard efficient estimation) relative to standard TMLE and standard prognostic adjustment with historical data.
- 论文ID: 2507.23446
- 标题: "Within-trial" prognostic score adjustment is targeted maximum likelihood estimation
- 作者: Emilie Højbjerre-Frandsen, Alejandro Schuler
- 分类: stat.ME (Statistics - Methodology)
- 发表时间: November 6, 2025 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2507.23446v2
近年来,在随机试验中调整"超级"或"预后"复合协变量变得越来越流行。这些预后协变量通常通过在原始协变量上拟合结果的预测模型从历史数据中构建。应用研究人员经常询问的一个自然问题是:这是否可以在没有历史数据的情况下完成——预后协变量是否可以从试验数据本身构建或派生,可能使用数据的不同折叠,然后进行调整?本文澄清了这种"试验内"预后调整不过是目标最大似然估计(TMLE)的一种形式,这是一个经过充分研究的最优推断程序。作者通过仿真研究证明了等价性,并讨论了试验内预后调整相对于标准TMLE和使用历史数据的标准预后调整的优缺点。
- 预后协变量调整的兴起:在随机临床试验(RCT)中,使用"超级协变量"或"预后协变量"进行协变量调整已成为提高统计效率的流行方法。这一思想可追溯至Tukey(1993),旨在利用历史数据开发单一预后协变量,在降低过拟合风险的同时提高效率。
- 历史数据依赖性问题:传统的预后评分调整方法(如PROCOVA™方法)依赖于来自先前临床试验或注册研究的历史数据。然而,在实际应用中,研究人员经常面临历史数据不可用或不可信的情况。
- 试验内调整的需求:应用研究人员自然会询问:是否可以在不使用历史数据的情况下构建预后协变量?能否直接从试验数据本身(可能使用交叉验证等技术)派生预后协变量,然后进行调整?
本研究的核心动机是澄清"试验内"预后评分调整的本质,并揭示其与已有统计方法的关系,避免"重新发明轮子"。
- 理论等价性证明:首次明确证明了试验内预后评分调整本质上就是目标最大似然估计(TMLE)的一种形式。
- 方法论澄清:澄清了试验内预后调整不是一个新方法,而是TMLE在特定子模型下的实现,因此应该直接称为TMLE而非重新命名。
- 比较分析:系统比较了试验内预后调整、标准TMLE和基于历史数据的标准预后调整方法的优缺点。
- 实证验证:通过仿真研究验证了理论等价性,并展示了不同方法在各种场景下的表现。
在两臂随机试验中估计平均治疗效应(ATE):
- 输入:n个参与者的观测数据 Oi=(Wi,Ai,Yi)
- 输出:因果平均治疗效应 Ψ∗=E[Y(1)−Y(0)]
- 约束:简单随机化假设,治疗分配概率已知
其中:
- Y:连续主要终点变量
- W:p维基线协变量向量
- A:治疗指示器(1表示新治疗,0表示对照)
采用G-computation的表述形式:
- 使用MLE估计条件均值函数 μ(a,w)=E[Y∣A=a,W=w]
- 提取反事实预测:Ψ^a=n1∑i=1nμ^(a,Wi)
- 获得ATE估计:Ψ^=Ψ^1−Ψ^0
- 使用影响函数计算渐近方差
定义预后评分为:
ρD(W,A):=E[Y∣W,A,D]
其中D表示数据来源(D=1为新试验,D=0为历史数据)。
标准预后调整流程:
- 使用历史数据训练预后模型 ρ^0(W,A)
- 将预后预测作为额外协变量加入ANCOVA分析
- 在同质治疗效应假设下达到效率性
TMLE通过以下步骤解决机器学习模型的偏差问题:
- 初始估计:使用机器学习方法获得初始条件均值估计 μ^
- 目标子模型:在参数模型族中进行MLE更新
{pϵ(Y∣A,W)∼N(μ^(A,W)+ϵA±,1):ϵ∈R}
其中 A±=2A−1
- 更新步骤:找到MLE解 ϵ∗,更新预测函数
μ^∗(a,w)=μ^(a,w)+ϵ∗a±
- 去偏条件:更新后的模型满足
E[μ^∗(1,W)−μ^∗(0,W)]=Ψ~
其中 Ψ~ 是未调整的效应估计
定理:试验内预后评分调整等价于使用特定子模型的TMLE。
证明思路:
- 试验内预后调整使用回归模型:
Y=β1A±+β2μ^(A,W)+Xβ3+N(0,1)
- 这正是TMLE的一个有效目标子模型,满足:
- 条件1:β=(0,1,0) 时恢复初始回归
- 条件2:对 β1 的导数给出去偏方向 A±(Y−μ^(A,W))
- 因此试验内预后调整的ANCOVA步骤精确对应TMLE更新步骤
基于结构因果模型生成仿真数据:
协变量生成:
- W1,W2∼Unif(−2,1)
- W3∼N(0,3)
- W4∼Exp(0.8)
- W5∼Γ(5,10)
- W6,W7∼Unif(1,2)
结果生成:
- 同质效应场景:m1(W)=ATE+m0(W)
- 异质效应场景:m1(W) 包含复杂的非线性交互项
其中 ATE = 0.84,m0(W) 包含正弦函数和指示函数的复杂组合。
- 样本量:主要实验 n=200,敏感性分析 n∈50,400
- 仿真次数:N=250次重复
- 机器学习方法:离散超级学习器(Discrete Super Learner)
- 评价指标:标准误差估计、经验功效、覆盖率
- 试验内预后评分调整
- 标准TMLE
- 未调整估计器(作为基准)
仿真结果证实了理论预测:
- 试验内预后调整与TMLE在标准误差估计上高度一致
- 两种方法的点估计和置信区间几乎相同
- 轻微差异来源于试验内方法在更新子模型中包含线性协变量项
标准误差表现:
- 同质场景:两种方法标准误差估计几乎相同(约0.21-0.22)
- 异质场景:保持一致的优良表现
- 经验标准误差与理论估计高度吻合
功效和覆盖率:
- 随样本量增加,两种方法功效曲线完全重合
- 95%置信区间的覆盖率稳定在名义水平附近
- 在小样本(n=50)到大样本(n=400)范围内表现稳定
从仿真图表可见:
- 标准误差估计的平均值(实心点)与经验标准误差(星号)高度一致
- 功效随样本量单调递增,符合理论预期
- 覆盖率在94%-96%范围内波动,接近95%的名义水平
- 实质等价性:试验内预后调整与TMLE在实际应用中表现几乎相同,验证了理论等价性。
- 冗余性证据:在更新子模型中包含额外线性协变量项对结果影响微乎其微,因为预后评分已经捕获了这些线性趋势。
- 稳健性:两种方法在不同数据生成场景和样本量下都表现出良好的稳健性。
- 历史起源:Tukey(1993)最早提出相关思想
- 现代发展:Schuler et al.(2022)形式化了PROCOVA™方法
- 效率理论:在同质治疗效应假设下达到半参数效率界
- 基础理论:van der Laan and Rubin(2006)建立了TMLE的理论框架
- 交叉拟合扩展:多项研究发展了基于交叉验证的TMLE变体
- 效率性质:在弱条件下达到局部半参数效率
- 双重机器学习:与TMLE渐近等价的去偏方法
- 增广IPW:另一种双重稳健估计器
- G-computation:传统的插值估计方法
- 方法论澄清:试验内预后评分调整本质上就是TMLE,不应作为新方法重新命名。
- 实用建议:应直接使用现有TMLE软件包,而非重新实现试验内预后调整。
- 理论统一:该等价性为预后调整方法提供了更深层的理论理解。
- 交叉拟合需求:实际应用中需要使用交叉拟合避免过拟合,增加了实现复杂性。
- 预规范困难:与基于历史数据的方法不同,TMLE只能预规范候选模型库而非具体参数。
- 监管考量:预规范参数的能力在与监管机构合作时可能被视为优势。
- 混合方法:可以将历史数据构建的预后评分与TMLE结合,如Liao et al.(2025)所提议。
- 小样本优化:在样本量较小的试验中,历史数据的价值更加突出。
- 分布偏移处理:当历史数据与当前试验存在分布差异时的稳健方法。
- 理论贡献:首次明确建立了两种看似不同方法之间的理论联系,具有重要的方法论价值。
- 实用价值:避免了重复开发,指导研究人员使用成熟的TMLE工具。
- 严谨证明:通过代数推导严格证明了等价性,理论基础扎实。
- 全面验证:仿真研究涵盖了多种场景,实证支持充分。
- 写作清晰:论文结构清晰,技术细节解释透彻,易于理解。
- 创新性有限:主要是揭示现有方法的等价性,缺乏实质性的方法创新。
- 应用范围:分析局限于1:1随机试验设置,对更复杂设计的推广不明确。
- 实际差异忽略:虽然理论等价,但实现细节的差异可能在某些情况下产生影响。
- 比较不全面:缺乏与其他先进协变量调整方法的系统比较。
- 学术价值:为统计方法论领域提供了重要的理论澄清,有助于避免概念混淆。
- 实践指导:为临床试验统计学家提供了明确的方法选择指导。
- 教育意义:有助于统计教育中对不同估计方法关系的理解。
- 方法选择:当历史数据不可用时,研究人员可以直接使用TMLE而非开发新的试验内方法。
- 理论研究:为进一步的协变量调整方法研究提供了理论基础。
- 监管申请:在需要预规范分析计划的监管环境中,需要权衡不同方法的优劣。
本文引用了大量相关领域的重要文献,包括:
- Schuler et al. (2022): PROCOVA方法的原始论文
- van der Laan and Rubin (2006): TMLE的奠基性工作
- Tukey (1993): 预后调整思想的早期来源
- 多项关于交叉拟合和双重稳健估计的现代文献
总体评价:这是一篇高质量的方法论论文,虽然创新性相对有限,但在理论澄清和实践指导方面具有重要价值。论文严谨地证明了一个重要的等价性结果,有助于统计学界对相关方法的正确理解和应用。