2025-11-11T07:10:11.815577

"Within-trial" prognostic score adjustment is targeted maximum likelihood estimation

HÃ¸jbjerre-Frandsen, Schuler

Adjustment for ``super'' or ``prognostic'' composite covariates has become more popular in randomized trials recently. These prognostic covariates are often constructed from historical data by fitting a predictive model of the outcome on the raw covariates. A natural question that we have been asked by applied researchers is whether this can be done without the historical data: can the prognostic covariate be constructed or derived from the trial data itself, possibly using different folds of the data, before adjusting for it? Here we clarify that such ``within-trial'' prognostic adjustment is nothing more than a form of targeted maximum likelihood estimation (TMLE), a well-studied procedure for optimal inference. We demonstrate the equivalence with a simulation study and discuss the pros and cons of within-trial prognostic adjustment (standard efficient estimation) relative to standard TMLE and standard prognostic adjustment with historical data.

academic

"시험 내" 예후 점수 조정은 표적 최대우도 추정이다

기본 정보

논문 ID: 2507.23446
제목: "Within-trial" prognostic score adjustment is targeted maximum likelihood estimation
저자: Emilie Højbjerre-Frandsen, Alejandro Schuler
분류: stat.ME (통계학 - 방법론)
발표 시간: 2025년 11월 6일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2507.23446v2

초록

최근 무작위 임상시험에서 "슈퍼" 또는 "예후" 복합 공변량을 조정하는 것이 점점 더 인기를 얻고 있다. 이러한 예후 공변량은 일반적으로 역사적 데이터에서 원래 공변량에 대한 결과의 예측 모델을 적합함으로써 구축된다. 응용 연구자들이 자주 제기하는 자연스러운 질문은 다음과 같다: 역사적 데이터 없이 이를 수행할 수 있는가? 예후 공변량을 시험 데이터 자체에서 구축하거나 도출할 수 있는가(데이터의 서로 다른 폴드를 사용하여 가능)? 본 논문은 이러한 "시험 내" 예후 조정이 충분히 연구된 최적 추론 절차인 표적 최대우도 추정(TMLE)의 한 형태일 뿐임을 명확히 한다. 저자들은 시뮬레이션 연구를 통해 동등성을 입증하고, 시험 내 예후 조정과 표준 TMLE 및 역사적 데이터를 사용한 표준 예후 조정의 장단점을 논의한다.

연구 배경 및 동기

문제 배경

예후 공변량 조정의 부상: 무작위 임상시험(RCT)에서 "슈퍼 공변량" 또는 "예후 공변량"을 사용한 공변량 조정이 통계적 효율성을 높이는 인기 있는 방법이 되었다. 이 아이디어는 Tukey(1993)로 거슬러 올라가며, 과적합 위험을 줄이면서 효율성을 높이기 위해 역사적 데이터를 활용하여 단일 예후 공변량을 개발하는 것을 목표로 한다.
역사적 데이터 의존성 문제: 전통적인 예후 점수 조정 방법(예: PROCOVA™ 방법)은 이전 임상시험 또는 등록 연구의 역사적 데이터에 의존한다. 그러나 실제 응용에서 연구자들은 역사적 데이터를 사용할 수 없거나 신뢰할 수 없는 상황에 자주 직면한다.
시험 내 조정의 필요성: 응용 연구자들은 자연스럽게 다음과 같이 묻는다: 역사적 데이터를 사용하지 않고 예후 공변량을 구축할 수 있는가? 교차 검증 등의 기술을 사용하여 시험 데이터 자체에서 직접 예후 공변량을 도출한 후 조정할 수 있는가?

연구 동기

본 연구의 핵심 동기는 "시험 내" 예후 점수 조정의 본질을 명확히 하고 기존 통계 방법과의 관계를 밝혀 "바퀴를 다시 발명하는" 것을 피하는 것이다.

핵심 기여

이론적 동등성 증명: 시험 내 예후 점수 조정이 본질적으로 표적 최대우도 추정(TMLE)의 한 형태임을 처음으로 명확히 증명했다.
방법론적 명확화: 시험 내 예후 조정이 새로운 방법이 아니라 특정 부분 모델 하에서 TMLE의 구현이므로, 이름을 다시 붙이지 말고 직접 TMLE이라고 불러야 함을 명확히 했다.
비교 분석: 시험 내 예후 조정, 표준 TMLE, 역사적 데이터 기반 표준 예후 조정 방법의 장단점을 체계적으로 비교했다.
실증 검증: 시뮬레이션 연구를 통해 이론적 동등성을 검증하고 다양한 시나리오에서 서로 다른 방법의 성능을 시연했다.

방법론 상세 설명

작업 정의

이원 무작위 시험에서 평균 처리 효과(ATE) 추정:

입력: n명의 참여자의 관측 데이터 $O_i = (W_i, A_i, Y_i)$
출력: 인과 평균 처리 효과 $\Psi^* = E[Y(1) - Y(0)]$
제약: 단순 무작위화 가정, 처리 할당 확률 알려짐

여기서:

$Y$ : 연속 주요 종료점 변수
$W$ : p차원 기저선 공변량 벡터
$A$ : 처리 지시자(1은 새로운 처리, 0은 대조)

핵심 방법론 구조

1. ANCOVA 추정기(삽입 방법)

G-computation의 표현 형식 사용:

MLE를 사용하여 조건부 평균 함수 $\mu(a,w) = E[Y|A=a,W=w]$ 추정
반사실적 예측 추출: $\hat{\Psi}_a = \frac{1}{n}\sum_{i=1}^n \hat{\mu}(a,W_i)$
ATE 추정 획득: $\hat{\Psi} = \hat{\Psi}_1 - \hat{\Psi}_0$
영향 함수를 사용하여 점근 분산 계산

2. 예후 점수 조정

예후 점수를 다음과 같이 정의: $\rho_D(W,A) := E[Y|W,A,D]$

여기서 D는 데이터 출처(D=1은 새로운 시험, D=0은 역사적 데이터)를 나타낸다.

표준 예후 조정 절차:

역사적 데이터를 사용하여 예후 모델 $\hat{\rho}_0(W,A)$ 훈련
예후 예측을 ANCOVA 분석에 추가 공변량으로 포함
동질적 처리 효과 가정 하에서 효율성 달성

3. TMLE 방법

TMLE는 다음 단계를 통해 기계 학습 모델의 편향 문제를 해결한다:

초기 추정: 기계 학습 방법을 사용하여 초기 조건부 평균 추정 $\hat{\mu}$ 획득
표적 부분 모델: 매개변수 모델 족에서 MLE 업데이트 $\{p_\epsilon(Y|A,W) \sim N(\hat{\mu}(A,W) + \epsilon A_{\pm}, 1) : \epsilon \in \mathbb{R}\}$ 여기서 $A_{\pm} = 2A - 1$
업데이트 단계: MLE 해 $\epsilon^*$ 찾기, 예측 함수 업데이트 $\hat{\mu}^*(a,w) = \hat{\mu}(a,w) + \epsilon^* a_{\pm}$
편향 제거 조건: 업데이트된 모델이 다음을 만족 $E[\hat{\mu}^*(1,W) - \hat{\mu}^*(0,W)] = \tilde{\Psi}$ 여기서 $\tilde{\Psi}$ 는 조정되지 않은 효과 추정

핵심 이론적 결과: 동등성 증명

정리: 시험 내 예후 점수 조정은 특정 부분 모델을 사용한 TMLE과 동등하다.

증명 개요:

시험 내 예후 조정은 회귀 모델을 사용: $Y = \beta_1 A_{\pm} + \beta_2 \hat{\mu}(A,W) + X\beta_3 + N(0,1)$
이는 정확히 TMLE의 유효한 표적 부분 모델이며, 다음을 만족:
- 조건 1: $\beta = (0,1,0)$ 일 때 초기 회귀 복원
- 조건 2: $\beta_1$ 에 대한 도함수가 편향 제거 방향 $A_{\pm}(Y - \hat{\mu}(A,W))$ 제공
따라서 시험 내 예후 조정의 ANCOVA 단계는 정확히 TMLE 업데이트 단계에 해당

실험 설정

데이터 생성 과정

구조적 인과 모델을 기반으로 시뮬레이션 데이터 생성:

공변량 생성:

$W_1, W_2 \sim \text{Unif}(-2,1)$
$W_3 \sim N(0,3)$
$W_4 \sim \text{Exp}(0.8)$
$W_5 \sim \Gamma(5,10)$
$W_6, W_7 \sim \text{Unif}(1,2)$

결과 생성:

동질적 효과 시나리오: $m_1(W) = \text{ATE} + m_0(W)$
이질적 효과 시나리오: $m_1(W)$ 는 복잡한 비선형 상호작용항 포함

여기서 ATE = 0.84, $m_0(W)$ 는 정현 함수와 지시 함수의 복잡한 조합 포함.

실험 설계

표본 크기: 주요 실험 n=200, 민감도 분석 n∈50,400
시뮬레이션 횟수: N=250회 반복
기계 학습 방법: 이산 슈퍼 러너(Discrete Super Learner)
평가 지표: 표준 오차 추정, 경험적 검정력, 포함 확률

비교 방법

시험 내 예후 점수 조정
표준 TMLE
조정되지 않은 추정기(기준선)

실험 결과

주요 결과

1. 이론적 동등성 검증

시뮬레이션 결과는 이론적 예측을 확인:

시험 내 예후 조정과 TMLE는 표준 오차 추정에서 높은 일치도
두 방법의 점 추정 및 신뢰 구간이 거의 동일
경미한 차이는 시험 내 방법이 업데이트 부분 모델에 선형 공변량항 포함에서 비롯

2. 성능 비교

표준 오차 성능:

동질적 시나리오: 두 방법의 표준 오차 추정이 거의 동일(약 0.21-0.22)
이질적 시나리오: 일관된 우수한 성능 유지
경험적 표준 오차와 이론적 추정이 높은 일치도

검정력 및 포함 확률:

표본 크기 증가에 따라 두 방법의 검정력 곡선이 완전히 일치
95% 신뢰 구간의 포함 확률이 명목 수준 근처에서 안정적
소표본(n=50)에서 대표본(n=400) 범위에서 안정적 성능

3. 수치 결과

시뮬레이션 그래프에서 볼 수 있듯이:

표준 오차 추정의 평균값(실선)이 경험적 표준 오차(별표)와 높은 일치도
검정력이 표본 크기에 따라 단조 증가, 이론적 예상과 일치
포함 확률이 94%-96% 범위에서 변동, 95% 명목 수준에 근접

실험 발견

실질적 동등성: 시험 내 예후 조정과 TMLE는 실제 응용에서 거의 동일한 성능을 보이며, 이론적 동등성을 검증한다.
중복성 증거: 업데이트 부분 모델에 추가 선형 공변량항 포함이 결과에 미미한 영향을 미친다. 예후 점수가 이미 이러한 선형 추세를 포착했기 때문이다.
견고성: 두 방법 모두 서로 다른 데이터 생성 시나리오 및 표본 크기에서 우수한 견고성을 보인다.

방법론적 명확화: 시험 내 예후 점수 조정은 본질적으로 TMLE이며, 새로운 방법으로 이름을 다시 붙여서는 안 된다.
실용적 권고: 시험 내 예후 조정을 다시 구현하기보다는 기존 TMLE 소프트웨어 패키지를 직접 사용해야 한다.
이론적 통일: 이 동등성은 예후 조정 방법에 대한 더 깊은 이론적 이해를 제공한다.

한계

교차 적합 요구: 실제 응용에서 과적합을 피하기 위해 교차 적합을 사용해야 하므로 구현 복잡성이 증가한다.
사전 규정 어려움: 역사적 데이터 기반 방법과 달리, TMLE은 특정 매개변수가 아닌 후보 모델 라이브러리만 사전 규정할 수 있다.
규제 고려사항: 사전 규정 매개변수의 능력은 규제 기관과의 협력 시 장점으로 간주될 수 있다.

향후 방향

혼합 방법: 역사적 데이터로 구축한 예후 점수를 Liao et al.(2025)이 제안한 대로 TMLE과 결합할 수 있다.
소표본 최적화: 표본 크기가 작은 시험에서 역사적 데이터의 가치가 더욱 두드러진다.
분포 편이 처리: 역사적 데이터와 현재 시험 간 분포 차이가 있을 때의 견고한 방법.

심층 평가

장점

이론적 기여: 겉보기에 서로 다른 두 방법 간의 이론적 연결을 처음으로 명확히 수립하여 중요한 방법론적 가치를 가진다.
실용적 가치: 중복 개발을 피하고 연구자들이 성숙한 TMLE 도구를 사용하도록 지도한다.
엄밀한 증명: 대수적 유도를 통해 동등성을 엄격히 증명하여 이론적 기초가 견고하다.
포괄적 검증: 시뮬레이션 연구가 다양한 시나리오를 포함하여 실증적 지지가 충분하다.
명확한 작성: 논문 구조가 명확하고 기술적 세부사항이 투명하게 설명되어 이해하기 쉽다.

부족한 점

제한된 혁신성: 주로 기존 방법의 동등성을 밝히는 것으로, 실질적인 방법론적 혁신이 부족하다.
응용 범위: 분석이 1:1 무작위 시험 설정으로 제한되어 더 복잡한 설계로의 확장이 불명확하다.
실제 차이 간과: 이론적으로 동등하지만 구현 세부사항의 차이가 특정 상황에서 영향을 미칠 수 있다.
불완전한 비교: 다른 고급 공변량 조정 방법과의 체계적 비교가 부족하다.

영향력

학술적 가치: 통계 방법론 분야에 중요한 이론적 명확화를 제공하여 개념 혼동을 피하는 데 도움이 된다.
실무 지도: 임상시험 통계학자에게 명확한 방법 선택 지도를 제공한다.
교육적 의의: 통계 교육에서 서로 다른 추정 방법 간의 관계 이해를 돕는다.

적용 시나리오

방법 선택: 역사적 데이터를 사용할 수 없을 때, 연구자는 새로운 시험 내 방법을 개발하기보다는 TMLE을 직접 사용할 수 있다.
이론 연구: 추가 공변량 조정 방법 연구를 위한 이론적 기초를 제공한다.
규제 신청: 분석 계획을 사전 규정해야 하는 규제 환경에서 서로 다른 방법의 장단점을 고려해야 한다.

참고문헌

본 논문은 관련 분야의 많은 중요 문헌을 인용하고 있으며, 다음을 포함한다:

Schuler et al. (2022): PROCOVA 방법의 원본 논문
van der Laan and Rubin (2006): TMLE의 기초 작업
Tukey (1993): 예후 조정 아이디어의 초기 출처
교차 적합 및 이중 견고 추정에 관한 다수의 현대 문헌

종합 평가: 이는 높은 품질의 방법론 논문으로, 상대적으로 제한된 혁신성에도 불구하고 이론적 명확화와 실무 지도 측면에서 중요한 가치를 가진다. 논문은 중요한 동등성 결과를 엄밀하게 증명하여 통계학계가 관련 방법을 올바르게 이해하고 적용하는 데 도움이 된다.