Adjustment for ``super'' or ``prognostic'' composite covariates has become more popular in randomized trials recently. These prognostic covariates are often constructed from historical data by fitting a predictive model of the outcome on the raw covariates. A natural question that we have been asked by applied researchers is whether this can be done without the historical data: can the prognostic covariate be constructed or derived from the trial data itself, possibly using different folds of the data, before adjusting for it? Here we clarify that such ``within-trial'' prognostic adjustment is nothing more than a form of targeted maximum likelihood estimation (TMLE), a well-studied procedure for optimal inference. We demonstrate the equivalence with a simulation study and discuss the pros and cons of within-trial prognostic adjustment (standard efficient estimation) relative to standard TMLE and standard prognostic adjustment with historical data.
- 논문 ID: 2507.23446
- 제목: "Within-trial" prognostic score adjustment is targeted maximum likelihood estimation
- 저자: Emilie Højbjerre-Frandsen, Alejandro Schuler
- 분류: stat.ME (통계학 - 방법론)
- 발표 시간: 2025년 11월 6일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2507.23446v2
최근 무작위 임상시험에서 "슈퍼" 또는 "예후" 복합 공변량을 조정하는 것이 점점 더 인기를 얻고 있다. 이러한 예후 공변량은 일반적으로 역사적 데이터에서 원래 공변량에 대한 결과의 예측 모델을 적합함으로써 구축된다. 응용 연구자들이 자주 제기하는 자연스러운 질문은 다음과 같다: 역사적 데이터 없이 이를 수행할 수 있는가? 예후 공변량을 시험 데이터 자체에서 구축하거나 도출할 수 있는가(데이터의 서로 다른 폴드를 사용하여 가능)? 본 논문은 이러한 "시험 내" 예후 조정이 충분히 연구된 최적 추론 절차인 표적 최대우도 추정(TMLE)의 한 형태일 뿐임을 명확히 한다. 저자들은 시뮬레이션 연구를 통해 동등성을 입증하고, 시험 내 예후 조정과 표준 TMLE 및 역사적 데이터를 사용한 표준 예후 조정의 장단점을 논의한다.
- 예후 공변량 조정의 부상: 무작위 임상시험(RCT)에서 "슈퍼 공변량" 또는 "예후 공변량"을 사용한 공변량 조정이 통계적 효율성을 높이는 인기 있는 방법이 되었다. 이 아이디어는 Tukey(1993)로 거슬러 올라가며, 과적합 위험을 줄이면서 효율성을 높이기 위해 역사적 데이터를 활용하여 단일 예후 공변량을 개발하는 것을 목표로 한다.
- 역사적 데이터 의존성 문제: 전통적인 예후 점수 조정 방법(예: PROCOVA™ 방법)은 이전 임상시험 또는 등록 연구의 역사적 데이터에 의존한다. 그러나 실제 응용에서 연구자들은 역사적 데이터를 사용할 수 없거나 신뢰할 수 없는 상황에 자주 직면한다.
- 시험 내 조정의 필요성: 응용 연구자들은 자연스럽게 다음과 같이 묻는다: 역사적 데이터를 사용하지 않고 예후 공변량을 구축할 수 있는가? 교차 검증 등의 기술을 사용하여 시험 데이터 자체에서 직접 예후 공변량을 도출한 후 조정할 수 있는가?
본 연구의 핵심 동기는 "시험 내" 예후 점수 조정의 본질을 명확히 하고 기존 통계 방법과의 관계를 밝혀 "바퀴를 다시 발명하는" 것을 피하는 것이다.
- 이론적 동등성 증명: 시험 내 예후 점수 조정이 본질적으로 표적 최대우도 추정(TMLE)의 한 형태임을 처음으로 명확히 증명했다.
- 방법론적 명확화: 시험 내 예후 조정이 새로운 방법이 아니라 특정 부분 모델 하에서 TMLE의 구현이므로, 이름을 다시 붙이지 말고 직접 TMLE이라고 불러야 함을 명확히 했다.
- 비교 분석: 시험 내 예후 조정, 표준 TMLE, 역사적 데이터 기반 표준 예후 조정 방법의 장단점을 체계적으로 비교했다.
- 실증 검증: 시뮬레이션 연구를 통해 이론적 동등성을 검증하고 다양한 시나리오에서 서로 다른 방법의 성능을 시연했다.
이원 무작위 시험에서 평균 처리 효과(ATE) 추정:
- 입력: n명의 참여자의 관측 데이터 Oi=(Wi,Ai,Yi)
- 출력: 인과 평균 처리 효과 Ψ∗=E[Y(1)−Y(0)]
- 제약: 단순 무작위화 가정, 처리 할당 확률 알려짐
여기서:
- Y: 연속 주요 종료점 변수
- W: p차원 기저선 공변량 벡터
- A: 처리 지시자(1은 새로운 처리, 0은 대조)
G-computation의 표현 형식 사용:
- MLE를 사용하여 조건부 평균 함수 μ(a,w)=E[Y∣A=a,W=w] 추정
- 반사실적 예측 추출: Ψ^a=n1∑i=1nμ^(a,Wi)
- ATE 추정 획득: Ψ^=Ψ^1−Ψ^0
- 영향 함수를 사용하여 점근 분산 계산
예후 점수를 다음과 같이 정의:
ρD(W,A):=E[Y∣W,A,D]
여기서 D는 데이터 출처(D=1은 새로운 시험, D=0은 역사적 데이터)를 나타낸다.
표준 예후 조정 절차:
- 역사적 데이터를 사용하여 예후 모델 ρ^0(W,A) 훈련
- 예후 예측을 ANCOVA 분석에 추가 공변량으로 포함
- 동질적 처리 효과 가정 하에서 효율성 달성
TMLE는 다음 단계를 통해 기계 학습 모델의 편향 문제를 해결한다:
- 초기 추정: 기계 학습 방법을 사용하여 초기 조건부 평균 추정 μ^ 획득
- 표적 부분 모델: 매개변수 모델 족에서 MLE 업데이트
{pϵ(Y∣A,W)∼N(μ^(A,W)+ϵA±,1):ϵ∈R}
여기서 A±=2A−1
- 업데이트 단계: MLE 해 ϵ∗ 찾기, 예측 함수 업데이트
μ^∗(a,w)=μ^(a,w)+ϵ∗a±
- 편향 제거 조건: 업데이트된 모델이 다음을 만족
E[μ^∗(1,W)−μ^∗(0,W)]=Ψ~
여기서 Ψ~는 조정되지 않은 효과 추정
정리: 시험 내 예후 점수 조정은 특정 부분 모델을 사용한 TMLE과 동등하다.
증명 개요:
- 시험 내 예후 조정은 회귀 모델을 사용:
Y=β1A±+β2μ^(A,W)+Xβ3+N(0,1)
- 이는 정확히 TMLE의 유효한 표적 부분 모델이며, 다음을 만족:
- 조건 1: β=(0,1,0)일 때 초기 회귀 복원
- 조건 2: β1에 대한 도함수가 편향 제거 방향 A±(Y−μ^(A,W)) 제공
- 따라서 시험 내 예후 조정의 ANCOVA 단계는 정확히 TMLE 업데이트 단계에 해당
구조적 인과 모델을 기반으로 시뮬레이션 데이터 생성:
공변량 생성:
- W1,W2∼Unif(−2,1)
- W3∼N(0,3)
- W4∼Exp(0.8)
- W5∼Γ(5,10)
- W6,W7∼Unif(1,2)
결과 생성:
- 동질적 효과 시나리오: m1(W)=ATE+m0(W)
- 이질적 효과 시나리오: m1(W)는 복잡한 비선형 상호작용항 포함
여기서 ATE = 0.84, m0(W)는 정현 함수와 지시 함수의 복잡한 조합 포함.
- 표본 크기: 주요 실험 n=200, 민감도 분석 n∈50,400
- 시뮬레이션 횟수: N=250회 반복
- 기계 학습 방법: 이산 슈퍼 러너(Discrete Super Learner)
- 평가 지표: 표준 오차 추정, 경험적 검정력, 포함 확률
- 시험 내 예후 점수 조정
- 표준 TMLE
- 조정되지 않은 추정기(기준선)
시뮬레이션 결과는 이론적 예측을 확인:
- 시험 내 예후 조정과 TMLE는 표준 오차 추정에서 높은 일치도
- 두 방법의 점 추정 및 신뢰 구간이 거의 동일
- 경미한 차이는 시험 내 방법이 업데이트 부분 모델에 선형 공변량항 포함에서 비롯
표준 오차 성능:
- 동질적 시나리오: 두 방법의 표준 오차 추정이 거의 동일(약 0.21-0.22)
- 이질적 시나리오: 일관된 우수한 성능 유지
- 경험적 표준 오차와 이론적 추정이 높은 일치도
검정력 및 포함 확률:
- 표본 크기 증가에 따라 두 방법의 검정력 곡선이 완전히 일치
- 95% 신뢰 구간의 포함 확률이 명목 수준 근처에서 안정적
- 소표본(n=50)에서 대표본(n=400) 범위에서 안정적 성능
시뮬레이션 그래프에서 볼 수 있듯이:
- 표준 오차 추정의 평균값(실선)이 경험적 표준 오차(별표)와 높은 일치도
- 검정력이 표본 크기에 따라 단조 증가, 이론적 예상과 일치
- 포함 확률이 94%-96% 범위에서 변동, 95% 명목 수준에 근접
- 실질적 동등성: 시험 내 예후 조정과 TMLE는 실제 응용에서 거의 동일한 성능을 보이며, 이론적 동등성을 검증한다.
- 중복성 증거: 업데이트 부분 모델에 추가 선형 공변량항 포함이 결과에 미미한 영향을 미친다. 예후 점수가 이미 이러한 선형 추세를 포착했기 때문이다.
- 견고성: 두 방법 모두 서로 다른 데이터 생성 시나리오 및 표본 크기에서 우수한 견고성을 보인다.
- 역사적 기원: Tukey(1993)가 관련 아이디어를 최초 제시
- 현대적 발전: Schuler et al.(2022)이 PROCOVA™ 방법 형식화
- 효율성 이론: 동질적 처리 효과 가정 하에서 반모수 효율 한계 달성
- 기초 이론: van der Laan and Rubin(2006)이 TMLE의 이론적 틀 수립
- 교차 적합 확장: 교차 검증 기반 TMLE 변형 개발 연구
- 효율성 특성: 약한 조건 하에서 국소 반모수 효율 달성
- 이중 기계 학습: TMLE과 점근적으로 동등한 편향 제거 방법
- 증강 IPW: 또 다른 이중 견고 추정기
- G-computation: 전통적인 삽입 추정 방법
- 방법론적 명확화: 시험 내 예후 점수 조정은 본질적으로 TMLE이며, 새로운 방법으로 이름을 다시 붙여서는 안 된다.
- 실용적 권고: 시험 내 예후 조정을 다시 구현하기보다는 기존 TMLE 소프트웨어 패키지를 직접 사용해야 한다.
- 이론적 통일: 이 동등성은 예후 조정 방법에 대한 더 깊은 이론적 이해를 제공한다.
- 교차 적합 요구: 실제 응용에서 과적합을 피하기 위해 교차 적합을 사용해야 하므로 구현 복잡성이 증가한다.
- 사전 규정 어려움: 역사적 데이터 기반 방법과 달리, TMLE은 특정 매개변수가 아닌 후보 모델 라이브러리만 사전 규정할 수 있다.
- 규제 고려사항: 사전 규정 매개변수의 능력은 규제 기관과의 협력 시 장점으로 간주될 수 있다.
- 혼합 방법: 역사적 데이터로 구축한 예후 점수를 Liao et al.(2025)이 제안한 대로 TMLE과 결합할 수 있다.
- 소표본 최적화: 표본 크기가 작은 시험에서 역사적 데이터의 가치가 더욱 두드러진다.
- 분포 편이 처리: 역사적 데이터와 현재 시험 간 분포 차이가 있을 때의 견고한 방법.
- 이론적 기여: 겉보기에 서로 다른 두 방법 간의 이론적 연결을 처음으로 명확히 수립하여 중요한 방법론적 가치를 가진다.
- 실용적 가치: 중복 개발을 피하고 연구자들이 성숙한 TMLE 도구를 사용하도록 지도한다.
- 엄밀한 증명: 대수적 유도를 통해 동등성을 엄격히 증명하여 이론적 기초가 견고하다.
- 포괄적 검증: 시뮬레이션 연구가 다양한 시나리오를 포함하여 실증적 지지가 충분하다.
- 명확한 작성: 논문 구조가 명확하고 기술적 세부사항이 투명하게 설명되어 이해하기 쉽다.
- 제한된 혁신성: 주로 기존 방법의 동등성을 밝히는 것으로, 실질적인 방법론적 혁신이 부족하다.
- 응용 범위: 분석이 1:1 무작위 시험 설정으로 제한되어 더 복잡한 설계로의 확장이 불명확하다.
- 실제 차이 간과: 이론적으로 동등하지만 구현 세부사항의 차이가 특정 상황에서 영향을 미칠 수 있다.
- 불완전한 비교: 다른 고급 공변량 조정 방법과의 체계적 비교가 부족하다.
- 학술적 가치: 통계 방법론 분야에 중요한 이론적 명확화를 제공하여 개념 혼동을 피하는 데 도움이 된다.
- 실무 지도: 임상시험 통계학자에게 명확한 방법 선택 지도를 제공한다.
- 교육적 의의: 통계 교육에서 서로 다른 추정 방법 간의 관계 이해를 돕는다.
- 방법 선택: 역사적 데이터를 사용할 수 없을 때, 연구자는 새로운 시험 내 방법을 개발하기보다는 TMLE을 직접 사용할 수 있다.
- 이론 연구: 추가 공변량 조정 방법 연구를 위한 이론적 기초를 제공한다.
- 규제 신청: 분석 계획을 사전 규정해야 하는 규제 환경에서 서로 다른 방법의 장단점을 고려해야 한다.
본 논문은 관련 분야의 많은 중요 문헌을 인용하고 있으며, 다음을 포함한다:
- Schuler et al. (2022): PROCOVA 방법의 원본 논문
- van der Laan and Rubin (2006): TMLE의 기초 작업
- Tukey (1993): 예후 조정 아이디어의 초기 출처
- 교차 적합 및 이중 견고 추정에 관한 다수의 현대 문헌
종합 평가: 이는 높은 품질의 방법론 논문으로, 상대적으로 제한된 혁신성에도 불구하고 이론적 명확화와 실무 지도 측면에서 중요한 가치를 가진다. 논문은 중요한 동등성 결과를 엄밀하게 증명하여 통계학계가 관련 방법을 올바르게 이해하고 적용하는 데 도움이 된다.