Adjustment for ``super'' or ``prognostic'' composite covariates has become more popular in randomized trials recently. These prognostic covariates are often constructed from historical data by fitting a predictive model of the outcome on the raw covariates. A natural question that we have been asked by applied researchers is whether this can be done without the historical data: can the prognostic covariate be constructed or derived from the trial data itself, possibly using different folds of the data, before adjusting for it? Here we clarify that such ``within-trial'' prognostic adjustment is nothing more than a form of targeted maximum likelihood estimation (TMLE), a well-studied procedure for optimal inference. We demonstrate the equivalence with a simulation study and discuss the pros and cons of within-trial prognostic adjustment (standard efficient estimation) relative to standard TMLE and standard prognostic adjustment with historical data.
- Papier-ID: 2507.23446
- Titel: "Within-trial" Prognostische Score-Anpassung ist Targeted Maximum Likelihood Estimation
- Autoren: Emilie Højbjerre-Frandsen, Alejandro Schuler
- Klassifizierung: stat.ME (Statistik - Methodologie)
- Veröffentlichungsdatum: 6. November 2025 (arXiv-Preprint)
- Papier-Link: https://arxiv.org/abs/2507.23446v2
In letzter Zeit ist die Anpassung von "Super-" oder "prognostischen" zusammengesetzten Kovariaten in randomisierten Studien zunehmend verbreitet. Diese prognostischen Kovariaten werden typischerweise durch Anpassung eines Vorhersagemodells der Ergebnisse an ursprüngliche Kovariaten unter Verwendung historischer Daten konstruiert. Eine natürliche Frage, die anwendungsorientierte Forscher häufig stellen, ist: Kann dies ohne historische Daten durchgeführt werden – können prognostische Kovariaten aus den Studiendaten selbst konstruiert oder abgeleitet werden, möglicherweise unter Verwendung verschiedener Datenfaltungen, und dann angepasst werden? Dieses Papier klärt, dass diese "studieneigene" prognostische Anpassung nichts anderes als eine Form der Targeted Maximum Likelihood Estimation (TMLE) ist, ein gut erforschtes optimales Inferenzverfahren. Die Autoren demonstrieren die Äquivalenz durch Simulationsstudien und diskutieren die Vor- und Nachteile der studieneigenen prognostischen Anpassung gegenüber Standard-TMLE und Standard-Prognostischer Anpassung unter Verwendung historischer Daten.
- Aufstieg der prognostischen Kovariaten-Anpassung: In randomisierten klinischen Studien (RCTs) ist die Verwendung von "Super-Kovariaten" oder "prognostischen Kovariaten" für die Kovariaten-Anpassung zu einer beliebten Methode zur Verbesserung der statistischen Effizienz geworden. Diese Idee geht auf Tukey (1993) zurück und zielt darauf ab, historische Daten zur Entwicklung einer einzelnen prognostischen Kovariaten zu nutzen, während gleichzeitig das Überanpassungsrisiko verringert wird.
- Abhängigkeitsproblem historischer Daten: Traditionelle Methoden der prognostischen Score-Anpassung (wie die PROCOVA™-Methode) sind auf historische Daten aus früheren klinischen Studien oder Registerstudien angewiesen. In der Praxis sehen sich Forscher jedoch häufig mit Situationen konfrontiert, in denen historische Daten nicht verfügbar oder nicht vertrauenswürdig sind.
- Bedarf an studieneigener Anpassung: Anwendungsorientierte Forscher stellen sich natürlicherweise die Frage: Können prognostische Kovariaten ohne Verwendung historischer Daten konstruiert werden? Können prognostische Kovariaten direkt aus den Studiendaten selbst (möglicherweise unter Verwendung von Kreuzvalidierungstechniken) abgeleitet und dann angepasst werden?
Die Kernmotivation dieser Forschung besteht darin, die Natur der "studieneigenen" prognostischen Score-Anpassung zu klären und ihre Beziehung zu bestehenden statistischen Methoden zu offenbaren, um das "Rad nicht neu zu erfinden".
- Beweis der theoretischen Äquivalenz: Erstmals wird explizit nachgewiesen, dass die studieneigene prognostische Score-Anpassung im Wesentlichen eine Form der Targeted Maximum Likelihood Estimation (TMLE) ist.
- Methodologische Klärung: Es wird klargestellt, dass die studieneigene prognostische Anpassung keine neue Methode ist, sondern eine Implementierung von TMLE unter einem bestimmten Submodell und daher direkt als TMLE bezeichnet werden sollte, nicht umbenannt.
- Vergleichende Analyse: Systematischer Vergleich der Vor- und Nachteile der studieneigenen prognostischen Anpassung, Standard-TMLE und Standard-Prognostischer Anpassungsmethoden basierend auf historischen Daten.
- Empirische Validierung: Validierung der theoretischen Äquivalenz durch Simulationsstudien und Demonstration der Leistung verschiedener Methoden in verschiedenen Szenarien.
Schätzung des durchschnittlichen Behandlungseffekts (ATE) in einer zweiarmigen randomisierten Studie:
- Eingabe: Beobachtete Daten von n Teilnehmern Oi=(Wi,Ai,Yi)
- Ausgabe: Kausaler durchschnittlicher Behandlungseffekt Ψ∗=E[Y(1)−Y(0)]
- Einschränkungen: Annahme einfacher Randomisierung, Behandlungszuweisungswahrscheinlichkeit bekannt
Wobei:
- Y: Kontinuierliche primäre Endpunktvariable
- W: p-dimensionaler Vektor der Baseline-Kovariaten
- A: Behandlungsindikator (1 für neue Behandlung, 0 für Kontrolle)
Unter Verwendung der G-Computation-Formulierung:
- Schätzung der bedingten Mittelwertfunktion μ(a,w)=E[Y∣A=a,W=w] mit MLE
- Extraktion kontrafaktischer Vorhersagen: Ψ^a=n1∑i=1nμ^(a,Wi)
- Erhalt der ATE-Schätzung: Ψ^=Ψ^1−Ψ^0
- Berechnung der asymptotischen Varianz unter Verwendung der Einflussfunktion
Definition des prognostischen Scores als:
ρD(W,A):=E[Y∣W,A,D]
Wobei D die Datenquelle angibt (D=1 für neue Studie, D=0 für historische Daten).
Standard-Prognostischer Anpassungsprozess:
- Training eines prognostischen Modells ρ^0(W,A) mit historischen Daten
- Einbeziehung der prognostischen Vorhersage als zusätzliche Kovariaten in die ANCOVA-Analyse
- Erreichung von Effizienz unter der Annahme homogener Behandlungseffekte
TMLE adressiert das Bias-Problem von Machine-Learning-Modellen durch folgende Schritte:
- Initiale Schätzung: Verwendung von Machine-Learning-Methoden zur Erhalt einer initialen bedingten Mittelwertschätzung μ^
- Zielgerichtetes Submodell: MLE-Update innerhalb einer parametrischen Modellfamilie
{pϵ(Y∣A,W)∼N(μ^(A,W)+ϵA±,1):ϵ∈R}
wobei A±=2A−1
- Update-Schritt: Auffinden der MLE-Lösung ϵ∗, Update der Vorhersagefunktion
μ^∗(a,w)=μ^(a,w)+ϵ∗a±
- Entbias-Bedingung: Das aktualisierte Modell erfüllt
E[μ^∗(1,W)−μ^∗(0,W)]=Ψ~
wobei Ψ~ die unangepasste Effektschätzung ist
Theorem: Die studieneigene prognostische Score-Anpassung ist äquivalent zu TMLE mit einem bestimmten Submodell.
Beweisidee:
- Die studieneigene prognostische Anpassung verwendet das Regressionsmodell:
Y=β1A±+β2μ^(A,W)+Xβ3+N(0,1)
- Dies ist genau ein gültiges zielgerichtetes Submodell für TMLE, das erfüllt:
- Bedingung 1: Bei β=(0,1,0) wird die initiale Regression wiederhergestellt
- Bedingung 2: Die Ableitung nach β1 ergibt die Entbias-Richtung A±(Y−μ^(A,W))
- Daher entspricht der ANCOVA-Schritt der studieneigenen prognostischen Anpassung genau dem TMLE-Update-Schritt
Simulierte Daten werden basierend auf strukturellen Kausalmodellen generiert:
Kovariaten-Erzeugung:
- W1,W2∼Unif(−2,1)
- W3∼N(0,3)
- W4∼Exp(0.8)
- W5∼Γ(5,10)
- W6,W7∼Unif(1,2)
Ergebnis-Erzeugung:
- Homogenes Effekt-Szenario: m1(W)=ATE+m0(W)
- Heterogenes Effekt-Szenario: m1(W) enthält komplexe nichtlineare Interaktionsterme
Wobei ATE = 0,84 und m0(W) komplexe Kombinationen von Sinusfunktionen und Indikatorfunktionen enthält.
- Stichprobengröße: Hauptexperiment n=200, Sensitivitätsanalyse n∈50,400
- Simulationen: N=250 Wiederholungen
- Machine-Learning-Methode: Diskreter Super Learner
- Bewertungsmetriken: Standardfehler-Schätzung, empirische Power, Überdeckungsrate
- Studieneigene prognostische Score-Anpassung
- Standard-TMLE
- Unangepasster Schätzer (als Benchmark)
Simulationsergebnisse bestätigen die theoretischen Vorhersagen:
- Studieneigene prognostische Anpassung und TMLE zeigen hohe Konsistenz bei Standardfehler-Schätzungen
- Punktschätzungen und Konfidenzintervalle beider Methoden sind nahezu identisch
- Geringfügige Unterschiede stammen von der Einbeziehung linearer Kovariaten-Terme im Update-Submodell der studieneigenen Methode
Standardfehler-Leistung:
- Homogenes Szenario: Standardfehler-Schätzungen beider Methoden nahezu identisch (ca. 0,21-0,22)
- Heterogenes Szenario: Aufrechterhaltung konsistenter ausgezeichneter Leistung
- Empirische Standardfehler stimmen hochgradig mit theoretischen Schätzungen überein
Power und Überdeckungsrate:
- Mit zunehmender Stichprobengröße fallen die Power-Kurven beider Methoden vollständig zusammen
- Überdeckungsrate von 95%-Konfidenzintervallen bleibt stabil nahe dem nominalen Niveau
- Stabile Leistung über den Bereich von kleinen Stichproben (n=50) bis große Stichproben (n=400)
Aus Simulationsgrafiken ist ersichtlich:
- Der Durchschnittswert der Standardfehler-Schätzungen (Vollpunkte) stimmt hochgradig mit empirischen Standardfehlern (Sterne) überein
- Power nimmt mit Stichprobengröße monoton zu, wie theoretisch erwartet
- Überdeckungsrate schwankt im Bereich von 94%-96%, nahe dem nominalen Niveau von 95%
- Substantielle Äquivalenz: Studieneigene prognostische Anpassung und TMLE zeigen in der praktischen Anwendung nahezu identische Leistung, was die theoretische Äquivalenz validiert.
- Beweis der Redundanz: Die Einbeziehung zusätzlicher linearer Kovariaten-Terme im Update-Submodell hat vernachlässigbare Auswirkungen auf die Ergebnisse, da der prognostische Score bereits diese linearen Trends erfasst.
- Robustheit: Beide Methoden zeigen unter verschiedenen Datenerzeugungsszenarien und Stichprobengrößen gute Robustheit.
- Historischer Ursprung: Tukey (1993) führte verwandte Ideen zuerst ein
- Moderne Entwicklung: Schuler et al. (2022) formalisierte die PROCOVA™-Methode
- Effizienztheorie: Erreichung der semiparametrischen Effizienzgrenze unter der Annahme homogener Behandlungseffekte
- Grundlegende Theorie: van der Laan and Rubin (2006) etablierten den theoretischen Rahmen von TMLE
- Kreuzvalidierungs-Erweiterung: Mehrere Studien entwickelten TMLE-Varianten basierend auf Kreuzvalidierung
- Effizienz-Eigenschaften: Erreichung lokaler semiparametrischer Effizienz unter schwachen Bedingungen
- Doppeltes Machine Learning: Entbias-Methode asymptotisch äquivalent zu TMLE
- Augmentierte IPW: Ein weiterer doppelt robuster Schätzer
- G-Computation: Traditionelle Plug-in-Schätzmethode
- Methodologische Klärung: Die studieneigene prognostische Score-Anpassung ist im Wesentlichen TMLE und sollte nicht als neue Methode umbenannt werden.
- Praktische Empfehlungen: Es sollten direkt bestehende TMLE-Softwarepakete verwendet werden, anstatt die studieneigene prognostische Anpassung neu zu implementieren.
- Theoretische Vereinigung: Diese Äquivalenz bietet ein tieferes theoretisches Verständnis für Prognostische Anpassungsmethoden.
- Kreuzvalidierungsbedarf: Die praktische Anwendung erfordert die Verwendung von Kreuzvalidierung zur Vermeidung von Überanpassung, was die Implementierungskomplexität erhöht.
- Schwierigkeit der Vorspezifikation: Im Gegensatz zu Methoden basierend auf historischen Daten kann TMLE nur Kandidatenmodellbibliotheken, nicht spezifische Parameter vorspezifizieren.
- Regulatorische Überlegungen: Die Fähigkeit zur Vorspezifikation von Parametern könnte bei der Zusammenarbeit mit Regulierungsbehörden als Vorteil angesehen werden.
- Hybrid-Methoden: Kombination des prognostischen Scores aus historischen Daten mit TMLE, wie von Liao et al. (2025) vorgeschlagen.
- Optimierung bei kleinen Stichproben: In Studien mit kleineren Stichprobengrößen ist der Wert historischer Daten ausgeprägter.
- Umgang mit Verteilungsversatz: Robuste Methoden, wenn historische Daten und aktuelle Studien Verteilungsunterschiede aufweisen.
- Theoretischer Beitrag: Erstmals wird die theoretische Verbindung zwischen zwei scheinbar unterschiedlichen Methoden explizit etabliert, mit wichtigem methodologischem Wert.
- Praktischer Wert: Vermeidung doppelter Entwicklung und Anleitung für Forscher zur Verwendung ausgereifter TMLE-Tools.
- Rigoroser Beweis: Äquivalenz wird durch algebraische Ableitung streng nachgewiesen mit solider theoretischer Grundlage.
- Umfassende Validierung: Simulationsstudien decken mehrere Szenarien ab mit ausreichender empirischer Unterstützung.
- Klare Schreibweise: Klare Papierstruktur, transparente technische Details, leicht verständlich.
- Begrenzte Innovativität: Hauptsächlich Offenlegung der Äquivalenz bestehender Methoden, fehlende substantielle methodische Innovation.
- Anwendungsbereich: Analyse beschränkt auf 1:1-Randomisierungs-Studiendesign, Verallgemeinerung auf komplexere Designs unklar.
- Ignorieren praktischer Unterschiede: Obwohl theoretisch äquivalent, könnten Implementierungsdetail-Unterschiede in einigen Fällen Auswirkungen haben.
- Unvollständiger Vergleich: Fehlender systematischer Vergleich mit anderen fortgeschrittenen Kovariaten-Anpassungsmethoden.
- Akademischer Wert: Bietet wichtige theoretische Klärung für das Feld der statistischen Methodologie, hilft Konzeptverwirrung zu vermeiden.
- Praktische Anleitung: Bietet klinischen Studien-Statistikern klare Methoden-Auswahlanleitungen.
- Pädagogischer Wert: Hilft bei statistischer Ausbildung zum Verständnis der Beziehungen zwischen verschiedenen Schätzmethoden.
- Methodenauswahl: Wenn historische Daten nicht verfügbar sind, können Forscher direkt TMLE verwenden anstatt neue studieneigene Methoden zu entwickeln.
- Theoretische Forschung: Bietet theoretische Grundlage für weitere Forschung zu Kovariaten-Anpassungsmethoden.
- Regulatorische Anwendungen: In regulatorischen Umgebungen, die Vorspezifikation von Analyseplänen erfordern, müssen Vor- und Nachteile verschiedener Methoden abgewogen werden.
Dieses Papier zitiert umfangreiche relevante Literatur, einschließlich:
- Schuler et al. (2022): Originalpapier der PROCOVA-Methode
- van der Laan and Rubin (2006): Grundlegende Arbeiten zu TMLE
- Tukey (1993): Frühe Quelle von Prognostischen Anpassungsideen
- Mehrere moderne Arbeiten zu Kreuzvalidierung und doppelt robusten Schätzern
Gesamtbewertung: Dies ist ein hochqualitatives methodologisches Papier, das zwar relativ begrenzte Innovativität aufweist, aber wichtigen Wert in theoretischer Klärung und praktischer Anleitung bietet. Das Papier beweist streng ein wichtiges Äquivalenzergebnis und trägt zum korrekten Verständnis und zur Anwendung verwandter Methoden in der statistischen Gemeinschaft bei.