Adjustment for ``super'' or ``prognostic'' composite covariates has become more popular in randomized trials recently. These prognostic covariates are often constructed from historical data by fitting a predictive model of the outcome on the raw covariates. A natural question that we have been asked by applied researchers is whether this can be done without the historical data: can the prognostic covariate be constructed or derived from the trial data itself, possibly using different folds of the data, before adjusting for it? Here we clarify that such ``within-trial'' prognostic adjustment is nothing more than a form of targeted maximum likelihood estimation (TMLE), a well-studied procedure for optimal inference. We demonstrate the equivalence with a simulation study and discuss the pros and cons of within-trial prognostic adjustment (standard efficient estimation) relative to standard TMLE and standard prognostic adjustment with historical data.
- पेपर ID: 2507.23446
- शीर्षक: "Within-trial" prognostic score adjustment is targeted maximum likelihood estimation
- लेखक: Emilie Højbjerre-Frandsen, Alejandro Schuler
- वर्गीकरण: stat.ME (सांख्यिकी - पद्धति)
- प्रकाशन समय: 6 नवंबर, 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2507.23446v2
हाल के वर्षों में, यादृच्छिक परीक्षणों में "सुपर" या "रोगनिदान" समग्र सहचर को समायोजित करना तेजी से लोकप्रिय हो गया है। ये रोगनिदान सहचर आमतौर पर ऐतिहासिक डेटा से मूल सहचर पर परिणाम के पूर्वानुमान मॉडल को फिट करके निर्मित किए जाते हैं। अनुप्रयुक्त शोधकर्ताओं द्वारा अक्सर पूछा जाने वाला एक प्राकृतिक प्रश्न यह है: क्या यह ऐतिहासिक डेटा के बिना किया जा सकता है — क्या रोगनिदान सहचर को परीक्षण डेटा से ही निर्मित या व्युत्पन्न किया जा सकता है, संभवतः डेटा के विभिन्न फोल्ड का उपयोग करते हुए, और फिर समायोजित किया जा सकता है? यह पेपर स्पष्ट करता है कि यह "ट्रायल के भीतर" रोगनिदान समायोजन केवल लक्षित अधिकतम संभावना अनुमान (TMLE) का एक रूप है, जो एक अच्छी तरह से अध्ययन की गई इष्टतम अनुमान प्रक्रिया है। लेखक सिमुलेशन अध्ययन के माध्यम से समतुल्यता को प्रदर्शित करते हैं और ट्रायल के भीतर रोगनिदान समायोजन के मानक TMLE और ऐतिहासिक डेटा का उपयोग करके मानक रोगनिदान समायोजन के सापेक्ष लाभ और हानि पर चर्चा करते हैं।
- रोगनिदान सहचर समायोजन का उदय: यादृच्छिक नैदानिक परीक्षणों (RCT) में, "सुपर सहचर" या "रोगनिदान सहचर" का उपयोग करके सहचर समायोजन सांख्यिकीय दक्षता बढ़ाने की एक लोकप्रिय विधि बन गई है। यह विचार Tukey (1993) से मिलता है, जिसका उद्देश्य ऐतिहासिक डेटा का उपयोग करके एक एकल रोगनिदान सहचर विकसित करना है, जो अतिसज्जन के जोखिम को कम करते हुए दक्षता बढ़ाता है।
- ऐतिहासिक डेटा निर्भरता समस्या: पारंपरिक रोगनिदान स्कोर समायोजन विधियां (जैसे PROCOVA™ विधि) पूर्व नैदानिक परीक्षणों या पंजीकृत अध्ययनों से ऐतिहासिक डेटा पर निर्भर करती हैं। हालांकि, व्यावहारिक अनुप्रयोग में, शोधकर्ताओं को अक्सर ऐसी स्थितियों का सामना करना पड़ता है जहां ऐतिहासिक डेटा उपलब्ध नहीं है या विश्वसनीय नहीं है।
- ट्रायल के भीतर समायोजन की आवश्यकता: अनुप्रयुक्त शोधकर्ता स्वाभाविक रूप से पूछते हैं: क्या ऐतिहासिक डेटा का उपयोग किए बिना रोगनिदान सहचर का निर्माण किया जा सकता है? क्या रोगनिदान सहचर को सीधे परीक्षण डेटा से (संभवतः क्रॉस-सत्यापन जैसी तकनीकों का उपयोग करके) व्युत्पन्न किया जा सकता है, और फिर समायोजित किया जा सकता है?
इस अनुसंधान की मूल प्रेरणा "ट्रायल के भीतर" रोगनिदान स्कोर समायोजन की प्रकृति को स्पष्ट करना और इसके संबंध को मौजूदा सांख्यिकीय विधियों के साथ प्रकट करना है, ताकि "पहिये को फिर से आविष्कार" करने से बचा जा सके।
- सैद्धांतिक समतुल्यता प्रमाण: पहली बार स्पष्ट रूप से प्रमाणित किया कि ट्रायल के भीतर रोगनिदान स्कोर समायोजन अनिवार्य रूप से लक्षित अधिकतम संभावना अनुमान (TMLE) का एक रूप है।
- पद्धति संबंधी स्पष्टीकरण: स्पष्ट किया कि ट्रायल के भीतर रोगनिदान समायोजन एक नई विधि नहीं है, बल्कि विशिष्ट उप-मॉडल के तहत TMLE का कार्यान्वयन है, इसलिए इसे पुनः नाम देने के बजाय सीधे TMLE कहा जाना चाहिए।
- तुलनात्मक विश्लेषण: ट्रायल के भीतर रोगनिदान समायोजन, मानक TMLE और ऐतिहासिक डेटा-आधारित मानक रोगनिदान समायोजन विधियों के लाभ और हानि की व्यवस्थित तुलना।
- अनुभवजन्य सत्यापन: सिमुलेशन अध्ययन के माध्यम से सैद्धांतिक समतुल्यता को सत्यापित किया और विभिन्न परिदृश्यों में विभिन्न विधियों के प्रदर्शन को प्रदर्शित किया।
दो-भुजा यादृच्छिक परीक्षण में औसत उपचार प्रभाव (ATE) का अनुमान लगाना:
- इनपुट: n प्रतिभागियों का अवलोकन डेटा Oi=(Wi,Ai,Yi)
- आउटपुट: कारणात्मक औसत उपचार प्रभाव Ψ∗=E[Y(1)−Y(0)]
- बाधा: सरल यादृच्छिकीकरण धारणा, उपचार आवंटन संभावना ज्ञात है
जहां:
- Y: सतत प्राथमिक समापन बिंदु चर
- W: p-आयामी आधारभूत सहचर वेक्टर
- A: उपचार संकेतक (1 नए उपचार के लिए, 0 नियंत्रण के लिए)
G-computation के सूत्रीकरण का उपयोग करना:
- MLE का उपयोग करके सशर्त माध्य फ़ंक्शन μ(a,w)=E[Y∣A=a,W=w] का अनुमान लगाएं
- प्रतिकारक पूर्वानुमान निकालें: Ψ^a=n1∑i=1nμ^(a,Wi)
- ATE अनुमान प्राप्त करें: Ψ^=Ψ^1−Ψ^0
- प्रभाव फ़ंक्शन का उपयोग करके स्पर्शोन्मुख विचरण की गणना करें
रोगनिदान स्कोर को परिभाषित करें:
ρD(W,A):=E[Y∣W,A,D]
जहां D डेटा स्रोत को दर्शाता है (D=1 नए परीक्षण के लिए, D=0 ऐतिहासिक डेटा के लिए)।
मानक रोगनिदान समायोजन प्रवाह:
- ऐतिहासिक डेटा का उपयोग करके रोगनिदान मॉडल ρ^0(W,A) को प्रशिक्षित करें
- रोगनिदान पूर्वानुमान को अतिरिक्त सहचर के रूप में ANCOVA विश्लेषण में जोड़ें
- समरूप उपचार प्रभाव धारणा के तहत दक्षता प्राप्त करें
TMLE मशीन लर्निंग मॉडल के पूर्वाग्रह समस्या को निम्नलिखित चरणों के माध्यम से हल करता है:
- प्रारंभिक अनुमान: मशीन लर्निंग विधि का उपयोग करके प्रारंभिक सशर्त माध्य अनुमान μ^ प्राप्त करें
- लक्षित उप-मॉडल: पैरामीट्रिक मॉडल परिवार में MLE अपडेट करें
{pϵ(Y∣A,W)∼N(μ^(A,W)+ϵA±,1):ϵ∈R}
जहां A±=2A−1
- अपडेट चरण: MLE समाधान ϵ∗ खोजें, पूर्वानुमान फ़ंक्शन को अपडेट करें
μ^∗(a,w)=μ^(a,w)+ϵ∗a±
- पूर्वाग्रह निष्कासन शर्त: अपडेट किया गया मॉडल संतुष्ट करता है
E[μ^∗(1,W)−μ^∗(0,W)]=Ψ~
जहां Ψ~ असमायोजित प्रभाव अनुमान है
प्रमेय: ट्रायल के भीतर रोगनिदान स्कोर समायोजन विशिष्ट उप-मॉडल के साथ TMLE के उपयोग के बराबर है।
प्रमाण की रूपरेखा:
- ट्रायल के भीतर रोगनिदान समायोजन प्रतिगमन मॉडल का उपयोग करता है:
Y=β1A±+β2μ^(A,W)+Xβ3+N(0,1)
- यह TMLE का एक वैध लक्षित उप-मॉडल है, जो संतुष्ट करता है:
- शर्त 1: β=(0,1,0) होने पर प्रारंभिक प्रतिगमन को पुनः प्राप्त करता है
- शर्त 2: β1 के संबंध में व्युत्पन्न पूर्वाग्रह निष्कासन दिशा A±(Y−μ^(A,W)) देता है
- इसलिए ट्रायल के भीतर रोगनिदान समायोजन का ANCOVA चरण TMLE अपडेट चरण के साथ बिल्कुल मेल खाता है
संरचनात्मक कारणात्मक मॉडल के आधार पर सिमुलेशन डेटा उत्पन्न करना:
सहचर जनन:
- W1,W2∼Unif(−2,1)
- W3∼N(0,3)
- W4∼Exp(0.8)
- W5∼Γ(5,10)
- W6,W7∼Unif(1,2)
परिणाम जनन:
- समरूप प्रभाव परिदृश्य: m1(W)=ATE+m0(W)
- विषम प्रभाव परिदृश्य: m1(W) जटिल गैर-रैखिक अंतःक्रिया शर्तें शामिल हैं
जहां ATE = 0.84, m0(W) साइन फ़ंक्शन और संकेतक फ़ंक्शन के जटिल संयोजन शामिल हैं।
- नमूना आकार: मुख्य प्रयोग n=200, संवेदनशीलता विश्लेषण n∈50,400
- सिमुलेशन पुनरावृत्ति: N=250 बार दोहराया गया
- मशीन लर्निंग विधि: असतत सुपर लर्नर (Discrete Super Learner)
- मूल्यांकन मेट्रिक्स: मानक त्रुटि अनुमान, अनुभवजन्य शक्ति, कवरेज दर
- ट्रायल के भीतर रोगनिदान स्कोर समायोजन
- मानक TMLE
- असमायोजित अनुमानक (आधार रेखा के रूप में)
सिमुलेशन परिणाम सैद्धांतिक पूर्वानुमान की पुष्टि करते हैं:
- ट्रायल के भीतर रोगनिदान समायोजन और TMLE मानक त्रुटि अनुमान में अत्यधिक सुसंगत हैं
- दोनों विधियों के बिंदु अनुमान और आत्मविश्वास अंतराल लगभग समान हैं
- मामूली अंतर ट्रायल के भीतर विधि से आते हैं जो अपडेट उप-मॉडल में रैखिक सहचर शर्तें शामिल करते हैं
मानक त्रुटि प्रदर्शन:
- समरूप परिदृश्य: दोनों विधियों की मानक त्रुटि अनुमान लगभग समान (लगभग 0.21-0.22)
- विषम परिदृश्य: उत्कृष्ट प्रदर्शन की सुसंगतता बनाए रखें
- अनुभवजन्य मानक त्रुटि सैद्धांतिक अनुमान के साथ अत्यधिक सुसंगत है
शक्ति और कवरेज दर:
- नमूना आकार बढ़ने के साथ, दोनों विधियों की शक्ति वक्र पूरी तरह से मेल खाते हैं
- 95% आत्मविश्वास अंतराल की कवरेज दर नाममात्र स्तर के पास स्थिर रहती है
- छोटे नमूने (n=50) से बड़े नमूने (n=400) तक की सीमा में स्थिर प्रदर्शन
सिमुलेशन ग्राफ से दिखाई देता है:
- मानक त्रुटि अनुमान का औसत मान (ठोस बिंदु) अनुभवजन्य मानक त्रुटि (तारे) के साथ अत्यधिक सुसंगत है
- शक्ति नमूना आकार के साथ एकरूप रूप से बढ़ती है, सैद्धांतिक अपेक्षा के अनुरूप है
- कवरेज दर 94%-96% की सीमा में उतार-चढ़ाव करता है, 95% के नाममात्र स्तर के करीब है
- वास्तविक समतुल्यता: ट्रायल के भीतर रोगनिदान समायोजन और TMLE व्यावहारिक अनुप्रयोग में लगभग समान प्रदर्शन करते हैं, जो सैद्धांतिक समतुल्यता को सत्यापित करता है।
- अनावश्यकता का प्रमाण: अपडेट उप-मॉडल में अतिरिक्त रैखिक सहचर शर्तें शामिल करने का परिणाम पर नगण्य प्रभाव पड़ता है, क्योंकि रोगनिदान स्कोर पहले से ही इन रैखिक प्रवृत्तियों को कैप्चर कर चुका है।
- मजबूती: दोनों विधियां विभिन्न डेटा जनन परिदृश्यों और नमूना आकारों में अच्छी मजबूती प्रदर्शित करती हैं।
- ऐतिहासिक उत्पत्ति: Tukey (1993) ने सबसे पहले संबंधित विचार प्रस्तावित किए
- आधुनिक विकास: Schuler et al. (2022) ने PROCOVA™ विधि को औपचारिक रूप दिया
- दक्षता सिद्धांत: समरूप उपचार प्रभाव धारणा के तहत अर्ध-पैरामीट्रिक दक्षता सीमा प्राप्त करता है
- मूल सिद्धांत: van der Laan and Rubin (2006) ने TMLE के सैद्धांतिक ढांचे की स्थापना की
- क्रॉस-फिटिंग विस्तार: कई अनुसंधानों ने क्रॉस-सत्यापन-आधारित TMLE वेरिएंट विकसित किए
- दक्षता गुण: कमजोर शर्तों के तहत स्थानीय अर्ध-पैरामीट्रिक दक्षता प्राप्त करता है
- दोहरी मशीन लर्निंग: TMLE के लिए स्पर्शोन्मुख रूप से समतुल्य पूर्वाग्रह निष्कासन विधि
- संवर्धित IPW: एक अन्य दोहरी-मजबूत अनुमानक
- G-computation: पारंपरिक प्रक्षेप अनुमान विधि
- पद्धति संबंधी स्पष्टीकरण: ट्रायल के भीतर रोगनिदान स्कोर समायोजन अनिवार्य रूप से TMLE है, इसे नई विधि के रूप में पुनः नाम नहीं दिया जाना चाहिए।
- व्यावहारिक सिफारिश: ट्रायल के भीतर रोगनिदान समायोजन को फिर से लागू करने के बजाय मौजूदा TMLE सॉफ्टवेयर पैकेज का सीधे उपयोग करना चाहिए।
- सैद्धांतिक एकीकरण: यह समतुल्यता रोगनिदान समायोजन विधियों के लिए गहन सैद्धांतिक समझ प्रदान करता है।
- क्रॉस-फिटिंग आवश्यकता: व्यावहारिक अनुप्रयोग में अतिसज्जन से बचने के लिए क्रॉस-फिटिंग का उपयोग करने की आवश्यकता है, जो कार्यान्वयन जटिलता बढ़ाता है।
- पूर्व-विनिर्देश कठिनाई: ऐतिहासिक डेटा-आधारित विधियों के विपरीत, TMLE केवल उम्मीदवार मॉडल लाइब्रेरी को पूर्व-निर्दिष्ट कर सकता है, विशिष्ट पैरामीटर नहीं।
- नियामक विचार: पूर्व-विनिर्देश पैरामीटर की क्षमता नियामक एजेंसियों के साथ सहयोग करते समय एक लाभ के रूप में देखी जा सकती है।
- मिश्रित विधियां: ऐतिहासिक डेटा से निर्मित रोगनिदान स्कोर को TMLE के साथ जोड़ा जा सकता है, जैसा कि Liao et al. (2025) द्वारा प्रस्तावित है।
- छोटे नमूने अनुकूलन: छोटे नमूना आकार वाले परीक्षणों में, ऐतिहासिक डेटा का मूल्य अधिक प्रमुख है।
- वितरण बदलाव हैंडलिंग: जब ऐतिहासिक डेटा और वर्तमान परीक्षण में वितरण अंतर होता है तो मजबूत विधियां।
- सैद्धांतिक योगदान: पहली बार दो अलग-अलग दिखने वाली विधियों के बीच सैद्धांतिक संबंध स्थापित किया, जिसका महत्वपूर्ण पद्धति संबंधी मूल्य है।
- व्यावहारिक मूल्य: दोहराए गए विकास से बचा जाता है, शोधकर्ताओं को परिपक्व TMLE उपकरणों का उपयोग करने के लिए निर्देशित करता है।
- कठोर प्रमाण: बीजगणितीय व्युत्पत्ति के माध्यम से समतुल्यता को कठोरता से प्रमाणित किया, सैद्धांतिक आधार मजबूत है।
- व्यापक सत्यापन: सिमुलेशन अध्ययन कई परिदृश्यों को कवर करता है, अनुभवजन्य समर्थन पर्याप्त है।
- स्पष्ट लेखन: पेपर संरचना स्पष्ट है, तकनीकी विवरण पारदर्शी रूप से समझाए गए हैं, समझने में आसान है।
- सीमित नवीनता: मुख्य रूप से मौजूदा विधियों की समतुल्यता को प्रकट करना, वास्तविक विधि नवाचार की कमी है।
- अनुप्रयोग सीमा: विश्लेषण 1:1 यादृच्छिक परीक्षण सेटअप तक सीमित है, अधिक जटिल डिजाइन के लिए सामान्यीकरण अस्पष्ट है।
- व्यावहारिक अंतर को नजरअंदाज करना: हालांकि सैद्धांतिक रूप से समतुल्य, कार्यान्वयन विवरण में अंतर कुछ मामलों में प्रभाव डाल सकता है।
- अधूरी तुलना: अन्य उन्नत सहचर समायोजन विधियों के साथ व्यवस्थित तुलना की कमी है।
- शैक्षणिक मूल्य: सांख्यिकीय पद्धति क्षेत्र के लिए महत्वपूर्ण सैद्धांतिक स्पष्टीकरण प्रदान करता है, अवधारणा भ्रम से बचने में मदद करता है।
- व्यावहारिक मार्गदर्शन: नैदानिक परीक्षण सांख्यिकीविदों को स्पष्ट विधि चयन मार्गदर्शन प्रदान करता है।
- शैक्षिक महत्व: सांख्यिकीय शिक्षा में विभिन्न अनुमान विधियों के संबंधों की समझ में मदद करता है।
- विधि चयन: जब ऐतिहासिक डेटा उपलब्ध नहीं है, तो शोधकर्ता नई ट्रायल के भीतर विधि विकसित करने के बजाय सीधे TMLE का उपयोग कर सकते हैं।
- सैद्धांतिक अनुसंधान: आगे के सहचर समायोजन विधि अनुसंधान के लिए सैद्धांतिक आधार प्रदान करता है।
- नियामक आवेदन: विश्लेषण योजना के पूर्व-विनिर्देश की आवश्यकता वाले नियामक वातावरण में, विभिन्न विधियों के लाभ और हानि को संतुलित करने की आवश्यकता है।
यह पेपर संबंधित क्षेत्र के बड़ी संख्या में महत्वपूर्ण साहित्य का हवाला देता है, जिसमें शामिल हैं:
- Schuler et al. (2022): PROCOVA विधि का मूल पेपर
- van der Laan and Rubin (2006): TMLE की स्थापना कार्य
- Tukey (1993): रोगनिदान समायोजन विचार का प्रारंभिक स्रोत
- क्रॉस-फिटिंग और दोहरी-मजबूत अनुमान पर कई आधुनिक साहित्य
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता की पद्धति संबंधी पेपर है, हालांकि नवीनता अपेक्षाकृत सीमित है, लेकिन सैद्धांतिक स्पष्टीकरण और व्यावहारिक मार्गदर्शन के संदर्भ में महत्वपूर्ण मूल्य है। पेपर एक महत्वपूर्ण समतुल्यता परिणाम को कठोरता से प्रमाणित करता है, जो सांख्यिकी क्षेत्र को संबंधित विधियों की सही समझ और अनुप्रयोग में मदद करता है।