Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
- पेपर ID: 2503.02789
- शीर्षक: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
- लेखक: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
- वर्गीकरण: stat.AP (अनुप्रयुक्त सांख्यिकी), stat.ME (सांख्यिकीय विधियाँ)
- प्रकाशन तिथि: 16 अक्टूबर, 2025
- पेपर लिंक: https://arxiv.org/abs/2503.02789
यह अनुसंधान सार्वजनिक स्वास्थ्य अनुसंधान में लापता डेटा प्रसंस्करण की सकारात्मकता उल्लंघन समस्या के लिए सांख्यिकीय मॉडल और गणितीय मॉडल को जोड़ने वाली एक व्यापक विधि प्रस्तावित करता है। अनुसंधान संयुक्त राज्य अमेरिका में 2-17 वर्षीय बच्चों के सिस्टोलिक दबाव माध्य का अनुमान लगाने के उदाहरण के रूप में 2017-2018 राष्ट्रीय स्वास्थ्य और पोषण परीक्षा सर्वेक्षण (NHANES) डेटा का उपयोग करता है। NHANES डिजाइन में 2-7 वर्षीय बच्चों के लिए रक्तचाप माप नहीं होने के कारण, डिजाइन-आधारित सकारात्मकता उल्लंघन मौजूद है। बाहरी जानकारी को NHANES डेटा के साथ एकीकृत करके, संश्लेषित मॉडल द्वारा अनुमानित औसत सिस्टोलिक दबाव 100.5 mmHg (95% CI: 99.9, 101.0) है, जो पूर्ण केस विश्लेषण या सांख्यिकीय मॉडल एक्सट्रापोलेशन के परिणामों से काफी कम है।
- सकारात्मकता धारणा का महत्व: लापता डेटा प्रसंस्करण में, सहसंयोजकों के माध्यम से प्रतिरोपण या भारांकन सकारात्मकता धारणा पर निर्भर करता है, अर्थात् सभी अद्वितीय सहसंयोजक मानों के लिए, लापता चर कम से कम कभी-कभी देखा जाता है
- सकारात्मकता उल्लंघन की व्यापकता: जब कुछ सहसंयोजक संयोजन लक्ष्य चर के अवलोकन में पूरी तरह से अनुपस्थित होते हैं, तो सकारात्मकता उल्लंघन होता है, जिससे पूर्वाग्रह उत्पन्न होता है
- मौजूदा विधियों की सीमाएँ: गैर-सकारात्मकता को संभालने के पारंपरिक तरीके या तो अनुसंधान प्रश्न को संशोधित करते हैं या प्रतिबंधक, अपरीक्षणीय मॉडलिंग धारणाओं पर निर्भर करते हैं
- सैद्धांतिक महत्व: सकारात्मकता उल्लंघन को संभालने के लिए एक नई सैद्धांतिक रूपरेखा प्रदान करता है, पारंपरिक विधियों की प्रतिबंधक धारणाओं से बचता है
- व्यावहारिक मूल्य: सार्वजनिक स्वास्थ्य और नैदानिक अनुसंधान में लापता डेटा समस्याओं के लिए एक व्यवहार्य समाधान प्रदान करता है
- विधि नवाचार: गैर-सकारात्मकता समस्या को संभालने के लिए सांख्यिकीय मॉडल और गणितीय मॉडल को व्यवस्थित रूप से जोड़ने वाला पहला प्रयास
- संश्लेषित मॉडल ढांचा प्रस्तावित किया: डेटा को सकारात्मकता-संतुष्ट क्षेत्र और उल्लंघन क्षेत्र में विभाजित किया, क्रमशः सांख्यिकीय मॉडल और गणितीय मॉडल का उपयोग करके प्रसंस्करण किया
- पुनः-नमूनाकरण एल्गोरिदम विकसित किया: दोनों मॉडलों की अनिश्चितता पर विचार करने वाली विचरण अनुमान विधि प्रदान की
- मॉडल निदान प्रक्रिया का निर्माण किया: सकारात्मकता क्षेत्र के भीतर सांख्यिकीय मॉडल और गणितीय मॉडल के प्रदर्शन की तुलना करके विधि की वैधता को सत्यापित किया
- संपूर्ण कार्यान्वयन योजना प्रदान की: R और Python कोड सहित, विधि की पुनरुत्पादनीयता और व्यावहारिकता को बढ़ाया
पैरामीटर μ=E[Y] का अनुमान लगाएँ, जहाँ Y सिस्टोलिक दबाव है, लेकिन कुछ सहसंयोजक मानों X के तहत पूरी तरह से अनुपस्थित है, सकारात्मकता धारणा Pr(R=1∣X=x)>0 का उल्लंघन करता है।
डेटा को दो क्षेत्रों में विभाजित किया जाता है:
- सकारात्मकता क्षेत्र (X∗=1): आयु 8-17 वर्ष, सिस्टोलिक दबाव अवलोकन मौजूद हैं
- गैर-सकारात्मकता क्षेत्र (X∗=0): आयु 2-7 वर्ष, सिस्टोलिक दबाव पूरी तरह से अनुपस्थित है
पैरामीटर को पुनः लिखा जा सकता है:
E[Y]=E[Y∣X∗=1]Pr(X∗=1)+E[Y∣X∗=0]Pr(X∗=0)
सकारात्मकता क्षेत्र में संतृप्त मॉडल का उपयोग किया जाता है:
E[Y∣X,R=1,X∗=1;β]=β8I(X=8)+β9I(X=9)+⋯+β17I(X=17)
g-computation विधि का उपयोग किया जाता है:
- पूर्ण डेटा के आधार पर प्रतिगमन मॉडल को फिट करना
- सभी अवलोकनों के लिए सिस्टोलिक दबाव की भविष्यवाणी करना
- नमूना-भारित औसत की गणना करना
बाहरी प्रकाशित अमेरिकी बाल और किशोर सिस्टोलिक दबाव वितरण जानकारी के आधार पर:
- आयु, लिंग, ऊंचाई प्रतिशतक-विशिष्ट वितरण का उपयोग करना
- सामान्य वितरण मानना, माध्य माध्यिका के बराबर है
- मानक विचलन 90वें प्रतिशतक द्वारा अनुमानित है
- एक्सट्रापोलेशन धारणा से बचना: पारंपरिक रैखिक एक्सट्रापोलेशन के विपरीत, 8-17 वर्ष के संबंध को 2-7 वर्ष तक विस्तारित करने की धारणा की आवश्यकता नहीं है
- लचीली मॉडल चयन: सकारात्मकता क्षेत्र गैर-पैरामीट्रिक विधियों का उपयोग कर सकता है, गैर-सकारात्मकता क्षेत्र बाहरी जानकारी को एकीकृत करता है
- अनिश्चितता परिमाणीकरण: पुनः-नमूनाकरण एल्गोरिदम सांख्यिकीय मॉडल पैरामीटर अनुमान और गणितीय मॉडल वितरण की अनिश्चितता दोनों पर विचार करता है
- मुख्य डेटा: 2017-2018 NHANES, n=2572 2-17 वर्षीय बाल और किशोर
- बाहरी जानकारी: Flynn आदि द्वारा प्रकाशित अमेरिकी बाल और किशोर सिस्टोलिक दबाव वितरण डेटा
- लापता पैटर्न: 2-7 वर्षीय बच्चों का सिस्टोलिक दबाव पूरी तरह से अनुपस्थित (डिजाइन-आधारित अनुपस्थिति), 8-17 वर्ष में 8% अनुपस्थित
- परिणाम चर: सिस्टोलिक दबाव (mmHg), तीन माप तक का औसत मान
- सहसंयोजक: आयु (वर्ष), ऊंचाई (सेंटीमीटर), वजन (किलोग्राम), लिंग
- नमूनाकरण भार: अमेरिकी जनसंख्या अनुमान के लिए NHANES नमूनाकरण भार लागू किए जाते हैं
- पूर्ण केस विश्लेषण: केवल सिस्टोलिक दबाव माप वाले अवलोकनों का उपयोग करना
- रैखिक एक्सट्रापोलेशन: 8-17 वर्ष के डेटा के आधार पर रैखिक मॉडल फिट करना, 2-7 वर्ष तक एक्सट्रापोलेट करना
- संवेदनशीलता विश्लेषण: 2-7 वर्ष के औसत सिस्टोलिक दबाव के लिए 70-120 mmHg सीमा निर्धारित करके सीमा विश्लेषण करना
- पुनः-नमूनाकरण पुनरावृत्तियाँ: 10,000 बार
- विश्वास अंतराल: 2.5% और 97.5% प्रतिशतक का उपयोग करके 95% विश्वास अंतराल का निर्माण किया जाता है
- बिंदु अनुमान: माध्यिका को बिंदु अनुमान मान के रूप में उपयोग किया जाता है
| विधि | औसत सिस्टोलिक दबाव (mmHg) | 95% विश्वास अंतराल |
|---|
| पूर्ण केस विश्लेषण | 104.7 | (104.1, 105.3) |
| रैखिक एक्सट्रापोलेशन | 101.6 | (100.8, 102.4) |
| संश्लेषित मॉडल | 100.5 | (99.9, 101.0) |
| सीमा विश्लेषण | 92.7-109.9 | (91.9, 110.5) |
- संश्लेषित मॉडल परिणाम सबसे कम: रैखिक एक्सट्रापोलेशन से 1.1 mmHg कम, अंतर एक्सट्रापोलेशन विधि के मानक त्रुटि का 2.9 गुना है
- विधियों के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर: संश्लेषित मॉडल और अन्य विधियों के बीच अंतर अनुमानित अनिश्चितता की सीमा से अधिक है
- सीमा विश्लेषण परिणामों का समर्थन करता है: संश्लेषित मॉडल अनुमान मान उचित सीमा सीमा के भीतर आता है
सकारात्मकता क्षेत्र के भीतर सांख्यिकीय मॉडल और गणितीय मॉडल के प्रदर्शन की तुलना करके:
- दोनों मॉडलों द्वारा अनुमानित सिस्टोलिक दबाव वितरण में उचित ओवरलैप है
- आयु-विशिष्ट माध्य अंतर शून्य के करीब है, लेकिन 15-17 वर्ष में सांख्यिकीय मॉडल परिणाम गणितीय मॉडल से थोड़ा कम है
- समग्र रूप से सकारात्मकता क्षेत्र में गणितीय मॉडल की वैधता का समर्थन करता है
अनुलग्नक में अधिक सहसंयोजकों (लिंग, ऊंचाई, वजन) पर विचार करने वाले परिणाम:
- संश्लेषित मॉडल परिणाम स्थिर रहते हैं: 100.5 (99.9, 101.0)
- एक्सट्रापोलेशन विधि परिणाम संश्लेषित मॉडल के करीब आते हैं: 100.8 (97.7, 103.8)
- वर्धित व्युत्क्रम संभाव्यता भारांकन अनुमानक परिणाम समान हैं
- प्रतिरोपण विधियाँ: बहु-प्रतिरोपण, अधिकतम संभावना अनुमान
- भारांकन विधियाँ: व्युत्क्रम संभाव्यता भारांकन
- दोहरी-मजबूत विधियाँ: वर्धित व्युत्क्रम संभाव्यता भारांकन अनुमानक
- समस्या संशोधन: अनुसंधान जनसंख्या को सकारात्मकता-संतुष्ट क्षेत्र तक सीमित करना
- पैरामीट्रिक एक्सट्रापोलेशन: प्रतिबंधक मॉडलिंग धारणाओं का उपयोग करके एक्सट्रापोलेट करना
- सीमा विश्लेषण: संवेदनशीलता विश्लेषण सीमा प्रदान करना
- सांख्यिकीय और गणितीय मॉडलों को व्यवस्थित रूप से जोड़ने वाला पहला प्रयास
- अनुसंधान समस्या को संशोधित करने या मजबूत पैरामीट्रिक धारणाओं से बचना
- अनिश्चितता परिमाणीकरण के लिए व्यावहारिक विधि प्रदान करना
- संश्लेषित मॉडल की प्रभावशीलता: गैर-सकारात्मकता क्षेत्र सहित कुल जनसंख्या पैरामीटर का सफलतापूर्वक अनुमान लगाया
- विधि के लाभ: पारंपरिक विधियों की प्रतिबंधक धारणाओं से बचा जाता है, अधिक उचित अनुमान प्रदान किया जाता है
- व्यावहारिक मूल्य: डिजाइन-आधारित अनुपस्थिति या व्यवस्थित अनुपस्थिति को संभालने के लिए एक व्यवहार्य समाधान प्रदान करता है
- विचरण अनुमान: NHANES के समूहीकृत नमूनाकरण डिजाइन पर विचार नहीं किया गया है, अनिश्चितता को कम आंका जा सकता है
- गणितीय मॉडल जटिलता: वर्तमान में अपेक्षाकृत सरल मॉडल का उपयोग किया जाता है, जटिल स्थितियों में मध्यवर्ती प्रक्रिया मॉडलिंग की आवश्यकता हो सकती है
- बाहरी जानकारी पर निर्भरता: विधि की प्रभावशीलता बाहरी जानकारी की सटीकता और प्रयोज्यता पर निर्भर करती है
- बहु-चर गैर-सकारात्मकता: जब एक साथ कई चर में गैर-सकारात्मकता मौजूद हो तो अनुप्रयोग के लिए आगे के अनुसंधान की आवश्यकता है
- जटिल गणितीय मॉडल: दवा सांद्रता, शारीरिक प्रतिक्रिया आदि जटिल प्रक्रियाओं को संभालने के लिए मॉडल विकसित करना
- विचरण अनुमान में सुधार: समूहीकरण जैसे जटिल नमूनाकरण डिजाइन पर विचार करने के लिए पुनः-नमूनाकरण एल्गोरिदम का विस्तार करना
- बहु-आयामी गैर-सकारात्मकता: कई चर में एक साथ गैर-सकारात्मकता की स्थिति का अध्ययन करना
- निदान विधि में सुधार: मॉडल वैधता के लिए अधिक व्यापक निदान प्रक्रिया विकसित करना
- विधि नवाचार की शक्ति: सांख्यिकीय और गणितीय मॉडलों को गैर-सकारात्मकता को संभालने के लिए व्यवस्थित रूप से जोड़ने वाला पहला प्रयास
- सैद्धांतिक आधार दृढ़: कारणात्मक अनुमान और लापता डेटा सिद्धांत के दृढ़ आधार पर आधारित
- व्यावहारिकता उत्कृष्ट: संपूर्ण कार्यान्वयन कोड और विस्तृत एल्गोरिदम विवरण प्रदान करता है
- सत्यापन पर्याप्त: कई तुलना विधियों और निदान प्रक्रियाओं के माध्यम से विधि की वैधता को सत्यापित किया जाता है
- बाहरी जानकारी की आवश्यकता: विधि की सफलता उच्च-गुणवत्ता बाहरी जानकारी की उपलब्धता पर निर्भर करती है
- कम्प्यूटेशनल जटिलता: पुनः-नमूनाकरण प्रक्रिया कम्प्यूटेशनल बोझ बढ़ाती है
- प्रयोज्यता सीमा: मुख्य रूप से विश्वसनीय बाहरी जानकारी वाली स्थितियों के लिए उपयुक्त है
- सैद्धांतिक गारंटी: विधि के स्पर्शोन्मुख गुणों के बारे में सैद्धांतिक विश्लेषण की कमी है
- शैक्षणिक योगदान: सांख्यिकी और महामारी विज्ञान क्षेत्र के लिए महत्वपूर्ण पद्धति संबंधी योगदान प्रदान करता है
- व्यावहारिक मूल्य: सार्वजनिक स्वास्थ्य अनुसंधान में सामान्य डिजाइन-आधारित अनुपस्थिति समस्या के लिए सीधा अनुप्रयोग मूल्य है
- पुनरुत्पादनीयता: प्रदान किए गए कोड और विस्तृत विवरण विधि की पुनरुत्पादनीयता सुनिश्चित करते हैं
- प्रचार क्षमता: विधि ढांचा गैर-सकारात्मकता वाले अन्य अनुसंधान क्षेत्रों में सामान्यीकृत किया जा सकता है
- डिजाइन-आधारित अनुपस्थिति: जैसे आयु सीमा, नैतिक विचार के कारण व्यवस्थित अनुपस्थिति
- समृद्ध बाहरी जानकारी: विश्वसनीय बाहरी अनुसंधान या पूर्व ज्ञान मौजूद है
- पैरामीटर अनुमान: मुख्य रूप से कुल जनसंख्या पैरामीटर अनुमान के लिए उपयुक्त है न कि व्यक्तिगत भविष्यवाणी के लिए
- सार्वजनिक स्वास्थ्य अनुसंधान: विशेष रूप से बड़े पैमाने पर महामारी विज्ञान सर्वेक्षण में लापता डेटा समस्याओं के लिए उपयुक्त है
पेपर संबंधित क्षेत्र के महत्वपूर्ण साहित्य का हवाला देता है, जिसमें शामिल हैं:
- Cole आदि द्वारा महामारी विज्ञान अनुसंधान में लापता परिणाम डेटा पर समीक्षा
- Westreich और Cole द्वारा सकारात्मकता अभ्यास पर टिप्पणी
- Petersen आदि द्वारा सकारात्मकता धारणा उल्लंघन के निदान और प्रतिक्रिया पर
- Flynn आदि द्वारा बाल और किशोर रक्तचाप स्क्रीनिंग और प्रबंधन पर नैदानिक अभ्यास दिशानिर्देश