2025-11-15T01:58:11.277924

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

Zivich, Shook-Sa, Cole et al.
Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
academic

सार्वजनिक स्वास्थ्य अनुसंधान में सांख्यिकीय और गणितीय मॉडल के संश्लेषण का उपयोग करके लापता डेटा के लिए लेखांकन

बुनियादी जानकारी

  • पेपर ID: 2503.02789
  • शीर्षक: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
  • लेखक: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
  • वर्गीकरण: stat.AP (अनुप्रयुक्त सांख्यिकी), stat.ME (सांख्यिकीय विधियाँ)
  • प्रकाशन तिथि: 16 अक्टूबर, 2025
  • पेपर लिंक: https://arxiv.org/abs/2503.02789

सारांश

यह अनुसंधान सार्वजनिक स्वास्थ्य अनुसंधान में लापता डेटा प्रसंस्करण की सकारात्मकता उल्लंघन समस्या के लिए सांख्यिकीय मॉडल और गणितीय मॉडल को जोड़ने वाली एक व्यापक विधि प्रस्तावित करता है। अनुसंधान संयुक्त राज्य अमेरिका में 2-17 वर्षीय बच्चों के सिस्टोलिक दबाव माध्य का अनुमान लगाने के उदाहरण के रूप में 2017-2018 राष्ट्रीय स्वास्थ्य और पोषण परीक्षा सर्वेक्षण (NHANES) डेटा का उपयोग करता है। NHANES डिजाइन में 2-7 वर्षीय बच्चों के लिए रक्तचाप माप नहीं होने के कारण, डिजाइन-आधारित सकारात्मकता उल्लंघन मौजूद है। बाहरी जानकारी को NHANES डेटा के साथ एकीकृत करके, संश्लेषित मॉडल द्वारा अनुमानित औसत सिस्टोलिक दबाव 100.5 mmHg (95% CI: 99.9, 101.0) है, जो पूर्ण केस विश्लेषण या सांख्यिकीय मॉडल एक्सट्रापोलेशन के परिणामों से काफी कम है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या की पहचान

  1. सकारात्मकता धारणा का महत्व: लापता डेटा प्रसंस्करण में, सहसंयोजकों के माध्यम से प्रतिरोपण या भारांकन सकारात्मकता धारणा पर निर्भर करता है, अर्थात् सभी अद्वितीय सहसंयोजक मानों के लिए, लापता चर कम से कम कभी-कभी देखा जाता है
  2. सकारात्मकता उल्लंघन की व्यापकता: जब कुछ सहसंयोजक संयोजन लक्ष्य चर के अवलोकन में पूरी तरह से अनुपस्थित होते हैं, तो सकारात्मकता उल्लंघन होता है, जिससे पूर्वाग्रह उत्पन्न होता है
  3. मौजूदा विधियों की सीमाएँ: गैर-सकारात्मकता को संभालने के पारंपरिक तरीके या तो अनुसंधान प्रश्न को संशोधित करते हैं या प्रतिबंधक, अपरीक्षणीय मॉडलिंग धारणाओं पर निर्भर करते हैं

अनुसंधान का महत्व

  • सैद्धांतिक महत्व: सकारात्मकता उल्लंघन को संभालने के लिए एक नई सैद्धांतिक रूपरेखा प्रदान करता है, पारंपरिक विधियों की प्रतिबंधक धारणाओं से बचता है
  • व्यावहारिक मूल्य: सार्वजनिक स्वास्थ्य और नैदानिक अनुसंधान में लापता डेटा समस्याओं के लिए एक व्यवहार्य समाधान प्रदान करता है
  • विधि नवाचार: गैर-सकारात्मकता समस्या को संभालने के लिए सांख्यिकीय मॉडल और गणितीय मॉडल को व्यवस्थित रूप से जोड़ने वाला पहला प्रयास

मुख्य योगदान

  1. संश्लेषित मॉडल ढांचा प्रस्तावित किया: डेटा को सकारात्मकता-संतुष्ट क्षेत्र और उल्लंघन क्षेत्र में विभाजित किया, क्रमशः सांख्यिकीय मॉडल और गणितीय मॉडल का उपयोग करके प्रसंस्करण किया
  2. पुनः-नमूनाकरण एल्गोरिदम विकसित किया: दोनों मॉडलों की अनिश्चितता पर विचार करने वाली विचरण अनुमान विधि प्रदान की
  3. मॉडल निदान प्रक्रिया का निर्माण किया: सकारात्मकता क्षेत्र के भीतर सांख्यिकीय मॉडल और गणितीय मॉडल के प्रदर्शन की तुलना करके विधि की वैधता को सत्यापित किया
  4. संपूर्ण कार्यान्वयन योजना प्रदान की: R और Python कोड सहित, विधि की पुनरुत्पादनीयता और व्यावहारिकता को बढ़ाया

विधि विवरण

कार्य परिभाषा

पैरामीटर μ=E[Y]\mu = E[Y] का अनुमान लगाएँ, जहाँ YY सिस्टोलिक दबाव है, लेकिन कुछ सहसंयोजक मानों XX के तहत पूरी तरह से अनुपस्थित है, सकारात्मकता धारणा Pr(R=1X=x)>0Pr(R = 1 | X = x) > 0 का उल्लंघन करता है।

मॉडल आर्किटेक्चर

1. डेटा विभाजन रणनीति

डेटा को दो क्षेत्रों में विभाजित किया जाता है:

  • सकारात्मकता क्षेत्र (X=1X^* = 1): आयु 8-17 वर्ष, सिस्टोलिक दबाव अवलोकन मौजूद हैं
  • गैर-सकारात्मकता क्षेत्र (X=0X^* = 0): आयु 2-7 वर्ष, सिस्टोलिक दबाव पूरी तरह से अनुपस्थित है

पैरामीटर को पुनः लिखा जा सकता है: E[Y]=E[YX=1]Pr(X=1)+E[YX=0]Pr(X=0)E[Y] = E[Y | X^* = 1]Pr(X^* = 1) + E[Y | X^* = 0]Pr(X^* = 0)

2. सांख्यिकीय मॉडल (सकारात्मकता क्षेत्र)

सकारात्मकता क्षेत्र में संतृप्त मॉडल का उपयोग किया जाता है: E[YX,R=1,X=1;β]=β8I(X=8)+β9I(X=9)++β17I(X=17)E[Y | X, R = 1, X^* = 1; \beta] = \beta_8 I(X = 8) + \beta_9 I(X = 9) + \cdots + \beta_{17} I(X = 17)

g-computation विधि का उपयोग किया जाता है:

  • पूर्ण डेटा के आधार पर प्रतिगमन मॉडल को फिट करना
  • सभी अवलोकनों के लिए सिस्टोलिक दबाव की भविष्यवाणी करना
  • नमूना-भारित औसत की गणना करना

3. गणितीय मॉडल (गैर-सकारात्मकता क्षेत्र)

बाहरी प्रकाशित अमेरिकी बाल और किशोर सिस्टोलिक दबाव वितरण जानकारी के आधार पर:

  • आयु, लिंग, ऊंचाई प्रतिशतक-विशिष्ट वितरण का उपयोग करना
  • सामान्य वितरण मानना, माध्य माध्यिका के बराबर है
  • मानक विचलन 90वें प्रतिशतक द्वारा अनुमानित है

तकनीकी नवाचार बिंदु

  1. एक्सट्रापोलेशन धारणा से बचना: पारंपरिक रैखिक एक्सट्रापोलेशन के विपरीत, 8-17 वर्ष के संबंध को 2-7 वर्ष तक विस्तारित करने की धारणा की आवश्यकता नहीं है
  2. लचीली मॉडल चयन: सकारात्मकता क्षेत्र गैर-पैरामीट्रिक विधियों का उपयोग कर सकता है, गैर-सकारात्मकता क्षेत्र बाहरी जानकारी को एकीकृत करता है
  3. अनिश्चितता परिमाणीकरण: पुनः-नमूनाकरण एल्गोरिदम सांख्यिकीय मॉडल पैरामीटर अनुमान और गणितीय मॉडल वितरण की अनिश्चितता दोनों पर विचार करता है

प्रायोगिक सेटअप

डेटासेट

  • मुख्य डेटा: 2017-2018 NHANES, n=2572 2-17 वर्षीय बाल और किशोर
  • बाहरी जानकारी: Flynn आदि द्वारा प्रकाशित अमेरिकी बाल और किशोर सिस्टोलिक दबाव वितरण डेटा
  • लापता पैटर्न: 2-7 वर्षीय बच्चों का सिस्टोलिक दबाव पूरी तरह से अनुपस्थित (डिजाइन-आधारित अनुपस्थिति), 8-17 वर्ष में 8% अनुपस्थित

चर परिभाषा

  • परिणाम चर: सिस्टोलिक दबाव (mmHg), तीन माप तक का औसत मान
  • सहसंयोजक: आयु (वर्ष), ऊंचाई (सेंटीमीटर), वजन (किलोग्राम), लिंग
  • नमूनाकरण भार: अमेरिकी जनसंख्या अनुमान के लिए NHANES नमूनाकरण भार लागू किए जाते हैं

तुलना विधियाँ

  1. पूर्ण केस विश्लेषण: केवल सिस्टोलिक दबाव माप वाले अवलोकनों का उपयोग करना
  2. रैखिक एक्सट्रापोलेशन: 8-17 वर्ष के डेटा के आधार पर रैखिक मॉडल फिट करना, 2-7 वर्ष तक एक्सट्रापोलेट करना
  3. संवेदनशीलता विश्लेषण: 2-7 वर्ष के औसत सिस्टोलिक दबाव के लिए 70-120 mmHg सीमा निर्धारित करके सीमा विश्लेषण करना

कार्यान्वयन विवरण

  • पुनः-नमूनाकरण पुनरावृत्तियाँ: 10,000 बार
  • विश्वास अंतराल: 2.5% और 97.5% प्रतिशतक का उपयोग करके 95% विश्वास अंतराल का निर्माण किया जाता है
  • बिंदु अनुमान: माध्यिका को बिंदु अनुमान मान के रूप में उपयोग किया जाता है

प्रायोगिक परिणाम

मुख्य परिणाम

विधिऔसत सिस्टोलिक दबाव (mmHg)95% विश्वास अंतराल
पूर्ण केस विश्लेषण104.7(104.1, 105.3)
रैखिक एक्सट्रापोलेशन101.6(100.8, 102.4)
संश्लेषित मॉडल100.5(99.9, 101.0)
सीमा विश्लेषण92.7-109.9(91.9, 110.5)

मुख्य निष्कर्ष

  1. संश्लेषित मॉडल परिणाम सबसे कम: रैखिक एक्सट्रापोलेशन से 1.1 mmHg कम, अंतर एक्सट्रापोलेशन विधि के मानक त्रुटि का 2.9 गुना है
  2. विधियों के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर: संश्लेषित मॉडल और अन्य विधियों के बीच अंतर अनुमानित अनिश्चितता की सीमा से अधिक है
  3. सीमा विश्लेषण परिणामों का समर्थन करता है: संश्लेषित मॉडल अनुमान मान उचित सीमा सीमा के भीतर आता है

मॉडल सत्यापन

सकारात्मकता क्षेत्र के भीतर सांख्यिकीय मॉडल और गणितीय मॉडल के प्रदर्शन की तुलना करके:

  • दोनों मॉडलों द्वारा अनुमानित सिस्टोलिक दबाव वितरण में उचित ओवरलैप है
  • आयु-विशिष्ट माध्य अंतर शून्य के करीब है, लेकिन 15-17 वर्ष में सांख्यिकीय मॉडल परिणाम गणितीय मॉडल से थोड़ा कम है
  • समग्र रूप से सकारात्मकता क्षेत्र में गणितीय मॉडल की वैधता का समर्थन करता है

विस्तारित विश्लेषण परिणाम

अनुलग्नक में अधिक सहसंयोजकों (लिंग, ऊंचाई, वजन) पर विचार करने वाले परिणाम:

  • संश्लेषित मॉडल परिणाम स्थिर रहते हैं: 100.5 (99.9, 101.0)
  • एक्सट्रापोलेशन विधि परिणाम संश्लेषित मॉडल के करीब आते हैं: 100.8 (97.7, 103.8)
  • वर्धित व्युत्क्रम संभाव्यता भारांकन अनुमानक परिणाम समान हैं

संबंधित कार्य

पारंपरिक लापता डेटा विधियाँ

  1. प्रतिरोपण विधियाँ: बहु-प्रतिरोपण, अधिकतम संभावना अनुमान
  2. भारांकन विधियाँ: व्युत्क्रम संभाव्यता भारांकन
  3. दोहरी-मजबूत विधियाँ: वर्धित व्युत्क्रम संभाव्यता भारांकन अनुमानक

गैर-सकारात्मकता प्रसंस्करण विधियाँ

  1. समस्या संशोधन: अनुसंधान जनसंख्या को सकारात्मकता-संतुष्ट क्षेत्र तक सीमित करना
  2. पैरामीट्रिक एक्सट्रापोलेशन: प्रतिबंधक मॉडलिंग धारणाओं का उपयोग करके एक्सट्रापोलेट करना
  3. सीमा विश्लेषण: संवेदनशीलता विश्लेषण सीमा प्रदान करना

इस पेपर के योगदान की विशिष्टता

  • सांख्यिकीय और गणितीय मॉडलों को व्यवस्थित रूप से जोड़ने वाला पहला प्रयास
  • अनुसंधान समस्या को संशोधित करने या मजबूत पैरामीट्रिक धारणाओं से बचना
  • अनिश्चितता परिमाणीकरण के लिए व्यावहारिक विधि प्रदान करना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. संश्लेषित मॉडल की प्रभावशीलता: गैर-सकारात्मकता क्षेत्र सहित कुल जनसंख्या पैरामीटर का सफलतापूर्वक अनुमान लगाया
  2. विधि के लाभ: पारंपरिक विधियों की प्रतिबंधक धारणाओं से बचा जाता है, अधिक उचित अनुमान प्रदान किया जाता है
  3. व्यावहारिक मूल्य: डिजाइन-आधारित अनुपस्थिति या व्यवस्थित अनुपस्थिति को संभालने के लिए एक व्यवहार्य समाधान प्रदान करता है

सीमाएँ

  1. विचरण अनुमान: NHANES के समूहीकृत नमूनाकरण डिजाइन पर विचार नहीं किया गया है, अनिश्चितता को कम आंका जा सकता है
  2. गणितीय मॉडल जटिलता: वर्तमान में अपेक्षाकृत सरल मॉडल का उपयोग किया जाता है, जटिल स्थितियों में मध्यवर्ती प्रक्रिया मॉडलिंग की आवश्यकता हो सकती है
  3. बाहरी जानकारी पर निर्भरता: विधि की प्रभावशीलता बाहरी जानकारी की सटीकता और प्रयोज्यता पर निर्भर करती है
  4. बहु-चर गैर-सकारात्मकता: जब एक साथ कई चर में गैर-सकारात्मकता मौजूद हो तो अनुप्रयोग के लिए आगे के अनुसंधान की आवश्यकता है

भविष्य की दिशाएँ

  1. जटिल गणितीय मॉडल: दवा सांद्रता, शारीरिक प्रतिक्रिया आदि जटिल प्रक्रियाओं को संभालने के लिए मॉडल विकसित करना
  2. विचरण अनुमान में सुधार: समूहीकरण जैसे जटिल नमूनाकरण डिजाइन पर विचार करने के लिए पुनः-नमूनाकरण एल्गोरिदम का विस्तार करना
  3. बहु-आयामी गैर-सकारात्मकता: कई चर में एक साथ गैर-सकारात्मकता की स्थिति का अध्ययन करना
  4. निदान विधि में सुधार: मॉडल वैधता के लिए अधिक व्यापक निदान प्रक्रिया विकसित करना

गहन मूल्यांकन

शक्तियाँ

  1. विधि नवाचार की शक्ति: सांख्यिकीय और गणितीय मॉडलों को गैर-सकारात्मकता को संभालने के लिए व्यवस्थित रूप से जोड़ने वाला पहला प्रयास
  2. सैद्धांतिक आधार दृढ़: कारणात्मक अनुमान और लापता डेटा सिद्धांत के दृढ़ आधार पर आधारित
  3. व्यावहारिकता उत्कृष्ट: संपूर्ण कार्यान्वयन कोड और विस्तृत एल्गोरिदम विवरण प्रदान करता है
  4. सत्यापन पर्याप्त: कई तुलना विधियों और निदान प्रक्रियाओं के माध्यम से विधि की वैधता को सत्यापित किया जाता है

कमजोरियाँ

  1. बाहरी जानकारी की आवश्यकता: विधि की सफलता उच्च-गुणवत्ता बाहरी जानकारी की उपलब्धता पर निर्भर करती है
  2. कम्प्यूटेशनल जटिलता: पुनः-नमूनाकरण प्रक्रिया कम्प्यूटेशनल बोझ बढ़ाती है
  3. प्रयोज्यता सीमा: मुख्य रूप से विश्वसनीय बाहरी जानकारी वाली स्थितियों के लिए उपयुक्त है
  4. सैद्धांतिक गारंटी: विधि के स्पर्शोन्मुख गुणों के बारे में सैद्धांतिक विश्लेषण की कमी है

प्रभाव मूल्यांकन

  1. शैक्षणिक योगदान: सांख्यिकी और महामारी विज्ञान क्षेत्र के लिए महत्वपूर्ण पद्धति संबंधी योगदान प्रदान करता है
  2. व्यावहारिक मूल्य: सार्वजनिक स्वास्थ्य अनुसंधान में सामान्य डिजाइन-आधारित अनुपस्थिति समस्या के लिए सीधा अनुप्रयोग मूल्य है
  3. पुनरुत्पादनीयता: प्रदान किए गए कोड और विस्तृत विवरण विधि की पुनरुत्पादनीयता सुनिश्चित करते हैं
  4. प्रचार क्षमता: विधि ढांचा गैर-सकारात्मकता वाले अन्य अनुसंधान क्षेत्रों में सामान्यीकृत किया जा सकता है

प्रयोज्य परिदृश्य

  1. डिजाइन-आधारित अनुपस्थिति: जैसे आयु सीमा, नैतिक विचार के कारण व्यवस्थित अनुपस्थिति
  2. समृद्ध बाहरी जानकारी: विश्वसनीय बाहरी अनुसंधान या पूर्व ज्ञान मौजूद है
  3. पैरामीटर अनुमान: मुख्य रूप से कुल जनसंख्या पैरामीटर अनुमान के लिए उपयुक्त है न कि व्यक्तिगत भविष्यवाणी के लिए
  4. सार्वजनिक स्वास्थ्य अनुसंधान: विशेष रूप से बड़े पैमाने पर महामारी विज्ञान सर्वेक्षण में लापता डेटा समस्याओं के लिए उपयुक्त है

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण साहित्य का हवाला देता है, जिसमें शामिल हैं:

  • Cole आदि द्वारा महामारी विज्ञान अनुसंधान में लापता परिणाम डेटा पर समीक्षा
  • Westreich और Cole द्वारा सकारात्मकता अभ्यास पर टिप्पणी
  • Petersen आदि द्वारा सकारात्मकता धारणा उल्लंघन के निदान और प्रतिक्रिया पर
  • Flynn आदि द्वारा बाल और किशोर रक्तचाप स्क्रीनिंग और प्रबंधन पर नैदानिक अभ्यास दिशानिर्देश