2025-11-15T01:58:11.277924

Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models

Zivich, Shook-Sa, Cole et al.
Introduction: Accounting for missing data by imputing or weighting conditional on covariates relies on the variable with missingness being observed at least some of the time for all unique covariate values. This requirement is referred to as positivity and positivity violations can result in bias. Here, we review a novel approach to addressing positivity violations in the context of systolic blood pressure. Methods: To illustrate the proposed approach, we estimate the mean systolic blood pressure among children and adolescents aged 2-17 years old in the United States using data from the 2017-2018 National Health and Nutrition Examination Survey (NHANES). As blood pressure was not measured for those aged 2-7, there exists a positivity violation by design. Using a recently proposed synthesis of statistical and mathematical models, we integrate external information with NHANES to address our motivating question. Results: With the synthesis model, the estimated mean systolic blood pressure was 100.5 (95% confidence interval: 99.9, 101.0), which is notably lower than either a complete-case analysis or extrapolation from a statistical model. The synthesis results were supported by a diagnostic comparing the performance of the mathematical model in the positive region. Discussion: Positivity violations pose a threat to quantitative medical research, and standard approaches to addressing nonpositivity rely on restrictive untestable assumptions. Using a synthesis model, like the one detailed here, offers a viable alternative.
academic

জনস্বাস্থ্য গবেষণায় পরিসংখ্যানগত এবং গাণিতিক মডেলের সংমিশ্রণ ব্যবহার করে অনুপস্থিত ডেটা বিবেচনা

মৌলিক তথ্য

  • পেপার আইডি: 2503.02789
  • শিরোনাম: Accounting for Missing Data in Public Health Research Using a Synthesis of Statistical and Mathematical Models
  • লেখক: Paul N Zivich, Bonnie E Shook-Sa, Stephen R Cole, Eric T Lofgren, Jessie K Edwards
  • শ্রেণীবিভাগ: stat.AP (প্রয়োগিত পরিসংখ্যান), stat.ME (পরিসংখ্যানগত পদ্ধতি)
  • প্রকাশনার সময়: অক্টোবর ১৬, ২০২৫
  • পেপার লিঙ্ক: https://arxiv.org/abs/2503.02789

সারসংক্ষেপ

এই গবেষণা জনস্বাস্থ্য গবেষণায় অনুপস্থিত ডেটা পরিচালনায় পজিটিভিটি লঙ্ঘনের সমস্যার সমাধানের জন্য পরিসংখ্যানগত এবং গাণিতিক মডেলের সমন্বিত পদ্ধতি প্রস্তাব করে। গবেষণাটি ২০১৭-২০১৮ সালের জাতীয় স্বাস্থ্য ও পুষ্টি পরীক্ষা সমীক্ষা (NHANES) ডেটা ব্যবহার করে মার্কিন যুক্তরাষ্ট্রের ২-১৭ বছর বয়সী শিশু-কিশোরদের সিস্টোলিক রক্তচাপের গড় অনুমান করার উদাহরণ হিসাবে কাজ করে। NHANES ডিজাইনে ২-৭ বছর বয়সী শিশুদের রক্তচাপ পরিমাপ না করার কারণে ডিজাইন-ভিত্তিক পজিটিভিটি লঙ্ঘন রয়েছে। বাহ্যিক তথ্য এবং NHANES ডেটা একীভূত করে, সমন্বিত মডেল অনুমান করা গড় সিস্টোলিক রক্তচাপ ১০০.৫ mmHg (৯৫% CI: ৯৯.৯, ১০১.০), যা সম্পূর্ণ কেস বিশ্লেষণ বা পরিসংখ্যানগত মডেল এক্সট্রাপোলেশনের ফলাফলের চেয়ে উল্লেখযোগ্যভাবে কম।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা চিহ্নিতকরণ

১. পজিটিভিটি অনুমানের গুরুত্ব: অনুপস্থিত ডেটা পরিচালনায়, সহ-পরিবর্তনশীলদের মাধ্যমে ইমপিউটেশন বা ওজনকরণ পজিটিভিটি অনুমানের উপর নির্ভর করে, অর্থাৎ সমস্ত অনন্য সহ-পরিবর্তনশীল মানের জন্য, অনুপস্থিত চলক কমপক্ষে কখনও পর্যবেক্ষণ করা হয় ২. পজিটিভিটি লঙ্ঘনের ব্যাপকতা: যখন কিছু সহ-পরিবর্তনশীল সমন্বয় লক্ষ্য চলকের পর্যবেক্ষণের সম্পূর্ণ অভাব থাকে, তখন পজিটিভিটি লঙ্ঘন ঘটে, যা পক্ষপাত সৃষ্টি করে ३. বিদ্যমান পদ্ধতির সীমাবদ্ধতা: অ-পজিটিভিটি পরিচালনার ঐতিহ্যবাহী পদ্ধতি হয় গবেষণা প্রশ্ন পরিবর্তন করে, নয়তো সীমাবদ্ধ, অপরীক্ষণীয় মডেলিং অনুমানের উপর নির্ভর করে

গবেষণার তাৎপর্য

  • তাত্ত্বিক তাৎপর্য: পজিটিভিটি লঙ্ঘন পরিচালনার জন্য একটি নতুন তাত্ত্বিক কাঠামো প্রদান করে, ঐতিহ্যবাহী পদ্ধতির সীমাবদ্ধ অনুমান এড়ায়
  • ব্যবহারিক মূল্য: জনস্বাস্থ্য এবং ক্লিনিকাল গবেষণায় অনুপস্থিত ডেটা সমস্যার জন্য একটি সম্ভাব্য সমাধান প্রদান করে
  • পদ্ধতিগত উদ্ভাবন: প্রথমবারের মতো পরিসংখ্যানগত মডেল এবং গাণিতিক মডেলকে অ-পজিটিভিটি সমস্যা পরিচালনার জন্য পদ্ধতিগতভাবে একত্রিত করে

মূল অবদান

১. সমন্বিত মডেল কাঠামো প্রস্তাব করা: ডেটাকে পজিটিভিটি সন্তুষ্টি অঞ্চল এবং লঙ্ঘন অঞ্চলে বিভক্ত করে, যথাক্রমে পরিসংখ্যানগত এবং গাণিতিক মডেল ব্যবহার করে २. পুনঃনমুনা অ্যালগরিদম বিকাশ: দুটি মডেলের অনিশ্চয়তা বিবেচনা করে ভেরিয়েন্স অনুমানের পদ্ধতি প্রদান করে ३. মডেল ডায়াগনস্টিক পদ্ধতি তৈরি করা: পজিটিভিটি অঞ্চলে পরিসংখ্যানগত এবং গাণিতিক মডেলের কর্মক্ষমতা তুলনা করে পদ্ধতির কার্যকারিতা যাচাই করে ४. সম্পূর্ণ বাস্তবায়ন সমাধান প্রদান করা: R এবং Python কোড অন্তর্ভুক্ত করে, পদ্ধতির পুনরুৎপাদনযোগ্যতা এবং ব্যবহারযোগ্যতা বৃদ্ধি করে

পদ্ধতির বিস্তারিত বিবরণ

কাজের সংজ্ঞা

প্যারামিটার μ=E[Y]\mu = E[Y] অনুমান করা, যেখানে YY হল সিস্টোলিক রক্তচাপ, কিন্তু কিছু সহ-পরিবর্তনশীল মান XX এর অধীনে সম্পূর্ণভাবে অনুপস্থিত, পজিটিভিটি অনুমান Pr(R=1X=x)>0Pr(R = 1 | X = x) > 0 লঙ্ঘন করে।

মডেল আর্কিটেকচার

১. ডেটা বিভাজন কৌশল

ডেটাকে দুটি অঞ্চলে বিভক্ত করা:

  • পজিটিভিটি অঞ্চল (X=1X^* = 1): বয়স ৮-১৭ বছর, সিস্টোলিক রক্তচাপ পর্যবেক্ষণ বিদ্যমান
  • অ-পজিটিভিটি অঞ্চল (X=0X^* = 0): বয়স ২-৭ বছর, সিস্টোলিক রক্তচাপ সম্পূর্ণভাবে অনুপস্থিত

প্যারামিটার পুনর্লিখন করা যায়: E[Y]=E[YX=1]Pr(X=1)+E[YX=0]Pr(X=0)E[Y] = E[Y | X^* = 1]Pr(X^* = 1) + E[Y | X^* = 0]Pr(X^* = 0)

२. পরিসংখ্যানগত মডেল (পজিটিভিটি অঞ্চল)

পজিটিভিটি অঞ্চলে স্যাচুরেটেড মডেল ব্যবহার করা: E[YX,R=1,X=1;β]=β8I(X=8)+β9I(X=9)++β17I(X=17)E[Y | X, R = 1, X^* = 1; \beta] = \beta_8 I(X = 8) + \beta_9 I(X = 9) + \cdots + \beta_{17} I(X = 17)

g-computation পদ্ধতি প্রয়োগ করা:

  • সম্পূর্ণ ডেটার উপর ভিত্তি করে রিগ্রেশন মডেল ফিট করা
  • সমস্ত পর্যবেক্ষণের জন্য সিস্টোলিক রক্তচাপ পূর্বাভাস দেওয়া
  • নমুনা-ওজনযুক্ত গড় মূল্য গণনা করা

३. গাণিতিক মডেল (অ-পজিটিভিটি অঞ্চল)

বাহ্যিক প্রকাশিত মার্কিন শিশু-কিশোর সিস্টোলিক রক্তচাপ বিতরণ তথ্যের উপর ভিত্তি করে:

  • বয়স, লিঙ্গ, উচ্চতা শতাংশ-নির্দিষ্ট বিতরণ ব্যবহার করা
  • সাধারণ বিতরণ অনুমান করা, গড় মধ্যমার সমান
  • ৯০ শতাংশ দ্বারা অনুমানিত মান বিচ্যুতি

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. এক্সট্রাপোলেশন অনুমান এড়ানো: ঐতিহ্যবাহী রৈখিক এক্সট্রাপোলেশনের বিপরীতে, ৮-১৭ বছরের সম্পর্ক ২-৭ বছরে প্রসারিত হওয়ার অনুমান করার প্রয়োজন নেই २. নমনীয় মডেল নির্বাচন: পজিটিভিটি অঞ্চল অ-প্যারামেট্রিক পদ্ধতি ব্যবহার করতে পারে, অ-পজিটিভিটি অঞ্চল বাহ্যিক তথ্য একীভূত করে ३. অনিশ্চয়তা পরিমাণীকরণ: পুনঃনমুনা অ্যালগরিদম পরিসংখ্যানগত মডেল প্যারামিটার অনুমান এবং গাণিতিক মডেল বিতরণের অনিশ্চয়তা উভয়ই বিবেচনা করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • প্রধান ডেটা: ২০১৭-२०१८ NHANES, n=२५७२ জন २-१७ বছর বয়সী শিশু-কিশোর
  • বাহ্যিক তথ্য: Flynn এবং অন্যদের দ্বারা প্রকাশিত মার্কিন শিশু-কিশোর সিস্টোলিক রক্তচাপ বিতরণ ডেটা
  • অনুপস্থিত প্যাটার্ন: २-७ বছর বয়সী শিশুদের সিস্টোলিক রক্তচাপ সম্পূর্ণভাবে অনুপস্থিত (ডিজাইন-ভিত্তিক অনুপস্থিতি), ८-१७ বছরে ८% অনুপস্থিত

চলক সংজ্ঞা

  • ফলাফল চলক: সিস্টোলিক রক্তচাপ (mmHg), সর্বাধিক ३ বার পরিমাপের গড় মূল্য
  • সহ-পরিবর্তনশীল: বয়স (বছর), উচ্চতা (সেন্টিমিটার), ওজন (কিলোগ্রাম), লিঙ্গ
  • নমুনা ওজন: মার্কিন জনসংখ্যার অনুমানের জন্য NHANES নমুনা ওজন প্রয়োগ করা

তুলনামূলক পদ্ধতি

१. সম্পূর্ণ কেস বিশ্লেষণ: শুধুমাত্র সিস্টোলিক রক্তচাপ পরিমাপ সহ পর্যবেক্ষণ ব্যবহার করা २. রৈখিক এক্সট্রাপোলেশন: ८-१७ বছর ডেটার উপর ভিত্তি করে রৈখিক মডেল ফিট করা, २-७ বছরে এক্সট্রাপোলেট করা ३. সংবেদনশীলতা বিশ্লেষণ: २-७ বছরের গড় সিস্টোলিক রক্তচাপের জন্য ७०-१२० mmHg পরিসর সীমানা বিশ্লেষণ সেট করা

বাস্তবায়ন বিবরণ

  • পুনঃনমুনা সংখ্যা: १०,००० বার
  • আস্থা ব্যবধান: २.५% এবং ९७.५% শতাংশ ব্যবহার করে ९५% আস্থা ব্যবধান নির্মাণ করা
  • পয়েন্ট অনুমান: মধ্যমা পয়েন্ট অনুমান হিসাবে ব্যবহার করা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

পদ্ধতিগড় সিস্টোলিক রক্তচাপ (mmHg)९५% আস্থা ব্যবধান
সম্পূর্ণ কেস বিশ্লেষণ१०४.७(१०४.१, १०५.३)
রৈখিক এক্সট্রাপোলেশন१०१.६(१००.८, १०२.४)
সমন্বিত মডেল१००.५(९९.९, १०१.०)
সীমানা বিশ্লেষণ९२.७-१०९.९(९१.९, १००.५)

মূল আবিষ্কার

१. সমন্বিত মডেল ফলাফল সর্বনিম্ন: রৈখিক এক্সট্রাপোলেশনের চেয়ে १.१ mmHg কম, পার্থক্য এক্সট্রাপোলেশন পদ্ধতির মান ত্রুটির २.९ গুণ २. পদ্ধতির মধ্যে পার্থক্য পরিসংখ্যানগতভাবে উল্লেখযোগ্য: সমন্বিত মডেল এবং অন্যান্য পদ্ধতির পার্থক্য অনুমানিত অনিশ্চয়তার পরিসীমা অতিক্রম করে ३. সীমানা বিশ্লেষণ ফলাফল সমর্থন করে: সমন্বিত মডেল অনুমান মূল্য যুক্তিসঙ্গত সীমানা পরিসরের মধ্যে পড়ে

মডেল যাচাইকরণ

পজিটিভিটি অঞ্চলে পরিসংখ্যানগত এবং গাণিতিক মডেলের কর্মক্ষমতা তুলনা করে:

  • দুটি মডেল পূর্বাভাসিত সিস্টোলিক রক্তচাপ বিতরণ যুক্তিসঙ্গত ওভারল্যাপ রয়েছে
  • বয়স-নির্দিষ্ট গড় পার্থক্য শূন্যের কাছাকাছি, কিন্তু १५-१७ বছর পরিসংখ্যানগত মডেল ফলাফল গাণিতিক মডেলের চেয়ে সামান্য কম
  • সামগ্রিকভাবে পজিটিভিটি অঞ্চলে গাণিতিক মডেলের কার্যকারিতা সমর্থন করে

সম্প্রসারিত বিশ্লেষণ ফলাফল

সংযুক্তিতে আরও বেশি সহ-পরিবর্তনশীল (লিঙ্গ, উচ্চতা, ওজন) বিবেচনা করা ফলাফল:

  • সমন্বিত মডেল ফলাফল স্থিতিশীল থাকে: १००.५ (९९.९, १०१.०)
  • এক্সট্রাপোলেশন পদ্ধতি ফলাফল সমন্বিত মডেলের কাছাকাছি আসে: १००.८ (९७.७, १०३.८)
  • বর্ধিত বিপরীত সম্ভাব্যতা ওজনযুক্ত অনুমানকারী ফলাফল অনুরূপ

সম্পর্কিত কাজ

ঐতিহ্যবাহী অনুপস্থিত ডেটা পদ্ধতি

१. ইমপিউটেশন পদ্ধতি: বহুবিধ ইমপিউটেশন, সর্বাধিক সম্ভাবনা অনুমান २. ওজনকরণ পদ্ধতি: বিপরীত সম্ভাব্যতা ওজনকরণ ३. দ্বি-শক্তিশালী পদ্ধতি: বর্ধিত বিপরীত সম্ভাব্যতা ওজনযুক্ত অনুমানকারী

অ-পজিটিভিটি পরিচালনা পদ্ধতি

१. সমস্যা পরিবর্তন: গবেষণা জনসংখ্যা সীমাবদ্ধ করা পজিটিভিটি সন্তুষ্টি অঞ্চলে २. প্যারামেট্রিক এক্সট্রাপোলেশন: সীমাবদ্ধ মডেলিং অনুমান ব্যবহার করে এক্সট্রাপোলেট করা ३. সীমানা বিশ্লেষণ: সংবেদনশীলতা বিশ্লেষণ পরিসর প্রদান করা

এই কাজের অবদানের অনন্যতা

  • প্রথমবারের মতো পরিসংখ্যানগত এবং গাণিতিক মডেল পদ্ধতিগতভাবে একত্রিত করা
  • গবেষণা প্রশ্ন পরিবর্তন বা শক্তিশালী প্যারামেট্রিক অনুমান এড়ানো
  • ব্যবহারিক অনিশ্চয়তা পরিমাণীকরণ পদ্ধতি প্রদান করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. সমন্বিত মডেল কার্যকারিতা: অ-পজিটিভিটি অঞ্চল সহ মোট জনসংখ্যা প্যারামিটার সফলভাবে অনুমান করা २. পদ্ধতি সুবিধা: ঐতিহ্যবাহী পদ্ধতির সীমাবদ্ধ অনুমান এড়ানো, আরও যুক্তিসঙ্গত অনুমান প্রদান করা ३. ব্যবহারিক মূল্য: ডিজাইন-ভিত্তিক অনুপস্থিতি বা পদ্ধতিগত অনুপস্থিতি পরিচালনার জন্য সম্ভাব্য সমাধান প্রদান করা

সীমাবদ্ধতা

१. ভেরিয়েন্স অনুমান: NHANES এর ক্লাস্টার নমুনা ডিজাইন বিবেচনা করা হয়নি, অনিশ্চয়তা কম অনুমান করা যেতে পারে २. গাণিতিক মডেল জটিলতা: বর্তমানে তুলনামূলক সহজ মডেল ব্যবহার করা হয়, জটিল পরিস্থিতি মধ্যবর্তী প্রক্রিয়া মডেলিং প্রয়োজন হতে পারে ३. বাহ্যিক তথ্য নির্ভরতা: পদ্ধতির কার্যকারিতা বাহ্যিক তথ্যের নির্ভুলতা এবং প্রযোজ্যতার উপর নির্ভর করে ४. বহু-পরিবর্তনশীল অ-পজিটিভিটি: একাধিক চলক একযোগে অ-পজিটিভিটি থাকলে প্রয়োগ আরও গবেষণা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. জটিল গাণিতিক মডেল: ওষুধের ঘনত্ব, শারীরবৃত্তীয় প্রতিক্রিয়া ইত্যাদি জটিল প্রক্রিয়া পরিচালনার জন্য মডেল বিকাশ করা २. ভেরিয়েন্স অনুমান উন্নতি: ক্লাস্টার সহ জটিল নমুনা ডিজাইন বিবেচনা করতে পুনঃনমুনা অ্যালগরিদম প্রসারিত করা ३. বহু-মাত্রিক অ-পজিটিভিটি: একাধিক চলক একযোগে অ-পজিটিভিটি থাকার পরিস্থিতি গবেষণা করা ४. ডায়াগনস্টিক পদ্ধতি পরিমার্জন: মডেল কার্যকারিতা ডায়াগনস্টিক্সের জন্য আরও ব্যাপক পদ্ধতি বিকাশ করা

গভীর মূল্যায়ন

সুবিধা

१. পদ্ধতি উদ্ভাবন শক্তিশালী: প্রথমবারের মতো পরিসংখ্যানগত এবং গাণিতিক মডেল পদ্ধতিগতভাবে অ-পজিটিভিটি পরিচালনার জন্য একত্রিত করা २. তাত্ত্বিক ভিত্তি দৃঢ়: কার্যকারণ অনুমান এবং অনুপস্থিত ডেটা তত্ত্বের দৃঢ় ভিত্তির উপর ভিত্তি করে ३. ব্যবহারযোগ্যতা বিশিষ্ট: সম্পূর্ণ বাস্তবায়ন কোড এবং বিস্তারিত অ্যালগরিদম বর্ণনা প্রদান করা ४. যাচাইকরণ পর্যাপ্ত: একাধিক তুলনামূলক পদ্ধতি এবং ডায়াগনস্টিক পদ্ধতি দ্বারা পদ্ধতি কার্যকারিতা যাচাই করা

অপূর্ণতা

१. বাহ্যিক তথ্য প্রয়োজনীয়তা: পদ্ধতি সাফল্য উচ্চ মানের বাহ্যিক তথ্যের প্রাপ্যতার উপর নির্ভর করে २. গণনামূলক জটিলতা: পুনঃনমুনা প্রোগ্রাম গণনামূলক বোঝা বৃদ্ধি করে ३. প্রয়োগযোগ্যতা পরিসর সীমাবদ্ধতা: প্রধানত নির্ভরযোগ্য বাহ্যিক তথ্য থাকা পরিস্থিতিতে প্রয়োগযোগ্য ४. তাত্ত্বিক গ্যারান্টি: পদ্ধতির অ্যাসিম্পটোটিক বৈশিষ্ট্য সম্পর্কে তাত্ত্বিক বিশ্লেষণের অভাব

প্রভাব মূল্যায়ন

१. একাডেমিক অবদান: পরিসংখ্যান এবং মহামারী বিজ্ঞান ক্ষেত্রে গুরুত্বপূর্ণ পদ্ধতিগত অবদান প্রদান করা २. ব্যবহারিক মূল্য: জনস্বাস্থ্য গবেষণায় সাধারণ ডিজাইন-ভিত্তিক অনুপস্থিতি সমস্যায় সরাসরি প্রয়োগযোগ্যতা রয়েছে ३. পুনরুৎপাদনযোগ্যতা: প্রদত্ত কোড এবং বিস্তারিত বর্ণনা পদ্ধতির পুনরুৎপাদনযোগ্যতা নিশ্চিত করে ४. প্রচার সম্ভাবনা: পদ্ধতি কাঠামো অ-পজিটিভিটি থাকা অন্যান্য গবেষণা ক্ষেত্রে প্রসারিত করা যায়

প্রয়োগযোগ্য পরিস্থিতি

१. ডিজাইন-ভিত্তিক অনুপস্থিতি: যেমন বয়স সীমাবদ্ধতা, নৈতিক বিবেচনা দ্বারা সৃষ্ট পদ্ধতিগত অনুপস্থিতি २. বাহ্যিক তথ্য সমৃদ্ধ: নির্ভরযোগ্য বাহ্যিক গবেষণা বা পূর্ব জ্ঞান বিদ্যমান ३. প্যারামিটার অনুমান: প্রধানত মোট জনসংখ্যা প্যারামিটার অনুমানের জন্য প্রয়োগযোগ্য ব্যক্তিগত পূর্বাভাসের জন্য নয় ४. জনস্বাস্থ্য গবেষণা: বিশেষত বৃহৎ-আকারের মহামারী বিজ্ঞান সমীক্ষায় অনুপস্থিত ডেটা সমস্যার জন্য উপযুক্ত

তথ্যসূত্র

পেপারটি সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ সাহিত্য উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • Cole এবং অন্যদের দ্বারা মহামারী বিজ্ঞান গবেষণায় অনুপস্থিত ফলাফল ডেটার সমীক্ষা
  • Westreich এবং Cole দ্বারা পজিটিভিটি অনুশীলন সম্পর্কে মন্তব্য
  • Petersen এবং অন্যদের দ্বারা পজিটিভিটি অনুমান লঙ্ঘনের ডায়াগনস্টিক্স এবং প্রতিক্রিয়া
  • Flynn এবং অন্যদের দ্বারা শিশু-কিশোর রক্তচাপ স্ক্রীনিং এবং ব্যবস্থাপনার ক্লিনিকাল অনুশীলন নির্দেশিকা