2025-11-11T11:34:09.241880

LUME-DBN: Full Bayesian Learning of DBNs from Incomplete data in Intensive Care

Pirola, Stella, Grzegorczyk
Dynamic Bayesian networks (DBNs) are increasingly used in healthcare due to their ability to model complex temporal relationships in patient data while maintaining interpretability, an essential feature for clinical decision-making. However, existing approaches to handling missing data in longitudinal clinical datasets are largely derived from static Bayesian networks literature, failing to properly account for the temporal nature of the data. This gap limits the ability to quantify uncertainty over time, which is particularly critical in settings such as intensive care, where understanding the temporal dynamics is fundamental for model trustworthiness and applicability across diverse patient groups. Despite the potential of DBNs, a full Bayesian framework that integrates missing data handling remains underdeveloped. In this work, we propose a novel Gibbs sampling-based method for learning DBNs from incomplete data. Our method treats each missing value as an unknown parameter following a Gaussian distribution. At each iteration, the unobserved values are sampled from their full conditional distributions, allowing for principled imputation and uncertainty estimation. We evaluate our method on both simulated datasets and real-world intensive care data from critically ill patients. Compared to standard model-agnostic techniques such as MICE, our Bayesian approach demonstrates superior reconstruction accuracy and convergence properties. These results highlight the clinical relevance of incorporating full Bayesian inference in temporal models, providing more reliable imputations and offering deeper insight into model behavior. Our approach supports safer and more informed clinical decision-making, particularly in settings where missing data are frequent and potentially impactful.
academic

LUME-DBN: التعلم البايزي الكامل للشبكات البايزية الديناميكية من البيانات غير المكتملة في العناية المركزة

المعلومات الأساسية

  • معرّف الورقة: 2511.04333
  • العنوان: LUME-DBN: Full Bayesian Learning of DBNs from Incomplete data in Intensive Care
  • المؤلفون: فيديريكو بيرولا (جامعة ميلانو-بيكوكا)، فابيو ستيلا (جامعة ميلانو-بيكوكا)، ماركو جرزيجورتشيك (جامعة جرونينجن)
  • التصنيف: cs.LG (التعلم الآلي)، cs.AI (الذكاء الاصطناعي)
  • تاريخ النشر: 6 نوفمبر 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2511.04333

الملخص

تُستخدم الشبكات البايزية الديناميكية (DBNs) بشكل متزايد في مجال الرعاية الصحية لقدرتها على نمذجة العلاقات الزمنية المعقدة في بيانات المرضى مع الحفاظ على القابلية للتفسير—وهي ميزة حاسمة للقرارات السريرية. ومع ذلك، فإن الطرق الحالية للتعامل مع القيم المفقودة في مجموعات البيانات السريرية الطولية مستمدة بشكل أساسي من أدبيات الشبكات البايزية الثابتة، وتفشل في الأخذ في الاعتبار الطبيعة الزمنية للبيانات بشكل مناسب. يحد هذا الفجوة من القدرة على تحديد كمية عدم اليقين الزمني، وهو أمر حاسم بشكل خاص في سياقات مثل العناية المركزة حيث يكون فهم الديناميكيات الزمنية ضروريًا لموثوقية النموذج وقابليته للتطبيق عبر مجموعات المرضى المختلفة. تقترح هذه الورقة طريقة جديدة قائمة على أخذ عينات جيبس للتعلم من الشبكات البايزية الديناميكية من البيانات غير المكتملة، حيث يتم التعامل مع كل قيمة مفقودة كمعامل غير معروف يتبع توزيعًا غاوسيًا، مع تحقيق الإسناد المبدئي وتقدير عدم اليقين من خلال أخذ عينات من التوزيعات الشرطية الكاملة.

السياق البحثي والدافع

المشكلة الأساسية

تتمثل المشكلة الأساسية التي تعالجها هذه الدراسة في كيفية التعلم الفعال للشبكات البايزية الديناميكية في وجود كمية كبيرة من البيانات المفقودة، خاصة في تطبيقات بيئة العناية المركزة.

أهمية المشكلة

  1. الإلحاح السريري: في وحدة العناية المركزة، يعتبر التقييم السريع والدقيق لتطور حالة المريض حاسمًا لتوجيه التدخلات
  2. تحديات جودة البيانات: غالبًا ما تعاني بيانات وحدة العناية المركزة من القيم المفقودة والأخذ غير المنتظم والانحرافات في القياس
  3. تحديد كمية عدم اليقين: لا تستطيع الطرق التقليدية الأخذ في الاعتبار بشكل كافٍ عدم اليقين الناجم عن القيم المفقودة، مما قد يؤدي إلى انحياز في تقدير المعاملات

قيود الطرق الموجودة

  1. العمى الزمني للطرق الثابتة: تنبع طرق معالجة البيانات المفقودة الموجودة بشكل أساسي من الشبكات البايزية الثابتة، ولا تأخذ في الاعتبار الطبيعة الزمنية
  2. قصور الطرق التكرارية: قد تفشل الطرق التقليدية للإسناد أو الطرق التكرارية في الأخذ في الاعتبار بشكل كافٍ عدم اليقين الناجم عن القيم المفقودة
  3. مشكلة الحد الأدنى المحلي: قد تتقارب خوارزميات مثل تعظيم التوقع الهيكلي (SEM) إلى حد أدنى محلي

الدافع البحثي

تطوير إطار عمل بايزي كامل يمكنه التعامل بشكل متزامن مع عدم اليقين في هيكل الشبكة والمعاملات والقيم المفقودة، مما يوفر دعمًا أكثر موثوقية للقرارات السريرية.

المساهمات الأساسية

  1. المساهمة النظرية: اشتقاق حلول مغلقة للتوزيعات الشرطية الكاملة (FCDs) للقيم المفقودة في الشبكات البايزية الديناميكية، مما يثبت قابليتها للمعالجة
  2. الابتكار المنهجي: اقتراح خوارزمية LUME-DBN التي تجمع بين أخذ عينات جيبس لإسناد البيانات المفقودة وتعلم الهيكل بواسطة MCMC
  3. التحقق التجريبي: التحقق من فعالية الطريقة على البيانات المحاكاة والبيانات الحقيقية من وحدة العناية المركزة، مما يظهر دقة إعادة البناء المتفوقة مقارنة بطرق مثل MICE
  4. التطبيق السريري: عرض الطريقة على مجموعة بيانات PhysioNet 2012 لإظهار العلاقات الزمنية ذات المعنى المكتشفة عبر أنواع وحدات العناية المركزة المختلفة

شرح الطريقة

تعريف المهمة

الإدخال: بيانات السلاسل الزمنية متعددة المتغيرات التي تحتوي على قيم مفقودة DRN×k×(T+1)D \in \mathbb{R}^{N \times k \times (T+1)}، حيث NN هو عدد العينات، kk هو عدد المتغيرات، و(T+1)(T+1) هو عدد نقاط الزمن

الإخراج: عينات من التوزيعات اللاحقة لهيكل الشبكة البايزية الديناميكية والمعاملات والقيم المفقودة

القيود: افتراض خاصية ماركوف من الدرجة الأولى وعدم وجود تأثيرات فورية

معمارية النموذج

الإطار الأساسي للشبكات البايزية الديناميكية

يتم نمذجة الشبكة البايزية الديناميكية كـ kk من نماذج الانحدار الخطي البايزي المستقلة (BLR):

xit=β0(i)+j:(Xjt1π(i))βj(i)xjt1+ϵitx_i^t = \beta_0^{(i)} + \sum_{j:(X_j^{t-1} \in \pi(i))} \beta_j^{(i)} x_j^{t-1} + \epsilon_i^t

حيث π(i)\pi(i) يمثل مجموعة العقد الأب للمتغير XiX_i، وϵitN(0,σ(i)2)\epsilon_i^t \sim N(0, \sigma^2_{(i)}).

تحديد التوزيعات السابقة

  • معاملات الانحدار: β(i)N(μ(i),σ(i)2δ(i)2I)\beta^{(i)} \sim N(\mu^{(i)}, \sigma^2_{(i)}\delta^2_{(i)}I)
  • معاملات الضوضاء: σ(i)2Inv-Gamma(a,b)\sigma^2_{(i)} \sim \text{Inv-Gamma}(a, b)
  • معاملات عدم اليقين: δ(i)2Inv-Gamma(αδ,βδ)\delta^2_{(i)} \sim \text{Inv-Gamma}(\alpha_\delta, \beta_\delta)
  • حجم مجموعة العقد الأب: π(i)Poisson(λ)|\pi(i)| \sim \text{Poisson}(\lambda)

التوزيع الشرطي الكامل للقيم المفقودة

بالنسبة للقيمة المفقودة xit[MIS]x_i^t[MIS] للمتغير XiX_i في الوقت tt، يكون التوزيع الشرطي الكامل (FCD):

P(xit[MIS])=N(μ,σ2)P(x_i^t[MIS] | \cdot) = N(\mu_*, \sigma^2_*)

حيث: σ2=(1σ(i)2+j:(Xitπ(j))(βi(j))2σ(j)2)1\sigma^2_* = \left(\frac{1}{\sigma^2_{(i)}} + \sum_{j:(X_i^t \in \pi(j))} \frac{(\beta_i^{(j)})^2}{\sigma^2_{(j)}}\right)^{-1}

μ=σ2(μitσ(i)2+j:(Xitπ(j))βi(j)(xjt+1μ{i}(j)(t+1))σ(j)2)\mu_* = \sigma^2_* \cdot \left(\frac{\mu_i^t}{\sigma^2_{(i)}} + \sum_{j:(X_i^t \in \pi(j))} \frac{\beta_i^{(j)}(x_j^{t+1} - \mu_{{\{-i\}}}^{(j)(t+1)})}{\sigma^2_{(j)}}\right)

نقاط الابتكار التقني

  1. استراتيجية الإسناد الموحدة: تصميم خطوة جيبس لتحديث القيم المفقودة بشكل مشترك عبر جميع نماذج الانحدار
  2. اشتقاق الحل المغلق: إثبات قابلية معالجة التوزيع الشرطي الكامل للقيم المفقودة، مما يتيح الاستدلال الفعال بـ MCMC
  3. عدم التغير الزمني: هيكل التوزيع الشرطي الكامل ثابت بالنسبة لمعاملات الشبكة البايزية الديناميكية، مما يحسن الكفاءة الحسابية
  4. الهروب من الحد الأدنى المحلي: يمكن لأخذ عينات MCMC الهروب من الحد الأدنى المحلي والحصول على إعادة بناء شبكة أكثر دقة

إعداد التجارب

مجموعات البيانات

البيانات المحاكاة

  • الهيكل: 10 هياكل شبكات بايزية ديناميكية مستقلة بـ 10 عقد، مع ما يصل إلى 5 عقد أب لكل عقدة
  • الطول الزمني: T{50,100,200}T \in \{50, 100, 200\}
  • معدل القيم المفقودة: {10%,20%,30%,40%}\{10\%, 20\%, 30\%, 40\%\}
  • تحديد المعاملات: يتم أخذ معاملات الانحدار من Uniform[0.2,0.8]\text{Uniform}[0.2, 0.8]، وتباين الضوضاء σ2=1\sigma^2 = 1

البيانات الحقيقية

  • مصدر البيانات: مجموعة بيانات تحدي PhysioNet 2012
  • عدد المرضى: أكثر من 20,000 مريض بالغ في وحدة العناية المركزة
  • نافذة زمنية: أول 48 ساعة من الإقامة في وحدة العناية المركزة
  • عدد المتغيرات: 11 متغيرًا سريريًا (العلامات الحيوية، مؤشرات الدم، الخصائص الفسيولوجية)
  • تجميع وحدة العناية المركزة: MICU (34 حالة)، SICU (104 حالات)، CCU (114 حالة)، CSRU (62 حالة)

مؤشرات التقييم

  • إعادة بناء الهيكل: المساحة تحت منحنى الدقة والاستدعاء (AUC-PR)
  • تشخيص التقارب: عامل تقليل الحجم المحتمل (PSRF < 1.1)
  • الدلالة الإحصائية: اختبار t المقترن

طرق المقارنة

  • MICE: المعادلات المتسلسلة متعددة الإسناد
  • Temporal MICE: متغير MICE الزمني باستخدام المتغيرات المتأخرة
  • البيانات الكاملة: كمرجع للحد الأعلى للأداء

تفاصيل التنفيذ

  • عدد جولات الأخذ: 20,000 جولة، مع أول 5,000 جولة كـ burn-in
  • تكرار تحديث القيم المفقودة: تحديث مرة واحدة كل 10 جولات (EM=10E_M = 10)
  • تخفيف السلسلة: الاحتفاظ بعينة واحدة من كل 5 عينات لتقليل الارتباط الذاتي
  • معاملات التوزيع السابق: λ=1\lambda = 1, σ(i)2=δ(i)2=1\sigma^2_{(i)} = \delta^2_{(i)} = 1

نتائج التجارب

النتائج الرئيسية

نتائج البيانات المحاكاة

تتفوق LUME-DBN بشكل كبير على طرق الأساس في جميع إعدادات التجارب:

  1. أداء MICE: فشل تام عندما يتجاوز معدل القيم المفقودة 20%، مما يعكس عدم فعاليتها على البيانات الزمنية
  2. Temporal MICE: أداء أفضل من MICE لكن لا تزال أقل بكثير من LUME-DBN
  3. مزايا LUME-DBN: تتفوق بشكل خاص في معدلات القيم المفقودة العالية، مع خسارة أداء أقل مقارنة بالبيانات الكاملة في الحالات ذات العينات الكبيرة

تحليل التقارب

  • تقارب الهيكل: التقارب في غضون 1.5k جولة في جميع معدلات القيم المفقودة
  • تقارب القيم المفقودة: يتطلب 5k جولة عند معدل قيم مفقودة بنسبة 40%
  • استقرار التقارب: يزداد وقت التقارب مع زيادة معدل القيم المفقودة، لكن يتحقق التقارب في النهاية

تحليل بيانات وحدة العناية المركزة

العلاقات السريرية المكتشفة

  1. حلقات التنظيم الذاتي: اتصالات قوية داخل معاملات الضغط (MAP, Sys, Dias) والمتغيرات المتعلقة بالتنفس (FiO2, PaCO2, PaO2, pH)
  2. التفاعلات العصبية: انخفاض مستوى الوعي يؤدي إلى زيادة معدل ضربات القلب (CCU حيث GCS → HR)
  3. التأثيرات الديناميكية الدموية: ضغط الدم يؤثر بقوة على مستوى الوعي (في المرضى الطبيين Dias,MAP → GCS)
  4. ديناميكيات تنظيم درجة الحرارة: تغييرات درجة الحرارة أثناء التعافي الجراحي تؤثر على كمية البول (Temp → Urine)
  5. ردود الفعل القلبية الرئوية: مستويات الأكسجين المنخفضة تثير زيادة تعويضية في معدل ضربات القلب (FiO2 → HR)

التأثيرات المعيارية

  • التوحيد المحلي: اكتشاف المزيد من العلاقات الخاصة بوحدة العناية المركزة
  • التوحيد العام: تظهر الشبكة المزيد من القواسم المشتركة، لكن بعض العلاقات تفتقر إلى الدعم السريري

الأعمال ذات الصلة

البيانات المفقودة في الشبكات البايزية الثابتة

  • خوارزمية SEM: متغير Hard EM فعال مع البيانات المحدودة، لكنه عرضة للعلق في الحد الأدنى المحلي
  • طرق MCMC: طرق الأخذ الحديثة يمكنها الهروب من الحد الأدنى المحلي والحصول على إعادة بناء أكثر دقة

الشبكات البايزية الديناميكية

  • الطرق الموجودة: تستخدم بشكل أساسي طرقًا مستقلة عن النموذج مثل MICE للتعامل مع البيانات المفقودة
  • مساهمة هذه الورقة: أول توسيع لطرق الأخذ إلى معالجة البيانات المفقودة في الشبكات البايزية الديناميكية

التطبيقات السريرية

  • التنبؤ بفشل الأعضاء: استخدام الشبكات البايزية الديناميكية للتنبؤ بمسارات فشل الأعضاء
  • التنبؤ بالتغييرات الفسيولوجية: التنبؤ بالتغييرات الفسيولوجية وخطر الوفيات
  • دعم القرار: توفير دعم قرار قابل للتفسير

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. فعالية الطريقة: تتفوق LUME-DBN على الطرق الموجودة في كل من إعادة بناء الهيكل وإسناد القيم المفقودة
  2. الصلة السريرية: تتمتع العلاقات الزمنية المكتشفة بأهمية سريرية وتدعم القرارات السريرية الأكثر أمانًا
  3. تحديد كمية عدم اليقين: يوفر الإطار البايزي الكامل ترميزًا صريحًا لعدم اليقين في النموذج والمعاملات والقيم المفقودة

القيود

  1. التعقيد الحسابي: تتطلب عينات MCMC تكاليف حسابية عالية، مما يتطلب تحسينات التوازي
  2. افتراض القيم المفقودة عشوائيًا: تتعامل الطريقة الحالية فقط مع القيم المفقودة عشوائيًا، وتتطلب أنماط القيم المفقودة غير العشوائية في البيانات السريرية مزيدًا من البحث
  3. قيود حجم العينة: قد تكون بعض العلاقات غير مستقرة بدرجة كافية في حالات العينات الصغيرة
  4. المعرفة السابقة: الحاجة إلى دمج أفضل للمعرفة السريرية السابقة لتوجيه الاستدلال

الاتجاهات المستقبلية

  1. معالجة MNAR: دمج طرق الرسم البياني المفقود للتعامل مع أنماط القيم المفقودة غير العشوائية
  2. الشبكات البايزية الديناميكية غير المتجانسة: التوسع إلى الشبكات البايزية الديناميكية المقترنة عالميًا غير المتجانسة لالتقاط العلاقات غير الثابتة
  3. المتغيرات المختلطة: التعامل مع أنواع المتغيرات المختلطة المستمرة والمنفصلة
  4. التطبيقات في الوقت الفعلي: تطوير أنظمة دعم القرار السريري في الوقت الفعلي

التقييم المتعمق

المزايا

  1. الصرامة النظرية: اشتقاق كامل للحلول المغلقة للتوزيعات الشرطية الكاملة للقيم المفقودة، مع أساس نظري متين
  2. الابتكار المنهجي: أول تطبيق للطريقة البايزية الكاملة على تعلم الشبكات البايزية الديناميكية من البيانات المفقودة
  3. كفاية التجارب: تتضمن التحقق من البيانات المحاكاة والحقيقية، وتغطي معدلات قيم مفقودة وأحجام عينات مختلفة
  4. الصلة السريرية: تتمتع العلاقات المكتشفة بأهمية سريرية، مما يتحقق من القيمة العملية للطريقة
  5. إمكانية إعادة الإنتاج: توفير وصف خوارزمي كامل وكود مفتوح المصدر

أوجه القصور

  1. الكفاءة الحسابية: عدم توفير تحليل تفصيلي لأوقات الحساب واستراتيجيات التحسين
  2. المقارنة مع الطرق التكرارية: نقص المقارنة مع طرق تعلم الشبكات البايزية الديناميكية الكلاسيكية التكرارية
  3. تحليل حساسية المعاملات: تحليل غير كافٍ لحساسية اختيار المعاملات الفائقة
  4. قابلية التوسع: الأداء على الشبكات الأكبر حجمًا غير معروف

التأثير

  1. المساهمة الأكاديمية: توفير إطار نظري جديد لمعالجة البيانات المفقودة في الشبكات البايزية الديناميكية
  2. القيمة العملية: آفاق تطبيق مهمة في المجالات الحرجة مثل الرعاية الصحية
  3. عمومية الطريقة: قابلة للتوسع إلى مجالات أخرى تتطلب معالجة البيانات المفقودة في السلاسل الزمنية

السيناريوهات المناسبة

  1. الرعاية الصحية: مراقبة وحدة العناية المركزة، إدارة الأمراض المزمنة، تحليل التجارب السريرية
  2. المالية: نمذجة المخاطر في السلاسل الزمنية، التنبؤ بالسوق
  3. الصناعة: مراقبة صحة المعدات، التحكم في الجودة
  4. البيئة: نمذجة المناخ، مراقبة التلوث

المراجع

تستشهد الورقة بـ 42 مرجعًا ذا صلة، تغطي تعلم الشبكات البايزية ومعالجة البيانات المفقودة والمعلوماتية الطبية وغيرها من المجالات المهمة، مما يوفر أساسًا نظريًا متينًا للبحث.


التقييم الشامل: هذه ورقة عالية الجودة ذات ابتكار مهم من حيث المنهجية، لا تحقق فقط اختراقات نظرية بل تظهر أيضًا قيمة في التطبيقات العملية. على الرغم من وجود مجال للتحسين من حيث الكفاءة الحسابية ومقارنة الطرق، فإن مساهماتها كافية لدفع تطور هذا المجال.