2025-11-11T14:46:09.738382

Hierarchical Bayesian Flow Networks for Molecular Graph Generation

Xiong, Chen, Li et al.
Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.
academic

شبكات بايزية تدفقية هرمية لتوليد الرسوم البيانية الجزيئية

المعلومات الأساسية

  • معرّف الورقة: 2510.10211
  • العنوان: Hierarchical Bayesian Flow Networks for Molecular Graph Generation
  • المؤلفون: Yida Xiong, Jiameng Chen, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu (كلية الحاسوب، جامعة ووهان)
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 11 أكتوبر 2025 (نسخة arXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2510.10211

الملخص

يعتبر توليد الرسوم البيانية الجزيئية بطبيعته مشكلة توليد تصنيفية، تهدف إلى التنبؤ بفئات الذرات والروابط الكيميائية. تعامل نماذج الانتشار المستمرة السائدة حالياً عملية التدريب كمهمة انحدار، مما يتنبأ بقيم رقمية مستمرة، لكنها تتطلب تحويلاً من خلال عملية التقريب لتحويلها إلى فئات تصنيفية منفصلة عند التوليد النهائي. نظراً لأن عملية التدريب لا تتضمن عملية التقريب، يوجد اختلاف كبير بين هدف تدريب النموذج وعملية الاستدلال، مما يؤدي إلى الإفراط في التدريب وانخفاض كفاءة التعلم وتقليل التنوع الجزيئي. لحل هذا القيد الأساسي، يقترح المؤلفون GraphBFN، وهو إطار عمل هرمي من الخشن إلى الدقيق قائم على شبكات بايزية تدفقية، يقدم بشكل مبتكر دالة التوزيع التراكمي لحساب احتمالية اختيار الفئة الصحيحة، وبالتالي توحيد هدف التدريب مع عملية التقريب في أثناء الأخذ العينات.

خلفية البحث والدافع

المشكلة الأساسية

يوجد مشكلة عدم اتساق أساسية بين التدريب والاستدلال في توليد الرسوم البيانية الجزيئية:

  1. مرحلة التدريب: تقوم نماذج الانتشار المستمرة بتعيين فئات الذرات/الروابط المنفصلة إلى فضاء مستمر، وتحسين التنبؤات الرقمية المستمرة من خلال خسارة الانحدار
  2. مرحلة الاستدلال: تتطلب تحويل التنبؤات المستمرة إلى فئات منفصلة من خلال التقريب الصارم
  3. عدم الاتساق: لا يأخذ التدريب في الاعتبار قواعد التقريب، مما يؤدي إلى تركيز النموذج على التغييرات داخل الفئة بدلاً من الطبيعة المنفصلة

أهمية المشكلة

  • يعتبر توليد الرسوم البيانية الجزيئية تقنية أساسية في اكتشاف الأدوية، مما يؤثر على تحسين الجزيئات والتنبؤ بتقاربية الربط بين الدواء والهدف والمهام اللاحقة
  • يؤدي عدم الاتساق في الطرق الموجودة إلى تقليل التنوع الجزيئي وتحديد القدرة على التعميم
  • حتى الأخطاء الانحدارية الصغيرة قد تؤدي إلى نتائج تصنيفية خاطئة تماماً

قيود الطرق الموجودة

  1. نماذج الانتشار المنفصلة: على الرغم من أنها مناسبة لهياكل الرسوم البيانية المنفصلة، إلا أنها تضحي بسلاسة التمثيل المستمر والتوليد الديناميكي
  2. نماذج الانتشار المستمرة: ينفصل هدف التدريب عن عملية الاستدلال، مما يسهل الإفراط في التدريب على التغييرات غير ذات الصلة داخل الفئة
  3. شبكات بايزية تدفقية تقليدية: تفترض أن جميع الفئات متساوية المسافة في البسيط الاحتمالي، مما يؤدي إلى تقارب بطيء وضوضاء أكبر

المساهمات الأساسية

  1. تطبيق أول لشبكات بايزية تدفقية على توليد الرسوم البيانية الجزيئية، مع تحسين التأثير من خلال الإشراف على التمثيل الجزيئي الهرمي
  2. إدخال مبتكر لدالة التوزيع التراكمي (CDF)، لحساب احتمالية الفئات بدلاً من ملاءمة قيم محددة، وتوحيد هدف التدريب مع عملية التقريب في أثناء الأخذ العينات
  3. اقتراح إطار عمل هرمي من الخشن إلى الدقيق، يلتقط الاتصالية الذرية المحلية والطوبولوجيا الجزيئية العالمية من خلال تمثيلات الرسوم البيانية متعددة الأحجام
  4. تحقيق تدريب وأخذ عينات أسرع، مع تحقيق أداء متقدم جديد على معايير QM9 و ZINC250k، مع تقليل كبير في خطوات الأخذ العينات

شرح الطريقة

تعريف المهمة

بالنظر إلى الرسم البياني الجزيئي G=(X,A)G = (X, A)، حيث:

  • X{0,,KX1}DX \in \{0, \ldots, K_X - 1\}^D: مصفوفة خصائص DD ذرة، من فئات KXK_X
  • A{0,,KA1}D×DA \in \{0, \ldots, K_A - 1\}^{D \times D}: مصفوفة المجاورة، تحتوي على خصائص فئات الروابط KAK_A

الهدف هو تعلم توليد رسوم بيانية جزيئية جديدة تتوافق مع التوزيع الجزيئي الحقيقي.

معمارية النموذج

1. الإطار الهرمي من الخشن إلى الدقيق

  • التمثيل متعدد الأحجام: استخدام DiffPool لبناء طبقات تخشين LL، مما ينتج تمثيل هرمي للرسم البياني الجزيئي
  • التوليد من الأسفل إلى الأعلى: البدء بالتوليد غير المشروط من الطبقة الأخشن، مع التحسين التدريجي إلى الرسم البياني الذري الكامل
  • نقل الشروط: وحدة الأخذ العينات الزائدة ϕ1(l)\phi_1^{(l)} في كل طبقة تحول مخرجات الطبقة الخشنة إلى شروط الطبقة الدقيقة c(l)c^{(l)}

2. تعيين التمثيل الرسومي

تعيين الفئات المنفصلة k{0,,K1}k \in \{0, \ldots, K-1\} إلى الفضاء المستمر [1,1][-1, 1]:

k_c = (2k + 1)/K - 1  # نقطة المركز
k_l = k_c - 1/K       # الحد الأيسر
k_r = k_c + 1/K       # الحد الأيمن

3. مكونات الشبكة البايزية التدفقية

التوزيع الإدخالي: نمذجة باستخدام التوزيع الغاوسي

p_I(G|θ) = N(G|μ, ρ^{-1}I)

توزيع الإرسال: إضافة ضوضاء غاوسية

p_S(Y|G; α) = N(Y|G, α^{-1}I)

توزيع الإخراج: حساب الاحتمالية المنفصلة من خلال CDF

p_O^{(d)}(k|θ; t) = F(k_r|μ_x^{(d)}, σ_x^{(d)}) - F(k_l|μ_x^{(d)}, σ_x^{(d)})

توزيع الاستقبال:

p_R(Y|θ; t, α) = ∏_{d=1}^D ∑_{k=0}^{K-1} p_O^{(d)}(k|θ; t)N(Y^{(d)}|k_c, α^{-1})

4. الابتكار الرئيسي: آلية CDF

استخدام دالة التوزيع التراكمي المقطوعة لربط التوزيع المستمر بالفئات المنفصلة:

F(x|μ_x^{(d)}, σ_x^{(d)}) = {
  0,                    if x ≤ -1
  1,                    if x ≥ 1  
  1/2[1 + erf((x-μ_x^{(d)})/(√2σ_x^{(d)}))], otherwise
}

نقاط الابتكار التقني

  1. اتساق التدريب والاستدلال: يحسب CDF احتمالية الفئات المنفصلة مباشرة، مما يتجنب عدم التطابق بين التنبؤ المستمر والتقريب المنفصل
  2. تعيين الفئات غير المتساوية المسافة: بخلاف افتراض BFN التقليدي للفئات المتساوية المسافة، يسمح بتقارب أسرع وأكثر سلاسة
  3. الإشراف متعدد الأحجام: يوفر الإطار الهرمي معلومات هيكلية بدقة مختلفة، مما يحسن جودة التوليد
  4. التحسين من النهاية إلى النهاية: دالة خسارة موحدة تحسن خسارة توليد BFN وخسارة التجميع في نفس الوقت

إعداد التجارب

مجموعات البيانات

  • QM9: مجموعة بيانات الكيمياء الكمية تحتوي على 134 ألف جزيء صغير
  • ZINC250k: مجموعة بيانات جزيئية شبيهة بالعقاقير تحتوي على 250 ألف جزيء نسبياً أكبر

مؤشرات التقييم

  • الصحة بدون تصحيح: نسبة الجزيئات الصحيحة بدون تصحيح
  • التفرد: نسبة تفرد الجزيئات المولدة
  • FCD (مسافة Fréchet ChemNet): المسافة بين مجموعة التدريب والمجموعة المولدة باستخدام ميزات ChemNet
  • NSPDK MMD: أقصى فرق متوسط نواة المسافة الثنائية للرسم البياني الجزئي للحي مع الأخذ في الاعتبار ميزات الذرات والروابط

طرق المقارنة

تشمل عدة خطوط أساس متقدمة:

  • نماذج التدفق: MoFlow
  • نماذج الانتشار: EDP-GNN, GDSS, DiGress, GSDM
  • مطابقة التدفق: Dirichlet FM, CatFlow
  • نماذج الطاقة: GraphEBM

تفاصيل التنفيذ

  • خطوات الأخذ العينات: يستخدم GraphBFN خطوات 100×L (L هو عدد الطبقات)، أقل بكثير من خطوط الأساس 400-1000
  • معاملات توازن الخسارة متعددة الأحجام: λ₁, λ₂
  • حد الوقت الأدنى: t_min = 10⁻⁵

نتائج التجارب

النتائج الرئيسية

الطريقةQM9 Val.↑QM9 Unique↑QM9 FCD↓QM9 NSPDK↓ZINC250k Val.↑ZINC250k Unique↑ZINC250k FCD↓ZINC250k NSPDK↓خطوات الأخذ العينات
GDSS95.7298.462.5650.003397.1299.6414.0320.01921000
CatFlow99.8199.950.4410.002999.21100.0013.2110.0207-
GraphBFN99.6099.970.2140.000896.00100.005.7430.0069100×L

النتائج الرئيسية:

  • تحسن مؤشر FCD بنسبة 51.5%، وتحسن مؤشر NSPDK بنسبة 72.4%
  • تحقيق أفضل أداء مع خطوات أخذ عينات أقل بشكل ملحوظ
  • تحقيق أعلى تفرد، مما يعكس تنوعاً ممتازاً

دراسات الاستئصال

GraphBFN مقابل GraphBFN_w/o (بدون إشراف هرمي):

  • يحسن الإطار الهرمي جميع المؤشرات
  • على الرغم من التضحية بسرعة أخذ العينات إلى حد ما، إلا أنه يحسن بشكل كبير جودة التوليد

تحليل كفاءة الأخذ العينات

  • أداء ممتازة في أول 50 خطوة
  • بالمقارنة مع طرق الخطوط الأساسية التي تتطلب 400-1000 خطوة، يتطلب GraphBFN فقط 100 خطوة لتحقيق نتائج ممتازة
  • مناسب لسيناريوهات التطبيق الحساسة لوقت الاستدلال

الأعمال ذات الصلة

نماذج توليد الرسوم البيانية الجزيئية

  • النماذج الانحدارية الذاتية: إضافة العقد والحواف تدريجياً، مثل سلسلة GraphRNN
  • نماذج لمرة واحدة: طرق قائمة على VAE والتدفقات المعيارية و GAN، لكنها غالباً ما تواجه مشاكل مثل انهيار الأنماط
  • نماذج الانتشار: الاتجاه السائد في السنوات الأخيرة، مقسمة إلى نوعين منفصل ومستمر

نماذج انتشار الرسوم البيانية

  • الانتشار المنفصل: تعريف عملية الانتشار مباشرة في فضاء الحالة المنفصل، مثل DiGress
  • الانتشار المستمر: تعيين إلى فضاء مستمر وتطبيق الانتشار الغاوسي، مثل GDSS و GSDM
  • التحديات الأساسية: كيفية التعامل مع الطبيعة المنفصلة لتسميات الذرات والروابط

شبكات بايزية تدفقية

  • نموذج توليد جديد يتعلم التعيين بين التوزيعات
  • إنشاء عملية تدريب مستمرة قابلة للتفاضل للبيانات المنفصلة
  • تقترح هذه الورقة آلية معالجة ميزات منفصلة أبسط وأكثر فعالية على هذا الأساس

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. حل ناجح لمشكلة عدم الاتساق بين التدريب والاستدلال: توحيد التدريب المستمر والأخذ العينات المنفصل من خلال آلية CDF
  2. تحسين كبير في جودة التوليد: تحقيق أداء متقدم جديد على معايير قياسية
  3. تحسين كبير في كفاءة الأخذ العينات: تقليل خطوات الأخذ العينات إلى 1/4-1/10 من طرق الخطوط الأساسية
  4. تحسين التنوع الجزيئي: تجنب الإفراط في التدريب على التغييرات غير ذات الصلة داخل الفئة

القيود

  1. تحليل القابلية للتفسير غير كافٍ: نقص التحليل المتعمق حول كيفية تحسين المعلومات متعددة الأحجام لنتائج التوليد
  2. نطاق التطبيق محدود: التحقق الرئيسي على مجموعات بيانات جزيئية صغيرة نسبياً
  3. التعقيد الحسابي: يضيف الإطار الهرمي بعض التكاليف الحسابية الإضافية

الاتجاهات المستقبلية

  1. التوسع إلى مجالات الرسوم البيانية الأكبر والأكثر تعقيداً
  2. استكشاف تطبيقات مهام التوليد المشروط
  3. تحسين تحليل القابلية للتفسير
  4. تحسين الكفاءة الحسابية

التقييم المتعمق

المزايا

  1. مساهمة نظرية كبيرة: تحديد وحل مشكلة أساسية في نماذج الانتشار المستمرة
  2. ابتكار تقني بارز: آلية CDF تربط بذكاء بين التدريب المستمر والاستدلال المنفصل
  3. التحقق التجريبي الشامل: تجارب مقارنة شاملة ودراسات استئصال
  4. قيمة عملية عالية: تحسين كبير في الكفاءة، مناسب للتطبيقات العملية

أوجه القصور

  1. عمق التحليل النظري: تحليل محدود لخصائص التقارب والضمانات النظرية
  2. حجم التجارب: التحقق الرئيسي على مجموعات بيانات متوسطة الحجم، مع نقص التحقق على نطاق واسع
  3. تحليل التكاليف الحسابية: تحليل غير كافٍ للتكاليس الحسابية الإضافية للإطار الهرمي
  4. حساسية المعاملات الفائقة: تحليل غير كافٍ لحساسية المعاملات الفائقة الرئيسية

التأثير

  1. المساهمة الأكاديمية: توفير طريقة حل جديدة لمهام التوليد المنفصل
  2. القيمة العملية: يمكن أن تسرع عملية اكتشاف الأدوية
  3. القابلية للتكرار: وصف الطريقة واضح، مما يسهل التكرار
  4. إمكانية التوسع: يمكن توسيع الإطار إلى مهام توليد هياكل منفصلة أخرى

السيناريوهات المطبقة

  1. اكتشاف الأدوية: تصميم وتحسين الجزيئات
  2. علم المواد: توليد هياكل المواد الجديدة
  3. المعلوماتية الكيميائية: توسيع مكتبات المركبات
  4. توليد الهياكل المنفصلة الأخرى: مثل تسلسلات البروتين و DNA

المراجع

تستشهد الورقة بالأعمال المهمة في هذا المجال، بما في ذلك:

  • Graves et al. (2023): العمل الأصلي لشبكات بايزية تدفقية
  • Vignac et al. (2023): طريقة الانتشار المنفصل DiGress
  • Jo, Lee, and Hwang (2022): نموذج الانتشار التسجيلي GDSS
  • Ying et al. (2018): طريقة تجميع الرسوم البيانية الهرمية DiffPool

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تحدد بنجاح وتحل المشكلة الأساسية في توليد الرسوم البيانية الجزيئية. من خلال آلية CDF المبتكرة والإطار الهرمي، يحسن الأداء العملية بشكل كبير مع الحفاظ على الصرامة النظرية. على الرغم من وجود مجال للتحسين في عمق التحليل النظري وحجم التجارب، إلا أن مساهماتها كافية لدفع تطور هذا المجال.