Hierarchical Bayesian Flow Networks for Molecular Graph Generation
Xiong, Chen, Li et al.
Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.
يعتبر توليد الرسوم البيانية الجزيئية بطبيعته مشكلة توليد تصنيفية، تهدف إلى التنبؤ بفئات الذرات والروابط الكيميائية. تعامل نماذج الانتشار المستمرة السائدة حالياً عملية التدريب كمهمة انحدار، مما يتنبأ بقيم رقمية مستمرة، لكنها تتطلب تحويلاً من خلال عملية التقريب لتحويلها إلى فئات تصنيفية منفصلة عند التوليد النهائي. نظراً لأن عملية التدريب لا تتضمن عملية التقريب، يوجد اختلاف كبير بين هدف تدريب النموذج وعملية الاستدلال، مما يؤدي إلى الإفراط في التدريب وانخفاض كفاءة التعلم وتقليل التنوع الجزيئي. لحل هذا القيد الأساسي، يقترح المؤلفون GraphBFN، وهو إطار عمل هرمي من الخشن إلى الدقيق قائم على شبكات بايزية تدفقية، يقدم بشكل مبتكر دالة التوزيع التراكمي لحساب احتمالية اختيار الفئة الصحيحة، وبالتالي توحيد هدف التدريب مع عملية التقريب في أثناء الأخذ العينات.
يوجد مشكلة عدم اتساق أساسية بين التدريب والاستدلال في توليد الرسوم البيانية الجزيئية:
مرحلة التدريب: تقوم نماذج الانتشار المستمرة بتعيين فئات الذرات/الروابط المنفصلة إلى فضاء مستمر، وتحسين التنبؤات الرقمية المستمرة من خلال خسارة الانحدار
مرحلة الاستدلال: تتطلب تحويل التنبؤات المستمرة إلى فئات منفصلة من خلال التقريب الصارم
عدم الاتساق: لا يأخذ التدريب في الاعتبار قواعد التقريب، مما يؤدي إلى تركيز النموذج على التغييرات داخل الفئة بدلاً من الطبيعة المنفصلة
يعتبر توليد الرسوم البيانية الجزيئية تقنية أساسية في اكتشاف الأدوية، مما يؤثر على تحسين الجزيئات والتنبؤ بتقاربية الربط بين الدواء والهدف والمهام اللاحقة
يؤدي عدم الاتساق في الطرق الموجودة إلى تقليل التنوع الجزيئي وتحديد القدرة على التعميم
حتى الأخطاء الانحدارية الصغيرة قد تؤدي إلى نتائج تصنيفية خاطئة تماماً
تستشهد الورقة بالأعمال المهمة في هذا المجال، بما في ذلك:
Graves et al. (2023): العمل الأصلي لشبكات بايزية تدفقية
Vignac et al. (2023): طريقة الانتشار المنفصل DiGress
Jo, Lee, and Hwang (2022): نموذج الانتشار التسجيلي GDSS
Ying et al. (2018): طريقة تجميع الرسوم البيانية الهرمية DiffPool
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تحدد بنجاح وتحل المشكلة الأساسية في توليد الرسوم البيانية الجزيئية. من خلال آلية CDF المبتكرة والإطار الهرمي، يحسن الأداء العملية بشكل كبير مع الحفاظ على الصرامة النظرية. على الرغم من وجود مجال للتحسين في عمق التحليل النظري وحجم التجارب، إلا أن مساهماتها كافية لدفع تطور هذا المجال.