2025-11-11T14:46:09.738382

Hierarchical Bayesian Flow Networks for Molecular Graph Generation

Xiong, Chen, Li et al.
Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.
academic

आणविक ग्राफ जनन के लिए पदानुक्रमित बेयेसियन प्रवाह नेटवर्क

मूल जानकारी

  • पेपर ID: 2510.10211
  • शीर्षक: Hierarchical Bayesian Flow Networks for Molecular Graph Generation
  • लेखक: Yida Xiong, Jiameng Chen, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu (वुहान विश्वविद्यालय, कंप्यूटर विज्ञान महाविद्यालय)
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन तिथि: 11 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.10211

सारांश

आणविक ग्राफ जनन मूलतः एक वर्गीकरण जनन समस्या है, जिसका उद्देश्य परमाणु और रासायनिक बंधों की श्रेणियों की भविष्यवाणी करना है। वर्तमान में प्रचलित सतत विसरण मॉडल प्रशिक्षण प्रक्रिया को प्रतिगमन कार्य के रूप में मानते हैं, सतत संख्यात्मक मानों की भविष्यवाणी करते हैं, लेकिन अंतिम जनन के समय पूर्णांकन संचालन के माध्यम से असतत वर्गीकरण श्रेणियों में परिवर्तन की आवश्यकता होती है। चूंकि प्रशिक्षण प्रक्रिया में पूर्णांकन संचालन शामिल नहीं है, मॉडल का प्रशिक्षण उद्देश्य अनुमान प्रक्रिया से काफी भिन्न है, जिससे अतिफिटिंग, कम सीखने की दक्षता और आणविक विविधता में कमी जैसी समस्याएं उत्पन्न होती हैं। इस मौलिक सीमा को हल करने के लिए, लेखकों ने GraphBFN प्रस्तावित किया है, जो बेयेसियन प्रवाह नेटवर्क पर आधारित एक पदानुक्रमित मोटे-से-सूक्ष्म ढांचा है, जो सही वर्ग चुनने की संभावना की गणना करने के लिए संचयी वितरण फलन को नवीन तरीके से पेश करता है, जिससे प्रशिक्षण उद्देश्य और नमूनाकरण पूर्णांकन संचालन को एकीकृत किया जाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

आणविक ग्राफ जनन में एक मौलिक प्रशिक्षण-अनुमान असंगति समस्या मौजूद है:

  1. प्रशिक्षण चरण: सतत विसरण मॉडल असतत परमाणु/बंध श्रेणियों को सतत स्थान में मैप करते हैं, प्रतिगमन हानि के माध्यम से सतत संख्यात्मक भविष्यवाणियों को अनुकूलित करते हैं
  2. अनुमान चरण: सतत भविष्यवाणी मानों को असतत श्रेणियों में वापस परिवर्तित करने के लिए कठोर पूर्णांकन की आवश्यकता होती है
  3. असंगति: प्रशिक्षण के समय पूर्णांकन नियमों पर विचार नहीं किया जाता है, जिससे मॉडल असतत प्रकृति को नजरअंदाज करते हुए वर्ग के भीतर परिवर्तनों पर अत्यधिक ध्यान केंद्रित करता है

समस्या की महत्ता

  • आणविक ग्राफ जनन दवा की खोज के लिए एक महत्वपूर्ण तकनीक है, जो आणविक अनुकूलन, दवा-लक्ष्य बंधन आत्मीयता भविष्यवाणी जैसे अनुप्रवाह कार्यों को प्रभावित करती है
  • मौजूदा विधियों की असंगति आणविक विविधता में कमी और सामान्यीकरण क्षमता को सीमित करती है
  • यहां तक कि न्यूनतम प्रतिगमन विचलन भी पूरी तरह से गलत वर्गीकरण परिणाम दे सकता है

मौजूदा विधियों की सीमाएं

  1. असतत विसरण मॉडल: हालांकि असतत ग्राफ संरचना के लिए उपयुक्त हैं, लेकिन सतत प्रतिनिधित्व की चिकनाई और गतिशील जनन विशेषताओं का त्याग करते हैं
  2. सतत विसरण मॉडल: प्रशिक्षण उद्देश्य और अनुमान प्रक्रिया से अलग हैं, अप्रासंगिक वर्ग के भीतर परिवर्तनों के लिए अतिफिटिंग के लिए प्रवण हैं
  3. पारंपरिक बेयेसियन प्रवाह नेटवर्क: मानते हैं कि सभी श्रेणियां संभाव्यता सिम्प्लेक्स में समान दूरी पर हैं, जिससे धीमा अभिसरण और अधिक शोर होता है

मूल योगदान

  1. पहली बार बेयेसियन प्रवाह नेटवर्क को आणविक ग्राफ जनन में लागू किया, पदानुक्रमित आणविक प्रतिनिधित्व निरीक्षण के माध्यम से जनन प्रभाव को बढ़ाया
  2. संचयी वितरण फलन (CDF) को नवीन तरीके से पेश किया, विशिष्ट संख्यात्मक मानों को फिट करने के बजाय प्रत्येक श्रेणी की संभावना की गणना करते हैं, प्रशिक्षण उद्देश्य और नमूनाकरण पूर्णांकन संचालन को एकीकृत करते हैं
  3. पदानुक्रमित मोटे-से-सूक्ष्म ढांचा प्रस्तावित किया, बहु-पैमाने ग्राफ प्रतिनिधित्व के माध्यम से स्थानीय परमाणु कनेक्टिविटी और वैश्विक आणविक टोपोलॉजी दोनों को कैप्चर करते हैं
  4. तेजी से प्रशिक्षण और नमूनाकरण को लागू किया, QM9 और ZINC250k बेंचमार्क पर नई अत्याधुनिक कार्यक्षमता प्राप्त की, नमूनाकरण चरणों में उल्लेखनीय कमी

विधि विवरण

कार्य परिभाषा

दिया गया आणविक ग्राफ G=(X,A)G = (X, A), जहां:

  • X{0,,KX1}DX \in \{0, \ldots, K_X - 1\}^D: DD परमाणु विशेषता मैट्रिक्स, KXK_X श्रेणियों से
  • A{0,,KA1}D×DA \in \{0, \ldots, K_A - 1\}^{D \times D}: आसन्न मैट्रिक्स, KAK_A बंध श्रेणी विशेषताएं शामिल हैं

लक्ष्य वास्तविक आणविक वितरण के अनुरूप नए आणविक ग्राफ जनन करना सीखना है।

मॉडल आर्किटेक्चर

1. पदानुक्रमित मोटे-से-सूक्ष्म ढांचा

  • बहु-पैमाने प्रतिनिधित्व: DiffPool का उपयोग करके LL परत मोटे करने वाली परतें बनाते हैं, आणविक ग्राफ का पिरामिड प्रतिनिधित्व उत्पन्न करते हैं
  • नीचे से ऊपर तक जनन: सबसे मोटी परत से बिना शर्त जनन शुरू करते हैं, पूर्ण परमाणु ग्राफ तक क्रमिक रूप से परिष्कृत करते हैं
  • सशर्त हस्तांतरण: प्रत्येक परत का अपसैंपलिंग मॉड्यूल ϕ1(l)\phi_1^{(l)} मोटी परत आउटपुट को सूक्ष्म परत शर्त c(l)c^{(l)} में परिवर्तित करता है

2. ग्राफ प्रतिनिधित्व मैपिंग

असतत श्रेणी k{0,,K1}k \in \{0, \ldots, K-1\} को सतत स्थान [1,1][-1, 1] में मैप करते हैं:

k_c = (2k + 1)/K - 1  # केंद्र बिंदु
k_l = k_c - 1/K       # बाएं सीमा  
k_r = k_c + 1/K       # दाएं सीमा

3. बेयेसियन प्रवाह नेटवर्क घटक

इनपुट वितरण: गाऊसी वितरण का उपयोग करके मॉडल किया गया

p_I(G|θ) = N(G|μ, ρ^{-1}I)

भेजने वाला वितरण: गाऊसी शोर जोड़ते हैं

p_S(Y|G; α) = N(Y|G, α^{-1}I)

आउटपुट वितरण: CDF के माध्यम से असतत संभावना की गणना करते हैं

p_O^{(d)}(k|θ; t) = F(k_r|μ_x^{(d)}, σ_x^{(d)}) - F(k_l|μ_x^{(d)}, σ_x^{(d)})

प्राप्त वितरण:

p_R(Y|θ; t, α) = ∏_{d=1}^D ∑_{k=0}^{K-1} p_O^{(d)}(k|θ; t)N(Y^{(d)}|k_c, α^{-1})

4. मुख्य नवाचार: CDF तंत्र

सतत वितरण को असतत श्रेणियों से जोड़ने के लिए काटे गए संचयी वितरण फलन का उपयोग करते हैं:

F(x|μ_x^{(d)}, σ_x^{(d)}) = {
  0,                    यदि x ≤ -1
  1,                    यदि x ≥ 1  
  1/2[1 + erf((x-μ_x^{(d)})/(√2σ_x^{(d)}))], अन्यथा
}

तकनीकी नवाचार बिंदु

  1. प्रशिक्षण-अनुमान सामंजस्य: CDF सीधे असतत संभावना की गणना करता है, सतत भविष्यवाणी और असतत पूर्णांकन के बेमेल से बचता है
  2. गैर-समान दूरी श्रेणी मैपिंग: पारंपरिक BFN की श्रेणी समान दूरी की धारणा के विपरीत, तेजी से और चिकने अभिसरण की अनुमति देता है
  3. बहु-पैमाने निरीक्षण: पदानुक्रमित ढांचा विभिन्न अनाज पर संरचनात्मक जानकारी प्रदान करता है, जनन गुणवत्ता को बढ़ाता है
  4. अंत-से-अंत अनुकूलन: एकीकृत हानि फलन BFN जनन हानि और पूलिंग हानि दोनों को अनुकूलित करता है

प्रयोगात्मक सेटअप

डेटासेट

  • QM9: 134k छोटे अणुओं युक्त क्वांटम रसायन डेटासेट
  • ZINC250k: 250k अपेक्षाकृत बड़े अणुओं युक्त दवा-जैसे अणु डेटासेट

मूल्यांकन मेट्रिक्स

  • Validity w/o correction: बिना सुधार के वैध अणु का अनुपात
  • Uniqueness: उत्पन्न अणुओं की विशिष्टता का अनुपात
  • FCD (Fréchet ChemNet Distance): ChemNet विशेषताओं का उपयोग करके प्रशिक्षण सेट और उत्पन्न सेट के बीच दूरी
  • NSPDK MMD: परमाणु और बंध विशेषताओं पर विचार करते हुए पड़ोस उप-ग्राफ युग्म दूरी कर्नल अधिकतम माध्य विसंगति

तुलना विधियां

कई अत्याधुनिक आधारभूत विधियां शामिल हैं:

  • प्रवाह मॉडल: MoFlow
  • विसरण मॉडल: EDP-GNN, GDSS, DiGress, GSDM
  • प्रवाह मिलान: Dirichlet FM, CatFlow
  • ऊर्जा मॉडल: GraphEBM

कार्यान्वयन विवरण

  • नमूनाकरण चरण: GraphBFN 100×L चरणों का उपयोग करता है (L परतों की संख्या है), आधारभूत विधियों के 400-1000 चरणों से काफी कम
  • बहु-पैमाने हानि संतुलन पैरामीटर: λ₁, λ₂
  • न्यूनतम समय सीमा: t_min = 10⁻⁵

प्रयोगात्मक परिणाम

मुख्य परिणाम

विधिQM9 Val.↑QM9 Unique↑QM9 FCD↓QM9 NSPDK↓ZINC250k Val.↑ZINC250k Unique↑ZINC250k FCD↓ZINC250k NSPDK↓नमूनाकरण चरण
GDSS95.7298.462.5650.003397.1299.6414.0320.01921000
CatFlow99.8199.950.4410.002999.21100.0013.2110.0207-
GraphBFN99.6099.970.2140.000896.00100.005.7430.0069100×L

मुख्य निष्कर्ष:

  • FCD मेट्रिक में 51.5% सुधार, NSPDK मेट्रिक में 72.4% सुधार
  • काफी कम नमूनाकरण चरणों में सर्वोत्तम कार्यक्षमता प्राप्त करते हैं
  • उच्चतम विशिष्टता प्राप्त करते हैं, उत्कृष्ट विविधता को प्रदर्शित करते हैं

विलोपन प्रयोग

GraphBFN बनाम GraphBFN_w/o (बिना पदानुक्रमित निरीक्षण के):

  • पदानुक्रमित ढांचा सभी मेट्रिक्स पर सुधार प्रदान करता है
  • हालांकि नमूनाकरण गति में कुछ त्याग करते हैं, लेकिन जनन गुणवत्ता में उल्लेखनीय सुधार होता है

नमूनाकरण दक्षता विश्लेषण

  • पहले 50 चरणों में उत्कृष्ट कार्यक्षमता
  • 400-1000 चरणों की आवश्यकता वाली आधारभूत विधियों की तुलना में, GraphBFN केवल 100 चरणों में उत्कृष्ट प्रभाव प्राप्त करता है
  • अनुमान समय के प्रति संवेदनशील अनुप्रयोग परिदृश्यों के लिए उपयुक्त

संबंधित कार्य

आणविक ग्राफ जनन मॉडल

  • स्वचालित प्रतिगमन मॉडल: क्रमिक रूप से नोड्स और किनारों को जोड़ते हैं, जैसे GraphRNN श्रृंखला
  • एक-बार मॉडल: VAE, सामान्यीकृत प्रवाह, GAN पर आधारित विधियां, लेकिन अक्सर मोड पतन जैसी समस्याओं का सामना करते हैं
  • विसरण मॉडल: हाल के वर्षों में मुख्य दिशा, असतत और सतत दो श्रेणियों में विभाजित

ग्राफ विसरण मॉडल

  • असतत विसरण: असतत स्थिति स्थान में सीधे विसरण प्रक्रिया को परिभाषित करते हैं, जैसे DiGress
  • सतत विसरण: सतत स्थान में मैप करते हैं गाऊसी विसरण लागू करते हैं, जैसे GDSS, GSDM
  • मूल चुनौती: परमाणु और बंध लेबल की असतत प्रकृति को कैसे संभालें

बेयेसियन प्रवाह नेटवर्क

  • वितरणों के बीच मैपिंग सीखने वाले नए प्रकार के जनन मॉडल
  • असतत डेटा के लिए सतत अवकलनीय प्रशिक्षण प्रक्रिया बनाते हैं
  • यह पेपर इसके आधार पर असतत विशेषताओं को संभालने के लिए अधिक सरल और प्रभावी तंत्र प्रस्तावित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रशिक्षण-अनुमान असंगति समस्या को सफलतापूर्वक हल किया: CDF तंत्र के माध्यम से सतत प्रशिक्षण और असतत नमूनाकरण को एकीकृत करते हैं
  2. जनन गुणवत्ता में उल्लेखनीय सुधार: मानक बेंचमार्क पर नई अत्याधुनिक कार्यक्षमता प्राप्त की
  3. नमूनाकरण दक्षता में बड़ी वृद्धि: नमूनाकरण चरणों को आधारभूत विधि के 1/4-1/10 तक कम किया
  4. आणविक विविधता में वृद्धि: अप्रासंगिक वर्ग के भीतर परिवर्तनों के लिए अतिफिटिंग से बचता है

सीमाएं

  1. व्याख्यात्मकता विश्लेषण अपर्याप्त: बहु-पैमाने जानकारी कैसे जनन परिणामों को अनुकूलित करती है इसका गहन विश्लेषण अभाव है
  2. लागू दायरा सीमा: मुख्य रूप से अपेक्षाकृत छोटे आणविक डेटासेट पर सत्यापित
  3. कम्प्यूटेशनल जटिलता: पदानुक्रमित ढांचा कुछ अतिरिक्त कम्प्यूटेशनल ओवरहेड जोड़ता है

भविष्य की दिशाएं

  1. बड़े और अधिक जटिल ग्राफ डोमेन तक विस्तार
  2. सशर्त जनन कार्यों के अनुप्रयोग की खोज
  3. व्याख्यात्मकता विश्लेषण को बढ़ाना
  4. कम्प्यूटेशनल दक्षता को अनुकूलित करना

गहन मूल्यांकन

लाभ

  1. सैद्धांतिक योगदान महत्वपूर्ण: सतत विसरण मॉडल की मौलिक समस्या की पहचान और समाधान
  2. तकनीकी नवाचार उत्कृष्ट: CDF तंत्र सतत प्रशिक्षण और असतत अनुमान को चतुराई से जोड़ता है
  3. प्रयोगात्मक सत्यापन व्यापक: व्यापक तुलनात्मक प्रयोग और विलोपन अध्ययन
  4. व्यावहारिक मूल्य उच्च: दक्षता में उल्लेखनीय सुधार, व्यावहारिक अनुप्रयोग के लिए उपयुक्त

कमियां

  1. सैद्धांतिक विश्लेषण की गहराई: अभिसरण गुणों और सैद्धांतिक गारंटियों का विश्लेषण सीमित है
  2. प्रयोगात्मक पैमाना: मुख्य रूप से मध्यम आकार के डेटासेट पर सत्यापित, बड़े पैमाने पर सत्यापन अभाव है
  3. कम्प्यूटेशनल ओवरहेड: पदानुक्रमित ढांचे की अतिरिक्त कम्प्यूटेशनल लागत का विश्लेषण अपर्याप्त है
  4. हाइपरपैरामीटर संवेदनशीलता: मुख्य हाइपरपैरामीटर की संवेदनशीलता का विश्लेषण पर्याप्त विस्तार से नहीं है

प्रभाव

  1. शैक्षणिक योगदान: असतत जनन कार्यों के लिए नई समाधान दिशा प्रदान करता है
  2. व्यावहारिक मूल्य: दवा की खोज प्रक्रिया को तेज कर सकता है
  3. पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, पुनरुत्पादन के लिए सुविधाजनक है
  4. विस्तार क्षमता: ढांचा अन्य असतत संरचना जनन कार्यों तक विस्तारित किया जा सकता है

लागू परिदृश्य

  1. दवा की खोज: आणविक डिजाइन और अनुकूलन
  2. सामग्री विज्ञान: नई सामग्री संरचना जनन
  3. रासायनिक सूचना विज्ञान: यौगिक पुस्तकालय विस्तार
  4. अन्य असतत संरचना जनन: जैसे प्रोटीन, DNA अनुक्रम आदि

संदर्भ

पेपर इस क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • Graves et al. (2023): बेयेसियन प्रवाह नेटवर्क का मूल कार्य
  • Vignac et al. (2023): DiGress असतत विसरण विधि
  • Jo, Lee, and Hwang (2022): GDSS स्कोर विसरण मॉडल
  • Ying et al. (2018): DiffPool पदानुक्रमित ग्राफ पूलिंग विधि

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुसंधान पेपर है, जो आणविक ग्राफ जनन में मूल समस्या की सफलतापूर्वक पहचान करता है और समाधान करता है। नवीन CDF तंत्र और पदानुक्रमित ढांचे के माध्यम से, सैद्धांतिक कठोरता बनाए रखते हुए व्यावहारिक कार्यक्षमता में उल्लेखनीय सुधार करता है। हालांकि सैद्धांतिक विश्लेषण की गहराई और प्रयोगात्मक पैमाने के पहलुओं में सुधार की गुंजाइश है, लेकिन इसका योगदान इस क्षेत्र के विकास को आगे बढ़ाने के लिए पर्याप्त है।