2025-11-11T14:46:09.738382

Hierarchical Bayesian Flow Networks for Molecular Graph Generation

Xiong, Chen, Li et al.
Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.
academic

Hierarchical Bayesian Flow Networks for Molecular Graph Generation

基本信息

  • 论文ID: 2510.10211
  • 标题: Hierarchical Bayesian Flow Networks for Molecular Graph Generation
  • 作者: Yida Xiong, Jiameng Chen, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu (武汉大学计算机学院)
  • 分类: cs.LG (机器学习)
  • 发表时间: 2025年10月11日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10211

摘要

分子图生成本质上是一个分类生成问题,旨在预测原子和化学键的类别。目前主流的连续扩散模型将训练过程视为回归任务,预测连续数值,但在最终生成时需要通过舍入操作转换为离散分类类别。由于训练过程中未包含舍入操作,模型的训练目标与推理过程存在显著差异,导致过拟合、学习效率低下、分子多样性降低等问题。为解决这一根本性限制,作者提出GraphBFN,一个基于贝叶斯流网络的分层粗到细框架,通过创新性地引入累积分布函数来计算选择正确类别的概率,从而统一训练目标与采样舍入操作。

研究背景与动机

核心问题

分子图生成中存在一个根本性的训练-推理不一致问题:

  1. 训练阶段:连续扩散模型将离散的原子/键类别映射到连续空间,通过回归损失优化连续数值预测
  2. 推理阶段:需要通过硬舍入将连续预测值转换回离散类别
  3. 不一致性:训练时未考虑舍入规则,导致模型过度关注类内变化而忽略离散本质

问题重要性

  • 分子图生成是药物发现的关键技术,影响分子优化、药物-靶点结合亲和力预测等下游任务
  • 现有方法的不一致性导致分子多样性降低、泛化能力受限
  • 即使微小的回归偏差也可能导致完全错误的分类结果

现有方法局限性

  1. 离散扩散模型:虽然适合离散图结构,但牺牲了连续表示的平滑性和动态生成特性
  2. 连续扩散模型:训练目标与推理过程脱节,容易过拟合到无关的类内变化
  3. 传统贝叶斯流网络:假设所有类别在概率单纯形中等距,导致收敛缓慢且噪声较大

核心贡献

  1. 首次将贝叶斯流网络应用于分子图生成,通过分层分子表示监督增强生成效果
  2. 创新性引入累积分布函数(CDF),计算各类别概率而非拟合特定数值,统一训练目标与采样舍入操作
  3. 提出分层粗到细框架,通过多尺度图表示同时捕获局部原子连接性和全局分子拓扑
  4. 实现更快的训练和采样,在QM9和ZINC250k基准上达到新的最先进性能,采样步数显著减少

方法详解

任务定义

给定分子图 G=(X,A)G = (X, A),其中:

  • X{0,,KX1}DX \in \{0, \ldots, K_X - 1\}^DDD个原子特征矩阵,来自KXK_X个类别
  • A{0,,KA1}D×DA \in \{0, \ldots, K_A - 1\}^{D \times D}:邻接矩阵,包含KAK_A个键类别的特征

目标是学习生成符合真实分子分布的新分子图。

模型架构

1. 分层粗到细框架

  • 多尺度表示:使用DiffPool构建LL层粗化层,生成分子图的金字塔表示
  • 自底向上生成:从最粗层开始无条件生成,逐层细化到完整原子图
  • 条件传递:每层的上采样模块ϕ1(l)\phi_1^{(l)}将粗层输出转换为细层条件c(l)c^{(l)}

2. 图表示映射

将离散类别k{0,,K1}k \in \{0, \ldots, K-1\}映射到连续空间[1,1][-1, 1]

k_c = (2k + 1)/K - 1  # 中心点
k_l = k_c - 1/K       # 左边界  
k_r = k_c + 1/K       # 右边界

3. 贝叶斯流网络组件

输入分布:使用高斯分布建模

p_I(G|θ) = N(G|μ, ρ^{-1}I)

发送分布:添加高斯噪声

p_S(Y|G; α) = N(Y|G, α^{-1}I)

输出分布:通过CDF计算离散概率

p_O^{(d)}(k|θ; t) = F(k_r|μ_x^{(d)}, σ_x^{(d)}) - F(k_l|μ_x^{(d)}, σ_x^{(d)})

接收分布

p_R(Y|θ; t, α) = ∏_{d=1}^D ∑_{k=0}^{K-1} p_O^{(d)}(k|θ; t)N(Y^{(d)}|k_c, α^{-1})

4. 关键创新:CDF机制

使用截断的累积分布函数连接连续分布与离散类别:

F(x|μ_x^{(d)}, σ_x^{(d)}) = {
  0,                    if x ≤ -1
  1,                    if x ≥ 1  
  1/2[1 + erf((x-μ_x^{(d)})/(√2σ_x^{(d)}))], otherwise
}

技术创新点

  1. 训练-推理一致性:CDF直接计算离散概率,避免连续预测与离散舍入的不匹配
  2. 非等距类别映射:不同于传统BFN假设类别等距,允许更快更平滑的收敛
  3. 多尺度监督:分层框架在不同粒度提供结构信息,增强生成质量
  4. 端到端优化:统一的损失函数同时优化BFN生成损失和池化损失

实验设置

数据集

  • QM9:包含134k个小分子的量子化学数据集
  • ZINC250k:包含250k个相对较大分子的药物样分子数据集

评价指标

  • Validity w/o correction:未经校正的有效分子比例
  • Uniqueness:生成分子的唯一性比例
  • FCD (Fréchet ChemNet Distance):使用ChemNet特征计算的训练集与生成集距离
  • NSPDK MMD:考虑原子和键特征的邻域子图成对距离核最大均值差异

对比方法

包括多种最先进基线:

  • 流模型:MoFlow
  • 扩散模型:EDP-GNN, GDSS, DiGress, GSDM
  • 流匹配:Dirichlet FM, CatFlow
  • 能量模型:GraphEBM

实现细节

  • 采样步数:GraphBFN使用100×L步(L为层数),显著少于基线的400-1000步
  • 多尺度损失平衡参数:λ₁, λ₂
  • 最小时间阈值:t_min = 10⁻⁵

实验结果

主要结果

方法QM9 Val.↑QM9 Unique↑QM9 FCD↓QM9 NSPDK↓ZINC250k Val.↑ZINC250k Unique↑ZINC250k FCD↓ZINC250k NSPDK↓采样步数
GDSS95.7298.462.5650.003397.1299.6414.0320.01921000
CatFlow99.8199.950.4410.002999.21100.0013.2110.0207-
GraphBFN99.6099.970.2140.000896.00100.005.7430.0069100×L

关键发现

  • FCD指标提升51.5%,NSPDK指标提升72.4%
  • 在显著更少采样步数下达到最佳性能
  • 唯一性达到最高,体现出色的多样性

消融实验

GraphBFN vs GraphBFN_w/o(无分层监督):

  • 分层框架在所有指标上均有提升
  • 虽然牺牲了一定采样速度,但显著改善生成质量

采样效率分析

  • 前50步内表现卓越
  • 相比需要400-1000步的基线方法,GraphBFN仅需100步即可达到优异效果
  • 适合对推理时间敏感的应用场景

相关工作

分子图生成模型

  • 自回归模型:逐步添加节点和边,如GraphRNN系列
  • 一次性模型:基于VAE、标准化流、GAN的方法,但常面临模式坍塌等问题
  • 扩散模型:近年来主流方向,分为离散和连续两类

图扩散模型

  • 离散扩散:直接在离散状态空间定义扩散过程,如DiGress
  • 连续扩散:映射到连续空间应用高斯扩散,如GDSS、GSDM
  • 核心挑战:如何处理原子和键标签的离散性质

贝叶斯流网络

  • 学习分布间映射的新型生成模型
  • 为离散数据创建连续可微的训练过程
  • 本文在此基础上提出更简单有效的离散特征处理机制

结论与讨论

主要结论

  1. 成功解决训练-推理不一致问题:通过CDF机制统一连续训练与离散采样
  2. 显著提升生成质量:在标准基准上达到新的最先进性能
  3. 大幅提高采样效率:采样步数减少至基线方法的1/4-1/10
  4. 增强分子多样性:避免过拟合到无关类内变化

局限性

  1. 可解释性分析不足:对多尺度信息如何优化生成结果缺乏深入分析
  2. 适用范围限制:主要在相对较小的分子数据集上验证
  3. 计算复杂度:分层框架增加了一定的计算开销

未来方向

  1. 扩展到更大更复杂的图领域
  2. 探索条件生成任务的应用
  3. 增强可解释性分析
  4. 优化计算效率

深度评价

优点

  1. 理论贡献显著:识别并解决了连续扩散模型的根本性问题
  2. 技术创新突出:CDF机制巧妙连接连续训练与离散推理
  3. 实验验证充分:全面的对比实验和消融研究
  4. 实用价值高:显著提升效率,适合实际应用

不足

  1. 理论分析深度:对收敛性质和理论保证的分析有限
  2. 实验规模:主要在中小规模数据集验证,缺乏大规模验证
  3. 计算开销:分层框架的额外计算成本分析不足
  4. 超参数敏感性:对关键超参数的敏感性分析不够详细

影响力

  1. 学术贡献:为离散生成任务提供新的解决思路
  2. 实用价值:可加速药物发现流程
  3. 可复现性:方法描述清晰,便于复现
  4. 推广潜力:框架可扩展到其他离散结构生成任务

适用场景

  1. 药物发现:分子设计和优化
  2. 材料科学:新材料结构生成
  3. 化学信息学:化合物库扩展
  4. 其他离散结构生成:如蛋白质、DNA序列等

参考文献

论文引用了该领域的重要工作,包括:

  • Graves et al. (2023): 贝叶斯流网络的原始工作
  • Vignac et al. (2023): DiGress离散扩散方法
  • Jo, Lee, and Hwang (2022): GDSS评分扩散模型
  • Ying et al. (2018): DiffPool分层图池化方法

总体评价:这是一篇高质量的研究论文,成功识别并解决了分子图生成中的核心问题。通过创新的CDF机制和分层框架,在保持理论严谨性的同时显著提升了实用性能。尽管在理论分析深度和实验规模方面还有改进空间,但其贡献足以推动该领域的发展。