Generative Flow Networks (GFlowNets) offer a powerful framework for sampling graphs in proportion to their rewards. However, existing approaches suffer from systematic biases due to inaccuracies in state transition probability computations. These biases, rooted in the inherent symmetries of graphs, impact both atom-based and fragment-based generation schemes. To address this challenge, we introduce Symmetry-Aware GFlowNets (SA-GFN), a method that incorporates symmetry corrections into the learning process through reward scaling. By integrating bias correction directly into the reward structure, SA-GFN eliminates the need for explicit state transition computations. Empirical results show that SA-GFN enables unbiased sampling while enhancing diversity and consistently generating high-reward graphs that closely match the target distribution.
- 论文ID: 2506.02685
- 标题: Symmetry-Aware GFlowNets
- 作者: Hohyun Kim, Seunggeun Lee, Min-hwan Oh (Seoul National University)
- 分类: stat.ML cs.LG
- 发表会议: ICML 2025 (42nd International Conference on Machine Learning)
- 论文链接: https://arxiv.org/abs/2506.02685
生成流网络(GFlowNets)为按奖励比例采样图提供了强大的框架。然而,现有方法由于状态转移概率计算的不准确性而存在系统性偏差。这些偏差根植于图的固有对称性,影响基于原子和基于片段的生成方案。为了解决这一挑战,本文引入了对称感知GFlowNets(SA-GFN),通过奖励缩放将对称性修正纳入学习过程。通过将偏差修正直接集成到奖励结构中,SA-GFN消除了对显式状态转移计算的需求。实验结果表明,SA-GFN能够实现无偏采样,同时增强多样性并持续生成与目标分布密切匹配的高奖励图。
GFlowNets在图生成任务中面临等价动作问题(equivalent action problem):不同的动作可能导致结构相同的图。例如,在图中添加新节点时,连接到两个对称节点的动作虽然不同,但会产生同构的图。这种情况下,状态转移概率必须考虑所有等价动作,但计算代价昂贵。
- 分子生成的偏差:在分子发现中,超过50%的分子具有多个对称性,18%包含4个或更多对称性。忽略对称性导致不正确的建模和分子结构生成精度降低。
- 系统性偏差:偏差是系统性的,在节点生成中偏向对称性较少的图,在片段生成中偏向对称性组件。
- 计算复杂性:准确计算状态转移概率需要昂贵的图同构测试。
- **Ma et al. (2024)**提出使用位置编码近似检测等价动作,但需要在每次转移时应用,计算开销大且只是近似解。
- 传统GFlowNet目标函数(TB、DB等)都无法避免等价动作问题,因为它们基于状态转移形式化。
- 理论贡献:提供了GFlowNet框架下自回归图生成的严格形式化,明确解决等价动作问题
- 简单有效的解决方案:提出基于自同构群大小的奖励缩放方法,仅需对现有训练算法进行最小修改
- 无偏估计器:导出模型似然的无偏估计器
- 实验验证:通过实验验证理论结果,证明方法在生成多样化高奖励样本方面的有效性
给定奖励函数R(x),GFlowNets的目标是训练策略pA,使得终端状态的采样概率与其奖励成正比:p̄A(x) = R(x)/Z,其中Z是归一化常数。
- 图同构:两个图G和G'同构(G ≅ G'),如果存在置换π使得π(E) = E'
- 自同构群:图G的自同构群Aut(G)是保持图结构不变的所有置换的集合
- 轨道:节点u的轨道Orb(G,u) = {v ∈ V : ∃π ∈ Aut(G), π(u) = v}
定义4.1 (转移等价):如果G₁ ≅ G₂且G'₁ ≅ G'₂,则图转移(G₁,G'₁)和(G₂,G'₂)转移等价。
定义4.2 (轨道等价):如果动作类型相同且存在置换π使得π(G₁) = G₂且π(u₁) = u₂,则图动作(G₁,t₁,u₁)和(G₂,t₂,u₂)轨道等价。
定理4.3:轨道等价的动作导致转移等价的转移。
引理4.5:对于AddEdge动作,有
∣Orb(G′,u,v)∣∣Orb(G,u,v)∣=∣Aut(G′)∣∣Aut(G)∣
定理4.6 (自同构修正):如果使用置换等变函数,则
qAˉ(a∣s′)pAˉ(a∣s)=∣Aut(G′)∣∣Aut(G)∣⋅qE(G∣G′)pE(G′∣G)
推论5.1 (TB修正):轨迹平衡损失应为
LTB(τ)=(log∣Aut(Gn)∣R(Gn)∏t=0n−1qE(Gt∣Gt+1)Z∏t=0n−1pE(Gt+1∣Gt))2
解决方案:将奖励缩放为 R~(G)=∣Aut(G)∣R(G)
定理5.3 (片段修正):对于由k个片段{C₁,...,Cₖ}连接生成的终端状态G:
R~(G)=∏i=1k∣Aut(Ci)∣∣Aut(G)∣R(G)
pˉA(x)=Eτ∼qE(τ∣Gn)[∣Aut(Gn)∣qE(τ∣Gn)pE(τ)]
- 理论优雅性:将复杂的转移级修正简化为终端状态的奖励缩放
- 计算效率:避免每步转移时的图同构测试,仅需计算一次自同构群大小
- 通用性:适用于TB、DB、FM等多种GFlowNet目标函数
- 精确性:提供精确解而非近似解
- 说明性例子:6个断开节点的初始状态,112个终端状态
- 合成图:最多7个节点的异质图,72,296个终端状态
- 分子生成:
- 原子级:HOMO-LUMO gap预测任务
- 片段级:sEH靶标结合能预测任务
- L1误差:目标概率与模型终端概率之间的L1误差
- 多样性:分子间平均Tanimoto距离
- Top K指标:前K个高奖励分子的多样性和奖励
- 唯一性:生成样本中唯一分子的比例
- Vanilla GFlowNets:不考虑图对称性
- Transition Correction:通过多次同构测试识别转移等价动作
- PE (Ma et al., 2024):使用位置编码近似识别轨道等价动作
- Reward Scaling (本文):通过修改奖励信号实现修正
- Flow Scaling (本文):在每次转移时乘以对称比率
- Vanilla模型的终端概率按|x|聚类,存在明显偏差
- Reward Scaling达到与Transition Correction相同的效果
- 估计的归一化常数Z:Reward Scaling为112(真值),Vanilla为26,706
- TB目标:Reward Scaling显著降低L1误差,与Transition Correction性能相当
- DB目标:Reward Scaling收敛较慢,但最终达到相同精度
- PE方法作为近似解,性能介于Vanilla和精确方法之间
原子级生成结果:
- 多样性:0.929→0.959 (Vanilla→Reward Scaling)
- 唯一性:0.93→1.0
片段级生成结果:
- Top K奖励:0.941→0.952 (Vanilla→Reward Scaling Exact)
- 环己烷片段使用次数:5220→1042 (显著减少对称片段的过度使用)
- 近似修正vs精确修正:近似方法已能显著改善性能
- 不同目标函数:TB和DB都能通过奖励缩放有效修正
- 自同构计算时间:QM9数据集0.010ms,ZINC250k数据集0.022ms
- 相比轨迹采样的神经网络前向传播,计算开销可忽略
- 训练时间比较:Reward Scaling比Transition Correction快约15%
- 邻接矩阵方法:保留节点顺序信息,不易出现等价动作问题
- 图序列方法:容易产生等价动作,需要状态转移概率时问题突出
- 现有目标函数(流匹配、详细平衡、轨迹平衡等)都无法避免等价动作问题
- Ma et al. (2024)首次识别问题但仅提供近似解
- 置换等变性导致同轨道节点表示相同
- 有限表达能力可能导致不同轨道动作表示重叠
- 理论贡献:首次严格分析GFlowNets中的等价动作问题,证明其导致系统性偏差
- 实用解决方案:奖励缩放提供简单、精确、高效的修正方法
- 广泛适用性:方法适用于原子级和片段级生成,以及多种训练目标
- 动作设计依赖:理论保证依赖于特定的预定义图动作集合
- 任务特定性:主要在分子发现相关数据集上验证
- GNN表达能力:有限的GNN表达能力可能引入额外偏差
- 探索不同对称模式和奖励结构的任务
- 设计更强表达能力的GNN架构
- 扩展到更复杂的图生成场景
- 理论严谨性:提供完整的数学框架和严格的理论分析
- 方法简洁性:解决方案极其简单,易于实现和集成
- 实用价值:在分子生成等重要应用中展现实际效果
- 计算效率:避免昂贵的在线图同构测试
- 通用性强:适用于多种GFlowNet训练目标
- 实验范围:主要集中在分子生成任务,其他图生成任务验证有限
- 理论假设:依赖于特定的动作设计和GNN架构假设
- 近似方法:片段生成的近似修正缺乏理论保证
- 扩展性:对于非常大的图,自同构计算可能成为瓶颈
- 学术价值:为GFlowNets理论提供重要补充,解决基础性问题
- 实用价值:对药物发现等应用领域有直接贡献
- 可复现性:方法简单,易于复现和应用
- 启发性:为其他生成模型的对称性处理提供思路
- 分子设计:药物发现、材料设计等化学信息学应用
- 图生成:需要考虑结构对称性的图生成任务
- 组合优化:具有对称性约束的组合优化问题
- 强化学习:状态空间具有对称性的RL任务
- Bengio et al. (2021) - GFlowNet foundations
- Ma et al. (2024) - 首次识别等价动作问题
- Malkin et al. (2022) - 轨迹平衡目标
- Jain et al. (2023) - 多目标GFlowNets应用
总体评价:这是一篇理论与实践并重的优秀论文,解决了GFlowNets中一个重要但被忽视的基础问题。方法简洁优雅,理论分析严谨,实验验证充分。对GFlowNets理论发展和实际应用都有重要贡献,预期将对相关领域产生持续影响。