Generative Flow Networks (GFlowNets) offer a powerful framework for sampling graphs in proportion to their rewards. However, existing approaches suffer from systematic biases due to inaccuracies in state transition probability computations. These biases, rooted in the inherent symmetries of graphs, impact both atom-based and fragment-based generation schemes. To address this challenge, we introduce Symmetry-Aware GFlowNets (SA-GFN), a method that incorporates symmetry corrections into the learning process through reward scaling. By integrating bias correction directly into the reward structure, SA-GFN eliminates the need for explicit state transition computations. Empirical results show that SA-GFN enables unbiased sampling while enhancing diversity and consistently generating high-reward graphs that closely match the target distribution.
- ID del Artículo: 2506.02685
- Título: Symmetry-Aware GFlowNets
- Autores: Hohyun Kim, Seunggeun Lee, Min-hwan Oh (Universidad Nacional de Seúl)
- Clasificación: stat.ML cs.LG
- Conferencia de Publicación: ICML 2025 (42ª Conferencia Internacional sobre Aprendizaje Automático)
- Enlace del Artículo: https://arxiv.org/abs/2506.02685
Las redes de flujo generativo (GFlowNets) proporcionan un marco sólido para el muestreo de grafos proporcional a la recompensa. Sin embargo, los métodos existentes sufren sesgos sistemáticos debido a inexactitudes en el cálculo de probabilidades de transición de estado. Estos sesgos tienen raíces en la simetría inherente de los grafos, afectando tanto esquemas de generación basados en átomos como en fragmentos. Para abordar este desafío, este artículo introduce GFlowNets Conscientes de la Simetría (SA-GFN), que incorpora correcciones de simetría en el proceso de aprendizaje mediante escalado de recompensas. Al integrar directamente la corrección de sesgo en la estructura de recompensas, SA-GFN elimina la necesidad de cálculos explícitos de transición de estado. Los resultados experimentales demuestran que SA-GFN logra muestreo insesgado, mientras mejora la diversidad y genera consistentemente grafos de alta recompensa que coinciden estrechamente con la distribución objetivo.
GFlowNets enfrenta el problema de acciones equivalentes en tareas de generación de grafos: diferentes acciones pueden resultar en grafos estructuralmente idénticos. Por ejemplo, al añadir un nuevo nodo a un grafo, las acciones de conectarse a dos nodos simétricos, aunque diferentes, producen grafos isomorfos. En este caso, la probabilidad de transición de estado debe considerar todas las acciones equivalentes, pero el cálculo es costoso.
- Sesgo en la Generación Molecular: En el descubrimiento molecular, más del 50% de las moléculas poseen múltiples simetrías, y el 18% contiene cuatro o más simetrías. Ignorar la simetría conduce a modelado incorrecto y reducción en la precisión de generación de estructuras moleculares.
- Sesgo Sistemático: El sesgo es sistemático, favoreciendo grafos con menor simetría en generación de nodos y componentes con mayor simetría en generación de fragmentos.
- Complejidad Computacional: El cálculo preciso de probabilidades de transición de estado requiere pruebas costosas de isomorfismo de grafos.
- Ma et al. (2024) propone usar codificación posicional para aproximar la detección de acciones equivalentes, pero requiere aplicación en cada transición, con gran carga computacional y soluciones solo aproximadas.
- Los objetivos tradicionales de GFlowNet (TB, DB, etc.) no pueden evitar el problema de acciones equivalentes, ya que se basan en formalización de transiciones de estado.
- Contribución Teórica: Proporciona formalización rigurosa de generación de grafos autoregresiva bajo el marco GFlowNet, abordando explícitamente el problema de acciones equivalentes
- Solución Simple y Efectiva: Propone método de escalado de recompensas basado en el tamaño del grupo de automorfismos, requiriendo solo modificaciones mínimas a algoritmos de entrenamiento existentes
- Estimador Insesgado: Deriva estimador insesgado de la verosimilitud del modelo
- Verificación Experimental: Valida resultados teóricos mediante experimentos, demostrando efectividad del método en generación de muestras diversas y de alta recompensa
Dada una función de recompensa R(x), el objetivo de GFlowNets es entrenar una política p_A tal que la probabilidad de muestreo de estados terminales sea proporcional a su recompensa: p̄_A(x) = R(x)/Z, donde Z es la constante de normalización.
- Isomorfismo de Grafos: Dos grafos G y G' son isomorfos (G ≅ G') si existe una permutación π tal que π(E) = E'
- Grupo de Automorfismos: El grupo de automorfismos de un grafo G, Aut(G), es el conjunto de todas las permutaciones que preservan la estructura del grafo
- Órbita: La órbita del nodo u es Orb(G,u) = {v ∈ V : ∃π ∈ Aut(G), π(u) = v}
Definición 4.1 (Equivalencia de Transición): Las transiciones de grafo (G₁,G'₁) y (G₂,G'₂) son equivalentes en transición si G₁ ≅ G₂ y G'₁ ≅ G'₂.
Definición 4.2 (Equivalencia de Órbita): Las acciones de grafo (G₁,t₁,u₁) y (G₂,t₂,u₂) son equivalentes en órbita si tienen el mismo tipo de acción y existe una permutación π tal que π(G₁) = G₂ y π(u₁) = u₂.
Teorema 4.3: Las acciones equivalentes en órbita conducen a transiciones equivalentes en transición.
Lema 4.5: Para acciones AddEdge, se cumple
∣Orb(G′,u,v)∣∣Orb(G,u,v)∣=∣Aut(G′)∣∣Aut(G)∣
Teorema 4.6 (Corrección de Automorfismo): Si se utiliza una función equivariante a permutaciones, entonces
qAˉ(a∣s′)pAˉ(a∣s)=∣Aut(G′)∣∣Aut(G)∣⋅qE(G∣G′)pE(G′∣G)
Corolario 5.1 (Corrección TB): La pérdida de equilibrio de trayectoria debe ser
LTB(τ)=(log∣Aut(Gn)∣R(Gn)∏t=0n−1qE(Gt∣Gt+1)Z∏t=0n−1pE(Gt+1∣Gt))2
Solución: Escalar la recompensa como R~(G)=∣Aut(G)∣R(G)
Teorema 5.3 (Corrección de Fragmentos): Para un estado terminal G generado por conexión de k fragmentos {C₁,...,Cₖ}:
R~(G)=∏i=1k∣Aut(Ci)∣∣Aut(G)∣R(G)
pˉA(x)=Eτ∼qE(τ∣Gn)[∣Aut(Gn)∣qE(τ∣Gn)pE(τ)]
- Elegancia Teórica: Simplifica la corrección compleja a nivel de transición en escalado de recompensas de estado terminal
- Eficiencia Computacional: Evita pruebas costosas de isomorfismo de grafos en línea, requiriendo solo un cálculo único del tamaño del grupo de automorfismos
- Universalidad: Aplicable a múltiples objetivos de GFlowNet como TB, DB, FM
- Precisión: Proporciona solución exacta en lugar de aproximada
- Ejemplos Ilustrativos: Estado inicial de 6 nodos desconectados, 112 estados terminales
- Grafos Sintéticos: Grafos heterogéneos con hasta 7 nodos, 72,296 estados terminales
- Generación Molecular:
- Nivel Atómico: Tarea de predicción de brecha HOMO-LUMO
- Nivel de Fragmentos: Tarea de predicción de energía de unión a objetivo sEH
- Error L1: Error L1 entre probabilidad objetivo y probabilidad terminal del modelo
- Diversidad: Distancia promedio de Tanimoto entre moléculas
- Indicadores Top K: Diversidad y recompensa de las K moléculas de mayor recompensa
- Unicidad: Proporción de moléculas únicas en muestras generadas
- GFlowNets Vanilla: Sin considerar simetría de grafos
- Corrección de Transición: Identificación de acciones de transición equivalentes mediante múltiples pruebas de isomorfismo
- PE (Ma et al., 2024): Identificación aproximada de acciones de órbita equivalente usando codificación posicional
- Escalado de Recompensas (Este Trabajo): Corrección mediante modificación de señal de recompensa
- Escalado de Flujo (Este Trabajo): Multiplicación por razón de simetría en cada transición
- El modelo Vanilla muestra probabilidades terminales agrupadas por |x|, con sesgo evidente
- Escalado de Recompensas logra el mismo efecto que Corrección de Transición
- Constante de normalización estimada Z: Escalado de Recompensas = 112 (valor verdadero), Vanilla = 26,706
- Objetivo TB: Escalado de Recompensas reduce significativamente error L1, rendimiento comparable a Corrección de Transición
- Objetivo DB: Escalado de Recompensas converge más lentamente, pero alcanza precisión idéntica finalmente
- Método PE como solución aproximada, rendimiento entre Vanilla y métodos exactos
Resultados de Generación a Nivel Atómico:
- Diversidad: 0.929→0.959 (Vanilla→Escalado de Recompensas)
- Unicidad: 0.93→1.0
Resultados de Generación a Nivel de Fragmentos:
- Recompensa Top K: 0.941→0.952 (Vanilla→Escalado de Recompensas Exacto)
- Uso de fragmento ciclohexano: 5220→1042 (reducción significativa de uso excesivo de fragmentos simétricos)
- Corrección Aproximada vs Exacta: Método aproximado ya produce mejora significativa en rendimiento
- Diferentes Objetivos: TB y DB pueden corregirse efectivamente mediante escalado de recompensas
- Tiempo de cálculo de automorfismo: 0.010ms en conjunto QM9, 0.022ms en conjunto ZINC250k
- Comparado con propagación hacia adelante de red neuronal en muestreo de trayectoria, carga computacional es despreciable
- Comparación de tiempo de entrenamiento: Escalado de Recompensas aproximadamente 15% más rápido que Corrección de Transición
- Métodos de Matriz de Adyacencia: Preservan información de orden de nodos, menos propensos a problema de acciones equivalentes
- Métodos de Secuencia de Grafos: Fácilmente generan acciones equivalentes, problema se acentúa cuando se requieren probabilidades de transición de estado
- Los objetivos existentes (coincidencia de flujo, balance detallado, balance de trayectoria, etc.) no pueden evitar problema de acciones equivalentes
- Ma et al. (2024) identifica por primera vez el problema pero solo proporciona solución aproximada
- Equivariancia a permutaciones causa que nodos en la misma órbita tengan representaciones idénticas
- Capacidad expresiva limitada puede causar superposición de representaciones de acciones en órbitas diferentes
- Contribución Teórica: Primer análisis riguroso del problema de acciones equivalentes en GFlowNets, demostrando que causa sesgo sistemático
- Solución Práctica: Escalado de recompensas proporciona método simple, exacto y eficiente de corrección
- Aplicabilidad Amplia: Método aplicable a generación a nivel atómico y fragmentario, así como múltiples objetivos de entrenamiento
- Dependencia del Diseño de Acciones: Garantías teóricas dependen de conjunto específico de acciones de grafo predefinidas
- Especificidad de Tarea: Validación principalmente en conjuntos de datos relacionados con descubrimiento molecular
- Capacidad Expresiva de GNN: Capacidad expresiva limitada de GNN puede introducir sesgo adicional
- Exploración de tareas con patrones de simetría diferentes y estructuras de recompensa
- Diseño de arquitecturas GNN con mayor capacidad expresiva
- Extensión a escenarios de generación de grafos más complejos
- Rigor Teórico: Proporciona marco matemático completo y análisis teórico riguroso
- Simplicidad del Método: Solución extremadamente simple, fácil de implementar e integrar
- Valor Práctico: Demuestra efectos reales en aplicaciones importantes como generación molecular
- Eficiencia Computacional: Evita pruebas costosas de isomorfismo de grafos en línea
- Universalidad Fuerte: Aplicable a múltiples objetivos de entrenamiento de GFlowNet
- Alcance Experimental: Principalmente concentrado en tareas de generación molecular, validación limitada en otras tareas de generación de grafos
- Supuestos Teóricos: Depende de diseño específico de acciones y supuestos de arquitectura GNN
- Método Aproximado: Corrección aproximada para generación de fragmentos carece de garantías teóricas
- Escalabilidad: Para grafos muy grandes, cálculo de automorfismo puede convertirse en cuello de botella
- Valor Académico: Proporciona suplemento importante a teoría de GFlowNets, resolviendo problema fundamental
- Valor Práctico: Contribución directa a campos de aplicación como descubrimiento farmacéutico
- Reproducibilidad: Método simple, fácil de reproducir y aplicar
- Inspiración: Proporciona ideas para manejo de simetría en otros modelos generativos
- Diseño Molecular: Descubrimiento farmacéutico, diseño de materiales y otras aplicaciones de quimioinformática
- Generación de Grafos: Tareas de generación de grafos que requieren considerar simetría estructural
- Optimización Combinatoria: Problemas de optimización combinatoria con restricciones de simetría
- Aprendizaje por Refuerzo: Tareas de RL con espacio de estados que posee simetría
- Bengio et al. (2021) - Fundamentos de GFlowNet
- Ma et al. (2024) - Identificación inicial del problema de acciones equivalentes
- Malkin et al. (2022) - Objetivo de balance de trayectoria
- Jain et al. (2023) - Aplicaciones de GFlowNets multiobjetivo
Evaluación General: Este es un artículo excelente que combina teoría y práctica, resolviendo un problema fundamental importante pero previamente pasado por alto en GFlowNets. El método es simple y elegante, el análisis teórico es riguroso, y la verificación experimental es completa. Realiza contribuciones importantes tanto al desarrollo teórico de GFlowNets como a aplicaciones prácticas, con impacto duradero esperado en campos relacionados.