Generative Flow Networks (GFlowNets) offer a powerful framework for sampling graphs in proportion to their rewards. However, existing approaches suffer from systematic biases due to inaccuracies in state transition probability computations. These biases, rooted in the inherent symmetries of graphs, impact both atom-based and fragment-based generation schemes. To address this challenge, we introduce Symmetry-Aware GFlowNets (SA-GFN), a method that incorporates symmetry corrections into the learning process through reward scaling. By integrating bias correction directly into the reward structure, SA-GFN eliminates the need for explicit state transition computations. Empirical results show that SA-GFN enables unbiased sampling while enhancing diversity and consistently generating high-reward graphs that closely match the target distribution.
- Papier-ID: 2506.02685
- Titel: Symmetry-Aware GFlowNets
- Autoren: Hohyun Kim, Seunggeun Lee, Min-hwan Oh (Seoul National University)
- Klassifizierung: stat.ML cs.LG
- Veröffentlichungskonferenz: ICML 2025 (42. Internationale Konferenz für maschinelles Lernen)
- Papierlink: https://arxiv.org/abs/2506.02685
Generative Flow Networks (GFlowNets) bieten ein leistungsstarkes Framework zum Sampling von Graphen proportional zu Belohnungen. Bestehende Methoden weisen jedoch systematische Verzerrungen aufgrund von Ungenauigkeiten bei der Berechnung von Zustandsübergangswahrscheinlichkeiten auf. Diese Verzerrungen sind in der inhärenten Symmetrie von Graphen verwurzelt und beeinflussen sowohl atomare als auch fragmentbasierte Generierungsschemata. Um diese Herausforderung zu bewältigen, führen wir Symmetry-Aware GFlowNets (SA-GFN) ein, die Symmetriekorrektionen durch Belohnungsskalierung in den Lernprozess integrieren. Durch die direkte Integration der Verzerrungskorrektur in die Belohnungsstruktur eliminiert SA-GFN die Notwendigkeit expliziter Zustandsübergangsberechnungen. Experimentelle Ergebnisse zeigen, dass SA-GFN unverzerrtes Sampling erreicht, während gleichzeitig die Vielfalt erhöht wird und kontinuierlich hochbelohnte Graphen erzeugt werden, die eng mit der Zielverteilung übereinstimmen.
GFlowNets sehen sich bei Graphgenerierungsaufgaben mit dem Problem äquivalenter Aktionen konfrontiert: Unterschiedliche Aktionen können zu strukturell identischen Graphen führen. Beispielsweise können beim Hinzufügen eines neuen Knotens zu einem Graphen Aktionen, die mit zwei symmetrischen Knoten verbunden sind, obwohl unterschiedlich, zu isomorphen Graphen führen. In diesem Fall müssen Zustandsübergangswahrscheinlichkeiten alle äquivalenten Aktionen berücksichtigen, was rechnerisch teuer ist.
- Verzerrung bei der Molekülgenerierung: Bei der Molekülentdeckung weisen über 50% der Moleküle mehrere Symmetrien auf, 18% enthalten vier oder mehr Symmetrien. Das Ignorieren von Symmetrien führt zu fehlerhafter Modellierung und verminderter Genauigkeit bei der Molekülstrukturenerzeugung.
- Systematische Verzerrung: Die Verzerrung ist systematisch und bevorzugt bei der Knotengenerierung Graphen mit weniger Symmetrien und bei der Fragmentgenerierung symmetrische Komponenten.
- Rechenkomplexität: Die genaue Berechnung von Zustandsübergangswahrscheinlichkeiten erfordert teure Graphisomorphismustests.
- Ma et al. (2024) schlagen die Verwendung von Positionskodierungen zur ungefähren Erkennung äquivalenter Aktionen vor, erfordern jedoch die Anwendung bei jedem Übergang, was zu großem Rechenaufwand führt und nur eine Näherungslösung darstellt.
- Traditionelle GFlowNet-Zielfunktionen (TB, DB usw.) können das Problem äquivalenter Aktionen nicht vermeiden, da sie auf Zustandsübergangsformalismus basieren.
- Theoretischer Beitrag: Bereitstellung einer strengen Formalisierung der autoregressiven Graphgenerierung im GFlowNet-Framework, die das Problem äquivalenter Aktionen explizit adressiert
- Einfache und effektive Lösung: Vorschlag einer Belohnungsskalierungsmethode basierend auf der Größe der Automorphismusgruppe, die nur minimale Änderungen an bestehenden Trainingsalgorithmen erfordert
- Unverzerrter Schätzer: Ableitung eines unverzerrten Schätzers für die Modellwahrscheinlichkeit
- Experimentelle Validierung: Experimentelle Verifikation der theoretischen Ergebnisse, die die Effektivität der Methode bei der Generierung vielfältiger hochbelohnter Stichproben nachweist
Gegeben eine Belohnungsfunktion R(x) besteht das Ziel von GFlowNets darin, eine Strategie pA zu trainieren, sodass die Sampling-Wahrscheinlichkeit von Terminalzuständen proportional zu ihrer Belohnung ist: p̄A(x) = R(x)/Z, wobei Z eine Normalisierungskonstante ist.
- Graphisomorphismus: Zwei Graphen G und G' sind isomorph (G ≅ G'), wenn eine Permutation π existiert, sodass π(E) = E'
- Automorphismusgruppe: Die Automorphismusgruppe Aut(G) eines Graphen G ist die Menge aller Permutationen, die die Graphstruktur invariant lassen
- Orbit: Der Orbit eines Knotens u ist Orb(G,u) = {v ∈ V : ∃π ∈ Aut(G), π(u) = v}
Definition 4.1 (Übergangäquivalenz): Wenn G₁ ≅ G₂ und G'₁ ≅ G'₂, dann sind die Graphübergänge (G₁,G'₁) und (G₂,G'₂) übergangäquivalent.
Definition 4.2 (Orbitäquivalenz): Wenn der Aktionstyp identisch ist und eine Permutation π existiert, sodass π(G₁) = G₂ und π(u₁) = u₂, dann sind die Graphaktionen (G₁,t₁,u₁) und (G₂,t₂,u₂) orbitäquivalent.
Theorem 4.3: Orbitäquivalente Aktionen führen zu übergangäquivalenten Übergängen.
Lemma 4.5: Für AddEdge-Aktionen gilt
∣Orb(G′,u,v)∣∣Orb(G,u,v)∣=∣Aut(G′)∣∣Aut(G)∣
Theorem 4.6 (Automorphismuskorrektur): Wenn permutationsäquivariante Funktionen verwendet werden, dann
qAˉ(a∣s′)pAˉ(a∣s)=∣Aut(G′)∣∣Aut(G)∣⋅qE(G∣G′)pE(G′∣G)
Korollar 5.1 (TB-Korrektur): Der Trajektorienbilanz-Verlust sollte sein
LTB(τ)=(log∣Aut(Gn)∣R(Gn)∏t=0n−1qE(Gt∣Gt+1)Z∏t=0n−1pE(Gt+1∣Gt))2
Lösung: Belohnung skalieren zu R~(G)=∣Aut(G)∣R(G)
Theorem 5.3 (Fragmentkorrektur): Für einen Terminalzustand G, der durch Verbindung von k Fragmenten {C₁,...,Cₖ} erzeugt wird:
R~(G)=∏i=1k∣Aut(Ci)∣∣Aut(G)∣R(G)
pˉA(x)=Eτ∼qE(τ∣Gn)[∣Aut(Gn)∣qE(τ∣Gn)pE(τ)]
- Theoretische Eleganz: Vereinfachung komplexer übergangsstufiger Korrektionen zu Belohnungsskalierung auf Terminalzuständen
- Recheneffizienz: Vermeidung teurer Graphisomorphismustests bei jedem Schritt, nur einmalige Berechnung der Automorphismusgruppengröße erforderlich
- Universalität: Anwendbar auf mehrere GFlowNet-Zielfunktionen wie TB, DB, FM
- Genauigkeit: Bereitstellung exakter Lösungen statt Näherungen
- Illustrative Beispiele: Initialzustand mit 6 getrennten Knoten, 112 Terminalzustände
- Synthetische Graphen: Heterogene Graphen mit bis zu 7 Knoten, 72.296 Terminalzustände
- Molekülgenerierung:
- Atomare Ebene: HOMO-LUMO-Lückenprädiktion
- Fragmentebene: sEH-Zielbindungsaffinitätsprädiktion
- L1-Fehler: L1-Fehler zwischen Zielwahrscheinlichkeit und Modell-Terminalwahrscheinlichkeit
- Vielfalt: Durchschnittliche Tanimoto-Distanz zwischen Molekülen
- Top-K-Metriken: Vielfalt und Belohnung der Top-K hochbelohnten Moleküle
- Eindeutigkeit: Anteil eindeutiger Moleküle in generierten Stichproben
- Vanilla GFlowNets: Berücksichtigung von Graphsymmetrien nicht
- Transition Correction: Identifikation übergangäquivalenter Aktionen durch mehrfache Isomorphismustests
- PE (Ma et al., 2024): Verwendung von Positionskodierungen zur ungefähren Identifikation orbitäquivalenter Aktionen
- Reward Scaling (dieses Papier): Korrektur durch Modifikation des Belohnungssignals
- Flow Scaling (dieses Papier): Multiplikation mit Symmetriequotient bei jedem Übergang
- Das Vanilla-Modell zeigt Terminalwahrscheinlichkeiten, die nach |x| geclustert sind, mit offensichtlicher Verzerrung
- Reward Scaling erreicht die gleiche Leistung wie Transition Correction
- Geschätzte Normalisierungskonstante Z: Reward Scaling = 112 (Wahrheitswert), Vanilla = 26.706
- TB-Ziel: Reward Scaling reduziert L1-Fehler signifikant, vergleichbar mit Transition Correction
- DB-Ziel: Reward Scaling konvergiert langsamer, erreicht aber letztendlich gleiche Genauigkeit
- PE-Methode als Näherungslösung zeigt Leistung zwischen Vanilla und exakten Methoden
Ergebnisse auf atomarer Ebene:
- Vielfalt: 0,929→0,959 (Vanilla→Reward Scaling)
- Eindeutigkeit: 0,93→1,0
Ergebnisse auf Fragmentebene:
- Top-K-Belohnung: 0,941→0,952 (Vanilla→Reward Scaling Exact)
- Cyclohexan-Fragmentnutzung: 5.220→1.042 (signifikante Reduktion der Übernutzung symmetrischer Fragmente)
- Näherungskorrektur vs. exakte Korrektur: Näherungsmethoden zeigen bereits signifikante Leistungsverbesserungen
- Verschiedene Zielfunktionen: Sowohl TB als auch DB können durch Belohnungsskalierung effektiv korrigiert werden
- Automorphismusberechnungszeit: QM9-Datensatz 0,010 ms, ZINC250k-Datensatz 0,022 ms
- Im Vergleich zu neuronalen Netzwerk-Vorwärtsdurchläufen bei der Trajektorienstichprobennahme ist der Rechenaufwand vernachlässigbar
- Trainingszeit-Vergleich: Reward Scaling ist etwa 15% schneller als Transition Correction
- Adjazenzmatrix-Methoden: Bewahren Knoten-Ordnungsinformationen, weniger anfällig für äquivalente Aktionen
- Graphfolge-Methoden: Neigen zu äquivalenten Aktionen, Problem wird bei Zustandsübergangswahrscheinlichkeiten deutlich
- Bestehende Zielfunktionen (Flow Matching, Detailed Balance, Trajectory Balance usw.) können das Problem äquivalenter Aktionen nicht vermeiden
- Ma et al. (2024) identifizierten das Problem erstmals, boten aber nur Näherungslösungen
- Permutationsäquivarianz führt zu identischen Darstellungen für Knoten im gleichen Orbit
- Begrenzte Ausdruckskraft kann zu Überlappung von Darstellungen verschiedener Orbits führen
- Theoretischer Beitrag: Erste strenge Analyse des Problems äquivalenter Aktionen in GFlowNets, Nachweis systematischer Verzerrungen
- Praktische Lösung: Belohnungsskalierung bietet einfache, exakte und effiziente Korrektionsmethode
- Breite Anwendbarkeit: Methode ist auf atomare und fragmentbasierte Generierung sowie mehrere Trainingsziele anwendbar
- Aktionsdesign-Abhängigkeit: Theoretische Garantien hängen von spezifischen vordefinierten Graphaktionssätzen ab
- Aufgabenspezifität: Hauptsächlich auf molekülentdeckungsbezogenen Datensätzen validiert
- GNN-Ausdruckskraft: Begrenzte GNN-Ausdruckskraft kann zusätzliche Verzerrungen einführen
- Erkundung verschiedener Symmetriemuster und Belohnungsstrukturen in Aufgaben
- Entwurf von GNN-Architekturen mit stärkerer Ausdruckskraft
- Erweiterung auf komplexere Graphgenerierungsszenarien
- Theoretische Strenge: Bereitstellung eines vollständigen mathematischen Rahmens und strenger theoretischer Analyse
- Methodische Einfachheit: Lösung ist äußerst einfach, leicht zu implementieren und zu integrieren
- Praktischer Wert: Demonstriert reale Effektivität in wichtigen Anwendungen wie Molekülgenerierung
- Recheneffizienz: Vermeidung teurer Online-Graphisomorphismustests
- Starke Universalität: Anwendbar auf mehrere GFlowNet-Trainingsziele
- Experimenteller Umfang: Hauptsächlich auf Molekülgenerierungsaufgaben konzentriert, begrenzte Validierung anderer Graphgenerierungsaufgaben
- Theoretische Annahmen: Abhängig von spezifischem Aktionsdesign und GNN-Architektur-Annahmen
- Näherungsmethoden: Näherungskorrektur für Fragmentgenerierung entbehrt theoretischer Garantien
- Skalierbarkeit: Für sehr große Graphen könnte Automorphismusberechnung zum Engpass werden
- Akademischer Wert: Wichtige Ergänzung zur GFlowNet-Theorie, adressiert grundlegende Probleme
- Praktischer Wert: Direkter Beitrag zu Anwendungsbereichen wie Wirkstoffentdeckung
- Reproduzierbarkeit: Einfache Methode, leicht zu reproduzieren und anzuwenden
- Inspirationskraft: Bietet Ansätze für Symmetriebehandlung in anderen Generierungsmodellen
- Moleküldesign: Wirkstoffentdeckung, Materialdesign und andere chemieinformatische Anwendungen
- Graphgenerierung: Graphgenerierungsaufgaben, die Struktursymmetrie berücksichtigen müssen
- Kombinatorische Optimierung: Kombinatorische Optimierungsprobleme mit Symmetriebeschränkungen
- Verstärkungslernen: RL-Aufgaben mit symmetrischen Zustandsräumen
- Bengio et al. (2021) - GFlowNet-Grundlagen
- Ma et al. (2024) - Erste Identifikation des Problems äquivalenter Aktionen
- Malkin et al. (2022) - Trajektorienbilanz-Ziel
- Jain et al. (2023) - Multi-Ziel-GFlowNets-Anwendungen
Gesamtbewertung: Dies ist ein ausgezeichnetes Papier, das Theorie und Praxis verbindet und ein wichtiges, aber übersehenes Grundproblem in GFlowNets löst. Die Methode ist elegant und einfach, die theoretische Analyse ist streng und die experimentelle Validierung ist umfassend. Es trägt wesentlich zur theoretischen Entwicklung von GFlowNets und praktischen Anwendungen bei und wird voraussichtlich anhaltende Auswirkungen auf verwandte Bereiche haben.