2025-11-14T01:22:11.048448

Symmetry-Aware GFlowNets

Kim, Lee, Oh

Generative Flow Networks (GFlowNets) offer a powerful framework for sampling graphs in proportion to their rewards. However, existing approaches suffer from systematic biases due to inaccuracies in state transition probability computations. These biases, rooted in the inherent symmetries of graphs, impact both atom-based and fragment-based generation schemes. To address this challenge, we introduce Symmetry-Aware GFlowNets (SA-GFN), a method that incorporates symmetry corrections into the learning process through reward scaling. By integrating bias correction directly into the reward structure, SA-GFN eliminates the need for explicit state transition computations. Empirical results show that SA-GFN enables unbiased sampling while enhancing diversity and consistently generating high-reward graphs that closely match the target distribution.

academic

Symmetry-Aware GFlowNets

Grundinformationen

Papier-ID: 2506.02685
Titel: Symmetry-Aware GFlowNets
Autoren: Hohyun Kim, Seunggeun Lee, Min-hwan Oh (Seoul National University)
Klassifizierung: stat.ML cs.LG
Veröffentlichungskonferenz: ICML 2025 (42. Internationale Konferenz für maschinelles Lernen)
Papierlink: https://arxiv.org/abs/2506.02685

Zusammenfassung

Generative Flow Networks (GFlowNets) bieten ein leistungsstarkes Framework zum Sampling von Graphen proportional zu Belohnungen. Bestehende Methoden weisen jedoch systematische Verzerrungen aufgrund von Ungenauigkeiten bei der Berechnung von Zustandsübergangswahrscheinlichkeiten auf. Diese Verzerrungen sind in der inhärenten Symmetrie von Graphen verwurzelt und beeinflussen sowohl atomare als auch fragmentbasierte Generierungsschemata. Um diese Herausforderung zu bewältigen, führen wir Symmetry-Aware GFlowNets (SA-GFN) ein, die Symmetriekorrektionen durch Belohnungsskalierung in den Lernprozess integrieren. Durch die direkte Integration der Verzerrungskorrektur in die Belohnungsstruktur eliminiert SA-GFN die Notwendigkeit expliziter Zustandsübergangsberechnungen. Experimentelle Ergebnisse zeigen, dass SA-GFN unverzerrtes Sampling erreicht, während gleichzeitig die Vielfalt erhöht wird und kontinuierlich hochbelohnte Graphen erzeugt werden, die eng mit der Zielverteilung übereinstimmen.

Forschungshintergrund und Motivation

Kernproblem

GFlowNets sehen sich bei Graphgenerierungsaufgaben mit dem Problem äquivalenter Aktionen konfrontiert: Unterschiedliche Aktionen können zu strukturell identischen Graphen führen. Beispielsweise können beim Hinzufügen eines neuen Knotens zu einem Graphen Aktionen, die mit zwei symmetrischen Knoten verbunden sind, obwohl unterschiedlich, zu isomorphen Graphen führen. In diesem Fall müssen Zustandsübergangswahrscheinlichkeiten alle äquivalenten Aktionen berücksichtigen, was rechnerisch teuer ist.

Bedeutung des Problems

Verzerrung bei der Molekülgenerierung: Bei der Molekülentdeckung weisen über 50% der Moleküle mehrere Symmetrien auf, 18% enthalten vier oder mehr Symmetrien. Das Ignorieren von Symmetrien führt zu fehlerhafter Modellierung und verminderter Genauigkeit bei der Molekülstrukturenerzeugung.
Systematische Verzerrung: Die Verzerrung ist systematisch und bevorzugt bei der Knotengenerierung Graphen mit weniger Symmetrien und bei der Fragmentgenerierung symmetrische Komponenten.
Rechenkomplexität: Die genaue Berechnung von Zustandsübergangswahrscheinlichkeiten erfordert teure Graphisomorphismustests.

Einschränkungen bestehender Methoden

Ma et al. (2024) schlagen die Verwendung von Positionskodierungen zur ungefähren Erkennung äquivalenter Aktionen vor, erfordern jedoch die Anwendung bei jedem Übergang, was zu großem Rechenaufwand führt und nur eine Näherungslösung darstellt.
Traditionelle GFlowNet-Zielfunktionen (TB, DB usw.) können das Problem äquivalenter Aktionen nicht vermeiden, da sie auf Zustandsübergangsformalismus basieren.

Kernbeiträge

Theoretischer Beitrag: Bereitstellung einer strengen Formalisierung der autoregressiven Graphgenerierung im GFlowNet-Framework, die das Problem äquivalenter Aktionen explizit adressiert
Einfache und effektive Lösung: Vorschlag einer Belohnungsskalierungsmethode basierend auf der Größe der Automorphismusgruppe, die nur minimale Änderungen an bestehenden Trainingsalgorithmen erfordert
Unverzerrter Schätzer: Ableitung eines unverzerrten Schätzers für die Modellwahrscheinlichkeit
Experimentelle Validierung: Experimentelle Verifikation der theoretischen Ergebnisse, die die Effektivität der Methode bei der Generierung vielfältiger hochbelohnter Stichproben nachweist

Methodische Details

Aufgabendefinition

Gegeben eine Belohnungsfunktion R(x) besteht das Ziel von GFlowNets darin, eine Strategie pA zu trainieren, sodass die Sampling-Wahrscheinlichkeit von Terminalzuständen proportional zu ihrer Belohnung ist: p̄A(x) = R(x)/Z, wobei Z eine Normalisierungskonstante ist.

Theoretisches Kernframework

1. Graphisomorphismus und Äquivalenzrelationen

Graphisomorphismus: Zwei Graphen G und G' sind isomorph (G ≅ G'), wenn eine Permutation π existiert, sodass π(E) = E'
Automorphismusgruppe: Die Automorphismusgruppe Aut(G) eines Graphen G ist die Menge aller Permutationen, die die Graphstruktur invariant lassen
Orbit: Der Orbit eines Knotens u ist Orb(G,u) = {v ∈ V : ∃π ∈ Aut(G), π(u) = v}

2. Formalisierung äquivalenter Aktionen

Definition 4.1 (Übergangäquivalenz): Wenn G₁ ≅ G₂ und G'₁ ≅ G'₂, dann sind die Graphübergänge (G₁,G'₁) und (G₂,G'₂) übergangäquivalent.

Definition 4.2 (Orbitäquivalenz): Wenn der Aktionstyp identisch ist und eine Permutation π existiert, sodass π(G₁) = G₂ und π(u₁) = u₂, dann sind die Graphaktionen (G₁,t₁,u₁) und (G₂,t₂,u₂) orbitäquivalent.

Theorem 4.3: Orbitäquivalente Aktionen führen zu übergangäquivalenten Übergängen.

3. Wichtige theoretische Ergebnisse

Lemma 4.5: Für AddEdge-Aktionen gilt $\frac{|\text{Orb}(G,u,v)|}{|\text{Orb}(G',u,v)|} = \frac{|\text{Aut}(G)|}{|\text{Aut}(G')|}$

Theorem 4.6 (Automorphismuskorrektur): Wenn permutationsäquivariante Funktionen verwendet werden, dann $\frac{p_{\bar{A}}(a|s)}{q_{\bar{A}}(a|s')} = \frac{|\text{Aut}(G)|}{|\text{Aut}(G')|} \cdot \frac{p_E(G'|G)}{q_E(G|G')}$

Symmetriebewusste Korrektionsmethode

1. Belohnungsskalierung für Knotengenerierung

Korollar 5.1 (TB-Korrektur): Der Trajektorienbilanz-Verlust sollte sein $L_{TB}(\tau) = \left(\log \frac{Z\prod_{t=0}^{n-1} p_E(G_{t+1}|G_t)}{|\text{Aut}(G_n)|R(G_n)\prod_{t=0}^{n-1} q_E(G_t|G_{t+1})}\right)^2$

Lösung: Belohnung skalieren zu $\tilde{R}(G) = |\text{Aut}(G)|R(G)$

2. Korrektur für Fragmentgenerierung

Theorem 5.3 (Fragmentkorrektur): Für einen Terminalzustand G, der durch Verbindung von k Fragmenten {C₁,...,Cₖ} erzeugt wird: $\tilde{R}(G) = \frac{|\text{Aut}(G)|R(G)}{\prod_{i=1}^k |\text{Aut}(C_i)|}$

3. Unverzerrter Schätzer für Modellwahrscheinlichkeit

$\bar{p}_A(x) = \mathbb{E}_{\tau \sim q_E(\tau|G_n)}\left[\frac{p_E(\tau)}{|\text{Aut}(G_n)|q_E(\tau|G_n)}\right]$

Technische Innovationen

Theoretische Eleganz: Vereinfachung komplexer übergangsstufiger Korrektionen zu Belohnungsskalierung auf Terminalzuständen
Recheneffizienz: Vermeidung teurer Graphisomorphismustests bei jedem Schritt, nur einmalige Berechnung der Automorphismusgruppengröße erforderlich
Universalität: Anwendbar auf mehrere GFlowNet-Zielfunktionen wie TB, DB, FM
Genauigkeit: Bereitstellung exakter Lösungen statt Näherungen

Experimentelle Einrichtung

Datensätze

Illustrative Beispiele: Initialzustand mit 6 getrennten Knoten, 112 Terminalzustände
Synthetische Graphen: Heterogene Graphen mit bis zu 7 Knoten, 72.296 Terminalzustände
Molekülgenerierung:
- Atomare Ebene: HOMO-LUMO-Lückenprädiktion
- Fragmentebene: sEH-Zielbindungsaffinitätsprädiktion

Bewertungsmetriken

L1-Fehler: L1-Fehler zwischen Zielwahrscheinlichkeit und Modell-Terminalwahrscheinlichkeit
Vielfalt: Durchschnittliche Tanimoto-Distanz zwischen Molekülen
Top-K-Metriken: Vielfalt und Belohnung der Top-K hochbelohnten Moleküle
Eindeutigkeit: Anteil eindeutiger Moleküle in generierten Stichproben

Vergleichsmethoden

Vanilla GFlowNets: Berücksichtigung von Graphsymmetrien nicht
Transition Correction: Identifikation übergangäquivalenter Aktionen durch mehrfache Isomorphismustests
PE (Ma et al., 2024): Verwendung von Positionskodierungen zur ungefähren Identifikation orbitäquivalenter Aktionen
Reward Scaling (dieses Papier): Korrektur durch Modifikation des Belohnungssignals
Flow Scaling (dieses Papier): Multiplikation mit Symmetriequotient bei jedem Übergang

Experimentelle Ergebnisse

Hauptergebnisse

1. Illustrative Experimente

Das Vanilla-Modell zeigt Terminalwahrscheinlichkeiten, die nach |x| geclustert sind, mit offensichtlicher Verzerrung
Reward Scaling erreicht die gleiche Leistung wie Transition Correction
Geschätzte Normalisierungskonstante Z: Reward Scaling = 112 (Wahrheitswert), Vanilla = 26.706

2. Synthetische Graphexperimente

TB-Ziel: Reward Scaling reduziert L1-Fehler signifikant, vergleichbar mit Transition Correction
DB-Ziel: Reward Scaling konvergiert langsamer, erreicht aber letztendlich gleiche Genauigkeit
PE-Methode als Näherungslösung zeigt Leistung zwischen Vanilla und exakten Methoden

3. Molekülgenerierungsexperimente

Ergebnisse auf atomarer Ebene:

Vielfalt: 0,929→0,959 (Vanilla→Reward Scaling)
Eindeutigkeit: 0,93→1,0

Ergebnisse auf Fragmentebene:

Top-K-Belohnung: 0,941→0,952 (Vanilla→Reward Scaling Exact)
Cyclohexan-Fragmentnutzung: 5.220→1.042 (signifikante Reduktion der Übernutzung symmetrischer Fragmente)

Ablationsstudien

Näherungskorrektur vs. exakte Korrektur: Näherungsmethoden zeigen bereits signifikante Leistungsverbesserungen
Verschiedene Zielfunktionen: Sowohl TB als auch DB können durch Belohnungsskalierung effektiv korrigiert werden

Recheneffizienzanalyse

Automorphismusberechnungszeit: QM9-Datensatz 0,010 ms, ZINC250k-Datensatz 0,022 ms
Im Vergleich zu neuronalen Netzwerk-Vorwärtsdurchläufen bei der Trajektorienstichprobennahme ist der Rechenaufwand vernachlässigbar
Trainingszeit-Vergleich: Reward Scaling ist etwa 15% schneller als Transition Correction

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Beitrag: Erste strenge Analyse des Problems äquivalenter Aktionen in GFlowNets, Nachweis systematischer Verzerrungen
Praktische Lösung: Belohnungsskalierung bietet einfache, exakte und effiziente Korrektionsmethode
Breite Anwendbarkeit: Methode ist auf atomare und fragmentbasierte Generierung sowie mehrere Trainingsziele anwendbar

Einschränkungen

Aktionsdesign-Abhängigkeit: Theoretische Garantien hängen von spezifischen vordefinierten Graphaktionssätzen ab
Aufgabenspezifität: Hauptsächlich auf molekülentdeckungsbezogenen Datensätzen validiert
GNN-Ausdruckskraft: Begrenzte GNN-Ausdruckskraft kann zusätzliche Verzerrungen einführen

Zukünftige Richtungen

Erkundung verschiedener Symmetriemuster und Belohnungsstrukturen in Aufgaben
Entwurf von GNN-Architekturen mit stärkerer Ausdruckskraft
Erweiterung auf komplexere Graphgenerierungsszenarien

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Bereitstellung eines vollständigen mathematischen Rahmens und strenger theoretischer Analyse
Methodische Einfachheit: Lösung ist äußerst einfach, leicht zu implementieren und zu integrieren
Praktischer Wert: Demonstriert reale Effektivität in wichtigen Anwendungen wie Molekülgenerierung
Recheneffizienz: Vermeidung teurer Online-Graphisomorphismustests
Starke Universalität: Anwendbar auf mehrere GFlowNet-Trainingsziele

Schwächen

Experimenteller Umfang: Hauptsächlich auf Molekülgenerierungsaufgaben konzentriert, begrenzte Validierung anderer Graphgenerierungsaufgaben
Theoretische Annahmen: Abhängig von spezifischem Aktionsdesign und GNN-Architektur-Annahmen
Näherungsmethoden: Näherungskorrektur für Fragmentgenerierung entbehrt theoretischer Garantien
Skalierbarkeit: Für sehr große Graphen könnte Automorphismusberechnung zum Engpass werden

Einfluss

Akademischer Wert: Wichtige Ergänzung zur GFlowNet-Theorie, adressiert grundlegende Probleme
Praktischer Wert: Direkter Beitrag zu Anwendungsbereichen wie Wirkstoffentdeckung
Reproduzierbarkeit: Einfache Methode, leicht zu reproduzieren und anzuwenden
Inspirationskraft: Bietet Ansätze für Symmetriebehandlung in anderen Generierungsmodellen

Anwendungsszenarien

Moleküldesign: Wirkstoffentdeckung, Materialdesign und andere chemieinformatische Anwendungen
Graphgenerierung: Graphgenerierungsaufgaben, die Struktursymmetrie berücksichtigen müssen
Kombinatorische Optimierung: Kombinatorische Optimierungsprobleme mit Symmetriebeschränkungen
Verstärkungslernen: RL-Aufgaben mit symmetrischen Zustandsräumen

Referenzen

Bengio et al. (2021) - GFlowNet-Grundlagen
Ma et al. (2024) - Erste Identifikation des Problems äquivalenter Aktionen
Malkin et al. (2022) - Trajektorienbilanz-Ziel
Jain et al. (2023) - Multi-Ziel-GFlowNets-Anwendungen

Gesamtbewertung: Dies ist ein ausgezeichnetes Papier, das Theorie und Praxis verbindet und ein wichtiges, aber übersehenes Grundproblem in GFlowNets löst. Die Methode ist elegant und einfach, die theoretische Analyse ist streng und die experimentelle Validierung ist umfassend. Es trägt wesentlich zur theoretischen Entwicklung von GFlowNets und praktischen Anwendungen bei und wird voraussichtlich anhaltende Auswirkungen auf verwandte Bereiche haben.