2025-11-11T14:46:09.738382

Hierarchical Bayesian Flow Networks for Molecular Graph Generation

Xiong, Chen, Li et al.
Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.
academic

Hierarchische Bayesianische Flussnetzwerke zur Generierung von Molekülgraphen

Grundinformationen

  • Papier-ID: 2510.10211
  • Titel: Hierarchical Bayesian Flow Networks for Molecular Graph Generation
  • Autoren: Yida Xiong, Jiameng Chen, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu (Fakultät für Informatik, Universität Wuhan)
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.10211

Zusammenfassung

Die Generierung von Molekülgraphen ist im Wesentlichen ein kategorisches Generierungsproblem, das darauf abzielt, die Kategorien von Atomen und chemischen Bindungen vorherzusagen. Aktuelle kontinuierliche Diffusionsmodelle behandeln den Trainingsprozess als Regressionsaufgabe und sagen kontinuierliche numerische Werte voraus. Bei der endgültigen Generierung müssen diese jedoch durch Rundungsoperationen in diskrete kategorische Klassen umgewandelt werden. Da der Rundungsprozess während des Trainings nicht berücksichtigt wird, besteht eine erhebliche Diskrepanz zwischen dem Trainingsziel und dem Inferenzprozess, was zu Überanpassung, niedriger Lerneffizienz und verminderter Molekülvielfalt führt. Um diese grundlegende Einschränkung zu beheben, schlagen die Autoren GraphBFN vor – ein hierarchisches Coarse-to-Fine-Framework basierend auf Bayesianischen Flussnetzwerken. Durch die innovative Einführung von kumulativen Verteilungsfunktionen wird die Wahrscheinlichkeit der Auswahl der korrekten Klasse berechnet, wodurch das Trainingsziel und die Sampling-Rundungsoperation vereinheitlicht werden.

Forschungshintergrund und Motivation

Kernproblem

Bei der Generierung von Molekülgraphen besteht ein grundlegendes Trainings-Inferenz-Inkonsistenzproblem:

  1. Trainingsphase: Kontinuierliche Diffusionsmodelle bilden diskrete Atom-/Bindungsklassen in einen kontinuierlichen Raum ab und optimieren kontinuierliche numerische Vorhersagen durch Regressionsverlust
  2. Inferenzphase: Kontinuierliche Vorhersagewerte müssen durch harte Rundung in diskrete Klassen umgewandelt werden
  3. Inkonsistenz: Das Modell berücksichtigt während des Trainings keine Rundungsregeln, was dazu führt, dass es sich übermäßig auf Variationen innerhalb von Klassen konzentriert und die diskrete Natur ignoriert

Bedeutung des Problems

  • Die Generierung von Molekülgraphen ist eine Schlüsseltechnologie in der Arzneimittelentdeckung und beeinflusst Aufgaben wie Moleküloptimierung und Vorhersage der Arzneimittel-Zielaffinität
  • Die Inkonsistenz bestehender Methoden führt zu verminderter Molekülvielfalt und eingeschränkter Generalisierungsfähigkeit
  • Selbst kleine Regressionsfehler können zu völlig falschen Klassifizierungsergebnissen führen

Einschränkungen bestehender Methoden

  1. Diskrete Diffusionsmodelle: Obwohl für diskrete Graphstrukturen geeignet, opfern sie die Glätte der kontinuierlichen Darstellung und dynamische Generierungseigenschaften
  2. Kontinuierliche Diffusionsmodelle: Trainingsziel und Inferenzprozess sind entkoppelt, was zu Überanpassung an irrelevante klasseninterne Variationen führt
  3. Traditionelle Bayesianische Flussnetzwerke: Gehen davon aus, dass alle Klassen im Wahrscheinlichkeitssimplex äquidistant sind, was zu langsamer Konvergenz und höherem Rauschen führt

Kernbeiträge

  1. Erstmalige Anwendung von Bayesianischen Flussnetzwerken auf die Generierung von Molekülgraphen, wobei hierarchische Moleküldarstellungen zur Verbesserung der Generierungsergebnisse herangezogen werden
  2. Innovative Einführung von kumulativen Verteilungsfunktionen (CDF), um Klassenwahrscheinlichkeiten zu berechnen statt spezifische Werte anzupassen, wodurch Trainingsziel und Sampling-Rundungsoperation vereinheitlicht werden
  3. Vorschlag eines hierarchischen Coarse-to-Fine-Frameworks, das durch mehrskalige Graphdarstellungen gleichzeitig lokale Atomkonnektivität und globale Molekültopologie erfasst
  4. Realisierung schnellerer Trainings- und Sampling-Prozesse, mit neuer State-of-the-Art-Leistung auf den Benchmarks QM9 und ZINC250k und deutlich reduzierten Sampling-Schritten

Methodische Details

Aufgabendefinition

Gegeben ein Molekülgraph G=(X,A)G = (X, A), wobei:

  • X{0,,KX1}DX \in \{0, \ldots, K_X - 1\}^D: DD Atommerkmalsmatrizen aus KXK_X Kategorien
  • A{0,,KA1}D×DA \in \{0, \ldots, K_A - 1\}^{D \times D}: Adjazenzmatrix mit Merkmalen aus KAK_A Bindungskategorien

Das Ziel besteht darin, die Generierung neuer Molekülgraphen zu erlernen, die der echten Molekülverteilung entsprechen.

Modellarchitektur

1. Hierarchisches Coarse-to-Fine-Framework

  • Mehrskalige Darstellung: Verwendung von DiffPool zur Konstruktion von LL Vergröberungsschichten, die eine Pyramidendarstellung des Molekülgraphen erzeugen
  • Bottom-up-Generierung: Bedingungslose Generierung beginnend mit der gröbsten Schicht, schrittweise Verfeinerung bis zum vollständigen Atomgraph
  • Bedingungsweitergabe: Das Upsampling-Modul ϕ1(l)\phi_1^{(l)} jeder Schicht wandelt die Ausgabe der groben Schicht in die Bedingung c(l)c^{(l)} der feinen Schicht um

2. Graphdarstellungsmapping

Abbildung diskreter Klassen k{0,,K1}k \in \{0, \ldots, K-1\} in den kontinuierlichen Raum [1,1][-1, 1]:

k_c = (2k + 1)/K - 1  # Mittelpunkt
k_l = k_c - 1/K       # Linke Grenze
k_r = k_c + 1/K       # Rechte Grenze

3. Bayesianische Flussnetzwerk-Komponenten

Eingabeverteilung: Modellierung mit Gaußverteilung

p_I(G|θ) = N(G|μ, ρ^{-1}I)

Sendeverteilung: Hinzufügen von Gaußschem Rauschen

p_S(Y|G; α) = N(Y|G, α^{-1}I)

Ausgabeverteilung: Berechnung diskreter Wahrscheinlichkeiten durch CDF

p_O^{(d)}(k|θ; t) = F(k_r|μ_x^{(d)}, σ_x^{(d)}) - F(k_l|μ_x^{(d)}, σ_x^{(d)})

Empfangsverteilung:

p_R(Y|θ; t, α) = ∏_{d=1}^D ∑_{k=0}^{K-1} p_O^{(d)}(k|θ; t)N(Y^{(d)}|k_c, α^{-1})

4. Schlüsselinnovation: CDF-Mechanismus

Verwendung einer abgeschnittenen kumulativen Verteilungsfunktion zur Verbindung kontinuierlicher Verteilungen mit diskreten Klassen:

F(x|μ_x^{(d)}, σ_x^{(d)}) = {
  0,                    wenn x ≤ -1
  1,                    wenn x ≥ 1
  1/2[1 + erf((x-μ_x^{(d)})/(√2σ_x^{(d)}))], sonst
}

Technische Innovationspunkte

  1. Trainings-Inferenz-Konsistenz: CDF berechnet direkt diskrete Wahrscheinlichkeiten und vermeidet Nichtübereinstimmung zwischen kontinuierlicher Vorhersage und diskreter Rundung
  2. Nicht-äquidistantes Klassenmapping: Im Gegensatz zu traditionellen BFN, die Klassenäquidistanz annehmen, ermöglicht dies schnellere und glattere Konvergenz
  3. Mehrskalige Überwachung: Das hierarchische Framework bietet Strukturinformationen auf verschiedenen Granularitätsebenen und verbessert die Generierungsqualität
  4. End-to-End-Optimierung: Eine einheitliche Verlustfunktion optimiert gleichzeitig BFN-Generierungsverlust und Pooling-Verlust

Experimentelle Einrichtung

Datensätze

  • QM9: Quantenchemie-Datensatz mit 134k kleinen Molekülen
  • ZINC250k: Datensatz mit 250k relativ großen arzneimittelähnlichen Molekülen

Bewertungsmetriken

  • Validity w/o correction: Anteil gültiger Moleküle ohne Korrektur
  • Uniqueness: Anteil eindeutiger generierter Moleküle
  • FCD (Fréchet ChemNet Distance): Distanz zwischen Trainings- und Generierungssatz unter Verwendung von ChemNet-Merkmalen
  • NSPDK MMD: Maximale mittlere Diskrepanz des Nachbarschafts-Subgraph-Paarweise-Distanz-Kernels unter Berücksichtigung von Atom- und Bindungsmerkmalen

Vergleichsmethoden

Mehrere State-of-the-Art-Baselines:

  • Flusmodelle: MoFlow
  • Diffusionsmodelle: EDP-GNN, GDSS, DiGress, GSDM
  • Flow Matching: Dirichlet FM, CatFlow
  • Energiemodelle: GraphEBM

Implementierungsdetails

  • Sampling-Schritte: GraphBFN verwendet 100×L Schritte (L ist die Anzahl der Schichten), deutlich weniger als die 400-1000 Schritte der Baselines
  • Mehrskalige Verlustausgleichsparameter: λ₁, λ₂
  • Minimale Zeitschwelle: t_min = 10⁻⁵

Experimentelle Ergebnisse

Hauptergebnisse

MethodeQM9 Val.↑QM9 Unique↑QM9 FCD↓QM9 NSPDK↓ZINC250k Val.↑ZINC250k Unique↑ZINC250k FCD↓ZINC250k NSPDK↓Sampling-Schritte
GDSS95.7298.462.5650.003397.1299.6414.0320.01921000
CatFlow99.8199.950.4410.002999.21100.0013.2110.0207-
GraphBFN99.6099.970.2140.000896.00100.005.7430.0069100×L

Schlüsselfunde:

  • FCD-Metrik-Verbesserung von 51,5%, NSPDK-Metrik-Verbesserung von 72,4%
  • Optimale Leistung mit deutlich weniger Sampling-Schritten
  • Höchste Eindeutigkeit, die hervorragende Vielfalt widerspiegelt

Ablationsstudien

GraphBFN vs. GraphBFN_w/o (ohne hierarchische Überwachung):

  • Das hierarchische Framework verbessert alle Metriken
  • Obwohl eine gewisse Sampling-Geschwindigkeit geopfert wird, verbessert sich die Generierungsqualität erheblich

Sampling-Effizienzanalyse

  • Hervorragende Leistung in den ersten 50 Schritten
  • Im Vergleich zu Baseline-Methoden, die 400-1000 Schritte benötigen, benötigt GraphBFN nur 100 Schritte für optimale Ergebnisse
  • Geeignet für Anwendungsszenarien, die empfindlich gegenüber Inferenzzeit sind

Verwandte Arbeiten

Modelle zur Generierung von Molekülgraphen

  • Autoregressive Modelle: Schrittweises Hinzufügen von Knoten und Kanten, wie GraphRNN-Serien
  • One-Shot-Modelle: Methoden basierend auf VAE, normalisierten Flüssen, GANs, aber häufig mit Modusabsturz und anderen Problemen
  • Diffusionsmodelle: Aktuelle Mainstream-Richtung, unterteilt in diskrete und kontinuierliche Typen

Graphdiffusionsmodelle

  • Diskrete Diffusion: Direkte Definition von Diffusionsprozessen im diskreten Zustandsraum, wie DiGress
  • Kontinuierliche Diffusion: Abbildung in kontinuierlichen Raum mit Gaußscher Diffusion, wie GDSS, GSDM
  • Kernherausforderung: Wie man mit der Diskretion von Atom- und Bindungsetiketten umgeht

Bayesianische Flussnetzwerke

  • Neue generative Modelle zum Erlernen von Abbildungen zwischen Verteilungen
  • Schaffen kontinuierlich differenzierbare Trainingsprozesse für diskrete Daten
  • Dieses Papier schlägt auf dieser Grundlage einen einfacheren und effektiveren Mechanismus zur Verarbeitung diskreter Merkmale vor

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Lösung des Trainings-Inferenz-Inkonsistenzproblems: Vereinheitlichung kontinuierlichen Trainings und diskreten Samplings durch CDF-Mechanismus
  2. Signifikante Verbesserung der Generierungsqualität: Erreichen neuer State-of-the-Art-Leistung auf Standard-Benchmarks
  3. Drastische Verbesserung der Sampling-Effizienz: Reduktion der Sampling-Schritte auf 1/4 bis 1/10 der Baseline-Methoden
  4. Verbesserung der Molekülvielfalt: Vermeidung von Überanpassung an irrelevante klasseninterne Variationen

Einschränkungen

  1. Unzureichende Interpretierbarkeitsanalyse: Mangelnde tiefgreifende Analyse, wie mehrskalige Informationen die Generierungsergebnisse optimieren
  2. Begrenzte Anwendbarkeit: Hauptsächlich auf relativ kleine Moleküldatensätze validiert
  3. Rechenkomplexität: Das hierarchische Framework erhöht den Rechenaufwand

Zukünftige Richtungen

  1. Erweiterung auf größere und komplexere Graphdomänen
  2. Erkundung von Anwendungen bei bedingten Generierungsaufgaben
  3. Verbesserung der Interpretierbarkeitsanalyse
  4. Optimierung der Recheneffizienz

Tiefgreifende Bewertung

Stärken

  1. Signifikante theoretische Beiträge: Identifizierung und Lösung des grundlegenden Problems kontinuierlicher Diffusionsmodelle
  2. Hervorragende technische Innovationen: CDF-Mechanismus verbindet elegant kontinuierliches Training mit diskreter Inferenz
  3. Umfassende experimentelle Validierung: Vollständige Vergleichsexperimente und Ablationsstudien
  4. Hoher praktischer Wert: Signifikante Effizienzverbesserung, geeignet für praktische Anwendungen

Mängel

  1. Begrenzte Tiefe der theoretischen Analyse: Unzureichende Analyse von Konvergenzeigenschaften und theoretischen Garantien
  2. Begrenzte Experimentskala: Hauptsächlich auf mittleren und kleinen Datensätzen validiert, fehlende großflächige Validierung
  3. Unzureichende Analyse der Rechenkosten: Begrenzte Analyse der zusätzlichen Rechenkosten des hierarchischen Frameworks
  4. Unzureichende Sensitivitätsanalyse: Unzureichende Analyse der Empfindlichkeit gegenüber Schlüsselparametern

Einfluss

  1. Akademischer Beitrag: Bietet neue Lösungsansätze für diskrete Generierungsaufgaben
  2. Praktischer Wert: Kann Arzneimittelentdeckungsprozesse beschleunigen
  3. Reproduzierbarkeit: Klare Methodenbeschreibung, leicht zu reproduzieren
  4. Ausbreitungspotenzial: Framework kann auf andere diskrete Strukturgenerierungsaufgaben erweitert werden

Anwendungsszenarien

  1. Arzneimittelentdeckung: Moleküldesign und -optimierung
  2. Materialwissenschaft: Generierung neuer Materialstrukturen
  3. Chemische Informatik: Erweiterung von Verbindungsbibliotheken
  4. Andere diskrete Strukturgenerierung: Wie Protein- und DNA-Sequenzen

Referenzen

Das Papier zitiert wichtige Arbeiten in diesem Bereich, einschließlich:

  • Graves et al. (2023): Originalarbeit zu Bayesianischen Flussnetzwerken
  • Vignac et al. (2023): DiGress-Methode für diskrete Diffusion
  • Jo, Lee, and Hwang (2022): GDSS-Scoring-Diffusionsmodell
  • Ying et al. (2018): DiffPool-Hierarchisches Graph-Pooling-Verfahren

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das erfolgreich ein Kernproblem bei der Generierung von Molekülgraphen identifiziert und gelöst hat. Durch den innovativen CDF-Mechanismus und das hierarchische Framework wird die theoretische Strenge beibehalten und gleichzeitig die praktische Leistung erheblich verbessert. Obwohl es Raum für Verbesserungen in der Tiefe der theoretischen Analyse und der Experimentskala gibt, sind die Beiträge ausreichend, um die Entwicklung dieses Bereichs voranzutreiben.