2025-11-11T14:46:09.738382

Hierarchical Bayesian Flow Networks for Molecular Graph Generation

Xiong, Chen, Li et al.

Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.

academic

Hierarchische Bayesianische Flussnetzwerke zur Generierung von Molekülgraphen

Grundinformationen

Papier-ID: 2510.10211
Titel: Hierarchical Bayesian Flow Networks for Molecular Graph Generation
Autoren: Yida Xiong, Jiameng Chen, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu (Fakultät für Informatik, Universität Wuhan)
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.10211

Zusammenfassung

Die Generierung von Molekülgraphen ist im Wesentlichen ein kategorisches Generierungsproblem, das darauf abzielt, die Kategorien von Atomen und chemischen Bindungen vorherzusagen. Aktuelle kontinuierliche Diffusionsmodelle behandeln den Trainingsprozess als Regressionsaufgabe und sagen kontinuierliche numerische Werte voraus. Bei der endgültigen Generierung müssen diese jedoch durch Rundungsoperationen in diskrete kategorische Klassen umgewandelt werden. Da der Rundungsprozess während des Trainings nicht berücksichtigt wird, besteht eine erhebliche Diskrepanz zwischen dem Trainingsziel und dem Inferenzprozess, was zu Überanpassung, niedriger Lerneffizienz und verminderter Molekülvielfalt führt. Um diese grundlegende Einschränkung zu beheben, schlagen die Autoren GraphBFN vor – ein hierarchisches Coarse-to-Fine-Framework basierend auf Bayesianischen Flussnetzwerken. Durch die innovative Einführung von kumulativen Verteilungsfunktionen wird die Wahrscheinlichkeit der Auswahl der korrekten Klasse berechnet, wodurch das Trainingsziel und die Sampling-Rundungsoperation vereinheitlicht werden.

Forschungshintergrund und Motivation

Kernproblem

Bei der Generierung von Molekülgraphen besteht ein grundlegendes Trainings-Inferenz-Inkonsistenzproblem:

Trainingsphase: Kontinuierliche Diffusionsmodelle bilden diskrete Atom-/Bindungsklassen in einen kontinuierlichen Raum ab und optimieren kontinuierliche numerische Vorhersagen durch Regressionsverlust
Inferenzphase: Kontinuierliche Vorhersagewerte müssen durch harte Rundung in diskrete Klassen umgewandelt werden
Inkonsistenz: Das Modell berücksichtigt während des Trainings keine Rundungsregeln, was dazu führt, dass es sich übermäßig auf Variationen innerhalb von Klassen konzentriert und die diskrete Natur ignoriert

Bedeutung des Problems

Die Generierung von Molekülgraphen ist eine Schlüsseltechnologie in der Arzneimittelentdeckung und beeinflusst Aufgaben wie Moleküloptimierung und Vorhersage der Arzneimittel-Zielaffinität
Die Inkonsistenz bestehender Methoden führt zu verminderter Molekülvielfalt und eingeschränkter Generalisierungsfähigkeit
Selbst kleine Regressionsfehler können zu völlig falschen Klassifizierungsergebnissen führen

Einschränkungen bestehender Methoden

Diskrete Diffusionsmodelle: Obwohl für diskrete Graphstrukturen geeignet, opfern sie die Glätte der kontinuierlichen Darstellung und dynamische Generierungseigenschaften
Kontinuierliche Diffusionsmodelle: Trainingsziel und Inferenzprozess sind entkoppelt, was zu Überanpassung an irrelevante klasseninterne Variationen führt
Traditionelle Bayesianische Flussnetzwerke: Gehen davon aus, dass alle Klassen im Wahrscheinlichkeitssimplex äquidistant sind, was zu langsamer Konvergenz und höherem Rauschen führt

Kernbeiträge

Erstmalige Anwendung von Bayesianischen Flussnetzwerken auf die Generierung von Molekülgraphen, wobei hierarchische Moleküldarstellungen zur Verbesserung der Generierungsergebnisse herangezogen werden
Innovative Einführung von kumulativen Verteilungsfunktionen (CDF), um Klassenwahrscheinlichkeiten zu berechnen statt spezifische Werte anzupassen, wodurch Trainingsziel und Sampling-Rundungsoperation vereinheitlicht werden
Vorschlag eines hierarchischen Coarse-to-Fine-Frameworks, das durch mehrskalige Graphdarstellungen gleichzeitig lokale Atomkonnektivität und globale Molekültopologie erfasst
Realisierung schnellerer Trainings- und Sampling-Prozesse, mit neuer State-of-the-Art-Leistung auf den Benchmarks QM9 und ZINC250k und deutlich reduzierten Sampling-Schritten

Methodische Details

Aufgabendefinition

Gegeben ein Molekülgraph $G = (X, A)$ , wobei:

$X \in \{0, \ldots, K_X - 1\}^D$ : $D$ Atommerkmalsmatrizen aus $K_X$ Kategorien
$A \in \{0, \ldots, K_A - 1\}^{D \times D}$ : Adjazenzmatrix mit Merkmalen aus $K_A$ Bindungskategorien

Das Ziel besteht darin, die Generierung neuer Molekülgraphen zu erlernen, die der echten Molekülverteilung entsprechen.

Modellarchitektur

1. Hierarchisches Coarse-to-Fine-Framework

Mehrskalige Darstellung: Verwendung von DiffPool zur Konstruktion von $L$ Vergröberungsschichten, die eine Pyramidendarstellung des Molekülgraphen erzeugen
Bottom-up-Generierung: Bedingungslose Generierung beginnend mit der gröbsten Schicht, schrittweise Verfeinerung bis zum vollständigen Atomgraph
Bedingungsweitergabe: Das Upsampling-Modul $\phi_1^{(l)}$ jeder Schicht wandelt die Ausgabe der groben Schicht in die Bedingung $c^{(l)}$ der feinen Schicht um

2. Graphdarstellungsmapping

Abbildung diskreter Klassen $k \in \{0, \ldots, K-1\}$ in den kontinuierlichen Raum $[-1, 1]$ :

k_c = (2k + 1)/K - 1  # Mittelpunkt
k_l = k_c - 1/K       # Linke Grenze
k_r = k_c + 1/K       # Rechte Grenze

3. Bayesianische Flussnetzwerk-Komponenten

Eingabeverteilung: Modellierung mit Gaußverteilung

p_I(G|θ) = N(G|μ, ρ^{-1}I)

Sendeverteilung: Hinzufügen von Gaußschem Rauschen

p_S(Y|G; α) = N(Y|G, α^{-1}I)

Ausgabeverteilung: Berechnung diskreter Wahrscheinlichkeiten durch CDF

p_O^{(d)}(k|θ; t) = F(k_r|μ_x^{(d)}, σ_x^{(d)}) - F(k_l|μ_x^{(d)}, σ_x^{(d)})

Empfangsverteilung:

p_R(Y|θ; t, α) = ∏_{d=1}^D ∑_{k=0}^{K-1} p_O^{(d)}(k|θ; t)N(Y^{(d)}|k_c, α^{-1})

4. Schlüsselinnovation: CDF-Mechanismus

Verwendung einer abgeschnittenen kumulativen Verteilungsfunktion zur Verbindung kontinuierlicher Verteilungen mit diskreten Klassen:

F(x|μ_x^{(d)}, σ_x^{(d)}) = {
  0,                    wenn x ≤ -1
  1,                    wenn x ≥ 1
  1/2[1 + erf((x-μ_x^{(d)})/(√2σ_x^{(d)}))], sonst
}

Technische Innovationspunkte

Trainings-Inferenz-Konsistenz: CDF berechnet direkt diskrete Wahrscheinlichkeiten und vermeidet Nichtübereinstimmung zwischen kontinuierlicher Vorhersage und diskreter Rundung
Nicht-äquidistantes Klassenmapping: Im Gegensatz zu traditionellen BFN, die Klassenäquidistanz annehmen, ermöglicht dies schnellere und glattere Konvergenz
Mehrskalige Überwachung: Das hierarchische Framework bietet Strukturinformationen auf verschiedenen Granularitätsebenen und verbessert die Generierungsqualität
End-to-End-Optimierung: Eine einheitliche Verlustfunktion optimiert gleichzeitig BFN-Generierungsverlust und Pooling-Verlust

Experimentelle Einrichtung

Datensätze

QM9: Quantenchemie-Datensatz mit 134k kleinen Molekülen
ZINC250k: Datensatz mit 250k relativ großen arzneimittelähnlichen Molekülen

Bewertungsmetriken

Validity w/o correction: Anteil gültiger Moleküle ohne Korrektur
Uniqueness: Anteil eindeutiger generierter Moleküle
FCD (Fréchet ChemNet Distance): Distanz zwischen Trainings- und Generierungssatz unter Verwendung von ChemNet-Merkmalen
NSPDK MMD: Maximale mittlere Diskrepanz des Nachbarschafts-Subgraph-Paarweise-Distanz-Kernels unter Berücksichtigung von Atom- und Bindungsmerkmalen

Vergleichsmethoden

Mehrere State-of-the-Art-Baselines:

Flusmodelle: MoFlow
Diffusionsmodelle: EDP-GNN, GDSS, DiGress, GSDM
Flow Matching: Dirichlet FM, CatFlow
Energiemodelle: GraphEBM

Implementierungsdetails

Sampling-Schritte: GraphBFN verwendet 100×L Schritte (L ist die Anzahl der Schichten), deutlich weniger als die 400-1000 Schritte der Baselines
Mehrskalige Verlustausgleichsparameter: λ₁, λ₂
Minimale Zeitschwelle: t_min = 10⁻⁵

Experimentelle Ergebnisse

Hauptergebnisse

Methode	QM9 Val.↑	QM9 Unique↑	QM9 FCD↓	QM9 NSPDK↓	ZINC250k Val.↑	ZINC250k Unique↑	ZINC250k FCD↓	ZINC250k NSPDK↓	Sampling-Schritte
GDSS	95.72	98.46	2.565	0.0033	97.12	99.64	14.032	0.0192	1000
CatFlow	99.81	99.95	0.441	0.0029	99.21	100.00	13.211	0.0207	-
GraphBFN	99.60	99.97	0.214	0.0008	96.00	100.00	5.743	0.0069	100×L

Schlüsselfunde:

FCD-Metrik-Verbesserung von 51,5%, NSPDK-Metrik-Verbesserung von 72,4%
Optimale Leistung mit deutlich weniger Sampling-Schritten
Höchste Eindeutigkeit, die hervorragende Vielfalt widerspiegelt

Ablationsstudien

GraphBFN vs. GraphBFN_w/o (ohne hierarchische Überwachung):

Das hierarchische Framework verbessert alle Metriken
Obwohl eine gewisse Sampling-Geschwindigkeit geopfert wird, verbessert sich die Generierungsqualität erheblich

Sampling-Effizienzanalyse

Hervorragende Leistung in den ersten 50 Schritten
Im Vergleich zu Baseline-Methoden, die 400-1000 Schritte benötigen, benötigt GraphBFN nur 100 Schritte für optimale Ergebnisse
Geeignet für Anwendungsszenarien, die empfindlich gegenüber Inferenzzeit sind

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreiche Lösung des Trainings-Inferenz-Inkonsistenzproblems: Vereinheitlichung kontinuierlichen Trainings und diskreten Samplings durch CDF-Mechanismus
Signifikante Verbesserung der Generierungsqualität: Erreichen neuer State-of-the-Art-Leistung auf Standard-Benchmarks
Drastische Verbesserung der Sampling-Effizienz: Reduktion der Sampling-Schritte auf 1/4 bis 1/10 der Baseline-Methoden
Verbesserung der Molekülvielfalt: Vermeidung von Überanpassung an irrelevante klasseninterne Variationen

Einschränkungen

Unzureichende Interpretierbarkeitsanalyse: Mangelnde tiefgreifende Analyse, wie mehrskalige Informationen die Generierungsergebnisse optimieren
Begrenzte Anwendbarkeit: Hauptsächlich auf relativ kleine Moleküldatensätze validiert
Rechenkomplexität: Das hierarchische Framework erhöht den Rechenaufwand

Zukünftige Richtungen

Erweiterung auf größere und komplexere Graphdomänen
Erkundung von Anwendungen bei bedingten Generierungsaufgaben
Verbesserung der Interpretierbarkeitsanalyse
Optimierung der Recheneffizienz

Tiefgreifende Bewertung

Stärken

Signifikante theoretische Beiträge: Identifizierung und Lösung des grundlegenden Problems kontinuierlicher Diffusionsmodelle
Hervorragende technische Innovationen: CDF-Mechanismus verbindet elegant kontinuierliches Training mit diskreter Inferenz
Umfassende experimentelle Validierung: Vollständige Vergleichsexperimente und Ablationsstudien
Hoher praktischer Wert: Signifikante Effizienzverbesserung, geeignet für praktische Anwendungen

Mängel

Begrenzte Tiefe der theoretischen Analyse: Unzureichende Analyse von Konvergenzeigenschaften und theoretischen Garantien
Begrenzte Experimentskala: Hauptsächlich auf mittleren und kleinen Datensätzen validiert, fehlende großflächige Validierung
Unzureichende Analyse der Rechenkosten: Begrenzte Analyse der zusätzlichen Rechenkosten des hierarchischen Frameworks
Unzureichende Sensitivitätsanalyse: Unzureichende Analyse der Empfindlichkeit gegenüber Schlüsselparametern

Einfluss

Akademischer Beitrag: Bietet neue Lösungsansätze für diskrete Generierungsaufgaben
Praktischer Wert: Kann Arzneimittelentdeckungsprozesse beschleunigen
Reproduzierbarkeit: Klare Methodenbeschreibung, leicht zu reproduzieren
Ausbreitungspotenzial: Framework kann auf andere diskrete Strukturgenerierungsaufgaben erweitert werden

Anwendungsszenarien

Arzneimittelentdeckung: Moleküldesign und -optimierung
Materialwissenschaft: Generierung neuer Materialstrukturen
Chemische Informatik: Erweiterung von Verbindungsbibliotheken
Andere diskrete Strukturgenerierung: Wie Protein- und DNA-Sequenzen

Referenzen

Das Papier zitiert wichtige Arbeiten in diesem Bereich, einschließlich:

Graves et al. (2023): Originalarbeit zu Bayesianischen Flussnetzwerken
Vignac et al. (2023): DiGress-Methode für diskrete Diffusion
Jo, Lee, and Hwang (2022): GDSS-Scoring-Diffusionsmodell
Ying et al. (2018): DiffPool-Hierarchisches Graph-Pooling-Verfahren

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das erfolgreich ein Kernproblem bei der Generierung von Molekülgraphen identifiziert und gelöst hat. Durch den innovativen CDF-Mechanismus und das hierarchische Framework wird die theoretische Strenge beibehalten und gleichzeitig die praktische Leistung erheblich verbessert. Obwohl es Raum für Verbesserungen in der Tiefe der theoretischen Analyse und der Experimentskala gibt, sind die Beiträge ausreichend, um die Entwicklung dieses Bereichs voranzutreiben.