Hierarchical Bayesian Flow Networks for Molecular Graph Generation
Xiong, Chen, Li et al.
Molecular graph generation is essentially a classification generation problem, aimed at predicting categories of atoms and bonds. Currently, prevailing paradigms such as continuous diffusion models are trained to predict continuous numerical values, treating the training process as a regression task. However, the final generation necessitates a rounding step to convert these predictions back into discrete classification categories, which is intrinsically a classification operation. Given that the rounding operation is not incorporated during training, there exists a significant discrepancy between the model's training objective and its inference procedure. As a consequence, an excessive emphasis on point-wise precision can lead to overfitting and inefficient learning. This occurs because considerable efforts are devoted to capturing intra-bin variations that are ultimately irrelevant to the discrete nature of the task at hand. Such a flaw results in diminished molecular diversity and constrains the model's generalization capabilities. To address this fundamental limitation, we propose GraphBFN, a novel hierarchical coarse-to-fine framework based on Bayesian Flow Networks that operates on the parameters of distributions. By innovatively introducing Cumulative Distribution Function, GraphBFN is capable of calculating the probability of selecting the correct category, thereby unifying the training objective with the sampling rounding operation. We demonstrate that our method achieves superior performance and faster generation, setting new state-of-the-art results on the QM9 and ZINC250k molecular graph generation benchmarks.
academic
Hierarchische Bayesianische Flussnetzwerke zur Generierung von Molekülgraphen
Die Generierung von Molekülgraphen ist im Wesentlichen ein kategorisches Generierungsproblem, das darauf abzielt, die Kategorien von Atomen und chemischen Bindungen vorherzusagen. Aktuelle kontinuierliche Diffusionsmodelle behandeln den Trainingsprozess als Regressionsaufgabe und sagen kontinuierliche numerische Werte voraus. Bei der endgültigen Generierung müssen diese jedoch durch Rundungsoperationen in diskrete kategorische Klassen umgewandelt werden. Da der Rundungsprozess während des Trainings nicht berücksichtigt wird, besteht eine erhebliche Diskrepanz zwischen dem Trainingsziel und dem Inferenzprozess, was zu Überanpassung, niedriger Lerneffizienz und verminderter Molekülvielfalt führt. Um diese grundlegende Einschränkung zu beheben, schlagen die Autoren GraphBFN vor – ein hierarchisches Coarse-to-Fine-Framework basierend auf Bayesianischen Flussnetzwerken. Durch die innovative Einführung von kumulativen Verteilungsfunktionen wird die Wahrscheinlichkeit der Auswahl der korrekten Klasse berechnet, wodurch das Trainingsziel und die Sampling-Rundungsoperation vereinheitlicht werden.
Bei der Generierung von Molekülgraphen besteht ein grundlegendes Trainings-Inferenz-Inkonsistenzproblem:
Trainingsphase: Kontinuierliche Diffusionsmodelle bilden diskrete Atom-/Bindungsklassen in einen kontinuierlichen Raum ab und optimieren kontinuierliche numerische Vorhersagen durch Regressionsverlust
Inferenzphase: Kontinuierliche Vorhersagewerte müssen durch harte Rundung in diskrete Klassen umgewandelt werden
Inkonsistenz: Das Modell berücksichtigt während des Trainings keine Rundungsregeln, was dazu führt, dass es sich übermäßig auf Variationen innerhalb von Klassen konzentriert und die diskrete Natur ignoriert
Die Generierung von Molekülgraphen ist eine Schlüsseltechnologie in der Arzneimittelentdeckung und beeinflusst Aufgaben wie Moleküloptimierung und Vorhersage der Arzneimittel-Zielaffinität
Die Inkonsistenz bestehender Methoden führt zu verminderter Molekülvielfalt und eingeschränkter Generalisierungsfähigkeit
Selbst kleine Regressionsfehler können zu völlig falschen Klassifizierungsergebnissen führen
Diskrete Diffusionsmodelle: Obwohl für diskrete Graphstrukturen geeignet, opfern sie die Glätte der kontinuierlichen Darstellung und dynamische Generierungseigenschaften
Kontinuierliche Diffusionsmodelle: Trainingsziel und Inferenzprozess sind entkoppelt, was zu Überanpassung an irrelevante klasseninterne Variationen führt
Traditionelle Bayesianische Flussnetzwerke: Gehen davon aus, dass alle Klassen im Wahrscheinlichkeitssimplex äquidistant sind, was zu langsamer Konvergenz und höherem Rauschen führt
Erstmalige Anwendung von Bayesianischen Flussnetzwerken auf die Generierung von Molekülgraphen, wobei hierarchische Moleküldarstellungen zur Verbesserung der Generierungsergebnisse herangezogen werden
Innovative Einführung von kumulativen Verteilungsfunktionen (CDF), um Klassenwahrscheinlichkeiten zu berechnen statt spezifische Werte anzupassen, wodurch Trainingsziel und Sampling-Rundungsoperation vereinheitlicht werden
Vorschlag eines hierarchischen Coarse-to-Fine-Frameworks, das durch mehrskalige Graphdarstellungen gleichzeitig lokale Atomkonnektivität und globale Molekültopologie erfasst
Realisierung schnellerer Trainings- und Sampling-Prozesse, mit neuer State-of-the-Art-Leistung auf den Benchmarks QM9 und ZINC250k und deutlich reduzierten Sampling-Schritten
Mehrskalige Darstellung: Verwendung von DiffPool zur Konstruktion von L Vergröberungsschichten, die eine Pyramidendarstellung des Molekülgraphen erzeugen
Bottom-up-Generierung: Bedingungslose Generierung beginnend mit der gröbsten Schicht, schrittweise Verfeinerung bis zum vollständigen Atomgraph
Bedingungsweitergabe: Das Upsampling-Modul ϕ1(l) jeder Schicht wandelt die Ausgabe der groben Schicht in die Bedingung c(l) der feinen Schicht um
Trainings-Inferenz-Konsistenz: CDF berechnet direkt diskrete Wahrscheinlichkeiten und vermeidet Nichtübereinstimmung zwischen kontinuierlicher Vorhersage und diskreter Rundung
Nicht-äquidistantes Klassenmapping: Im Gegensatz zu traditionellen BFN, die Klassenäquidistanz annehmen, ermöglicht dies schnellere und glattere Konvergenz
Mehrskalige Überwachung: Das hierarchische Framework bietet Strukturinformationen auf verschiedenen Granularitätsebenen und verbessert die Generierungsqualität
End-to-End-Optimierung: Eine einheitliche Verlustfunktion optimiert gleichzeitig BFN-Generierungsverlust und Pooling-Verlust
Erfolgreiche Lösung des Trainings-Inferenz-Inkonsistenzproblems: Vereinheitlichung kontinuierlichen Trainings und diskreten Samplings durch CDF-Mechanismus
Signifikante Verbesserung der Generierungsqualität: Erreichen neuer State-of-the-Art-Leistung auf Standard-Benchmarks
Drastische Verbesserung der Sampling-Effizienz: Reduktion der Sampling-Schritte auf 1/4 bis 1/10 der Baseline-Methoden
Verbesserung der Molekülvielfalt: Vermeidung von Überanpassung an irrelevante klasseninterne Variationen
Das Papier zitiert wichtige Arbeiten in diesem Bereich, einschließlich:
Graves et al. (2023): Originalarbeit zu Bayesianischen Flussnetzwerken
Vignac et al. (2023): DiGress-Methode für diskrete Diffusion
Jo, Lee, and Hwang (2022): GDSS-Scoring-Diffusionsmodell
Ying et al. (2018): DiffPool-Hierarchisches Graph-Pooling-Verfahren
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das erfolgreich ein Kernproblem bei der Generierung von Molekülgraphen identifiziert und gelöst hat. Durch den innovativen CDF-Mechanismus und das hierarchische Framework wird die theoretische Strenge beibehalten und gleichzeitig die praktische Leistung erheblich verbessert. Obwohl es Raum für Verbesserungen in der Tiefe der theoretischen Analyse und der Experimentskala gibt, sind die Beiträge ausreichend, um die Entwicklung dieses Bereichs voranzutreiben.