We introduce GO-Diff, a diffusion-based method for global structure optimization that learns to directly sample low-energy atomic configurations without requiring prior data or explicit relaxation. GO-Diff is trained from scratch using a Boltzmann-weighted score-matching loss, leveraging only the known energy function to guide generation toward thermodynamically favorable regions. The method operates in a two-stage loop of self-sampling and model refinement, progressively improving its ability to target low-energy structures. Compared to traditional optimization pipelines, GO-Diff achieves competitive results with significantly fewer energy evaluations. Moreover, by reusing pretrained models across related systems, GO-Diff supports amortized optimization - enabling faster convergence on new tasks without retraining from scratch.
- Paper-ID: 2510.13448
- Titel: GO-Diff: Data-free and amortized global structure optimization
- Autoren: Nikolaj Rønne, Tejs Vegge, Arghya Bhowmik (Technische Universität Dänemark)
- Klassifizierung: physics.comp-ph cond-mat.dis-nn cond-mat.mtrl-sci cs.CE
- Veröffentlichungsdatum: 15. Oktober 2025 (Preprint)
- Paper-Link: https://arxiv.org/abs/2510.13448
Dieser Artikel stellt GO-Diff vor, eine auf Diffusionsmodellen basierende Methode zur globalen Strukturoptimierung, die direkt niederenergetische Atomkonfigurationen samplen kann, ohne vorherige Daten oder explizite Relaxation zu benötigen. GO-Diff wird von Grund auf mit Boltzmann-gewichteter Score-Matching-Verlustfunktion trainiert und nutzt nur die bekannte Energiefunktion, um den Generierungsprozess in thermodynamisch günstige Regionen zu lenken. Die Methode verwendet einen zweistufigen Zyklus aus Selbst-Sampling und Modellverfeinerung, um ihre Fähigkeit zur Identifikation niederenergetischer Strukturen schrittweise zu verbessern. Im Vergleich zu traditionellen Optimierungsverfahren erreicht GO-Diff wettbewerbsfähige Ergebnisse mit deutlich weniger Energieevaluationen. Darüber hinaus unterstützt GO-Diff durch die Wiederverwendung vortrainierter Modelle zwischen verwandten Systemen amortisierte Optimierung – die Fähigkeit, bei neuen Aufgaben schneller zu konvergieren, ohne von Grund auf neu trainiert zu werden.
Diese Forschung zielt darauf ab, das Problem der globalen Strukturoptimierung für Atomsysteme zu lösen, d. h. niederenergetische stabile Atomkonfigurationen auf der Potentialenergiefläche (PES) zu finden. Die Potentialenergiefläche ist eine hochdimensionale, nicht-konvexe Funktion, die Atompositionen auf die entsprechende potentielle Energie abbildet. Die Erkundung dieser Fläche zur Identifikation niederenergetischer Strukturen ist eine grundlegende Herausforderung in der Computermaterialwissenschaft, Chemie und Katalyse.
Die globale Strukturoptimierung ist grundlegend für Anwendungen von der Katalysatoroberflächenerkennung bis zur Funktionsmaterialentwicklung und ist wichtig für:
- Entdeckung neuer katalytischer Oberflächen
- Gestaltung funktionaler Materialien
- Vorhersage stabiler Atomkonfigurationen
- Verständnis von Materialeigenschaften
Traditionelle globale Optimierungsmethoden weisen folgende Probleme auf:
- Hohe Rechenkosten: Methoden wie zufällige Struktursuche (RSS), Basin-Hopping, genetische Algorithmen und simuliertes Ausglühen sind auf lokale Relaxation und gradientenbasierte Optimierer angewiesen und erfordern zahlreiche Energie- und Kraftevaluationen
- Beschränkung auf lokale Optimierung: Neigung, in lokalen Optima stecken zu bleiben, was die Erkundung komplexer Energielandschaften einschränkt
- Datenabhängigkeit: Maschinelle Lernpotentiale zwischen Atomen erfordern sorgfältig ausgewählte Trainingsdaten, um relevante Minima zu erfassen, andernfalls können sie in selbstverstärkenden lokalen Minima stecken bleiben
- Mangelnde Übertragbarkeit: Bestehende Methoden ermöglichen schwer die Wiederverwendung erlernten Wissens zwischen verwandten Systemen
Diffusionsmodelle zeigen Versprechen bei der Strukturgenerierung in Molekular- und Materialwissenschaften, aber ihre Anwendung auf globale Optimierungsaufgaben ist herausfordernd, da das Ziel darin besteht, seltene niederenergetische Konfigurationen zu samplen, die den globalen Minima der PES entsprechen, aber die Datenverteilung solcher Strukturen ist typischerweise unbekannt oder nicht verfügbar.
- Vorschlag einer datenfreien generativen Optimierungsmethode: Direktes Samplen von Minima der Potentialenergiefläche ohne vorherige Daten oder explizite Relaxation
- Entwicklung einer Boltzmann-gewichteten Verlustfunktion: Kombination mit Annealing-Strategie zur Lenkung des Samplings in niederenergetische Regionen bei Beibehaltung der Explorationsfähigkeit
- Realisierung amortisierter Optimierung: Wissenswiederverwendung durch Modellübertragung zwischen verwandten Systemen
- Validierung überlegener Stichprobeneffizienz: Höhere Stichprobeneffizienz im Vergleich zu klassischen Suchmethoden
Eingabe: Energiefunktion E(x) eines Atomsystems, wobei x eine Atomkonfiguration darstellt
Ausgabe: Niederenergetische stabile Atomkonfigurationen
Ziel: Sampling aus der Boltzmann-Verteilung: πT(x)=ZTexp(−E(x)/T)
GO-Diff verwendet eine Selbst-Sampling-Schleife:
- Das Modell generiert Atomstrukturen durch Rück-Diffusion
- Bewertung der Energie generierter Strukturen
- Verwendung der resultierenden Stichproben zur Modellverfeinerung
Ein Replay-Puffer B={(x0(i),E(i))} wird gepflegt, um generierte Konfigurationen und ihre Energien zu speichern.
Die Kerninnovation ist die Boltzmann-gewichtete Score-Matching-Verlustfunktion:
LθBoltzmann=Et∼U(0,1)[λ(t)Ex0∼q,xt∼pt∣0(xt∣x0)w(E)∥sθ(xt,t)−∇xtlogpt∣0(xt∣x0)∥22]
wobei die Boltzmann-Gewichte sind:
w(E)=∑E(i)∈Bexp(−E(i)/T)exp(−E/T)
Dieses Design vermeidet die Notwendigkeit, direkt aus der echten Boltzmann-Verteilung zu samplen, durch Importance-Sampling.
Die Temperatur T wird von einem hohen Anfangswert zu einem niedrigen Endwert abgekühlt, um Exploration und Exploitation auszugleichen:
- Frühe Phase: Hohe Temperatur fördert breite Erkundung
- Späte Phase: Niedrige Temperatur konvergiert zu tieferen Minima
Nutzung von Atomkräften, die typischerweise zusammen mit der Energie verfügbar sind:
- Anhängen eines Kraft-Vorhersagekopfes an den gemeinsamen Darstellungs-Backbone des Score-Netzwerks
- Verwendung vorhergesagter Kräfte im Prädiktor-Korrektor-Sampling-Schema:
Δx=α(1−t)ζFθ(x)
- Mit abnehmendem Diffusionszeit t→0 spielt der Korrekturterm eine größere Führungsrolle
- Direkte Boltzmann-Gewichtung: Vermeidung von Kraftevaluationen und Monte-Carlo-Schätzung durch direkte Boltzmann-gewichtete Score-Matching-Verlustfunktion
- Selbstüberwachtes Lernen: Lernen aus eigenen Generierungen ohne externe Daten
- Modellübertragung: Demonstration der Fähigkeit zur Modellübertragung zwischen verwandten Systemen
- Physikalische Führung: Integration von Kraftfeldinformationen zur Beschleunigung der Konvergenz
Verwendung des universellen MACE-MP0-Potentials für zwei Atomoptimierungsaufgaben:
- Optimierung von Pt-Adatomen auf Pt-Stufenflächen: 3D-System, visualisierbar als 2D durch Projektion entlang der Oberflächennormalen
- Pt-Heptamer-Entdeckung auf 6×6 Pt(111)-Oberfläche: Komplexeres System für Benchmarking und Validierung der amortisierten Optimierung
- Erfolgsquote bei der Entdeckung der Zielstruktur
- Durchschnittliche Anzahl erforderlicher Energieevaluationen zur Entdeckung der Zielstruktur
- Beste Energie im Zeitverlauf
- Zufällige Struktursuche (RSS): Traditionelle Methode implementiert mit dem AGOX-Paket
- GO-Diff-Varianten: Ohne FFG, mit FFG, mit Modellübertragung
Universelle Hyperparameter:
- Diffusions-Sampling-Schritte: 500
- Rausch-Zeitplan: Linear (VE-SDE)
- Score-Modell-Architektur: PaiNN GNN (4 Blöcke), 6Å-Cutoff
- Endtemperatur: 0,02
- Lernrate: 10^-4
- Optimierer: AdamW
Aufgabenspezifische Parameter:
- Pt-Adatom: Puffergröße 16, 32 Stichproben pro Iteration, 10 Iterationen exponentielles Annealing
- Pt-Heptamer: Puffergröße 64, 128 Stichproben pro Iteration, 20 Iterationen exponentielles Annealing
- Erfolgreiche Demonstration der schrittweise konzentrierten Sampling in niederenergetischen Becken
- Validierung der Wirksamkeit von Boltzmann-gewichteter Verlustfunktion und Annealing-Zeitplan
| Methode | Evaluationen | Erfolgsquote | Durchschn. erfolgreiche Iteration |
|---|
| RSS | 10.000 | 1/8 | 7.816 |
| GO-Diff | 2.560 | 5/8 | 1.667 |
| GO-Diff + FFG | 2.560 | 8/8 | 1.994 |
| GO-Diff + Transfer | 1.280 | 7/8 | 591 |
- Stichprobeneffizienz: GO-Diff erreicht bessere Erfolgsquoten mit deutlich weniger Energieevaluationen
- Wirkung der Kraftfeld-Führung: FFG verbessert die Erfolgsquote (von 5/8 auf 8/8) und die Leistung
- Vorteile des Transfer-Lernens: Modellübertragung reduziert erforderliche Evaluationen um mehr als das Zweifache (von 1.667 auf 591)
- Robustheit: Die Zufälligkeit des Diffusionsprozesses ermöglicht GO-Diff, robust aus lokalen Minima zu entkommen
Die Beschleunigung durch Transfer-Lernen ist zu erwarten, da das übertragene Modell bereits Bindungspräferenzen erfasst hat (wie die Stabilität von Hohlstellen unter Stufenkanten), wodurch die Optimierungsaufgabe auf die Anpassung der Atomgeometrie reduziert wird, anstatt Bindungen von Grund auf zu erlernen.
- Zufällige Struktursuche, Basin-Hopping, genetische Algorithmen, simuliertes Ausglühen
- Maschinelle Lernpotentiale zwischen Atomen (vortrainiert oder Online-Lernen)
- Strukturgenerierung in Molekular- und Materialwissenschaften
- Diffusionsmodelle für Black-Box-Optimierung (DDOM)
- Boltzmann-Sampler (iDEM, BNEM, Adjoint Sampling)
- Vermeidung von Monte-Carlo-Schätzung und Kraft-Labels
- Einfachere und stichprobeneffizientere Trainingsschleife
- Erstmalige Demonstration von Transfer-Lernfähigkeiten zwischen Systemen
- GO-Diff ist ein effektives datenfreies Framework für globale Strukturoptimierung
- Die Boltzmann-gewichtete Score-Matching-Verlustfunktion kann niederenergetische Konfigurationen effektiv lenken
- Amortisierte Optimierung durch Modellübertragung verbessert die Effizienz erheblich
- Überlegen gegenüber traditionellen Methoden in Stichprobeneffizienz und Erfolgsquote
- Hyperparameter-Empfindlichkeit: Stichprobenmenge, Temperaturkurve und Trainingsschritte sind kritische Hyperparameter, die sorgfältig abgestimmt werden müssen
- Skalierungsbeschränkungen: Aktuelle Atom-Diffusionsmodelle sind hauptsächlich auf Systemen mit <20 Atomen validiert
- Systemgröße: Weitere Forschung erforderlich, um GO-Diff auf sehr große realistische Systeme anwendbar zu machen
- Erweiterung auf Multi-Ziel- oder Komponentendesign-Optimierung
- Dynamische Temperaturanpassung und adaptives Sampling
- Verbesserung der Skalierbarkeit für große Systeme
- Proxy-Beschleunigung und Multi-Ziel-Optimierung
- Methodische Innovation: Erstmalige erfolgreiche Anwendung von Diffusionsmodellen auf datenfreie globale Strukturoptimierung
- Technische Fortschrittlichkeit: Das Design der Boltzmann-gewichteten Score-Matching-Verlustfunktion ist elegant und vermeidet die Komplexität bestehender Methoden
- Praktischer Wert: Amortisierte Optimierung zeigt erhebliche Vorteile in praktischen Anwendungen
- Umfassende Experimente: Gründliche Tests auf Systemen unterschiedlicher Komplexität
- Theoretische Grundlagen: Strenge theoretische Herleitung basierend auf Importance-Sampling
- Einschränkung der Systemgröße: Validierung nur auf relativ kleinen Atomsystemen (≤20 Atome)
- Hyperparameter-Abstimmung: Methode ist empfindlich gegenüber mehreren Hyperparametern, was ihre Allgemeingültigkeit einschränken könnte
- Begrenzte Benchmarks: Vergleich nur mit RSS, fehlende Vergleiche mit anderen modernen Methoden
- Unzureichende theoretische Analyse: Fehlende theoretische Garantien für Konvergenz und Stichprobenkomplexität
- Akademischer Beitrag: Führt ein neues generatives Modellierungsparadigma in das Optimierungsfeld ein
- Praktischer Wert: Potentielle Anwendungen in Materialentdeckung und Katalysatordesign
- Reproduzierbarkeit: Vollständige Code- und Implementierungsdetails bereitgestellt
- Inspirationswert: Eröffnet neue Richtungen für die Anwendung von Diffusionsmodellen auf Optimierungsprobleme
- Materialentdeckung: Strukturvorhersage für neue Katalysatoren und Funktionsmaterialien
- Oberflächenwissenschaft: Untersuchung von Adsorptionsstellen und Oberflächenrekonstruktion
- Kleinmoleküloptimierung: Molekülkonformationssuche und Wirkstoffdesign
- Verwandte bestehende Systeme: Besonders geeignet für Szenarien, die mehrfache Optimierung zwischen ähnlichen Systemen erfordern
Dieser Artikel zitiert 38 relevante Veröffentlichungen, die wichtige Arbeiten in den Schlüsselbereichen globale Optimierung, Diffusionsmodelle und maschinelle Lernpotentiale abdecken und eine solide theoretische Grundlage für die Methodenentwicklung bieten.