2025-11-14T19:19:11.421355

GO-Diff: Data-free and amortized global structure optimization

Rønne, Vegge, Bhowmik
We introduce GO-Diff, a diffusion-based method for global structure optimization that learns to directly sample low-energy atomic configurations without requiring prior data or explicit relaxation. GO-Diff is trained from scratch using a Boltzmann-weighted score-matching loss, leveraging only the known energy function to guide generation toward thermodynamically favorable regions. The method operates in a two-stage loop of self-sampling and model refinement, progressively improving its ability to target low-energy structures. Compared to traditional optimization pipelines, GO-Diff achieves competitive results with significantly fewer energy evaluations. Moreover, by reusing pretrained models across related systems, GO-Diff supports amortized optimization - enabling faster convergence on new tasks without retraining from scratch.
academic

GO-Diff: Datenfreie und amortisierte globale Strukturoptimierung

Grundlegende Informationen

  • Paper-ID: 2510.13448
  • Titel: GO-Diff: Data-free and amortized global structure optimization
  • Autoren: Nikolaj Rønne, Tejs Vegge, Arghya Bhowmik (Technische Universität Dänemark)
  • Klassifizierung: physics.comp-ph cond-mat.dis-nn cond-mat.mtrl-sci cs.CE
  • Veröffentlichungsdatum: 15. Oktober 2025 (Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13448

Zusammenfassung

Dieser Artikel stellt GO-Diff vor, eine auf Diffusionsmodellen basierende Methode zur globalen Strukturoptimierung, die direkt niederenergetische Atomkonfigurationen samplen kann, ohne vorherige Daten oder explizite Relaxation zu benötigen. GO-Diff wird von Grund auf mit Boltzmann-gewichteter Score-Matching-Verlustfunktion trainiert und nutzt nur die bekannte Energiefunktion, um den Generierungsprozess in thermodynamisch günstige Regionen zu lenken. Die Methode verwendet einen zweistufigen Zyklus aus Selbst-Sampling und Modellverfeinerung, um ihre Fähigkeit zur Identifikation niederenergetischer Strukturen schrittweise zu verbessern. Im Vergleich zu traditionellen Optimierungsverfahren erreicht GO-Diff wettbewerbsfähige Ergebnisse mit deutlich weniger Energieevaluationen. Darüber hinaus unterstützt GO-Diff durch die Wiederverwendung vortrainierter Modelle zwischen verwandten Systemen amortisierte Optimierung – die Fähigkeit, bei neuen Aufgaben schneller zu konvergieren, ohne von Grund auf neu trainiert zu werden.

Forschungshintergrund und Motivation

Zu lösende Probleme

Diese Forschung zielt darauf ab, das Problem der globalen Strukturoptimierung für Atomsysteme zu lösen, d. h. niederenergetische stabile Atomkonfigurationen auf der Potentialenergiefläche (PES) zu finden. Die Potentialenergiefläche ist eine hochdimensionale, nicht-konvexe Funktion, die Atompositionen auf die entsprechende potentielle Energie abbildet. Die Erkundung dieser Fläche zur Identifikation niederenergetischer Strukturen ist eine grundlegende Herausforderung in der Computermaterialwissenschaft, Chemie und Katalyse.

Bedeutung des Problems

Die globale Strukturoptimierung ist grundlegend für Anwendungen von der Katalysatoroberflächenerkennung bis zur Funktionsmaterialentwicklung und ist wichtig für:

  1. Entdeckung neuer katalytischer Oberflächen
  2. Gestaltung funktionaler Materialien
  3. Vorhersage stabiler Atomkonfigurationen
  4. Verständnis von Materialeigenschaften

Einschränkungen bestehender Methoden

Traditionelle globale Optimierungsmethoden weisen folgende Probleme auf:

  1. Hohe Rechenkosten: Methoden wie zufällige Struktursuche (RSS), Basin-Hopping, genetische Algorithmen und simuliertes Ausglühen sind auf lokale Relaxation und gradientenbasierte Optimierer angewiesen und erfordern zahlreiche Energie- und Kraftevaluationen
  2. Beschränkung auf lokale Optimierung: Neigung, in lokalen Optima stecken zu bleiben, was die Erkundung komplexer Energielandschaften einschränkt
  3. Datenabhängigkeit: Maschinelle Lernpotentiale zwischen Atomen erfordern sorgfältig ausgewählte Trainingsdaten, um relevante Minima zu erfassen, andernfalls können sie in selbstverstärkenden lokalen Minima stecken bleiben
  4. Mangelnde Übertragbarkeit: Bestehende Methoden ermöglichen schwer die Wiederverwendung erlernten Wissens zwischen verwandten Systemen

Forschungsmotivation

Diffusionsmodelle zeigen Versprechen bei der Strukturgenerierung in Molekular- und Materialwissenschaften, aber ihre Anwendung auf globale Optimierungsaufgaben ist herausfordernd, da das Ziel darin besteht, seltene niederenergetische Konfigurationen zu samplen, die den globalen Minima der PES entsprechen, aber die Datenverteilung solcher Strukturen ist typischerweise unbekannt oder nicht verfügbar.

Kernbeiträge

  1. Vorschlag einer datenfreien generativen Optimierungsmethode: Direktes Samplen von Minima der Potentialenergiefläche ohne vorherige Daten oder explizite Relaxation
  2. Entwicklung einer Boltzmann-gewichteten Verlustfunktion: Kombination mit Annealing-Strategie zur Lenkung des Samplings in niederenergetische Regionen bei Beibehaltung der Explorationsfähigkeit
  3. Realisierung amortisierter Optimierung: Wissenswiederverwendung durch Modellübertragung zwischen verwandten Systemen
  4. Validierung überlegener Stichprobeneffizienz: Höhere Stichprobeneffizienz im Vergleich zu klassischen Suchmethoden

Methodische Details

Aufgabendefinition

Eingabe: Energiefunktion E(x) eines Atomsystems, wobei x eine Atomkonfiguration darstellt Ausgabe: Niederenergetische stabile Atomkonfigurationen Ziel: Sampling aus der Boltzmann-Verteilung: πT(x)=exp(E(x)/T)ZT\pi_T(x) = \frac{\exp(-E(x)/T)}{Z_T}

Modellarchitektur

Trainingsschleife

GO-Diff verwendet eine Selbst-Sampling-Schleife:

  1. Das Modell generiert Atomstrukturen durch Rück-Diffusion
  2. Bewertung der Energie generierter Strukturen
  3. Verwendung der resultierenden Stichproben zur Modellverfeinerung

Ein Replay-Puffer B={(x0(i),E(i))}B = \{(x_0^{(i)}, E^{(i)})\} wird gepflegt, um generierte Konfigurationen und ihre Energien zu speichern.

Boltzmann-gewichtete Score-Matching

Die Kerninnovation ist die Boltzmann-gewichtete Score-Matching-Verlustfunktion:

LθBoltzmann=EtU(0,1)[λ(t)Ex0q,xtpt0(xtx0)w(E)sθ(xt,t)xtlogpt0(xtx0)22]L_{\theta}^{Boltzmann} = E_{t\sim U(0,1)}\left[\lambda(t)E_{x_0\sim q, x_t\sim p_{t|0}(x_t|x_0)} w(E) \|s_\theta(x_t,t) - \nabla_{x_t}\log p_{t|0}(x_t|x_0)\|_2^2\right]

wobei die Boltzmann-Gewichte sind: w(E)=exp(E/T)E(i)Bexp(E(i)/T)w(E) = \frac{\exp(-E/T)}{\sum_{E^{(i)}\in B} \exp(-E^{(i)}/T)}

Dieses Design vermeidet die Notwendigkeit, direkt aus der echten Boltzmann-Verteilung zu samplen, durch Importance-Sampling.

Annealing-Strategie

Die Temperatur T wird von einem hohen Anfangswert zu einem niedrigen Endwert abgekühlt, um Exploration und Exploitation auszugleichen:

  • Frühe Phase: Hohe Temperatur fördert breite Erkundung
  • Späte Phase: Niedrige Temperatur konvergiert zu tieferen Minima

Kraftfeld-Führung (FFG)

Nutzung von Atomkräften, die typischerweise zusammen mit der Energie verfügbar sind:

  1. Anhängen eines Kraft-Vorhersagekopfes an den gemeinsamen Darstellungs-Backbone des Score-Netzwerks
  2. Verwendung vorhergesagter Kräfte im Prädiktor-Korrektor-Sampling-Schema: Δx=α(1t)ζFθ(x)\Delta x = \alpha(1-t)\zeta F_\theta(x)
  3. Mit abnehmendem Diffusionszeit t→0 spielt der Korrekturterm eine größere Führungsrolle

Technische Innovationen

  1. Direkte Boltzmann-Gewichtung: Vermeidung von Kraftevaluationen und Monte-Carlo-Schätzung durch direkte Boltzmann-gewichtete Score-Matching-Verlustfunktion
  2. Selbstüberwachtes Lernen: Lernen aus eigenen Generierungen ohne externe Daten
  3. Modellübertragung: Demonstration der Fähigkeit zur Modellübertragung zwischen verwandten Systemen
  4. Physikalische Führung: Integration von Kraftfeldinformationen zur Beschleunigung der Konvergenz

Experimentelle Einrichtung

Datensätze

Verwendung des universellen MACE-MP0-Potentials für zwei Atomoptimierungsaufgaben:

  1. Optimierung von Pt-Adatomen auf Pt-Stufenflächen: 3D-System, visualisierbar als 2D durch Projektion entlang der Oberflächennormalen
  2. Pt-Heptamer-Entdeckung auf 6×6 Pt(111)-Oberfläche: Komplexeres System für Benchmarking und Validierung der amortisierten Optimierung

Bewertungsmetriken

  • Erfolgsquote bei der Entdeckung der Zielstruktur
  • Durchschnittliche Anzahl erforderlicher Energieevaluationen zur Entdeckung der Zielstruktur
  • Beste Energie im Zeitverlauf

Vergleichsmethoden

  • Zufällige Struktursuche (RSS): Traditionelle Methode implementiert mit dem AGOX-Paket
  • GO-Diff-Varianten: Ohne FFG, mit FFG, mit Modellübertragung

Implementierungsdetails

Universelle Hyperparameter:

  • Diffusions-Sampling-Schritte: 500
  • Rausch-Zeitplan: Linear (VE-SDE)
  • Score-Modell-Architektur: PaiNN GNN (4 Blöcke), 6Å-Cutoff
  • Endtemperatur: 0,02
  • Lernrate: 10^-4
  • Optimierer: AdamW

Aufgabenspezifische Parameter:

  • Pt-Adatom: Puffergröße 16, 32 Stichproben pro Iteration, 10 Iterationen exponentielles Annealing
  • Pt-Heptamer: Puffergröße 64, 128 Stichproben pro Iteration, 20 Iterationen exponentielles Annealing

Experimentelle Ergebnisse

Hauptergebnisse

Pt-Adatom-Optimierung

  • Erfolgreiche Demonstration der schrittweise konzentrierten Sampling in niederenergetischen Becken
  • Validierung der Wirksamkeit von Boltzmann-gewichteter Verlustfunktion und Annealing-Zeitplan

Pt-Heptamer-Entdeckung

MethodeEvaluationenErfolgsquoteDurchschn. erfolgreiche Iteration
RSS10.0001/87.816
GO-Diff2.5605/81.667
GO-Diff + FFG2.5608/81.994
GO-Diff + Transfer1.2807/8591

Wichtigste Erkenntnisse

  1. Stichprobeneffizienz: GO-Diff erreicht bessere Erfolgsquoten mit deutlich weniger Energieevaluationen
  2. Wirkung der Kraftfeld-Führung: FFG verbessert die Erfolgsquote (von 5/8 auf 8/8) und die Leistung
  3. Vorteile des Transfer-Lernens: Modellübertragung reduziert erforderliche Evaluationen um mehr als das Zweifache (von 1.667 auf 591)
  4. Robustheit: Die Zufälligkeit des Diffusionsprozesses ermöglicht GO-Diff, robust aus lokalen Minima zu entkommen

Analyse der amortisierten Optimierung

Die Beschleunigung durch Transfer-Lernen ist zu erwarten, da das übertragene Modell bereits Bindungspräferenzen erfasst hat (wie die Stabilität von Hohlstellen unter Stufenkanten), wodurch die Optimierungsaufgabe auf die Anpassung der Atomgeometrie reduziert wird, anstatt Bindungen von Grund auf zu erlernen.

Verwandte Arbeiten

Traditionelle globale Optimierungsmethoden

  • Zufällige Struktursuche, Basin-Hopping, genetische Algorithmen, simuliertes Ausglühen
  • Maschinelle Lernpotentiale zwischen Atomen (vortrainiert oder Online-Lernen)

Anwendungen von Diffusionsmodellen

  • Strukturgenerierung in Molekular- und Materialwissenschaften
  • Diffusionsmodelle für Black-Box-Optimierung (DDOM)
  • Boltzmann-Sampler (iDEM, BNEM, Adjoint Sampling)

Vorteile gegenüber verwandten Arbeiten

  • Vermeidung von Monte-Carlo-Schätzung und Kraft-Labels
  • Einfachere und stichprobeneffizientere Trainingsschleife
  • Erstmalige Demonstration von Transfer-Lernfähigkeiten zwischen Systemen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. GO-Diff ist ein effektives datenfreies Framework für globale Strukturoptimierung
  2. Die Boltzmann-gewichtete Score-Matching-Verlustfunktion kann niederenergetische Konfigurationen effektiv lenken
  3. Amortisierte Optimierung durch Modellübertragung verbessert die Effizienz erheblich
  4. Überlegen gegenüber traditionellen Methoden in Stichprobeneffizienz und Erfolgsquote

Einschränkungen

  1. Hyperparameter-Empfindlichkeit: Stichprobenmenge, Temperaturkurve und Trainingsschritte sind kritische Hyperparameter, die sorgfältig abgestimmt werden müssen
  2. Skalierungsbeschränkungen: Aktuelle Atom-Diffusionsmodelle sind hauptsächlich auf Systemen mit <20 Atomen validiert
  3. Systemgröße: Weitere Forschung erforderlich, um GO-Diff auf sehr große realistische Systeme anwendbar zu machen

Zukünftige Richtungen

  1. Erweiterung auf Multi-Ziel- oder Komponentendesign-Optimierung
  2. Dynamische Temperaturanpassung und adaptives Sampling
  3. Verbesserung der Skalierbarkeit für große Systeme
  4. Proxy-Beschleunigung und Multi-Ziel-Optimierung

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovation: Erstmalige erfolgreiche Anwendung von Diffusionsmodellen auf datenfreie globale Strukturoptimierung
  2. Technische Fortschrittlichkeit: Das Design der Boltzmann-gewichteten Score-Matching-Verlustfunktion ist elegant und vermeidet die Komplexität bestehender Methoden
  3. Praktischer Wert: Amortisierte Optimierung zeigt erhebliche Vorteile in praktischen Anwendungen
  4. Umfassende Experimente: Gründliche Tests auf Systemen unterschiedlicher Komplexität
  5. Theoretische Grundlagen: Strenge theoretische Herleitung basierend auf Importance-Sampling

Mängel

  1. Einschränkung der Systemgröße: Validierung nur auf relativ kleinen Atomsystemen (≤20 Atome)
  2. Hyperparameter-Abstimmung: Methode ist empfindlich gegenüber mehreren Hyperparametern, was ihre Allgemeingültigkeit einschränken könnte
  3. Begrenzte Benchmarks: Vergleich nur mit RSS, fehlende Vergleiche mit anderen modernen Methoden
  4. Unzureichende theoretische Analyse: Fehlende theoretische Garantien für Konvergenz und Stichprobenkomplexität

Auswirkungen

  1. Akademischer Beitrag: Führt ein neues generatives Modellierungsparadigma in das Optimierungsfeld ein
  2. Praktischer Wert: Potentielle Anwendungen in Materialentdeckung und Katalysatordesign
  3. Reproduzierbarkeit: Vollständige Code- und Implementierungsdetails bereitgestellt
  4. Inspirationswert: Eröffnet neue Richtungen für die Anwendung von Diffusionsmodellen auf Optimierungsprobleme

Anwendungsszenarien

  1. Materialentdeckung: Strukturvorhersage für neue Katalysatoren und Funktionsmaterialien
  2. Oberflächenwissenschaft: Untersuchung von Adsorptionsstellen und Oberflächenrekonstruktion
  3. Kleinmoleküloptimierung: Molekülkonformationssuche und Wirkstoffdesign
  4. Verwandte bestehende Systeme: Besonders geeignet für Szenarien, die mehrfache Optimierung zwischen ähnlichen Systemen erfordern

Literaturverzeichnis

Dieser Artikel zitiert 38 relevante Veröffentlichungen, die wichtige Arbeiten in den Schlüsselbereichen globale Optimierung, Diffusionsmodelle und maschinelle Lernpotentiale abdecken und eine solide theoretische Grundlage für die Methodenentwicklung bieten.