2025-11-14T19:19:11.421355

GO-Diff: Data-free and amortized global structure optimization

Rønne, Vegge, Bhowmik
We introduce GO-Diff, a diffusion-based method for global structure optimization that learns to directly sample low-energy atomic configurations without requiring prior data or explicit relaxation. GO-Diff is trained from scratch using a Boltzmann-weighted score-matching loss, leveraging only the known energy function to guide generation toward thermodynamically favorable regions. The method operates in a two-stage loop of self-sampling and model refinement, progressively improving its ability to target low-energy structures. Compared to traditional optimization pipelines, GO-Diff achieves competitive results with significantly fewer energy evaluations. Moreover, by reusing pretrained models across related systems, GO-Diff supports amortized optimization - enabling faster convergence on new tasks without retraining from scratch.
academic

GO-Diff: Ottimizzazione della struttura globale senza dati e ammortizzata

Informazioni di base

  • ID articolo: 2510.13448
  • Titolo: GO-Diff: Data-free and amortized global structure optimization
  • Autori: Nikolaj Rønne, Tejs Vegge, Arghya Bhowmik (Technical University of Denmark)
  • Classificazione: physics.comp-ph cond-mat.dis-nn cond-mat.mtrl-sci cs.CE
  • Data di pubblicazione: 15 ottobre 2025 (Preprint)
  • Link articolo: https://arxiv.org/abs/2510.13448

Riassunto

Questo articolo introduce GO-Diff, un metodo di ottimizzazione della struttura globale basato su modelli di diffusione, in grado di campionare direttamente configurazioni atomiche a bassa energia senza dati preliminari o rilassamento esplicito. GO-Diff viene addestrato da zero utilizzando una perdita di score matching ponderata secondo Boltzmann, sfruttando solo la funzione energetica nota per guidare il processo generativo verso regioni termodinamicamente favorevoli. Il metodo impiega un ciclo a due fasi di auto-campionamento e raffinamento del modello, migliorando progressivamente la capacità di raggiungere strutture a bassa energia. Rispetto ai flussi di lavoro di ottimizzazione tradizionali, GO-Diff raggiunge risultati competitivi con significativamente meno valutazioni energetiche. Inoltre, riutilizzando modelli pre-addestrati tra sistemi correlati, GO-Diff supporta l'ottimizzazione ammortizzata — convergendo più rapidamente su nuovi compiti senza necessità di riaddestrare da zero.

Contesto di ricerca e motivazione

Problema da risolvere

Questa ricerca affronta il problema dell'ottimizzazione della struttura globale per sistemi atomici, ovvero la ricerca di configurazioni atomiche stabili a bassa energia sulla superficie di energia potenziale (PES). La superficie di energia potenziale è una funzione ad alta dimensionalità e non convessa che mappa le posizioni atomiche all'energia potenziale corrispondente; l'esplorazione di questa superficie per identificare strutture a bassa energia rappresenta una sfida fondamentale nella scienza computazionale dei materiali, nella chimica e nella catalisi.

Importanza del problema

L'ottimizzazione della struttura globale è fondamentale per applicazioni che vanno dalla scoperta di superfici catalitiche alla progettazione di materiali funzionali, essenziale per:

  1. Scoperta di nuove superfici catalitiche
  2. Progettazione di materiali funzionali
  3. Previsione di configurazioni atomiche stabili
  4. Comprensione delle proprietà dei materiali

Limitazioni dei metodi esistenti

I metodi tradizionali di ottimizzazione globale presentano i seguenti problemi:

  1. Costo computazionale elevato: Metodi come la ricerca strutturale casuale (RSS), basin hopping, algoritmi genetici e simulated annealing dipendono dal rilassamento locale e da ottimizzatori basati su gradienti, richiedendo numerose valutazioni di energia e forze
  2. Limitazione all'ottimizzazione locale: Tendono a rimanere intrappolati in ottimi locali, limitando l'esplorazione di paesaggi energetici complessi
  3. Dipendenza dai dati: I potenziali atomici basati su machine learning richiedono dati di addestramento accuratamente selezionati per catturare i minimi rilevanti, altrimenti possono rimanere intrappolati in minimi locali auto-rinforzanti
  4. Mancanza di trasferibilità: I metodi esistenti hanno difficoltà nel riutilizzare le conoscenze apprese tra sistemi correlati

Motivazione della ricerca

I modelli di diffusione hanno mostrato promesse nella generazione di strutture in scienze molecolari e dei materiali, ma l'applicazione a compiti di ottimizzazione globale presenta sfide, poiché l'obiettivo è campionare rare configurazioni a bassa energia corrispondenti ai minimi globali della PES, ma la distribuzione di dati di tali strutture è tipicamente sconosciuta o inaccessibile.

Contributi principali

  1. Propone un metodo di ottimizzazione generativa senza dati: Campiona direttamente i minimi della superficie di energia potenziale senza dati preliminari o rilassamento esplicito
  2. Sviluppa una funzione di perdita ponderata secondo Boltzmann: Combina strategie di annealing per guidare il campionamento verso regioni a bassa energia mantenendo l'esplorazione
  3. Implementa l'ottimizzazione ammortizzata: Realizza il riutilizzo delle conoscenze attraverso il trasferimento di modelli pre-addestrati tra sistemi correlati
  4. Verifica l'efficienza campionaria superiore: Dimostra efficienza campionaria più elevata rispetto ai metodi di ricerca classici

Spiegazione dettagliata del metodo

Definizione del compito

Input: Funzione energetica E(x) del sistema atomico, dove x rappresenta la configurazione atomica Output: Configurazioni atomiche stabili a bassa energia Obiettivo: Campionare dalla distribuzione di Boltzmann: πT(x)=exp(E(x)/T)ZT\pi_T(x) = \frac{\exp(-E(x)/T)}{Z_T}

Architettura del modello

Ciclo di addestramento

GO-Diff impiega un ciclo operativo di auto-campionamento:

  1. Il modello genera strutture atomiche attraverso diffusione inversa
  2. Valuta l'energia delle strutture generate
  3. Utilizza i campioni risultanti per raffinare il modello

Mantiene un buffer di replay B={(x0(i),E(i))}B = \{(x_0^{(i)}, E^{(i)})\} che memorizza le configurazioni generate e le loro energie.

Score matching ponderato secondo Boltzmann

L'innovazione principale è la perdita di score matching ponderata secondo Boltzmann:

LθBoltzmann=EtU(0,1)[λ(t)Ex0q,xtpt0(xtx0)w(E)sθ(xt,t)xtlogpt0(xtx0)22]L_{\theta}^{Boltzmann} = E_{t\sim U(0,1)}\left[\lambda(t)E_{x_0\sim q, x_t\sim p_{t|0}(x_t|x_0)} w(E) \|s_\theta(x_t,t) - \nabla_{x_t}\log p_{t|0}(x_t|x_0)\|_2^2\right]

dove il peso di Boltzmann è: w(E)=exp(E/T)E(i)Bexp(E(i)/T)w(E) = \frac{\exp(-E/T)}{\sum_{E^{(i)}\in B} \exp(-E^{(i)}/T)}

Questo design evita la necessità di campionare direttamente dalla vera distribuzione di Boltzmann attraverso il campionamento per importanza.

Strategia di annealing

La temperatura T viene ridotta da un valore iniziale elevato a un valore finale basso, bilanciando esplorazione e sfruttamento:

  • Fase iniziale: temperatura elevata incoraggia l'esplorazione ampia
  • Fase finale: temperatura bassa converge verso minimi più profondi

Guida del campo di forza (FFG)

Sfrutta le forze atomiche tipicamente disponibili insieme all'energia:

  1. Allega una testa di predizione delle forze sulla spina dorsale di rappresentazione condivisa della rete di score
  2. Utilizza le forze predette nello schema di campionamento predittore-correttore: Δx=α(1t)ζFθ(x)\Delta x = \alpha(1-t)\zeta F_\theta(x)
  3. Con il tempo di diffusione t→0, il termine di correzione esercita un'influenza di guida maggiore

Punti di innovazione tecnica

  1. Ponderazione diretta secondo Boltzmann: Evita valutazioni di forze e stime Monte Carlo, utilizzando una perdita di score matching ponderata secondo Boltzmann diretta
  2. Apprendimento auto-supervisionato: Apprende dalle proprie generazioni senza necessità di dati esterni
  3. Trasferimento del modello: Dimostra la capacità di trasferire modelli pre-addestrati tra sistemi correlati
  4. Guida fisica: Incorpora informazioni del campo di forza per accelerare la convergenza

Configurazione sperimentale

Dataset

Utilizza il potenziale universale MACE-MP0 per due compiti di ottimizzazione atomica:

  1. Ottimizzazione di atomi di Pt su gradini di Pt: Sistema 3D, visualizzabile come 2D attraverso proiezione lungo la normale alla superficie
  2. Scoperta di eptameri di Pt su superficie Pt(111) 6×6: Sistema più complesso, utilizzato per benchmark e verifica dell'ottimizzazione ammortizzata

Metriche di valutazione

  • Tasso di successo nel trovare la struttura target
  • Numero medio di valutazioni energetiche necessarie per trovare la struttura target
  • Energia migliore nel tempo

Metodi di confronto

  • Ricerca strutturale casuale (RSS): Metodo tradizionale implementato con il pacchetto AGOX
  • Varianti di GO-Diff: Senza FFG, con FFG, con trasferimento del modello

Dettagli di implementazione

Iperparametri universali:

  • Passi di campionamento della diffusione: 500
  • Schedule del rumore: lineare (VE-SDE)
  • Architettura del modello di score: PaiNN GNN (4 blocchi), cutoff 6Å
  • Temperatura finale: 0.02
  • Tasso di apprendimento: 10^-4
  • Ottimizzatore: AdamW

Parametri specifici del compito:

  • Atomo di Pt: dimensione buffer 16, 32 campioni per iterazione, 10 iterazioni con annealing esponenziale
  • Eptamero di Pt: dimensione buffer 64, 128 campioni per iterazione, 20 iterazioni con annealing esponenziale

Risultati sperimentali

Risultati principali

Ottimizzazione dell'atomo di Pt

  • Dimostra con successo che il campionamento si concentra progressivamente nei bacini a bassa energia
  • Verifica l'efficacia della perdita ponderata secondo Boltzmann e dello schedule di annealing

Scoperta dell'eptamero di Pt

MetodoValutazioniTasso di successoIterazione media di successo
RSS10.0001/87.816
GO-Diff2.5605/81.667
GO-Diff + FFG2.5608/81.994
GO-Diff + Transfer1.2807/8591

Scoperte chiave

  1. Efficienza campionaria: GO-Diff raggiunge un tasso di successo migliore con significativamente meno valutazioni energetiche
  2. Effetto della guida del campo di forza: FFG migliora il tasso di successo (da 5/8 a 8/8) e le prestazioni
  3. Vantaggio dell'apprendimento per trasferimento: Il trasferimento del modello riduce le valutazioni necessarie di oltre 2 volte (da 1.667 a 591)
  4. Robustezza: La natura stocastica del processo di diffusione consente a GO-Diff di sfuggire robustamente ai minimi locali

Analisi dell'ottimizzazione ammortizzata

L'accelerazione dell'apprendimento per trasferimento è prevista, poiché il modello trasferito ha già catturato le preferenze di legame (come la stabilità dei siti cavi sotto i bordi dei gradini), riducendo il compito di ottimizzazione all'aggiustamento della geometria interatomica piuttosto che all'apprendimento da zero.

Lavori correlati

Metodi tradizionali di ottimizzazione globale

  • Ricerca strutturale casuale, basin hopping, algoritmi genetici, simulated annealing
  • Potenziali atomici basati su machine learning (pre-addestrati o apprendimento online)

Applicazioni di modelli di diffusione

  • Generazione di strutture in scienze molecolari e dei materiali
  • Modelli di diffusione per ottimizzazione black-box (DDOM)
  • Campionatori di Boltzmann (iDEM, BNEM, Adjoint Sampling)

Vantaggi rispetto ai lavori correlati

  • Evita stime Monte Carlo e etichette di forza
  • Ciclo di addestramento più semplice e campionariamente efficiente
  • Prima dimostrazione della capacità di apprendimento per trasferimento tra sistemi

Conclusioni e discussione

Conclusioni principali

  1. GO-Diff è un framework efficace di ottimizzazione della struttura globale senza dati
  2. La perdita di score matching ponderata secondo Boltzmann guida efficacemente la generazione di configurazioni a bassa energia
  3. L'ottimizzazione ammortizzata attraverso il trasferimento del modello migliora significativamente l'efficienza
  4. Supera i metodi tradizionali in termini di efficienza campionaria e tasso di successo

Limitazioni

  1. Sensibilità agli iperparametri: Il numero di campioni, la curva di temperatura e i passi di addestramento sono iperparametri critici che richiedono un'attenta sintonizzazione
  2. Limitazioni di scalabilità: I modelli di diffusione atomica attuali sono principalmente verificati su sistemi con <20 atomi
  3. Scala del sistema: Ricerca ulteriore è necessaria per rendere GO-Diff applicabile a sistemi di dimensioni reali molto grandi

Direzioni future

  1. Estensione all'ottimizzazione di progettazione multi-obiettivo o multi-componente
  2. Aggiustamento dinamico della temperatura e campionamento adattivo
  3. Miglioramento della scalabilità per sistemi di grandi dimensioni
  4. Accelerazione mediante surrogati e ottimizzazione multi-obiettivo

Valutazione approfondita

Punti di forza

  1. Innovazione metodologica: Prima applicazione riuscita di modelli di diffusione all'ottimizzazione della struttura globale senza dati
  2. Avanzamento tecnico: Il design della perdita di score matching ponderata secondo Boltzmann è ingegnoso, evitando la complessità dei metodi esistenti
  3. Valore pratico: L'ottimizzazione ammortizzata dimostra vantaggi significativi nelle applicazioni pratiche
  4. Esperimenti completi: Test completi su sistemi di diversa complessità
  5. Fondamento teorico: La derivazione teorica basata sul campionamento per importanza è rigorosa

Insufficienze

  1. Limitazione della scala del sistema: Verificato solo su sistemi atomici relativamente piccoli (≤20 atomi)
  2. Sintonizzazione degli iperparametri: Il metodo è sensibile a molteplici iperparametri, il che potrebbe limitarne l'universalità
  3. Benchmark limitati: Confronto solo con RSS, mancanza di confronti con altri metodi moderni
  4. Analisi teorica insufficiente: Mancanza di garanzie teoriche sulla convergenza e complessità campionaria

Impatto

  1. Contributo accademico: Introduce un nuovo paradigma di modellazione generativa nel campo dell'ottimizzazione globale
  2. Valore pratico: Potenziali applicazioni nella scoperta di materiali e nella progettazione di catalizzatori
  3. Riproducibilità: Fornisce codice completo e dettagli di implementazione
  4. Significato ispirativo: Apre nuove direzioni per l'applicazione di modelli di diffusione a problemi di ottimizzazione

Scenari applicabili

  1. Scoperta di materiali: Previsione di strutture di nuovi catalizzatori e materiali funzionali
  2. Scienza delle superfici: Studio di siti di adsorbimento e ricostruzioni di superficie
  3. Ottimizzazione di piccole molecole: Ricerca di conformazioni molecolari e progettazione di farmaci
  4. Sistemi correlati esistenti: Particolarmente adatto per scenari che richiedono molteplici ottimizzazioni tra sistemi simili

Riferimenti bibliografici

Questo articolo cita 38 riferimenti correlati, coprendo lavori importanti nei campi chiave dell'ottimizzazione globale, modelli di diffusione e potenziali basati su machine learning, fornendo una base teorica solida per lo sviluppo del metodo.