2025-11-14T19:19:11.421355

GO-Diff: Data-free and amortized global structure optimization

RÃ¸nne, Vegge, Bhowmik

We introduce GO-Diff, a diffusion-based method for global structure optimization that learns to directly sample low-energy atomic configurations without requiring prior data or explicit relaxation. GO-Diff is trained from scratch using a Boltzmann-weighted score-matching loss, leveraging only the known energy function to guide generation toward thermodynamically favorable regions. The method operates in a two-stage loop of self-sampling and model refinement, progressively improving its ability to target low-energy structures. Compared to traditional optimization pipelines, GO-Diff achieves competitive results with significantly fewer energy evaluations. Moreover, by reusing pretrained models across related systems, GO-Diff supports amortized optimization - enabling faster convergence on new tasks without retraining from scratch.

academic

GO-Diff: Optimización de estructura global sin datos y amortizada

Información Básica

ID del Artículo: 2510.13448
Título: GO-Diff: Data-free and amortized global structure optimization
Autores: Nikolaj Rønne, Tejs Vegge, Arghya Bhowmik (Universidad Técnica de Dinamarca)
Clasificación: physics.comp-ph cond-mat.dis-nn cond-mat.mtrl-sci cs.CE
Fecha de Publicación: 15 de octubre de 2025 (Preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2510.13448

Resumen

Este artículo presenta GO-Diff, un método de optimización de estructura global basado en modelos de difusión que puede muestrear directamente configuraciones atómicas de baja energía sin datos previos ni relajación explícita. GO-Diff se entrena desde cero utilizando una pérdida de coincidencia de puntuación ponderada por Boltzmann, aprovechando únicamente la función de energía conocida para guiar el proceso generativo hacia regiones termodinámicamente favorables. El método emplea un ciclo de dos fases de automuestreo y refinamiento del modelo, mejorando progresivamente su capacidad para identificar estructuras de baja energía objetivo. En comparación con los flujos de trabajo de optimización tradicionales, GO-Diff logra resultados competitivos con significativamente menos evaluaciones de energía. Además, al reutilizar modelos preentrenados entre sistemas relacionados, GO-Diff permite optimización amortizada, convergiendo más rápidamente en nuevas tareas sin necesidad de reentrenamiento desde cero.

Contexto de Investigación y Motivación

Problema a Resolver

Esta investigación aborda el problema de la optimización de estructura global para sistemas atómicos, es decir, la búsqueda de configuraciones atómicas estables de baja energía en la superficie de energía potencial (PES). La superficie de energía potencial es una función de alta dimensionalidad y no convexa que mapea posiciones atómicas a su energía potencial correspondiente. Explorar esta superficie para identificar estructuras de baja energía es un desafío fundamental en ciencia de materiales computacional, química y catálisis.

Importancia del Problema

La optimización de estructura global es fundamental para aplicaciones que van desde el descubrimiento de superficies catalíticas hasta el diseño de materiales funcionales, siendo crítica para:

Descubrimiento de nuevas superficies catalíticas
Diseño de materiales funcionales
Predicción de configuraciones atómicas estables
Comprensión de propiedades de materiales

Limitaciones de Métodos Existentes

Los métodos de optimización global tradicionales presentan los siguientes problemas:

Alto costo computacional: Métodos como búsqueda de estructura aleatoria (RSS), salto de cuencas, algoritmos genéticos y recocido simulado dependen de relajación local y optimizadores basados en gradientes, requiriendo numerosas evaluaciones de energía y fuerzas
Limitación a optimización local: Tendencia a quedar atrapados en óptimos locales, limitando la exploración de paisajes energéticos complejos
Dependencia de datos: Los potenciales interatómicos de aprendizaje automático requieren datos de entrenamiento cuidadosamente seleccionados para capturar mínimos relevantes, de lo contrario pueden quedar atrapados en mínimos locales auto-reforzados
Falta de transferibilidad: Los métodos existentes tienen dificultades para reutilizar conocimiento aprendido entre sistemas relacionados

Motivación de la Investigación

Los modelos de difusión han mostrado promesa en la generación de estructuras en ciencia molecular y de materiales, pero su aplicación a tareas de optimización global presenta desafíos, ya que el objetivo es muestrear configuraciones raras de baja energía correspondientes a mínimos globales de la PES, pero la distribución de datos de tales estructuras es típicamente desconocida o inaccesible.

Contribuciones Principales

Propone un método de optimización generativa sin datos: Muestreo directo de mínimos de la superficie de energía potencial sin datos previos ni relajación explícita
Desarrolla una función de pérdida ponderada por Boltzmann: Combina estrategia de recocido para guiar el muestreo hacia regiones de baja energía mientras mantiene exploración
Implementa optimización amortizada: Permite reutilización de conocimiento mediante transferencia de modelos preentrenados entre sistemas relacionados
Verifica eficiencia de muestra superior: Demuestra mayor eficiencia de muestra en comparación con métodos de búsqueda clásicos

Explicación Detallada del Método

Definición de la Tarea

Entrada: Función de energía E(x) del sistema atómico, donde x representa la configuración atómica Salida: Configuraciones atómicas estables de baja energía Objetivo: Muestreo de la distribución de Boltzmann: $\pi_T(x) = \frac{\exp(-E(x)/T)}{Z_T}$

Arquitectura del Modelo

Ciclo de Entrenamiento

GO-Diff emplea operación de ciclo de automuestreo:

El modelo genera estructuras atómicas mediante difusión inversa
Se evalúa la energía de las estructuras generadas
Se utilizan las muestras resultantes para refinar el modelo

Se mantiene un búfer de reproducción $B = \{(x_0^{(i)}, E^{(i)})\}$ que almacena configuraciones generadas y sus energías.

Coincidencia de Puntuación Ponderada por Boltzmann

La innovación central es la pérdida de coincidencia de puntuación ponderada por Boltzmann:

$L_{\theta}^{Boltzmann} = E_{t\sim U(0,1)}\left[\lambda(t)E_{x_0\sim q, x_t\sim p_{t|0}(x_t|x_0)} w(E) \|s_\theta(x_t,t) - \nabla_{x_t}\log p_{t|0}(x_t|x_0)\|_2^2\right]$

donde el peso de Boltzmann es: $w(E) = \frac{\exp(-E/T)}{\sum_{E^{(i)}\in B} \exp(-E^{(i)}/T)}$

Este diseño evita la necesidad de muestreo directo de la verdadera distribución de Boltzmann mediante muestreo por importancia.

Estrategia de Recocido

La temperatura T se reduce desde un valor inicial alto a un valor final bajo, equilibrando exploración y explotación:

Fase temprana: Temperatura alta fomenta exploración amplia
Fase tardía: Temperatura baja converge a mínimos profundos

Guía de Campo de Fuerzas (FFG)

Aprovecha las fuerzas atómicas típicamente disponibles junto con la energía:

Se adjunta una cabeza de predicción de fuerzas en la columna vertebral de representación compartida de la red de puntuación
Se utilizan fuerzas predichas en el esquema de muestreo predictor-corrector: $\Delta x = \alpha(1-t)\zeta F_\theta(x)$
Conforme el tiempo de difusión t→0, el término de corrección ejerce mayor influencia guía

Puntos de Innovación Técnica

Ponderación de Boltzmann directa: Evita evaluación de fuerzas y estimación de Monte Carlo, utilizando pérdida de coincidencia de puntuación ponderada por Boltzmann directa
Aprendizaje autosupervisado: Aprende de sus propias generaciones sin requerir datos externos
Transferencia de modelo: Demuestra capacidad de transferir modelos preentrenados entre sistemas relacionados
Guía física: Incorpora información de campo de fuerzas para acelerar convergencia

Configuración Experimental

Conjunto de Datos

Se utilizan dos tareas de optimización atómica con el potencial universal MACE-MP0:

Optimización de adátomo Pt en escalón Pt: Sistema 3D, visualizable como 2D mediante proyección a lo largo de la normal de la superficie
Descubrimiento de heptámero Pt en superficie Pt(111) 6×6: Sistema más complejo, utilizado para evaluación comparativa y verificación de optimización amortizada

Métricas de Evaluación

Tasa de éxito en encontrar la estructura objetivo
Número promedio de evaluaciones de energía requeridas para encontrar la estructura objetivo
Mejor energía a lo largo del tiempo

Métodos de Comparación

Búsqueda de Estructura Aleatoria (RSS): Método tradicional implementado con paquete AGOX
Variantes de GO-Diff: Sin FFG, con FFG, con transferencia de modelo

Detalles de Implementación

Hiperparámetros Universales:

Pasos de muestreo de difusión: 500
Programación de ruido: Lineal (VE-SDE)
Arquitectura del modelo de puntuación: PaiNN GNN (4 bloques), corte de 6Å
Temperatura final: 0.02
Tasa de aprendizaje: 10^-4
Optimizador: AdamW

Parámetros Específicos de Tarea:

Adátomo Pt: Tamaño de búfer 16, 32 muestras por iteración, recocido exponencial de 10 iteraciones
Heptámero Pt: Tamaño de búfer 64, 128 muestras por iteración, recocido exponencial de 20 iteraciones

Resultados Experimentales

Resultados Principales

Optimización de Adátomo Pt

Demostración exitosa de muestreo progresivamente concentrado en cuencas de baja energía
Validación de la efectividad de la pérdida ponderada por Boltzmann y el programa de recocido

Descubrimiento de Heptámero Pt

Método	Evaluaciones	Tasa de Éxito	Iteración Promedio de Éxito
RSS	10,000	1/8	7,816
GO-Diff	2,560	5/8	1,667
GO-Diff + FFG	2,560	8/8	1,994
GO-Diff + Transferencia	1,280	7/8	591

Hallazgos Clave

Eficiencia de muestra: GO-Diff logra mejor tasa de éxito con significativamente menos evaluaciones de energía
Efecto de guía de campo de fuerzas: FFG mejora la tasa de éxito (de 5/8 a 8/8) y el rendimiento
Ventaja de aprendizaje por transferencia: La transferencia de modelo reduce más de 2 veces las evaluaciones requeridas (de 1,667 a 591)
Robustez: La naturaleza estocástica del proceso de difusión permite a GO-Diff escapar robustamente de mínimos locales

Análisis de Optimización Amortizada

La aceleración del aprendizaje por transferencia es esperada, ya que el modelo transferido ya ha capturado preferencias de enlace (como la estabilidad de sitios huecos bajo bordes de escalón), reduciendo la tarea de optimización al ajuste de geometría interatómica en lugar de aprendizaje de enlace desde cero.

Trabajo Relacionado

Métodos de Optimización Global Tradicionales

Búsqueda de estructura aleatoria, salto de cuencas, algoritmos genéticos, recocido simulado
Potenciales interatómicos de aprendizaje automático (preentrenados o aprendizaje en línea)

Aplicaciones de Modelos de Difusión

Generación de estructuras en ciencia molecular y de materiales
Modelos de difusión para optimización de caja negra (DDOM)
Muestreadores de Boltzmann (iDEM, BNEM, Muestreo Adjunto)

Ventajas Respecto a Trabajo Relacionado

Evita estimación de Monte Carlo y etiquetado de fuerzas
Ciclo de entrenamiento más simple y eficiente en muestras
Primera demostración de capacidad de aprendizaje por transferencia entre sistemas

Conclusiones y Discusión

Conclusiones Principales

GO-Diff es un marco efectivo de optimización de estructura global sin datos
La pérdida de coincidencia de puntuación ponderada por Boltzmann guía efectivamente la generación de configuraciones de baja energía
La optimización amortizada mediante transferencia de modelo mejora significativamente la eficiencia
Supera métodos tradicionales en eficiencia de muestra y tasa de éxito

Limitaciones

Sensibilidad a Hiperparámetros: Cantidad de muestras, curva de temperatura y pasos de entrenamiento son hiperparámetros críticos que requieren ajuste cuidadoso
Limitaciones de Escalabilidad: Los modelos de difusión atómica actuales se han validado principalmente en sistemas con <20 átomos
Escala de Sistema: Se requiere investigación adicional para hacer que GO-Diff sea aplicable a sistemas de tamaño real muy grandes

Direcciones Futuras

Extensión a optimización de diseño multiobjetivo o multicomponente
Ajuste dinámico de temperatura y muestreo adaptativo
Mejora de escalabilidad para sistemas grandes
Aceleración por sustituto y optimización multiobjetivo

Evaluación Profunda

Fortalezas

Innovación Metodológica: Primera aplicación exitosa de modelos de difusión a optimización de estructura global sin datos
Avance Técnico: El diseño de pérdida ponderada por Boltzmann es ingenioso, evitando la complejidad de métodos existentes
Valor Práctico: La optimización amortizada demuestra ventajas significativas en aplicaciones reales
Experimentación Completa: Pruebas exhaustivas en sistemas de complejidad variable
Fundamento Teórico: Derivación rigurosa basada en muestreo por importancia

Deficiencias

Limitación de Escala de Sistema: Validación solo en sistemas atómicos relativamente pequeños (≤20 átomos)
Ajuste de Hiperparámetros: El método es sensible a múltiples hiperparámetros, lo que puede limitar su generalidad
Evaluación Comparativa Limitada: Solo comparación con RSS, falta de comparación con otros métodos modernos
Análisis Teórico Insuficiente: Carencia de garantías teóricas sobre convergencia y complejidad de muestra

Impacto

Contribución Académica: Introduce nuevo paradigma de modelado generativo para el campo de optimización global
Valor Práctico: Aplicaciones potenciales en descubrimiento de materiales y diseño de catalizadores
Reproducibilidad: Proporciona código completo y detalles de implementación
Significado Inspirador: Abre nuevas direcciones para aplicación de modelos de difusión en problemas de optimización

Escenarios de Aplicación

Descubrimiento de Materiales: Predicción de estructura de nuevos catalizadores y materiales funcionales
Ciencia de Superficies: Investigación de sitios de adsorción y reconstrucción de superficies
Optimización de Moléculas Pequeñas: Búsqueda de conformación molecular y diseño de fármacos
Sistemas Relacionados Existentes: Particularmente adecuado para escenarios que requieren múltiples optimizaciones entre sistemas similares

Referencias

Este artículo cita 38 referencias relacionadas, abarcando trabajos importantes en optimización global, modelos de difusión, potenciales de aprendizaje automático y otros campos clave, proporcionando una base teórica sólida para el desarrollo del método.