2025-11-25T09:01:17.655044

Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice

Moss, Wiersema, Hibat-Allah et al.

Variational Monte Carlo simulations have been crucial for understanding quantum many-body systems, especially when the Hamiltonian is frustrated and the ground-state wavefunction has a non-trivial sign structure. In this paper, we use recurrent neural network (RNN) wavefunction ansÃ¤tze to study the triangular-lattice antiferromagnetic Heisenberg model (TLAHM) for lattice sizes up to $30\times30$. In a recent study [M. S. Moss et al. arXiv:2502.17144], the authors demonstrated how RNN wavefunctions can be iteratively retrained in order to obtain variational results for multiple lattice sizes with a reasonable amount of compute. That study, which looked at the sign-free, square-lattice antiferromagnetic Heisenberg model, showed favorable scaling properties, allowing accurate finite-size extrapolations to the thermodynamic limit. In contrast, our present results illustrate in detail the relative difficulty in simulating the sign-problematic TLAHM. We find that the accuracy of our simulations can be significantly improved by transforming the Hamiltonian with a judicious choice of basis rotation. We also show that a similar benefit can be achieved by using variational neural annealing, an alternative optimization technique that minimizes a pseudo free energy. Ultimately, we are able to obtain estimates of the ground-state properties of the TLAHM in the thermodynamic limit that are in close agreement with values in the literature, showing that RNN wavefunctions provide a powerful toolbox for performing finite-size scaling studies for frustrated quantum many-body systems.

academic

Aprovechando la recurrencia en funciones de onda de redes neuronales para simulaciones a gran escala de antiferroimanes de Heisenberg en la red triangular

Información Básica

ID del Artículo: 2505.20406
Título: Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice
Autores: M. Schuyler Moss, Roeland Wiersema, Mohamed Hibat-Allah, Juan Carrasquilla, Roger G. Melko
Clasificación: cond-mat.str-el cond-mat.dis-nn quant-ph
Fecha de Publicación: 13 de octubre de 2025 (versión v3 de arXiv)
Enlace del Artículo: https://arxiv.org/abs/2505.20406

Resumen

Este artículo estudia el modelo de Heisenberg antiferromagnético en red triangular (TLAHM) utilizando ansätze de funciones de onda de redes neuronales recurrentes (RNN), alcanzando tamaños de sistema de 30×30. A diferencia de los modelos de red cuadrada estudiados previamente sin problema de signos, el TLAHM presenta una estructura de signos compleja que hace que la simulación numérica sea más desafiante. El estudio demuestra que mediante cambios de base apropiados y técnicas de recocido neuronal variacional se puede mejorar significativamente la precisión de la simulación. Las propiedades del estado fundamental en el límite termodinámico obtenidas son altamente consistentes con valores de la literatura, demostrando la capacidad robusta de las funciones de onda RNN en estudios de escalado de tamaño finito de sistemas cuánticos de muchos cuerpos frustrados.

Antecedentes y Motivación de la Investigación

Importancia del Problema

El modelo de Heisenberg antiferromagnético en red triangular (TLAHM) es uno de los ejemplos estándar de magnetismo cuántico frustrado. Aunque actualmente se conoce que su estado fundamental exhibe orden magnético de 120°, la investigación numérica de este sistema es extremadamente desafiante debido a la frustración geométrica presente. A diferencia de la red cuadrada, el TLAHM presenta un problema de signos que dificulta las simulaciones de Monte Carlo cuántico (QMC).

Limitaciones de los Métodos Existentes

Diagonalización exacta: Limitada a tamaños de sistema pequeños, con efectos de tamaño finito severos
Monte Carlo variacional tradicional: Depende de la elección del ansatz, con precisión limitada
Métodos QMC: Afectados por el problema de signos, difícil obtener errores controlables

Motivación de la Investigación

Los estados cuánticos neuronales (NQS) como ansätze variacionales de alta expresividad han recibido considerable atención recientemente, pero la frustración y la estructura de signos no trivial se consideraban obstáculos potenciales para la optimización de NQS. El TLAHM se convierte así en un punto de referencia importante para probar el desempeño de NQS, y este artículo tiene como objetivo verificar la efectividad de las funciones de onda RNN en tales sistemas difíciles.

Contribuciones Principales

Primera aplicación exitosa de funciones de onda RNN con reentrenamiento iterativo al TLAHM, logrando simulaciones a gran escala de sistemas de hasta 30×30
Estudio sistemático del impacto de cambios de base en la precisión de simulación, descubriendo que la transformación de 120° mejora significativamente los resultados en comparación con la regla de signos de Marshall-Peierls
Introducción de la técnica de recocido neuronal variacional (VNA), superando efectivamente las dificultades de optimización causadas por la frustración mediante minimización de energía libre pseudoclásica
Obtención de propiedades en el límite termodinámico mediante escalado de tamaño finito, con energía del estado fundamental e intensidad de magnetización de subred altamente consistentes con valores de referencia de la literatura
Análisis detallado de complejidad computacional y tiempo de ejecución, demostrando la practicidad del método

Explicación Detallada del Método

Definición de la Tarea

Investigación de las propiedades del estado fundamental del TLAHM: $\hat{H} = \sum_{\langle ij \rangle} \vec{S}_i \cdot \vec{S}_j$ donde $\langle i,j \rangle$ denota interacciones de primeros vecinos en la red triangular, y $\vec{S}_i$ es el operador de espín-1/2.

Arquitectura del Modelo

Diseño de la Función de Onda RNN

Construcción de la función de onda mediante red neuronal recurrente bidimensional: $p(|\sigma\rangle) = p(\sigma_1)p(\sigma_2|\sigma_1)\cdots p(\sigma_N|\sigma_{N-1},\ldots,\sigma_1)$

Componentes Clave:

Unidad Recurrente Controlada (GRU): Procesa la transmisión de información del vector oculto
Parametrización de fase compleja: Maneja la estructura de signos no trivial $\Psi_W(\sigma) = \exp[i\phi_W(\sigma)]\sqrt{p_W(\sigma)}$
Condiciones de frontera pseudoperiódicas: Mantiene causalidad mientras simula sistemas periódicos

Técnica de Cambio de Base

Transformación de Marshall-Peierls ( $U_{sq}$ ): $U_{sq} = \exp\left(-i\pi\sum_{j\in B_{sq}}\hat{S}^z_j\right)$

Transformación de 120° ( $U_{tri}$ ): $U_{tri} = \exp\left(-\frac{2\pi i}{3}\left[\sum_{b\in B_{tri}}\hat{S}^z_b - \sum_{c\in C_{tri}}\hat{S}^z_c\right]\right)$

Recocido Neuronal Variacional

Minimización de energía libre pseudoclásica: $F_W(t) = E_W - T(t)S_{classical}(p_W)$ donde $T(t)$ es la temperatura de recocido y $S_{classical}$ es la entropía de Shannon.

Puntos de Innovación Técnica

Mecanismo de compartición de pesos: El número de parámetros RNN es independiente del tamaño del sistema, permitiendo reentrenamiento iterativo
Promediado de simetría: Solo se promedian los valores absolutos de la función de onda del grupo $C_{6v}$ , evitando inestabilidad numérica del promediado de fase
Plan de entrenamiento parametrizado: $N_{steps}(L,s,r;L_0,C,F) = s \times [C\exp(-r(L-L_0)) + F]$
Extrapolación de varianza cero: Utiliza secuencias de estados variacionales mejorados del sistema para obtener estimaciones de energía más precisas

Configuración Experimental

Parámetros del Sistema

Tamaño de red: L = 6, 12, 18, 24, 30 (condiciones de frontera periódicas)
Dimensión del vector oculto: $d_h$ = valor fijo (asegura expresividad suficiente)
Simetría: Simetría U(1) forzada (magnetización cero), aplicación de simetría del grupo puntual $C_{6v}$

Estrategia de Entrenamiento

Entrenamiento de cuatro etapas (L=6):

Tasa de aprendizaje fija $\gamma = 5 \times 10^{-4}$ , temperatura $T_0$
Recocido neuronal variacional: enfriamiento lineal a 0
Decaimiento de tasa de aprendizaje: $\gamma(t) = \gamma_0 \times (1+(t/\delta))^{-1}$
Aplicación de simetría, optimización final

Reentrenamiento iterativo: Inicialización de entrenamiento de tamaños grandes usando resultados de optimización de tamaños pequeños

Indicadores de Evaluación

Energía variacional: $E_W = \langle\Psi_W|\hat{H}|\Psi_W\rangle/\langle\Psi_W|\Psi_W\rangle$
Varianza de energía: Mide la proximidad al estado propio
V-score: $V = N\text{var}(E)/(E-E_\infty)^2$
Intensidad de magnetización de subred: Calculada mediante funciones de correlación en espacio de momento

Resultados Experimentales

Resultados Principales

Comparación del Efecto de Cambio de Base (L=6)

Sin transformación/Transformación de Marshall-Peierls: Requiere recocido a alta temperatura ( $T_0 = 1.0$ ) para obtener resultados precisos
Transformación de 120°: Insensible a la temperatura de recocido, obtiene resultados excelentes incluso con $T_0 = 0$
Energía óptima: -0.5562(2) (cercana al resultado de diagonalización exacta -0.5603734)

Resultados de Escalado de Tamaño Finito

Escalado de energía (usando $E(L) = E_\infty + e_1/L^3$ ):

Energía de extrapolación de varianza cero: $E_\infty = -0.5517569(9)$
Referencia DMRG: $E_\infty^{DMRG} = -0.5503(8)$
Referencia iPEPS: $E_\infty^{iPEPS} = -0.55161(6)$

Intensidad de magnetización de subred:

$M_\infty = 0.192(2)$ (extrapolación de $M^2$ )
$M_\infty = 0.198(2)$ (extrapolación de $M^2_C$ )
Referencia DMRG: $M_\infty^{DMRG} = 0.208(8)$

Análisis de Complejidad Computacional

Tiempo de entrenamiento por paso: Escalado $O(L^4)$
Tiempo de ejecución total: Simulación más larga de 1700 horas GPU (cubriendo seis tamaños de sistema)
Plan de entrenamiento parametrizado controla efectivamente el costo computacional de sistemas de tamaño grande

Hallazgos Importantes

Ruptura de simetría SU(2): El estado aprendido por RNN es una superposición de estados de torre de Anderson, no un verdadero singlete
Importancia de la estructura de signos: El éxito de la transformación de 120° demuestra el papel crítico de la elección de base en el aprendizaje de estructuras de signos no triviales
Efectividad de VNA: Incluso en bases subóptimas se pueden obtener buenos resultados mediante recocido apropiado

Trabajo Relacionado

Métodos Numéricos para Sistemas Cuánticos de Muchos Cuerpos

DMRG: Progreso importante en geometría cilíndrica
iPEPS: Parametrización directa del estado fundamental en el límite termodinámico
VMC tradicional: Uso de ansätze como funciones de onda proyectadas

Desarrollo de Estados Cuánticos Neuronales

RBM: Arquitectura NQS más temprana
CNN: Utiliza invariancia traslacional
Transformer: Maneja correlaciones de largo alcance
RNN: Enfoque principal de este artículo, permite reentrenamiento iterativo

Investigación Especializada en TLAHM

Históricamente hubo controversia sobre las propiedades del estado fundamental, finalmente confirmado mediante Monte Carlo de función de Green que presenta orden antiferromagnético de 120°.

Conclusiones y Discusión

Conclusiones Principales

Las funciones de onda RNN pueden simular exitosamente el TLAHM, incluso con frustración y estructura de signos no trivial
El cambio de base y VNA son técnicas clave, mejorando significativamente el efecto de optimización
La estrategia de reentrenamiento iterativo es efectiva, logrando simulación eficiente de sistemas a gran escala
Los resultados en el límite termodinámico son consistentes con referencias, verificando la confiabilidad del método

Limitaciones

Requiere más recursos computacionales en comparación con red cuadrada: La tasa de decaimiento mínima disminuye de 0.25 a 0.158
V-score deficiente: Indica que TLAHM es efectivamente un problema de optimización más difícil
Simetría SU(2) no completamente preservada: Puede afectar la precisión de ciertas cantidades físicas
Aún requiere optimizador Adam: Los métodos de optimización avanzada como SR funcionan mal con RNN

Direcciones Futuras

Estudio sistemático de estructura de signos: Comprender los mecanismos profundos del éxito del cambio de base
Algoritmos de optimización más avanzados: Explorar variantes de SR aplicables a RNN
Otros sistemas frustrados: Extensión a redes kagome y otras geometrías
Investigación de transiciones de fase cuántica: Utilizar escalabilidad para estudiar fenómenos críticos

Evaluación Profunda

Fortalezas

Fuerte innovación técnica: Primera aplicación exitosa de RNN con reentrenamiento iterativo a sistemas frustrados difíciles
Diseño experimental completo: Comparación sistemática de diferentes cambios de base y estrategias de optimización
Alta credibilidad de resultados: Verificación mediante múltiples métodos, altamente consistente con referencias independientes
Gran valor práctico: Proporciona herramienta efectiva para sistemas cuánticos frustrados a gran escala
Análisis profundo: Comprensión del impacto del problema de signos desde la perspectiva de optimización

Insuficiencias

Comprensión teórica limitada: Falta análisis profundo del mecanismo de éxito de la transformación de 120°
Costo computacional relativamente alto: Aún requiere más recursos en comparación con red cuadrada
Tratamiento de simetría: La ruptura de SU(2) puede afectar la precisión de ciertos observables
Generalización desconocida: El desempeño en otros sistemas frustrados requiere verificación

Impacto

Contribución metodológica: Proporciona ejemplo importante para aplicación de NQS en sistemas frustrados
Generalización de técnica: La estrategia de reentrenamiento iterativo es aplicable a otros problemas de muchos cuerpos cuánticos
Valor de referencia: Proporciona nuevos resultados numéricos de alta precisión para TLAHM
Significado inspirador: Revela el papel importante del cambio de base en aprendizaje automático cuántico

Escenarios Aplicables

Magnetos cuánticos frustrados bidimensionales: Particularmente adecuado para sistemas con frustración geométrica
Investigación de escalado de tamaño finito: La ventaja de escalabilidad de RNN es evidente
Cálculo de propiedades del estado fundamental: Cantidades observables del estado fundamental como energía e intensidad de magnetización
Investigación metodológica: Como problema de referencia para prueba de nuevas arquitecturas NQS

Referencias

Este artículo cita literatura importante en el campo, incluyendo:

Trabajo pionero de Anderson en teoría de enlaces de valencia resonantes
Resultados de referencia de diagonalización exacta de Bernu et al.
Investigación de Monte Carlo de función de Green de Capriotti et al.
Trabajo fundamental de Carleo-Troyer en estados cuánticos neuronales
Resultados recientes de alta precisión de DMRG e iPEPS

Evaluación General: Este es un artículo de alta calidad en física computacional con contribuciones importantes tanto en metodología como en aplicación. Mediante combinación ingeniosa de cambio de base, recocido variacional y reentrenamiento iterativo, resuelve exitosamente el problema difícil del TLAHM, abriendo nuevos caminos para la aplicación de estados cuánticos neuronales en sistemas frustrados. A pesar de algunas insuficiencias en comprensión teórica, su valor práctico e importancia inspiradora lo convierten en un progreso importante en el campo.