2025-11-25T09:01:17.655044

Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice

Moss, Wiersema, Hibat-Allah et al.
Variational Monte Carlo simulations have been crucial for understanding quantum many-body systems, especially when the Hamiltonian is frustrated and the ground-state wavefunction has a non-trivial sign structure. In this paper, we use recurrent neural network (RNN) wavefunction ansätze to study the triangular-lattice antiferromagnetic Heisenberg model (TLAHM) for lattice sizes up to $30\times30$. In a recent study [M. S. Moss et al. arXiv:2502.17144], the authors demonstrated how RNN wavefunctions can be iteratively retrained in order to obtain variational results for multiple lattice sizes with a reasonable amount of compute. That study, which looked at the sign-free, square-lattice antiferromagnetic Heisenberg model, showed favorable scaling properties, allowing accurate finite-size extrapolations to the thermodynamic limit. In contrast, our present results illustrate in detail the relative difficulty in simulating the sign-problematic TLAHM. We find that the accuracy of our simulations can be significantly improved by transforming the Hamiltonian with a judicious choice of basis rotation. We also show that a similar benefit can be achieved by using variational neural annealing, an alternative optimization technique that minimizes a pseudo free energy. Ultimately, we are able to obtain estimates of the ground-state properties of the TLAHM in the thermodynamic limit that are in close agreement with values in the literature, showing that RNN wavefunctions provide a powerful toolbox for performing finite-size scaling studies for frustrated quantum many-body systems.
academic

Aprovechando la recurrencia en funciones de onda de redes neuronales para simulaciones a gran escala de antiferroimanes de Heisenberg en la red triangular

Información Básica

  • ID del Artículo: 2505.20406
  • Título: Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice
  • Autores: M. Schuyler Moss, Roeland Wiersema, Mohamed Hibat-Allah, Juan Carrasquilla, Roger G. Melko
  • Clasificación: cond-mat.str-el cond-mat.dis-nn quant-ph
  • Fecha de Publicación: 13 de octubre de 2025 (versión v3 de arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2505.20406

Resumen

Este artículo estudia el modelo de Heisenberg antiferromagnético en red triangular (TLAHM) utilizando ansätze de funciones de onda de redes neuronales recurrentes (RNN), alcanzando tamaños de sistema de 30×30. A diferencia de los modelos de red cuadrada estudiados previamente sin problema de signos, el TLAHM presenta una estructura de signos compleja que hace que la simulación numérica sea más desafiante. El estudio demuestra que mediante cambios de base apropiados y técnicas de recocido neuronal variacional se puede mejorar significativamente la precisión de la simulación. Las propiedades del estado fundamental en el límite termodinámico obtenidas son altamente consistentes con valores de la literatura, demostrando la capacidad robusta de las funciones de onda RNN en estudios de escalado de tamaño finito de sistemas cuánticos de muchos cuerpos frustrados.

Antecedentes y Motivación de la Investigación

Importancia del Problema

El modelo de Heisenberg antiferromagnético en red triangular (TLAHM) es uno de los ejemplos estándar de magnetismo cuántico frustrado. Aunque actualmente se conoce que su estado fundamental exhibe orden magnético de 120°, la investigación numérica de este sistema es extremadamente desafiante debido a la frustración geométrica presente. A diferencia de la red cuadrada, el TLAHM presenta un problema de signos que dificulta las simulaciones de Monte Carlo cuántico (QMC).

Limitaciones de los Métodos Existentes

  1. Diagonalización exacta: Limitada a tamaños de sistema pequeños, con efectos de tamaño finito severos
  2. Monte Carlo variacional tradicional: Depende de la elección del ansatz, con precisión limitada
  3. Métodos QMC: Afectados por el problema de signos, difícil obtener errores controlables

Motivación de la Investigación

Los estados cuánticos neuronales (NQS) como ansätze variacionales de alta expresividad han recibido considerable atención recientemente, pero la frustración y la estructura de signos no trivial se consideraban obstáculos potenciales para la optimización de NQS. El TLAHM se convierte así en un punto de referencia importante para probar el desempeño de NQS, y este artículo tiene como objetivo verificar la efectividad de las funciones de onda RNN en tales sistemas difíciles.

Contribuciones Principales

  1. Primera aplicación exitosa de funciones de onda RNN con reentrenamiento iterativo al TLAHM, logrando simulaciones a gran escala de sistemas de hasta 30×30
  2. Estudio sistemático del impacto de cambios de base en la precisión de simulación, descubriendo que la transformación de 120° mejora significativamente los resultados en comparación con la regla de signos de Marshall-Peierls
  3. Introducción de la técnica de recocido neuronal variacional (VNA), superando efectivamente las dificultades de optimización causadas por la frustración mediante minimización de energía libre pseudoclásica
  4. Obtención de propiedades en el límite termodinámico mediante escalado de tamaño finito, con energía del estado fundamental e intensidad de magnetización de subred altamente consistentes con valores de referencia de la literatura
  5. Análisis detallado de complejidad computacional y tiempo de ejecución, demostrando la practicidad del método

Explicación Detallada del Método

Definición de la Tarea

Investigación de las propiedades del estado fundamental del TLAHM: H^=ijSiSj\hat{H} = \sum_{\langle ij \rangle} \vec{S}_i \cdot \vec{S}_j donde i,j\langle i,j \rangle denota interacciones de primeros vecinos en la red triangular, y Si\vec{S}_i es el operador de espín-1/2.

Arquitectura del Modelo

Diseño de la Función de Onda RNN

Construcción de la función de onda mediante red neuronal recurrente bidimensional: p(σ)=p(σ1)p(σ2σ1)p(σNσN1,,σ1)p(|\sigma\rangle) = p(\sigma_1)p(\sigma_2|\sigma_1)\cdots p(\sigma_N|\sigma_{N-1},\ldots,\sigma_1)

Componentes Clave:

  1. Unidad Recurrente Controlada (GRU): Procesa la transmisión de información del vector oculto
  2. Parametrización de fase compleja: Maneja la estructura de signos no trivial ΨW(σ)=exp[iϕW(σ)]pW(σ)\Psi_W(\sigma) = \exp[i\phi_W(\sigma)]\sqrt{p_W(\sigma)}
  3. Condiciones de frontera pseudoperiódicas: Mantiene causalidad mientras simula sistemas periódicos

Técnica de Cambio de Base

Transformación de Marshall-Peierls (UsqU_{sq}): Usq=exp(iπjBsqS^jz)U_{sq} = \exp\left(-i\pi\sum_{j\in B_{sq}}\hat{S}^z_j\right)

Transformación de 120° (UtriU_{tri}): Utri=exp(2πi3[bBtriS^bzcCtriS^cz])U_{tri} = \exp\left(-\frac{2\pi i}{3}\left[\sum_{b\in B_{tri}}\hat{S}^z_b - \sum_{c\in C_{tri}}\hat{S}^z_c\right]\right)

Recocido Neuronal Variacional

Minimización de energía libre pseudoclásica: FW(t)=EWT(t)Sclassical(pW)F_W(t) = E_W - T(t)S_{classical}(p_W) donde T(t)T(t) es la temperatura de recocido y SclassicalS_{classical} es la entropía de Shannon.

Puntos de Innovación Técnica

  1. Mecanismo de compartición de pesos: El número de parámetros RNN es independiente del tamaño del sistema, permitiendo reentrenamiento iterativo
  2. Promediado de simetría: Solo se promedian los valores absolutos de la función de onda del grupo C6vC_{6v}, evitando inestabilidad numérica del promediado de fase
  3. Plan de entrenamiento parametrizado: Nsteps(L,s,r;L0,C,F)=s×[Cexp(r(LL0))+F]N_{steps}(L,s,r;L_0,C,F) = s \times [C\exp(-r(L-L_0)) + F]
  4. Extrapolación de varianza cero: Utiliza secuencias de estados variacionales mejorados del sistema para obtener estimaciones de energía más precisas

Configuración Experimental

Parámetros del Sistema

  • Tamaño de red: L = 6, 12, 18, 24, 30 (condiciones de frontera periódicas)
  • Dimensión del vector oculto: dhd_h = valor fijo (asegura expresividad suficiente)
  • Simetría: Simetría U(1) forzada (magnetización cero), aplicación de simetría del grupo puntual C6vC_{6v}

Estrategia de Entrenamiento

Entrenamiento de cuatro etapas (L=6):

  1. Tasa de aprendizaje fija γ=5×104\gamma = 5 \times 10^{-4}, temperatura T0T_0
  2. Recocido neuronal variacional: enfriamiento lineal a 0
  3. Decaimiento de tasa de aprendizaje: γ(t)=γ0×(1+(t/δ))1\gamma(t) = \gamma_0 \times (1+(t/\delta))^{-1}
  4. Aplicación de simetría, optimización final

Reentrenamiento iterativo: Inicialización de entrenamiento de tamaños grandes usando resultados de optimización de tamaños pequeños

Indicadores de Evaluación

  1. Energía variacional: EW=ΨWH^ΨW/ΨWΨWE_W = \langle\Psi_W|\hat{H}|\Psi_W\rangle/\langle\Psi_W|\Psi_W\rangle
  2. Varianza de energía: Mide la proximidad al estado propio
  3. V-score: V=Nvar(E)/(EE)2V = N\text{var}(E)/(E-E_\infty)^2
  4. Intensidad de magnetización de subred: Calculada mediante funciones de correlación en espacio de momento

Resultados Experimentales

Resultados Principales

Comparación del Efecto de Cambio de Base (L=6)

  • Sin transformación/Transformación de Marshall-Peierls: Requiere recocido a alta temperatura (T0=1.0T_0 = 1.0) para obtener resultados precisos
  • Transformación de 120°: Insensible a la temperatura de recocido, obtiene resultados excelentes incluso con T0=0T_0 = 0
  • Energía óptima: -0.5562(2) (cercana al resultado de diagonalización exacta -0.5603734)

Resultados de Escalado de Tamaño Finito

Escalado de energía (usando E(L)=E+e1/L3E(L) = E_\infty + e_1/L^3):

  • Energía de extrapolación de varianza cero: E=0.5517569(9)E_\infty = -0.5517569(9)
  • Referencia DMRG: EDMRG=0.5503(8)E_\infty^{DMRG} = -0.5503(8)
  • Referencia iPEPS: EiPEPS=0.55161(6)E_\infty^{iPEPS} = -0.55161(6)

Intensidad de magnetización de subred:

  • M=0.192(2)M_\infty = 0.192(2) (extrapolación de M2M^2)
  • M=0.198(2)M_\infty = 0.198(2) (extrapolación de MC2M^2_C)
  • Referencia DMRG: MDMRG=0.208(8)M_\infty^{DMRG} = 0.208(8)

Análisis de Complejidad Computacional

  • Tiempo de entrenamiento por paso: Escalado O(L4)O(L^4)
  • Tiempo de ejecución total: Simulación más larga de 1700 horas GPU (cubriendo seis tamaños de sistema)
  • Plan de entrenamiento parametrizado controla efectivamente el costo computacional de sistemas de tamaño grande

Hallazgos Importantes

  1. Ruptura de simetría SU(2): El estado aprendido por RNN es una superposición de estados de torre de Anderson, no un verdadero singlete
  2. Importancia de la estructura de signos: El éxito de la transformación de 120° demuestra el papel crítico de la elección de base en el aprendizaje de estructuras de signos no triviales
  3. Efectividad de VNA: Incluso en bases subóptimas se pueden obtener buenos resultados mediante recocido apropiado

Trabajo Relacionado

Métodos Numéricos para Sistemas Cuánticos de Muchos Cuerpos

  • DMRG: Progreso importante en geometría cilíndrica
  • iPEPS: Parametrización directa del estado fundamental en el límite termodinámico
  • VMC tradicional: Uso de ansätze como funciones de onda proyectadas

Desarrollo de Estados Cuánticos Neuronales

  • RBM: Arquitectura NQS más temprana
  • CNN: Utiliza invariancia traslacional
  • Transformer: Maneja correlaciones de largo alcance
  • RNN: Enfoque principal de este artículo, permite reentrenamiento iterativo

Investigación Especializada en TLAHM

Históricamente hubo controversia sobre las propiedades del estado fundamental, finalmente confirmado mediante Monte Carlo de función de Green que presenta orden antiferromagnético de 120°.

Conclusiones y Discusión

Conclusiones Principales

  1. Las funciones de onda RNN pueden simular exitosamente el TLAHM, incluso con frustración y estructura de signos no trivial
  2. El cambio de base y VNA son técnicas clave, mejorando significativamente el efecto de optimización
  3. La estrategia de reentrenamiento iterativo es efectiva, logrando simulación eficiente de sistemas a gran escala
  4. Los resultados en el límite termodinámico son consistentes con referencias, verificando la confiabilidad del método

Limitaciones

  1. Requiere más recursos computacionales en comparación con red cuadrada: La tasa de decaimiento mínima disminuye de 0.25 a 0.158
  2. V-score deficiente: Indica que TLAHM es efectivamente un problema de optimización más difícil
  3. Simetría SU(2) no completamente preservada: Puede afectar la precisión de ciertas cantidades físicas
  4. Aún requiere optimizador Adam: Los métodos de optimización avanzada como SR funcionan mal con RNN

Direcciones Futuras

  1. Estudio sistemático de estructura de signos: Comprender los mecanismos profundos del éxito del cambio de base
  2. Algoritmos de optimización más avanzados: Explorar variantes de SR aplicables a RNN
  3. Otros sistemas frustrados: Extensión a redes kagome y otras geometrías
  4. Investigación de transiciones de fase cuántica: Utilizar escalabilidad para estudiar fenómenos críticos

Evaluación Profunda

Fortalezas

  1. Fuerte innovación técnica: Primera aplicación exitosa de RNN con reentrenamiento iterativo a sistemas frustrados difíciles
  2. Diseño experimental completo: Comparación sistemática de diferentes cambios de base y estrategias de optimización
  3. Alta credibilidad de resultados: Verificación mediante múltiples métodos, altamente consistente con referencias independientes
  4. Gran valor práctico: Proporciona herramienta efectiva para sistemas cuánticos frustrados a gran escala
  5. Análisis profundo: Comprensión del impacto del problema de signos desde la perspectiva de optimización

Insuficiencias

  1. Comprensión teórica limitada: Falta análisis profundo del mecanismo de éxito de la transformación de 120°
  2. Costo computacional relativamente alto: Aún requiere más recursos en comparación con red cuadrada
  3. Tratamiento de simetría: La ruptura de SU(2) puede afectar la precisión de ciertos observables
  4. Generalización desconocida: El desempeño en otros sistemas frustrados requiere verificación

Impacto

  1. Contribución metodológica: Proporciona ejemplo importante para aplicación de NQS en sistemas frustrados
  2. Generalización de técnica: La estrategia de reentrenamiento iterativo es aplicable a otros problemas de muchos cuerpos cuánticos
  3. Valor de referencia: Proporciona nuevos resultados numéricos de alta precisión para TLAHM
  4. Significado inspirador: Revela el papel importante del cambio de base en aprendizaje automático cuántico

Escenarios Aplicables

  1. Magnetos cuánticos frustrados bidimensionales: Particularmente adecuado para sistemas con frustración geométrica
  2. Investigación de escalado de tamaño finito: La ventaja de escalabilidad de RNN es evidente
  3. Cálculo de propiedades del estado fundamental: Cantidades observables del estado fundamental como energía e intensidad de magnetización
  4. Investigación metodológica: Como problema de referencia para prueba de nuevas arquitecturas NQS

Referencias

Este artículo cita literatura importante en el campo, incluyendo:

  • Trabajo pionero de Anderson en teoría de enlaces de valencia resonantes
  • Resultados de referencia de diagonalización exacta de Bernu et al.
  • Investigación de Monte Carlo de función de Green de Capriotti et al.
  • Trabajo fundamental de Carleo-Troyer en estados cuánticos neuronales
  • Resultados recientes de alta precisión de DMRG e iPEPS

Evaluación General: Este es un artículo de alta calidad en física computacional con contribuciones importantes tanto en metodología como en aplicación. Mediante combinación ingeniosa de cambio de base, recocido variacional y reentrenamiento iterativo, resuelve exitosamente el problema difícil del TLAHM, abriendo nuevos caminos para la aplicación de estados cuánticos neuronales en sistemas frustrados. A pesar de algunas insuficiencias en comprensión teórica, su valor práctico e importancia inspiradora lo convierten en un progreso importante en el campo.