2025-11-25T09:01:17.655044

Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice

Moss, Wiersema, Hibat-Allah et al.
Variational Monte Carlo simulations have been crucial for understanding quantum many-body systems, especially when the Hamiltonian is frustrated and the ground-state wavefunction has a non-trivial sign structure. In this paper, we use recurrent neural network (RNN) wavefunction ansätze to study the triangular-lattice antiferromagnetic Heisenberg model (TLAHM) for lattice sizes up to $30\times30$. In a recent study [M. S. Moss et al. arXiv:2502.17144], the authors demonstrated how RNN wavefunctions can be iteratively retrained in order to obtain variational results for multiple lattice sizes with a reasonable amount of compute. That study, which looked at the sign-free, square-lattice antiferromagnetic Heisenberg model, showed favorable scaling properties, allowing accurate finite-size extrapolations to the thermodynamic limit. In contrast, our present results illustrate in detail the relative difficulty in simulating the sign-problematic TLAHM. We find that the accuracy of our simulations can be significantly improved by transforming the Hamiltonian with a judicious choice of basis rotation. We also show that a similar benefit can be achieved by using variational neural annealing, an alternative optimization technique that minimizes a pseudo free energy. Ultimately, we are able to obtain estimates of the ground-state properties of the TLAHM in the thermodynamic limit that are in close agreement with values in the literature, showing that RNN wavefunctions provide a powerful toolbox for performing finite-size scaling studies for frustrated quantum many-body systems.
academic

Exploiter la récurrence dans les fonctions d'onde de réseaux de neurones pour les simulations à grande échelle des antiferromagnétiques de Heisenberg sur le réseau triangulaire

Informations de base

  • ID de l'article : 2505.20406
  • Titre : Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice
  • Auteurs : M. Schuyler Moss, Roeland Wiersema, Mohamed Hibat-Allah, Juan Carrasquilla, Roger G. Melko
  • Classification : cond-mat.str-el cond-mat.dis-nn quant-ph
  • Date de publication : 13 octobre 2025 (version v3 sur arXiv)
  • Lien de l'article : https://arxiv.org/abs/2505.20406

Résumé

Cet article étudie le modèle antiferromagnétique de Heisenberg sur réseau triangulaire (TLAHM) en utilisant des ansätze de fonctions d'onde de réseaux de neurones récurrents (RNN), pour des tailles de système atteignant 30×30. Contrairement aux modèles de réseau carré sans problème de signe étudiés précédemment, le TLAHM présente une structure de signe complexe, rendant la simulation numérique considérablement plus difficile. L'étude montre que par des changements de base appropriés et des techniques de recuit neuronal variationnel, on peut améliorer significativement la précision de la simulation. Les propriétés de l'état fondamental à la limite thermodynamique obtenues sont hautement cohérentes avec les valeurs de la littérature, démontrant la puissance des fonctions d'onde RNN pour l'étude de l'échelle de taille finie des systèmes quantiques multi-corps frustrés.

Contexte de recherche et motivation

Importance du problème

Le modèle antiferromagnétique de Heisenberg sur réseau triangulaire (TLAHM) est l'un des exemples standards du magnétisme quantique frustré. Bien que l'on sache maintenant que son état fondamental présente un ordre magnétique à 120°, l'étude numérique de ce système est extrêmement difficile en raison de la frustration géométrique. Contrairement au réseau carré, le TLAHM présente un problème de signe, rendant les simulations de Monte-Carlo quantique (QMC) difficiles.

Limitations des méthodes existantes

  1. Diagonalisation exacte : limitée aux petites tailles de système, effets de taille finie sévères
  2. Monte-Carlo variationnel traditionnel : dépend du choix des ansätze, précision limitée
  3. Méthodes QMC : entravées par le problème de signe, difficile d'obtenir des erreurs contrôlables

Motivation de la recherche

Les états quantiques neuronaux (NQS) en tant qu'ansätze variationnels hautement expressifs ont récemment attiré beaucoup d'attention, mais la frustration et la structure de signe non triviale sont considérées comme des obstacles potentiels à l'optimisation des NQS. Le TLAHM devient donc un point de repère important pour tester les performances des NQS. Cet article vise à vérifier l'efficacité des fonctions d'onde RNN dans ces systèmes difficiles.

Contributions principales

  1. Application réussie pour la première fois des fonctions d'onde RNN avec réentraînement itératif au TLAHM, réalisant des simulations à grande échelle jusqu'à des systèmes 30×30
  2. Étude systématique de l'effet des changements de base sur la précision de la simulation, découvrant que la transformation à 120° améliore significativement les résultats par rapport à la règle de signe Marshall-Peierls
  3. Introduction de la technique de recuit neuronal variationnel (VNA), surmontant efficacement les difficultés d'optimisation causées par la frustration en minimisant l'énergie libre pseudo
  4. Obtention des propriétés à la limite thermodynamique par extrapolation de taille finie, avec l'énergie de l'état fondamental et la magnétisation des sous-réseaux hautement cohérentes avec les valeurs de référence de la littérature
  5. Fourniture d'une analyse détaillée de la complexité de calcul et du temps d'exécution, démontrant la praticité de la méthode

Détails des méthodes

Définition de la tâche

Étude des propriétés de l'état fondamental du TLAHM : H^=ijSiSj\hat{H} = \sum_{\langle ij \rangle} \vec{S}_i \cdot \vec{S}_ji,j\langle i,j \rangle désigne les interactions entre plus proches voisins sur le réseau triangulaire, et Si\vec{S}_i est l'opérateur de spin-1/2.

Architecture du modèle

Conception de la fonction d'onde RNN

Construction d'une fonction d'onde utilisant un réseau de neurones récurrent bidimensionnel : p(σ)=p(σ1)p(σ2σ1)p(σNσN1,,σ1)p(|\sigma\rangle) = p(\sigma_1)p(\sigma_2|\sigma_1)\cdots p(\sigma_N|\sigma_{N-1},\ldots,\sigma_1)

Composants clés :

  1. Unités récurrentes à portes (GRU) : traitement de la transmission d'information des vecteurs cachés
  2. Paramétrisation de phase complexe : traitement de la structure de signe non triviale ΨW(σ)=exp[iϕW(σ)]pW(σ)\Psi_W(\sigma) = \exp[i\phi_W(\sigma)]\sqrt{p_W(\sigma)}
  3. Conditions aux limites pseudo-périodiques : maintien de la causalité tout en simulant des systèmes périodiques

Technique de changement de base

Transformation Marshall-Peierls (UsqU_{sq}) : Usq=exp(iπjBsqS^jz)U_{sq} = \exp\left(-i\pi\sum_{j\in B_{sq}}\hat{S}^z_j\right)

Transformation à 120° (UtriU_{tri}) : Utri=exp(2πi3[bBtriS^bzcCtriS^cz])U_{tri} = \exp\left(-\frac{2\pi i}{3}\left[\sum_{b\in B_{tri}}\hat{S}^z_b - \sum_{c\in C_{tri}}\hat{S}^z_c\right]\right)

Recuit neuronal variationnel

Minimisation de l'énergie libre pseudo : FW(t)=EWT(t)Sclassical(pW)F_W(t) = E_W - T(t)S_{classical}(p_W)T(t)T(t) est la température de recuit et SclassicalS_{classical} est l'entropie de Shannon.

Points d'innovation technique

  1. Mécanisme de partage de poids : le nombre de paramètres RNN est indépendant de la taille du système, supportant le réentraînement itératif
  2. Moyenne de symétrie : moyenne du groupe C6vC_{6v} appliquée uniquement à l'amplitude de la fonction d'onde, évitant l'instabilité numérique de la moyenne de phase
  3. Plan d'entraînement paramétrisé : Nsteps(L,s,r;L0,C,F)=s×[Cexp(r(LL0))+F]N_{steps}(L,s,r;L_0,C,F) = s \times [C\exp(-r(L-L_0)) + F]
  4. Extrapolation à variance nulle : utilisation de la séquence d'états variationnels améliorée du système pour obtenir des estimations d'énergie plus précises

Configuration expérimentale

Paramètres du système

  • Tailles de réseau : L = 6, 12, 18, 24, 30 (conditions aux limites périodiques)
  • Dimension du vecteur caché : dhd_h = valeur fixe (garantissant une expressivité suffisante)
  • Symétries : symétrie U(1) forcée (magnétisation nulle), application du groupe ponctuel C6vC_{6v}

Stratégie d'entraînement

Entraînement en quatre étapes (L=6) :

  1. Taux d'apprentissage fixe γ=5×104\gamma = 5 \times 10^{-4}, température T0T_0
  2. Recuit neuronal variationnel : refroidissement linéaire jusqu'à 0
  3. Décroissance du taux d'apprentissage : γ(t)=γ0×(1+(t/δ))1\gamma(t) = \gamma_0 \times (1+(t/\delta))^{-1}
  4. Application des symétries, optimisation finale

Réentraînement itératif : utilisation des résultats d'optimisation de petite taille pour initialiser l'entraînement de grande taille

Indicateurs d'évaluation

  1. Énergie variationnelle : EW=ΨWH^ΨW/ΨWΨWE_W = \langle\Psi_W|\hat{H}|\Psi_W\rangle/\langle\Psi_W|\Psi_W\rangle
  2. Variance d'énergie : mesure de la proximité avec l'état propre
  3. V-score : V=Nvar(E)/(EE)2V = N\text{var}(E)/(E-E_\infty)^2
  4. Magnétisation des sous-réseaux : calculée via les fonctions de corrélation en espace des moments

Résultats expérimentaux

Résultats principaux

Comparaison de l'effet des changements de base (L=6)

  • Sans transformation/Transformation Marshall-Peierls : nécessite un recuit à haute température (T0=1.0T_0 = 1.0) pour obtenir des résultats précis
  • Transformation à 120° : insensible à la température de recuit, obtient d'excellents résultats même avec T0=0T_0 = 0
  • Énergie optimale : -0.5562(2) (proche du résultat de diagonalisation exacte -0.5603734)

Résultats d'extrapolation de taille finie

Extrapolation d'énergie (utilisant E(L)=E+e1/L3E(L) = E_\infty + e_1/L^3) :

  • Énergie d'extrapolation à variance nulle : E=0.5517569(9)E_\infty = -0.5517569(9)
  • Référence DMRG : EDMRG=0.5503(8)E_\infty^{DMRG} = -0.5503(8)
  • Référence iPEPS : EiPEPS=0.55161(6)E_\infty^{iPEPS} = -0.55161(6)

Magnétisation des sous-réseaux :

  • M=0.192(2)M_\infty = 0.192(2) (extrapolation de M2M^2)
  • M=0.198(2)M_\infty = 0.198(2) (extrapolation de MC2M^2_C)
  • Référence DMRG : MDMRG=0.208(8)M_\infty^{DMRG} = 0.208(8)

Analyse de la complexité de calcul

  • Temps d'entraînement par étape : mise à l'échelle O(L4)O(L^4)
  • Temps d'exécution total : simulation la plus longue 1700 heures GPU (couvrant six tailles de système)
  • Plan d'entraînement paramétrisé contrôle efficacement le coût de calcul des systèmes de grande taille

Découvertes importantes

  1. Rupture de symétrie SU(2) : l'état appris par le RNN est une superposition de tours d'Anderson plutôt qu'un vrai singulet
  2. Importance de la structure de signe : le succès de la transformation à 120° démontre le rôle clé du choix de base pour apprendre les structures de signe non triviales
  3. Efficacité du VNA : même dans une base sous-optimale, on peut obtenir de bons résultats grâce à un recuit approprié

Travaux connexes

Méthodes numériques pour systèmes quantiques multi-corps

  • DMRG : progrès importants en géométrie cylindrique
  • iPEPS : paramétrisation directe de l'état fondamental à la limite thermodynamique
  • VMC traditionnel : utilisation d'ansätze tels que les fonctions d'onde projetées

Développement des états quantiques neuronaux

  • RBM : première architecture NQS
  • CNN : exploitation de l'invariance translationnelle
  • Transformer : traitement des corrélations longue portée
  • RNN : point focal de cet article, supportant le réentraînement itératif

Recherche spécialisée sur TLAHM

Historiquement, il y avait des désaccords sur les propriétés de l'état fondamental, finalement confirmées par Monte-Carlo de fonction de Green et autres méthodes comme un état antiferromagnétique ordonné à 120°.

Conclusions et discussion

Conclusions principales

  1. Les fonctions d'onde RNN peuvent simuler avec succès le TLAHM, même en présence de frustration et de structure de signe non triviale
  2. Les changements de base et le VNA sont des techniques clés, améliorant significativement les résultats d'optimisation
  3. La stratégie de réentraînement itératif est efficace, réalisant une simulation efficace de systèmes à grande échelle
  4. Les résultats à la limite thermodynamique sont cohérents avec les références, validant la fiabilité de la méthode

Limitations

  1. Nécessite plus de ressources de calcul que le réseau carré : taux de décroissance minimal réduit de 0.25 à 0.158
  2. V-score médiocre : indiquant que le TLAHM est effectivement un problème d'optimisation plus difficile
  3. Symétrie SU(2) non complètement préservée : peut affecter la précision de certaines quantités physiques
  4. Nécessite toujours l'optimiseur Adam : les méthodes d'optimisation avancées comme SR ne fonctionnent pas bien pour les RNN

Directions futures

  1. Étude systématique de la structure de signe : compréhension des raisons profondes du succès du changement de base
  2. Algorithmes d'optimisation plus avancés : exploration de variantes SR adaptées aux RNN
  3. Autres systèmes frustrés : extension à d'autres géométries comme le réseau kagome
  4. Étude des transitions de phase quantiques : utilisation de la scalabilité pour étudier les phénomènes critiques

Évaluation approfondie

Points forts

  1. Innovation technique forte : première application réussie des RNN avec réentraînement itératif à un système frustré difficile
  2. Conception expérimentale complète : comparaison systématique des effets de différents changements de base et stratégies d'optimisation
  3. Crédibilité élevée des résultats : vérification par plusieurs méthodes, cohérence élevée avec les références indépendantes
  4. Grande valeur pratique : fournit un outil efficace pour traiter les systèmes quantiques frustrés à grande échelle
  5. Analyse approfondie : compréhension de l'impact du problème de signe du point de vue de l'optimisation

Insuffisances

  1. Compréhension théorique limitée : manque d'analyse approfondie du mécanisme du succès de la transformation à 120°
  2. Coût de calcul élevé : nécessite toujours plus de ressources que le réseau carré
  3. Traitement de la symétrie : la rupture SU(2) peut affecter la précision de certaines observables
  4. Généralisation inconnue : les performances sur d'autres systèmes frustrés restent à vérifier

Impact

  1. Contribution méthodologique : fournit un exemple important de l'application des NQS aux systèmes frustrés
  2. Généralisation technique : la stratégie de réentraînement itératif peut s'appliquer à d'autres problèmes quantiques multi-corps
  3. Valeur de référence : fournit de nouveaux résultats numériques de haute précision pour le TLAHM
  4. Signification inspirante : révèle l'importance du changement de base dans l'apprentissage automatique quantique

Scénarios d'application

  1. Magnétiques quantiques frustrés bidimensionnels : particulièrement adapté aux systèmes avec frustration géométrique
  2. Étude d'extrapolation de taille finie : l'avantage de scalabilité des RNN est évident
  3. Calcul des propriétés de l'état fondamental : énergie, magnétisation et autres observables de l'état fondamental
  4. Recherche méthodologique : problème de référence pour tester de nouvelles architectures NQS

Références

Cet article cite les travaux importants du domaine, notamment :

  • Travaux fondateurs de la théorie des liaisons de valence résonantes d'Anderson
  • Résultats de référence de diagonalisation exacte de Bernu et al.
  • Étude Monte-Carlo de fonction de Green de Capriotti et al.
  • Travail fondateur des états quantiques neuronaux de Carleo-Troyer
  • Résultats récents de haute précision de DMRG et iPEPS

Évaluation globale : Ceci est un article de physique computationnelle de haute qualité avec des contributions importantes tant au niveau méthodologique qu'applicatif. En combinant habilement les changements de base, le recuit variationnel et le réentraînement itératif, il résout avec succès le problème difficile du TLAHM, ouvrant de nouvelles voies pour l'application des états quantiques neuronaux aux systèmes frustrés. Malgré certaines insuffisances dans la compréhension théorique, sa valeur pratique et sa signification inspirante en font un progrès important dans le domaine.