2025-11-25T09:01:17.655044

Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice

Moss, Wiersema, Hibat-Allah et al.

Variational Monte Carlo simulations have been crucial for understanding quantum many-body systems, especially when the Hamiltonian is frustrated and the ground-state wavefunction has a non-trivial sign structure. In this paper, we use recurrent neural network (RNN) wavefunction ansÃ¤tze to study the triangular-lattice antiferromagnetic Heisenberg model (TLAHM) for lattice sizes up to $30\times30$. In a recent study [M. S. Moss et al. arXiv:2502.17144], the authors demonstrated how RNN wavefunctions can be iteratively retrained in order to obtain variational results for multiple lattice sizes with a reasonable amount of compute. That study, which looked at the sign-free, square-lattice antiferromagnetic Heisenberg model, showed favorable scaling properties, allowing accurate finite-size extrapolations to the thermodynamic limit. In contrast, our present results illustrate in detail the relative difficulty in simulating the sign-problematic TLAHM. We find that the accuracy of our simulations can be significantly improved by transforming the Hamiltonian with a judicious choice of basis rotation. We also show that a similar benefit can be achieved by using variational neural annealing, an alternative optimization technique that minimizes a pseudo free energy. Ultimately, we are able to obtain estimates of the ground-state properties of the TLAHM in the thermodynamic limit that are in close agreement with values in the literature, showing that RNN wavefunctions provide a powerful toolbox for performing finite-size scaling studies for frustrated quantum many-body systems.

academic

Exploiter la récurrence dans les fonctions d'onde de réseaux de neurones pour les simulations à grande échelle des antiferromagnétiques de Heisenberg sur le réseau triangulaire

Informations de base

ID de l'article : 2505.20406
Titre : Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice
Auteurs : M. Schuyler Moss, Roeland Wiersema, Mohamed Hibat-Allah, Juan Carrasquilla, Roger G. Melko
Classification : cond-mat.str-el cond-mat.dis-nn quant-ph
Date de publication : 13 octobre 2025 (version v3 sur arXiv)
Lien de l'article : https://arxiv.org/abs/2505.20406

Résumé

Cet article étudie le modèle antiferromagnétique de Heisenberg sur réseau triangulaire (TLAHM) en utilisant des ansätze de fonctions d'onde de réseaux de neurones récurrents (RNN), pour des tailles de système atteignant 30×30. Contrairement aux modèles de réseau carré sans problème de signe étudiés précédemment, le TLAHM présente une structure de signe complexe, rendant la simulation numérique considérablement plus difficile. L'étude montre que par des changements de base appropriés et des techniques de recuit neuronal variationnel, on peut améliorer significativement la précision de la simulation. Les propriétés de l'état fondamental à la limite thermodynamique obtenues sont hautement cohérentes avec les valeurs de la littérature, démontrant la puissance des fonctions d'onde RNN pour l'étude de l'échelle de taille finie des systèmes quantiques multi-corps frustrés.

Contexte de recherche et motivation

Importance du problème

Le modèle antiferromagnétique de Heisenberg sur réseau triangulaire (TLAHM) est l'un des exemples standards du magnétisme quantique frustré. Bien que l'on sache maintenant que son état fondamental présente un ordre magnétique à 120°, l'étude numérique de ce système est extrêmement difficile en raison de la frustration géométrique. Contrairement au réseau carré, le TLAHM présente un problème de signe, rendant les simulations de Monte-Carlo quantique (QMC) difficiles.

Limitations des méthodes existantes

Diagonalisation exacte : limitée aux petites tailles de système, effets de taille finie sévères
Monte-Carlo variationnel traditionnel : dépend du choix des ansätze, précision limitée
Méthodes QMC : entravées par le problème de signe, difficile d'obtenir des erreurs contrôlables

Motivation de la recherche

Les états quantiques neuronaux (NQS) en tant qu'ansätze variationnels hautement expressifs ont récemment attiré beaucoup d'attention, mais la frustration et la structure de signe non triviale sont considérées comme des obstacles potentiels à l'optimisation des NQS. Le TLAHM devient donc un point de repère important pour tester les performances des NQS. Cet article vise à vérifier l'efficacité des fonctions d'onde RNN dans ces systèmes difficiles.

Contributions principales

Application réussie pour la première fois des fonctions d'onde RNN avec réentraînement itératif au TLAHM, réalisant des simulations à grande échelle jusqu'à des systèmes 30×30
Étude systématique de l'effet des changements de base sur la précision de la simulation, découvrant que la transformation à 120° améliore significativement les résultats par rapport à la règle de signe Marshall-Peierls
Introduction de la technique de recuit neuronal variationnel (VNA), surmontant efficacement les difficultés d'optimisation causées par la frustration en minimisant l'énergie libre pseudo
Obtention des propriétés à la limite thermodynamique par extrapolation de taille finie, avec l'énergie de l'état fondamental et la magnétisation des sous-réseaux hautement cohérentes avec les valeurs de référence de la littérature
Fourniture d'une analyse détaillée de la complexité de calcul et du temps d'exécution, démontrant la praticité de la méthode

Détails des méthodes

Définition de la tâche

Étude des propriétés de l'état fondamental du TLAHM : $\hat{H} = \sum_{\langle ij \rangle} \vec{S}_i \cdot \vec{S}_j$ où $\langle i,j \rangle$ désigne les interactions entre plus proches voisins sur le réseau triangulaire, et $\vec{S}_i$ est l'opérateur de spin-1/2.

Architecture du modèle

Conception de la fonction d'onde RNN

Construction d'une fonction d'onde utilisant un réseau de neurones récurrent bidimensionnel : $p(|\sigma\rangle) = p(\sigma_1)p(\sigma_2|\sigma_1)\cdots p(\sigma_N|\sigma_{N-1},\ldots,\sigma_1)$

Composants clés :

Unités récurrentes à portes (GRU) : traitement de la transmission d'information des vecteurs cachés
Paramétrisation de phase complexe : traitement de la structure de signe non triviale $\Psi_W(\sigma) = \exp[i\phi_W(\sigma)]\sqrt{p_W(\sigma)}$
Conditions aux limites pseudo-périodiques : maintien de la causalité tout en simulant des systèmes périodiques

Technique de changement de base

Transformation Marshall-Peierls ( $U_{sq}$ ) : $U_{sq} = \exp\left(-i\pi\sum_{j\in B_{sq}}\hat{S}^z_j\right)$

Transformation à 120° ( $U_{tri}$ ) : $U_{tri} = \exp\left(-\frac{2\pi i}{3}\left[\sum_{b\in B_{tri}}\hat{S}^z_b - \sum_{c\in C_{tri}}\hat{S}^z_c\right]\right)$

Recuit neuronal variationnel

Minimisation de l'énergie libre pseudo : $F_W(t) = E_W - T(t)S_{classical}(p_W)$ où $T(t)$ est la température de recuit et $S_{classical}$ est l'entropie de Shannon.

Points d'innovation technique

Mécanisme de partage de poids : le nombre de paramètres RNN est indépendant de la taille du système, supportant le réentraînement itératif
Moyenne de symétrie : moyenne du groupe $C_{6v}$ appliquée uniquement à l'amplitude de la fonction d'onde, évitant l'instabilité numérique de la moyenne de phase
Plan d'entraînement paramétrisé : $N_{steps}(L,s,r;L_0,C,F) = s \times [C\exp(-r(L-L_0)) + F]$
Extrapolation à variance nulle : utilisation de la séquence d'états variationnels améliorée du système pour obtenir des estimations d'énergie plus précises

Configuration expérimentale

Paramètres du système

Tailles de réseau : L = 6, 12, 18, 24, 30 (conditions aux limites périodiques)
Dimension du vecteur caché : $d_h$ = valeur fixe (garantissant une expressivité suffisante)
Symétries : symétrie U(1) forcée (magnétisation nulle), application du groupe ponctuel $C_{6v}$

Stratégie d'entraînement

Entraînement en quatre étapes (L=6) :

Taux d'apprentissage fixe $\gamma = 5 \times 10^{-4}$ , température $T_0$
Recuit neuronal variationnel : refroidissement linéaire jusqu'à 0
Décroissance du taux d'apprentissage : $\gamma(t) = \gamma_0 \times (1+(t/\delta))^{-1}$
Application des symétries, optimisation finale

Réentraînement itératif : utilisation des résultats d'optimisation de petite taille pour initialiser l'entraînement de grande taille

Indicateurs d'évaluation

Énergie variationnelle : $E_W = \langle\Psi_W|\hat{H}|\Psi_W\rangle/\langle\Psi_W|\Psi_W\rangle$
Variance d'énergie : mesure de la proximité avec l'état propre
V-score : $V = N\text{var}(E)/(E-E_\infty)^2$
Magnétisation des sous-réseaux : calculée via les fonctions de corrélation en espace des moments

Résultats expérimentaux

Résultats principaux

Comparaison de l'effet des changements de base (L=6)

Sans transformation/Transformation Marshall-Peierls : nécessite un recuit à haute température ( $T_0 = 1.0$ ) pour obtenir des résultats précis
Transformation à 120° : insensible à la température de recuit, obtient d'excellents résultats même avec $T_0 = 0$
Énergie optimale : -0.5562(2) (proche du résultat de diagonalisation exacte -0.5603734)

Résultats d'extrapolation de taille finie

Extrapolation d'énergie (utilisant $E(L) = E_\infty + e_1/L^3$ ) :

Énergie d'extrapolation à variance nulle : $E_\infty = -0.5517569(9)$
Référence DMRG : $E_\infty^{DMRG} = -0.5503(8)$
Référence iPEPS : $E_\infty^{iPEPS} = -0.55161(6)$

Magnétisation des sous-réseaux :

$M_\infty = 0.192(2)$ (extrapolation de $M^2$ )
$M_\infty = 0.198(2)$ (extrapolation de $M^2_C$ )
Référence DMRG : $M_\infty^{DMRG} = 0.208(8)$

Analyse de la complexité de calcul

Temps d'entraînement par étape : mise à l'échelle $O(L^4)$
Temps d'exécution total : simulation la plus longue 1700 heures GPU (couvrant six tailles de système)
Plan d'entraînement paramétrisé contrôle efficacement le coût de calcul des systèmes de grande taille

Découvertes importantes

Rupture de symétrie SU(2) : l'état appris par le RNN est une superposition de tours d'Anderson plutôt qu'un vrai singulet
Importance de la structure de signe : le succès de la transformation à 120° démontre le rôle clé du choix de base pour apprendre les structures de signe non triviales
Efficacité du VNA : même dans une base sous-optimale, on peut obtenir de bons résultats grâce à un recuit approprié

Travaux connexes

Méthodes numériques pour systèmes quantiques multi-corps

DMRG : progrès importants en géométrie cylindrique
iPEPS : paramétrisation directe de l'état fondamental à la limite thermodynamique
VMC traditionnel : utilisation d'ansätze tels que les fonctions d'onde projetées

Développement des états quantiques neuronaux

RBM : première architecture NQS
CNN : exploitation de l'invariance translationnelle
Transformer : traitement des corrélations longue portée
RNN : point focal de cet article, supportant le réentraînement itératif

Recherche spécialisée sur TLAHM

Historiquement, il y avait des désaccords sur les propriétés de l'état fondamental, finalement confirmées par Monte-Carlo de fonction de Green et autres méthodes comme un état antiferromagnétique ordonné à 120°.

Conclusions et discussion

Conclusions principales

Les fonctions d'onde RNN peuvent simuler avec succès le TLAHM, même en présence de frustration et de structure de signe non triviale
Les changements de base et le VNA sont des techniques clés, améliorant significativement les résultats d'optimisation
La stratégie de réentraînement itératif est efficace, réalisant une simulation efficace de systèmes à grande échelle
Les résultats à la limite thermodynamique sont cohérents avec les références, validant la fiabilité de la méthode

Limitations

Nécessite plus de ressources de calcul que le réseau carré : taux de décroissance minimal réduit de 0.25 à 0.158
V-score médiocre : indiquant que le TLAHM est effectivement un problème d'optimisation plus difficile
Symétrie SU(2) non complètement préservée : peut affecter la précision de certaines quantités physiques
Nécessite toujours l'optimiseur Adam : les méthodes d'optimisation avancées comme SR ne fonctionnent pas bien pour les RNN

Directions futures

Étude systématique de la structure de signe : compréhension des raisons profondes du succès du changement de base
Algorithmes d'optimisation plus avancés : exploration de variantes SR adaptées aux RNN
Autres systèmes frustrés : extension à d'autres géométries comme le réseau kagome
Étude des transitions de phase quantiques : utilisation de la scalabilité pour étudier les phénomènes critiques

Évaluation approfondie

Points forts

Innovation technique forte : première application réussie des RNN avec réentraînement itératif à un système frustré difficile
Conception expérimentale complète : comparaison systématique des effets de différents changements de base et stratégies d'optimisation
Crédibilité élevée des résultats : vérification par plusieurs méthodes, cohérence élevée avec les références indépendantes
Grande valeur pratique : fournit un outil efficace pour traiter les systèmes quantiques frustrés à grande échelle
Analyse approfondie : compréhension de l'impact du problème de signe du point de vue de l'optimisation

Insuffisances

Compréhension théorique limitée : manque d'analyse approfondie du mécanisme du succès de la transformation à 120°
Coût de calcul élevé : nécessite toujours plus de ressources que le réseau carré
Traitement de la symétrie : la rupture SU(2) peut affecter la précision de certaines observables
Généralisation inconnue : les performances sur d'autres systèmes frustrés restent à vérifier

Impact

Contribution méthodologique : fournit un exemple important de l'application des NQS aux systèmes frustrés
Généralisation technique : la stratégie de réentraînement itératif peut s'appliquer à d'autres problèmes quantiques multi-corps
Valeur de référence : fournit de nouveaux résultats numériques de haute précision pour le TLAHM
Signification inspirante : révèle l'importance du changement de base dans l'apprentissage automatique quantique

Scénarios d'application

Magnétiques quantiques frustrés bidimensionnels : particulièrement adapté aux systèmes avec frustration géométrique
Étude d'extrapolation de taille finie : l'avantage de scalabilité des RNN est évident
Calcul des propriétés de l'état fondamental : énergie, magnétisation et autres observables de l'état fondamental
Recherche méthodologique : problème de référence pour tester de nouvelles architectures NQS

Références

Cet article cite les travaux importants du domaine, notamment :

Travaux fondateurs de la théorie des liaisons de valence résonantes d'Anderson
Résultats de référence de diagonalisation exacte de Bernu et al.
Étude Monte-Carlo de fonction de Green de Capriotti et al.
Travail fondateur des états quantiques neuronaux de Carleo-Troyer
Résultats récents de haute précision de DMRG et iPEPS

Évaluation globale : Ceci est un article de physique computationnelle de haute qualité avec des contributions importantes tant au niveau méthodologique qu'applicatif. En combinant habilement les changements de base, le recuit variationnel et le réentraînement itératif, il résout avec succès le problème difficile du TLAHM, ouvrant de nouvelles voies pour l'application des états quantiques neuronaux aux systèmes frustrés. Malgré certaines insuffisances dans la compréhension théorique, sa valeur pratique et sa signification inspirante en font un progrès important dans le domaine.