2025-11-25T09:01:17.655044

Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice

Moss, Wiersema, Hibat-Allah et al.

Variational Monte Carlo simulations have been crucial for understanding quantum many-body systems, especially when the Hamiltonian is frustrated and the ground-state wavefunction has a non-trivial sign structure. In this paper, we use recurrent neural network (RNN) wavefunction ansÃ¤tze to study the triangular-lattice antiferromagnetic Heisenberg model (TLAHM) for lattice sizes up to $30\times30$. In a recent study [M. S. Moss et al. arXiv:2502.17144], the authors demonstrated how RNN wavefunctions can be iteratively retrained in order to obtain variational results for multiple lattice sizes with a reasonable amount of compute. That study, which looked at the sign-free, square-lattice antiferromagnetic Heisenberg model, showed favorable scaling properties, allowing accurate finite-size extrapolations to the thermodynamic limit. In contrast, our present results illustrate in detail the relative difficulty in simulating the sign-problematic TLAHM. We find that the accuracy of our simulations can be significantly improved by transforming the Hamiltonian with a judicious choice of basis rotation. We also show that a similar benefit can be achieved by using variational neural annealing, an alternative optimization technique that minimizes a pseudo free energy. Ultimately, we are able to obtain estimates of the ground-state properties of the TLAHM in the thermodynamic limit that are in close agreement with values in the literature, showing that RNN wavefunctions provide a powerful toolbox for performing finite-size scaling studies for frustrated quantum many-body systems.

academic

Nutzung von Rekurrenz in neuronalen Netzwerk-Wellenfunktionen für großskalige Simulationen von Heisenberg-Antiferromagneten auf dem Dreiecksgitter

Grundinformationen

Paper-ID: 2505.20406
Titel: Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice
Autoren: M. Schuyler Moss, Roeland Wiersema, Mohamed Hibat-Allah, Juan Carrasquilla, Roger G. Melko
Klassifizierung: cond-mat.str-el cond-mat.dis-nn quant-ph
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Version v3)
Paper-Link: https://arxiv.org/abs/2505.20406

Zusammenfassung

In diesem Artikel werden rekurrente neuronale Netzwerk (RNN)-Wellenfunktions-Ansätze zur Untersuchung des Heisenberg-Antiferromagneten-Modells auf dem Dreiecksgitter (TLAHM) mit Systemgrößen bis zu 30×30 verwendet. Im Gegensatz zu zuvor untersuchten Quadratgitter-Modellen ohne Vorzeichenproblem weist das TLAHM eine komplexe Vorzeichenstruktur auf, die numerische Simulationen erheblich erschwert. Die Forschung zeigt, dass durch angemessene Basiswechsel und variationelle neuronale Abkühlungstechniken die Simulationsgenauigkeit erheblich verbessert werden kann. Die erhaltenen Grundzustandseigenschaften im thermodynamischen Limes stimmen stark mit Literaturwerten überein und demonstrieren die starke Leistungsfähigkeit von RNN-Wellenfunktionen bei der Untersuchung der endlichen Größenskalierung in frustrierten Quantenmultikörpersystemen.

Forschungshintergrund und Motivation

Bedeutung des Problems

Das Heisenberg-Antiferromagneten-Modell auf dem Dreiecksgitter (TLAHM) ist eines der Standardbeispiele für frustrierte Quantenmagnete. Obwohl bekannt ist, dass sein Grundzustand 120°-magnetische Ordnung aufweist, ist die numerische Untersuchung dieses Systems aufgrund der geometrischen Frustration äußerst herausfordernd. Im Gegensatz zum Quadratgitter weist das TLAHM ein Vorzeichenproblem auf, das Quantenmontecarlo (QMC)-Simulationen erschwert.

Einschränkungen bestehender Methoden

Exakte Diagonalisierung: Begrenzt auf kleine Systemgrößen mit schwerwiegenden endlichen Größeneffekten
Traditionelle variationelle Montecarlo: Abhängig von der Wahl des Ansatzes mit begrenzter Genauigkeit
QMC-Methoden: Beeinträchtigt durch das Vorzeichenproblem mit schwer kontrollierbaren Fehlern

Forschungsmotivation

Neuronale Quantenzustände (NQS) als hochexpressive variationelle Ansätze haben in letzter Zeit große Aufmerksamkeit erhalten, aber Frustration und nicht-triviale Vorzeichenstrukturen werden als potenzielle Hindernisse für die NQS-Optimierung angesehen. Das TLAHM wird daher zu einer wichtigen Benchmark zur Prüfung der NQS-Leistung. Dieser Artikel zielt darauf ab, die Wirksamkeit von RNN-Wellenfunktionen in solch schwierigen Systemen zu überprüfen.

Kernbeiträge

Erstmalige erfolgreiche Anwendung von iterativ umgeschulten RNN-Wellenfunktionen auf das TLAHM, mit großskaligen Simulationen von bis zu 30×30 Systemen
Systematische Untersuchung der Auswirkungen von Basiswechseln auf die Simulationsgenauigkeit, wobei die 120°-Transformation im Vergleich zur Marshall-Peierls-Vorzeichenregel eine signifikante Verbesserung zeigt
Einführung der Technik der variationellen neuronalen Abkühlung (VNA), die Optimierungsschwierigkeiten durch Minimierung der Pseudo-Freien Energie effektiv überwindet
Gewinnung von Grundzustandseigenschaften im thermodynamischen Limes durch endliche Größenskalierung, wobei Grundzustandsenergie und Untergitter-Magnetisierungsstärke stark mit Literaturwerten übereinstimmen
Bereitstellung detaillierter Analysen der Rechenkomplexität und Laufzeiten, die die Praktikabilität der Methode demonstrieren

Methodische Details

Aufgabendefinition

Untersuchung der Grundzustandseigenschaften des TLAHM: $\hat{H} = \sum_{\langle ij \rangle} \vec{S}_i \cdot \vec{S}_j$ wobei $\langle i,j \rangle$ die Wechselwirkung zwischen nächsten Nachbarn auf dem Dreiecksgitter bezeichnet und $\vec{S}_i$ der Spin-1/2-Operator ist.

Modellarchitektur

RNN-Wellenfunktions-Design

Konstruktion einer zweidimensionalen rekurrenten neuronalen Netzwerk-Wellenfunktion: $p(|\sigma\rangle) = p(\sigma_1)p(\sigma_2|\sigma_1)\cdots p(\sigma_N|\sigma_{N-1},\ldots,\sigma_1)$

Schlüsselkomponenten:

Gated Recurrent Units (GRU): Verarbeitung der Informationsübertragung von versteckten Vektoren
Komplexe Phasenparametrisierung: Behandlung nicht-trivialer Vorzeichenstrukturen $\Psi_W(\sigma) = \exp[i\phi_W(\sigma)]\sqrt{p_W(\sigma)}$
Pseudo-periodische Randbedingungen: Aufrechterhaltung der Kausalität bei gleichzeitiger Simulation periodischer Systeme

Basiswechsel-Techniken

Marshall-Peierls-Transformation ( $U_{sq}$ ): $U_{sq} = \exp\left(-i\pi\sum_{j\in B_{sq}}\hat{S}^z_j\right)$

120°-Transformation ( $U_{tri}$ ): $U_{tri} = \exp\left(-\frac{2\pi i}{3}\left[\sum_{b\in B_{tri}}\hat{S}^z_b - \sum_{c\in C_{tri}}\hat{S}^z_c\right]\right)$

Variationelle neuronale Abkühlung

Minimierung der Pseudo-Freien Energie: $F_W(t) = E_W - T(t)S_{classical}(p_W)$ wobei $T(t)$ die Abkühlungstemperatur ist und $S_{classical}$ die Shannon-Entropie darstellt.

Technische Innovationen

Gewichtsfreigabemechanismus: Die Anzahl der RNN-Parameter ist unabhängig von der Systemgröße und unterstützt iteratives Umschulen
Symmetriemittelung: Nur Mittelung der Wellenfunktionsamplitude über die $C_{6v}$ -Gruppe, um numerische Instabilität der Phasenmittelung zu vermeiden
Parametrisierter Trainingsplan: $N_{steps}(L,s,r;L_0,C,F) = s \times [C\exp(-r(L-L_0)) + F]$
Nullvarianz-Extrapolation: Verwendung verbesserter Sequenzen variationeller Zustände für genauere Energieschätzungen

Experimentelle Einrichtung

Systemparameter

Gittergröße: L = 6, 12, 18, 24, 30 (periodische Randbedingungen)
Dimension des versteckten Vektors: $d_h$ = fester Wert (ausreichende Ausdruckskraft gewährleistet)
Symmetrien: Erzwungene U(1)-Symmetrie (Nullmagnetisierung), Anwendung der $C_{6v}$ -Punktgruppensymmetrie

Trainingsstrategie

Vierstufiges Training (L=6):

Feste Lernrate $\gamma = 5 \times 10^{-4}$ , Temperatur $T_0$
Variationelle neuronale Abkühlung: Lineares Abkühlen auf 0
Lernratenabfall: $\gamma(t) = \gamma_0 \times (1+(t/\delta))^{-1}$
Anwendung von Symmetrien, endgültige Optimierung

Iteratives Umschulen: Verwendung optimierter Ergebnisse kleinerer Größen zur Initialisierung des Trainings größerer Systeme

Bewertungsmetriken

Variationelle Energie: $E_W = \langle\Psi_W|\hat{H}|\Psi_W\rangle/\langle\Psi_W|\Psi_W\rangle$
Energievarianz: Messung der Nähe zum Eigenzustand
V-Score: $V = N\text{var}(E)/(E-E_\infty)^2$
Untergitter-Magnetisierungsstärke: Berechnung durch Korrelationsfunktionen im Impulsraum

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Basiswechsel-Effekte (L=6)

Ohne Transformation/Marshall-Peierls-Transformation: Erfordert hochtemperaturgestützte Abkühlung ( $T_0 = 1.0$ ) für genaue Ergebnisse
120°-Transformation: Unempfindlich gegenüber Abkühlungstemperatur, ausgezeichnete Ergebnisse bereits bei $T_0 = 0$
Optimale Energie: -0.5562(2) (nahe dem exakten Diagonalisierungsergebnis -0.5603734)

Ergebnisse der endlichen Größenskalierung

Energieskalierung (unter Verwendung von $E(L) = E_\infty + e_1/L^3$ ):

Nullvarianz-Extrapolationsenergie: $E_\infty = -0.5517569(9)$
DMRG-Benchmark: $E_\infty^{DMRG} = -0.5503(8)$
iPEPS-Benchmark: $E_\infty^{iPEPS} = -0.55161(6)$

Untergitter-Magnetisierungsstärke:

$M_\infty = 0.192(2)$ (aus $M^2$ -Extrapolation)
$M_\infty = 0.198(2)$ (aus $M^2_C$ -Extrapolation)
DMRG-Benchmark: $M_\infty^{DMRG} = 0.208(8)$

Analyse der Rechenkomplexität

Einzelne Trainingsschrittzeit: $O(L^4)$ -Skalierung
Gesamtlaufzeit: Längste Simulation 1700 GPU-Stunden (umfasst 6 Systemgrößen)
Parametrisierter Trainingsplan kontrolliert effektiv die Rechenkosten für große Systeme

Wichtige Erkenntnisse

SU(2)-Symmetriebrechung: Der vom RNN gelernte Zustand ist eine Überlagerung von Anderson-Turm-Zuständen, nicht ein echter Singulett-Zustand
Bedeutung der Vorzeichenstruktur: Der Erfolg der 120°-Transformation demonstriert die Schlüsselrolle der Basiswahl beim Erlernen nicht-trivialer Vorzeichenstrukturen
Wirksamkeit der VNA: Auch in suboptimalen Basen können gute Ergebnisse durch angemessene Abkühlung erreicht werden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

RNN-Wellenfunktionen können das TLAHM erfolgreich simulieren, auch bei Vorhandensein von Frustration und nicht-trivialer Vorzeichenstruktur
Basiswechsel und VNA sind Schlüsseltechniken, die die Optimierungsergebnisse erheblich verbessern
Die iterative Umschulungsstrategie ist effektiv und ermöglicht effiziente Simulationen großer Systeme
Ergebnisse im thermodynamischen Limes stimmen mit Benchmarks überein, was die Zuverlässigkeit der Methode validiert

Einschränkungen

Höhere Rechenressourcen im Vergleich zum Quadratgitter: Minimale Abfallrate sinkt von 0,25 auf 0,158
Schlechtere V-Scores: Zeigt, dass TLAHM tatsächlich ein schwierigeres Optimierungsproblem darstellt
SU(2)-Symmetrie nicht vollständig erhalten: Kann die Genauigkeit bestimmter physikalischer Größen beeinflussen
Weiterhin Adam-Optimierer erforderlich: Fortgeschrittene Optimierungsmethoden wie SR zeigen schlechte Leistung bei RNNs

Zukünftige Richtungen

Systematische Untersuchung der Vorzeichenstruktur: Verständnis der tieferen Gründe für den Erfolg der Basiswechsel
Fortgeschrittenere Optimierungsalgorithmen: Erforschung von SR-Varianten, die für RNNs geeignet sind
Andere frustrierte Systeme: Erweiterung auf Kagome-Gitter und andere Geometrien
Quantenphasenübergänge: Nutzung der Skalierbarkeit zur Untersuchung kritischer Phänomene

Tiefgreifende Bewertung

Stärken

Starke technische Innovation: Erstmalige erfolgreiche Anwendung iterativ umgeschulter RNNs auf schwierige frustrierte Systeme
Vollständiges experimentelles Design: Systematischer Vergleich verschiedener Basiswechsel und Optimierungsstrategien
Hohe Glaubwürdigkeit der Ergebnisse: Validierung durch mehrere Methoden mit hoher Übereinstimmung mit unabhängigen Benchmarks
Großer praktischer Wert: Bereitstellung effektiver Werkzeuge zur Behandlung großskaliger frustrierter Quantensysteme
Tiefgreifende Analyse: Verständnis der Auswirkungen des Vorzeichenproblems aus Optimierungsperspektive

Schwächen

Begrenzte theoretische Einsicht: Mangelnde tiefgreifende Analyse des Mechanismus hinter dem Erfolg der 120°-Transformation
Höhere Rechenkosten: Benötigt immer noch mehr Ressourcen im Vergleich zum Quadratgitter
Symmetriebehandlung: SU(2)-Brechung kann die Genauigkeit bestimmter Observablen beeinflussen
Unbekannte Verallgemeinerbarkeit: Leistung auf anderen frustrierten Systemen bleibt zu überprüfen

Auswirkungen

Methodologischer Beitrag: Bietet wichtiges Beispiel für die Anwendung von NQS auf frustrierte Systeme
Technische Übertragbarkeit: Iterative Umschulungsstrategie anwendbar auf andere Quantenmultikörperprobleme
Benchmark-Wert: Liefert neue hochpräzise numerische Ergebnisse für TLAHM
Inspirative Bedeutung: Offenbart die wichtige Rolle von Basiswechseln im quantenmaschinellen Lernen

Anwendungsszenarien

Zweidimensionale frustrierte Quantenmagnete: Besonders geeignet für geometrisch frustrierte Systeme
Endliche Größenskalierungsstudien: Skalierungsvorteil von RNNs deutlich
Berechnung von Grundzustandseigenschaften: Grundzustandsenergie, Magnetisierungsstärke und andere Grundzustandsobservablen
Methodologische Forschung: Als Benchmark-Problem zur Prüfung neuer NQS-Architekturen

Literaturverzeichnisse

Der Artikel zitiert wichtige Literatur in diesem Bereich, einschließlich:

Bahnbrechende Arbeiten von Anderson zur Resonanzvalenz-Bindungstheorie
Exakte Diagonalisierungsbenchmark-Ergebnisse von Bernu et al.
Green-Funktions-Montecarlo-Studien von Capriotti et al.
Grundlegende Arbeiten von Carleo-Troyer zu neuronalen Quantenzuständen
Aktuelle hochpräzise DMRG- und iPEPS-Ergebnisse

Gesamtbewertung: Dies ist ein hochqualitatives Papier der Computerphysik mit wichtigen Beiträgen sowohl auf methodologischer als auch auf anwendungsorientierter Ebene. Durch geschickte Kombination von Basiswechsel, variationeller Abkühlung und iterativem Umschulen wird das schwierige TLAHM-Problem erfolgreich gelöst und neue Wege für die Anwendung neuronaler Quantenzustände in frustrierten Systemen eröffnet. Trotz einiger theoretischer Verständnislücken machen sein praktischer Wert und seine inspirierende Bedeutung es zu einem wichtigen Fortschritt in diesem Bereich.