2025-11-25T09:01:17.655044

Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice

Moss, Wiersema, Hibat-Allah et al.
Variational Monte Carlo simulations have been crucial for understanding quantum many-body systems, especially when the Hamiltonian is frustrated and the ground-state wavefunction has a non-trivial sign structure. In this paper, we use recurrent neural network (RNN) wavefunction ansätze to study the triangular-lattice antiferromagnetic Heisenberg model (TLAHM) for lattice sizes up to $30\times30$. In a recent study [M. S. Moss et al. arXiv:2502.17144], the authors demonstrated how RNN wavefunctions can be iteratively retrained in order to obtain variational results for multiple lattice sizes with a reasonable amount of compute. That study, which looked at the sign-free, square-lattice antiferromagnetic Heisenberg model, showed favorable scaling properties, allowing accurate finite-size extrapolations to the thermodynamic limit. In contrast, our present results illustrate in detail the relative difficulty in simulating the sign-problematic TLAHM. We find that the accuracy of our simulations can be significantly improved by transforming the Hamiltonian with a judicious choice of basis rotation. We also show that a similar benefit can be achieved by using variational neural annealing, an alternative optimization technique that minimizes a pseudo free energy. Ultimately, we are able to obtain estimates of the ground-state properties of the TLAHM in the thermodynamic limit that are in close agreement with values in the literature, showing that RNN wavefunctions provide a powerful toolbox for performing finite-size scaling studies for frustrated quantum many-body systems.
academic

Nutzung von Rekurrenz in neuronalen Netzwerk-Wellenfunktionen für großskalige Simulationen von Heisenberg-Antiferromagneten auf dem Dreiecksgitter

Grundinformationen

  • Paper-ID: 2505.20406
  • Titel: Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice
  • Autoren: M. Schuyler Moss, Roeland Wiersema, Mohamed Hibat-Allah, Juan Carrasquilla, Roger G. Melko
  • Klassifizierung: cond-mat.str-el cond-mat.dis-nn quant-ph
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Version v3)
  • Paper-Link: https://arxiv.org/abs/2505.20406

Zusammenfassung

In diesem Artikel werden rekurrente neuronale Netzwerk (RNN)-Wellenfunktions-Ansätze zur Untersuchung des Heisenberg-Antiferromagneten-Modells auf dem Dreiecksgitter (TLAHM) mit Systemgrößen bis zu 30×30 verwendet. Im Gegensatz zu zuvor untersuchten Quadratgitter-Modellen ohne Vorzeichenproblem weist das TLAHM eine komplexe Vorzeichenstruktur auf, die numerische Simulationen erheblich erschwert. Die Forschung zeigt, dass durch angemessene Basiswechsel und variationelle neuronale Abkühlungstechniken die Simulationsgenauigkeit erheblich verbessert werden kann. Die erhaltenen Grundzustandseigenschaften im thermodynamischen Limes stimmen stark mit Literaturwerten überein und demonstrieren die starke Leistungsfähigkeit von RNN-Wellenfunktionen bei der Untersuchung der endlichen Größenskalierung in frustrierten Quantenmultikörpersystemen.

Forschungshintergrund und Motivation

Bedeutung des Problems

Das Heisenberg-Antiferromagneten-Modell auf dem Dreiecksgitter (TLAHM) ist eines der Standardbeispiele für frustrierte Quantenmagnete. Obwohl bekannt ist, dass sein Grundzustand 120°-magnetische Ordnung aufweist, ist die numerische Untersuchung dieses Systems aufgrund der geometrischen Frustration äußerst herausfordernd. Im Gegensatz zum Quadratgitter weist das TLAHM ein Vorzeichenproblem auf, das Quantenmontecarlo (QMC)-Simulationen erschwert.

Einschränkungen bestehender Methoden

  1. Exakte Diagonalisierung: Begrenzt auf kleine Systemgrößen mit schwerwiegenden endlichen Größeneffekten
  2. Traditionelle variationelle Montecarlo: Abhängig von der Wahl des Ansatzes mit begrenzter Genauigkeit
  3. QMC-Methoden: Beeinträchtigt durch das Vorzeichenproblem mit schwer kontrollierbaren Fehlern

Forschungsmotivation

Neuronale Quantenzustände (NQS) als hochexpressive variationelle Ansätze haben in letzter Zeit große Aufmerksamkeit erhalten, aber Frustration und nicht-triviale Vorzeichenstrukturen werden als potenzielle Hindernisse für die NQS-Optimierung angesehen. Das TLAHM wird daher zu einer wichtigen Benchmark zur Prüfung der NQS-Leistung. Dieser Artikel zielt darauf ab, die Wirksamkeit von RNN-Wellenfunktionen in solch schwierigen Systemen zu überprüfen.

Kernbeiträge

  1. Erstmalige erfolgreiche Anwendung von iterativ umgeschulten RNN-Wellenfunktionen auf das TLAHM, mit großskaligen Simulationen von bis zu 30×30 Systemen
  2. Systematische Untersuchung der Auswirkungen von Basiswechseln auf die Simulationsgenauigkeit, wobei die 120°-Transformation im Vergleich zur Marshall-Peierls-Vorzeichenregel eine signifikante Verbesserung zeigt
  3. Einführung der Technik der variationellen neuronalen Abkühlung (VNA), die Optimierungsschwierigkeiten durch Minimierung der Pseudo-Freien Energie effektiv überwindet
  4. Gewinnung von Grundzustandseigenschaften im thermodynamischen Limes durch endliche Größenskalierung, wobei Grundzustandsenergie und Untergitter-Magnetisierungsstärke stark mit Literaturwerten übereinstimmen
  5. Bereitstellung detaillierter Analysen der Rechenkomplexität und Laufzeiten, die die Praktikabilität der Methode demonstrieren

Methodische Details

Aufgabendefinition

Untersuchung der Grundzustandseigenschaften des TLAHM: H^=ijSiSj\hat{H} = \sum_{\langle ij \rangle} \vec{S}_i \cdot \vec{S}_j wobei i,j\langle i,j \rangle die Wechselwirkung zwischen nächsten Nachbarn auf dem Dreiecksgitter bezeichnet und Si\vec{S}_i der Spin-1/2-Operator ist.

Modellarchitektur

RNN-Wellenfunktions-Design

Konstruktion einer zweidimensionalen rekurrenten neuronalen Netzwerk-Wellenfunktion: p(σ)=p(σ1)p(σ2σ1)p(σNσN1,,σ1)p(|\sigma\rangle) = p(\sigma_1)p(\sigma_2|\sigma_1)\cdots p(\sigma_N|\sigma_{N-1},\ldots,\sigma_1)

Schlüsselkomponenten:

  1. Gated Recurrent Units (GRU): Verarbeitung der Informationsübertragung von versteckten Vektoren
  2. Komplexe Phasenparametrisierung: Behandlung nicht-trivialer Vorzeichenstrukturen ΨW(σ)=exp[iϕW(σ)]pW(σ)\Psi_W(\sigma) = \exp[i\phi_W(\sigma)]\sqrt{p_W(\sigma)}
  3. Pseudo-periodische Randbedingungen: Aufrechterhaltung der Kausalität bei gleichzeitiger Simulation periodischer Systeme

Basiswechsel-Techniken

Marshall-Peierls-Transformation (UsqU_{sq}): Usq=exp(iπjBsqS^jz)U_{sq} = \exp\left(-i\pi\sum_{j\in B_{sq}}\hat{S}^z_j\right)

120°-Transformation (UtriU_{tri}): Utri=exp(2πi3[bBtriS^bzcCtriS^cz])U_{tri} = \exp\left(-\frac{2\pi i}{3}\left[\sum_{b\in B_{tri}}\hat{S}^z_b - \sum_{c\in C_{tri}}\hat{S}^z_c\right]\right)

Variationelle neuronale Abkühlung

Minimierung der Pseudo-Freien Energie: FW(t)=EWT(t)Sclassical(pW)F_W(t) = E_W - T(t)S_{classical}(p_W) wobei T(t)T(t) die Abkühlungstemperatur ist und SclassicalS_{classical} die Shannon-Entropie darstellt.

Technische Innovationen

  1. Gewichtsfreigabemechanismus: Die Anzahl der RNN-Parameter ist unabhängig von der Systemgröße und unterstützt iteratives Umschulen
  2. Symmetriemittelung: Nur Mittelung der Wellenfunktionsamplitude über die C6vC_{6v}-Gruppe, um numerische Instabilität der Phasenmittelung zu vermeiden
  3. Parametrisierter Trainingsplan: Nsteps(L,s,r;L0,C,F)=s×[Cexp(r(LL0))+F]N_{steps}(L,s,r;L_0,C,F) = s \times [C\exp(-r(L-L_0)) + F]
  4. Nullvarianz-Extrapolation: Verwendung verbesserter Sequenzen variationeller Zustände für genauere Energieschätzungen

Experimentelle Einrichtung

Systemparameter

  • Gittergröße: L = 6, 12, 18, 24, 30 (periodische Randbedingungen)
  • Dimension des versteckten Vektors: dhd_h = fester Wert (ausreichende Ausdruckskraft gewährleistet)
  • Symmetrien: Erzwungene U(1)-Symmetrie (Nullmagnetisierung), Anwendung der C6vC_{6v}-Punktgruppensymmetrie

Trainingsstrategie

Vierstufiges Training (L=6):

  1. Feste Lernrate γ=5×104\gamma = 5 \times 10^{-4}, Temperatur T0T_0
  2. Variationelle neuronale Abkühlung: Lineares Abkühlen auf 0
  3. Lernratenabfall: γ(t)=γ0×(1+(t/δ))1\gamma(t) = \gamma_0 \times (1+(t/\delta))^{-1}
  4. Anwendung von Symmetrien, endgültige Optimierung

Iteratives Umschulen: Verwendung optimierter Ergebnisse kleinerer Größen zur Initialisierung des Trainings größerer Systeme

Bewertungsmetriken

  1. Variationelle Energie: EW=ΨWH^ΨW/ΨWΨWE_W = \langle\Psi_W|\hat{H}|\Psi_W\rangle/\langle\Psi_W|\Psi_W\rangle
  2. Energievarianz: Messung der Nähe zum Eigenzustand
  3. V-Score: V=Nvar(E)/(EE)2V = N\text{var}(E)/(E-E_\infty)^2
  4. Untergitter-Magnetisierungsstärke: Berechnung durch Korrelationsfunktionen im Impulsraum

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Basiswechsel-Effekte (L=6)

  • Ohne Transformation/Marshall-Peierls-Transformation: Erfordert hochtemperaturgestützte Abkühlung (T0=1.0T_0 = 1.0) für genaue Ergebnisse
  • 120°-Transformation: Unempfindlich gegenüber Abkühlungstemperatur, ausgezeichnete Ergebnisse bereits bei T0=0T_0 = 0
  • Optimale Energie: -0.5562(2) (nahe dem exakten Diagonalisierungsergebnis -0.5603734)

Ergebnisse der endlichen Größenskalierung

Energieskalierung (unter Verwendung von E(L)=E+e1/L3E(L) = E_\infty + e_1/L^3):

  • Nullvarianz-Extrapolationsenergie: E=0.5517569(9)E_\infty = -0.5517569(9)
  • DMRG-Benchmark: EDMRG=0.5503(8)E_\infty^{DMRG} = -0.5503(8)
  • iPEPS-Benchmark: EiPEPS=0.55161(6)E_\infty^{iPEPS} = -0.55161(6)

Untergitter-Magnetisierungsstärke:

  • M=0.192(2)M_\infty = 0.192(2) (aus M2M^2-Extrapolation)
  • M=0.198(2)M_\infty = 0.198(2) (aus MC2M^2_C-Extrapolation)
  • DMRG-Benchmark: MDMRG=0.208(8)M_\infty^{DMRG} = 0.208(8)

Analyse der Rechenkomplexität

  • Einzelne Trainingsschrittzeit: O(L4)O(L^4)-Skalierung
  • Gesamtlaufzeit: Längste Simulation 1700 GPU-Stunden (umfasst 6 Systemgrößen)
  • Parametrisierter Trainingsplan kontrolliert effektiv die Rechenkosten für große Systeme

Wichtige Erkenntnisse

  1. SU(2)-Symmetriebrechung: Der vom RNN gelernte Zustand ist eine Überlagerung von Anderson-Turm-Zuständen, nicht ein echter Singulett-Zustand
  2. Bedeutung der Vorzeichenstruktur: Der Erfolg der 120°-Transformation demonstriert die Schlüsselrolle der Basiswahl beim Erlernen nicht-trivialer Vorzeichenstrukturen
  3. Wirksamkeit der VNA: Auch in suboptimalen Basen können gute Ergebnisse durch angemessene Abkühlung erreicht werden

Verwandte Arbeiten

Numerische Methoden für Quantenmultikörpersysteme

  • DMRG: Wichtige Fortschritte in zylindrischer Geometrie
  • iPEPS: Direkte Parametrisierung des Grundzustands im thermodynamischen Limes
  • Traditionelle VMC: Verwendung von Projektionswellenfunktions-Ansätzen

Entwicklung neuronaler Quantenzustände

  • RBM: Früheste NQS-Architektur
  • CNN: Nutzung von Translationsinvarianz
  • Transformer: Behandlung langreichweitiger Korrelationen
  • RNN: Schwerpunkt dieses Artikels, unterstützt iteratives Umschulen

Spezialisierte TLAHM-Forschung

Historisch gab es Kontroversen über Grundzustandseigenschaften, die letztendlich durch Green-Funktions-Montecarlo und andere Methoden bestätigt wurden.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. RNN-Wellenfunktionen können das TLAHM erfolgreich simulieren, auch bei Vorhandensein von Frustration und nicht-trivialer Vorzeichenstruktur
  2. Basiswechsel und VNA sind Schlüsseltechniken, die die Optimierungsergebnisse erheblich verbessern
  3. Die iterative Umschulungsstrategie ist effektiv und ermöglicht effiziente Simulationen großer Systeme
  4. Ergebnisse im thermodynamischen Limes stimmen mit Benchmarks überein, was die Zuverlässigkeit der Methode validiert

Einschränkungen

  1. Höhere Rechenressourcen im Vergleich zum Quadratgitter: Minimale Abfallrate sinkt von 0,25 auf 0,158
  2. Schlechtere V-Scores: Zeigt, dass TLAHM tatsächlich ein schwierigeres Optimierungsproblem darstellt
  3. SU(2)-Symmetrie nicht vollständig erhalten: Kann die Genauigkeit bestimmter physikalischer Größen beeinflussen
  4. Weiterhin Adam-Optimierer erforderlich: Fortgeschrittene Optimierungsmethoden wie SR zeigen schlechte Leistung bei RNNs

Zukünftige Richtungen

  1. Systematische Untersuchung der Vorzeichenstruktur: Verständnis der tieferen Gründe für den Erfolg der Basiswechsel
  2. Fortgeschrittenere Optimierungsalgorithmen: Erforschung von SR-Varianten, die für RNNs geeignet sind
  3. Andere frustrierte Systeme: Erweiterung auf Kagome-Gitter und andere Geometrien
  4. Quantenphasenübergänge: Nutzung der Skalierbarkeit zur Untersuchung kritischer Phänomene

Tiefgreifende Bewertung

Stärken

  1. Starke technische Innovation: Erstmalige erfolgreiche Anwendung iterativ umgeschulter RNNs auf schwierige frustrierte Systeme
  2. Vollständiges experimentelles Design: Systematischer Vergleich verschiedener Basiswechsel und Optimierungsstrategien
  3. Hohe Glaubwürdigkeit der Ergebnisse: Validierung durch mehrere Methoden mit hoher Übereinstimmung mit unabhängigen Benchmarks
  4. Großer praktischer Wert: Bereitstellung effektiver Werkzeuge zur Behandlung großskaliger frustrierter Quantensysteme
  5. Tiefgreifende Analyse: Verständnis der Auswirkungen des Vorzeichenproblems aus Optimierungsperspektive

Schwächen

  1. Begrenzte theoretische Einsicht: Mangelnde tiefgreifende Analyse des Mechanismus hinter dem Erfolg der 120°-Transformation
  2. Höhere Rechenkosten: Benötigt immer noch mehr Ressourcen im Vergleich zum Quadratgitter
  3. Symmetriebehandlung: SU(2)-Brechung kann die Genauigkeit bestimmter Observablen beeinflussen
  4. Unbekannte Verallgemeinerbarkeit: Leistung auf anderen frustrierten Systemen bleibt zu überprüfen

Auswirkungen

  1. Methodologischer Beitrag: Bietet wichtiges Beispiel für die Anwendung von NQS auf frustrierte Systeme
  2. Technische Übertragbarkeit: Iterative Umschulungsstrategie anwendbar auf andere Quantenmultikörperprobleme
  3. Benchmark-Wert: Liefert neue hochpräzise numerische Ergebnisse für TLAHM
  4. Inspirative Bedeutung: Offenbart die wichtige Rolle von Basiswechseln im quantenmaschinellen Lernen

Anwendungsszenarien

  1. Zweidimensionale frustrierte Quantenmagnete: Besonders geeignet für geometrisch frustrierte Systeme
  2. Endliche Größenskalierungsstudien: Skalierungsvorteil von RNNs deutlich
  3. Berechnung von Grundzustandseigenschaften: Grundzustandsenergie, Magnetisierungsstärke und andere Grundzustandsobservablen
  4. Methodologische Forschung: Als Benchmark-Problem zur Prüfung neuer NQS-Architekturen

Literaturverzeichnisse

Der Artikel zitiert wichtige Literatur in diesem Bereich, einschließlich:

  • Bahnbrechende Arbeiten von Anderson zur Resonanzvalenz-Bindungstheorie
  • Exakte Diagonalisierungsbenchmark-Ergebnisse von Bernu et al.
  • Green-Funktions-Montecarlo-Studien von Capriotti et al.
  • Grundlegende Arbeiten von Carleo-Troyer zu neuronalen Quantenzuständen
  • Aktuelle hochpräzise DMRG- und iPEPS-Ergebnisse

Gesamtbewertung: Dies ist ein hochqualitatives Papier der Computerphysik mit wichtigen Beiträgen sowohl auf methodologischer als auch auf anwendungsorientierter Ebene. Durch geschickte Kombination von Basiswechsel, variationeller Abkühlung und iterativem Umschulen wird das schwierige TLAHM-Problem erfolgreich gelöst und neue Wege für die Anwendung neuronaler Quantenzustände in frustrierten Systemen eröffnet. Trotz einiger theoretischer Verständnislücken machen sein praktischer Wert und seine inspirierende Bedeutung es zu einem wichtigen Fortschritt in diesem Bereich.