2025-11-25T09:01:17.655044

Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice

Moss, Wiersema, Hibat-Allah et al.

Variational Monte Carlo simulations have been crucial for understanding quantum many-body systems, especially when the Hamiltonian is frustrated and the ground-state wavefunction has a non-trivial sign structure. In this paper, we use recurrent neural network (RNN) wavefunction ansÃ¤tze to study the triangular-lattice antiferromagnetic Heisenberg model (TLAHM) for lattice sizes up to $30\times30$. In a recent study [M. S. Moss et al. arXiv:2502.17144], the authors demonstrated how RNN wavefunctions can be iteratively retrained in order to obtain variational results for multiple lattice sizes with a reasonable amount of compute. That study, which looked at the sign-free, square-lattice antiferromagnetic Heisenberg model, showed favorable scaling properties, allowing accurate finite-size extrapolations to the thermodynamic limit. In contrast, our present results illustrate in detail the relative difficulty in simulating the sign-problematic TLAHM. We find that the accuracy of our simulations can be significantly improved by transforming the Hamiltonian with a judicious choice of basis rotation. We also show that a similar benefit can be achieved by using variational neural annealing, an alternative optimization technique that minimizes a pseudo free energy. Ultimately, we are able to obtain estimates of the ground-state properties of the TLAHM in the thermodynamic limit that are in close agreement with values in the literature, showing that RNN wavefunctions provide a powerful toolbox for performing finite-size scaling studies for frustrated quantum many-body systems.

academic

Использование рекуррентности в нейронных сетевых волновых функциях для крупномасштабного моделирования антиферромагнетиков Гейзенберга на треугольной решётке

Основная информация

ID статьи: 2505.20406
Название: Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice
Авторы: M. Schuyler Moss, Roeland Wiersema, Mohamed Hibat-Allah, Juan Carrasquilla, Roger G. Melko
Классификация: cond-mat.str-el cond-mat.dis-nn quant-ph
Дата публикации: 13 октября 2025 г. (версия v3 на arXiv)
Ссылка на статью: https://arxiv.org/abs/2505.20406

Аннотация

В данной работе исследуется модель антиферромагнетика Гейзенберга на треугольной решётке (TLAHM) с использованием анзацев волновых функций рекуррентных нейронных сетей (RNN) для систем размером до 30×30. В отличие от изученных ранее моделей на квадратной решётке без знаковой проблемы, TLAHM обладает сложной знаковой структурой, что значительно усложняет численное моделирование. Исследование показывает, что посредством надлежащего преобразования базиса и техники вариационного нейронного отжига можно существенно повысить точность моделирования. Полученные свойства основного состояния в термодинамическом пределе хорошо согласуются с литературными значениями, что доказывает мощь волновых функций RNN при исследовании конечномерного масштабирования в фрустрированных квантовых многотельных системах.

Исследовательский контекст и мотивация

Значимость проблемы

Модель антиферромагнетика Гейзенберга на треугольной решётке (TLAHM) является стандартным примером фрустрированного квантового магнетизма. Хотя известно, что основное состояние демонстрирует 120° магнитный порядок, численное исследование этой системы чрезвычайно сложно из-за геометрической фрустрации. В отличие от квадратной решётки, TLAHM содержит знаковую проблему, что затрудняет моделирование квантовым методом Монте-Карло (QMC).

Ограничения существующих методов

Точная диагонализация: ограничена малыми размерами систем, значительные эффекты конечного размера
Традиционный вариационный метод Монте-Карло: зависит от выбора анзаца, ограниченная точность
Методы QMC: затруднены знаковой проблемой, сложно получить контролируемые ошибки

Исследовательская мотивация

Нейронные квантовые состояния (NQS) как высокоэкспрессивные вариационные анзацы привлекли внимание в последние годы, однако фрустрация и нетривиальная знаковая структура рассматривались как потенциальные препятствия для оптимизации NQS. TLAHM таким образом становится важным тестовым примером для проверки производительности NQS. Данная работа направлена на верификацию эффективности волновых функций RNN в таких сложных системах.

Основные вклады

Первое успешное применение итеративно переобученных волновых функций RNN к TLAHM, реализующее крупномасштабное моделирование систем размером до 30×30
Систематическое исследование влияния преобразования базиса на точность моделирования, обнаружившее, что 120° преобразование значительно превосходит правило знака Маршалла-Пейерлса
Введение техники вариационного нейронного отжига (VNA), эффективно преодолевающей трудности оптимизации, вызванные фрустрацией
Получение свойств основного состояния в термодинамическом пределе посредством конечномерного масштабирования, энергия основного состояния и намагниченность подрешётки хорошо согласуются с литературными эталонными значениями
Предоставление детального анализа вычислительной сложности и времени выполнения, доказывающего практичность метода

Подробное описание методов

Определение задачи

Исследование свойств основного состояния TLAHM: $\hat{H} = \sum_{\langle ij \rangle} \vec{S}_i \cdot \vec{S}_j$ где $\langle i,j \rangle$ обозначает взаимодействие ближайших соседей на треугольной решётке, $\vec{S}_i$ — оператор спина-1/2.

Архитектура модели

Конструкция волновой функции RNN

Двумерная рекуррентная нейронная сеть для построения волновой функции: $p(|\sigma\rangle) = p(\sigma_1)p(\sigma_2|\sigma_1)\cdots p(\sigma_N|\sigma_{N-1},\ldots,\sigma_1)$

Ключевые компоненты:

Управляемые рекуррентные блоки (GRU): обработка передачи информации скрытых векторов
Параметризация комплексной фазы: обработка нетривиальной знаковой структуры $\Psi_W(\sigma) = \exp[i\phi_W(\sigma)]\sqrt{p_W(\sigma)}$
Псевдопериодические граничные условия: сохранение причинности при моделировании периодической системы

Техника преобразования базиса

Преобразование Маршалла-Пейерлса ( $U_{sq}$ ): $U_{sq} = \exp\left(-i\pi\sum_{j\in B_{sq}}\hat{S}^z_j\right)$

120° преобразование ( $U_{tri}$ ): $U_{tri} = \exp\left(-\frac{2\pi i}{3}\left[\sum_{b\in B_{tri}}\hat{S}^z_b - \sum_{c\in C_{tri}}\hat{S}^z_c\right]\right)$

Вариационный нейронный отжиг

Минимизация псевдосвободной энергии: $F_W(t) = E_W - T(t)S_{classical}(p_W)$ где $T(t)$ — температура отжига, $S_{classical}$ — энтропия Шеннона.

Технические инновации

Механизм совместного использования весов: количество параметров RNN независимо от размера системы, поддерживает итеративное переобучение
Усреднение по симметриям: применение $C_{6v}$ группового усреднения только к амплитуде волновой функции, избегание численной нестабильности при усреднении фазы
Параметризованный график обучения: $N_{steps}(L,s,r;L_0,C,F) = s \times [C\exp(-r(L-L_0)) + F]$
Экстраполяция нулевой дисперсии: использование последовательности улучшенных вариационных состояний для получения более точных оценок энергии

Экспериментальная установка

Параметры системы

Размеры решётки: L = 6, 12, 18, 24, 30 (периодические граничные условия)
Размерность скрытого вектора: $d_h$ = фиксированное значение (обеспечивающее достаточную выразительность)
Симметрии: принудительная U(1) симметрия (нулевая намагниченность), применение точечной группы симметрии $C_{6v}$

Стратегия обучения

Четырёхэтапное обучение (L=6):

Фиксированная скорость обучения $\gamma = 5 \times 10^{-4}$ , температура $T_0$
Вариационный нейронный отжиг: линейное охлаждение до 0
Затухание скорости обучения: $\gamma(t) = \gamma_0 \times (1+(t/\delta))^{-1}$
Применение симметрий, окончательная оптимизация

Итеративное переобучение: использование результатов оптимизации малых размеров для инициализации обучения больших размеров

Метрики оценки

Вариационная энергия: $E_W = \langle\Psi_W|\hat{H}|\Psi_W\rangle/\langle\Psi_W|\Psi_W\rangle$
Дисперсия энергии: измерение близости к собственному состоянию
V-score: $V = N\text{var}(E)/(E-E_\infty)^2$
Намагниченность подрешётки: вычисляется через функции корреляции в пространстве импульсов

Экспериментальные результаты

Основные результаты

Сравнение эффектов преобразования базиса (L=6)

Без преобразования/преобразование Маршалла-Пейерлса: требуют высокотемпературного отжига ( $T_0 = 1.0$ ) для получения точных результатов
120° преобразование: нечувствительно к температуре отжига, даёт отличные результаты при $T_0 = 0$
Оптимальная энергия: -0.5562(2) (близко к результату точной диагонализации -0.5603734)

Результаты конечномерного масштабирования

Масштабирование энергии (используя $E(L) = E_\infty + e_1/L^3$ ):

Энергия экстраполяции нулевой дисперсии: $E_\infty = -0.5517569(9)$
Эталон DMRG: $E_\infty^{DMRG} = -0.5503(8)$
Эталон iPEPS: $E_\infty^{iPEPS} = -0.55161(6)$

Намагниченность подрешётки:

$M_\infty = 0.192(2)$ (из экстраполяции $M^2$ )
$M_\infty = 0.198(2)$ (из экстраполяции $M^2_C$ )
Эталон DMRG: $M_\infty^{DMRG} = 0.208(8)$

Анализ вычислительной сложности

Время одного шага обучения: масштабирование $O(L^4)$
Общее время выполнения: максимум 1700 часов GPU (охватывая шесть размеров систем)
Параметризованный график обучения эффективно контролирует вычислительные затраты для систем большого размера

Важные открытия

Нарушение SU(2) симметрии: изученное RNN состояние является суперпозицией башни Андерсона, а не истинным синглетом
Значимость знаковой структуры: успех 120° преобразования доказывает критическую роль выбора базиса при изучении нетривиальной знаковой структуры
Эффективность VNA: даже в неоптимальном базисе можно получить хорошие результаты посредством надлежащего отжига

Связанные работы

Численные методы для квантовых многотельных систем

DMRG: значительный прогресс в цилиндрической геометрии
iPEPS: прямая параметризация основного состояния в термодинамическом пределе
Традиционный VMC: использование проекционных волновых функций и других анзацев

Развитие нейронных квантовых состояний

RBM: первая архитектура NQS
CNN: использование трансляционной инвариантности
Transformer: обработка дальнодействующих корреляций
RNN: основной фокус данной работы, поддерживает итеративное переобучение

Специализированные исследования TLAHM

Исторически существовали разногласия относительно свойств основного состояния, окончательно подтверждённые методом Монте-Карло функций Грина как 120° антиферромагнитный упорядоченный состояние.

Заключение и обсуждение

Основные выводы

Волновые функции RNN успешно моделируют TLAHM, несмотря на наличие фрустрации и нетривиальной знаковой структуры
Преобразование базиса и VNA являются ключевыми техниками, значительно улучшающими результаты оптимизации
Стратегия итеративного переобучения эффективна, обеспечивая эффективное моделирование крупномасштабных систем
Результаты в термодинамическом пределе согласуются с эталонами, верифицируя надёжность метода

Ограничения

Требует больше вычислительных ресурсов по сравнению с квадратной решёткой: минимальный коэффициент затухания снизился с 0.25 до 0.158
Худший V-score: указывает на то, что TLAHM действительно является более сложной задачей оптимизации
Неполное сохранение SU(2) симметрии: может повлиять на точность некоторых физических величин
По-прежнему требуется оптимизатор Adam: высокоуровневые методы оптимизации, такие как SR, плохо работают с RNN

Направления будущих исследований

Систематическое исследование знаковой структуры: понимание глубинных причин успеха 120° преобразования
Более продвинутые алгоритмы оптимизации: исследование вариантов SR, применимых к RNN
Другие фрустрированные системы: расширение на решётки кагоме и другие геометрии
Исследование квантовых фазовых переходов: использование масштабируемости для изучения критических явлений

Глубокая оценка

Преимущества

Сильная техническая инновационность: первое успешное применение итеративно переобученных RNN к сложной фрустрированной системе
Полный экспериментальный дизайн: систематическое сравнение эффектов различных преобразований базиса и стратегий оптимизации
Высокая достоверность результатов: верификация несколькими методами, высокое согласие с независимыми эталонами
Большая практическая ценность: предоставление эффективного инструмента для обработки крупномасштабных фрустрированных квантовых систем
Глубокий анализ: понимание влияния знаковой проблемы с точки зрения оптимизации

Недостатки

Ограниченное теоретическое понимание: отсутствие глубокого анализа механизма успеха 120° преобразования
Высокие вычислительные затраты: по-прежнему требует больше ресурсов по сравнению с квадратной решёткой
Обработка симметрии: нарушение SU(2) может повлиять на точность некоторых наблюдаемых величин
Неизвестная обобщаемость: производительность на других фрустрированных системах требует проверки

Влияние

Вклад в методологию: предоставление важного примера применения NQS в фрустрированных системах
Переносимость техники: стратегия итеративного переобучения применима к другим квантовым многотельным задачам
Эталонная ценность: новые высокоточные численные результаты для TLAHM
Вдохновляющее значение: раскрытие важной роли преобразования базиса в квантовом машинном обучении

Области применения

Двумерные фрустрированные квантовые магниты: особенно подходит для систем с геометрической фрустрацией
Исследования конечномерного масштабирования: явные преимущества масштабируемости RNN
Вычисление свойств основного состояния: энергия, намагниченность и другие наблюдаемые основного состояния
Методологические исследования: использование в качестве тестовой задачи для новых архитектур NQS

Библиография

Данная работа цитирует важные публикации в этой области, включая:

Основополагающие работы Андерсона по теории резонирующих валентных связей
Эталонные результаты точной диагонализации Bernu и соавторов
Исследования методом Монте-Карло функций Грина Capriotti и соавторов
Основополагающие работы Carleo-Troyer по нейронным квантовым состояниям
Недавние высокоточные результаты DMRG и iPEPS

Общая оценка: Это высококачественная статья по вычислительной физике с важными вкладами как в методологию, так и в приложения. Посредством умелого сочетания преобразования базиса, вариационного отжига и итеративного переобучения авторы успешно решили сложную задачу TLAHM, открыв новые пути применения нейронных квантовых состояний в фрустрированных системах. Несмотря на некоторые недостатки в теоретическом понимании, её практическая ценность и вдохновляющее значение делают её важным прогрессом в данной области.