2025-11-25T09:01:17.655044

Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice

Moss, Wiersema, Hibat-Allah et al.
Variational Monte Carlo simulations have been crucial for understanding quantum many-body systems, especially when the Hamiltonian is frustrated and the ground-state wavefunction has a non-trivial sign structure. In this paper, we use recurrent neural network (RNN) wavefunction ansätze to study the triangular-lattice antiferromagnetic Heisenberg model (TLAHM) for lattice sizes up to $30\times30$. In a recent study [M. S. Moss et al. arXiv:2502.17144], the authors demonstrated how RNN wavefunctions can be iteratively retrained in order to obtain variational results for multiple lattice sizes with a reasonable amount of compute. That study, which looked at the sign-free, square-lattice antiferromagnetic Heisenberg model, showed favorable scaling properties, allowing accurate finite-size extrapolations to the thermodynamic limit. In contrast, our present results illustrate in detail the relative difficulty in simulating the sign-problematic TLAHM. We find that the accuracy of our simulations can be significantly improved by transforming the Hamiltonian with a judicious choice of basis rotation. We also show that a similar benefit can be achieved by using variational neural annealing, an alternative optimization technique that minimizes a pseudo free energy. Ultimately, we are able to obtain estimates of the ground-state properties of the TLAHM in the thermodynamic limit that are in close agreement with values in the literature, showing that RNN wavefunctions provide a powerful toolbox for performing finite-size scaling studies for frustrated quantum many-body systems.
academic

Использование рекуррентности в нейронных сетевых волновых функциях для крупномасштабного моделирования антиферромагнетиков Гейзенберга на треугольной решётке

Основная информация

  • ID статьи: 2505.20406
  • Название: Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice
  • Авторы: M. Schuyler Moss, Roeland Wiersema, Mohamed Hibat-Allah, Juan Carrasquilla, Roger G. Melko
  • Классификация: cond-mat.str-el cond-mat.dis-nn quant-ph
  • Дата публикации: 13 октября 2025 г. (версия v3 на arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2505.20406

Аннотация

В данной работе исследуется модель антиферромагнетика Гейзенберга на треугольной решётке (TLAHM) с использованием анзацев волновых функций рекуррентных нейронных сетей (RNN) для систем размером до 30×30. В отличие от изученных ранее моделей на квадратной решётке без знаковой проблемы, TLAHM обладает сложной знаковой структурой, что значительно усложняет численное моделирование. Исследование показывает, что посредством надлежащего преобразования базиса и техники вариационного нейронного отжига можно существенно повысить точность моделирования. Полученные свойства основного состояния в термодинамическом пределе хорошо согласуются с литературными значениями, что доказывает мощь волновых функций RNN при исследовании конечномерного масштабирования в фрустрированных квантовых многотельных системах.

Исследовательский контекст и мотивация

Значимость проблемы

Модель антиферромагнетика Гейзенберга на треугольной решётке (TLAHM) является стандартным примером фрустрированного квантового магнетизма. Хотя известно, что основное состояние демонстрирует 120° магнитный порядок, численное исследование этой системы чрезвычайно сложно из-за геометрической фрустрации. В отличие от квадратной решётки, TLAHM содержит знаковую проблему, что затрудняет моделирование квантовым методом Монте-Карло (QMC).

Ограничения существующих методов

  1. Точная диагонализация: ограничена малыми размерами систем, значительные эффекты конечного размера
  2. Традиционный вариационный метод Монте-Карло: зависит от выбора анзаца, ограниченная точность
  3. Методы QMC: затруднены знаковой проблемой, сложно получить контролируемые ошибки

Исследовательская мотивация

Нейронные квантовые состояния (NQS) как высокоэкспрессивные вариационные анзацы привлекли внимание в последние годы, однако фрустрация и нетривиальная знаковая структура рассматривались как потенциальные препятствия для оптимизации NQS. TLAHM таким образом становится важным тестовым примером для проверки производительности NQS. Данная работа направлена на верификацию эффективности волновых функций RNN в таких сложных системах.

Основные вклады

  1. Первое успешное применение итеративно переобученных волновых функций RNN к TLAHM, реализующее крупномасштабное моделирование систем размером до 30×30
  2. Систематическое исследование влияния преобразования базиса на точность моделирования, обнаружившее, что 120° преобразование значительно превосходит правило знака Маршалла-Пейерлса
  3. Введение техники вариационного нейронного отжига (VNA), эффективно преодолевающей трудности оптимизации, вызванные фрустрацией
  4. Получение свойств основного состояния в термодинамическом пределе посредством конечномерного масштабирования, энергия основного состояния и намагниченность подрешётки хорошо согласуются с литературными эталонными значениями
  5. Предоставление детального анализа вычислительной сложности и времени выполнения, доказывающего практичность метода

Подробное описание методов

Определение задачи

Исследование свойств основного состояния TLAHM: H^=ijSiSj\hat{H} = \sum_{\langle ij \rangle} \vec{S}_i \cdot \vec{S}_j где i,j\langle i,j \rangle обозначает взаимодействие ближайших соседей на треугольной решётке, Si\vec{S}_i — оператор спина-1/2.

Архитектура модели

Конструкция волновой функции RNN

Двумерная рекуррентная нейронная сеть для построения волновой функции: p(σ)=p(σ1)p(σ2σ1)p(σNσN1,,σ1)p(|\sigma\rangle) = p(\sigma_1)p(\sigma_2|\sigma_1)\cdots p(\sigma_N|\sigma_{N-1},\ldots,\sigma_1)

Ключевые компоненты:

  1. Управляемые рекуррентные блоки (GRU): обработка передачи информации скрытых векторов
  2. Параметризация комплексной фазы: обработка нетривиальной знаковой структуры ΨW(σ)=exp[iϕW(σ)]pW(σ)\Psi_W(\sigma) = \exp[i\phi_W(\sigma)]\sqrt{p_W(\sigma)}
  3. Псевдопериодические граничные условия: сохранение причинности при моделировании периодической системы

Техника преобразования базиса

Преобразование Маршалла-Пейерлса (UsqU_{sq}): Usq=exp(iπjBsqS^jz)U_{sq} = \exp\left(-i\pi\sum_{j\in B_{sq}}\hat{S}^z_j\right)

120° преобразование (UtriU_{tri}): Utri=exp(2πi3[bBtriS^bzcCtriS^cz])U_{tri} = \exp\left(-\frac{2\pi i}{3}\left[\sum_{b\in B_{tri}}\hat{S}^z_b - \sum_{c\in C_{tri}}\hat{S}^z_c\right]\right)

Вариационный нейронный отжиг

Минимизация псевдосвободной энергии: FW(t)=EWT(t)Sclassical(pW)F_W(t) = E_W - T(t)S_{classical}(p_W) где T(t)T(t) — температура отжига, SclassicalS_{classical} — энтропия Шеннона.

Технические инновации

  1. Механизм совместного использования весов: количество параметров RNN независимо от размера системы, поддерживает итеративное переобучение
  2. Усреднение по симметриям: применение C6vC_{6v} группового усреднения только к амплитуде волновой функции, избегание численной нестабильности при усреднении фазы
  3. Параметризованный график обучения: Nsteps(L,s,r;L0,C,F)=s×[Cexp(r(LL0))+F]N_{steps}(L,s,r;L_0,C,F) = s \times [C\exp(-r(L-L_0)) + F]
  4. Экстраполяция нулевой дисперсии: использование последовательности улучшенных вариационных состояний для получения более точных оценок энергии

Экспериментальная установка

Параметры системы

  • Размеры решётки: L = 6, 12, 18, 24, 30 (периодические граничные условия)
  • Размерность скрытого вектора: dhd_h = фиксированное значение (обеспечивающее достаточную выразительность)
  • Симметрии: принудительная U(1) симметрия (нулевая намагниченность), применение точечной группы симметрии C6vC_{6v}

Стратегия обучения

Четырёхэтапное обучение (L=6):

  1. Фиксированная скорость обучения γ=5×104\gamma = 5 \times 10^{-4}, температура T0T_0
  2. Вариационный нейронный отжиг: линейное охлаждение до 0
  3. Затухание скорости обучения: γ(t)=γ0×(1+(t/δ))1\gamma(t) = \gamma_0 \times (1+(t/\delta))^{-1}
  4. Применение симметрий, окончательная оптимизация

Итеративное переобучение: использование результатов оптимизации малых размеров для инициализации обучения больших размеров

Метрики оценки

  1. Вариационная энергия: EW=ΨWH^ΨW/ΨWΨWE_W = \langle\Psi_W|\hat{H}|\Psi_W\rangle/\langle\Psi_W|\Psi_W\rangle
  2. Дисперсия энергии: измерение близости к собственному состоянию
  3. V-score: V=Nvar(E)/(EE)2V = N\text{var}(E)/(E-E_\infty)^2
  4. Намагниченность подрешётки: вычисляется через функции корреляции в пространстве импульсов

Экспериментальные результаты

Основные результаты

Сравнение эффектов преобразования базиса (L=6)

  • Без преобразования/преобразование Маршалла-Пейерлса: требуют высокотемпературного отжига (T0=1.0T_0 = 1.0) для получения точных результатов
  • 120° преобразование: нечувствительно к температуре отжига, даёт отличные результаты при T0=0T_0 = 0
  • Оптимальная энергия: -0.5562(2) (близко к результату точной диагонализации -0.5603734)

Результаты конечномерного масштабирования

Масштабирование энергии (используя E(L)=E+e1/L3E(L) = E_\infty + e_1/L^3):

  • Энергия экстраполяции нулевой дисперсии: E=0.5517569(9)E_\infty = -0.5517569(9)
  • Эталон DMRG: EDMRG=0.5503(8)E_\infty^{DMRG} = -0.5503(8)
  • Эталон iPEPS: EiPEPS=0.55161(6)E_\infty^{iPEPS} = -0.55161(6)

Намагниченность подрешётки:

  • M=0.192(2)M_\infty = 0.192(2) (из экстраполяции M2M^2)
  • M=0.198(2)M_\infty = 0.198(2) (из экстраполяции MC2M^2_C)
  • Эталон DMRG: MDMRG=0.208(8)M_\infty^{DMRG} = 0.208(8)

Анализ вычислительной сложности

  • Время одного шага обучения: масштабирование O(L4)O(L^4)
  • Общее время выполнения: максимум 1700 часов GPU (охватывая шесть размеров систем)
  • Параметризованный график обучения эффективно контролирует вычислительные затраты для систем большого размера

Важные открытия

  1. Нарушение SU(2) симметрии: изученное RNN состояние является суперпозицией башни Андерсона, а не истинным синглетом
  2. Значимость знаковой структуры: успех 120° преобразования доказывает критическую роль выбора базиса при изучении нетривиальной знаковой структуры
  3. Эффективность VNA: даже в неоптимальном базисе можно получить хорошие результаты посредством надлежащего отжига

Связанные работы

Численные методы для квантовых многотельных систем

  • DMRG: значительный прогресс в цилиндрической геометрии
  • iPEPS: прямая параметризация основного состояния в термодинамическом пределе
  • Традиционный VMC: использование проекционных волновых функций и других анзацев

Развитие нейронных квантовых состояний

  • RBM: первая архитектура NQS
  • CNN: использование трансляционной инвариантности
  • Transformer: обработка дальнодействующих корреляций
  • RNN: основной фокус данной работы, поддерживает итеративное переобучение

Специализированные исследования TLAHM

Исторически существовали разногласия относительно свойств основного состояния, окончательно подтверждённые методом Монте-Карло функций Грина как 120° антиферромагнитный упорядоченный состояние.

Заключение и обсуждение

Основные выводы

  1. Волновые функции RNN успешно моделируют TLAHM, несмотря на наличие фрустрации и нетривиальной знаковой структуры
  2. Преобразование базиса и VNA являются ключевыми техниками, значительно улучшающими результаты оптимизации
  3. Стратегия итеративного переобучения эффективна, обеспечивая эффективное моделирование крупномасштабных систем
  4. Результаты в термодинамическом пределе согласуются с эталонами, верифицируя надёжность метода

Ограничения

  1. Требует больше вычислительных ресурсов по сравнению с квадратной решёткой: минимальный коэффициент затухания снизился с 0.25 до 0.158
  2. Худший V-score: указывает на то, что TLAHM действительно является более сложной задачей оптимизации
  3. Неполное сохранение SU(2) симметрии: может повлиять на точность некоторых физических величин
  4. По-прежнему требуется оптимизатор Adam: высокоуровневые методы оптимизации, такие как SR, плохо работают с RNN

Направления будущих исследований

  1. Систематическое исследование знаковой структуры: понимание глубинных причин успеха 120° преобразования
  2. Более продвинутые алгоритмы оптимизации: исследование вариантов SR, применимых к RNN
  3. Другие фрустрированные системы: расширение на решётки кагоме и другие геометрии
  4. Исследование квантовых фазовых переходов: использование масштабируемости для изучения критических явлений

Глубокая оценка

Преимущества

  1. Сильная техническая инновационность: первое успешное применение итеративно переобученных RNN к сложной фрустрированной системе
  2. Полный экспериментальный дизайн: систематическое сравнение эффектов различных преобразований базиса и стратегий оптимизации
  3. Высокая достоверность результатов: верификация несколькими методами, высокое согласие с независимыми эталонами
  4. Большая практическая ценность: предоставление эффективного инструмента для обработки крупномасштабных фрустрированных квантовых систем
  5. Глубокий анализ: понимание влияния знаковой проблемы с точки зрения оптимизации

Недостатки

  1. Ограниченное теоретическое понимание: отсутствие глубокого анализа механизма успеха 120° преобразования
  2. Высокие вычислительные затраты: по-прежнему требует больше ресурсов по сравнению с квадратной решёткой
  3. Обработка симметрии: нарушение SU(2) может повлиять на точность некоторых наблюдаемых величин
  4. Неизвестная обобщаемость: производительность на других фрустрированных системах требует проверки

Влияние

  1. Вклад в методологию: предоставление важного примера применения NQS в фрустрированных системах
  2. Переносимость техники: стратегия итеративного переобучения применима к другим квантовым многотельным задачам
  3. Эталонная ценность: новые высокоточные численные результаты для TLAHM
  4. Вдохновляющее значение: раскрытие важной роли преобразования базиса в квантовом машинном обучении

Области применения

  1. Двумерные фрустрированные квантовые магниты: особенно подходит для систем с геометрической фрустрацией
  2. Исследования конечномерного масштабирования: явные преимущества масштабируемости RNN
  3. Вычисление свойств основного состояния: энергия, намагниченность и другие наблюдаемые основного состояния
  4. Методологические исследования: использование в качестве тестовой задачи для новых архитектур NQS

Библиография

Данная работа цитирует важные публикации в этой области, включая:

  • Основополагающие работы Андерсона по теории резонирующих валентных связей
  • Эталонные результаты точной диагонализации Bernu и соавторов
  • Исследования методом Монте-Карло функций Грина Capriotti и соавторов
  • Основополагающие работы Carleo-Troyer по нейронным квантовым состояниям
  • Недавние высокоточные результаты DMRG и iPEPS

Общая оценка: Это высококачественная статья по вычислительной физике с важными вкладами как в методологию, так и в приложения. Посредством умелого сочетания преобразования базиса, вариационного отжига и итеративного переобучения авторы успешно решили сложную задачу TLAHM, открыв новые пути применения нейронных квантовых состояний в фрустрированных системах. Несмотря на некоторые недостатки в теоретическом понимании, её практическая ценность и вдохновляющее значение делают её важным прогрессом в данной области.