2025-11-25T09:01:17.655044

Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice

Moss, Wiersema, Hibat-Allah et al.
Variational Monte Carlo simulations have been crucial for understanding quantum many-body systems, especially when the Hamiltonian is frustrated and the ground-state wavefunction has a non-trivial sign structure. In this paper, we use recurrent neural network (RNN) wavefunction ansätze to study the triangular-lattice antiferromagnetic Heisenberg model (TLAHM) for lattice sizes up to $30\times30$. In a recent study [M. S. Moss et al. arXiv:2502.17144], the authors demonstrated how RNN wavefunctions can be iteratively retrained in order to obtain variational results for multiple lattice sizes with a reasonable amount of compute. That study, which looked at the sign-free, square-lattice antiferromagnetic Heisenberg model, showed favorable scaling properties, allowing accurate finite-size extrapolations to the thermodynamic limit. In contrast, our present results illustrate in detail the relative difficulty in simulating the sign-problematic TLAHM. We find that the accuracy of our simulations can be significantly improved by transforming the Hamiltonian with a judicious choice of basis rotation. We also show that a similar benefit can be achieved by using variational neural annealing, an alternative optimization technique that minimizes a pseudo free energy. Ultimately, we are able to obtain estimates of the ground-state properties of the TLAHM in the thermodynamic limit that are in close agreement with values in the literature, showing that RNN wavefunctions provide a powerful toolbox for performing finite-size scaling studies for frustrated quantum many-body systems.
academic

Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice

基本信息

  • 论文ID: 2505.20406
  • 标题: Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice
  • 作者: M. Schuyler Moss, Roeland Wiersema, Mohamed Hibat-Allah, Juan Carrasquilla, Roger G. Melko
  • 分类: cond-mat.str-el cond-mat.dis-nn quant-ph
  • 发表时间: 2025年10月13日 (arXiv版本v3)
  • 论文链接: https://arxiv.org/abs/2505.20406

摘要

本文使用递归神经网络(RNN)波函数ansätze研究三角晶格反铁磁海森堡模型(TLAHM),系统尺寸达到30×30。与之前研究的无符号问题的方格晶格模型不同,TLAHM存在复杂的符号结构,使得数值模拟更加困难。研究发现通过合理的基变换和变分神经退火技术可以显著提高模拟精度,最终获得的热力学极限基态性质与文献值高度一致,证明了RNN波函数在受阻量子多体系统有限尺寸标度研究中的强大能力。

研究背景与动机

问题的重要性

三角晶格反铁磁海森堡模型(TLAHM)是受阻量子磁学的标准例子之一。虽然现在已知其基态表现出120°磁有序,但由于几何受阻的存在,该系统的数值研究极具挑战性。与方格晶格不同,TLAHM存在符号问题,使得量子蒙特卡罗(QMC)模拟困难。

现有方法的局限性

  1. 精确对角化:仅限于小系统尺寸,有限尺寸效应严重
  2. 传统变分蒙特卡罗:依赖于ansätze的选择,准确性有限
  3. QMC方法:受符号问题困扰,难以获得可控误差

研究动机

神经量子态(NQS)作为高表达力的变分ansätze近年来备受关注,但受阻和非平凡符号结构被认为是NQS优化的潜在障碍。TLAHM因此成为测试NQS性能的重要基准,本文旨在验证RNN波函数在此类困难系统中的有效性。

核心贡献

  1. 首次将迭代重训练的RNN波函数成功应用于TLAHM,实现了高达30×30系统的大规模模拟
  2. 系统研究了基变换对模拟精度的影响,发现120°变换相比Marshall-Peierls符号规则能显著提升结果
  3. 引入变分神经退火(VNA)技术,通过最小化伪自由能有效克服受阻带来的优化困难
  4. 通过有限尺寸标度获得热力学极限性质,基态能量和子晶格磁化强度与文献基准值高度一致
  5. 提供了详细的计算复杂度和运行时间分析,证明了方法的实用性

方法详解

任务定义

研究TLAHM的基态性质: H^=ijSiSj\hat{H} = \sum_{\langle ij \rangle} \vec{S}_i \cdot \vec{S}_j 其中i,j\langle i,j \rangle表示三角晶格上的最近邻相互作用,Si\vec{S}_i为自旋-1/2算符。

模型架构

RNN波函数设计

采用二维递归神经网络构建波函数: p(σ)=p(σ1)p(σ2σ1)p(σNσN1,,σ1)p(|\sigma\rangle) = p(\sigma_1)p(\sigma_2|\sigma_1)\cdots p(\sigma_N|\sigma_{N-1},\ldots,\sigma_1)

关键组件

  1. 门控递归单元(GRU):处理隐藏向量信息传递
  2. 复相位参数化:处理非平凡符号结构 ΨW(σ)=exp[iϕW(σ)]pW(σ)\Psi_W(\sigma) = \exp[i\phi_W(\sigma)]\sqrt{p_W(\sigma)}
  3. 伪周期边界条件:保持因果性的同时模拟周期系统

基变换技术

Marshall-Peierls变换 (UsqU_{sq}): Usq=exp(iπjBsqS^jz)U_{sq} = \exp\left(-i\pi\sum_{j\in B_{sq}}\hat{S}^z_j\right)

120°变换 (UtriU_{tri}): Utri=exp(2πi3[bBtriS^bzcCtriS^cz])U_{tri} = \exp\left(-\frac{2\pi i}{3}\left[\sum_{b\in B_{tri}}\hat{S}^z_b - \sum_{c\in C_{tri}}\hat{S}^z_c\right]\right)

变分神经退火

最小化伪自由能: FW(t)=EWT(t)Sclassical(pW)F_W(t) = E_W - T(t)S_{classical}(p_W) 其中T(t)T(t)为退火温度,SclassicalS_{classical}为Shannon熵。

技术创新点

  1. 权重共享机制:RNN参数数量与系统尺寸无关,支持迭代重训练
  2. 对称性平均:仅对波函数幅值进行C6vC_{6v}群平均,避免相位平均的数值不稳定
  3. 参数化训练计划Nsteps(L,s,r;L0,C,F)=s×[Cexp(r(LL0))+F]N_{steps}(L,s,r;L_0,C,F) = s \times [C\exp(-r(L-L_0)) + F]
  4. 零方差外推:利用系统改进的变分态序列获得更精确的能量估计

实验设置

系统参数

  • 晶格尺寸:L = 6, 12, 18, 24, 30 (周期边界条件)
  • 隐藏向量维度dhd_h = 固定值(保证表达力充足)
  • 对称性:强制U(1)对称性(零磁化),应用C6vC_{6v}点群对称

训练策略

四阶段训练(L=6):

  1. 固定学习率γ=5×104\gamma = 5 \times 10^{-4},温度T0T_0
  2. 变分神经退火:线性降温至0
  3. 学习率衰减:γ(t)=γ0×(1+(t/δ))1\gamma(t) = \gamma_0 \times (1+(t/\delta))^{-1}
  4. 应用对称性,最终优化

迭代重训练:使用小尺寸优化结果初始化大尺寸训练

评价指标

  1. 变分能量EW=ΨWH^ΨW/ΨWΨWE_W = \langle\Psi_W|\hat{H}|\Psi_W\rangle/\langle\Psi_W|\Psi_W\rangle
  2. 能量方差:衡量与本征态的接近程度
  3. V-scoreV=Nvar(E)/(EE)2V = N\text{var}(E)/(E-E_\infty)^2
  4. 子晶格磁化强度:通过动量空间关联函数计算

实验结果

主要结果

基变换效果对比(L=6)

  • 无变换/Marshall-Peierls变换:需要高温退火(T0=1.0T_0 = 1.0)才能获得准确结果
  • 120°变换:对退火温度不敏感,T0=0T_0 = 0时即可获得优异结果
  • 最优能量:-0.5562(2) (接近精确对角化结果-0.5603734)

有限尺寸标度结果

能量标度 (使用E(L)=E+e1/L3E(L) = E_\infty + e_1/L^3):

  • 零方差外推能量:E=0.5517569(9)E_\infty = -0.5517569(9)
  • DMRG基准:EDMRG=0.5503(8)E_\infty^{DMRG} = -0.5503(8)
  • iPEPS基准:EiPEPS=0.55161(6)E_\infty^{iPEPS} = -0.55161(6)

子晶格磁化强度

  • M=0.192(2)M_\infty = 0.192(2) (来自M2M^2外推)
  • M=0.198(2)M_\infty = 0.198(2) (来自MC2M^2_C外推)
  • DMRG基准:MDMRG=0.208(8)M_\infty^{DMRG} = 0.208(8)

计算复杂度分析

  • 单步训练时间O(L4)O(L^4)标度
  • 总运行时间:最长模拟1700 GPU小时(涵盖6个系统尺寸)
  • 参数化训练计划有效控制了大尺寸系统的计算成本

重要发现

  1. SU(2)对称性破缺:RNN学习到的态为Anderson塔态的叠加,而非真正的单重态
  2. 符号结构的重要性:120°变换的成功证明了基选择对学习非平凡符号结构的关键作用
  3. VNA的有效性:在次优基下仍能通过适当退火获得良好结果

相关工作

量子多体系统数值方法

  • DMRG:在圆柱几何下取得重要进展
  • iPEPS:直接参数化热力学极限基态
  • 传统VMC:使用投影波函数等ansätze

神经量子态发展

  • RBM:最早的NQS架构
  • CNN:利用平移不变性
  • Transformer:处理长程关联
  • RNN:本文重点,支持迭代重训练

TLAHM专门研究

历史上对基态性质存在争议,最终通过Green函数蒙特卡罗等方法确认120°反铁磁有序态。

结论与讨论

主要结论

  1. RNN波函数能够成功模拟TLAHM,即使存在受阻和非平凡符号结构
  2. 基变换和VNA是关键技术,显著提升了优化效果
  3. 迭代重训练策略有效,实现了大规模系统的高效模拟
  4. 热力学极限结果与基准一致,验证了方法的可靠性

局限性

  1. 相比方格晶格需要更多计算资源:最小衰减率从0.25降至0.158
  2. V-score较差:表明TLAHM确实是更困难的优化问题
  3. SU(2)对称性未完全保持:可能影响某些物理量的准确性
  4. 仍需Adam优化器:SR等高级优化方法对RNN效果不佳

未来方向

  1. 符号结构的系统研究:理解基变换成功的深层原因
  2. 更高级优化算法:探索适用于RNN的SR变体
  3. 其他受阻系统:扩展到kagome晶格等几何体
  4. 量子相变研究:利用可扩展性研究临界现象

深度评价

优点

  1. 技术创新性强:首次将迭代重训练RNN成功应用于困难的受阻系统
  2. 实验设计完整:系统比较了不同基变换和优化策略的效果
  3. 结果可信度高:通过多种方法验证,与独立基准高度一致
  4. 实用价值大:提供了处理大规模受阻量子系统的有效工具
  5. 分析深入:从优化角度理解了符号问题的影响

不足

  1. 理论理解有限:对120°变换成功的机理缺乏深入分析
  2. 计算成本较高:相比方格晶格仍需更多资源
  3. 对称性处理:SU(2)破缺可能影响某些观测量的精度
  4. 泛化性未知:在其他受阻系统上的表现有待验证

影响力

  1. 方法学贡献:为NQS在受阻系统中的应用提供了重要范例
  2. 技术推广性:迭代重训练策略可应用于其他量子多体问题
  3. 基准价值:为TLAHM提供了新的高精度数值结果
  4. 启发意义:揭示了基变换在量子机器学习中的重要作用

适用场景

  1. 二维受阻量子磁体:特别适合几何受阻系统
  2. 有限尺寸标度研究:RNN的可扩展性优势明显
  3. 基态性质计算:能量、磁化强度等基态观测量
  4. 方法学研究:作为测试新NQS架构的基准问题

参考文献

本文引用了该领域的重要文献,包括:

  • Anderson的共振价键理论开创性工作
  • Bernu等人的精确对角化基准结果
  • Capriotti等人的Green函数蒙特卡罗研究
  • Carleo-Troyer的神经量子态奠基工作
  • 近期的DMRG和iPEPS高精度结果

总体评价:这是一篇高质量的计算物理论文,在方法学和应用两个层面都有重要贡献。通过巧妙结合基变换、变分退火和迭代重训练等技术,成功攻克了TLAHM这一困难问题,为神经量子态在受阻系统中的应用开辟了新途径。尽管存在一些理论理解上的不足,但其实用价值和启发意义使其成为该领域的重要进展。