2025-11-25T09:01:17.655044

Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice

Moss, Wiersema, Hibat-Allah et al.

Variational Monte Carlo simulations have been crucial for understanding quantum many-body systems, especially when the Hamiltonian is frustrated and the ground-state wavefunction has a non-trivial sign structure. In this paper, we use recurrent neural network (RNN) wavefunction ansÃ¤tze to study the triangular-lattice antiferromagnetic Heisenberg model (TLAHM) for lattice sizes up to $30\times30$. In a recent study [M. S. Moss et al. arXiv:2502.17144], the authors demonstrated how RNN wavefunctions can be iteratively retrained in order to obtain variational results for multiple lattice sizes with a reasonable amount of compute. That study, which looked at the sign-free, square-lattice antiferromagnetic Heisenberg model, showed favorable scaling properties, allowing accurate finite-size extrapolations to the thermodynamic limit. In contrast, our present results illustrate in detail the relative difficulty in simulating the sign-problematic TLAHM. We find that the accuracy of our simulations can be significantly improved by transforming the Hamiltonian with a judicious choice of basis rotation. We also show that a similar benefit can be achieved by using variational neural annealing, an alternative optimization technique that minimizes a pseudo free energy. Ultimately, we are able to obtain estimates of the ground-state properties of the TLAHM in the thermodynamic limit that are in close agreement with values in the literature, showing that RNN wavefunctions provide a powerful toolbox for performing finite-size scaling studies for frustrated quantum many-body systems.

academic

삼각 격자 하이젠베르크 반강자성체의 대규모 시뮬레이션을 위한 신경망 파동함수의 재귀성 활용

기본 정보

논문 ID: 2505.20406
제목: Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets on the triangular lattice
저자: M. Schuyler Moss, Roeland Wiersema, Mohamed Hibat-Allah, Juan Carrasquilla, Roger G. Melko
분류: cond-mat.str-el cond-mat.dis-nn quant-ph
발표 시간: 2025년 10월 13일 (arXiv 버전 v3)
논문 링크: https://arxiv.org/abs/2505.20406

초록

본 논문은 재귀 신경망(RNN) 파동함수 ansätze를 사용하여 삼각 격자 반강자성 하이젠베르크 모델(TLAHM)을 30×30 시스템 크기까지 연구한다. 이전에 연구된 정사각 격자 모델의 부호 문제와 달리, TLAHM은 복잡한 부호 구조를 가지고 있어 수치 시뮬레이션이 더욱 어렵다. 적절한 기저 변환과 변분 신경 어닐링 기법을 통해 시뮬레이션 정확도를 크게 향상시킬 수 있으며, 최종적으로 얻은 열역학적 극한 기저 상태 성질이 문헌값과 높은 일치도를 보여, RNN 파동함수가 방해받는 양자 다체 시스템의 유한 크기 스케일링 연구에서 강력한 능력을 가지고 있음을 증명한다.

연구 배경 및 동기

문제의 중요성

삼각 격자 반강자성 하이젠베르크 모델(TLAHM)은 방해받는 양자 자성학의 표준 사례 중 하나이다. 기저 상태가 120° 자기 질서를 나타낸다는 것이 현재 알려져 있지만, 기하학적 방해의 존재로 인해 이 시스템의 수치 연구는 극도로 도전적이다. 정사각 격자와 달리 TLAHM은 부호 문제를 가지고 있어 양자 몬테카를로(QMC) 시뮬레이션이 어렵다.

기존 방법의 한계

정확한 대각화: 작은 시스템 크기에만 제한되며 유한 크기 효과가 심각함
전통적 변분 몬테카를로: ansätze 선택에 의존하며 정확성이 제한됨
QMC 방법: 부호 문제로 인해 어려움을 겪으며 제어 가능한 오차를 얻기 어려움

연구 동기

신경 양자 상태(NQS)는 높은 표현력을 가진 변분 ansätze로 최근 주목받고 있지만, 방해와 비자명한 부호 구조는 NQS 최적화의 잠재적 장애물로 간주된다. 따라서 TLAHM은 NQS 성능을 테스트하는 중요한 벤치마크가 되며, 본 논문은 RNN 파동함수가 이러한 어려운 시스템에서 유효한지 검증하는 것을 목표로 한다.

핵심 기여

반복적 재훈련 RNN 파동함수를 TLAHM에 처음으로 성공적으로 적용, 30×30 시스템까지의 대규모 시뮬레이션 실현
기저 변환이 시뮬레이션 정확도에 미치는 영향을 체계적으로 연구, 120° 변환이 Marshall-Peierls 부호 규칙 대비 결과를 크게 향상시킴을 발견
변분 신경 어닐링(VNA) 기법 도입, 의사 자유 에너지 최소화를 통해 방해로 인한 최적화 어려움을 효과적으로 극복
유한 크기 스케일링을 통해 열역학적 극한 성질 획득, 기저 상태 에너지와 부분 격자 자화 강도가 문헌 기준값과 높은 일치도를 보임
상세한 계산 복잡도 및 실행 시간 분석 제공, 방법의 실용성 입증

방법론 상세 설명

작업 정의

TLAHM의 기저 상태 성질 연구: $\hat{H} = \sum_{\langle ij \rangle} \vec{S}_i \cdot \vec{S}_j$ 여기서 $\langle i,j \rangle$ 는 삼각 격자 위의 최근접 상호작용을 나타내고, $\vec{S}_i$ 는 스핀-1/2 연산자이다.

모델 아키텍처

RNN 파동함수 설계

2차원 재귀 신경망을 사용하여 파동함수 구성: $p(|\sigma\rangle) = p(\sigma_1)p(\sigma_2|\sigma_1)\cdots p(\sigma_N|\sigma_{N-1},\ldots,\sigma_1)$

핵심 구성 요소:

게이트 재귀 단위(GRU): 숨겨진 벡터 정보 전달 처리
복소 위상 매개변수화: 비자명한 부호 구조 처리 $\Psi_W(\sigma) = \exp[i\phi_W(\sigma)]\sqrt{p_W(\sigma)}$
의사 주기 경계 조건: 인과성을 유지하면서 주기 시스템 모의

기저 변환 기법

Marshall-Peierls 변환 ( $U_{sq}$ ): $U_{sq} = \exp\left(-i\pi\sum_{j\in B_{sq}}\hat{S}^z_j\right)$

120° 변환 ( $U_{tri}$ ): $U_{tri} = \exp\left(-\frac{2\pi i}{3}\left[\sum_{b\in B_{tri}}\hat{S}^z_b - \sum_{c\in C_{tri}}\hat{S}^z_c\right]\right)$

변분 신경 어닐링

의사 자유 에너지 최소화: $F_W(t) = E_W - T(t)S_{classical}(p_W)$ 여기서 $T(t)$ 는 어닐링 온도, $S_{classical}$ 은 섀넌 엔트로피이다.

기술 혁신점

가중치 공유 메커니즘: RNN 매개변수 수가 시스템 크기와 무관하여 반복적 재훈련 지원
대칭성 평균화: 파동함수 진폭에만 $C_{6v}$ 군 평균을 적용하여 위상 평균의 수치적 불안정성 회피
매개변수화된 훈련 계획: $N_{steps}(L,s,r;L_0,C,F) = s \times [C\exp(-r(L-L_0)) + F]$
영 분산 외삽: 시스템적으로 개선된 변분 상태 수열을 활용하여 더 정확한 에너지 추정 획득

실험 설정

시스템 매개변수

격자 크기: L = 6, 12, 18, 24, 30 (주기 경계 조건)
숨겨진 벡터 차원: $d_h$ = 고정값 (충분한 표현력 보장)
대칭성: U(1) 대칭성 강제 (영 자화), $C_{6v}$ 점군 대칭 적용

훈련 전략

4단계 훈련 (L=6):

고정 학습률 $\gamma = 5 \times 10^{-4}$ , 온도 $T_0$
변분 신경 어닐링: 선형 냉각을 0까지
학습률 감쇠: $\gamma(t) = \gamma_0 \times (1+(t/\delta))^{-1}$
대칭성 적용, 최종 최적화

반복적 재훈련: 작은 크기 최적화 결과를 사용하여 큰 크기 훈련 초기화

평가 지표

변분 에너지: $E_W = \langle\Psi_W|\hat{H}|\Psi_W\rangle/\langle\Psi_W|\Psi_W\rangle$
에너지 분산: 고유 상태와의 근접도 측정
V-score: $V = N\text{var}(E)/(E-E_\infty)^2$
부분 격자 자화 강도: 동량 공간 상관 함수를 통해 계산

실험 결과

주요 결과

기저 변환 효과 비교 (L=6)

변환 없음/Marshall-Peierls 변환: 정확한 결과를 위해 고온 어닐링( $T_0 = 1.0$ ) 필요
120° 변환: 어닐링 온도에 둔감하며, $T_0 = 0$ 일 때도 우수한 결과 획득
최적 에너지: -0.5562(2) (정확한 대각화 결과 -0.5603734에 근접)

유한 크기 스케일링 결과

에너지 스케일링 ( $E(L) = E_\infty + e_1/L^3$ 사용):

영 분산 외삽 에너지: $E_\infty = -0.5517569(9)$
DMRG 기준: $E_\infty^{DMRG} = -0.5503(8)$
iPEPS 기준: $E_\infty^{iPEPS} = -0.55161(6)$

부분 격자 자화 강도:

$M_\infty = 0.192(2)$ ( $M^2$ 외삽으로부터)
$M_\infty = 0.198(2)$ ( $M^2_C$ 외삽으로부터)
DMRG 기준: $M_\infty^{DMRG} = 0.208(8)$

계산 복잡도 분석

단일 단계 훈련 시간: $O(L^4)$ 스케일링
총 실행 시간: 최대 1700 GPU 시간 (6개 시스템 크기 포함)
매개변수화된 훈련 계획이 대규모 시스템의 계산 비용을 효과적으로 제어

중요 발견

SU(2) 대칭성 깨짐: RNN이 학습한 상태는 Anderson 탑 상태의 중첩이며, 진정한 단중항이 아님
부호 구조의 중요성: 120° 변환의 성공은 비자명한 부호 구조 학습에서 기저 선택의 핵심 역할을 증명
VNA의 유효성: 차선의 기저에서도 적절한 어닐링을 통해 양호한 결과 획득 가능

결론 및 논의

주요 결론

RNN 파동함수가 TLAHM을 성공적으로 모의할 수 있음, 방해와 비자명한 부호 구조가 존재해도 가능
기저 변환과 VNA가 핵심 기법, 최적화 효과를 크게 향상시킴
반복적 재훈련 전략이 효과적, 대규모 시스템의 효율적 시뮬레이션 실현
열역학적 극한 결과가 기준과 일치, 방법의 신뢰성 검증

한계

정사각 격자 대비 더 많은 계산 자원 필요: 최소 감쇠율이 0.25에서 0.158로 감소
V-score 불량: TLAHM이 실제로 더 어려운 최적화 문제임을 나타냄
SU(2) 대칭성 완전히 보존되지 않음: 특정 물리량의 정확성에 영향 가능
여전히 Adam 최적화기 필요: SR 등 고급 최적화 방법이 RNN에 효과적이지 않음

향후 방향

부호 구조의 체계적 연구: 기저 변환 성공의 심층 원인 이해
더 고급 최적화 알고리즘: RNN에 적용 가능한 SR 변형 탐색
다른 방해 시스템: kagome 격자 등 기하학적 구조로 확장
양자 상 전이 연구: 확장성을 활용한 임계 현상 연구

심층 평가

장점

기술 혁신성 강함: 반복적 재훈련 RNN을 처음으로 어려운 방해 시스템에 성공적으로 적용
실험 설계 완전함: 서로 다른 기저 변환과 최적화 전략의 효과를 체계적으로 비교
결과 신뢰도 높음: 다양한 방법으로 검증되며 독립적 기준과 높은 일치도
실용 가치 큼: 대규모 방해 양자 시스템 처리를 위한 효과적 도구 제공
분석 심도 있음: 최적화 관점에서 부호 문제의 영향 이해

부족한 점

이론적 이해 제한적: 120° 변환 성공의 메커니즘에 대한 심층 분석 부족
계산 비용 높음: 정사각 격자 대비 여전히 더 많은 자원 필요
대칭성 처리: SU(2) 깨짐이 특정 관측량의 정확성에 영향 가능
일반화 가능성 미지수: 다른 방해 시스템에서의 성능 미검증

영향력

방법론적 기여: NQS의 방해 시스템 적용에 중요한 사례 제공
기술 확산성: 반복적 재훈련 전략을 다른 양자 다체 문제에 적용 가능
벤치마크 가치: TLAHM에 대한 새로운 고정밀 수치 결과 제공
영감 제공: 양자 기계학습에서 기저 변환의 중요성 드러냄

적용 분야

2차원 방해 양자 자성체: 특히 기하학적 방해 시스템에 적합
유한 크기 스케일링 연구: RNN의 확장성 장점 명확
기저 상태 성질 계산: 에너지, 자화 강도 등 기저 상태 관측량
방법론 연구: 새로운 NQS 아키텍처 테스트를 위한 벤치마크 문제

참고문헌

본 논문은 해당 분야의 중요 문헌을 인용하고 있으며, 다음을 포함한다:

Anderson의 공명 가치 결합 이론 개척 연구
Bernu 등의 정확한 대각화 기준 결과
Capriotti 등의 Green 함수 몬테카를로 연구
Carleo-Troyer의 신경 양자 상태 기초 연구
최근의 DMRG 및 iPEPS 고정밀 결과

종합 평가: 이는 방법론과 응용 두 측면 모두에서 중요한 기여를 하는 고품질의 계산 물리학 논문이다. 기저 변환, 변분 어닐링, 반복적 재훈련 등의 기법을 교묘하게 결합하여 TLAHM이라는 어려운 문제를 성공적으로 해결함으로써, 방해 시스템에서 신경 양자 상태의 적용을 위한 새로운 길을 개척했다. 이론적 이해에서 일부 부족함이 있지만, 그 실용적 가치와 영감 제공 의미로 인해 이 분야의 중요한 진전이 된다.