2025-11-20T01:58:13.620361

Improved contraction of finite projected entangled pair states

Scheb

We present an improved version of the algorithm contracting and optimizing finite projected entangled pair states (fPEPS) in conjunction with projected entangled pair operators (PEPOs). Our work has two components to it. First, we explain in detail the characteristic contraction patterns that occur in fPEPS calculations and how to slice them such that peak memory occupation remains minimal while ensuring efficient parallel computation. Second, we combine controlled bond expansion [A. Gleis, J.-W. Li, and J. von Delft, Phys. Rev. Lett. 130, 246402 (2023)] with randomized singular value decomposition [V. Rokhlin, A. Szlam, and M. Tygert, SIAM J. Matrix Anal. Appl. (2009)] and apply it throughout the fPEPS algorithm. We present benchmark results for the Hubbard model for system sizes up to 8x8 and SU(2) symmetric bond dimension of up to D = 6 for PEPS bonds and $Ï$ = 500 for the environment bonds. Finally, we comment on the state and future of the fPEPS-PEPO framework.

academic

Improved contraction of finite projected entangled pair states

基本信息

论文ID: 2511.01039
标题: Improved contraction of finite projected entangled pair states
作者: Markus Scheb (Ludwig-Maximilians-University Munich)
分类: cond-mat.str-el (强关联电子系统)
发表时间: November 4, 2025
论文链接: https://arxiv.org/abs/2511.01039

摘要

本文提出了一种改进的有限投影纠缠对态(fPEPS)与投影纠缠对算符(PEPO)的收缩和优化算法。工作包含两个核心组成部分：(1)详细解释fPEPS计算中出现的特征收缩模式，以及如何对其进行切片以最小化峰值内存占用并确保高效并行计算；(2)将控制键扩展(CBE)与随机奇异值分解(RSVD)相结合，并应用于整个fPEPS算法。文章针对Hubbard模型展示了高达8×8系统尺寸、SU(2)对称键维度D=6(PEPS键)和χ=500(环境键)的基准测试结果。

研究背景与动机

核心问题

二维量子多体系统的数值模拟是凝聚态物理中的核心挑战。虽然一维系统可以通过密度矩阵重整化群(DMRG)和矩阵乘积态(MPS)高效处理，但二维系统的自然推广——投影纠缠对态(PEPS)面临着严重的计算困难。

问题重要性

基础物理研究：理解高温超导、量子自旋液体等强关联现象需要精确模拟二维量子系统
方法学挑战：PEPS由于其环状结构导致张量收缩成本呈指数增长，期望值无法精确计算，变分优化收敛性差
实用性需求：需要能够处理大尺寸、非均匀、开边界条件的二维量子系统的无偏算法

现有方法局限性

无限PEPS (iPEPS)：仅限于小单元胞，无法处理大尺寸非均匀系统
等距张量网络：虽然易于处理，但限于特殊相态(如弦网液体)
先前的fPEPS实现：环境键维度χ较低(250-350)，导致数值不稳定和收敛性差，能量误差较大

研究动机

作者在前期工作Ref. 31基础上，针对fPEPS算法的两个主要瓶颈进行改进：

内存瓶颈：张量收缩产生的中间结果尺寸达到O(χ²(DwD)²)，远超其他存储张量
计算效率：键优化的2s算法成本过高，需要更高效的1s成本方法

核心贡献

最优收缩序列设计：详细阐述了fPEPS中两种主导收缩模式的最优处理方法，通过量子数映射和切片技术将峰值内存降至最低，同时保证并行计算效率
CBE-RSVD融合框架：首次将控制键扩展(CBE)与随机奇异值分解(RSVD)相结合，应用于环境近似和能量最小化，将计算成本从2s降至1s
更高保真度模拟：将环境键维度从χ=250-350提升至χ=500，在Hubbard模型上实现：
- 4×4晶格：相对能量误差<1%（一个超扫描周期）
- 6×6晶格：误差从6.8%降至4.7%
- 8×8晶格：误差从16%降至11%，运行时间从21天降至8天
实用性验证：展示了1/8填充8×8 Hubbard模型的条纹结构和反铁磁序，验证了算法的物理可靠性

方法详解

任务定义

输入：

二维晶格哈密顿量H（通过PEPO表示，键维度w）
初始PEPS波函数|ψ⟩（键维度D）
环境键维度χ

输出：

优化后的PEPS基态波函数
基态能量E = ⟨ψ|H|ψ⟩

约束：

开边界条件
保持U(1)或SU(2)对称性
控制计算成本和内存占用

核心架构：fPEPS-PEPO框架

1. 能量泛函表示

如图1所示，能量泛函表示为三层夹心结构：

PEPS层：黑色键连接相邻张量，维度D
PEPO层：蓝色键表示哈密顿量，维度w
共轭PEPS层：绿色键连接物理希尔伯特空间，维度d

2. 环境近似

由于环路导致精确计算成本指数增长，采用环境近似：将三条键的束(总维度DwD)逐步压缩到累积键维度χ。实际模拟中χ ≫ D,w,d。

3. 优化方案

局部更新：扫描晶格优化单个张量及相邻键
梯度更新：同时优化所有PEPS张量，保持键基不变
超扫描：交替进行3次局部扫描和100次梯度扫描

技术创新点

创新1：最优收缩序列（第III节）

问题：两种主导收缩模式（图2）直接计算产生O(χ²(DwD)²)的巨大中间结果

解决方案：量子数切片策略

预处理阶段：
- 计算并存储夹心张量C（PEPS-PEPO-PEPS）
- 扫描C，建立量子数映射：{(q_t, q_l)}_i → {(q_b, q_r)}_i
- 为环境张量T,L,B,R建立量子数到稠密块的映射
收缩执行：
- 嵌套循环遍历(i, q_tr, q_bl)
- 计算((T·L)·C)·B（环境近似）或((T·L)·C)·(B·R)（有效哈密顿量作用）
- 不同(i, q_tr, q_bl)的收缩互不重叠，天然并行

优势：

避免生成巨大中间张量
峰值内存最小化
完美并行化，无速度损失

创新2：CBE-RSVD融合（第IV节）

背景：键优化出现在两个阶段：

环境近似（类似MPS压缩）
能量最小化（类似DMRG）

传统CBE问题：

需要收缩和分解整个大簇（图3），成本等同于2s优化
"精明选择"策略虽可降低成本，但仍不够高效

RSVD加速：对于(χDwD)×(χDwD)的低秩矩阵A：

生成(χDwD)×χ̃的高斯随机矩阵Ω（χ̃ ≪ χ）
通过A和A^T反复作用于Ω提取主导子空间
在fPEPS中，单次AΩ操作即足够

环境近似的AΩ操作（图5）：

最昂贵收缩成本：O(χ̃χ²(DwD)²)
关键技巧：将正交投影器分解为单位算符和切向投影器
避免显式计算维度χ̄的张量腿

能量最小化的AΩ操作（图7）：

PEPS张量经过加权迹规范
χ ≫ D允许直接计算PEPS正交投影器
按图2(b)结构收缩Heff|ψ⟩

实测效果：

4×4晶格，SU(2) D=6：从4天150GB（χ=300）降至5天26GB（χ=500）
内存占用降低83%，同时提高保真度

数学细节

完备性关系（图4）： $\mathbb{1} = P_{\text{kept}} + P_{\text{discarded}}$

其中χ和χ̄分别是保留空间和丢弃空间的维度。

CBE目标：在键维度χ下，最大化新环境与旧环境及PEPS-PEPO-PEPS夹心的重叠，输出截断补空间（丢弃空间中最重要的状态）。

实验设置

测试模型：二维Hubbard模型

哈密顿量： $H = -t\sum_{\langle i,j\rangle,\sigma}(c_{i\sigma}^\dagger c_{j\sigma} + \text{h.c.}) + U\sum_i n_{i\uparrow}n_{i\downarrow}$

参数配置

相互作用强度：U = 8
跳跃：仅最近邻
边界条件：开边界
填充：
- 4×4和6×6：半填充（16和36电子）
- 8×8：1/8填充（56电子，诱导条纹结构）

对称性方案

U(1)_spin ⊗ U(1)_charge：D = 4-8
SU(2)_spin ⊗ U(1)_charge：D = 4-6

优化策略

超扫描：3次局部扫描 + 100次梯度扫描
环境键维度：χ = 500（前作为250-400）
基准：DMRG计算（D=4000）的能量E_0
- 4×4：精确基态能量
- 6×6和8×8：能量上界

计算资源

运行时间：数天至两周
内存：26GB-150GB
并行化：利用量子数切片的天然并行性

实验结果

主要结果

1. 4×4晶格（图8）

变分行为：

能量随键维度增加而降低
曲线在超扫描增加时趋于平坦

关键改进（对比Ref. 31图38）：

(SU(2), D=4)：现在介于(U(1), D=6)和(U(1), D=7)之间，而非收敛到(U(1), D=5)
第二超扫描初期陡降：表明首批梯度扫描后，局部扫描优化虚拟基是必要的
(SU(2), D=6)：一个超扫描后突破1%误差（前作两个超扫描仍>1%）

χ影响：

χ=500 vs 250-350：显著改善收敛性
过低的χ不仅导致数值不稳定，还会以难以察觉的方式扭曲收敛

性能：

(SU(2), D=6)：5天，26GB（χ=500，1.5超扫描）
前作：4天，150GB（χ=300，2超扫描）

2. 6×6晶格（图9）

变分行为：由于系统更大，超扫描数更少但仍显示清晰变分特性

数值稳定性：

大键维度模拟提前终止（数值不稳定）
即使有计算改进，更高χ的重新运行仍不可行
(U(1), D=7)末期临时增长：暂时不稳定但随后恢复

突破性进展：

首次完成**(U(1), D=8)**模拟
初期与(U(1), D=7)相近，第二超扫描显著更低

最佳结果：

前作：6.8%（SU(2), D=6）
本文：4.7%，更高保真度（χ=500），运行时间减半

3. 8×8晶格（图10）

挑战：

SU(2)模拟数据点稀少（数值不稳定或运行时间>2周）
与4×4和6×6不同，最低能量来自U(1)模拟

最佳性能：

(U(1), D=8)：一个完整超扫描后达到11%相对误差，8天
前作：16%误差，半个超扫描，21天
改进：误差降低31%，速度提升62%

物理结果分析

U(1)对称性局域密度（图11）

条纹结构（1/8填充）：

振荡电荷密度的经典条纹模式
不可公度反铁磁序
顶部/底部：边缘中心条纹
中部：似乎是格点中心条纹

局限性：算法远未收敛，无法确定这是物理真实还是数值假象

SU(2)对称性局域密度（图12）

S_z分量构造性为零，反铁磁序被抑制
显示总自旋分量
电荷密度呈现类似条纹结构
相比Ref. 31，分布更对称（定性改进）
仍需更多超扫描以获得可靠物理图像

消融实验

虽然论文未明确标注消融实验，但通过对比不同配置隐含验证了各组件贡献：

χ值影响（χ=500 vs 250-350）：
- 4×4：收敛路径显著改变，能量误差改善
- 证明环境键维度是关键参数
对称性方案（U(1) vs SU(2)）：
- 小系统：SU(2)更高效（相同精度更低D）
- 大系统：U(1)更稳定（8×8）
- 揭示对称性与数值稳定性的权衡
局部/梯度扫描比例：
- 第二超扫描初期陡降表明3:100比例可能非最优
- 建议未来工作重新审视此比例

结论与讨论

主要结论

技术突破：
- 量子数切片策略实现内存最优、完美并行的收缩
- CBE-RSVD融合将键优化成本从2s降至1s
- 环境键维度χ从350提升至500
性能提升（相比Ref. 31）：
- 4×4：能量误差<1%，内存降低83%
- 6×6：误差从6.8%降至4.7%，速度翻倍
- 8×8：误差从16%降至11%，速度提升62%
物理验证：
- 成功复现Hubbard模型1/8填充的条纹结构
- 观察到边缘中心与格点中心条纹的共存