2025-11-18T04:37:13.643074

Efficient Emulation of Neutral Atom Quantum Hardware

Bidzhiev, Grava, Henaff et al.

Simulating the dynamics of neutral atom arrays is a challenging problem. To address this, we introduce two emulators, emu-sv and emu-mps, as computational backends for Pasqal's pulser package. Emu-sv is designed for high-precision state-vector simulations, giving the possibility to emulate systems of up to $\thicksim 27$ qubits on an A100 40GB GPU, making it perfect for cases where numerically exact results are needed. In contrast, emu-mps uses a Matrix Product State representation and other controlled approximations to efficiently simulate much larger arrays of atoms with manageable errors. We show through benchmark comparisons that both emulators provide significant speed-ups over generic solvers such as QuTiP. In addition, we provide practical guidance on choosing between the two emulators. These quantum software tools are designed to support researchers and developers aiming to simulate quantum systems either as a precursor to full hardware implementation or as a means of benchmarking hardware performance.

academic

Efficient Emulation of Neutral Atom Quantum Hardware

基本信息

论文ID: 2510.09813
标题: Efficient Emulation of Neutral Atom Quantum Hardware
作者: Kemal Bidzhiev, Stefano Grava, Pablo le Henaff, Mauro Mendizabal, Elie Merhej, Anton Quelle (PASQAL)
分类: quant-ph (量子物理)
发表时间: October 14, 2025
论文链接: https://arxiv.org/abs/2510.09813

摘要

模拟中性原子阵列的动力学是一个具有挑战性的问题。为了解决这个问题，作者引入了两个模拟器——emu-sv和emu-mps，作为Pasqal的pulser包的计算后端。Emu-sv专为高精度状态向量模拟而设计，可以在A100 40GB GPU上模拟多达27个量子比特的系统，非常适合需要数值精确结果的情况。相比之下，emu-mps使用矩阵乘积态(MPS)表示和其他受控近似来高效模拟更大的原子阵列，同时保持可管理的误差。通过基准比较表明，两个模拟器都比QuTiP等通用求解器提供了显著的加速。此外，作者还提供了在两个模拟器之间进行选择的实用指导。

研究背景与动机

问题定义

核心挑战：模拟中性原子阵列的量子动力学是一个计算密集型问题，随着系统规模的增长呈指数级复杂度
现有局限性：Pulser软件包依赖QuTiP进行经典模拟，但QuTiP求解器无法有效扩展到中性原子处理器相关的更大系统规模
实际需求：需要能够忠实再现QuTiP后端特性的模拟器，同时提高性能和可扩展性

研究重要性

中性原子量子处理器因其灵活的量子比特连接性、可扩展性和长相干时间而备受关注
能够实现具有动态可重构几何结构和可控相互作用的大型量子比特阵列
既适用于量子模拟，也适用于通用量子计算

技术背景

研究基于时间相关的薛定谔方程： $i\frac{d|\psi\rangle}{dt} = \hat{H}(t)|\psi\rangle$

其中哈密顿量为： $\hat{H}(t) = \sum_{i=1}^N \frac{\Omega_i(t)}{2}\hat{\sigma}^x_i - \sum_{i=1}^N \delta_i(t)\hat{n}_i + \sum_{i>j} \frac{C}{|r_{ij}|^6}\hat{n}_i\hat{n}_j$

核心贡献

开发了两个高性能量子模拟器：
- emu-sv：基于状态向量的精确模拟器，支持最多27个量子比特
- emu-mps：基于矩阵乘积态的近似模拟器，可处理更大规模系统
实现了显著的性能提升：相比QuTiP等通用求解器提供了大幅加速
提供了完整的软件生态系统集成：
- 与Pulser包完全兼容
- 支持PyTorch机器学习工作流
- 实现了统一的API接口
建立了实用的选择指南：为不同应用场景提供了模拟器选择的经验法则

方法详解

任务定义

输入：

N个量子比特的中性原子系统
时间相关的控制参数Ωᵢ(t)（拉比频率）和δᵢ(t)（失谐）
初始量子态|ψ(0)⟩

输出：

时间演化后的量子态|ψ(t)⟩
可观测量的期望值

约束条件：

内存限制（GPU/CPU）
精度要求
计算时间限制

模型架构

Emu-sv架构

状态表示：使用完整的状态向量表示，维度为2^N
哈密顿量存储：利用Rydberg哈密顿量的结构特性，只存储对角元素和Ωᵢ值
时间演化算法：
- 使用分段常数近似：|ψ(tₖ₊₁)⟩ = e^(-iHₖdt)|ψ(tₖ)⟩
- 采用Lanczos算法计算矩阵指数
- 形式上为二阶积分器

Emu-mps架构

MPS表示：将量子态表示为矩阵乘积态 $c_{i_1...i_N} = A^{i_1}_{j_1} A^{i_2}_{j_1,j_2} \ldots A^{i_N}_{j_N}$
时间演化算法：
- 使用时间相关变分原理(TDVP)
- 二阶双位点TDVP方案
- 通过Monte Carlo量子跳跃处理噪声模型
内存优化：通过键维数控制内存使用，对低纠缠态实现指数级内存节省

技术创新点

结构化哈密顿量存储：
- 利用σˣᵢ项只产生非对角元素的特性
- 通过子向量交换实现矩阵-向量乘法
- 相比COO和CSR格式节省内存
自适应积分阶数：
- Lanczos算法通过构建Krylov子空间实现自适应阶数
- 避免了ZVODE等方法的固定上限限制
- 对大型系统的宽哈密顿量谱表现更佳
智能量子比特排序：
- 使用Cuthill-McKee算法优化MPS中的量子比特顺序
- 减少二维系统中的TDVP算法误差
- 降低所需的键维数

实验设置

硬件环境

GPU：NVIDIA A100 40GB DRAM
CPU：AMD EPYC 7742，最多1TB RAM
软件版本：
- Pulser 1.5 (基于QuTiP 5.2, NumPy 2.2, SciPy 1.15)
- 模拟器版本2.3 (基于PyTorch 2.8)

评价指标

运行时间：不同系统规模下的计算时间
内存消耗：峰值内存使用量
精度：与QuTiP参考解的波函数范数差异
可扩展性：最大可处理的量子比特数

对比方法

Pulser默认后端：基于QuTiP的ZVODE ODE求解器
不同配置：不同时间步长dt和精度参数的比较

运行时间比较：
- 从9个量子比特开始，emu-sv显著优于Pulser
- 指数缩放出现较晚，但最终受限于内存
- GPU加速在大系统上效果显著
内存消耗：
- 26个量子比特约需1GB内存存储状态向量
- 假设15个Krylov向量，26个量子比特总内存消耗低于20GB
精度分析：
- 主要误差来源于时间离散化方案
- dt=5ns时，典型误差约10⁻⁵
- 精度参数p主要影响Lanczos收敛，而非总体误差

Emu-mps性能

内存预测：
- 可预先估算给定量子比特数N和最大键维数χ的内存需求
- 40GB GPU可处理的系统规模取决于键维数
运行时间估算：
- 单时间步耗时依赖于N和χ
- Lanczos迭代次数对参数范围依赖性较弱
精度控制：
- 默认截断精度p=10⁻⁵
- 总误差界限：p × m × (2N-3)，其中m为时间步数
- 实际误差通常小于理论界限

选择指南

基于GPU基准测试的经验法则：

≤27个量子比特：推荐使用emu-sv
>27个量子比特：推荐使用emu-mps

应用案例

动力学结构因子计算：emu-mps成功应用于超过20个量子比特的系统
量子图优化：两个模拟器都应用于量子图优化相关问题

结论与讨论

主要结论

性能提升显著：两个模拟器都比QuTiP提供了大幅性能改进
互补性设计：emu-sv适合精确小规模计算，emu-mps适合大规模近似计算
易用性：统一的API设计使得在不同模拟器间切换变得简单

局限性

emu-sv内存限制：受限于状态向量的指数增长，最多约27个量子比特
emu-mps精度控制：需要正确配置截断参数，二维系统中的排序问题
积分阶数：当前使用二阶积分器，未采用更高阶方法如Richardson外推

未来方向

可微分性：emu-sv已支持可微分计算，计划为emu-mps添加此功能
基态跟踪：实现DMRG算法以跟踪时间演化中的基态
噪声模型扩展：根据硬件团队的分析添加新的噪声源
机器学习集成：基于PyTorch的机器学习工作流支持

深度评价

优点

实用价值高：直接解决了中性原子量子计算领域的实际需求
技术实现优秀：
- 充分利用了Rydberg哈密顿量的结构特性
- Lanczos算法的自适应特性处理大规模系统效果好
- MPS方法对低纠缠态的内存优化显著
软件工程质量：
- 与现有生态系统集成良好
- 统一的API设计便于使用
- 提供了实用的选择指南
基准测试充分：包含了运行时间、内存、精度等多维度的详细比较

不足

理论分析有限：
- 缺乏对算法复杂度的理论分析
- TDVP算法误差的理论界限分析不够深入
应用场景相对局限：
- 主要针对中性原子系统
- 对其他量子硬件平台的适用性未充分探讨
高阶方法缺失：
- 未实现Richardson外推等高阶积分方法
- 可能在某些高精度需求场景下表现不足

影响力

领域贡献：为中性原子量子计算提供了重要的模拟工具
实用价值：已在多个研究项目中得到应用验证
开源贡献：作为Pulser生态系统的一部分，促进了领域发展

适用场景

量子算法开发：在硬件实现前进行算法验证
硬件基准测试：评估量子硬件性能
量子物理研究：研究多体量子系统的动力学行为
教育培训：量子计算教学和研究训练

参考文献

论文引用了51篇相关文献，涵盖了量子计算硬件、数值算法、张量网络方法等多个领域的重要工作，为研究提供了坚实的理论基础。

总体评价：这是一篇高质量的应用型研究论文，解决了中性原子量子计算领域的实际需求，技术实现扎实，实验验证充分，具有很强的实用价值和推广意义。

Efficient Emulation of Neutral Atom Quantum Hardware

Efficient Emulation of Neutral Atom Quantum Hardware

基本信息

摘要

研究背景与动机

问题定义

研究重要性

技术背景

核心贡献

方法详解

任务定义

模型架构

Emu-sv架构

Emu-mps架构

技术创新点

实验设置

硬件环境

评价指标

对比方法

实验结果

主要性能结果

Emu-sv性能

Emu-mps性能

选择指南

应用案例

相关工作

量子模拟软件

张量网络方法

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献