2025-11-16T09:34:12.542193

AMARETTO: Enabling Efficient Quantum Algorithm Emulation on Low-Tier FPGAs

Conti, Volpe, Graziano et al.

Researchers and industries are increasingly drawn to quantum computing for its computational potential. However, validating new quantum algorithms is challenging due to the limitations of current quantum devices. Software simulators are time and memory-consuming, making hardware emulators an attractive alternative. This article introduces AMARETTO (quAntuM ARchitecture EmulaTion TechnOlogy), designed for quantum computing emulation on low-tier Field-Programmable gate arrays (FPGAs), supporting Clifford+T and rotational gate sets. It simplifies and accelerates the verification of quantum algorithms using a Reduced-Instruction-Set-Computer (RISC)-like structure and efficient handling of sparse quantum gates. A dedicated compiler translates OpenQASM 2.0 into RISC-like instructions. AMARETTO is validated against the Qiskit simulators. Our results show successful emulation of sixteen qubits on a AMD Kria KV260 SoM. This approach rivals other works in emulated qubit capacity on a smaller, more affordable FPGA

academic

AMARETTO: Enabling Efficient Quantum Algorithm Emulation on Low-Tier FPGAs

基本信息

论文ID: 2411.09320
标题: AMARETTO: Enabling Efficient Quantum Algorithm Emulation on Low-Tier FPGAs
作者: Christian Conti, Deborah Volpe, Mariagrazia Graziano, Maurizio Zamboni, Giovanna Turvani (Politecnico di Torino Italy)
分类: quant-ph cs.SY eess.SY
发表时间: 2024年11月14日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2411.09320

摘要

研究人员和工业界对量子计算的计算潜力越来越感兴趣。然而，由于当前量子设备的限制，验证新的量子算法具有挑战性。软件模拟器耗时且内存消耗大，使得硬件仿真器成为有吸引力的替代方案。本文介绍了AMARETTO (quAntuM ARchitecture EmulaTion TechnOlogy)，专为低端现场可编程门阵列(FPGA)上的量子计算仿真而设计，支持Clifford+T和旋转门集。它使用类RISC结构和稀疏量子门的高效处理来简化和加速量子算法的验证。专用编译器将OpenQASM 2.0转换为类RISC指令。AMARETTO针对Qiskit模拟器进行了验证。结果显示在AMD Kria KV260 SoM上成功仿真了16个量子比特。这种方法在更小、更经济的FPGA上实现了与其他工作相当的量子比特容量。

研究背景与动机

问题定义

量子算法验证困难：当前量子设备存在噪声、保真度低等问题，难以可靠验证新的量子算法
软件模拟器局限性：经典软件模拟器面临执行时间长、内存需求高的问题，限制了可扩展性
硬件访问受限：量子硬件的生产、管理和维护被大公司垄断，通常通过收费的云平台提供访问

研究重要性

量子计算在数据密集型应用中具有巨大潜力，但算法开发和验证需要可靠的仿真平台。FPGA硬件仿真器能够更准确地复制量子计算的并行特性，有望超越软件仿真器的性能。

现有方法局限性

计算复杂度：n量子比特系统需要2^n×2^n矩阵和2^n状态向量的乘积运算
内存需求：状态向量存储需求随量子比特数指数增长
可扩展性差：现有FPGA方案要么支持的量子比特数有限，要么需要昂贵的高端FPGA

核心贡献

提出AMARETTO架构：一个专为低端FPGA设计的高效量子仿真器，采用类RISC结构
蝶形选择机制：利用量子门矩阵的稀疏性，只计算必要的概率幅度耦合，避免冗余操作
通用门集支持：支持Clifford+T和旋转门集，能够执行任何类型的量子电路
优化的数值表示：采用20位定点数表示(2位整数，18位小数)，平衡精度和资源消耗
完整的仿真环境：包含编译器将OpenQASM 2.0转换为类RISC指令，用户友好的接口

方法详解

任务定义

输入：OpenQASM 2.0格式的量子电路描述输出：最终状态向量的概率幅度约束：在低端FPGA资源限制下实现高效仿真

模型架构

AMARETTO采用类RISC架构，包含以下核心组件：

量子状态寄存器文件(QSRF)：
- 存储状态向量的实部和虚部
- 大小为2^N个元素(N为量子比特数)
- 使用BRAM块的pumping技术，双倍频率操作实现每周期读写两个概率幅度
量子状态选择器(QSS)：
- 实现蝶形选择机制
- 识别需要交互的概率幅度对
- 利用量子门矩阵稀疏性避免不必要计算
量子算术单元(QAU)：
- 包含四个计算单元(每个概率幅度的实部和虚部各一个)
- 每个单元含两个乘法器和一个加法器
- 支持流水线操作
三角函数单元(TU)：
- 基于查找表(LUT)和泰勒级数
- 计算正弦和余弦值
- 相比CORDIC算法需要更少处理单元
量子仿真控制单元(QECU)：
- 协调所有模块的同步操作
- 管理指令执行流程

指令集架构

AMARETTO定义了三种指令类型：

s-type：设置电路中的量子比特数
g-type：执行量子门操作，包含操作码、目标和控制量子比特、立即数字段
r-type：读取状态向量

指令长度为32位：5位操作码 + 8位量子比特标识 + 19位立即数

技术创新点

统一门操作表示：所有支持的门都可表示为统一形式：

c_i^out = α sin(θ) + β cos(θ) + i(γ sin(θ) + δ cos(θ))
c_j^out = ε sin(θ) + ζ cos(θ) + i(η sin(θ) + ι cos(θ))

五级流水线：
- 利用指令级并行性
- 当耦合数≥流水线级数时达到最大效率
- 最小量子比特数要求：N_q ≥ ⌈log₂(N_pipe) + 2⌉
固定点数值表示：
- 20位固定点(2位整数 + 18位小数)
- 最近偶数近似机制
- 相比浮点减少面积和复杂度

实验设置

目标平台

FPGA: AMD Kria KV260 SoM
开发工具: Vivado 2023.1
数值精度: 20位固定点表示

验证方法

测试电路: 约50个OpenQASM 2.0量子电路
对比基准: Qiskit状态向量模拟器
评价指标: 大圆距离(GCD)，考虑极坐标形式的状态向量元素
可接受阈值: GCD < 0.05

性能对比平台

软件仿真: Intel Xeon Gold 6134 CPU @ 3.20 GHz，103 GB内存
对比模拟器: Qiskit的QASM模拟器和状态向量模拟器

实验结果

资源利用率

在AMD Kria KV260上成功实现16量子比特仿真：

BRAM: 2.62 MB (100%利用率，成为瓶颈)
逻辑资源: 7751/117120 CLB
DSP: 11/1248
时钟频率: 100 MHz

性能对比

架构	AMARETTO	2	3	4	5	6
量子比特数	16	2	4	32	16	9
FPGA	AMD Kria KV260	Intel Cyclone V	Intel Arria 10	Intel Arria 10	Intel APEX 20KE1500	Intel Stratix
精度	20位定点	10位定点	32位浮点	64位浮点	-	18位定点
时钟频率	100MHz	-	233MHz	233MHz	60MHz	-