2025-11-15T10:19:11.421970

Hierarchical Qubit-Merging Transformer for Quantum Error Correction

Park, Kwak, Kim

For reliable large-scale quantum computation, a quantum error correction (QEC) scheme must effectively resolve physical errors to protect logical information. Leveraging recent advances in deep learning, neural network-based decoders have emerged as a promising approach to enhance the reliability of QEC. We propose the Hierarchical Qubit-Merging Transformer (HQMT), a novel and general decoding framework that explicitly leverages the structural graph of stabilizer codes to learn error correlations across multiple scales. Our architecture first computes attention locally on structurally related groups of stabilizers and then systematically merges these qubit-centric representations to build a global view of the error syndrome. The proposed HQMT achieves substantially lower logical error rates for surface codes by integrating a dedicated qubit-merging layer within the transformer architecture. Across various code distances, HQMT significantly outperforms previous neural network-based QEC decoders as well as a powerful belief propagation with ordered statistics decoding (BP+OSD) baseline. This hierarchical approach provides a scalable and effective framework for surface code decoding, advancing the realization of reliable quantum computing.

academic

Hierarchical Qubit-Merging Transformer for Quantum Error Correction

基本信息

论文ID: 2510.11593
标题: Hierarchical Qubit-Merging Transformer for Quantum Error Correction
作者: Seong-Joon Park (POSTECH), Hee-Youl Kwak (University of Ulsan), Yongjune Kim (POSTECH)
分类: quant-ph cs.AI cs.LG
发表时间: 2025年10月14日
论文链接: https://arxiv.org/abs/2510.11593

摘要

为实现可靠的大规模量子计算，量子纠错(QEC)方案必须有效解决物理错误以保护逻辑信息。本文利用深度学习的最新进展，提出了分层量子比特合并变换器(HQMT)，这是一个新颖的通用解码框架，明确利用稳定子码的结构图来学习多尺度的错误相关性。该架构首先在结构相关的稳定子组上局部计算注意力，然后系统性地合并这些以量子比特为中心的表示，构建错误综合征的全局视图。通过在变换器架构中集成专用的量子比特合并层，HQMT在表面码上实现了显著更低的逻辑错误率，在各种码距上都显著优于先前的神经网络QEC解码器以及强大的BP+OSD基线。

研究背景与动机

核心问题

量子计算面临的根本挑战是量子态的脆弱性。与经典比特不同，量子比特容易受到环境噪声和操作不完美的影响，导致比特翻转、相位翻转等错误。量子纠错是实现容错量子计算的关键技术。

问题重要性

量子计算的实用化需求: 大规模量子算法需要长时间保持量子态的相干性
物理限制: 量子不可克隆定理使得传统的冗余纠错方法不适用
解码延迟的关键性: 解码器的响应时间直接影响整个量子系统的时钟速度

现有方法局限性

经典算法: 如MWPM虽然有理论保证，但在复杂错误模式下性能有限
早期神经网络方法: FFNN和CNN未充分利用量子码的结构特性
迭代解码器: BP+OSD等方法的解码时间不可预测，成为系统瓶颈

研究动机

本文旨在设计一个既能利用量子码拓扑结构，又能提供固定解码延迟的神经网络解码器，特别针对表面码的分层错误相关性进行优化。

核心贡献

提出HQMT架构: 首个明确建模表面码拓扑结构的分层变换器解码器
创新的量子比特合并层: 将细粒度的Z/X稳定子表示融合为粗粒度的量子比特级表示
显著的性能提升: 在多个码距上超越现有神经网络方法和BP+OSD基线
可扩展性验证: 证明了随码距增长的性能优势和良好的伪阈值特性

方法详解

任务定义

输入: 错误综合征向量 $s = [s_Z, s_X] \in \{0,1\}^{n-k}$ ，其中 $s_Z$ 和 $s_X$ 分别为Z型和X型综合征输出: 逻辑算子预测 $\hat{L} \in \{\bar{I}, \bar{X}, \bar{Y}, \bar{Z}\}$ 目标: 最小化逻辑错误率(LER)

模型架构

整体设计

HQMT采用两阶段分层架构：

Stage 1: 细粒度处理，分别处理Z型和X型稳定子
Stage 2: 粗粒度处理，处理合并后的量子比特级表示

关键组件

1. 量子比特中心嵌入策略 对每个物理量子比特 $q^{(i)}$ ，构造两个补丁：

Z型补丁： $p_Z^{(i)} = (v_{Z,1}^{(i)}, ..., v_{Z,m}^{(i)})$
X型补丁： $p_X^{(i)} = (v_{X,1}^{(i)}, ..., v_{X,m}^{(i)})$

其中：

1-2s_{Z,j} & \text{if } s_{Z,j} \in N_Z^{(i)} \\ 0 & \text{otherwise} \end{cases}$$ **2. 量子比特合并层** - 将每个量子比特的Z-token和X-token连接成$2d_{model}$维向量 - 通过全连接层投影回$d_{model}$维 - 实现从$2n \times d_{model}$到$n \times d_{model}$的维度转换 **3. 分层变换器处理** - Stage 1: $N$个变换器块处理$X_1 \in \mathbb{R}^{2n \times d_{model}}$ - 量子比特合并层转换 - Stage 2: $N$个变换器块处理$X_2 \in \mathbb{R}^{n \times d_{model}}$ **4. 输出层** 通过均值池化和全连接层生成4维logit，应用softmax得到逻辑算子概率分布。 ### 技术创新点 **1. 拓扑结构感知设计** 明确建模表面码中每个物理量子比特最多连接4个稳定子的拓扑特性。 **2. 分层注意力机制** - 局部注意力：学习相邻稳定子间的细粒度相关性 - 全局注意力：捕获量子比特间的非局部错误模式 **3. 参数共享策略** 两个阶段的变换器块共享参数，提高参数效率。 ## 实验设置 ### 数据集 - **表面码**: 采用旋转表面码$[[n=d^2, k=1, d]]$ - **噪声模型**: 去极化噪声模型 - **码距**: $d = 3, 5, 7, 9, 11$ - **物理错误率范围**: $p \in [0.07, 0.13]$ ### 评价指标 - **逻辑错误率(LER)**: 主要性能指标 - **伪阈值**: LER等于未编码量子比特错误率时的物理错误率 ### 对比方法 - **经典算法**: MWPM, BP+OSD (quaternary, 20 iterations) - **神经网络**: FFNN, CNN - **消融变体**: Stage 1 only, Stage 2 only ### 实现细节 - 模型维度: $d_{model} = 128$ - 变换器层数: $N = 3$ - 损失函数: 交叉熵损失 - 训练策略: 端到端训练 ## 实验结果 ### 主要结果 **性能对比**: - 在所有测试码距上，HQMT均显著优于MWPM、FFNN和CNN - 相比BP+OSD基线，HQMT在$d=5,7,9,11$上都保持明显优势 - 性能差距随码距增长而扩大，显示良好的可扩展性 **伪阈值对比**: | 码距 | MWPM | FFNN | CNN | HQMT | |------|------|------|-----|------| | d=3 | 0.0828 | 0.0977 | 0.0980 | 0.0980 | | d=5 | 0.1036 | 0.1135 | 0.1215 | 0.1300 | | d=7 | 0.1194 | 0.1249 | 0.1326 | 0.1417 | ### 消融实验 **架构组件分析**: - "Stage 1 only": 性能显著下降，证明量子比特合并的必要性 - "Stage 2 only": 无法有效利用局部结构信息 - 完整HQMT: 两阶段协同工作达到最佳性能 **深度影响分析**: - $N=1$到$N=3$: 显著性能提升 - $N=3$到$N=5$: 边际改善，选择$N=3$平衡性能与效率 ### 实验发现 1. **分层设计的有效性**: 两阶段处理对于捕获多尺度错误相关性至关重要 2. **拓扑结构的重要性**: 量子比特中心的嵌入策略显著提升性能 3. **可扩展性优势**: 随码距增长，HQMT相对优势更加明显 ## 相关工作 ### 量子纠错解码器发展 1. **经典算法**: MWPM等基于图论的方法 2. **早期神经网络**: FFNN首次将深度学习引入QEC 3. **卷积方法**: CNN利用表面码的平面性质 4. **变换器应用**: Transformer-QEC等探索注意力机制 ### 本文相对优势 - 首个明确建模量子码拓扑结构的分层变换器 - 创新的量子比特合并机制 - 在多个基线上的一致性优势 ## 结论与讨论 ### 主要结论 1. HQMT通过分层处理有效捕获了表面码的多尺度错误相关性 2. 量子比特合并层是连接局部和全局特征的关键创新 3. 该方法在保持固定解码延迟的同时实现了SOTA性能 ### 局限性 1. **码类型限制**: 主要针对表面码设计，对其他量子码的适用性需验证 2. **噪声模型**: 仅在去极化噪声下测试，实际量子设备的噪声更复杂 3. **计算开销**: 变换器架构的计算复杂度可能限制实时应用 ### 未来方向 1. 扩展到其他量子码族(如LDPC码) 2. 适应更复杂的噪声模型 3. 硬件友好的模型压缩和加速 ## 深度评价 ### 优点 1. **创新性强**: 量子比特合并层设计新颖，有效结合了量子码结构和变换器优势 2. **实验充分**: 多码距、多基线的全面对比，消融实验设计合理 3. **理论基础扎实**: 方法设计紧密结合表面码的拓扑特性 4. **性能显著**: 在所有测试场景下都实现了明显的性能提升 ### 不足 1. **通用性有限**: 设计过度针对表面码，迁移到其他量子码需要重新设计 2. **实际部署考虑不足**: 缺乏硬件实现和实时性能的讨论 3. **理论分析缺失**: 未提供收敛性或泛化能力的理论保证 ### 影响力 1. **学术贡献**: 为量子纠错解码器设计提供了新的架构范式 2. **实用价值**: 固定解码延迟特性对实际量子系统具有重要意义 3. **可复现性**: 方法描述详细，实验设置清晰 ### 适用场景 1. **表面码解码**: 直接适用于基于表面码的容错量子计算系统 2. **实时量子纠错**: 固定延迟特性适合对时序要求严格的应用 3. **大规模量子系统**: 良好的可扩展性适合未来的大型量子处理器 ## 参考文献 本文引用了量子纠错、深度学习和神经网络解码器等领域的重要文献，特别是： - Gottesman (1997): 稳定子码理论基础 - Varsamopoulos et al. (2018): 首个神经网络QEC解码器 - Jung et al. (2024): CNN在表面码解码中的应用 - Google Quantum AI (2023, 2025): 表面码的实验验证 --- **总体评价**: 这是一篇在量子纠错解码领域具有重要贡献的高质量论文。HQMT架构设计巧妙，实验验证充分，为神经网络在量子纠错中的应用开辟了新方向。尽管在通用性方面存在一定局限，但其在表面码解码上的突出性能和固定延迟特性使其具有重要的实用价值。