2025-11-15T10:19:11.421970

Hierarchical Qubit-Merging Transformer for Quantum Error Correction

Park, Kwak, Kim

For reliable large-scale quantum computation, a quantum error correction (QEC) scheme must effectively resolve physical errors to protect logical information. Leveraging recent advances in deep learning, neural network-based decoders have emerged as a promising approach to enhance the reliability of QEC. We propose the Hierarchical Qubit-Merging Transformer (HQMT), a novel and general decoding framework that explicitly leverages the structural graph of stabilizer codes to learn error correlations across multiple scales. Our architecture first computes attention locally on structurally related groups of stabilizers and then systematically merges these qubit-centric representations to build a global view of the error syndrome. The proposed HQMT achieves substantially lower logical error rates for surface codes by integrating a dedicated qubit-merging layer within the transformer architecture. Across various code distances, HQMT significantly outperforms previous neural network-based QEC decoders as well as a powerful belief propagation with ordered statistics decoding (BP+OSD) baseline. This hierarchical approach provides a scalable and effective framework for surface code decoding, advancing the realization of reliable quantum computing.

academic

Иерархический трансформатор слияния кубитов для квантовой коррекции ошибок

Основная информация

ID статьи: 2510.11593
Название: Hierarchical Qubit-Merging Transformer for Quantum Error Correction
Авторы: Seong-Joon Park (POSTECH), Hee-Youl Kwak (University of Ulsan), Yongjune Kim (POSTECH)
Классификация: quant-ph cs.AI cs.LG
Дата публикации: 14 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.11593

Аннотация

Для реализации надежных крупномасштабных квантовых вычислений схемы квантовой коррекции ошибок (QEC) должны эффективно устранять физические ошибки для защиты логической информации. В данной работе, используя последние достижения глубокого обучения, предлагается иерархический трансформатор слияния кубитов (HQMT) — новая универсальная структура декодирования, которая явно использует структурный граф стабилизаторных кодов для изучения многомасштабных корреляций ошибок. Архитектура сначала локально вычисляет внимание на структурно связанных группах стабилизаторов, а затем систематически объединяет эти центрированные на кубитах представления для построения глобального представления синдрома ошибок. Интегрируя специализированные слои слияния кубитов в архитектуру трансформатора, HQMT достигает значительно более низкой логической частоты ошибок на поверхностных кодах, значительно превосходя предыдущие нейросетевые декодеры QEC и мощный базовый уровень BP+OSD на различных расстояниях кода.

Исследовательский контекст и мотивация

Основная проблема

Фундаментальная проблема квантовых вычислений заключается в хрупкости квантовых состояний. В отличие от классических битов, кубиты подвержены воздействию шума окружающей среды и несовершенству операций, что приводит к ошибкам типа переворота бита и переворота фазы. Квантовая коррекция ошибок является ключевой технологией для реализации отказоустойчивых квантовых вычислений.

Важность проблемы

Потребность в практическом применении квантовых вычислений: Крупномасштабные квантовые алгоритмы требуют длительного сохранения когерентности квантовых состояний
Физические ограничения: Теорема о запрете клонирования квантовых состояний делает традиционные методы избыточной коррекции ошибок неприменимыми
Критичность задержки декодирования: Время отклика декодера напрямую влияет на тактовую частоту всей квантовой системы

Ограничения существующих методов

Классические алгоритмы: Такие как MWPM, хотя и имеют теоретические гарантии, показывают ограниченную производительность при сложных паттернах ошибок
Ранние нейросетевые методы: FFNN и CNN недостаточно используют структурные особенности квантовых кодов
Итеративные декодеры: Методы типа BP+OSD имеют непредсказуемое время декодирования, что становится узким местом системы

Исследовательская мотивация

Данная работа направлена на разработку нейросетевого декодера, который одновременно использует топологическую структуру квантовых кодов и обеспечивает фиксированную задержку декодирования, особенно оптимизированного для иерархических корреляций ошибок поверхностных кодов.

Основные вклады

Предложение архитектуры HQMT: Первый иерархический трансформаторный декодер, явно моделирующий топологическую структуру поверхностного кода
Инновационный слой слияния кубитов: Объединение мелкозернистых представлений Z/X стабилизаторов в крупнозернистые представления на уровне кубитов
Значительное повышение производительности: Превосходство над существующими нейросетевыми методами и базовым уровнем BP+OSD на нескольких расстояниях кода
Проверка масштабируемости: Демонстрация преимуществ производительности с увеличением расстояния кода и хороших свойств псевдопорога

Подробное описание методики

Определение задачи

Входные данные: Вектор синдрома ошибок $s = [s_Z, s_X] \in \{0,1\}^{n-k}$ , где $s_Z$ и $s_X$ — синдромы типа Z и X соответственно Выходные данные: Предсказание логического оператора $\hat{L} \in \{\bar{I}, \bar{X}, \bar{Y}, \bar{Z}\}$ Цель: Минимизация логической частоты ошибок (LER)

Архитектура модели

Общий дизайн

HQMT использует двухэтапную иерархическую архитектуру:

Этап 1: Мелкозернистая обработка, отдельная обработка стабилизаторов типа Z и X
Этап 2: Крупнозернистая обработка, обработка объединенных представлений на уровне кубитов

Ключевые компоненты

1. Стратегия встраивания, центрированная на кубитах Для каждого физического кубита $q^{(i)}$ конструируются два патча:

Патч типа Z: $p_Z^{(i)} = (v_{Z,1}^{(i)}, ..., v_{Z,m}^{(i)})$
Патч типа X: $p_X^{(i)} = (v_{X,1}^{(i)}, ..., v_{X,m}^{(i)})$

Где: $v_{Z,j}^{(i)} = \begin{cases} 1-2s_{Z,j} & \text{если } s_{Z,j} \in N_Z^{(i)} \\ 0 & \text{иначе} \end{cases}$

2. Слой слияния кубитов

Объединение Z-токена и X-токена каждого кубита в вектор размерности $2d_{model}$
Проецирование через полносвязный слой обратно в размерность $d_{model}$
Преобразование размерности с $2n \times d_{model}$ на $n \times d_{model}$

3. Иерархическая обработка трансформатором

Этап 1: $N$ блоков трансформатора обрабатывают $X_1 \in \mathbb{R}^{2n \times d_{model}}$
Слой слияния кубитов для преобразования
Этап 2: $N$ блоков трансформатора обрабатывают $X_2 \in \mathbb{R}^{n \times d_{model}}$

4. Выходной слой Генерирование 4-мерного логита через усреднение по пулам и полносвязный слой с применением softmax для получения распределения вероятностей логического оператора.

Технические инновации

1. Дизайн, учитывающий топологическую структуру Явное моделирование топологических особенностей поверхностного кода, где каждый физический кубит соединяется максимум с четырьмя стабилизаторами.

2. Иерархический механизм внимания

Локальное внимание: изучение мелкозернистых корреляций между соседними стабилизаторами
Глобальное внимание: захват нелокальных паттернов ошибок между кубитами

3. Стратегия совместного использования параметров Блоки трансформатора обоих этапов совместно используют параметры для повышения эффективности параметров.

Экспериментальная установка

Набор данных

Поверхностный код: Использование ротированного поверхностного кода $[[n=d^2, k=1, d]]$
Модель шума: Модель деполяризующего шума
Расстояния кода: $d = 3, 5, 7, 9, 11$
Диапазон физической частоты ошибок: $p \in [0.07, 0.13]$

Метрики оценки

Логическая частота ошибок (LER): Основной показатель производительности
Псевдопорог: Физическая частота ошибок, при которой LER равна частоте ошибок некодированного кубита

Методы сравнения

Классические алгоритмы: MWPM, BP+OSD (четвертичный, 20 итераций)
Нейросетевые методы: FFNN, CNN
Варианты абляции: Только этап 1, только этап 2

Детали реализации

Размерность модели: $d_{model} = 128$
Количество слоев трансформатора: $N = 3$
Функция потерь: Кросс-энтропийная потеря
Стратегия обучения: Сквозное обучение

Результаты экспериментов

Основные результаты

Сравнение производительности:

На всех тестируемых расстояниях кода HQMT значительно превосходит MWPM, FFNN и CNN
По сравнению с базовым уровнем BP+OSD, HQMT сохраняет явное преимущество при $d=5,7,9,11$
Разница в производительности расширяется с увеличением расстояния кода, демонстрируя хорошую масштабируемость

Сравнение псевдопорогов:

Расстояние	MWPM	FFNN	CNN	HQMT
d=3	0.0828	0.0977	0.0980	0.0980
d=5	0.1036	0.1135	0.1215	0.1300
d=7	0.1194	0.1249	0.1326	0.1417

Эксперименты по абляции

Анализ компонентов архитектуры:

"Только этап 1": Значительное снижение производительности, подтверждающее необходимость слияния кубитов
"Только этап 2": Неспособность эффективно использовать информацию о локальной структуре
Полный HQMT: Синергетическая работа обоих этапов достигает оптимальной производительности

Анализ влияния глубины:

От $N=1$ к $N=3$ : Значительное повышение производительности
От $N=3$ к $N=5$ : Предельные улучшения, выбор $N=3$ балансирует производительность и эффективность

Экспериментальные находки

Эффективность иерархического дизайна: Двухэтапная обработка критична для захвата многомасштабных корреляций ошибок
Важность топологической структуры: Стратегия встраивания, центрированная на кубитах, значительно повышает производительность
Преимущества масштабируемости: С увеличением расстояния кода относительное преимущество HQMT становится более явным

Связанные работы

Развитие декодеров квантовой коррекции ошибок

Классические алгоритмы: Методы на основе теории графов, такие как MWPM
Ранние нейросетевые методы: FFNN впервые внедрил глубокое обучение в QEC
Сверточные методы: CNN использует плоскую природу поверхностного кода
Применение трансформаторов: Transformer-QEC и другие исследуют механизмы внимания

Относительные преимущества данной работы

Первый иерархический трансформатор, явно моделирующий топологическую структуру квантовых кодов
Инновационный механизм слияния кубитов
Последовательное преимущество над несколькими базовыми уровнями

Заключение и обсуждение

Основные выводы

HQMT эффективно захватывает многомасштабные корреляции ошибок поверхностного кода посредством иерархической обработки
Слой слияния кубитов является ключевой инновацией, связывающей локальные и глобальные признаки
Метод достигает производительности SOTA при сохранении фиксированной задержки декодирования

Ограничения

Ограничение типа кода: Разработка в основном для поверхностных кодов, применимость к другим квантовым кодам требует проверки
Модель шума: Тестирование только при деполяризующем шуме, реальный шум квантовых устройств более сложен
Вычислительные затраты: Вычислительная сложность архитектуры трансформатора может ограничить приложения в реальном времени

Направления будущих исследований

Расширение на другие семейства квантовых кодов (например, коды LDPC)
Адаптация к более сложным моделям шума
Сжатие и ускорение моделей, дружественные к оборудованию

Глубокая оценка

Преимущества

Высокая инновационность: Дизайн слоя слияния кубитов новаторский, эффективно объединяет структуру квантовых кодов и преимущества трансформаторов
Полные эксперименты: Всестороннее сравнение на нескольких расстояниях кода и базовых уровнях, логично разработанные эксперименты по абляции
Прочная теоретическая основа: Дизайн метода тесно связан с топологическими особенностями поверхностного кода
Значительная производительность: Явное повышение производительности во всех тестируемых сценариях

Недостатки

Ограниченная универсальность: Дизайн чрезмерно специализирован для поверхностных кодов, перенос на другие квантовые коды требует переработки
Недостаточное рассмотрение практического развертывания: Отсутствие обсуждения аппаратной реализации и производительности в реальном времени
Отсутствие теоретического анализа: Нет теоретических гарантий сходимости или способности к обобщению

Влияние

Академический вклад: Предоставляет новую архитектурную парадигму для разработки декодеров квантовой коррекции ошибок
Практическая ценность: Характеристика фиксированной задержки декодирования имеет важное значение для реальных квантовых систем
Воспроизводимость: Подробное описание метода и четкая экспериментальная установка

Применимые сценарии

Декодирование поверхностного кода: Прямое применение в системах отказоустойчивых квантовых вычислений на основе поверхностных кодов
Квантовая коррекция ошибок в реальном времени: Характеристика фиксированной задержки подходит для приложений со строгими требованиями по времени
Крупномасштабные квантовые системы: Хорошая масштабируемость подходит для будущих крупных квантовых процессоров

Библиография

Данная работа ссылается на важные публикации в области квантовой коррекции ошибок, глубокого обучения и нейросетевых декодеров, в частности:

Gottesman (1997): Теоретическая основа кодов стабилизаторов
Varsamopoulos et al. (2018): Первый нейросетевой декодер QEC
Jung et al. (2024): Применение CNN в декодировании поверхностного кода
Google Quantum AI (2023, 2025): Экспериментальная проверка поверхностных кодов

Общая оценка: Это высококачественная статья с важным вкладом в область декодирования квантовой коррекции ошибок. Архитектура HQMT разработана умело, экспериментальная проверка полна, что открывает новые направления для применения нейросетей в квантовой коррекции ошибок. Несмотря на определенные ограничения в универсальности, выдающаяся производительность при декодировании поверхностного кода и характеристика фиксированной задержки придают ей важную практическую ценность.