For reliable large-scale quantum computation, a quantum error correction (QEC) scheme must effectively resolve physical errors to protect logical information. Leveraging recent advances in deep learning, neural network-based decoders have emerged as a promising approach to enhance the reliability of QEC. We propose the Hierarchical Qubit-Merging Transformer (HQMT), a novel and general decoding framework that explicitly leverages the structural graph of stabilizer codes to learn error correlations across multiple scales. Our architecture first computes attention locally on structurally related groups of stabilizers and then systematically merges these qubit-centric representations to build a global view of the error syndrome. The proposed HQMT achieves substantially lower logical error rates for surface codes by integrating a dedicated qubit-merging layer within the transformer architecture. Across various code distances, HQMT significantly outperforms previous neural network-based QEC decoders as well as a powerful belief propagation with ordered statistics decoding (BP+OSD) baseline. This hierarchical approach provides a scalable and effective framework for surface code decoding, advancing the realization of reliable quantum computing.
- ID статьи: 2510.11593
- Название: Hierarchical Qubit-Merging Transformer for Quantum Error Correction
- Авторы: Seong-Joon Park (POSTECH), Hee-Youl Kwak (University of Ulsan), Yongjune Kim (POSTECH)
- Классификация: quant-ph cs.AI cs.LG
- Дата публикации: 14 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2510.11593
Для реализации надежных крупномасштабных квантовых вычислений схемы квантовой коррекции ошибок (QEC) должны эффективно устранять физические ошибки для защиты логической информации. В данной работе, используя последние достижения глубокого обучения, предлагается иерархический трансформатор слияния кубитов (HQMT) — новая универсальная структура декодирования, которая явно использует структурный граф стабилизаторных кодов для изучения многомасштабных корреляций ошибок. Архитектура сначала локально вычисляет внимание на структурно связанных группах стабилизаторов, а затем систематически объединяет эти центрированные на кубитах представления для построения глобального представления синдрома ошибок. Интегрируя специализированные слои слияния кубитов в архитектуру трансформатора, HQMT достигает значительно более низкой логической частоты ошибок на поверхностных кодах, значительно превосходя предыдущие нейросетевые декодеры QEC и мощный базовый уровень BP+OSD на различных расстояниях кода.
Фундаментальная проблема квантовых вычислений заключается в хрупкости квантовых состояний. В отличие от классических битов, кубиты подвержены воздействию шума окружающей среды и несовершенству операций, что приводит к ошибкам типа переворота бита и переворота фазы. Квантовая коррекция ошибок является ключевой технологией для реализации отказоустойчивых квантовых вычислений.
- Потребность в практическом применении квантовых вычислений: Крупномасштабные квантовые алгоритмы требуют длительного сохранения когерентности квантовых состояний
- Физические ограничения: Теорема о запрете клонирования квантовых состояний делает традиционные методы избыточной коррекции ошибок неприменимыми
- Критичность задержки декодирования: Время отклика декодера напрямую влияет на тактовую частоту всей квантовой системы
- Классические алгоритмы: Такие как MWPM, хотя и имеют теоретические гарантии, показывают ограниченную производительность при сложных паттернах ошибок
- Ранние нейросетевые методы: FFNN и CNN недостаточно используют структурные особенности квантовых кодов
- Итеративные декодеры: Методы типа BP+OSD имеют непредсказуемое время декодирования, что становится узким местом системы
Данная работа направлена на разработку нейросетевого декодера, который одновременно использует топологическую структуру квантовых кодов и обеспечивает фиксированную задержку декодирования, особенно оптимизированного для иерархических корреляций ошибок поверхностных кодов.
- Предложение архитектуры HQMT: Первый иерархический трансформаторный декодер, явно моделирующий топологическую структуру поверхностного кода
- Инновационный слой слияния кубитов: Объединение мелкозернистых представлений Z/X стабилизаторов в крупнозернистые представления на уровне кубитов
- Значительное повышение производительности: Превосходство над существующими нейросетевыми методами и базовым уровнем BP+OSD на нескольких расстояниях кода
- Проверка масштабируемости: Демонстрация преимуществ производительности с увеличением расстояния кода и хороших свойств псевдопорога
Входные данные: Вектор синдрома ошибок s=[sZ,sX]∈{0,1}n−k, где sZ и sX — синдромы типа Z и X соответственно
Выходные данные: Предсказание логического оператора L^∈{Iˉ,Xˉ,Yˉ,Zˉ}Цель: Минимизация логической частоты ошибок (LER)
HQMT использует двухэтапную иерархическую архитектуру:
- Этап 1: Мелкозернистая обработка, отдельная обработка стабилизаторов типа Z и X
- Этап 2: Крупнозернистая обработка, обработка объединенных представлений на уровне кубитов
1. Стратегия встраивания, центрированная на кубитах
Для каждого физического кубита q(i) конструируются два патча:
- Патч типа Z: pZ(i)=(vZ,1(i),...,vZ,m(i))
- Патч типа X: pX(i)=(vX,1(i),...,vX,m(i))
Где:
vZ,j(i)={1−2sZ,j0если sZ,j∈NZ(i)иначе
2. Слой слияния кубитов
- Объединение Z-токена и X-токена каждого кубита в вектор размерности 2dmodel
- Проецирование через полносвязный слой обратно в размерность dmodel
- Преобразование размерности с 2n×dmodel на n×dmodel
3. Иерархическая обработка трансформатором
- Этап 1: N блоков трансформатора обрабатывают X1∈R2n×dmodel
- Слой слияния кубитов для преобразования
- Этап 2: N блоков трансформатора обрабатывают X2∈Rn×dmodel
4. Выходной слой
Генерирование 4-мерного логита через усреднение по пулам и полносвязный слой с применением softmax для получения распределения вероятностей логического оператора.
1. Дизайн, учитывающий топологическую структуру
Явное моделирование топологических особенностей поверхностного кода, где каждый физический кубит соединяется максимум с четырьмя стабилизаторами.
2. Иерархический механизм внимания
- Локальное внимание: изучение мелкозернистых корреляций между соседними стабилизаторами
- Глобальное внимание: захват нелокальных паттернов ошибок между кубитами
3. Стратегия совместного использования параметров
Блоки трансформатора обоих этапов совместно используют параметры для повышения эффективности параметров.
- Поверхностный код: Использование ротированного поверхностного кода [[n=d2,k=1,d]]
- Модель шума: Модель деполяризующего шума
- Расстояния кода: d=3,5,7,9,11
- Диапазон физической частоты ошибок: p∈[0.07,0.13]
- Логическая частота ошибок (LER): Основной показатель производительности
- Псевдопорог: Физическая частота ошибок, при которой LER равна частоте ошибок некодированного кубита
- Классические алгоритмы: MWPM, BP+OSD (четвертичный, 20 итераций)
- Нейросетевые методы: FFNN, CNN
- Варианты абляции: Только этап 1, только этап 2
- Размерность модели: dmodel=128
- Количество слоев трансформатора: N=3
- Функция потерь: Кросс-энтропийная потеря
- Стратегия обучения: Сквозное обучение
Сравнение производительности:
- На всех тестируемых расстояниях кода HQMT значительно превосходит MWPM, FFNN и CNN
- По сравнению с базовым уровнем BP+OSD, HQMT сохраняет явное преимущество при d=5,7,9,11
- Разница в производительности расширяется с увеличением расстояния кода, демонстрируя хорошую масштабируемость
Сравнение псевдопорогов:
| Расстояние | MWPM | FFNN | CNN | HQMT |
|---|
| d=3 | 0.0828 | 0.0977 | 0.0980 | 0.0980 |
| d=5 | 0.1036 | 0.1135 | 0.1215 | 0.1300 |
| d=7 | 0.1194 | 0.1249 | 0.1326 | 0.1417 |
Анализ компонентов архитектуры:
- "Только этап 1": Значительное снижение производительности, подтверждающее необходимость слияния кубитов
- "Только этап 2": Неспособность эффективно использовать информацию о локальной структуре
- Полный HQMT: Синергетическая работа обоих этапов достигает оптимальной производительности
Анализ влияния глубины:
- От N=1 к N=3: Значительное повышение производительности
- От N=3 к N=5: Предельные улучшения, выбор N=3 балансирует производительность и эффективность
- Эффективность иерархического дизайна: Двухэтапная обработка критична для захвата многомасштабных корреляций ошибок
- Важность топологической структуры: Стратегия встраивания, центрированная на кубитах, значительно повышает производительность
- Преимущества масштабируемости: С увеличением расстояния кода относительное преимущество HQMT становится более явным
- Классические алгоритмы: Методы на основе теории графов, такие как MWPM
- Ранние нейросетевые методы: FFNN впервые внедрил глубокое обучение в QEC
- Сверточные методы: CNN использует плоскую природу поверхностного кода
- Применение трансформаторов: Transformer-QEC и другие исследуют механизмы внимания
- Первый иерархический трансформатор, явно моделирующий топологическую структуру квантовых кодов
- Инновационный механизм слияния кубитов
- Последовательное преимущество над несколькими базовыми уровнями
- HQMT эффективно захватывает многомасштабные корреляции ошибок поверхностного кода посредством иерархической обработки
- Слой слияния кубитов является ключевой инновацией, связывающей локальные и глобальные признаки
- Метод достигает производительности SOTA при сохранении фиксированной задержки декодирования
- Ограничение типа кода: Разработка в основном для поверхностных кодов, применимость к другим квантовым кодам требует проверки
- Модель шума: Тестирование только при деполяризующем шуме, реальный шум квантовых устройств более сложен
- Вычислительные затраты: Вычислительная сложность архитектуры трансформатора может ограничить приложения в реальном времени
- Расширение на другие семейства квантовых кодов (например, коды LDPC)
- Адаптация к более сложным моделям шума
- Сжатие и ускорение моделей, дружественные к оборудованию
- Высокая инновационность: Дизайн слоя слияния кубитов новаторский, эффективно объединяет структуру квантовых кодов и преимущества трансформаторов
- Полные эксперименты: Всестороннее сравнение на нескольких расстояниях кода и базовых уровнях, логично разработанные эксперименты по абляции
- Прочная теоретическая основа: Дизайн метода тесно связан с топологическими особенностями поверхностного кода
- Значительная производительность: Явное повышение производительности во всех тестируемых сценариях
- Ограниченная универсальность: Дизайн чрезмерно специализирован для поверхностных кодов, перенос на другие квантовые коды требует переработки
- Недостаточное рассмотрение практического развертывания: Отсутствие обсуждения аппаратной реализации и производительности в реальном времени
- Отсутствие теоретического анализа: Нет теоретических гарантий сходимости или способности к обобщению
- Академический вклад: Предоставляет новую архитектурную парадигму для разработки декодеров квантовой коррекции ошибок
- Практическая ценность: Характеристика фиксированной задержки декодирования имеет важное значение для реальных квантовых систем
- Воспроизводимость: Подробное описание метода и четкая экспериментальная установка
- Декодирование поверхностного кода: Прямое применение в системах отказоустойчивых квантовых вычислений на основе поверхностных кодов
- Квантовая коррекция ошибок в реальном времени: Характеристика фиксированной задержки подходит для приложений со строгими требованиями по времени
- Крупномасштабные квантовые системы: Хорошая масштабируемость подходит для будущих крупных квантовых процессоров
Данная работа ссылается на важные публикации в области квантовой коррекции ошибок, глубокого обучения и нейросетевых декодеров, в частности:
- Gottesman (1997): Теоретическая основа кодов стабилизаторов
- Varsamopoulos et al. (2018): Первый нейросетевой декодер QEC
- Jung et al. (2024): Применение CNN в декодировании поверхностного кода
- Google Quantum AI (2023, 2025): Экспериментальная проверка поверхностных кодов
Общая оценка: Это высококачественная статья с важным вкладом в область декодирования квантовой коррекции ошибок. Архитектура HQMT разработана умело, экспериментальная проверка полна, что открывает новые направления для применения нейросетей в квантовой коррекции ошибок. Несмотря на определенные ограничения в универсальности, выдающаяся производительность при декодировании поверхностного кода и характеристика фиксированной задержки придают ей важную практическую ценность.