2025-11-12T05:10:09.967264

Soft Graph Transformer for MIMO Detection

Hong, Liu, Bian et al.

We propose the Soft Graph Transformer (SGT), a soft-input-soft-output neural architecture designed for MIMO detection. While Maximum Likelihood (ML) detection achieves optimal accuracy, its exponential complexity makes it infeasible in large systems, and conventional message-passing algorithms rely on asymptotic assumptions that often fail in finite dimensions. Recent Transformer-based detectors show strong performance but typically overlook the MIMO factor graph structure and cannot exploit prior soft information. SGT addresses these limitations by combining self-attention, which encodes contextual dependencies within symbol and constraint subgraphs, with graph-aware cross-attention, which performs structured message passing across subgraphs. Its soft-input interface allows the integration of auxiliary priors, producing effective soft outputs while maintaining computational efficiency. Experiments demonstrate that SGT achieves near-ML performance and offers a flexible and interpretable framework for receiver systems that leverage soft priors.

academic

Мягкий графовый трансформатор для обнаружения MIMO

Основная информация

ID статьи: 2509.12694
Название: Soft Graph Transformer for MIMO Detection
Авторы: Jiadong Hong¹, Lei Liu¹, Xinyu Bian², Wenjie Wang², Zhaoyang Zhang¹
Учреждения: ¹Школа информационных и электронных технологий Чжэцзянского университета, ²Теоретическая лаборатория Huawei Technologies Co., Ltd.
Классификация: cs.LG cs.IT eess.SP math.IT
Дата публикации: 17 сентября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2509.12694

Аннотация

В данной работе предлагается мягкий графовый трансформатор (Soft Graph Transformer, SGT) — нейросетевая архитектура с мягким входом и мягким выходом, специально разработанная для обнаружения MIMO. Хотя обнаружение по максимальному правдоподобию (ML) достигает оптимальной точности, его экспоненциальная сложность неприемлема для крупномасштабных систем, а традиционные алгоритмы передачи сообщений полагаются на асимптотические предположения, которые часто нарушаются при конечных размерностях. Недавние детекторы на основе трансформаторов показывают хорошие результаты, но обычно игнорируют структуру факторного графа MIMO и не могут использовать априорную мягкую информацию. SGT решает эти ограничения путём объединения механизма самовнимания (кодирование контекстных зависимостей внутри символов и подграфов ограничений) и механизма кросс-внимания, осведомлённого о графе (выполнение структурированной передачи сообщений между подграфами). Его интерфейс мягкого входа позволяет интегрировать вспомогательные априорные данные, производя эффективный мягкий выход при сохранении вычислительной эффективности.

Исследовательский контекст и мотивация

Определение проблемы

Системы MIMO являются основой современной беспроводной связи, обеспечивая высокую спектральную эффективность и надёжные каналы, однако эффективное обнаружение символов остаётся сложной задачей.

Ограничения существующих методов

Обнаружение по максимальному правдоподобию: Хотя достигает оптимальной точности, вычислительная сложность составляет O(M^Nt) (где M — количество точек созвездия), что неприемлемо для крупномасштабных систем
Алгоритмы передачи сообщений: Такие как AMP, OAMP, MAMP, хотя и имеют меньшую сложность, полагаются на асимптотические предположения и хрупки при конечных размерностях
Методы глубокого развёртывания: Такие как OAMP-Net, DetNet, изучают параметры алгоритма на основе данных, но остаются ограничены предположениями исходного алгоритма
Существующие методы на основе трансформаторов:
- RE-MIMO лишён явного осознания графа
- Трансформатор-based MIMO использует QR-разложение, но это дорогостоящо и игнорирует структуру факторного графа

Исследовательская мотивация

Вдохновлённые классическими алгоритмами передачи сообщений для обнаружения MIMO, авторы стремятся разработать архитектуру трансформатора, которая:

Использует структуру факторного графа MIMO
Поддерживает интерфейс мягкого входа-мягкого выхода
Предоставляет принципиальный подход к унификации кодирования контекста и передачи сообщений

Основные вклады

Предложена архитектура SGT: Первый детектор MIMO, объединяющий самовнимание, управляемое факторным графом, и кросс-внимание в рамках AMP-подобной архитектуры
Метод токенизации, осведомлённый о графе: Преобразование взвешенного плотного факторного графа системы MIMO в двойное представление подграфа, подходящее для обработки трансформатором
Интерфейс мягкого входа-мягкого выхода: Естественная интеграция внешней априорной информации из других модулей приёмника
Улучшение производительности: Достижение близкой к ML точности обнаружения в малых системах MIMO и демонстрация более благоприятного квадратичного роста сложности в крупномасштабных системах

Подробное описание метода

Определение задачи

Входные данные:

Вектор принятого сигнала y ∈ R^(2Nr)
Матрица канала H ∈ R^(2Nr×2Nt)
Информация о дисперсии шума
Опциональная априорная мягкая информация (LLR)

Выходные данные:

Апостериорные отношения правдоподобия (LLR) на уровне бит, пригодные для декодера канала

Ограничения: Линейная модель системы y = Hx + n, где n ~ N(0,Σ)

Архитектура модели

1. Токенизация, осведомлённая о графе (Graph-Aware Tokenization)

Разложение факторного графа MIMO на два подграфа:

Токены/подграф линейных ограничений:

T_lin = {τ_j = (y_j, h_j, σ²_j) | j ∈ {1,...,2Nr}}

где h_j — j-я строка H, кодирующая локальные ограничения правдоподобия между принятым сигналом и передаваемыми символами.

Токены/подграф символов:

T_sym = {x_i^(l) | i ∈ {1,...,2Nt}}

соответствуют узлам переменных передаваемых символов, действуя как запросы встраивания для взаимодействия с токенами ограничений через кросс-внимание.

2. Дизайн механизмов внимания

Самовнимание — кодирование контекста: Обеспечивает мощное кодирование контекста в однородных наборах токенов, гарантируя согласованность между подобными сущностями:

t̃_j = ∑_{k=1}^N α_{jk} W^V t_k
α_{jk} = softmax((W^Q t_j)^T (W^K t_k) / √d_k)

Кросс-внимание — передача сообщений: Реализует направленную передачу сообщений между разнородными типами токенов:

t̃_j = ∑_i α_{ij} W^V t_i
α_{ij} = softmax((W^Q t_j)^T (W^K t_i) / √d_k)

3. Интерфейс мягкого входа-мягкого выхода

Модуль встраивания мягкого входа:

Токены символов: T_sym, размерность 2Nt, Nbits/2
Токены линейных ограничений: T_lin, размерность 2Nr, 2Nt+2
Независимая обработка через специализированные FFN с добавлением позиционного кодирования

Модуль мягкого выхода:

Получение встраиваний: размерность 2Nt, d_model
Обработка через FFN + активация Sigmoid
Производство финального мягкого выхода: размерность 2Nt, Nbits/2

Технические инновации

Структурированный дизайн внимания: В отличие от CrossMPT, SGT объединяет самовнимание и кросс-внимание, учитывая однородную природу подграфов MIMO
Преимущества сохранения информации: По сравнению с методами, использующими QR-разложение, токенизация, осведомлённая о графе, сохраняет больше информации на уровне символов
Унифицированная архитектура: Объединение обновлений, вдохновлённых AMP, с архитектурой трансформатора для реализации интерпретируемой передачи сообщений

Экспериментальная установка

Набор данных

Модель канала: Канал Рэлеевского затухания с идеальной информацией о состоянии канала (CSI)
Модуляция: QPSK (четырёхфазная манипуляция)
Конфигурация системы: Системы MIMO 8×8, 8×16, 16×16
Шум: Аддитивный белый гауссовский шум

Метрики оценки

BER (Bit Error Rate): Коэффициент ошибок на бит
Потери обучения: Анализ сходимости
Время выполнения: Оценка вычислительной эффективности

Методы сравнения

Классические методы: LMMSE, OAMP, Maximum Likelihood
Методы глубокого обучения: OAMPNet2, DetNet
Методы на основе трансформаторов: Transformer-based MIMO, RE-MIMO
Абляционные исследования: Версия без кросс-внимания, версия только с токенизацией

Детали реализации

Размерность модели: d_model = 128
Количество слоёв сети: L = 8 слоёв
Параметры обучения: Одинаковые скорость обучения, размер пакета и количество шагов обучения
Аппаратная платформа: GPU RTX 4090

Результаты экспериментов

Основные результаты

Сравнение производительности BER:

В системе MIMO 8×8 SGT значительно превосходит OAMPNet2 и Transformer-based MIMO
Сохраняет преимущество в производительности в системах 8×16 и 16×16
Приближается к верхней границе производительности ML-обнаружения

Анализ времени выполнения (GPU RTX 4090, 1000 образцов):

Метод	8×8	8×16	16×16
LMMSE	0.00679s	0.00718s	0.00742s
OAMP	0.02208s	0.02234s	0.02408s
OAMPNet2	0.03333s	0.03415s	0.03507s
Transformer-based MIMO	0.03844s	0.03924s	0.04028s
SGT (предложенный)	0.09351s	0.09464s	0.09498s

Абляционные исследования

Роль токенизации, осведомлённой о графе:

Полная токенизация достигает более низких финальных потерь в малых системах (8×8)
Подтверждает способность сохранения детальной информации на уровне символов
В крупномасштабных системах требует сочетания с кросс-вниманием

Вклад кросс-внимания:

Обеспечивает более быструю сходимость и лучшую финальную точность
Предоставляет руководство, аналогичное QR-предварительной обработке, но полностью обучаемое
Смягчает проблемы застоя обучения в крупномасштабных системах

Анализ сложности

Сравнение асимптотической сложности:

Метод	Сложность	Тренд роста
ML-обнаружение	O(M^Nt)	Экспоненциальный
OAMP/OAMPNet	O(KNrNt²)	Кубический
Transformer-based MIMO	O(NrNt² + LNt²dmodel)	Кубический
SGT	L·O(Nr² + Nt² + NrNt)·dmodel	Квадратичный

Связанные работы

Развитие методов обнаружения MIMO

Классические методы: От линейного обнаружения (MMSE) к нелинейному (ML)
Алгоритмы передачи сообщений: Развитие и ограничения серии алгоритмов AMP
Методы глубокого обучения: Эволюция от DetNet к методам глубокого развёртывания

Применение трансформаторов в коммуникациях

Декодирование канала: ECCT использует граф Таннера LDPC, CrossMPT моделирует передачу сообщений через кросс-внимание
Обнаружение MIMO: Вклады и недостатки RE-MIMO и Transformer-based MIMO

Позиционирование данной работы

SGT является первым детектором MIMO, явно интегрирующим структуру факторного графа в архитектуру трансформатора, унифицирующим кодирование контекста и передачу сообщений.

Заключение и обсуждение

Основные выводы

SGT успешно объединяет способность трансформатора к контекстному моделированию со структурированной передачей сообщений факторного графа
Достигает близкой к ML производительности в малых системах MIMO при сохранении вычислительной эффективности
Интерфейс мягкого входа-мягкого выхода обеспечивает гибкость интеграции с другими модулями приёмника
Квадратичный рост сложности делает его более масштабируемым для крупномасштабных систем

Ограничения

Вычислительные издержки: Хотя рост сложности более благоприятен, абсолютное время выполнения остаётся выше традиционных методов
Проверка на крупномасштабных системах: Производительность обнаружения в сверхбольших системах MIMO требует дальнейших исследований
Теоретический анализ: Отсутствует строгий анализ сходимости
Адаптивность к каналам: Проверена в основном на каналах Рэлеевского затухания; адаптивность к другим моделям каналов требует изучения

Направления будущих исследований

Дальнейшая оптимизация вычислительной эффективности для снижения абсолютного времени выполнения
Расширение на более крупномасштабные системы MIMO для проверки
Исследование робастности при различных условиях канала
Совместная оптимизация с другими компонентами приёмника

Глубокая оценка

Преимущества

Высокая инновационность: Впервые явно интегрирует структуру факторного графа в трансформатор с новым дизайном
Прочная теоретическая база: Передача сообщений, вдохновлённая AMP, имеет solid теоретическую поддержку
Полные эксперименты: Включает подробные абляционные исследования и анализ сложности
Высокая практическая ценность: Интерфейс мягкого входа-мягкого выхода повышает гибкость системной интеграции
Ясное изложение: Точное описание технических деталей, наглядные графики и таблицы

Недостатки

Ограниченное улучшение производительности: Хотя улучшение по сравнению с базовыми методами последовательно, его масштаб не велик
Вычислительная эффективность: Фактическое время выполнения в 2-3 раза выше традиционных методов
Ограниченный диапазон проверки: Проверена в основном на малых системах и при специфических условиях канала
Недостаточный теоретический анализ: Отсутствуют теоретические гарантии сходимости и оптимальности
Неполное сравнение: Отсутствует сравнение с новейшими методами глубокого обучения для обнаружения MIMO

Влияние

Академический вклад: Предоставляет новые идеи для применения трансформаторов в структурированных задачах обработки сигналов
Практическая ценность: Предоставляет интерпретируемую архитектуру для следующего поколения детекторов MIMO на основе глубокого обучения
Воспроизводимость: Достаточное описание технических деталей облегчает воспроизведение и расширение

Применимые сценарии

Системы MIMO малого и среднего размера: Явное преимущество в производительности
Системы приёмников, требующие взаимодействия мягкой информации: Интерфейс SISO обеспечивает гибкость
Приложения с требованиями к интерпретируемости: Структурированный дизайн облегчает понимание и отладку
Прототипные системы исследований: Предоставляет базовую архитектуру для дальнейшей разработки алгоритмов

Библиография

Статья цитирует важные работы в областях обнаружения MIMO, алгоритмов передачи сообщений, глубокого обучения и трансформаторов, в частности:

Основополагающие работы серии алгоритмов AMP 1-3
Представительные работы методов глубокого развёртывания 4-6
Оригинальная статья об архитектуре трансформатора 7
Связанные работы о системах коммуникации на основе трансформаторов 8-11

Общая оценка: Это статья с высокой технической инновационностью, успешно объединяющая архитектуру трансформатора со структурой факторного графа обнаружения MIMO, предлагающая метод SGT с теоретической базой и практической ценностью. Хотя остаётся место для улучшения в вычислительной эффективности и масштабе улучшения производительности, работа предоставляет ценное исследование применения глубокого обучения в структурированных задачах обработки сигналов.