2025-11-12T05:10:09.967264

Soft Graph Transformer for MIMO Detection

Hong, Liu, Bian et al.

We propose the Soft Graph Transformer (SGT), a soft-input-soft-output neural architecture designed for MIMO detection. While Maximum Likelihood (ML) detection achieves optimal accuracy, its exponential complexity makes it infeasible in large systems, and conventional message-passing algorithms rely on asymptotic assumptions that often fail in finite dimensions. Recent Transformer-based detectors show strong performance but typically overlook the MIMO factor graph structure and cannot exploit prior soft information. SGT addresses these limitations by combining self-attention, which encodes contextual dependencies within symbol and constraint subgraphs, with graph-aware cross-attention, which performs structured message passing across subgraphs. Its soft-input interface allows the integration of auxiliary priors, producing effective soft outputs while maintaining computational efficiency. Experiments demonstrate that SGT achieves near-ML performance and offers a flexible and interpretable framework for receiver systems that leverage soft priors.

academic

Transformador de Grafo Suave para Detección MIMO

Información Básica

ID del Artículo: 2509.12694
Título: Soft Graph Transformer for MIMO Detection
Autores: Jiadong Hong¹, Lei Liu¹, Xinyu Bian², Wenjie Wang², Zhaoyang Zhang¹
Instituciones: ¹Colegio de Ingeniería de Información y Electrónica, Universidad de Zhejiang, ²Laboratorio Teórico, Huawei Technologies Co., Ltd.
Clasificación: cs.LG cs.IT eess.SP math.IT
Fecha de Publicación: 17 de septiembre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2509.12694

Resumen

Este artículo propone el Transformador de Grafo Suave (Soft Graph Transformer, SGT), una arquitectura neural de entrada-salida suave diseñada específicamente para detección MIMO. Aunque la detección de máxima verosimilitud (ML) logra precisión óptima, su complejidad exponencial es inviable en sistemas a gran escala, mientras que los algoritmos tradicionales de paso de mensajes dependen de suposiciones asintóticas que frecuentemente fallan en dimensiones finitas. Los detectores basados en Transformador recientemente propuestos muestran un desempeño excelente, pero típicamente ignoran la estructura del grafo factorial MIMO y no pueden aprovechar información suave previa. SGT aborda estas limitaciones combinando mecanismos de autoatención (codificación de símbolos y dependencias contextuales dentro de subgrafos de restricciones) y mecanismos de atención cruzada conscientes del grafo (realizando paso de mensajes estructurado entre subgrafos). Su interfaz de entrada suave permite integrar información previa auxiliar, produciendo salidas suaves efectivas mientras se mantiene eficiencia computacional.

Antecedentes de Investigación y Motivación

Definición del Problema

Aunque los sistemas MIMO son fundamentales para las comunicaciones inalámbricas modernas, proporcionando alta eficiencia espectral y enlaces robustos, la detección eficiente de símbolos sigue siendo un problema desafiante.

Limitaciones de Métodos Existentes

Detección de Máxima Verosimilitud: Aunque logra precisión óptima, la complejidad computacional es O(M^Nt) (donde M es el número de puntos de constelación), inviable en sistemas a gran escala
Algoritmos de Paso de Mensajes: Métodos como AMP, OAMP, MAMP tienen complejidad reducida pero dependen de suposiciones asintóticas, siendo frágiles en configuraciones de dimensión finita
Métodos de Despliegue Profundo: Enfoques como OAMP-Net y DetNet aprenden parámetros algorítmicos mediante datos, pero siguen limitados por suposiciones del algoritmo original
Métodos Transformador Existentes:
- RE-MIMO carece de conciencia explícita del grafo
- Transformer-based MIMO utiliza descomposición QR pero es costoso e ignora la estructura del grafo factorial

Motivación de Investigación

Inspirado en la detección MIMO clásica de paso de mensajes, este trabajo tiene como objetivo diseñar una arquitectura Transformador que pueda:

Aprovechar la estructura del grafo factorial MIMO
Soportar interfaz de entrada-salida suave
Proporcionar un enfoque principista que unifique codificación contextual y paso de mensajes

Contribuciones Principales

Propone Arquitectura SGT: Primer detector MIMO que unifica autoatención guiada por grafo factorial y atención cruzada en un marco de estilo AMP
Método de Tokenización Consciente del Grafo: Convierte el grafo factorial denso ponderado del sistema MIMO en representación de dos subgrafos adecuada para procesamiento Transformador
Interfaz de Entrada-Salida Suave: Integra naturalmente información previa externa de otros módulos receptores
Mejora de Desempeño: Logra precisión de detección cercana a ML en sistemas MIMO pequeños y demuestra crecimiento de complejidad cuadrática superior en sistemas grandes

Explicación Detallada del Método

Definición de la Tarea

Entrada:

Vector de señal recibida y ∈ R^(2Nr)
Matriz de canal H ∈ R^(2Nr×2Nt)
Información de varianza de ruido
Información previa suave opcional (LLR)

Salida:

Razones de verosimilitud logarítmica (LLR) a nivel de bit posteriores, aplicables a decodificadores de canal

Restricción: Modelo de sistema lineal y = Hx + n, donde n ~ N(0,Σ)

Arquitectura del Modelo

1. Tokenización Consciente del Grafo (Graph-Aware Tokenization)

Descompone el grafo factorial MIMO en dos subgrafos:

Tokens/Subgrafo de Restricción Lineal:

T_lin = {τ_j = (y_j, h_j, σ²_j) | j ∈ {1,...,2Nr}}

donde h_j es la j-ésima fila de H, codificando restricciones de verosimilitud locales entre señal recibida y símbolos transmitidos.

Tokens/Subgrafo de Símbolos:

T_sym = {x_i^(l) | i ∈ {1,...,2Nt}}

Corresponde a nodos variables de símbolos transmitidos, actuando como incrustaciones de consulta interactuando con tokens de restricción mediante atención cruzada.

2. Diseño de Mecanismos de Atención

Autoatención - Codificación Contextual: Proporciona codificación contextual robusta dentro de conjuntos de tokens homogéneos, asegurando consistencia entre entidades similares:

t̃_j = ∑_{k=1}^N α_{jk} W^V t_k
α_{jk} = softmax((W^Q t_j)^T (W^K t_k) / √d_k)

Atención Cruzada - Paso de Mensajes: Implementa paso de mensajes dirigido entre tipos de tokens heterogéneos:

t̃_j = ∑_i α_{ij} W^V t_i
α_{ij} = softmax((W^Q t_j)^T (W^K t_i) / √d_k)

3. Interfaz de Entrada-Salida Suave

Módulo de Incrustación de Entrada Suave:

Tokens de símbolo: T_sym, dimensión 2Nt, Nbits/2
Tokens de restricción lineal: T_lin, dimensión 2Nr, 2Nt+2
Procesamiento independiente mediante FFN dedicado e incorporación de codificación posicional

Módulo de Salida Suave:

Recibe representaciones incrustadas: dimensión 2Nt, d_model
Procesamiento mediante FFN + activación Sigmoid
Produce salida suave final: dimensión 2Nt, Nbits/2

Puntos de Innovación Técnica

Diseño de Atención Estructurada: A diferencia de CrossMPT, SGT combina autoatención y atención cruzada adaptadas a características de subgrafos homogéneos de MIMO
Ventaja de Preservación de Información: Comparado con métodos usando descomposición QR, la tokenización consciente del grafo retiene más información a nivel de símbolo
Marco Unificado: Unifica actualizaciones inspiradas en AMP con arquitectura Transformador, realizando paso de mensajes interpretable

Configuración Experimental

Conjunto de Datos

Modelo de Canal: Canal de desvanecimiento Rayleigh con CSI perfecto
Esquema de Modulación: QPSK (Modulación por Desplazamiento de Fase en Cuadratura)
Configuración del Sistema: Sistemas MIMO 8×8, 8×16, 16×16
Ruido: Ruido Gaussiano Blanco Aditivo

Métricas de Evaluación

BER (Tasa de Error de Bit): Tasa de error de bit
Pérdida de Entrenamiento: Análisis de convergencia
Tiempo de Ejecución: Evaluación de eficiencia computacional

Métodos de Comparación

Métodos Clásicos: LMMSE, OAMP, Maximum Likelihood
Métodos de Aprendizaje Profundo: OAMPNet2, DetNet
Métodos Transformador: Transformer-based MIMO, RE-MIMO
Experimentos de Ablación: Versión sin atención cruzada, versión solo tokenización

Detalles de Implementación

Dimensión del Modelo: d_model = 128
Número de Capas de Red: L = 8 capas
Parámetros de Entrenamiento: Tasa de aprendizaje, tamaño de lote y pasos de entrenamiento idénticos
Plataforma de Hardware: GPU RTX 4090

Resultados Experimentales

Resultados Principales

Comparación de Desempeño BER:

En sistema MIMO 8×8, SGT supera significativamente a OAMPNet2 y Transformer-based MIMO
Mantiene ventaja de desempeño en sistemas 8×16 y 16×16
Se aproxima al desempeño de cota superior de detección ML

Análisis de Tiempo de Ejecución (GPU RTX 4090, 1000 muestras):

Método	8×8	8×16	16×16
LMMSE	0.00679s	0.00718s	0.00742s
OAMP	0.02208s	0.02234s	0.02408s
OAMPNet2	0.03333s	0.03415s	0.03507s
Transformer-based MIMO	0.03844s	0.03924s	0.04028s
SGT (Propuesto)	0.09351s	0.09464s	0.09498s

Experimentos de Ablación

Efecto de Tokenización Consciente del Grafo:

Tokenización completa logra pérdida final más baja en sistemas pequeños (8×8)
Valida capacidad de retener información detallada a nivel de símbolo
Requiere cooperación con atención cruzada en sistemas grandes

Contribución de Atención Cruzada:

Realiza convergencia más rápida y precisión final superior
Proporciona orientación similar a preprocesamiento QR, pero completamente aprendible
Mitiga problemas de estancamiento de entrenamiento en sistemas grandes

Análisis de Complejidad

Comparación de Complejidad Asintótica:

Método	Complejidad	Tendencia de Crecimiento
Detección ML	O(M^Nt)	Exponencial
OAMP/OAMPNet	O(KNrNt²)	Cúbica
Transformer-based MIMO	O(NrNt² + LNt²dmodel)	Cúbica
SGT	L·O(Nr² + Nt² + NrNt)·dmodel	Cuadrática

Trabajo Relacionado

Evolución de Métodos de Detección MIMO

Métodos Clásicos: Desde detección lineal (MMSE) a detección no lineal (ML)
Algoritmos de Paso de Mensajes: Desarrollo y limitaciones de serie de algoritmos AMP
Métodos de Aprendizaje Profundo: Evolución desde DetNet a métodos de despliegue profundo

Aplicaciones de Transformador en Comunicaciones

Decodificación de Canal: ECCT aprovecha grafo Tanner LDPC, CrossMPT simula paso de mensajes mediante atención cruzada
Detección MIMO: Contribuciones e insuficiencias de RE-MIMO y Transformer-based MIMO

Posicionamiento de Este Trabajo

SGT es el primer detector MIMO que integra explícitamente estructura de grafo factorial en arquitectura Transformador, unificando codificación contextual y paso de mensajes.

Conclusiones y Discusión

Conclusiones Principales

SGT combina exitosamente capacidad de modelado contextual de Transformador con paso de mensajes estructurado de grafo factorial
Logra desempeño cercano a ML en sistemas MIMO pequeños manteniendo eficiencia computacional
Interfaz de entrada-salida suave proporciona flexibilidad para integración con otros módulos receptores
Crecimiento de complejidad cuadrática lo hace más escalable en sistemas grandes

Limitaciones

Sobrecarga Computacional: Aunque el crecimiento de complejidad es superior, el tiempo de ejecución absoluto sigue siendo más alto que métodos tradicionales
Validación a Gran Escala: El desempeño de detección en configuraciones MIMO ultragigantes requiere investigación adicional
Análisis Teórico: Carece de análisis riguroso de convergencia teórica
Adaptabilidad de Canal: Validado principalmente bajo canal de desvanecimiento Rayleigh, la adaptabilidad a otros modelos de canal requiere exploración

Direcciones Futuras

Optimizar aún más eficiencia computacional, reduciendo tiempo de ejecución absoluto
Extender a sistemas MIMO más grandes para validación
Investigar robustez bajo diferentes condiciones de canal
Optimización conjunta con otros componentes receptores

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera integración explícita de estructura de grafo factorial en Transformador, diseño novedoso
Base Teórica Sólida: Paso de mensajes inspirado en marco AMP con soporte teórico sólido
Experimentación Completa: Incluye experimentos de ablación detallados y análisis de complejidad
Valor Práctico Alto: Interfaz de entrada-salida suave mejora flexibilidad de integración del sistema
Escritura Clara: Descripción precisa de detalles técnicos, gráficos intuitivos

Deficiencias

Mejora de Desempeño Limitada: Aunque consistente, la mejora respecto a línea base es modesta
Eficiencia Computacional: Tiempo de ejecución real 2-3 veces superior a métodos tradicionales
Rango de Validación: Validación principalmente en sistemas pequeños y condiciones de canal específicas
Análisis Teórico Insuficiente: Carece de garantías teóricas de convergencia y optimalidad
Comparación Incompleta: Falta comparación con métodos recientes de detección MIMO de aprendizaje profundo

Impacto

Contribución Académica: Proporciona nuevas perspectivas para aplicación de Transformador en problemas de procesamiento de señales estructuradas
Valor Práctico: Proporciona marco interpretable para detectores MIMO de próxima generación basados en aprendizaje profundo
Reproducibilidad: Descripción de detalles técnicos suficiente para facilitar reproducción y extensión

Escenarios Aplicables

Sistemas MIMO Pequeños a Medianos: Ventaja de desempeño evidente
Sistemas Receptores que Requieren Interacción de Información Suave: Interfaz SISO proporciona flexibilidad
Aplicaciones que Requieren Interpretabilidad: Diseño estructurado facilita comprensión y depuración
Sistemas Prototipo de Investigación: Proporciona marco base para desarrollo de algoritmos adicionales

Referencias

El artículo cita literatura importante en campos de detección MIMO, algoritmos de paso de mensajes, aprendizaje profundo y Transformadores, particularmente:

Literatura fundamental de serie de algoritmos AMP 1-3
Trabajos representativos de métodos de despliegue profundo 4-6
Artículo original de arquitectura Transformador 7
Trabajos relacionados de sistemas de comunicación basados en Transformador 8-11

Evaluación General: Este es un artículo con innovación técnica relativamente fuerte que combina exitosamente arquitectura Transformador con estructura de grafo factorial de detección MIMO, proponiendo método SGT con base teórica y valor práctico. Aunque aún hay espacio para mejora en eficiencia computacional y magnitud de mejora de desempeño, proporciona exploración valiosa para aplicación de aprendizaje profundo en problemas de procesamiento de señales estructuradas.