2025-11-12T05:10:09.967264

Soft Graph Transformer for MIMO Detection

Hong, Liu, Bian et al.

We propose the Soft Graph Transformer (SGT), a soft-input-soft-output neural architecture designed for MIMO detection. While Maximum Likelihood (ML) detection achieves optimal accuracy, its exponential complexity makes it infeasible in large systems, and conventional message-passing algorithms rely on asymptotic assumptions that often fail in finite dimensions. Recent Transformer-based detectors show strong performance but typically overlook the MIMO factor graph structure and cannot exploit prior soft information. SGT addresses these limitations by combining self-attention, which encodes contextual dependencies within symbol and constraint subgraphs, with graph-aware cross-attention, which performs structured message passing across subgraphs. Its soft-input interface allows the integration of auxiliary priors, producing effective soft outputs while maintaining computational efficiency. Experiments demonstrate that SGT achieves near-ML performance and offers a flexible and interpretable framework for receiver systems that leverage soft priors.

academic

Transformateur de Graphe Souple pour la Détection MIMO

Informations Fondamentales

ID de l'article: 2509.12694
Titre: Soft Graph Transformer for MIMO Detection
Auteurs: Jiadong Hong¹, Lei Liu¹, Xinyu Bian², Wenjie Wang², Zhaoyang Zhang¹
Institutions: ¹École d'Ingénierie de l'Information et de l'Électronique, Université de Zhejiang, ²Laboratoire Théorique, Huawei Technologies Co., Ltd.
Classification: cs.LG cs.IT eess.SP math.IT
Date de publication: 17 septembre 2025 (arXiv v2)
Lien de l'article: https://arxiv.org/abs/2509.12694

Résumé

Cet article propose le Transformateur de Graphe Souple (Soft Graph Transformer, SGT), une architecture neuronale à entrée souple-sortie souple conçue spécifiquement pour la détection MIMO. Bien que la détection par vraisemblance maximale (ML) atteigne une précision optimale, sa complexité exponentielle n'est pas viable pour les systèmes à grande échelle, tandis que les algorithmes de transmission de messages traditionnels reposent sur des hypothèses asymptotiques qui échouent souvent en dimensions finies. Les détecteurs récents basés sur Transformateur montrent des performances excellentes, mais ignorent généralement la structure du graphe factoriel MIMO et ne peuvent pas exploiter les informations de probabilité a priori souples. SGT résout ces limitations en combinant des mécanismes d'auto-attention (codant les dépendances contextuelles au sein des sous-graphes de symboles et de contraintes) et des mécanismes d'attention croisée conscients du graphe (effectuant une transmission de messages structurée entre sous-graphes). Son interface d'entrée souple permet l'intégration de probabilités a priori auxiliaires, produisant des sorties souples efficaces tout en maintenant l'efficacité computationnelle.

Contexte de Recherche et Motivation

Définition du Problème

Les systèmes MIMO, bien qu'étant fondamentaux pour les communications sans fil modernes, offrant une efficacité spectrale élevée et des liaisons robustes, présentent toujours un défi pour la détection efficace de symboles.

Limitations des Méthodes Existantes

Détection par vraisemblance maximale: Bien qu'elle atteigne une précision optimale, la complexité computationnelle est O(M^Nt) (M étant le nombre de points de constellation), ce qui n'est pas viable pour les systèmes à grande échelle
Algorithmes de transmission de messages: Tels que AMP, OAMP, MAMP, bien que de complexité inférieure, dépendent d'hypothèses asymptotiques et sont fragiles en configurations de dimensions finies
Méthodes de déroulement profond: Telles que OAMP-Net, DetNet, qui apprennent les paramètres d'algorithmes par les données, mais restent limitées par les hypothèses de l'algorithme original
Méthodes Transformateur existantes:
- RE-MIMO manque de conscience explicite du graphe
- MIMO basé sur Transformateur utilise la décomposition QR mais à coût élevé et ignore la structure du graphe factoriel

Motivation de la Recherche

Inspirée par la détection MIMO classique par transmission de messages, cette recherche vise à concevoir une architecture Transformateur capable de:

Exploiter la structure du graphe factoriel MIMO
Supporter une interface d'entrée souple-sortie souple
Fournir une approche principielle unifiant le codage contextuel et la transmission de messages

Contributions Principales

Proposition de l'architecture SGT: Premier détecteur MIMO unifiant l'auto-attention guidée par graphe factoriel et l'attention croisée dans un cadre de style AMP
Méthode de tokenisation consciente du graphe: Transforme le graphe factoriel dense pondéré du système MIMO en une représentation à deux sous-graphes adaptée au traitement par Transformateur
Interface d'entrée souple-sortie souple: Intègre naturellement les informations de probabilité a priori externes provenant d'autres modules du récepteur
Amélioration des performances: Atteint une précision proche de la détection ML dans les systèmes MIMO à petite échelle et démontre une croissance de complexité quadratique supérieure dans les systèmes à grande échelle

Détails de la Méthode

Définition de la Tâche

Entrées:

Vecteur de signal reçu y ∈ R^(2Nr)
Matrice de canal H ∈ R^(2Nr×2Nt)
Information de variance du bruit
Information de probabilité a priori souple optionnelle (LLR)

Sorties:

Rapports de vraisemblance logarithmique (LLR) au niveau des bits, adaptés au décodeur de canal

Contraintes: Modèle de système linéaire y = Hx + n, où n ~ N(0,Σ)

Architecture du Modèle

1. Tokenisation Consciente du Graphe (Graph-Aware Tokenization)

Décompose le graphe factoriel MIMO en deux sous-graphes:

Tokens/Sous-graphe de Contraintes Linéaires:

T_lin = {τ_j = (y_j, h_j, σ²_j) | j ∈ {1,...,2Nr}}

où h_j est la j-ième ligne de H, codant les contraintes de vraisemblance locale entre le signal reçu et les symboles transmis.

Tokens/Sous-graphe de Symboles:

T_sym = {x_i^(l) | i ∈ {1,...,2Nt}}

Correspond aux nœuds variables des symboles transmis, servant de requêtes d'intégration interagissant avec les tokens de contraintes via attention croisée.

2. Conception des Mécanismes d'Attention

Auto-attention - Codage Contextuel: Fournit un codage contextuel robuste au sein d'ensembles de tokens homogènes, assurant la cohérence entre entités similaires:

t̃_j = ∑_{k=1}^N α_{jk} W^V t_k
α_{jk} = softmax((W^Q t_j)^T (W^K t_k) / √d_k)

Attention Croisée - Transmission de Messages: Implémente une transmission de messages dirigée entre types de tokens hétérogènes:

t̃_j = ∑_i α_{ij} W^V t_i
α_{ij} = softmax((W^Q t_j)^T (W^K t_i) / √d_k)

3. Interface d'Entrée Souple-Sortie Souple

Module d'Intégration d'Entrée Souple:

Tokens de symboles: T_sym, dimension 2Nt, Nbits/2
Tokens de contraintes linéaires: T_lin, dimension 2Nr, 2Nt+2
Traitement indépendant via FFN dédié et ajout d'encodage positionnel

Module de Sortie Souple:

Reçoit les représentations d'intégration: dimension 2Nt, d_model
Traitement via FFN + activation Sigmoid
Produit la sortie souple finale: dimension 2Nt, Nbits/2

Points d'Innovation Technique

Conception d'attention structurée: Contrairement à CrossMPT, SGT combine auto-attention et attention croisée adaptées aux caractéristiques de sous-graphes homogènes de MIMO
Avantages de préservation d'information: Comparée aux méthodes utilisant la décomposition QR, la tokenisation consciente du graphe préserve davantage d'informations au niveau des symboles
Cadre unifié: Unifie les mises à jour inspirées par AMP avec l'architecture Transformateur, réalisant une transmission de messages interprétable

Configuration Expérimentale

Ensemble de Données

Modèle de canal: Canal de Rayleigh en évanouissement avec CSI parfait
Modulation: QPSK (Modulation par Déplacement de Phase en Quadrature)
Configuration système: Systèmes MIMO 8×8, 8×16, 16×16
Bruit: Bruit blanc gaussien additif

Métriques d'Évaluation

BER (Taux d'Erreur Binaire): Taux d'erreur binaire
Perte d'entraînement: Analyse de convergence
Temps d'exécution: Évaluation de l'efficacité computationnelle

Méthodes de Comparaison

Méthodes classiques: LMMSE, OAMP, Maximum Likelihood
Méthodes d'apprentissage profond: OAMPNet2, DetNet
Méthodes Transformateur: Transformer-based MIMO, RE-MIMO
Expériences d'ablation: Version sans attention croisée, version tokenisation uniquement

Détails d'Implémentation

Dimension du modèle: d_model = 128
Nombre de couches réseau: L = 8 couches
Paramètres d'entraînement: Taux d'apprentissage, taille de lot et étapes d'entraînement identiques
Plateforme matérielle: GPU RTX 4090

Résultats Expérimentaux

Résultats Principaux

Comparaison des Performances BER:

Dans le système MIMO 8×8, SGT surpasse significativement OAMPNet2 et Transformer-based MIMO
Maintient l'avantage de performance dans les systèmes 8×16 et 16×16
Approche les performances de la limite supérieure de détection ML

Analyse du Temps d'Exécution (GPU RTX 4090, 1000 échantillons):

Méthode	8×8	8×16	16×16
LMMSE	0.00679s	0.00718s	0.00742s
OAMP	0.02208s	0.02234s	0.02408s
OAMPNet2	0.03333s	0.03415s	0.03507s
Transformer-based MIMO	0.03844s	0.03924s	0.04028s
SGT (proposé)	0.09351s	0.09464s	0.09498s

Expériences d'Ablation

Rôle de la Tokenisation Consciente du Graphe:

La tokenisation complète réalise une perte finale inférieure dans les systèmes à petite échelle (8×8)
Valide la capacité à préserver des informations détaillées au niveau des symboles
Nécessite la combinaison avec l'attention croisée dans les systèmes à grande échelle

Contribution de l'Attention Croisée:

Réalise une convergence plus rapide et une précision finale supérieure
Fournit une orientation similaire au prétraitement QR, mais entièrement apprenante
Atténue les problèmes de stagnation d'entraînement dans les systèmes à grande échelle

Analyse de Complexité

Comparaison de Complexité Asymptotique:

Méthode	Complexité	Tendance de Croissance
Détection ML	O(M^Nt)	Exponentielle
OAMP/OAMPNet	O(KNrNt²)	Cubique
Transformer-based MIMO	O(NrNt² + LNt²dmodel)	Cubique
SGT	L·O(Nr² + Nt² + NrNt)·dmodel	Quadratique

Travaux Connexes

Évolution des Méthodes de Détection MIMO

Méthodes classiques: De la détection linéaire (MMSE) à la détection non-linéaire (ML)
Algorithmes de transmission de messages: Développement et limitations de la série d'algorithmes AMP
Méthodes d'apprentissage profond: Évolution de DetNet aux méthodes de déroulement profond

Applications du Transformateur en Communications

Décodage de canal: ECCT exploitant le graphe de Tanner LDPC, CrossMPT simulant la transmission de messages via attention croisée
Détection MIMO: Contributions et insuffisances de RE-MIMO et Transformer-based MIMO

Positionnement de cet Article

SGT est le premier détecteur MIMO intégrant explicitement la structure du graphe factoriel dans une architecture Transformateur, unifiant le codage contextuel et la transmission de messages.

Conclusions et Discussion

Conclusions Principales

SGT combine avec succès la capacité de modélisation contextuelle du Transformateur et la transmission de messages structurée du graphe factoriel
Atteint une performance proche de ML dans les systèmes MIMO à petite échelle, tout en maintenant l'efficacité computationnelle
L'interface d'entrée souple-sortie souple offre une flexibilité pour l'intégration avec d'autres modules du récepteur
La croissance de complexité quadratique le rend plus scalable dans les systèmes à grande échelle

Limitations

Surcharge computationnelle: Bien que la croissance de complexité soit supérieure, le temps d'exécution absolu reste plus élevé que les méthodes traditionnelles
Validation à grande échelle: Les performances de détection dans les configurations MIMO ultra-large nécessitent une recherche supplémentaire
Analyse théorique: Absence d'analyse rigoureuse de la convergence théorique
Adaptabilité aux canaux: Principalement validée sur canaux de Rayleigh en évanouissement, l'adaptabilité à d'autres modèles de canal reste à explorer

Directions Futures

Optimiser davantage l'efficacité computationnelle pour réduire le temps d'exécution absolu
Étendre à des systèmes MIMO plus grands pour validation
Étudier la robustesse dans différentes conditions de canal
Optimisation conjointe avec d'autres composants du récepteur

Évaluation Approfondie

Points Forts

Innovation forte: Première intégration explicite de la structure du graphe factoriel dans le Transformateur, conception novatrice
Fondations théoriques solides: La transmission de messages inspirée par AMP bénéficie d'un soutien théorique solide
Expériences complètes: Incluent des expériences d'ablation détaillées et une analyse de complexité
Valeur pratique élevée: L'interface d'entrée souple-sortie souple améliore la flexibilité de l'intégration système
Rédaction claire: Description précise des détails techniques, graphiques intuitifs

Insuffisances

Amélioration de performance limitée: Bien que cohérente par rapport aux baselines, l'ampleur de l'amélioration est modérée
Efficacité computationnelle: Le temps d'exécution réel est 2-3 fois supérieur aux méthodes traditionnelles
Portée de validation: Principalement validée sur systèmes à petite échelle et conditions de canal spécifiques
Analyse théorique insuffisante: Absence de garanties théoriques de convergence et d'optimalité
Comparaisons incomplètes: Manque de comparaisons avec les dernières méthodes de détection MIMO par apprentissage profond

Impact

Contribution académique: Offre une nouvelle perspective pour l'application du Transformateur aux problèmes de traitement de signaux structurés
Valeur pratique: Fournit un cadre interprétable pour les futurs détecteurs MIMO par apprentissage profond
Reproductibilité: Description suffisante des détails techniques, facilitant la reproduction et l'extension

Scénarios d'Application

Systèmes MIMO de petite à moyenne échelle: Avantages de performance évidents
Systèmes récepteurs nécessitant une interaction d'information souple: L'interface SISO offre une flexibilité
Applications exigeant une interprétabilité: La conception structurée facilite la compréhension et le débogage
Systèmes de prototypage de recherche: Fournit un cadre de base pour le développement d'algorithmes ultérieurs

Références

L'article cite des travaux importants dans les domaines de la détection MIMO, des algorithmes de transmission de messages, de l'apprentissage profond et des Transformateurs, notamment:

Littérature fondamentale de la série d'algorithmes AMP 1-3
Travaux représentatifs des méthodes de déroulement profond 4-6
Article original de l'architecture Transformateur 7
Travaux connexes de systèmes de communication basés sur Transformateur 8-11

Évaluation Globale: Cet article présente une innovation technique relativement forte, combinant avec succès l'architecture Transformateur avec la structure du graphe factoriel de la détection MIMO, proposant la méthode SGT avec fondations théoriques et valeur pratique. Bien qu'il y ait encore de la place pour l'amélioration en termes d'efficacité computationnelle et d'ampleur des améliorations de performance, il fournit une exploration précieuse de l'application de l'apprentissage profond aux problèmes de traitement de signaux structurés.