2025-11-12T05:10:09.967264

Soft Graph Transformer for MIMO Detection

Hong, Liu, Bian et al.

We propose the Soft Graph Transformer (SGT), a soft-input-soft-output neural architecture designed for MIMO detection. While Maximum Likelihood (ML) detection achieves optimal accuracy, its exponential complexity makes it infeasible in large systems, and conventional message-passing algorithms rely on asymptotic assumptions that often fail in finite dimensions. Recent Transformer-based detectors show strong performance but typically overlook the MIMO factor graph structure and cannot exploit prior soft information. SGT addresses these limitations by combining self-attention, which encodes contextual dependencies within symbol and constraint subgraphs, with graph-aware cross-attention, which performs structured message passing across subgraphs. Its soft-input interface allows the integration of auxiliary priors, producing effective soft outputs while maintaining computational efficiency. Experiments demonstrate that SGT achieves near-ML performance and offers a flexible and interpretable framework for receiver systems that leverage soft priors.

academic

MIMO डिटेक्शन के लिए सॉफ्ट ग्राफ ट्रांसफॉर्मर

मूल जानकारी

पेपर ID: 2509.12694
शीर्षक: MIMO डिटेक्शन के लिए सॉफ्ट ग्राफ ट्रांसफॉर्मर
लेखक: Jiadong Hong¹, Lei Liu¹, Xinyu Bian², Wenjie Wang², Zhaoyang Zhang¹
संस्थान: ¹झेजियांग विश्वविद्यालय सूचना और इलेक्ट्रॉनिक्स इंजीनियरिंग कॉलेज, ²हुआवेई तकनीकी सीमित कंपनी सैद्धांतिक प्रयोगशाला
वर्गीकरण: cs.LG cs.IT eess.SP math.IT
प्रकाशन समय: 17 सितंबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2509.12694

सारांश

यह पेपर सॉफ्ट ग्राफ ट्रांसफॉर्मर (SGT) प्रस्तावित करता है, जो MIMO डिटेक्शन के लिए विशेष रूप से डिज़ाइन किया गया एक सॉफ्ट इनपुट-सॉफ्ट आउटपुट न्यूरल आर्किटेक्चर है। हालांकि अधिकतम संभावना (ML) डिटेक्शन इष्टतम सटीकता प्राप्त कर सकता है, लेकिन इसकी घातीय जटिलता बड़े पैमाने की प्रणालियों में व्यावहारिक नहीं है, और पारंपरिक संदेश पारेषण एल्गोरिदम स्पर्शोन्मुख धारणाओं पर निर्भर करते हैं, जो सीमित आयामों में अक्सर विफल होते हैं। हाल ही के ट्रांसफॉर्मर-आधारित डिटेक्टर उत्कृष्ट प्रदर्शन करते हैं, लेकिन आमतौर पर MIMO कारक ग्राफ संरचना को नजरअंदाज करते हैं और पूर्व सॉफ्ट जानकारी का उपयोग नहीं कर सकते। SGT स्व-ध्यान तंत्र (प्रतीकों और बाधा उप-ग्राफ के भीतर संदर्भ निर्भरता को एन्कोड करना) और ग्राफ-जागरूक क्रॉस-ध्यान तंत्र (उप-ग्राफ में संरचित संदेश पारेषण करना) को जोड़कर इन सीमाओं को संबोधित करता है। इसका सॉफ्ट इनपुट इंटरफेस सहायक पूर्वानुमान को एकीकृत करने की अनुमति देता है, कम्प्यूटेशनल दक्षता बनाए रखते हुए प्रभावी सॉफ्ट आउटपुट उत्पन्न करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

MIMO प्रणालियां आधुनिक वायरलेस संचार की नींव हैं, जो उच्च स्पेक्ट्रम दक्षता और मजबूत लिंक प्रदान करती हैं, लेकिन कुशल प्रतीक डिटेक्शन अभी भी एक चुनौतीपूर्ण समस्या है।

मौजूदा विधियों की सीमाएं

अधिकतम संभावना डिटेक्शन: इष्टतम सटीकता प्राप्त करता है, लेकिन कम्प्यूटेशनल जटिलता O(M^Nt) है (M तारामंडल बिंदु संख्या है), बड़ी प्रणालियों में व्यावहारिक नहीं है
संदेश पारेषण एल्गोरिदम: AMP, OAMP, MAMP आदि जैसे कम जटिलता वाले हैं, लेकिन स्पर्शोन्मुख धारणाओं पर निर्भर करते हैं, सीमित आयाम सेटिंग में कमजोर हैं
गहन प्रकटीकरण विधियां: OAMP-Net, DetNet आदि डेटा के माध्यम से एल्गोरिदम पैरामीटर सीखते हैं, लेकिन मूल एल्गोरिदम की धारणाओं तक सीमित हैं
मौजूदा ट्रांसफॉर्मर विधियां:
- RE-MIMO में स्पष्ट ग्राफ-जागरूकता की कमी है
- ट्रांसफॉर्मर-आधारित MIMO QR अपघटन का उपयोग करता है लेकिन यह महंगा है और कारक ग्राफ संरचना को नजरअंदाज करता है

अनुसंधान प्रेरणा

शास्त्रीय संदेश पारेषण MIMO डिटेक्शन से प्रेरित, यह पेपर एक ऐसा आर्किटेक्चर डिज़ाइन करने का लक्ष्य रखता है जो:

MIMO कारक ग्राफ संरचना का उपयोग करता है
सॉफ्ट इनपुट-सॉफ्ट आउटपुट इंटरफेस का समर्थन करता है
संदर्भ एन्कोडिंग और संदेश पारेषण के सिद्धांतों को एकीकृत करता है

मुख्य योगदान

SGT आर्किटेक्चर प्रस्तावित करना: कारक ग्राफ-निर्देशित स्व-ध्यान और क्रॉस-ध्यान को AMP-शैली फ्रेमवर्क में एकीकृत करने वाला पहला MIMO डिटेक्टर
ग्राफ-जागरूक टोकनीकरण विधि: MIMO प्रणाली के भारित घने कारक ग्राफ को ट्रांसफॉर्मर प्रसंस्करण के लिए उपयुक्त दोहरे उप-ग्राफ प्रतिनिधित्व में परिवर्तित करना
सॉफ्ट इनपुट-सॉफ्ट आउटपुट इंटरफेस: अन्य रिसीवर मॉड्यूल से बाहरी पूर्वानुमान जानकारी को स्वाभाविक रूप से एकीकृत करना
प्रदर्शन सुधार: छोटी MIMO प्रणालियों में ML डिटेक्शन के निकट सटीकता प्राप्त करना, और बड़ी प्रणालियों में बेहतर द्विघात जटिलता वृद्धि प्रदर्शित करना

विधि विवरण

कार्य परिभाषा

इनपुट:

प्राप्त सिग्नल वेक्टर y ∈ R^(2Nr)
चैनल मैट्रिक्स H ∈ R^(2Nr×2Nt)
शोर विचरण जानकारी
वैकल्पिक पूर्व सॉफ्ट जानकारी (LLR)

आउटपुट:

बिट-स्तरीय पश्च संभावना अनुपात (LLR), चैनल डिकोडर के लिए उपयुक्त

बाधा: रैखिक प्रणाली मॉडल y = Hx + n, जहां n ~ N(0,Σ)

मॉडल आर्किटेक्चर

1. ग्राफ-जागरूक टोकनीकरण (Graph-Aware Tokenization)

MIMO कारक ग्राफ को दो उप-ग्राफ में विघटित करना:

रैखिक बाधा टोकन/उप-ग्राफ:

T_lin = {τ_j = (y_j, h_j, σ²_j) | j ∈ {1,...,2Nr}}

जहां h_j H की j-वीं पंक्ति है, प्राप्त सिग्नल और प्रेषित प्रतीकों के बीच स्थानीय संभावना बाधा को एन्कोड करता है।

प्रतीक टोकन/उप-ग्राफ:

T_sym = {x_i^(l) | i ∈ {1,...,2Nt}}

प्रेषित प्रतीकों के चर नोड्स के अनुरूप, क्रॉस-ध्यान के माध्यम से बाधा टोकन के साथ इंटरैक्ट करने के लिए क्वेरी एम्बेडिंग के रूप में कार्य करता है।

2. ध्यान तंत्र डिज़ाइन

स्व-ध्यान - संदर्भ एन्कोडिंग: समान टोकन सेट के भीतर शक्तिशाली संदर्भ एन्कोडिंग प्रदान करता है, समान इकाइयों के बीच संगति सुनिश्चित करता है:

t̃_j = ∑_{k=1}^N α_{jk} W^V t_k
α_{jk} = softmax((W^Q t_j)^T (W^K t_k) / √d_k)

क्रॉस-ध्यान - संदेश पारेषण: विषम टोकन प्रकारों के बीच निर्देशित संदेश पारेषण को लागू करता है:

t̃_j = ∑_i α_{ij} W^V t_i
α_{ij} = softmax((W^Q t_j)^T (W^K t_i) / √d_k)

3. सॉफ्ट इनपुट-सॉफ्ट आउटपुट इंटरफेस

सॉफ्ट इनपुट एम्बेडिंग मॉड्यूल:

प्रतीक टोकन: T_sym, आयाम 2Nt, Nbits/2
रैखिक बाधा टोकन: T_lin, आयाम 2Nr, 2Nt+2
समर्पित FFN के माध्यम से स्वतंत्र रूप से संसाधित और स्थिति एन्कोडिंग जोड़ा गया

सॉफ्ट आउटपुट मॉड्यूल:

एम्बेडिंग प्रतिनिधित्व प्राप्त करता है: आयाम 2Nt, d_model
FFN + Sigmoid सक्रियण के माध्यम से संसाधित
अंतिम सॉफ्ट आउटपुट उत्पन्न करता है: आयाम 2Nt, Nbits/2

तकनीकी नवाचार बिंदु

संरचित ध्यान डिज़ाइन: CrossMPT के विपरीत, SGT MIMO की समरूप उप-ग्राफ विशेषताओं के लिए, स्व-ध्यान और क्रॉस-ध्यान को जोड़ता है
सूचना संरक्षण लाभ: QR अपघटन का उपयोग करने वाली विधियों की तुलना में, ग्राफ-जागरूक टोकनीकरण अधिक प्रतीक-स्तरीय जानकारी को संरक्षित करता है
एकीकृत फ्रेमवर्क: AMP-प्रेरित अपडेट को ट्रांसफॉर्मर आर्किटेक्चर के साथ एकीकृत करता है, व्याख्यायोग्य संदेश पारेषण को लागू करता है

प्रायोगिक सेटअप

डेटासेट

चैनल मॉडल: पूर्ण CSI के तहत रेलीघ क्षीणन चैनल
मॉड्यूलेशन: QPSK (चतुर्भुज चरण शिफ्ट कीइंग)
प्रणाली कॉन्फ़िगरेशन: 8×8, 8×16, 16×16 MIMO प्रणालियां
शोर: योजक सफेद गाउसियन शोर

मूल्यांकन मेट्रिक्स

BER (बिट त्रुटि दर): बिट त्रुटि दर
प्रशिक्षण हानि: अभिसरण विश्लेषण
चलने का समय: कम्प्यूटेशनल दक्षता मूल्यांकन

तुलना विधियां

शास्त्रीय विधियां: LMMSE, OAMP, अधिकतम संभावना
गहन शिक्षा विधियां: OAMPNet2, DetNet
ट्रांसफॉर्मर विधियां: ट्रांसफॉर्मर-आधारित MIMO, RE-MIMO
विलोपन प्रयोग: क्रॉस-ध्यान के बिना संस्करण, केवल टोकनीकरण संस्करण

कार्यान्वयन विवरण

मॉडल आयाम: d_model = 128
नेटवर्क परतें: L = 8 परतें
प्रशिक्षण पैरामीटर: समान सीखने की दर, बैच आकार और प्रशिक्षण चरण
हार्डवेयर प्लेटफॉर्म: RTX 4090 GPU

प्रायोगिक परिणाम

मुख्य परिणाम

BER प्रदर्शन तुलना:

8×8 MIMO प्रणाली में, SGT OAMPNet2 और ट्रांसफॉर्मर-आधारित MIMO से काफी बेहतर है
8×16 और 16×16 प्रणालियों में प्रदर्शन लाभ बनाए रखता है
ML डिटेक्शन की ऊपरी सीमा प्रदर्शन के करीब है

चलने का समय विश्लेषण (RTX 4090 GPU, 1000 नमूने):

विधि	8×8	8×16	16×16
LMMSE	0.00679s	0.00718s	0.00742s
OAMP	0.02208s	0.02234s	0.02408s
OAMPNet2	0.03333s	0.03415s	0.03507s
ट्रांसफॉर्मर-आधारित MIMO	0.03844s	0.03924s	0.04028s
SGT (प्रस्तावित)	0.09351s	0.09464s	0.09498s

विलोपन प्रयोग

ग्राफ-जागरूक टोकनीकरण का प्रभाव:

पूर्ण टोकनीकरण छोटी प्रणालियों (8×8) में कम अंतिम हानि प्राप्त करता है
विस्तृत प्रतीक-स्तरीय जानकारी को संरक्षित करने की क्षमता को सत्यापित करता है
बड़ी प्रणालियों में क्रॉस-ध्यान के साथ सहयोग की आवश्यकता है

क्रॉस-ध्यान का योगदान:

तेजी से अभिसरण और बेहतर अंतिम सटीकता को लागू करता है
QR प्रीप्रोसेसिंग के समान मार्गदर्शन प्रदान करता है, लेकिन पूरी तरह से सीखने योग्य है
बड़ी प्रणालियों में प्रशिक्षण स्थिरता को कम करता है

जटिलता विश्लेषण

स्पर्शोन्मुख जटिलता तुलना:

विधि	जटिलता	वृद्धि प्रवृत्ति
ML डिटेक्शन	O(M^Nt)	घातीय
OAMP/OAMPNet	O(KNrNt²)	घन
ट्रांसफॉर्मर-आधारित MIMO	O(NrNt² + LNt²dmodel)	घन
SGT	L·O(Nr² + Nt² + NrNt)·dmodel	द्विघात

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

SGT ट्रांसफॉर्मर की संदर्भ मॉडलिंग क्षमता और कारक ग्राफ के संरचित संदेश पारेषण को सफलतापूर्वक जोड़ता है
छोटी MIMO प्रणालियों में ML प्रदर्शन के निकट प्राप्त करता है, कम्प्यूटेशनल दक्षता बनाए रखते हुए
सॉफ्ट इनपुट-सॉफ्ट आउटपुट इंटरफेस अन्य रिसीवर मॉड्यूल के साथ एकीकरण के लिए लचीलापन प्रदान करता है
द्विघात जटिलता वृद्धि इसे बड़ी प्रणालियों में अधिक स्केलेबल बनाती है

सीमाएं

कम्प्यूटेशनल ओवरहेड: हालांकि जटिलता वृद्धि बेहतर है, लेकिन पूर्ण चलने का समय अभी भी पारंपरिक विधियों से अधिक है
बड़े पैमाने पर सत्यापन: अति-बड़े MIMO सेटिंग में डिटेक्शन प्रदर्शन को आगे के अनुसंधान की आवश्यकता है
सैद्धांतिक विश्लेषण: कठोर सैद्धांतिक अभिसरण विश्लेषण की कमी है
चैनल अनुकूलन: मुख्य रूप से रेलीघ क्षीणन चैनल के तहत सत्यापित, अन्य चैनल मॉडल की अनुकूलन क्षमता की जांच की आवश्यकता है

भविष्य की दिशाएं

कम्प्यूटेशनल दक्षता को आगे अनुकूलित करना, पूर्ण चलने का समय कम करना
बड़ी MIMO प्रणालियों में सत्यापन के लिए विस्तारित करना
विभिन्न चैनल स्थितियों में मजबूतता का अनुसंधान करना
अन्य रिसीवर घटकों के साथ संयुक्त अनुकूलन

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: कारक ग्राफ संरचना को ट्रांसफॉर्मर में स्पष्ट रूप से एकीकृत करने वाला पहला, नवीन डिज़ाइन
ठोस सैद्धांतिक आधार: AMP फ्रेमवर्क के संदेश पारेषण का ठोस सैद्धांतिक समर्थन है
व्यापक प्रयोग: विस्तृत विलोपन प्रयोग और जटिलता विश्लेषण शामिल हैं
उच्च व्यावहारिक मूल्य: सॉफ्ट इनपुट-सॉफ्ट आउटपुट इंटरफेस प्रणाली एकीकरण की लचीलापन बढ़ाता है
स्पष्ट लेखन: तकनीकी विवरण सटीक हैं, ग्राफ सहज हैं

कमियां

सीमित प्रदर्शन सुधार: Baseline की तुलना में सुधार सुसंगत है लेकिन परिमाण छोटा है
कम्प्यूटेशनल दक्षता: वास्तविक चलने का समय पारंपरिक विधियों से 2-3 गुना अधिक है
सीमित सत्यापन: मुख्य रूप से छोटी प्रणालियों और विशिष्ट चैनल स्थितियों में सत्यापित
अपर्याप्त सैद्धांतिक विश्लेषण: अभिसरण और इष्टतमता के सैद्धांतिक गारंटी की कमी है
अपूर्ण तुलना: नवीनतम गहन शिक्षा MIMO डिटेक्शन विधियों के साथ तुलना की कमी है

प्रभाव

शैक्षणिक योगदान: संरचित सिग्नल प्रसंस्करण समस्याओं में ट्रांसफॉर्मर के अनुप्रयोग के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: अगली पीढ़ी के गहन शिक्षा MIMO डिटेक्टर के लिए व्याख्यायोग्य फ्रेमवर्क प्रदान करता है
पुनरुत्पादनीयता: तकनीकी विवरण पूर्ण हैं, पुनरुत्पादन और विस्तार में आसान है

लागू परिदृश्य

छोटी से मध्यम MIMO प्रणालियां: स्पष्ट प्रदर्शन लाभ
सॉफ्ट जानकारी इंटरैक्शन की आवश्यकता वाली रिसीवर प्रणालियां: SISO इंटरफेस लचीलापन प्रदान करता है
व्याख्यायोग्यता की आवश्यकता वाले अनुप्रयोग: संरचित डिज़ाइन समझ और डिबगिंग में आसान है
अनुसंधान प्रोटोटाइप प्रणालियां: आगे के एल्गोरिदम विकास के लिए आधार प्रदान करता है

संदर्भ

पेपर MIMO डिटेक्शन, संदेश पारेषण एल्गोरिदम, गहन शिक्षा और ट्रांसफॉर्मर क्षेत्रों के महत्वपूर्ण साहित्य का हवाला देता है, विशेष रूप से:

AMP श्रृंखला एल्गोरिदम के मूल साहित्य 1-3
गहन प्रकटीकरण विधि के प्रतिनिधि कार्य 4-6
ट्रांसफॉर्मर आर्किटेक्चर का मूल पेपर 7
संबंधित ट्रांसफॉर्मर-आधारित संचार प्रणाली कार्य 8-11

समग्र मूल्यांकन: यह एक तकनीकी नवाचार के साथ एक मजबूत पेपर है, जो ट्रांसफॉर्मर आर्किटेक्चर को MIMO डिटेक्शन के कारक ग्राफ संरचना के साथ सफलतापूर्वक जोड़ता है, और SGT विधि प्रस्तावित करता है जिसका सैद्धांतिक आधार और व्यावहारिक मूल्य है। हालांकि कम्प्यूटेशनल दक्षता और प्रदर्शन सुधार के परिमाण में सुधार की गुंजाइश है, लेकिन यह संरचित सिग्नल प्रसंस्करण समस्याओं में गहन शिक्षा के अनुप्रयोग के लिए मूल्यवान अन्वेषण प्रदान करता है।