This paper investigates adaptive transmission strategies in embodied AI-enhanced vehicular networks by integrating large language models (LLMs) for semantic information extraction and deep reinforcement learning (DRL) for decision-making. The proposed framework aims to optimize both data transmission efficiency and decision accuracy by formulating an optimization problem that incorporates the Weber-Fechner law, serving as a metric for balancing bandwidth utilization and quality of experience (QoE). Specifically, we employ the large language and vision assistant (LLAVA) model to extract critical semantic information from raw image data captured by embodied AI agents (i.e., vehicles), reducing transmission data size by approximately more than 90\% while retaining essential content for vehicular communication and decision-making. In the dynamic vehicular environment, we employ a generalized advantage estimation-based proximal policy optimization (GAE-PPO) method to stabilize decision-making under uncertainty. Simulation results show that attention maps from LLAVA highlight the model's focus on relevant image regions, enhancing semantic representation accuracy. Additionally, our proposed transmission strategy improves QoE by up to 36\% compared to DDPG and accelerates convergence by reducing required steps by up to 47\% compared to pure PPO. Further analysis indicates that adapting semantic symbol length provides an effective trade-off between transmission quality and bandwidth, achieving up to a 61.4\% improvement in QoE when scaling from 4 to 8 vehicles.
- पेपर ID: 2501.01141
- शीर्षक: Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method
- लेखक: Ruichen Zhang, Changyuan Zhao, Hongyang Du, Dusit Niyato, Jiacheng Wang, Suttinee Sawadsitang, Xuemin Shen, Dong In Kim
- वर्गीकरण: cs.NI (नेटवर्किंग और इंटरनेट आर्किटेक्चर)
- प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.01141
यह पेपर बड़े भाषा मॉडल (LLMs) द्वारा शब्दार्थ सूचना निष्कर्षण और गहन सुदृढीकरण शिक्षा (DRL) द्वारा निर्णय लेने के माध्यम से मूर्त AI-संवर्धित वाहन नेटवर्क में अनुकूली संचरण रणनीतियों का अध्ययन करता है। यह ढांचा Weber-Fechner नियम को शामिल करते हुए अनुकूलन समस्या तैयार करके बैंडविड्थ उपयोग और उपयोगकर्ता अनुभव गुणवत्ता (QoE) को संतुलित करने का लक्ष्य रखता है। विशेष रूप से, बड़े भाषा और दृश्य सहायक (LLAVA) मॉडल का उपयोग मूर्त AI एजेंटों (अर्थात् वाहनों) द्वारा कैप्चर किए गए कच्चे छवि डेटा से महत्वपूर्ण शब्दार्थ जानकारी निकालने के लिए किया जाता है, जबकि संचरण डेटा आकार को 90% से अधिक कम करते हुए वाहन नेटवर्क संचार और निर्णय लेने के लिए आवश्यक मूल सामग्री को संरक्षित करता है। गतिशील वाहन नेटवर्क वातावरण में, सामान्यीकृत लाभ अनुमान (GAE) के साथ निकट नीति अनुकूलन (GAE-PPO) विधि का उपयोग अनिश्चितता के तहत निर्णय लेने को स्थिर करने के लिए किया जाता है।
6G युग के आगमन के साथ, वाहन नेटवर्क (IoV) से अभूतपूर्व प्रगति की अपेक्षा की जाती है, जिसमें ट्रैफिक घनत्व 0.1-10 Gbps/m² से अधिक और कनेक्शन घनत्व प्रति वर्ग किलोमीटर 10 मिलियन डिवाइस तक पहुंचता है। ये सुधार डेटा दर, कनेक्टिविटी और नेटवर्क क्षमता को महत्वपूर्ण रूप से बढ़ाएंगे, जो वास्तविक समय नेविगेशन, पर्यावरण जागरूकता और स्वायत्त निर्णय लेने जैसी IoV सेवाओं को मौलिक रूप से बदल देंगे।
- डेटा प्रसंस्करण चुनौतियाँ: जुड़े हुए वाहनों की संख्या में वृद्धि के साथ, बड़ी मात्रा में वास्तविक समय डेटा एकत्र और संसाधित करने के लिए कई सेंसर तैनात करने की आवश्यकता है, जहां पारंपरिक विभेदक AI मॉडल गतिशील परिस्थितियों में उच्च प्रदर्शन बनाए रखने में कठिनाई का सामना करते हैं।
- संचरण दक्षता समस्या: कच्चे सेंसर डेटा संचरण को बड़ी बैंडविड्थ की आवश्यकता होती है, और सूचना गुणवत्ता सुनिश्चित करते हुए डेटा संचरण मात्रा को कम करना एक महत्वपूर्ण चुनौती है।
- निर्णय लेने की जटिलता: वाहन नेटवर्क वातावरण अत्यधिक गतिशील है, जिसके लिए पर्यावरण परिवर्तनों के अनुकूल होने वाली बुद्धिमान निर्णय लेने की प्रणाली की आवश्यकता है।
- पारंपरिक विधियां मुख्य रूप से स्पेक्ट्रम दक्षता, विलंबता और सुरक्षा जैसे पारंपरिक प्रदर्शन संकेतकों पर ध्यान केंद्रित करती हैं
- शब्दार्थ डेटा संचरण और निर्णय लेने की दक्षता पर विचार की कमी
- वाहन नेटवर्क संसाधन अनुकूलन में LLMs और DRL के एकीकृत अनुप्रयोग का अपर्याप्त अन्वेषण
- डेटा संचरण मॉडलिंग: डेटा संचरण दक्षता और निर्णय लेने की सटीकता को संतुलित करने वाली अनुकूलन समस्या तैयार की गई है, जिसमें Weber-Fechner नियम को उपयोगकर्ता अनुभव गुणवत्ता (QoE) को मापने के लिए एक संकेतक के रूप में पेश किया गया है।
- LLM-आधारित शब्दार्थ डेटा प्रसंस्करण: LLAVA का उपयोग कच्चे छवि डेटा से शब्दार्थ जानकारी निकालने के लिए किया जाता है, जो संचरण बैंडविड्थ को महत्वपूर्ण रूप से कम करता है जबकि वाहन नेटवर्क संचार और निर्णय लेने के लिए आवश्यक मूल संदर्भ विवरण को संरक्षित करता है।
- DRL-आधारित संवर्धित निर्णय लेना: गतिशील वाहन नेटवर्क वातावरण में निर्णय लेने में सुधार के लिए GAE-PPO विधि का प्रस्ताव दिया गया है, जो नीति ढाल अपडेट के विचरण को कम करके प्रशिक्षण प्रक्रिया को स्थिर करता है।
- अग्रणी कार्य: लेखकों के ज्ञान के अनुसार, यह मूर्त AI-संवर्धित वाहन नेटवर्क में LLMs डेटा प्रसंस्करण और DRL निर्णय लेने के संयुक्त अनुप्रयोग की खोज करने वाला पहला कार्य है।
शहरी वातावरण में सेलुलर नेटवर्क-आधारित वाहन नेटवर्क संचार नेटवर्क पर विचार करें, जहां I वाहन मूर्त AI प्रणालियों से सुसज्जित हैं जो बेस स्टेशन (BS) संचार रेंज के भीतर चलते हैं। नेटवर्क में W वाहन-से-बुनियादी ढांचा (V2I) लिंक और Q वाहन-से-वाहन (V2V) लिंक शामिल हैं।
उद्देश्य: संचरण शक्ति, शब्दार्थ प्रतीक आवंटन और चैनल उपयोग को अनुकूलित करना, QoE को अधिकतम करते हुए कुशल संसाधन उपयोग सुनिश्चित करना।
आर्किटेक्चर डिजाइन:
- दृश्य एनकोडर: छवि को विशेषता वेक्टर में परिवर्तित करने के लिए विपरीत भाषा-छवि प्रशिक्षण (CLIP) दृश्य एनकोडर का उपयोग करें:
- प्रक्षेपण मैट्रिक्स: प्रशिक्षणीय रैखिक प्रक्षेपण मैट्रिक्स W के माध्यम से विशेषताओं को भाषा मॉडल शब्द एम्बेडिंग स्पेस में प्रक्षेपित करें:
- शब्दार्थ निष्कर्षण: LLAVA मॉडल के माध्यम से शब्दार्थ जानकारी उत्पन्न करें:
मॉडल सूक्ष्म-ट्यूनिंग:
- हानि फ़ंक्शन:
L = Σ||Mi - M̂i||² - क्रॉस-एंट्रॉपी हानि:
LCE = Σq(vi,l)log p(vi,l)
MDP डिजाइन:
- कार्य स्पेस:
at = [{bq[w]}, {P^V2V_q[w]}, {uq}] (आयाम: 3Q) - स्थिति स्पेस:
st = [{H^(w)_i}, {γ^V2V_q(t)}, {γ^V2I_w(t)}] (आयाम: 2W+Q) - पुरस्कार फ़ंक्शन: QoE-आधारित पुरस्कार, बाधा उल्लंघन दंड शर्तें शामिल हैं
GAE-PPO एल्गोरिथ्म:
- एजेंट उद्देश्य फ़ंक्शन:
J(θA) = Et[ρt(θA)A^π_θold_A_t] - क्लिप किया गया उद्देश्य:
Jclip(θA) = Et[min(ρt(θA)A^π_θold_A_t, clip(ρt(θA), 1-ε, 1+ε)A^π_θold_A_t)] - सामान्यीकृत लाभ अनुमान:
A^π_θold_A_t = Σ(γλ)^l δt+l
- Weber-Fechner नियम QoE मॉडलिंग: पहली बार मनोभौतिकी नियम को वाहन नेटवर्क QoE मूल्यांकन में पेश किया गया, जो उपयोगकर्ता द्वारा माना जाने वाली गुणवत्ता को अधिक सटीक रूप से प्रतिबिंबित करता है।
- क्रॉस-मोडल शब्दार्थ संपीड़न: LLAVA के माध्यम से छवि-से-पाठ शब्दार्थ रूपांतरण, 90% से अधिक डेटा संपीड़न दर।
- स्थिरीकृत सुदृढीकरण शिक्षा: GAE तंत्र गतिशील वातावरण में PPO एल्गोरिथ्म के अभिसरण स्थिरता को महत्वपूर्ण रूप से बढ़ाता है।
- पाठ डेटासेट: यूरोपीय संसद डेटासेट, लगभग 2 मिलियन वाक्य और 53 मिलियन शब्द शामिल हैं
- छवि डेटासेट: 30 ड्राइविंग दृश्य छवियां, शब्दार्थ निष्कर्षण मूल्यांकन के लिए
- LLAVA मॉडल: LLAVA-v1.5-7B, 7 बिलियन समायोज्य पैरामीटर शामिल हैं
- शब्दार्थ समानता: BERT एम्बेडिंग का उपयोग करके कोसाइन समानता
- QoE: Weber-Fechner नियम के आधार पर उपयोगकर्ता अनुभव गुणवत्ता
- अभिसरण प्रदर्शन: संचयी पुरस्कार और अभिसरण चरण
- संचरण दक्षता: SINR, शक्ति आवंटन, आदि
- LLM मॉडल तुलना: LLAVA-1.5-13b-hf, Qwen-VL-Chat, Deepseek-vl-7b-base, Moondream2
- DRL एल्गोरिथ्म तुलना: Pure PPO, DDPG, Random Policy
- नेटवर्क आर्किटेक्चर: 3-परत Transformer, 8 ध्यान सिर, ReLU सक्रियण
- अनुकूलक: Adam अनुकूलक, सीखने की दर 1×10⁻⁴ से 1×10⁻⁸
- GAE-PPO पैरामीटर: γ=0.99, ε=0.5, λ₁=λ₂=1
- पैरामीटर दक्षता: LLAVA-1.5-7b-hf LLAVA-1.5-13b-hf की तुलना में 46.2% कम पैरामीटर
- अनुमान समय: LLAVA-1.5-13b-hf की तुलना में औसतन 40% तेज
- शब्दार्थ सटीकता: पार्किंग स्पॉट पहचान कार्य में सर्वोत्तम प्रदर्शन
- अभिसरण प्रदर्शन: शुद्ध PPO की तुलना में लगभग 61% संचयी पुरस्कार वृद्धि
- QoE सुधार: DDPG की तुलना में 36% वृद्धि, 8-वाहन परिदृश्य में शुद्ध PPO की तुलना में महत्वपूर्ण वृद्धि
- अभिसरण गति: क्रमशः वाहन 1, 2, 3 के लिए 10, 23, 54 चरण अभिसरण समय में कमी
- 4→8 वाहन: QoE में 61.4% वृद्धि
- 8→12 वाहन: QoE में 31.9% वृद्धि
- 12→16 वाहन: QoE में 25.2% वृद्धि
- SINR और वाक्य लंबाई संबंध: उच्च SINR वातावरण में, वाक्य लंबाई SSIM को कम प्रभावित करती है; निम्न SINR वातावरण में, छोटे वाक्य उच्च SSIM बनाए रखते हैं
- ध्यान तंत्र विश्लेषण: LLAVA ध्यान मानचित्र सटीक रूप से प्रासंगिक छवि क्षेत्रों पर ध्यान केंद्रित करते हैं, जैसे वाहन और पार्किंग स्पॉट
शब्दार्थ निष्कर्षण उदाहरण:
- मूल छवि: 614KB → निकाला गया पाठ: 12.1KB (संपीड़न दर >98%)
- सटीक पहचान: "चार पार्किंग स्पॉट, तीन व्यस्त, एक खाली"
- स्थान विवरण: "खाली पार्किंग स्पॉट लाल कार और पीली कार के बीच स्थित है"
- स्पेक्ट्रम साझाकरण: V2V और V2I संचार को अनुकूलित करने के लिए बहु-एजेंट सुदृढीकरण शिक्षा ढांचा
- शक्ति आवंटन: URLLC शक्ति आवंटन समस्या को हल करने के लिए DRL
- सुरक्षित संचरण: संयुक्त रडार संचार प्रणाली के लिए सुरक्षित संचरण योजना
- डेटा निष्कर्षण: बहु-मोडल डेटा के कुशल प्रसंस्करण और संचरण के लिए LLM
- निर्णय लेना: गतिशील वातावरण में अनुकूली रणनीति विकसित करने के लिए DRL
- एकीकृत विधि: मूर्त वातावरण निर्णय लेने के लिए LLM और DRL का संयोजन
- प्रभावशीलता सत्यापन: प्रस्तावित मूर्त AI ढांचा संचरण दक्षता, अभिसरण गति और प्रणाली प्रदर्शन के सभी पहलुओं में पारंपरिक विधियों से बेहतर है
- शब्दार्थ संपीड़न लाभ: LLAVA 90% से अधिक डेटा संपीड़न दर प्राप्त करता है, जबकि शब्दार्थ पूर्णता बनाए रखता है
- निर्णय स्थिरता: GAE-PPO गतिशील वातावरण में निर्णय लेने की स्थिरता और अभिसरण प्रदर्शन को महत्वपूर्ण रूप से बढ़ाता है
- कम्प्यूटेशनल जटिलता: समग्र जटिलता O(L²·d + L·d²) + O(T·Σnp-1·np) है, संसाधन-सीमित वातावरण में चुनौतियों का सामना कर सकता है
- डेटासेट आकार: प्रयोग में उपयोग की गई छवि डेटासेट अपेक्षाकृत छोटी है (30 छवियां), जो सामान्यीकरण क्षमता को प्रभावित कर सकती है
- व्यावहारिक तैनाती: वास्तविक वाहन नेटवर्क वातावरण में सत्यापन की कमी
- एल्गोरिथ्म अनुकूलन: कम्प्यूटेशनल जटिलता को और कम करना, किनारे कंप्यूटिंग वातावरण के अनुकूल
- डेटासेट विस्तार: अधिक बड़े पैमाने पर, अधिक विविध वाहन नेटवर्क परिदृश्य डेटासेट का निर्माण
- व्यावहारिक सत्यापन: वास्तविक वाहन नेटवर्क testbed में ढांचे के प्रदर्शन को सत्यापित करना
- मजबूत नवाचार: पहली बार LLM और DRL को मूर्त AI वाहन नेटवर्क के लिए एकीकृत किया गया, तकनीकी मार्ग नवीन है
- सैद्धांतिक योगदान: Weber-Fechner नियम को QoE मॉडलिंग में पेश किया गया, वाहन नेटवर्क प्रदर्शन मूल्यांकन के लिए नया दृष्टिकोण प्रदान करता है
- पर्याप्त प्रयोग: बहु-आयामी तुलनात्मक प्रयोग, विभिन्न LLM मॉडल, DRL एल्गोरिथ्म और स्केलेबिलिटी विश्लेषण सहित
- व्यावहारिक मूल्य: महत्वपूर्ण डेटा संपीड़न दर और प्रदर्शन सुधार व्यावहारिक अनुप्रयोग क्षमता रखते हैं
- जटिलता विश्लेषण अपर्याप्त: हालांकि सैद्धांतिक जटिलता विश्लेषण प्रदान किया गया है, वास्तविक रन-टाइम और ऊर्जा खपत मूल्यांकन की कमी है
- दृढ़ता सत्यापन सीमित: विरोधी वातावरण और चरम परिस्थितियों में प्रदर्शन सत्यापन की कमी
- लागत-लाभ विश्लेषण: तैनाती लागत और प्रदर्शन लाभ के बीच व्यापार-बंद पर अपर्याप्त चर्चा
- शैक्षणिक मूल्य: वाहन नेटवर्क में मूर्त AI के अनुप्रयोग के लिए नई अनुसंधान दिशा प्रदान करता है
- व्यावहारिक संभावना: 6G वाहन नेटवर्क, स्वायत्त ड्राइविंग आदि क्षेत्रों में व्यापक अनुप्रयोग संभावना
- पुनरुत्पादनीयता: विस्तृत पैरामीटर सेटिंग और एल्गोरिथ्म विवरण प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है
- बुद्धिमान परिवहन प्रणाली: वास्तविक समय ट्रैफिक सूचना प्रसंस्करण और निर्णय लेना
- स्वायत्त ड्राइविंग: पर्यावरण जागरूकता और पथ योजना अनुकूलन
- किनारे कंप्यूटिंग: संसाधन-सीमित वातावरण में कुशल डेटा प्रसंस्करण
- 6G नेटवर्क: अगली पीढ़ी के मोबाइल नेटवर्क में बुद्धिमान संसाधन प्रबंधन
पेपर में 51 संबंधित संदर्भ उद्धृत हैं, मुख्य रूप से शामिल हैं:
- वाहन नेटवर्क संचार अनुकूलन संबंधित कार्य 15-19
- मूर्त AI और LLM अनुप्रयोग अनुसंधान 20-29
- गहन सुदृढीकरण शिक्षा विधि 39-43
- शब्दार्थ संचार और QoE मॉडलिंग 33-36
समग्र मूल्यांकन: यह मूर्त AI वाहन नेटवर्क क्षेत्र में एक अग्रणी कार्य है, तकनीकी मार्ग नवीन है, प्रायोगिक सत्यापन पर्याप्त है, और महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक संभावना है। हालांकि जटिलता अनुकूलन और व्यावहारिक तैनाती सत्यापन में सुधार की गुंजाइश है, लेकिन यह क्षेत्र के विकास के लिए महत्वपूर्ण सैद्धांतिक आधार और तकनीकी संदर्भ प्रदान करता है।