This paper investigates adaptive transmission strategies in embodied AI-enhanced vehicular networks by integrating large language models (LLMs) for semantic information extraction and deep reinforcement learning (DRL) for decision-making. The proposed framework aims to optimize both data transmission efficiency and decision accuracy by formulating an optimization problem that incorporates the Weber-Fechner law, serving as a metric for balancing bandwidth utilization and quality of experience (QoE). Specifically, we employ the large language and vision assistant (LLAVA) model to extract critical semantic information from raw image data captured by embodied AI agents (i.e., vehicles), reducing transmission data size by approximately more than 90\% while retaining essential content for vehicular communication and decision-making. In the dynamic vehicular environment, we employ a generalized advantage estimation-based proximal policy optimization (GAE-PPO) method to stabilize decision-making under uncertainty. Simulation results show that attention maps from LLAVA highlight the model's focus on relevant image regions, enhancing semantic representation accuracy. Additionally, our proposed transmission strategy improves QoE by up to 36\% compared to DDPG and accelerates convergence by reducing required steps by up to 47\% compared to pure PPO. Further analysis indicates that adapting semantic symbol length provides an effective trade-off between transmission quality and bandwidth, achieving up to a 61.4\% improvement in QoE when scaling from 4 to 8 vehicles.
- معرّف الورقة: 2501.01141
- العنوان: Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method
- المؤلفون: Ruichen Zhang, Changyuan Zhao, Hongyang Du, Dusit Niyato, Jiacheng Wang, Suttinee Sawadsitang, Xuemin Shen, Dong In Kim
- التصنيف: cs.NI (هندسة الشبكات والإنترنت)
- تاريخ النشر: 2 يناير 2025 (نسخة arXiv المسبقة)
- رابط الورقة: https://arxiv.org/abs/2501.01141
تبحث هذه الورقة في استراتيجيات النقل التكيفية في شبكات المركبات المحسّنة بالذكاء الاصطناعي المجسّد من خلال دمج نماذج اللغة الكبيرة (LLMs) لاستخراج المعلومات الدلالية والتعلم المعزز العميق (DRL) لاتخاذ القرارات. يهدف الإطار إلى موازنة استخدام النطاق الترددي وجودة تجربة المستخدم (QoE) من خلال صياغة مشكلة تحسين تتضمن قانون Weber-Fechner، مما يحسّن كفاءة نقل البيانات ودقة اتخاذ القرارات. على وجه التحديد، يتم استخدام نموذج مساعد اللغة والرؤية الكبير (LLAVA) لاستخراج المعلومات الدلالية الحرجة من بيانات الصور الخام التي تلتقطها وكلاء الذكاء الاصطناعي المجسّد (أي المركبات)، مما يقلل حجم البيانات المنقولة بأكثر من 90% مع الحفاظ على المحتوى الأساسي المطلوب للاتصالات واتخاذ القرارات في شبكات المركبات. في بيئة شبكات المركبات الديناميكية، يتم استخدام طريقة تحسين السياسة القريبة المستندة إلى التقدير المعمم للميزة (GAE-PPO) لتثبيت اتخاذ القرارات تحت عدم اليقين.
مع قدوم عصر 6G، من المتوقع أن تحقق شبكات المركبات (IoV) تقدماً غير مسبوق، مع كثافة حركة تتجاوز 0.1-10 جيجابت/ثانية/م²، وكثافة اتصال تصل إلى 10 ملايين جهاز لكل كيلومتر مربع. ستحسّن هذه التحسينات بشكل كبير معدلات البيانات والاتصالية وسعة الشبكة، مما يغيّر بشكل جذري خدمات IoV مثل الملاحة في الوقت الفعلي والوعي البيئي واتخاذ القرارات المستقلة.
- تحديات معالجة البيانات: مع نمو عدد المركبات المتصلة، يلزم نشر عدد كبير من أجهزة الاستشعار لجمع ومعالجة كميات ضخمة من البيانات في الوقت الفعلي، حيث تواجه نماذج الذكاء الاصطناعي التمييزية التقليدية صعوبة في الحفاظ على الأداء العالي في الظروف الديناميكية.
- مشاكل كفاءة النقل: يتطلب نقل بيانات أجهزة الاستشعار الخام نطاقاً ترددياً كبيراً، وأصبح كيفية تقليل حجم نقل البيانات مع ضمان جودة المعلومات تحدياً رئيسياً.
- تعقيد اتخاذ القرارات: بيئة شبكات المركبات ديناميكية للغاية، وتتطلب نظام اتخاذ قرارات ذكياً يتكيف في الوقت الفعلي مع التغييرات البيئية.
- تركز الطرق التقليدية بشكل أساسي على مؤشرات الأداء التقليدية مثل كفاءة الطيف والتأخير والأمان
- تفتقر إلى الاعتبار الكافي لنقل البيانات الدلالية وكفاءة اتخاذ القرارات
- لم تستكشف بشكل كافٍ التطبيق المتكامل لـ LLMs و DRL في تحسين موارد شبكات المركبات
- نمذجة نقل البيانات: صياغة مشكلة تحسين توازن كفاءة نقل البيانات ودقة اتخاذ القرارات، مع إدخال قانون Weber-Fechner كمؤشر لقياس جودة تجربة المستخدم (QoE).
- معالجة البيانات الدلالية المستندة إلى LLM: الاستفادة من LLAVA لاستخراج المعلومات الدلالية من بيانات الصور الخام، مما يقلل بشكل كبير من نطاق النقل الترددي مع الحفاظ على تفاصيل السياق الأساسية المطلوبة للاتصالات واتخاذ القرارات في شبكات المركبات.
- تحسين القرارات المستند إلى DRL: اقتراح طريقة GAE-PPO لتحسين اتخاذ القرارات في بيئة شبكات المركبات الديناميكية، حيث يقلل التقدير المعمم للميزة من تباين تحديثات تدرج السياسة ويثبت عملية التدريب.
- عمل رائد: حسب علم المؤلفين، هذا هو أول عمل يستكشف التطبيق المشترك لمعالجة البيانات بواسطة LLMs واتخاذ القرارات بواسطة DRL في شبكات المركبات المحسّنة بالذكاء الاصطناعي المجسّد.
يتم النظر في شبكة اتصالات شبكات مركبات قائمة على الشبكات الخلوية في بيئة حضرية، حيث تسير I مركبة مجهزة بأنظمة ذكاء اصطناعي مجسّد ضمن نطاق اتصال محطة القاعدة (BS). تتضمن الشبكة W رابط من مركبة إلى بنية تحتية (V2I) و Q رابط من مركبة إلى مركبة (V2V).
الهدف: تحسين قوة النقل وتخصيص الرموز الدلالية واستخدام القنوات، لتعظيم QoE مع ضمان استخدام فعال للموارد.
تصميم المعمارية:
- مشفّر الرؤية: استخدام مشفّر الرؤية للتدريب المسبق على التباين بين اللغة والصور (CLIP) لتحويل الصور إلى متجهات الميزات:
- مصفوفة الإسقاط: إسقاط الميزات إلى فضاء تضمين نموذج اللغة من خلال مصفوفة إسقاط خطية قابلة للتدريب W:
- استخراج الدلالات: توليد المعلومات الدلالية من خلال نموذج LLAVA:
ضبط النموذج:
- دالة الخسارة:
L = Σ||Mi - M̂i||² - خسارة الإنتروبيا المتقاطعة:
LCE = Σq(vi,l)log p(vi,l)
تصميم MDP:
- فضاء الإجراء:
at = [{bq[w]}, {P^V2V_q[w]}, {uq}] (البعد: 3Q) - فضاء الحالة:
st = [{H^(w)_i}, {γ^V2V_q(t)}, {γ^V2I_w(t)}] (البعد: 2W+Q) - دالة المكافأة: مكافأة مستندة إلى QoE، تتضمن شروط عقوبة انتهاك القيود
خوارزمية GAE-PPO:
- دالة هدف الوكيل:
J(θA) = Et[ρt(θA)A^π_θold_A_t] - الهدف المقطوع:
Jclip(θA) = Et[min(ρt(θA)A^π_θold_A_t, clip(ρt(θA), 1-ε, 1+ε)A^π_θold_A_t)] - التقدير المعمم للميزة:
A^π_θold_A_t = Σ(γλ)^l δt+l
- نمذجة QoE بقانون Weber-Fechner: أول استخدام لقانون من علم النفس الفيزيائي في تقييم QoE لشبكات المركبات، مما يعكس بشكل أكثر دقة جودة الإدراك لدى المستخدم.
- الضغط الدلالي متعدد الأنماط: تحقيق تحويل دلالي من الصور إلى النصوص من خلال LLAVA، مع معدل ضغط يتجاوز 90%.
- تعلم معزز مستقر: آلية GAE تحسّن بشكل كبير من استقرار التقارب لخوارزمية PPO في البيئات الديناميكية.
- مجموعة البيانات النصية: مجموعة بيانات البرلمان الأوروبي، تتضمن حوالي مليوني جملة و53 مليون كلمة
- مجموعة بيانات الصور: 30 صورة من مشاهد القيادة، لتقييم استخراج الدلالات
- نموذج LLAVA: LLAVA-v1.5-7B، يتضمن 7 مليارات معامل قابل للتعديل
- التشابه الدلالي: استخدام التشابه الكوسيني لتضمينات BERT
- QoE: جودة تجربة المستخدم المستندة إلى قانون Weber-Fechner
- أداء التقارب: المكافأة التراكمية وخطوات التقارب
- كفاءة النقل: SINR وتخصيص القوة وغيرها
- مقارنة نماذج LLM: LLAVA-1.5-13b-hf, Qwen-VL-Chat, Deepseek-vl-7b-base, Moondream2
- مقارنة خوارزميات DRL: Pure PPO, DDPG, Random Policy
- معمارية الشبكة: 3 طبقات Transformer، 8 رؤوس انتباه، تفعيل ReLU
- المُحسِّن: محسِّن Adam، معدل التعلم من 1×10⁻⁴ إلى 1×10⁻⁸
- معاملات GAE-PPO: γ=0.99, ε=0.5, λ₁=λ₂=1
- كفاءة المعاملات: LLAVA-1.5-7b-hf يقلل المعاملات بنسبة 46.2% مقارنة بـ LLAVA-1.5-13b-hf
- وقت الاستدلال: أسرع بمتوسط 40% من LLAVA-1.5-13b-hf
- دقة الدلالات: أفضل أداء في مهمة تحديد أماكن وقوف السيارات
- أداء التقارب: تحسّن المكافأة التراكمية بحوالي 61% مقارنة بـ PPO النقي
- تحسّن QoE: تحسّن بنسبة 36% مقارنة بـ DDPG، وتحسّن ملحوظ مقارنة بـ PPO النقي في سيناريو 8 مركبات
- سرعة التقارب: تقليل وقت التقارب بمقدار 10 و23 و54 خطوة للمركبات 1 و2 و3 على التوالي
- من 4 إلى 8 مركبات: تحسّن QoE بنسبة 61.4%
- من 8 إلى 12 مركبة: تحسّن QoE بنسبة 31.9%
- من 12 إلى 16 مركبة: تحسّن QoE بنسبة 25.2%
- العلاقة بين SINR وطول الجملة: في بيئات SINR العالية، يكون تأثير طول الجملة على SSIM أقل؛ في بيئات SINR المنخفضة، تحافظ الجمل القصيرة على SSIM أعلى
- تحليل آلية الانتباه: خريطة الانتباه LLAVA تركز بدقة على المناطق ذات الصلة في الصورة، مثل المركبات وأماكن وقوف السيارات
مثال على استخراج الدلالات:
- الصورة الأصلية: 614 كيلوبايت → النص المستخرج: 12.1 كيلوبايت (معدل الضغط >98%)
- التعرف الدقيق: "أربعة أماكن وقوف للسيارات، ثلاثة مشغولة، واحد فارغ"
- وصف الموقع: "مكان وقوف السيارات الفارغ يقع بين السيارة الحمراء والسيارة الصفراء"
- مشاركة الطيف: إطار عمل التعلم المعزز متعدد الوكلاء لتحسين اتصالات V2V و V2I
- تخصيص الطاقة: DRL لحل مشكلة تخصيص الطاقة URLLC
- النقل الآمن: مخطط النقل الآمن للأنظمة الرادارية والاتصالات المشتركة
- استخراج البيانات: استخدام LLM لمعالجة ونقل البيانات متعددة الأنماط بكفاءة
- اتخاذ القرارات: DRL لتطوير استراتيجيات تكيفية في البيئات الديناميكية
- الطرق المتكاملة: دمج LLM و DRL لاتخاذ القرارات في البيئات المجسّدة
- التحقق من الفعالية: الإطار المقترح للذكاء الاصطناعي المجسّد يتفوق على الطرق التقليدية من حيث كفاءة النقل وسرعة التقارب وأداء النظام
- مزايا الضغط الدلالي: LLAVA يحقق معدل ضغط بيانات يتجاوز 90% مع الحفاظ على التكامل الدلالي
- استقرار القرارات: GAE-PPO يحسّن بشكل كبير من استقرار القرارات وأداء التقارب في البيئات الديناميكية
- التعقيد الحسابي: التعقيد الكلي O(L²·d + L·d²) + O(T·Σnp-1·np) قد يواجه تحديات في البيئات محدودة الموارد
- حجم مجموعة البيانات: مجموعة البيانات الصورية المستخدمة في التجارب نسبياً صغيرة (30 صورة)، مما قد يؤثر على القدرة على التعميم
- النشر العملي: نقص التحقق في بيئات شبكات المركبات الحقيقية
- تحسين الخوارزمية: تقليل التعقيد الحسابي بشكل أكبر، والتكيف مع بيئات الحوسبة الطرفية
- توسيع مجموعة البيانات: بناء مجموعات بيانات أكبر وأكثر تنوعاً لسيناريوهات شبكات المركبات
- التحقق العملي: التحقق من أداء الإطار في testbed حقيقي لشبكات المركبات
- ابتكار قوي: أول دمج لـ LLM و DRL لشبكات المركبات المحسّنة بالذكاء الاصطناعي المجسّد، مع مسار تقني جديد
- المساهمات النظرية: إدخال قانون Weber-Fechner لنمذجة QoE، مما يوفر منظوراً جديداً لتقييم أداء شبكات المركبات
- تجارب شاملة: تجارب مقارنة متعددة الأبعاد، تتضمن نماذج LLM مختلفة وخوارزميات DRL وتحليل قابلية التوسع
- القيمة العملية: معدل ضغط بيانات كبير وتحسّن في الأداء له إمكانيات تطبيق عملية
- تحليل التعقيد غير كافٍ: على الرغم من توفير تحليل التعقيد النظري، يفتقر إلى تقييم وقت التشغيل الفعلي واستهلاك الطاقة
- التحقق من المتانة محدود: نقص التحقق من الأداء في البيئات المعاكسة والظروف القاسية
- تحليل فعالية التكلفة: عدم مناقشة كافية لمقارنة تكاليف النشر مع فوائد الأداء
- القيمة الأكاديمية: توفير اتجاه بحثي جديد لتطبيق الذكاء الاصطناعي المجسّد في شبكات المركبات
- الآفاق العملية: آفاق تطبيق واسعة في مجالات مثل أنظمة النقل الذكية و6G وشبكات المركبات والقيادة الذاتية
- قابلية التكرار: توفير وصف مفصل للمعاملات والخوارزميات، مما يسهل التكرار
- أنظمة النقل الذكية: معالجة معلومات المرور في الوقت الفعلي واتخاذ القرارات
- القيادة الذاتية: تحسين الوعي البيئي وتحسين تخطيط المسار
- الحوسبة الطرفية: معالجة بيانات فعالة في البيئات محدودة الموارد
- شبكات 6G: إدارة موارد ذكية في شبكات الجيل التالي
تستشهد الورقة بـ 51 مرجعاً ذا صلة، تغطي بشكل أساسي:
- أعمال تحسين اتصالات شبكات المركبات 15-19
- أبحاث تطبيقات الذكاء الاصطناعي المجسّد و LLM 20-29
- طرق التعلم المعزز العميق 39-43
- الاتصالات الدلالية ونمذجة QoE 33-36
التقييم الإجمالي: هذا عمل رائد في مجال شبكات المركبات المحسّنة بالذكاء الاصطناعي المجسّد، مع مسار تقني جديد وتحقق تجريبي شامل، ويتمتع بقيمة أكاديمية وآفاق عملية مهمة. على الرغم من وجود مجال للتحسين في تحسين التعقيد والتحقق من النشر العملي، إلا أنه يوفر أساساً نظرياً وإشارة تقنية مهمة لتطور هذا المجال.