2025-11-19T21:10:14.255447

Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method

Zhang, Zhao, Du et al.

This paper investigates adaptive transmission strategies in embodied AI-enhanced vehicular networks by integrating large language models (LLMs) for semantic information extraction and deep reinforcement learning (DRL) for decision-making. The proposed framework aims to optimize both data transmission efficiency and decision accuracy by formulating an optimization problem that incorporates the Weber-Fechner law, serving as a metric for balancing bandwidth utilization and quality of experience (QoE). Specifically, we employ the large language and vision assistant (LLAVA) model to extract critical semantic information from raw image data captured by embodied AI agents (i.e., vehicles), reducing transmission data size by approximately more than 90\% while retaining essential content for vehicular communication and decision-making. In the dynamic vehicular environment, we employ a generalized advantage estimation-based proximal policy optimization (GAE-PPO) method to stabilize decision-making under uncertainty. Simulation results show that attention maps from LLAVA highlight the model's focus on relevant image regions, enhancing semantic representation accuracy. Additionally, our proposed transmission strategy improves QoE by up to 36\% compared to DDPG and accelerates convergence by reducing required steps by up to 47\% compared to pure PPO. Further analysis indicates that adapting semantic symbol length provides an effective trade-off between transmission quality and bandwidth, achieving up to a 61.4\% improvement in QoE when scaling from 4 to 8 vehicles.

academic

شبكات المركبات المحسّنة بالذكاء الاصطناعي المجسّد: طريقة متكاملة لنماذج اللغة الكبيرة والتعلم المعزز

المعلومات الأساسية

معرّف الورقة: 2501.01141
العنوان: Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method
المؤلفون: Ruichen Zhang, Changyuan Zhao, Hongyang Du, Dusit Niyato, Jiacheng Wang, Suttinee Sawadsitang, Xuemin Shen, Dong In Kim
التصنيف: cs.NI (هندسة الشبكات والإنترنت)
تاريخ النشر: 2 يناير 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2501.01141

الملخص

تبحث هذه الورقة في استراتيجيات النقل التكيفية في شبكات المركبات المحسّنة بالذكاء الاصطناعي المجسّد من خلال دمج نماذج اللغة الكبيرة (LLMs) لاستخراج المعلومات الدلالية والتعلم المعزز العميق (DRL) لاتخاذ القرارات. يهدف الإطار إلى موازنة استخدام النطاق الترددي وجودة تجربة المستخدم (QoE) من خلال صياغة مشكلة تحسين تتضمن قانون Weber-Fechner، مما يحسّن كفاءة نقل البيانات ودقة اتخاذ القرارات. على وجه التحديد، يتم استخدام نموذج مساعد اللغة والرؤية الكبير (LLAVA) لاستخراج المعلومات الدلالية الحرجة من بيانات الصور الخام التي تلتقطها وكلاء الذكاء الاصطناعي المجسّد (أي المركبات)، مما يقلل حجم البيانات المنقولة بأكثر من 90% مع الحفاظ على المحتوى الأساسي المطلوب للاتصالات واتخاذ القرارات في شبكات المركبات. في بيئة شبكات المركبات الديناميكية، يتم استخدام طريقة تحسين السياسة القريبة المستندة إلى التقدير المعمم للميزة (GAE-PPO) لتثبيت اتخاذ القرارات تحت عدم اليقين.

خلفية البحث والدافع

تعريف المشكلة

مع قدوم عصر 6G، من المتوقع أن تحقق شبكات المركبات (IoV) تقدماً غير مسبوق، مع كثافة حركة تتجاوز 0.1-10 جيجابت/ثانية/م²، وكثافة اتصال تصل إلى 10 ملايين جهاز لكل كيلومتر مربع. ستحسّن هذه التحسينات بشكل كبير معدلات البيانات والاتصالية وسعة الشبكة، مما يغيّر بشكل جذري خدمات IoV مثل الملاحة في الوقت الفعلي والوعي البيئي واتخاذ القرارات المستقلة.

دافع البحث

تحديات معالجة البيانات: مع نمو عدد المركبات المتصلة، يلزم نشر عدد كبير من أجهزة الاستشعار لجمع ومعالجة كميات ضخمة من البيانات في الوقت الفعلي، حيث تواجه نماذج الذكاء الاصطناعي التمييزية التقليدية صعوبة في الحفاظ على الأداء العالي في الظروف الديناميكية.
مشاكل كفاءة النقل: يتطلب نقل بيانات أجهزة الاستشعار الخام نطاقاً ترددياً كبيراً، وأصبح كيفية تقليل حجم نقل البيانات مع ضمان جودة المعلومات تحدياً رئيسياً.
تعقيد اتخاذ القرارات: بيئة شبكات المركبات ديناميكية للغاية، وتتطلب نظام اتخاذ قرارات ذكياً يتكيف في الوقت الفعلي مع التغييرات البيئية.

قيود الطرق الموجودة

تركز الطرق التقليدية بشكل أساسي على مؤشرات الأداء التقليدية مثل كفاءة الطيف والتأخير والأمان
تفتقر إلى الاعتبار الكافي لنقل البيانات الدلالية وكفاءة اتخاذ القرارات
لم تستكشف بشكل كافٍ التطبيق المتكامل لـ LLMs و DRL في تحسين موارد شبكات المركبات

المساهمات الأساسية

نمذجة نقل البيانات: صياغة مشكلة تحسين توازن كفاءة نقل البيانات ودقة اتخاذ القرارات، مع إدخال قانون Weber-Fechner كمؤشر لقياس جودة تجربة المستخدم (QoE).
معالجة البيانات الدلالية المستندة إلى LLM: الاستفادة من LLAVA لاستخراج المعلومات الدلالية من بيانات الصور الخام، مما يقلل بشكل كبير من نطاق النقل الترددي مع الحفاظ على تفاصيل السياق الأساسية المطلوبة للاتصالات واتخاذ القرارات في شبكات المركبات.
تحسين القرارات المستند إلى DRL: اقتراح طريقة GAE-PPO لتحسين اتخاذ القرارات في بيئة شبكات المركبات الديناميكية، حيث يقلل التقدير المعمم للميزة من تباين تحديثات تدرج السياسة ويثبت عملية التدريب.
عمل رائد: حسب علم المؤلفين، هذا هو أول عمل يستكشف التطبيق المشترك لمعالجة البيانات بواسطة LLMs واتخاذ القرارات بواسطة DRL في شبكات المركبات المحسّنة بالذكاء الاصطناعي المجسّد.

شرح الطريقة

تعريف المهمة

يتم النظر في شبكة اتصالات شبكات مركبات قائمة على الشبكات الخلوية في بيئة حضرية، حيث تسير I مركبة مجهزة بأنظمة ذكاء اصطناعي مجسّد ضمن نطاق اتصال محطة القاعدة (BS). تتضمن الشبكة W رابط من مركبة إلى بنية تحتية (V2I) و Q رابط من مركبة إلى مركبة (V2V).

الهدف: تحسين قوة النقل وتخصيص الرموز الدلالية واستخدام القنوات، لتعظيم QoE مع ضمان استخدام فعال للموارد.

معمارية النموذج

1. استخراج المعلومات الدلالية بواسطة LLAVA

تصميم المعمارية:

مشفّر الرؤية: استخدام مشفّر الرؤية للتدريب المسبق على التباين بين اللغة والصور (CLIP) لتحويل الصور إلى متجهات الميزات:
```
Zi = g(Ii)
```
مصفوفة الإسقاط: إسقاط الميزات إلى فضاء تضمين نموذج اللغة من خلال مصفوفة إسقاط خطية قابلة للتدريب W:
```
Ei = W · Zi
```
استخراج الدلالات: توليد المعلومات الدلالية من خلال نموذج LLAVA:
```
Mi = LLAVA(Ii; θi)
```

ضبط النموذج:

دالة الخسارة: L = Σ||Mi - M̂i||²
خسارة الإنتروبيا المتقاطعة: LCE = Σq(vi,l)log p(vi,l)

2. تحسين استراتيجية النقل بواسطة GAE-PPO

تصميم MDP:

فضاء الإجراء: at = [{bq[w]}, {P^V2V_q[w]}, {uq}] (البعد: 3Q)
فضاء الحالة: st = [{H^(w)_i}, {γ^V2V_q(t)}, {γ^V2I_w(t)}] (البعد: 2W+Q)
دالة المكافأة: مكافأة مستندة إلى QoE، تتضمن شروط عقوبة انتهاك القيود

خوارزمية GAE-PPO:

دالة هدف الوكيل: J(θA) = Et[ρt(θA)A^π_θold_A_t]
الهدف المقطوع: Jclip(θA) = Et[min(ρt(θA)A^π_θold_A_t, clip(ρt(θA), 1-ε, 1+ε)A^π_θold_A_t)]
التقدير المعمم للميزة: A^π_θold_A_t = Σ(γλ)^l δt+l

نقاط الابتكار التقني

نمذجة QoE بقانون Weber-Fechner: أول استخدام لقانون من علم النفس الفيزيائي في تقييم QoE لشبكات المركبات، مما يعكس بشكل أكثر دقة جودة الإدراك لدى المستخدم.
الضغط الدلالي متعدد الأنماط: تحقيق تحويل دلالي من الصور إلى النصوص من خلال LLAVA، مع معدل ضغط يتجاوز 90%.
تعلم معزز مستقر: آلية GAE تحسّن بشكل كبير من استقرار التقارب لخوارزمية PPO في البيئات الديناميكية.

إعداد التجارب

مجموعات البيانات

مجموعة البيانات النصية: مجموعة بيانات البرلمان الأوروبي، تتضمن حوالي مليوني جملة و53 مليون كلمة
مجموعة بيانات الصور: 30 صورة من مشاهد القيادة، لتقييم استخراج الدلالات
نموذج LLAVA: LLAVA-v1.5-7B، يتضمن 7 مليارات معامل قابل للتعديل

مؤشرات التقييم

التشابه الدلالي: استخدام التشابه الكوسيني لتضمينات BERT
QoE: جودة تجربة المستخدم المستندة إلى قانون Weber-Fechner
أداء التقارب: المكافأة التراكمية وخطوات التقارب
كفاءة النقل: SINR وتخصيص القوة وغيرها

طرق المقارنة

مقارنة نماذج LLM: LLAVA-1.5-13b-hf, Qwen-VL-Chat, Deepseek-vl-7b-base, Moondream2
مقارنة خوارزميات DRL: Pure PPO, DDPG, Random Policy

تفاصيل التنفيذ

معمارية الشبكة: 3 طبقات Transformer، 8 رؤوس انتباه، تفعيل ReLU
المُحسِّن: محسِّن Adam، معدل التعلم من 1×10⁻⁴ إلى 1×10⁻⁸
معاملات GAE-PPO: γ=0.99, ε=0.5, λ₁=λ₂=1

نتائج التجارب

النتائج الرئيسية

1. تقييم أداء LLAVA

كفاءة المعاملات: LLAVA-1.5-7b-hf يقلل المعاملات بنسبة 46.2% مقارنة بـ LLAVA-1.5-13b-hf
وقت الاستدلال: أسرع بمتوسط 40% من LLAVA-1.5-13b-hf
دقة الدلالات: أفضل أداء في مهمة تحديد أماكن وقوف السيارات

2. تحسين أداء GAE-PPO

أداء التقارب: تحسّن المكافأة التراكمية بحوالي 61% مقارنة بـ PPO النقي
تحسّن QoE: تحسّن بنسبة 36% مقارنة بـ DDPG، وتحسّن ملحوظ مقارنة بـ PPO النقي في سيناريو 8 مركبات
سرعة التقارب: تقليل وقت التقارب بمقدار 10 و23 و54 خطوة للمركبات 1 و2 و3 على التوالي

3. تحليل قابلية التوسع

من 4 إلى 8 مركبات: تحسّن QoE بنسبة 61.4%
من 8 إلى 12 مركبة: تحسّن QoE بنسبة 31.9%
من 12 إلى 16 مركبة: تحسّن QoE بنسبة 25.2%

تجارب الاستئصال

العلاقة بين SINR وطول الجملة: في بيئات SINR العالية، يكون تأثير طول الجملة على SSIM أقل؛ في بيئات SINR المنخفضة، تحافظ الجمل القصيرة على SSIM أعلى
تحليل آلية الانتباه: خريطة الانتباه LLAVA تركز بدقة على المناطق ذات الصلة في الصورة، مثل المركبات وأماكن وقوف السيارات

دراسة حالة

مثال على استخراج الدلالات:

الصورة الأصلية: 614 كيلوبايت → النص المستخرج: 12.1 كيلوبايت (معدل الضغط >98%)
التعرف الدقيق: "أربعة أماكن وقوف للسيارات، ثلاثة مشغولة، واحد فارغ"
وصف الموقع: "مكان وقوف السيارات الفارغ يقع بين السيارة الحمراء والسيارة الصفراء"

الأعمال ذات الصلة

أبحاث شبكات المركبات

مشاركة الطيف: إطار عمل التعلم المعزز متعدد الوكلاء لتحسين اتصالات V2V و V2I
تخصيص الطاقة: DRL لحل مشكلة تخصيص الطاقة URLLC
النقل الآمن: مخطط النقل الآمن للأنظمة الرادارية والاتصالات المشتركة

أبحاث الذكاء الاصطناعي المجسّد

استخراج البيانات: استخدام LLM لمعالجة ونقل البيانات متعددة الأنماط بكفاءة
اتخاذ القرارات: DRL لتطوير استراتيجيات تكيفية في البيئات الديناميكية
الطرق المتكاملة: دمج LLM و DRL لاتخاذ القرارات في البيئات المجسّدة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

التحقق من الفعالية: الإطار المقترح للذكاء الاصطناعي المجسّد يتفوق على الطرق التقليدية من حيث كفاءة النقل وسرعة التقارب وأداء النظام
مزايا الضغط الدلالي: LLAVA يحقق معدل ضغط بيانات يتجاوز 90% مع الحفاظ على التكامل الدلالي
استقرار القرارات: GAE-PPO يحسّن بشكل كبير من استقرار القرارات وأداء التقارب في البيئات الديناميكية

القيود

التعقيد الحسابي: التعقيد الكلي O(L²·d + L·d²) + O(T·Σnp-1·np) قد يواجه تحديات في البيئات محدودة الموارد
حجم مجموعة البيانات: مجموعة البيانات الصورية المستخدمة في التجارب نسبياً صغيرة (30 صورة)، مما قد يؤثر على القدرة على التعميم
النشر العملي: نقص التحقق في بيئات شبكات المركبات الحقيقية

الاتجاهات المستقبلية

تحسين الخوارزمية: تقليل التعقيد الحسابي بشكل أكبر، والتكيف مع بيئات الحوسبة الطرفية
توسيع مجموعة البيانات: بناء مجموعات بيانات أكبر وأكثر تنوعاً لسيناريوهات شبكات المركبات
التحقق العملي: التحقق من أداء الإطار في testbed حقيقي لشبكات المركبات

التقييم المتعمق

المزايا

ابتكار قوي: أول دمج لـ LLM و DRL لشبكات المركبات المحسّنة بالذكاء الاصطناعي المجسّد، مع مسار تقني جديد
المساهمات النظرية: إدخال قانون Weber-Fechner لنمذجة QoE، مما يوفر منظوراً جديداً لتقييم أداء شبكات المركبات
تجارب شاملة: تجارب مقارنة متعددة الأبعاد، تتضمن نماذج LLM مختلفة وخوارزميات DRL وتحليل قابلية التوسع
القيمة العملية: معدل ضغط بيانات كبير وتحسّن في الأداء له إمكانيات تطبيق عملية

أوجه القصور

تحليل التعقيد غير كافٍ: على الرغم من توفير تحليل التعقيد النظري، يفتقر إلى تقييم وقت التشغيل الفعلي واستهلاك الطاقة
التحقق من المتانة محدود: نقص التحقق من الأداء في البيئات المعاكسة والظروف القاسية
تحليل فعالية التكلفة: عدم مناقشة كافية لمقارنة تكاليف النشر مع فوائد الأداء

التأثير

القيمة الأكاديمية: توفير اتجاه بحثي جديد لتطبيق الذكاء الاصطناعي المجسّد في شبكات المركبات
الآفاق العملية: آفاق تطبيق واسعة في مجالات مثل أنظمة النقل الذكية و6G وشبكات المركبات والقيادة الذاتية
قابلية التكرار: توفير وصف مفصل للمعاملات والخوارزميات، مما يسهل التكرار

السيناريوهات المناسبة

أنظمة النقل الذكية: معالجة معلومات المرور في الوقت الفعلي واتخاذ القرارات
القيادة الذاتية: تحسين الوعي البيئي وتحسين تخطيط المسار
الحوسبة الطرفية: معالجة بيانات فعالة في البيئات محدودة الموارد
شبكات 6G: إدارة موارد ذكية في شبكات الجيل التالي

المراجع

تستشهد الورقة بـ 51 مرجعاً ذا صلة، تغطي بشكل أساسي:

أعمال تحسين اتصالات شبكات المركبات 15-19
أبحاث تطبيقات الذكاء الاصطناعي المجسّد و LLM 20-29
طرق التعلم المعزز العميق 39-43
الاتصالات الدلالية ونمذجة QoE 33-36

التقييم الإجمالي: هذا عمل رائد في مجال شبكات المركبات المحسّنة بالذكاء الاصطناعي المجسّد، مع مسار تقني جديد وتحقق تجريبي شامل، ويتمتع بقيمة أكاديمية وآفاق عملية مهمة. على الرغم من وجود مجال للتحسين في تحسين التعقيد والتحقق من النشر العملي، إلا أنه يوفر أساساً نظرياً وإشارة تقنية مهمة لتطور هذا المجال.