We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
- معرّف الورقة: 2402.01116
- العنوان: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
- المؤلفون: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
- التصنيف: cs.RO cs.LG cs.SY eess.SY
- وقت النشر/المؤتمر: ورقة arXiv (تم التقديم في فبراير 2024، آخر تحديث في مارس 2025)
- رابط الورقة: https://arxiv.org/abs/2402.01116
تقترح هذه الورقة معمارية هرمية لتحقيق التحكم التنبؤي بالنموذج (MPC) في الوقت الفعلي وقابل للتوسع في سيناريوهات حركة المرور المعقدة متعددة الأنماط. تتضمن المعمارية مكونين رئيسيين: 1) شبكة RAID-Net، وهي شبكة عصبية متكررة قائمة على آليات الانتباه، تستخدم الثنائية اللاغرانجية للتنبؤ بالتفاعلات ذات الصلة بين المركبة ذاتية القيادة والمركبات المحيطة ضمن أفق التنبؤ بـ MPC؛ 2) مشكلة MPC عشوائية مبسطة تعزز الكفاءة الحسابية من خلال القضاء على قيود تجنب الاصطدام غير ذات الصلة. تم التحقق من الطريقة في بيئة محاكاة تقاطع حركة المرور، مما حقق تسريعاً بمعامل 12 مرة في حل مشاكل التخطيط الحركي.
في سيناريوهات القيادة الحضرية المعقدة، تحتاج المركبات ذاتية القيادة إلى التنقل بأمان في بيئات عالية عدم اليقين، مع ملاحظة والاستجابة لسلوك المشاركين في حركة المرور غير المتجانسين (السائقين البشريين والمركبات ذاتية القيادة). يتمتع هؤلاء المشاركون بخصائص تنبؤ متعددة الأنماط، مما يشكل تحديات هائلة عند الأخذ بها في الاعتبار في التخطيط الحركي.
تواجه طرق التخطيط الحركي الحالية تحديات مزدوجة من حيث القابلية للتوسع والوقت الفعلي:
- الطرق الهرمية للتنبؤ والتخطيط: بينما يمكنها التعامل مع التنبؤات متعددة الأنماط، إلا أنها تفتقر إلى القابلية للتوسع في الوقت الفعلي في السيناريوهات المعقدة
- طرق التخطيط المتكاملة القائمة على النموذج: تتمتع طرق نظرية اللعبة بتعقيد حسابي مرتفع جداً في سيناريوهات متعددة المركبات
- طرق التعلم من النهاية إلى النهاية: بينما تكون قابلة للتوسع، إلا أنها تفتقر إلى القابلية للتفسير والضمانات الأمنية
- ينمو عدد القيود في طرق MPC التقليدية بشكل أسي مع عدد المركبات وعدد الأنماط (O(NM^V))
- في سيناريوهات حركة المرور المعقدة، معظم قيود تجنب الاصطدام غير نشطة فعلياً
- غياب آليات فعالة لفحص القيود لتحديد تفاعلات المركبات ذات الصلة حقاً
- اقتراح معمارية RAID-Net: شبكة عصبية متكررة قائمة على آليات الانتباه، قادرة على التنبؤ بالتفاعلات ذات الصلة بين المركبة ذاتية القيادة والمركبات المحيطة ضمن أفق التنبؤ بـ MPC
- إنشاء نظرية التنبؤ بالتفاعل القائمة على الثنائية: الاستفادة من الثنائية اللاغرانجية وتحليل الحساسية لتحديد القيود النشطة
- تصميم إطار عمل MPC هرمي: تقليل التعقيد الحسابي بشكل كبير من خلال فحص القيود، مما يحقق تسريعاً بمعامل 12 مرة في الحل
- بناء بيئة محاكاة تقاطع حركة المرور: للتدريب وتقييم الخوارزمية المقترحة
الإدخال: ملاحظة البيئة الحالية obt، تتضمن حالة المركبة الذاتية وحالة المركبات المحيطة والمعلومات الدلالية
الإخراج: إدخال التحكم ut، الذي يسمح للمركبة الذاتية بالوصول بأمان إلى موقع الهدف
القيود: قيود الحالة والإدخال وقيود تجنب الاصطدام متعددة الأنماط
مع الأخذ في الاعتبار V من المركبات المستهدفة، كل منها بها M من الأنماط، مما يؤدي إلى M^V من تكوينات السيناريو. مشكلة التحسين هي:
minθt∑m=1MVE[∑k=tt+N−1∥Q(xk+1∣t,m−xkref)∥22+∥R(uk∣t,m−ukref)∥22]
خاضعة للقيود:
- قيود ديناميكا النظام
- قيود الحالة والإدخال: P((xk∣t,m,uk∣t,m)∈/XUk)≤ϵ
- قيود تجنب الاصطدام: P((xk∣t,m,ok∣t,jˉ(i,m)i)∈/CAk∣t,jˉ(i,m)i)≤ϵ
تحويل مشكلة MPC إلى برمجة مخروطية من الدرجة الثانية (SOCP):
minθt21∥Qtθt∥22+CtTθts.t.Atθt+Rt∈K
المشكلة الثنائية المقابلة هي:
minμt,ηt[μtTηtT]Rt+21∥Qt−1(AtT[μtTηtT]T−Ct)∥22
من خلال شروط KKT، إذا كان [μt∗]s=0، فيمكن حذف القيد المقابل.
ترميز الإدخال:
- استخدام ترميز الرسم البياني المركزي على المركبة الذاتية بناءً على الوقت حتى الاصطدام (TTC)
- مشفر المحول ينتج متجه ميزة تمثيل السيناريو fi∈Rdem
بنية الشبكة:
- N من فاكك التسلسل ذات المعاملات المشتركة
- آلية انتباه متعددة الرؤوس لالتقاط أنواع مختلفة من علاقات تفاعل المركبات
- وحدة متكررة مغلقة (GRU) لمعالجة التبعيات الزمنية
- طبقة MLP لتعلم علاقات التفاعل المعقدة
الإخراج: التنبؤ بالتصنيف الثنائي للمتغيرات الثنائية μ~t∈{0,1}nc
- فحص القيود الموجه بالثنائية: أول تطبيق لنظرية الثنائية اللاغرانجية على فحص قيود MPC
- نمذجة التفاعل بآليات الانتباه: التقاط أنماط التفاعل المعقدة بين المركبات من خلال الانتباه متعدد الرؤوس
- استقلالية المجال الزمني للمعمارية المتكررة: تحقيق الاستقلالية عن طول أفق التنبؤ من خلال مشاركة المعاملات
- ضمانات الأمان من تحليل الحساسية: تحديد كمي تأثير انتهاك القيود على التكلفة من خلال نظرية الأسعار الظلية
- بيئة المحاكاة: بيئة تقاطع حركة مرور مخصصة بدون إشارات
- تكوين المركبات: 1 مركبة ذاتية + 1-3 مركبات مستهدفة
- إعداد الأنماط: إجمالي 16 تكوين نمط، مما يؤدي إلى 624 قيد تجنب اصطدام
- حجم البيانات: 315,120 نقطة بيانات، 85% مجموعة تدريب، 15% مجموعة اختبار
- الجدوى: نسبة مئوية من حلول مشاكل MPC الممكنة
- معدل الاصطدام: نسبة مئوية من خطوات الوقت التي تحدث فيها اصطدامات مع المركبات المستهدفة
- نسبة القيود: نسبة مئوية متوسطة من القيود المفروضة
- وقت الحل: متوسط وقت حل مشكلة MPC
- وقت إكمال المهمة: الوقت المعياري للوصول إلى موقع الهدف
- Full MPC: مشكلة MPC كاملة تتضمن جميع القيود
- خط أساس MLP: طريقة مقارنة باستخدام الشبكة العصبية متعددة الطبقات
- أفق التنبؤ: N = 14، وقت الأخذ Δt = 0.2s
- معاملات الشبكة: معدل التعلم 0.001، حجم الدفعة 1024، 3000 دورة تدريب
- أوزان الخسارة: wp = 4 (الانحياز نحو التنبؤات الإيجابية لتحسين الأمان)
- المحلل: استخدام Gurobi لحل مشاكل SOCP
| مؤشر الأداء | Full MPC | HMPC |
|---|
| الجدوى (%) | 98.97 | 99.79 |
| معدل الاصطدام (%) | 0 | 4.0 |
| متوسط معدل تنفيذ القيود (%) | 100 | 17.45 |
| متوسط وقت الحل (s) | 0.92 ± 0.18 | 0.063 ± 0.073 |
| وقت استعلام RAID-Net (s) | - | 0.013 ± 0.003 |
| إجمالي وقت الحساب (s) | 0.92 ± 0.18 | 0.076 ± 0.076 |
| وقت إكمال المهمة المعياري | 1 | 0.91 |
- تسريع بمعامل 12 مرة: حققت خوارزمية HMPC تسريعاً بمعامل 12 مرة في وقت الحل
- معدل استدعاء مرتفع: حققت شبكة RAID-Net معدل استدعاء بنسبة 94% على مجموعة الاختبار، مع التنبؤ الصحيح بـ 98.1% من متغيرات التفاعل الثنائية
- التنبؤ المحافظ: معدل تنفيذ القيود بنسبة 17.45% مقابل معدل القيود النشطة الفعلي بنسبة 1.52%، مما يعكس استراتيجية محافظة موجهة نحو الأمان
- تكلفة أمان طفيفة: معدل الاصطدام بنسبة 4% ناجم بشكل أساسي عن تصنيفات سلبية كاذبة
أظهرت شبكة RAID-Net أداءً أفضل مقارنة بشبكة MLP القياسية في توزيع الخسارة، مما يتحقق من فعالية آليات الانتباه والبنية المتكررة.
- التنبؤ والتخطيط الهرمي: مثل طرق Trajectron++ التي تركز على نماذج التنبؤ المعقدة
- الطرق المتكاملة القائمة على النموذج: طرق نظرية اللعبة والتحسين المشترك
- طرق التعلم من النهاية إلى النهاية: مثل طرق Social Attention وطرق التعلم العميق الأخرى
مقارنة بالطرق الموجودة، تحقق هذه الورقة تحسناً كبيراً في الكفاءة الحسابية مع الحفاظ على الأمان، وتوفر آلية تنبؤ تفاعل قابلة للتفسير.
- اقتراح أول إطار عمل لفحص قيود MPC قائم على نظرية الثنائية
- تنبؤ شبكة RAID-Net بفعالية بتفاعلات المركبات، مما يحقق متطلبات الأداء في الوقت الفعلي
- تحقيق تسريع حسابي بمعامل 12 مرة في سيناريوهات حركة المرور المعقدة
- ضمانات الأمان غير كافية: غياب الضمانات الأمنية النظرية لفحص القيود
- الإفراط في معاملات الاستراتيجية: قد تكون استراتيجية التغذية الراجعة في MPC مفرطة في المعاملات
- قدرة تعميم محدودة: تحتاج قدرة شبكة RAID-Net على التعميم على طوبولوجيات تقاطع مختلفة إلى مزيد من التحقق
- مخاطر الاصطدام: معدل الاصطدام بنسبة 4% يحتاج إلى مزيد من التحسين
- استخدام خوارزمية DAgger لحل مشكلة الانحراف التوزيعي في الاستنساخ السلوكي
- اختبار قدرة تعميم شبكة RAID-Net على مجموعات بيانات حركة المرور الحقيقية
- تطبيق التنبؤ بالتفاعل القائم على الثنائية على تخطيط المسارات المتعاونة متعددة المركبات
- توفير ضمانات نظرية أمنية أقوى
- الابتكار النظري: تطبيق مبتكر لنظرية الثنائية اللاغرانجية على فحص قيود MPC
- القيمة العملية: التسريع الحسابي الكبير يجعل MPC في الوقت الفعلي ممكناً في السيناريوهات المعقدة
- تصميم المعمارية: تصميم معقول لآليات الانتباه والبنية المتكررة في شبكة RAID-Net
- التجارب الشاملة: تقييم أداء شامل في بيئة المحاكاة
- المقايضة الأمنية: معدل الاصطدام بنسبة 4% قد يكون غير مقبول للتطبيقات الحساسة للأمان
- قيود المحاكاة: التحقق فقط في سيناريو تقاطع حركة مرور مبسط، مع غياب الاختبار في بيئات حضرية معقدة
- تحليل نظري غير كافٍ: يحتاج تحليل نظري وحدود لأخطاء فحص القيود إلى تعزيز
- غياب التحقق على المركبات الحقيقية: عدم وجود تحقق على منصات المركبات الحقيقية
يوفر هذا العمل منظوراً جديداً لحل مشاكل MPC في الوقت الفعلي في المركبات ذاتية القيادة، وقد يلهم المزيد من طرق الحل الفعال لمشاكل التحسين الأخرى.
- قرارات القيادة الذاتية في تقاطعات حركة المرور الحضرية
- التحكم في التنسيق متعدد الروبوتات
- أنظمة متعددة الوكلاء الأخرى التي تتطلب تحسيناً في الوقت الفعلي
تستشهد الورقة بأعمال رئيسية من مجالات متعددة مهمة، بما في ذلك:
- Trajectron++: التنبؤ بالمسارات الديناميكية الممكنة
- أسس نظرية MPC العشوائية
- آليات الانتباه وعمارة المحول
- التحسين المحدب ونظرية الثنائية
تساهم هذه الورقة بشكل كبير في كل من الابتكار النظري والقيمة العملية، حيث توفر حلاً فعالاً لمشاكل MPC في الوقت الفعلي في المركبات ذاتية القيادة، لكنها تحتاج إلى مزيد من التحسين في ضمانات الأمان والنشر العملي.