VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic
VR-Drive: القيادة الذاتية من طرف إلى طرف مع مرونة وجهة النظر باستخدام تقنية 3D Gaussian Splatting التغذية الأمامية
لقد أصبحت القيادة الذاتية من طرف إلى طرف (E2E-AD) نموذجاً واعداً يوحد الإدراك والتنبؤ والتخطيط في إطار عمل موحد يعتمد على البيانات. ومع ذلك، فإن تحقيق المرونة تجاه وجهات نظر الكاميرا المختلفة - وهي تحدٍ واقعي شائع ناشئ عن تنوع تكوينات المركبات - لا يزال مسألة مفتوحة. تقترح هذه الدراسة VR-Drive، إطار عمل جديد للقيادة الذاتية من طرف إلى طرف يحل مشكلة تعميم وجهة النظر من خلال التعلم المشترك لإعادة بناء المشهد ثلاثي الأبعاد كمهمة مساعدة لتحقيق تركيب الرؤية المدرك للتخطيط. بخلاف الطرق السابقة المحددة للمشهد، تعتمد VR-Drive على استراتيجية الاستدلال التغذية الأمامية التي تدعم التعزيز أثناء التدريب عبر الإنترنت من الآراء المتناثرة دون الحاجة إلى تعليقات توضيحية إضافية. لتحسين اتساق وجهة النظر بشكل أكبر، تم إدخال مستودع الذاكرة المختلط لوجهة النظر لتعزيز التفاعل الزمني بين الآراء المتعددة، واستراتيجية التقطير المتسقة لوجهة النظر لنقل المعرفة من الآراء الأصلية إلى الآراء المركبة. من خلال التدريب الشامل من طرف إلى طرف، تخفف VR-Drive بشكل فعال من الضوضاء الناجمة عن التركيب وتحسن أداء التخطيط في ظل تغيرات وجهة النظر. بالإضافة إلى ذلك، تم إصدار مجموعة بيانات معيارية جديدة لتقييم أداء E2E-AD في وجهات نظر الكاميرا الجديدة، مما يتيح تحليلاً شاملاً.
تواجه أنظمة القيادة الذاتية من طرف إلى طرف تحدياً حرجاً: تدهور الأداء الناجم عن تغيرات وجهة نظر الكاميرا. في النشر الفعلي، توجد اختلافات كبيرة في تكوينات الكاميرا عبر أنواع المركبات والمصنعين المختلفين، بما في ذلك التغييرات في معاملات مثل ارتفاع التثبيت والزاوية والموضع.
الاحتياجات العملية: تحتاج أنظمة القيادة الذاتية إلى التكيف مع أنواع مختلفة من المركبات دون الحاجة إلى إعادة التدريب لكل تكوين
الاعتبارات المالية: جمع البيانات المعلقة لكل تكوين كاميرا يتطلب تكاليف عالية وغير عملي
متطلبات السلامة: قد يؤدي تغيير وجهة النظر إلى فشل الإدراك، كما هو موضح في الشكل 1، حيث تفشل الطرق الموجودة في اكتشاف المركبات الأمامية عند انخفاض ارتفاع الكاميرا
اقتراح إطار عمل للقيادة الذاتية من طرف إلى طرف يمكنه استخدام تكوين كاميرا واحد فقط أثناء التدريب، لكنه يحافظ على المرونة تجاه وجهات نظر الكاميرا المختلفة غير المرئية أثناء الاختبار.
الإدخال: سلسلة صور متعددة الآراء من الكاميرات
الإخراج: مسار التخطيط الحركي للمركبة الذاتية
القيود: استخدام بيانات وجهة النظر الأصلية فقط أثناء التدريب، والحفاظ على المرونة تجاه الآراء غير المرئية أثناء الاختبار
تستشهد الورقة بـ 75 مرجعاً ذا صلة، تغطي القيادة الذاتية من طرف إلى طرف وإعادة البناء ثلاثي الأبعاد وتركيب الرؤية الجديدة وعدد من المجالات الأخرى، مما يوفر أساساً نظرياً متيناً لهذا البحث.
التقييم الشامل: هذه ورقة بحثية عالية الجودة تحل لأول مرة بشكل منهجي مشكلة مرونة وجهة النظر في القيادة الذاتية من طرف إلى طرف. يتمتع تصميم الطريقة بمنطقية سليمة، والتحقق التجريبي شامل، وله قيمة مهمة في دفع التطبيق العملي لتكنولوجيا القيادة الذاتية.