2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.

End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.

academic

VR-Drive: القيادة الذاتية من طرف إلى طرف مع مرونة وجهة النظر باستخدام تقنية 3D Gaussian Splatting التغذية الأمامية

المعلومات الأساسية

معرّف الورقة: 2510.23205
العنوان: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
المؤلفون: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
التصنيف: cs.CV
تاريخ النشر/المؤتمر: NeurIPS 2025 (المؤتمر الدولي التاسع والثلاثون لأنظمة معالجة المعلومات العصبية)
رابط الورقة: https://arxiv.org/abs/2510.23205

الملخص

لقد أصبحت القيادة الذاتية من طرف إلى طرف (E2E-AD) نموذجاً واعداً يوحد الإدراك والتنبؤ والتخطيط في إطار عمل موحد يعتمد على البيانات. ومع ذلك، فإن تحقيق المرونة تجاه وجهات نظر الكاميرا المختلفة - وهي تحدٍ واقعي شائع ناشئ عن تنوع تكوينات المركبات - لا يزال مسألة مفتوحة. تقترح هذه الدراسة VR-Drive، إطار عمل جديد للقيادة الذاتية من طرف إلى طرف يحل مشكلة تعميم وجهة النظر من خلال التعلم المشترك لإعادة بناء المشهد ثلاثي الأبعاد كمهمة مساعدة لتحقيق تركيب الرؤية المدرك للتخطيط. بخلاف الطرق السابقة المحددة للمشهد، تعتمد VR-Drive على استراتيجية الاستدلال التغذية الأمامية التي تدعم التعزيز أثناء التدريب عبر الإنترنت من الآراء المتناثرة دون الحاجة إلى تعليقات توضيحية إضافية. لتحسين اتساق وجهة النظر بشكل أكبر، تم إدخال مستودع الذاكرة المختلط لوجهة النظر لتعزيز التفاعل الزمني بين الآراء المتعددة، واستراتيجية التقطير المتسقة لوجهة النظر لنقل المعرفة من الآراء الأصلية إلى الآراء المركبة. من خلال التدريب الشامل من طرف إلى طرف، تخفف VR-Drive بشكل فعال من الضوضاء الناجمة عن التركيب وتحسن أداء التخطيط في ظل تغيرات وجهة النظر. بالإضافة إلى ذلك، تم إصدار مجموعة بيانات معيارية جديدة لتقييم أداء E2E-AD في وجهات نظر الكاميرا الجديدة، مما يتيح تحليلاً شاملاً.

الخلفية البحثية والدافع

تعريف المشكلة

تواجه أنظمة القيادة الذاتية من طرف إلى طرف تحدياً حرجاً: تدهور الأداء الناجم عن تغيرات وجهة نظر الكاميرا. في النشر الفعلي، توجد اختلافات كبيرة في تكوينات الكاميرا عبر أنواع المركبات والمصنعين المختلفين، بما في ذلك التغييرات في معاملات مثل ارتفاع التثبيت والزاوية والموضع.

أهمية المشكلة

الاحتياجات العملية: تحتاج أنظمة القيادة الذاتية إلى التكيف مع أنواع مختلفة من المركبات دون الحاجة إلى إعادة التدريب لكل تكوين
الاعتبارات المالية: جمع البيانات المعلقة لكل تكوين كاميرا يتطلب تكاليف عالية وغير عملي
متطلبات السلامة: قد يؤدي تغيير وجهة النظر إلى فشل الإدراك، كما هو موضح في الشكل 1، حيث تفشل الطرق الموجودة في اكتشاف المركبات الأمامية عند انخفاض ارتفاع الكاميرا

قيود الطرق الموجودة

الاعتماد على البيانات: تتطلب جمع كميات كبيرة من البيانات المعلقة لكل تكوين كاميرا
محددة للمشهد: تُحسّن طرق تركيب الرؤية الجديدة الموجودة عادةً لمشهد معين، مع نفقات حسابية كبيرة
ضعف القدرة على التعميم: يحدث انخفاض كبير في الأداء على بيانات خارج التوزيع (OOD)

الدافع البحثي

اقتراح إطار عمل للقيادة الذاتية من طرف إلى طرف يمكنه استخدام تكوين كاميرا واحد فقط أثناء التدريب، لكنه يحافظ على المرونة تجاه وجهات نظر الكاميرا المختلفة غير المرئية أثناء الاختبار.

المساهمات الأساسية

الدراسة الأولى: أول دراسة منهجية لمشكلة مرونة وجهة النظر للكاميرا في القيادة الذاتية من طرف إلى طرف
إطار عمل موحد: اقتراح VR-Drive، الذي يجمع بين إعادة بناء المشهد ثلاثي الأبعاد كمهمة مساعدة لتحقيق تركيب الرؤية المدرك للتخطيط
الابتكارات التقنية:
- مستودع الذاكرة المختلط لوجهة النظر (Viewpoint-Mixed Memory Bank) لتحقيق التفاعل بين الميزات عبر وجهات النظر
- استراتيجية التقطير المتسقة لوجهة النظر (Viewpoint-Consistent Distillation) لنقل المعرفة
مساهمة المعيار: بناء معيار تقييم جديد يدعم تقييم أداء E2E-AD في وجهات نظر الكاميرا الجديدة

شرح الطريقة

تعريف المهمة

الإدخال: سلسلة صور متعددة الآراء من الكاميرات الإخراج: مسار التخطيط الحركي للمركبة الذاتية القيود: استخدام بيانات وجهة النظر الأصلية فقط أثناء التدريب، والحفاظ على المرونة تجاه الآراء غير المرئية أثناء الاختبار

معمارية النموذج

تحتوي VR-Drive على ثلاثة مكونات رئيسية:

1. التعلم من وجهة النظر الأصلية (Original-view Learning)

استخراج خرائط الميزات متعددة الآراء باستخدام ResNet50 $I \in \mathbb{R}^{N×C×H×W}$
إعادة بناء المشهد بناءً على تقنية 3D Gaussian Splatting التغذية الأمامية
تعريف البدائيات الغاوسية: $g = (μ, Σ, α, c)$ ، تشمل الموضع والتباين والشفافية واللون

2. التعلم من وجهة النظر الجديدة (Novel-view Learning)

أخذ عينات عشوائية من المعاملات الخارجية للكاميرا لتوليد وجهات نظر جديدة
استخراج ميزات وجهة النظر الجديدة باستخدام مشفر مشترك $\tilde{I} \in \mathbb{R}^{N×C×H×W}$
استخدام خسارة إعادة البناء الدورية لتدريب النموذج على إعادة توليد وجهة النظر الأصلية

3. التعلم من الإدراك والتخطيط (Perception-planning Learning)

اختيار عشوائي لوجهة النظر الأصلية أو الجديدة كمدخل أثناء التدريب
دمج كشف الأهداف ثلاثي الأبعاد ومهام رسم الخرائط
استخدام معمارية متناثرة لتحسين الكفاءة

المكونات التقنية الرئيسية

مستودع الذاكرة المختلط لوجهة النظر

F̃ = Cross-Attention(Query = F, Key = F', Value = F')

تخزين وتحديث ميزات الحالات من وجهات نظر مختلفة
دمج ميزات وجهة النظر الحالية وميزات مستودع الذاكرة من خلال آلية الانتباه المتقاطع
استخدام استراتيجية FIFO لتحديث الحالات عالية الثقة

التقطير المتسق لوجهة النظر

الفكرة الأساسية: استخدام ميزات موثوقة من وجهة النظر الأصلية لتوجيه تعلم ميزات وجهة النظر الجديدة

أخذ عينات من النقاط الرئيسية:
```
p*_{i,j} = p_{i,j} + position(B_i)
```
تجميع الميزات:
```
S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
```

خسارة التقطير:

L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2

دالة الخسارة

تتضمن الخسارة الإجمالية عدة مكونات:

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

حيث تتضمن خسارة الرسم:

خسارة إعادة البناء الأصلية: إعادة بناء الآراء في الخطوات الزمنية المجاورة
خسارة إعادة البناء الدورية: إعادة بناء وجهة النظر الأصلية من وجهة النظر الجديدة

إعداد التجارب

مجموعات البيانات

nuScenes: مجموعة بيانات معيارية واسعة الاستخدام للقيادة الذاتية
CARLA: بيئة محاكاة لتقييم الحلقة المغلقة
المعيار الجديد: مجموعة تقييم تغيير وجهة النظر المبنية على أساس nuScenes، تتضمن 146 سلسلة اختبار

تكوينات تغيير وجهة النظر

تغييرات معاملات الكاميرا المدخلة أثناء الاختبار:

زاوية الميل: +5°, -10°
الارتفاع: +1.0m, -0.7m
العمق: +1.0m

مؤشرات التقييم

مسافة L2: متوسط خطأ الإزاحة (ADE)، في نطاقات زمنية 1s/2s/3s
معدل الاصطدام: نسبة مئوية من مسارات التخطيط التي تصطدم
درجة القيادة (DS) ومعدل إكمال المسار (RC): مؤشرات تقييم الحلقة المغلقة في CARLA

طرق المقارنة

AD-MLP
BEV-Planner
VAD
SparseDrive
DiffusionDrive

نتائج التجارب

النتائج الرئيسية

مقارنة أداء التخطيط في الحلقة المفتوحة على مجموعة بيانات nuScenes:

إعداد الكاميرا	الطريقة	مسافة L2 (m) ↓	معدل الاصطدام (%) ↓
الأصلي	DiffusionDrive	0.57	0.08
الأصلي	VR-Drive	0.60	0.06
ميل -10°	DiffusionDrive	0.96	0.24
ميل -10°	VR-Drive	0.70	0.11
ارتفاع +1.0m	DiffusionDrive	1.46	0.81
ارتفاع +1.0m	VR-Drive	0.69	0.11

النتائج الرئيسية:

تحافظ VR-Drive على أداء تنافسية في وجهة النظر الأصلية
تتفوق بشكل كبير على الطرق الموجودة في وجهات النظر الجديدة، مع انخفاض متوسط مسافة L2 من 1.17m إلى 0.68m
انخفاض معدل الاصطدام من 0.41% إلى 0.11%

تجارب الاستئصال

المكون	L2 الأصلي↓	L2 الجديد↓	معدل الاصطدام الأصلي↓	معدل الاصطدام الجديد↓
الخط الأساسي	0.63	0.91	0.14	0.30
+ إعادة بناء المشهد	0.59	0.90	0.07	0.26
+ مستودع الذاكرة	0.62	0.73	0.09	0.17
+ إعادة البناء الدورية	0.59	0.68	0.09	0.16
+ التقطير	0.61	0.73	0.08	0.14
النموذج الكامل	0.60	0.68	0.06	0.11

النتائج المهمة:

إضافة إعادة بناء المشهد وحدها تحسن الأداء في وجهة النظر الأصلية
تعمل المكونات المختلفة بشكل تعاوني، مع أفضل أداء للنموذج الكامل
لا يوجد مقايضة بين أداء وجهة النظر الأصلية ومرونة وجهة النظر الجديدة

تقييم الحلقة المغلقة في CARLA

النتائج على معيار Town05-Nov:

الطريقة	DS الأصلي	متوسط DS الجديد	RC الأصلي	متوسط RC الجديد
BEV-Planner	17.25	7.80	28.70	28.86
الخط الأساسي	76.47	48.25	99.20	94.87
VR-Drive	84.04	88.25	99.04	98.28

تُظهر VR-Drive مرونة ممتازة تجاه وجهة النظر في الاختبارات في الحلقة المغلقة.

الأعمال ذات الصلة

القيادة الذاتية من طرف إلى طرف

ينقسم البحث الموجود إلى اتجاهين رئيسيين:

استكشاف المعمارية والمهام: تحسين الوحدات الفرعية لتحسين أداء التخطيط
تقطير المعلومات المتقدمة: الاستفادة من معرفة الخبراء من القواعد أو التعلم المعزز

التمثيل المرن تجاه وجهة النظر وإعادة بناء المشهد

البحث المبكر: إثبات هشاشة الشبكات العصبية تجاه تغيرات وجهة النظر
تركيب الرؤية الجديدة: طرق قائمة على NeRF و3DGS، لكن معظمها تحسينات محددة للمشهد
الطرق التغذية الأمامية: طرق تعميم تدعم الاستدلال في الوقت الفعلي

هذه الورقة هي الأولى التي تدرس بشكل منهجي مرونة وجهة النظر في E2E-AD.

الخلاصة والنقاش

الاستنتاجات الرئيسية

تحل VR-Drive بنجاح مشكلة مرونة وجهة النظر في E2E-AD
يحسن التعلم المشترك لإعادة البناء ثلاثي الأبعاد كمهمة مساعدة بشكل كبير من مرونة النظام
تخفف المكونات التقنية المقترحة بشكل فعال من الضوضاء الناجمة عن التركيب وتحسن أداء التخطيط

القيود

الاعتماد على معايرة الكاميرا: تتأثر الأداء بدقة معايرة الكاميرا
النفقات الحسابية: تضيف إعادة البناء ثلاثي الأبعاد تكاليف حسابية إضافية
نطاق التقييم: يقتصر التحقق الحالي على نطاق محدود من تغييرات وجهة النظر

الاتجاهات المستقبلية

تحسين المرونة تجاه أخطاء معايرة الكاميرا
تحسين الكفاءة الحسابية، وتقليل تكاليف النشر في الوقت الفعلي
التوسع إلى نطاق أوسع من تغييرات وجهة النظر وتكوينات المستشعرات

التقييم المتعمق

المميزات

أهمية المشكلة: حل تحدٍ حرج في النشر الفعلي
ابتكار الطريقة: دمج ذكي لإعادة البناء ثلاثي الأبعاد مع E2E-AD، مع تصميم مكونات تقنية دقيقة
التجارب الشاملة: تتضمن تقييمات الحلقة المفتوحة والمغلقة، مع تجارب استئصال مفصلة
مساهمة المعيار: توفير معايير تقييم جديدة للمجال

أوجه القصور

افتراض المعايرة: يفترض معايرة كاميرا مثالية، قد تكون هناك أخطاء في التطبيقات العملية
نطاق وجهة النظر: نطاق تغييرات وجهة النظر المختبرة محدود نسبياً
تحليل الحسابات: يفتقد إلى تحليل مفصل للنفقات الحسابية

التأثير

القيمة الأكاديمية: دراسة رائدة لمرونة وجهة النظر في E2E-AD
القيمة العملية: حل مباشر للمشاكل الفعلية في النشر الصناعي
قابلية التكرار: وصف الطريقة مفصل، من المتوقع أن يدفع الأبحاث اللاحقة

السيناريوهات المعمول بها

نشر متعدد المركبات: سيناريوهات تتطلب التكيف السريع عبر تكوينات مركبات مختلفة
ترقية المستشعرات: هجرة النظام عند تغيير تكوين مستشعرات المركبة
التطبيقات عبر المجالات: التكيف مع اختلافات معايير المركبات في مناطق أو دول مختلفة

المراجع

تستشهد الورقة بـ 75 مرجعاً ذا صلة، تغطي القيادة الذاتية من طرف إلى طرف وإعادة البناء ثلاثي الأبعاد وتركيب الرؤية الجديدة وعدد من المجالات الأخرى، مما يوفر أساساً نظرياً متيناً لهذا البحث.

التقييم الشامل: هذه ورقة بحثية عالية الجودة تحل لأول مرة بشكل منهجي مشكلة مرونة وجهة النظر في القيادة الذاتية من طرف إلى طرف. يتمتع تصميم الطريقة بمنطقية سليمة، والتحقق التجريبي شامل، وله قيمة مهمة في دفع التطبيق العملي لتكنولوجيا القيادة الذاتية.