VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic
VR-Drive: दृष्टिकोण-मजबूत अंत-से-अंत ड्राइविंग फीड-फॉरवर्ड 3D गॉसियन स्प्लैटिंग के साथ
अंत-से-अंत स्वायत्त ड्राइविंग (E2E-AD) एक आशाजनक प्रतिमान बन गया है जो धारणा, भविष्यवाणी और योजना को एक समग्र डेटा-संचालित ढांचे में एकीकृत करता है। हालांकि, विभिन्न कैमरा दृष्टिकोणों के लिए मजबूतता प्राप्त करना - जो वाहन कॉन्फ़िगरेशन की विविधता के कारण एक सामान्य वास्तविक चुनौती है - अभी भी एक खुली समस्या है। यह कार्य VR-Drive प्रस्तावित करता है, एक नई E2E-AD फ्रेमवर्क जो दृष्टिकोण सामान्यीकरण समस्या को हल करने के लिए सहायक कार्य के रूप में 3D दृश्य पुनर्निर्माण के संयुक्त शिक्षण के माध्यम से योजना-जागरूक दृश्य संश्लेषण को सक्षम करता है। पूर्ववर्ती दृश्य-विशिष्ट संश्लेषण विधियों के विपरीत, VR-Drive एक फीड-फॉरवर्ड अनुमान रणनीति अपनाता है जो अतिरिक्त एनोटेशन के बिना विरल दृश्यों से ऑनलाइन प्रशिक्षण वृद्धि का समर्थन करता है। दृष्टिकोण सामंजस्य को आगे बढ़ाने के लिए, दृष्टिकोण-मिश्रित स्मृति बैंक को बहु-दृष्टिकोण अस्थायी इंटरैक्शन को बढ़ावा देने के लिए और दृष्टिकोण-सामंजस्य आसवन रणनीति को मूल दृष्टिकोण से संश्लेषित दृष्टिकोण में ज्ञान स्थानांतरित करने के लिए पेश किया जाता है। पूर्ण अंत-से-अंत प्रशिक्षण के माध्यम से, VR-Drive संश्लेषण-प्रेरित शोर को प्रभावी ढंग से कम करता है और दृष्टिकोण परिवर्तन के तहत योजना प्रदर्शन में सुधार करता है। इसके अतिरिक्त, एक नया बेंचमार्क डेटासेट जारी किया जाता है जो उपन्यास कैमरा दृष्टिकोणों के तहत E2E-AD प्रदर्शन का मूल्यांकन करने के लिए, व्यापक विश्लेषण को सक्षम करता है।
मौजूदा अंत-से-अंत स्वायत्त ड्राइविंग सिस्टम एक महत्वपूर्ण चुनौती का सामना करते हैं: कैमरा दृष्टिकोण परिवर्तन के कारण प्रदर्शन में गिरावट। वास्तविक तैनाती में, विभिन्न वाहन प्रकारों और निर्माताओं के कैमरा कॉन्फ़िगरेशन में महत्वपूर्ण अंतर होते हैं, जिसमें स्थापना ऊंचाई, कोण और स्थिति जैसे पैरामीटर में भिन्नता शामिल है।
व्यावहारिक आवश्यकता: स्वायत्त ड्राइविंग सिस्टम को प्रत्येक कॉन्फ़िगरेशन के लिए पुनः प्रशिक्षण की आवश्यकता के बिना विभिन्न वाहन मॉडलों के अनुकूल होने की आवश्यकता है
लागत विचार: प्रत्येक कैमरा कॉन्फ़िगरेशन के लिए एनोटेट किए गए डेटा एकत्र करना अत्यंत महंगा और अव्यावहारिक है
सुरक्षा आवश्यकता: दृष्टिकोण परिवर्तन धारणा विफलता का कारण बन सकता है, जैसा कि चित्र 1 में दिखाया गया है, कैमरा ऊंचाई कम होने पर मौजूदा विधियां सामने के वाहन का पता नहीं लगा सकती हैं
एक ऐसी फ्रेमवर्क प्रस्तावित करना जो प्रशिक्षण समय में केवल एकल कैमरा कॉन्फ़िगरेशन का उपयोग करे, लेकिन परीक्षण समय पर विभिन्न अदेखे कैमरा दृष्टिकोणों के प्रति मजबूत रहे।
पहला अध्ययन: अंत-से-अंत स्वायत्त ड्राइविंग में कैमरा दृष्टिकोण मजबूतता समस्या का पहली बार व्यवस्थित अध्ययन
एकीकृत फ्रेमवर्क: VR-Drive प्रस्तावित करता है, जो 3D दृश्य पुनर्निर्माण को सहायक कार्य के रूप में संयुक्त रूप से सीखता है, योजना-जागरूक दृश्य संश्लेषण को सक्षम करता है
तकनीकी नवाचार:
दृष्टिकोण-मिश्रित स्मृति बैंक (Viewpoint-Mixed Memory Bank) क्रॉस-दृष्टिकोण विशेषता इंटरैक्शन को सक्षम करता है
दृष्टिकोण-सामंजस्य आसवन रणनीति (Viewpoint-Consistent Distillation) ज्ञान स्थानांतरित करता है
बेंचमार्क योगदान: नई दृष्टिकोण के तहत E2E-AD प्रदर्शन मूल्यांकन का समर्थन करने के लिए एक नया मूल्यांकन बेंचमार्क का निर्माण
इनपुट: बहु-दृष्टिकोण कैमरा छवि अनुक्रम
आउटपुट: स्वयं-वाहन की गति योजना प्रक्षेपवक्र
बाधा: प्रशिक्षण समय में केवल मूल दृष्टिकोण डेटा का उपयोग, परीक्षण समय में अदेखे दृष्टिकोणों के प्रति मजबूत होना आवश्यक है
पेपर ने 75 संबंधित संदर्भों का हवाला दिया है, जो अंत-से-अंत स्वायत्त ड्राइविंग, 3D पुनर्निर्माण, नई दृश्य संश्लेषण और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पत्र है जो अंत-से-अंत स्वायत्त ड्राइविंग में दृष्टिकोण मजबूतता समस्या को पहली बार व्यवस्थित रूप से हल करता है। विधि डिजाइन उचित है, प्रयोगात्मक सत्यापन पर्याप्त है, और स्वायत्त ड्राइविंग प्रौद्योगिकी के व्यावहारिक अनुप्रयोग को बढ़ावा देने में महत्वपूर्ण मूल्य है।