2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.

End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.

academic

VR-Drive: दृष्टिकोण-मजबूत अंत-से-अंत ड्राइविंग फीड-फॉरवर्ड 3D गॉसियन स्प्लैटिंग के साथ

मूल जानकारी

पेपर ID: 2510.23205
शीर्षक: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
लेखक: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
वर्गीकरण: cs.CV
प्रकाशन समय/सम्मेलन: NeurIPS 2025 (39वां न्यूरल इनफॉर्मेशन प्रोसेसिंग सिस्टम्स सम्मेलन)
पेपर लिंक: https://arxiv.org/abs/2510.23205

सारांश

अंत-से-अंत स्वायत्त ड्राइविंग (E2E-AD) एक आशाजनक प्रतिमान बन गया है जो धारणा, भविष्यवाणी और योजना को एक समग्र डेटा-संचालित ढांचे में एकीकृत करता है। हालांकि, विभिन्न कैमरा दृष्टिकोणों के लिए मजबूतता प्राप्त करना - जो वाहन कॉन्फ़िगरेशन की विविधता के कारण एक सामान्य वास्तविक चुनौती है - अभी भी एक खुली समस्या है। यह कार्य VR-Drive प्रस्तावित करता है, एक नई E2E-AD फ्रेमवर्क जो दृष्टिकोण सामान्यीकरण समस्या को हल करने के लिए सहायक कार्य के रूप में 3D दृश्य पुनर्निर्माण के संयुक्त शिक्षण के माध्यम से योजना-जागरूक दृश्य संश्लेषण को सक्षम करता है। पूर्ववर्ती दृश्य-विशिष्ट संश्लेषण विधियों के विपरीत, VR-Drive एक फीड-फॉरवर्ड अनुमान रणनीति अपनाता है जो अतिरिक्त एनोटेशन के बिना विरल दृश्यों से ऑनलाइन प्रशिक्षण वृद्धि का समर्थन करता है। दृष्टिकोण सामंजस्य को आगे बढ़ाने के लिए, दृष्टिकोण-मिश्रित स्मृति बैंक को बहु-दृष्टिकोण अस्थायी इंटरैक्शन को बढ़ावा देने के लिए और दृष्टिकोण-सामंजस्य आसवन रणनीति को मूल दृष्टिकोण से संश्लेषित दृष्टिकोण में ज्ञान स्थानांतरित करने के लिए पेश किया जाता है। पूर्ण अंत-से-अंत प्रशिक्षण के माध्यम से, VR-Drive संश्लेषण-प्रेरित शोर को प्रभावी ढंग से कम करता है और दृष्टिकोण परिवर्तन के तहत योजना प्रदर्शन में सुधार करता है। इसके अतिरिक्त, एक नया बेंचमार्क डेटासेट जारी किया जाता है जो उपन्यास कैमरा दृष्टिकोणों के तहत E2E-AD प्रदर्शन का मूल्यांकन करने के लिए, व्यापक विश्लेषण को सक्षम करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा अंत-से-अंत स्वायत्त ड्राइविंग सिस्टम एक महत्वपूर्ण चुनौती का सामना करते हैं: कैमरा दृष्टिकोण परिवर्तन के कारण प्रदर्शन में गिरावट। वास्तविक तैनाती में, विभिन्न वाहन प्रकारों और निर्माताओं के कैमरा कॉन्फ़िगरेशन में महत्वपूर्ण अंतर होते हैं, जिसमें स्थापना ऊंचाई, कोण और स्थिति जैसे पैरामीटर में भिन्नता शामिल है।

समस्या की महत्ता

व्यावहारिक आवश्यकता: स्वायत्त ड्राइविंग सिस्टम को प्रत्येक कॉन्फ़िगरेशन के लिए पुनः प्रशिक्षण की आवश्यकता के बिना विभिन्न वाहन मॉडलों के अनुकूल होने की आवश्यकता है
लागत विचार: प्रत्येक कैमरा कॉन्फ़िगरेशन के लिए एनोटेट किए गए डेटा एकत्र करना अत्यंत महंगा और अव्यावहारिक है
सुरक्षा आवश्यकता: दृष्टिकोण परिवर्तन धारणा विफलता का कारण बन सकता है, जैसा कि चित्र 1 में दिखाया गया है, कैमरा ऊंचाई कम होने पर मौजूदा विधियां सामने के वाहन का पता नहीं लगा सकती हैं

मौजूदा विधियों की सीमाएं

डेटा निर्भरता: प्रत्येक कैमरा कॉन्फ़िगरेशन के लिए बड़ी मात्रा में एनोटेट किए गए डेटा की आवश्यकता है
दृश्य-विशिष्ट: मौजूदा नई दृश्य संश्लेषण विधियां आमतौर पर विशिष्ट दृश्यों के लिए अनुकूलित होती हैं, बड़ी कम्प्यूटेशनल ओवरहेड के साथ
कमजोर सामान्यीकरण: वितरण से बाहर (OOD) डेटा पर प्रदर्शन में उल्लेखनीय गिरावट

अनुसंधान प्रेरणा

एक ऐसी फ्रेमवर्क प्रस्तावित करना जो प्रशिक्षण समय में केवल एकल कैमरा कॉन्फ़िगरेशन का उपयोग करे, लेकिन परीक्षण समय पर विभिन्न अदेखे कैमरा दृष्टिकोणों के प्रति मजबूत रहे।

मुख्य योगदान

पहला अध्ययन: अंत-से-अंत स्वायत्त ड्राइविंग में कैमरा दृष्टिकोण मजबूतता समस्या का पहली बार व्यवस्थित अध्ययन
एकीकृत फ्रेमवर्क: VR-Drive प्रस्तावित करता है, जो 3D दृश्य पुनर्निर्माण को सहायक कार्य के रूप में संयुक्त रूप से सीखता है, योजना-जागरूक दृश्य संश्लेषण को सक्षम करता है
तकनीकी नवाचार:
- दृष्टिकोण-मिश्रित स्मृति बैंक (Viewpoint-Mixed Memory Bank) क्रॉस-दृष्टिकोण विशेषता इंटरैक्शन को सक्षम करता है
- दृष्टिकोण-सामंजस्य आसवन रणनीति (Viewpoint-Consistent Distillation) ज्ञान स्थानांतरित करता है
बेंचमार्क योगदान: नई दृष्टिकोण के तहत E2E-AD प्रदर्शन मूल्यांकन का समर्थन करने के लिए एक नया मूल्यांकन बेंचमार्क का निर्माण

विधि विवरण

कार्य परिभाषा

इनपुट: बहु-दृष्टिकोण कैमरा छवि अनुक्रम आउटपुट: स्वयं-वाहन की गति योजना प्रक्षेपवक्र बाधा: प्रशिक्षण समय में केवल मूल दृष्टिकोण डेटा का उपयोग, परीक्षण समय में अदेखे दृष्टिकोणों के प्रति मजबूत होना आवश्यक है

मॉडल आर्किटेक्चर

VR-Drive में तीन मुख्य घटक हैं:

1. मूल दृष्टिकोण शिक्षा (Original-view Learning)

ResNet50 का उपयोग करके बहु-दृष्टिकोण विशेषता मानचित्र निकालना $I \in \mathbb{R}^{N×C×H×W}$
फीड-फॉरवर्ड 3D गॉसियन स्प्लैटिंग (3DGS) के आधार पर दृश्य पुनर्निर्माण
गॉसियन आदिम परिभाषा: $g = (μ, Σ, α, c)$ , जिसमें स्थिति, सहप्रसरण, पारदर्शिता और रंग शामिल हैं

2. नई दृष्टिकोण शिक्षा (Novel-view Learning)

नई दृष्टिकोण उत्पन्न करने के लिए कैमरा बाह्य पैरामीटर को यादृच्छिक रूप से नमूना करना
नई दृष्टिकोण विशेषता निकालने के लिए साझा एनकोडर का उपयोग $\tilde{I} \in \mathbb{R}^{N×C×H×W}$
मूल दृष्टिकोण को पुनः उत्पन्न करने के लिए मॉडल को प्रशिक्षित करने के लिए चक्रीय पुनर्निर्माण हानि को अपनाना

3. धारणा-योजना शिक्षा (Perception-planning Learning)

प्रशिक्षण समय में मूल या नई दृष्टिकोण को इनपुट के रूप में यादृच्छिक रूप से चुनना
3D वस्तु पहचान और मानचित्रण कार्यों को एकीकृत करना
दक्षता में सुधार के लिए विरल आर्किटेक्चर को अपनाना

मुख्य तकनीकी घटक

दृष्टिकोण-मिश्रित स्मृति बैंक

F̃ = Cross-Attention(Query = F, Key = F', Value = F')

विभिन्न दृष्टिकोणों से उदाहरण विशेषताओं को संग्रहीत और अपडेट करना
क्रॉस-ध्यान तंत्र के माध्यम से वर्तमान दृष्टिकोण और स्मृति बैंक विशेषताओं को मिश्रित करना
उच्च आत्मविश्वास वाले उदाहरणों को अपडेट करने के लिए FIFO रणनीति को अपनाना

दृष्टिकोण-सामंजस्य आसवन

मुख्य विचार: नई दृष्टिकोण विशेषता शिक्षा को निर्देशित करने के लिए मूल दृष्टिकोण की विश्वसनीय विशेषताओं का उपयोग करना

मुख्य बिंदु नमूनाकरण:
```
p*_{i,j} = p_{i,j} + position(B_i)
```
विशेषता एकत्रीकरण:
```
S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
```

आसवन हानि:

L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2

हानि फलन

कुल हानि में कई घटक शामिल हैं:

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

जहां प्रतिपादन हानि में शामिल है:

मूल पुनर्निर्माण हानि: आसन्न समय चरण दृश्य का पुनर्निर्माण
चक्रीय पुनर्निर्माण हानि: नई दृष्टिकोण से मूल दृष्टिकोण का पुनर्निर्माण

प्रयोगात्मक सेटअप

डेटासेट

nuScenes: व्यापक रूप से उपयोग किया जाने वाला स्वायत्त ड्राइविंग बेंचमार्क डेटासेट
CARLA: सिमुलेशन वातावरण, बंद-लूप मूल्यांकन के लिए
नया बेंचमार्क: nuScenes के आधार पर निर्मित दृष्टिकोण परिवर्तन मूल्यांकन सेट, 146 परीक्षण अनुक्रमों को शामिल करता है

दृष्टिकोण परिवर्तन कॉन्फ़िगरेशन

परीक्षण समय पर पेश किए गए कैमरा पैरामीटर परिवर्तन:

पिच कोण: +5°, -10°
ऊंचाई: +1.0m, -0.7m
गहराई: +1.0m

मूल्यांकन मेट्रिक्स

L2 दूरी: औसत विस्थापन त्रुटि (ADE), 1s/2s/3s समय सीमा
टकराव दर: योजना प्रक्षेपवक्र का टकराव प्रतिशत
ड्राइविंग स्कोर (DS) और मार्ग पूर्णता दर (RC): CARLA बंद-लूप मूल्यांकन मेट्रिक्स

तुलना विधियां

AD-MLP
BEV-Planner
VAD
SparseDrive
DiffusionDrive

प्रयोगात्मक परिणाम

मुख्य परिणाम

nuScenes डेटासेट पर खुली-लूप योजना प्रदर्शन तुलना दिखाती है:

कैमरा सेटिंग	विधि	L2 दूरी(m) ↓	टकराव दर(%) ↓
मूल	DiffusionDrive	0.57	0.08
मूल	VR-Drive	0.60	0.06
पिच-10°	DiffusionDrive	0.96	0.24
पिच-10°	VR-Drive	0.70	0.11
ऊंचाई+1.0m	DiffusionDrive	1.46	0.81
ऊंचाई+1.0m	VR-Drive	0.69	0.11

मुख्य निष्कर्ष:

VR-Drive मूल दृष्टिकोण पर प्रतिस्पर्धी प्रदर्शन बनाए रखता है
नई दृष्टिकोण पर मौजूदा विधियों से काफी बेहतर, औसत L2 दूरी 1.17m से 0.68m तक कम
टकराव दर 0.41% से 0.11% तक कम

विलोपन प्रयोग

घटक	मूल दृष्टिकोण L2↓	नई दृष्टिकोण L2↓	मूल टकराव दर↓	नई दृष्टिकोण टकराव दर↓
आधारभूत	0.63	0.91	0.14	0.30
+दृश्य पुनर्निर्माण	0.59	0.90	0.07	0.26
+स्मृति बैंक	0.62	0.73	0.09	0.17
+चक्रीय पुनर्निर्माण	0.59	0.68	0.09	0.16
+आसवन	0.61	0.73	0.08	0.14
पूर्ण मॉडल	0.60	0.68	0.06	0.11

महत्वपूर्ण निष्कर्ष:

केवल दृश्य पुनर्निर्माण जोड़ने से मूल दृष्टिकोण प्रदर्शन में सुधार होता है
विभिन्न घटक सहक्रियात्मक रूप से कार्य करते हैं, पूर्ण मॉडल सर्वोत्तम प्रभाव देता है
मूल दृष्टिकोण प्रदर्शन और नई दृष्टिकोण मजबूतता के बीच कोई व्यापार-बंद नहीं है

CARLA बंद-लूप मूल्यांकन

Town05-Nov बेंचमार्क पर परिणाम:

विधि	मूल DS	नई दृष्टिकोण औसत DS	मूल RC	नई दृष्टिकोण औसत RC
BEV-Planner	17.25	7.80	28.70	28.86
आधारभूत	76.47	48.25	99.20	94.87
VR-Drive	84.04	88.25	99.04	98.28

VR-Drive बंद-लूप परीक्षण में उत्कृष्ट दृष्टिकोण मजबूतता प्रदर्शित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

VR-Drive E2E-AD में दृष्टिकोण मजबूतता समस्या को सफलतापूर्वक हल करता है
3D पुनर्निर्माण को सहायक कार्य के रूप में संयुक्त रूप से सीखना प्रणाली मजबूतता में काफी सुधार करता है
प्रस्तावित तकनीकी घटक संश्लेषण-प्रेरित शोर को प्रभावी ढंग से कम करते हैं और योजना प्रदर्शन में सुधार करते हैं

सीमाएं

कैमरा कैलिब्रेशन निर्भरता: प्रदर्शन कैमरा कैलिब्रेशन सटीकता से प्रभावित होता है
कम्प्यूटेशनल ओवरहेड: 3D पुनर्निर्माण अतिरिक्त कम्प्यूटेशनल लागत जोड़ता है
मूल्यांकन सीमा: वर्तमान में केवल सीमित दृष्टिकोण परिवर्तन सीमा में सत्यापित

भविष्य की दिशाएं

कैमरा कैलिब्रेशन त्रुटि के प्रति मजबूतता में सुधार
कम्प्यूटेशनल दक्षता को अनुकूलित करना, वास्तविक समय तैनाती लागत को कम करना
बड़ी सीमा के दृष्टिकोण परिवर्तन और सेंसर कॉन्फ़िगरेशन तक विस्तार

गहन मूल्यांकन

शक्तियां

समस्या महत्व: वास्तविक तैनाती में मुख्य चुनौती को हल करता है
विधि नवाचार: 3D पुनर्निर्माण और E2E-AD को चतुराई से संयोजित करता है, सुंदर तकनीकी घटकों को डिजाइन करता है
पर्याप्त प्रयोग: खुली-लूप और बंद-लूप मूल्यांकन शामिल है, विलोपन प्रयोग विस्तृत हैं
बेंचमार्क योगदान: क्षेत्र को नए मूल्यांकन मानदंड प्रदान करता है

कमियां

कैलिब्रेशन धारणा: पूर्ण कैमरा कैलिब्रेशन मानता है, वास्तविक अनुप्रयोग में त्रुटि हो सकती है
दृष्टिकोण सीमा: परीक्षण किए गए दृष्टिकोण परिवर्तन की सीमा अपेक्षाकृत सीमित है
कम्प्यूटेशनल विश्लेषण: विस्तृत कम्प्यूटेशनल ओवरहेड विश्लेषण की कमी

प्रभाव

शैक्षणिक मूल्य: E2E-AD में दृष्टिकोण मजबूतता का अग्रणी अध्ययन
व्यावहारिक मूल्य: औद्योगिक तैनाती में वास्तविक समस्या को सीधे हल करता है
पुनरुत्पादनशीलता: विधि विवरण विस्तृत है, बाद के अनुसंधान को बढ़ावा देने की संभावना है

लागू परिदृश्य

बहु-वाहन तैनाती: विभिन्न वाहन कॉन्फ़िगरेशन में तेजी से अनुकूलन की आवश्यकता वाले परिदृश्य
सेंसर अपग्रेड: वाहन सेंसर कॉन्फ़िगरेशन परिवर्तन के समय प्रणाली माइग्रेशन
क्रॉस-डोमेन अनुप्रयोग: विभिन्न क्षेत्रों या देशों के वाहन मानक अंतर अनुकूलन

संदर्भ

पेपर ने 75 संबंधित संदर्भों का हवाला दिया है, जो अंत-से-अंत स्वायत्त ड्राइविंग, 3D पुनर्निर्माण, नई दृश्य संश्लेषण और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पत्र है जो अंत-से-अंत स्वायत्त ड्राइविंग में दृष्टिकोण मजबूतता समस्या को पहली बार व्यवस्थित रूप से हल करता है। विधि डिजाइन उचित है, प्रयोगात्मक सत्यापन पर्याप्त है, और स्वायत्त ड्राइविंग प्रौद्योगिकी के व्यावहारिक अनुप्रयोग को बढ़ावा देने में महत्वपूर्ण मूल्य है।