2025-11-22T23:16:16.841585

Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution

Zhang, Song, Li et al.
End-to-end autonomous driving methods aim to directly map raw sensor inputs to future driving actions such as planned trajectories, bypassing traditional modular pipelines. While these approaches have shown promise, they often operate under a one-shot paradigm that relies heavily on the current scene context, potentially underestimating the importance of scene dynamics and their temporal evolution. This limitation restricts the model's ability to make informed and adaptive decisions in complex driving scenarios. We propose a new perspective: the future trajectory of an autonomous vehicle is closely intertwined with the evolving dynamics of its environment, and conversely, the vehicle's own future states can influence how the surrounding scene unfolds. Motivated by this bidirectional relationship, we introduce SeerDrive, a novel end-to-end framework that jointly models future scene evolution and trajectory planning in a closed-loop manner. Our method first predicts future bird's-eye view (BEV) representations to anticipate the dynamics of the surrounding scene, then leverages this foresight to generate future-context-aware trajectories. Two key components enable this: (1) future-aware planning, which injects predicted BEV features into the trajectory planner, and (2) iterative scene modeling and vehicle planning, which refines both future scene prediction and trajectory generation through collaborative optimization. Extensive experiments on the NAVSIM and nuScenes benchmarks show that SeerDrive significantly outperforms existing state-of-the-art methods.
academic

भविष्य-जागरूक एंड-टू-एंड ड्राइविंग: ट्रैजेक्टरी प्लानिंग और दृश्य विकास का द्विदिशात्मक मॉडलिंग

मूल जानकारी

  • पेपर ID: 2510.11092
  • शीर्षक: Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
  • लेखक: Bozhou Zhang, Nan Song, Jingyu Li, Xiatian Zhu, Jiankang Deng, Li Zhang
  • वर्गीकरण: cs.CV
  • प्रकाशन सम्मेलन: NeurIPS 2025 (39वां तंत्रिका सूचना प्रसंस्करण प्रणाली सम्मेलन)
  • पेपर लिंक: https://arxiv.org/abs/2510.11092
  • कोड लिंक: https://github.com/LogosRoboticsGroup/SeerDrive

सारांश

एंड-टू-एंड स्वायत्त ड्राइविंग विधियां कच्चे सेंसर इनपुट को सीधे भविष्य की ड्राइविंग क्रियाओं (जैसे योजना बनाई गई ट्रैजेक्टरी) में मैप करने का लक्ष्य रखती हैं, पारंपरिक मॉड्यूलर पाइपलाइन को दरकिनार करते हुए। हालांकि ये विधियां आशाजनक परिणाम दिखाती हैं, लेकिन वे आमतौर पर एकल-पास प्रतिमान के तहत काम करती हैं, वर्तमान दृश्य संदर्भ पर अत्यधिक निर्भर रहती हैं, और दृश्य गतिशीलता तथा इसके समय विकास के महत्व को कम आंक सकती हैं। यह सीमा जटिल ड्राइविंग परिस्थितियों में सूचित और अनुकूली निर्णय लेने की मॉडल की क्षमता को प्रतिबंधित करती है। यह पेपर एक नया दृष्टिकोण प्रस्तावित करता है: स्वायत्त वाहन की भविष्य की ट्रैजेक्टरी इसके पर्यावरण की विकास गतिशीलता से निकटता से संबंधित है, और इसके विपरीत, वाहन की स्वयं की भविष्य की स्थिति आसपास के दृश्य के विकास को प्रभावित कर सकती है। इस द्विदिशात्मक संबंध के आधार पर, लेखकों ने SeerDrive प्रस्तुत किया, एक नवीन एंड-टू-एंड फ्रेमवर्क जो भविष्य के दृश्य विकास और ट्रैजेक्टरी योजना को संयुक्त रूप से बंद-लूप तरीके से मॉडल करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा एंड-टू-एंड स्वायत्त ड्राइविंग विधियां मुख्य रूप से "एकल-पास प्रतिमान" (one-shot paradigm) को अपनाती हैं, अर्थात् वर्तमान समय के सेंसर अवलोकन के आधार पर भविष्य के कुछ सेकंड की ट्रैजेक्टरी का सीधे पूर्वानुमान लगाया जाता है। इस विधि में निम्नलिखित मुख्य समस्याएं हैं:

  1. स्थिर दृश्य मानदंड: वर्तमान दृश्य स्थिति पर अत्यधिक निर्भरता स्वयं के वाहन की भविष्य की गति का अनुमान लगाने के लिए, यह अनदेखा करते हुए कि दृश्य समय के साथ कैसे विकसित होता है यह महत्वपूर्ण कारक है
  2. एकदिशात्मक मॉडलिंग: स्वयं के वाहन के भविष्य के व्यवहार के आसपास के दृश्य के विकास पर प्रभाव पर विचार नहीं किया गया है
  3. अस्थायी गतिशीलता मॉडलिंग की कमी: गतिशील इंटरैक्टिव ड्राइविंग वातावरण में, यह विधि मॉडल की अनुकूली निर्णय क्षमता को सीमित करती है

अनुसंधान प्रेरणा

लेखकों ने दो महत्वपूर्ण द्विदिशात्मक निर्भरता संबंधों का अवलोकन किया:

  • भविष्य की यातायात गतिशीलता स्वयं के वाहन की गति योजना को प्रभावित करती है
  • स्वयं के वाहन का योजना व्यवहार बदले में भविष्य के दृश्य को आकार देता है

इस अंतर्दृष्टि के आधार पर, लेखकों ने दृश्य विकास और ट्रैजेक्टरी योजना के बीच द्विदिशात्मक इंटरैक्शन संबंधों को स्पष्ट रूप से मॉडल करने की आवश्यकता का प्रस्ताव दिया।

मुख्य योगदान

  1. नया प्रतिमान प्रस्ताव: एक नया एंड-टू-एंड ड्राइविंग प्रतिमान प्रस्तावित किया जो दृश्य गतिशीलता और स्वयं के वाहन के भविष्य के व्यवहार के बीच द्विदिशात्मक इंटरैक्शन को स्पष्ट रूप से कैप्चर करता है, पारंपरिक एकल-पास योजना विधि को चुनौती देता है
  2. एकीकृत फ्रेमवर्क डिजाइन: SeerDrive फ्रेमवर्क को तुरंत किया गया, भविष्य की जागरूकता और पुनरावृत्तिमूलक इंटरैक्शन तंत्र के माध्यम से भविष्य के BEV दृश्य प्रतिनिधित्व और वाहन ट्रैजेक्टरी को संयुक्त रूप से मॉडल करता है
  3. प्रदर्शन सफलता: NAVSIM और nuScenes बेंचमार्क परीक्षणों पर अत्याधुनिक प्रदर्शन प्राप्त किया, डिजाइन की प्रभावशीलता को सत्यापित किया

विधि विवरण

कार्य परिभाषा

एंड-टू-एंड स्वायत्त ड्राइविंग कार्य सेंसर इनपुट (कैमरा और LiDAR) को भविष्य के स्वयं के वाहन की ट्रैजेक्टरी में मैप करना है, आमतौर पर विविध संभावित भविष्य को कैप्चर करने के लिए बहु-मोडल आउटपुट का उपयोग किया जाता है। विश्व मॉडल स्वायत्त ड्राइविंग में वर्तमान अवलोकन के आधार पर भविष्य के दृश्य विकास का पूर्वानुमान लगाने का लक्ष्य रखता है।

मॉडल आर्किटेक्चर

1. विशेषता एन्कोडिंग

बहु-दृश्य छवियां I और LiDAR विशेषताएं P दी गई हैं, एन्कोडर इन बहु-मोडल सेंसर इनपुट को वर्तमान BEV विशेषता मानचित्र FbevcurrRH×W×CF^{curr}_{bev} \in \mathbb{R}^{H \times W \times C} में परिवर्तित करता है:

F^curr_bev = TransFuser(I, P)
F^curr_ego = EgoEncoder(T, E)
B^curr = BEVDecoder(F^curr_bev)

जहां T लंगर बहु-मोडल ट्रैजेक्टरी है, E स्वयं के वाहन की स्थिति है।

2. भविष्य BEV विश्व मॉडलिंग

BEV विश्व मॉडल भविष्य के BEV प्रतिनिधित्व का पूर्वानुमान लगाता है, जटिल छवि पीढ़ी के बजाय संरचित BEV प्रतिनिधित्व को अपनाता है:

F^fut_scene = BEVWorldModel(F^curr_scene)
B^fut = BEVDecoder(F^fut_bev)

3. भविष्य-जागरूक एंड-टू-एंड योजना

योजना नेटवर्क योजना ट्रैजेक्टरी उत्पन्न करने के लिए वर्तमान दृश्य और भविष्य के विकास को संयुक्त रूप से तर्क देता है। एक विघटित रणनीति को अपनाया जाता है, स्वयं के वाहन की विशेषताएं वर्तमान और भविष्य के BEV विशेषताओं के साथ अलग से इंटरैक्ट करती हैं:

F^curr_ego = TransformerDecoder(F^curr_ego, F^curr_bev)
F^fut_ego = TransformerDecoder(F^fut_ego, F^fut_bev)
Ta = EgoDecoder(F^curr_ego)
Tb = EgoDecoder(F^fut_ego)

अंत में गति-जागरूक परत सामान्यीकरण (MLN) के माध्यम से संलयन:

F^curr_ego = MLN(F^curr_ego, F^fut_ego)
T^final = EgoDecoder(F^curr_ego)

4. पुनरावृत्तिमूलक दृश्य मॉडलिंग और वाहन योजना

BEV विश्व मॉडलिंग नेटवर्क और एंड-टू-एंड योजना नेटवर्क पुनरावृत्तिमूलक तरीके से काम करते हैं, योजना प्रदर्शन को क्रमिक रूप से सुधारते हैं। N बार पुनरावृत्ति करते हुए, भविष्य के शब्दार्थ मानचित्र और स्वयं के वाहन की ट्रैजेक्टरी की N जोड़ी उत्पन्न करते हैं।

तकनीकी नवाचार बिंदु

  1. द्विदिशात्मक मॉडलिंग: एंड-टू-एंड ड्राइविंग में पहली बार दृश्य विकास और ट्रैजेक्टरी योजना की द्विदिशात्मक निर्भरता को स्पष्ट रूप से मॉडल किया
  2. विघटित इंटरैक्शन रणनीति: वर्तमान और भविष्य के BEV विशेषताओं के प्रत्यक्ष इंटरैक्शन के कारण प्रतिनिधित्व उलझन से बचता है
  3. पुनरावृत्तिमूलक अनुकूलन: सहयोगी अनुकूलन के माध्यम से दृश्य पूर्वानुमान और ट्रैजेक्टरी पीढ़ी को क्रमिक रूप से परिष्कृत करता है
  4. गति-जागरूक संलयन: वर्तमान और भविष्य के स्वयं के वाहन प्रतिनिधित्व को प्रभावी रूप से संलयन करने के लिए MLN का उपयोग करता है

प्रायोगिक सेटअप

डेटासेट

  • NAVSIM: nuPlan के आधार पर निर्मित, 1,192 प्रशिक्षण/सत्यापन दृश्य और 136 परीक्षण दृश्य, 8 कैमरा + LiDAR, 2Hz
  • nuScenes: 1,000 दृश्य, 6 कैमरा + LiDAR, 2Hz, मानक 700/150 प्रशिक्षण/सत्यापन विभाजन को अपनाता है

मूल्यांकन मेट्रिक्स

  • NAVSIM: PDM स्कोर (PDMS), जिसमें दोष-मुक्त टकराव (NC), ड्राइविंग योग्य क्षेत्र अनुपालन (DAC), टकराव समय (TTC), आराम (Comf.), स्वयं के वाहन की प्रगति (EP) शामिल है
  • nuScenes: L2 विस्थापन त्रुटि और टकराव दर

कार्यान्वयन विवरण

  • NAVSIM: ResNet34 बैकबोन नेटवर्क, 3 दृश्य, 1024×256 रिज़ॉल्यूशन, 256 ट्रैजेक्टरी मोड, 4 सेकंड योजना रेंज
  • nuScenes: ResNet50 बैकबोन नेटवर्क, 6 दृश्य, 640×360 रिज़ॉल्यूशन, 6 ट्रैजेक्टरी मोड, 3 सेकंड योजना रेंज
  • प्रशिक्षण: 8 RTX 3090 GPU, AdamW अनुकूलक

प्रायोगिक परिणाम

मुख्य परिणाम

विधिNC ↑DAC ↑TTC ↑Comf. ↑EP ↑PDMS ↑
DiffusionDrive98.296.294.710082.288.1
WoTE98.596.894.999.981.988.3
Hydra-NeXt98.197.794.610081.888.6
SeerDrive98.497.094.999.983.288.9

SeerDrive ने NAVSIM पर 88.9 PDMS स्कोर प्राप्त किया, जो मौजूदा विधियों से काफी बेहतर है।

nuScenes डेटासेट प्रदर्शन तुलना

विधिL2 (m) ↓Col. दर (%) ↓
1s/2s/3s/Avg.1s/2s/3s/Avg.
SparseDrive0.29/0.58/0.96/0.610.01/0.05/0.18/0.08
SeerDrive0.20/0.39/0.69/0.430.00/0.05/0.14/0.06

nuScenes पर, SeerDrive विस्थापन त्रुटि और टकराव दर दोनों में महत्वपूर्ण सुधार प्राप्त करता है।

विघटन प्रयोग

मुख्य घटक विश्लेषण

भविष्य-जागरूक योजनाIter. S&VPDMS ↑
87.1
87.9
88.1
88.9

परिणाम दर्शाते हैं कि दोनों मुख्य घटक प्रदर्शन सुधार में महत्वपूर्ण योगदान देते हैं।

पुनरावृत्ति संख्या विश्लेषण

पुनरावृत्ति संख्याPDMS ↑
188.1
288.9
388.7

2 पुनरावृत्तियां दक्षता और प्रदर्शन का सर्वोत्तम संतुलन प्राप्त करती हैं।

गुणात्मक परिणाम

पेपर दाएं मुड़ और बाएं मुड़ दृश्यों के दृश्य परिणाम प्रदर्शित करता है, जो दिखाता है कि मॉडल निम्नलिखित में सक्षम है:

  • भविष्य के BEV शब्दार्थ मानचित्र का सटीक पूर्वानुमान
  • वास्तविक ट्रैजेक्टरी के साथ अत्यधिक सुसंगत योजना ट्रैजेक्टरी उत्पन्न करना
  • बहु-मोडल संभावित भविष्य आंदोलन को कैप्चर करना

संबंधित कार्य

एंड-टू-एंड स्वायत्त ड्राइविंग

  • प्रारंभिक विधियां: सेंसर डेटा से सीधे ट्रैजेक्टरी या क्रियाएं अनुमानित करना
  • एकीकृत फ्रेमवर्क: UniAD धारणा, पूर्वानुमान और योजना को एकीकृत करता है; VAD वेक्टरीकृत प्रतिनिधित्व को अपनाता है
  • नवीनतम प्रगति: DiffusionDrive छोटे विसरण रणनीति का उपयोग करता है; DriveTransformer स्केलिंग कानूनों की खोज करता है

स्वायत्त ड्राइविंग में विश्व मॉडल

  • वीडियो पीढ़ी विधियां: DriveDreamer, Drive-WM आदि यथार्थवादी वीडियो उत्पन्न करते हैं
  • BEV मॉडलिंग: SLEDGE, GUMP, Scenario Dreamer आदि BEV स्पेस में मॉडलिंग करते हैं
  • संयुक्त मॉडलिंग: OccWorld, Drive-OccWorld आदि संयुक्त रूप से व्यस्ততता और क्रियाएं उत्पन्न करते हैं

यह पेपर मौजूदा विधियों से अलग है, विश्व मॉडलिंग और योजना की गहन इंटरैक्शन को लागू करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. दृश्य विकास और ट्रैजेक्टरी योजना की द्विदिशात्मक मॉडलिंग का नया प्रतिमान प्रस्तावित किया
  2. SeerDrive फ्रेमवर्क भविष्य-जागरूक एंड-टू-एंड ड्राइविंग को प्रभावी रूप से लागू करता है
  3. दोनों बेंचमार्क डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त किया

सीमाएं

  1. आधार मॉडल सीमाएं: BEV विश्व मॉडल विशेष रूप से डिजाइन किए गए transformer आर्किटेक्चर को अपनाता है, आधार मॉडल की सामान्यीकरण क्षमता का उपयोग नहीं कर सकता
  2. अनुमान गति: तैयार आधार मॉडल को विश्व मॉडल के रूप में उपयोग करने में अनुमान गति धीमी और संयुक्त अनुकूलन कठिन होने की समस्याएं हैं
  3. जटिल दृश्य प्रसंस्करण: कुछ जटिल दृश्यों में अभी भी विफलता के मामले हैं, जैसे लेन चयन त्रुटि और ड्राइविंग इरादे अनुमान विफलता

भविष्य की दिशाएं

  • योजना और विश्व मॉडलिंग को कसकर एकीकृत करने वाले प्रतिमान विकसित करना
  • एंड-टू-एंड ड्राइविंग में आधार मॉडल के अनुप्रयोग की खोज करना
  • उच्च-स्तरीय ड्राइविंग इरादे को शामिल करके योजना सटीकता में सुधार करना

गहन मूल्यांकन

लाभ

  1. मजबूत नवाचार: दृश्य विकास और ट्रैजेक्टरी योजना के द्विदिशात्मक संबंध को पहली बार व्यवस्थित रूप से मॉडल किया, पारंपरिक एकल-पास प्रतिमान को तोड़ा
  2. उचित तकनीकी डिजाइन: विघटित इंटरैक्शन रणनीति, पुनरावृत्तिमूलक अनुकूलन आदि डिजाइन व्यावहारिक समस्याओं को प्रभावी रूप से हल करते हैं
  3. व्यापक प्रयोग: कई डेटासेट पर व्यापक मूल्यांकन किया गया, विघटन प्रयोग विस्तृत हैं
  4. महत्वपूर्ण प्रदर्शन सुधार: चुनौतीपूर्ण NAVSIM और nuScenes बेंचमार्क पर स्पष्ट सुधार प्राप्त किया

कमियां

  1. कम्प्यूटेशनल जटिलता: पुनरावृत्तिमूलक मॉडलिंग कम्प्यूटेशनल ओवरहेड बढ़ाता है, वास्तविक तैनाती में दक्षता पर विचार करने की आवश्यकता है
  2. सामान्यीकरण क्षमता: विशेष रूप से डिजाइन किए गए आर्किटेक्चर विभिन्न दृश्यों में सामान्यीकरण क्षमता को सीमित कर सकते हैं
  3. विफलता मामले विश्लेषण अपर्याप्त: मॉडल विफलता के मूल कारणों का विश्लेषण और गहन होने की आवश्यकता है

प्रभाव

  1. शैक्षणिक योगदान: एंड-टू-एंड स्वायत्त ड्राइविंग क्षेत्र के लिए नया अनुसंधान प्रतिमान और विचार प्रदान करता है
  2. व्यावहारिक मूल्य: विधि वास्तविक ड्राइविंग परिस्थितियों में अच्छा प्रदर्शन दिखाता है, अनुप्रयोग क्षमता है
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और ओपन-सोर्स कोड प्रदान करता है, पुनरुत्पादन और बाद के अनुसंधान को सुविधाजनक बनाता है

लागू दृश्य

  • जटिल शहरी ड्राइविंग वातावरण
  • बहु-एजेंट इंटरैक्शन पर विचार करने की आवश्यकता वाले दृश्य
  • योजना सटीकता के लिए उच्च आवश्यकताओं वाली स्वायत्त ड्राइविंग प्रणाली
  • एंड-टू-एंड सीखने की स्वायत्त ड्राइविंग अनुसंधान

संदर्भ

पेपर 58 संबंधित संदर्भों का हवाला देता है, जिसमें एंड-टू-एंड स्वायत्त ड्राइविंग, विश्व मॉडल, संयुक्त मॉडलिंग आदि मुख्य क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो इस अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।


समग्र मूल्यांकन: यह स्वायत्त ड्राइविंग अनुसंधान का एक उच्च-गुणवत्ता वाला पेपर है, जो द्विदिशात्मक मॉडलिंग प्रतिमान का नवीन प्रस्ताव करता है, तकनीकी समाधान डिजाइन उचित है, प्रायोगिक मूल्यांकन व्यापक है, महत्वपूर्ण बेंचमार्क परीक्षणों पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त किया है। पेपर एंड-टू-एंड स्वायत्त ड्राइविंग क्षेत्र के लिए नई अनुसंधान दिशा खोलता है, महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व है।