Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
Zhang, Song, Li et al.
End-to-end autonomous driving methods aim to directly map raw sensor inputs to future driving actions such as planned trajectories, bypassing traditional modular pipelines. While these approaches have shown promise, they often operate under a one-shot paradigm that relies heavily on the current scene context, potentially underestimating the importance of scene dynamics and their temporal evolution. This limitation restricts the model's ability to make informed and adaptive decisions in complex driving scenarios. We propose a new perspective: the future trajectory of an autonomous vehicle is closely intertwined with the evolving dynamics of its environment, and conversely, the vehicle's own future states can influence how the surrounding scene unfolds. Motivated by this bidirectional relationship, we introduce SeerDrive, a novel end-to-end framework that jointly models future scene evolution and trajectory planning in a closed-loop manner. Our method first predicts future bird's-eye view (BEV) representations to anticipate the dynamics of the surrounding scene, then leverages this foresight to generate future-context-aware trajectories. Two key components enable this: (1) future-aware planning, which injects predicted BEV features into the trajectory planner, and (2) iterative scene modeling and vehicle planning, which refines both future scene prediction and trajectory generation through collaborative optimization. Extensive experiments on the NAVSIM and nuScenes benchmarks show that SeerDrive significantly outperforms existing state-of-the-art methods.
엔드-투-엔드 자율주행 방법은 기존의 모듈식 파이프라인을 우회하여 원시 센서 입력을 미래 주행 동작(예: 계획된 궤적)으로 직접 매핑하는 것을 목표로 한다. 이러한 방법들이 유망한 결과를 보여주고 있지만, 일반적으로 단일 패러다임 하에서 작동하며 현재 장면 맥락에 크게 의존하여 장면 동역학 및 그 시간적 진화의 중요성을 과소평가할 수 있다. 이러한 제한은 복잡한 주행 시나리오에서 모델이 정보에 기반한 적응적 의사결정을 내릴 수 있는 능력을 제약한다. 본 논문은 새로운 관점을 제시한다: 자율주행 차량의 미래 궤적은 주변 환경의 진화 동역학과 밀접한 관련이 있으며, 역으로 차량 자체의 미래 상태도 주변 장면의 전개에 영향을 미칠 수 있다. 이러한 양방향 관계를 바탕으로, 저자들은 폐루프 방식으로 미래 장면 진화와 궤적 계획을 공동으로 모델링하는 새로운 엔드-투-엔드 프레임워크인 SeerDrive를 제시한다.
엔드-투-엔드 자율주행 작업은 센서 입력(카메라 및 LiDAR)을 미래 자차 궤적으로 매핑하는 것이며, 일반적으로 다양한 가능한 미래를 포착하기 위해 다중 모달 출력을 사용한다. 자율주행에서의 세계 모델은 현재 관측을 기반으로 미래 장면 진화를 예측하는 것을 목표로 한다.
논문은 58개의 관련 문헌을 인용하고 있으며, 엔드-투-엔드 자율주행, 세계 모델, 공동 모델링 등 핵심 분야의 중요한 연구를 포함하여 본 연구에 견고한 이론적 기초를 제공한다.
종합 평가: 이는 자율주행 연구 분야의 고품질 논문으로, 혁신적인 양방향 모델링 패러다임을 제시하며, 기술 방안 설계가 합리적이고, 실험 평가가 포괄적이며, 중요한 벤치마크 테스트에서 현저한 성능 향상을 달성했다. 본 논문은 엔드-투-엔드 자율주행 분야에 새로운 연구 방향을 개척하여 중요한 학술적 가치와 실용적 의의를 가진다.