2025-11-22T23:16:16.841585

Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution

Zhang, Song, Li et al.
End-to-end autonomous driving methods aim to directly map raw sensor inputs to future driving actions such as planned trajectories, bypassing traditional modular pipelines. While these approaches have shown promise, they often operate under a one-shot paradigm that relies heavily on the current scene context, potentially underestimating the importance of scene dynamics and their temporal evolution. This limitation restricts the model's ability to make informed and adaptive decisions in complex driving scenarios. We propose a new perspective: the future trajectory of an autonomous vehicle is closely intertwined with the evolving dynamics of its environment, and conversely, the vehicle's own future states can influence how the surrounding scene unfolds. Motivated by this bidirectional relationship, we introduce SeerDrive, a novel end-to-end framework that jointly models future scene evolution and trajectory planning in a closed-loop manner. Our method first predicts future bird's-eye view (BEV) representations to anticipate the dynamics of the surrounding scene, then leverages this foresight to generate future-context-aware trajectories. Two key components enable this: (1) future-aware planning, which injects predicted BEV features into the trajectory planner, and (2) iterative scene modeling and vehicle planning, which refines both future scene prediction and trajectory generation through collaborative optimization. Extensive experiments on the NAVSIM and nuScenes benchmarks show that SeerDrive significantly outperforms existing state-of-the-art methods.
academic

Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution

基本信息

  • 论文ID: 2510.11092
  • 标题: Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
  • 作者: Bozhou Zhang, Nan Song, Jingyu Li, Xiatian Zhu, Jiankang Deng, Li Zhang
  • 分类: cs.CV
  • 发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
  • 论文链接: https://arxiv.org/abs/2510.11092
  • 代码链接: https://github.com/LogosRoboticsGroup/SeerDrive

摘要

端到端自动驾驶方法旨在直接将原始传感器输入映射到未来驾驶动作(如规划轨迹),绕过传统的模块化管道。虽然这些方法显示出前景,但它们通常在单次范式下运行,严重依赖当前场景上下文,可能低估了场景动态及其时间演化的重要性。这种限制约束了模型在复杂驾驶场景中做出明智和自适应决策的能力。本文提出了一个新视角:自动驾驶车辆的未来轨迹与其环境的演化动态密切相关,反之,车辆自身的未来状态也能影响周围场景的展开。基于这种双向关系,作者引入了SeerDrive,一个新颖的端到端框架,以闭环方式联合建模未来场景演化和轨迹规划。

研究背景与动机

问题定义

现有的端到端自动驾驶方法主要采用"单次范式"(one-shot paradigm),即基于当前时刻的传感器观测直接预测未来几秒的轨迹。这种方法存在以下关键问题:

  1. 静态场景假设:过度依赖当前场景情况来推断自车未来运动,忽视了场景如何随时间演化这一关键因素
  2. 单向建模:未考虑自车未来行为对周围场景展开的影响
  3. 缺乏时序动态建模:在动态交互驾驶环境中,这种方法限制了模型的适应性决策能力

研究动机

作者观察到两个重要的双向依赖关系:

  • 未来交通动态影响自车的运动规划
  • 自车的规划行为反过来塑造未来场景

基于这一洞察,作者提出需要显式建模场景演化与轨迹规划之间的双向交互关系。

核心贡献

  1. 新范式提出:提出了一种新的端到端驾驶范式,显式捕获场景动态与自车未来行为之间的双向交互,挑战了传统的单次规划方法
  2. 统一框架设计:实例化了SeerDrive框架,通过未来感知和迭代交互机制联合建模未来BEV场景表示和车辆轨迹
  3. 性能突破:在NAVSIM和nuScenes基准测试上实现了最先进的性能,验证了设计的有效性

方法详解

任务定义

端到端自动驾驶任务是将传感器输入(相机和LiDAR)映射到未来自车轨迹,通常使用多模态输出来捕获多样的可能未来。世界模型在自动驾驶中旨在基于当前观测预测未来场景演化。

模型架构

1. 特征编码

给定多视角图像I和LiDAR特征P,编码器将这些多模态传感器输入转换为当前BEV特征图 FbevcurrRH×W×CF^{curr}_{bev} \in \mathbb{R}^{H \times W \times C}

F^curr_bev = TransFuser(I, P)
F^curr_ego = EgoEncoder(T, E)
B^curr = BEVDecoder(F^curr_bev)

其中T为锚定的多模态轨迹,E为自车状态。

2. 未来BEV世界建模

BEV世界模型预测未来BEV表示,采用结构化的BEV表示而非复杂的图像生成:

F^fut_scene = BEVWorldModel(F^curr_scene)
B^fut = BEVDecoder(F^fut_bev)

3. 未来感知的端到端规划

规划网络联合推理当前场景和未来演化来生成规划轨迹。采用解耦策略,自车特征分别与当前和未来BEV特征交互:

F^curr_ego = TransformerDecoder(F^curr_ego, F^curr_bev)
F^fut_ego = TransformerDecoder(F^fut_ego, F^fut_bev)
Ta = EgoDecoder(F^curr_ego)
Tb = EgoDecoder(F^fut_ego)

最终通过运动感知层归一化(MLN)融合:

F^curr_ego = MLN(F^curr_ego, F^fut_ego)
T^final = EgoDecoder(F^curr_ego)

4. 迭代场景建模与车辆规划

BEV世界建模网络和端到端规划网络以迭代方式运行,逐步改进规划性能。迭代N次,产生N对预测的未来语义图和自车轨迹。

技术创新点

  1. 双向建模:首次在端到端驾驶中显式建模场景演化与轨迹规划的双向依赖
  2. 解耦交互策略:避免当前和未来BEV特征直接交互导致的表示纠缠
  3. 迭代优化:通过协同优化逐步细化场景预测和轨迹生成
  4. 运动感知融合:使用MLN有效融合当前和未来自车表示

实验设置

数据集

  • NAVSIM:基于nuPlan构建,包含1,192个训练/验证场景和136个测试场景,8相机+LiDAR,2Hz
  • nuScenes:1,000个场景,6相机+LiDAR,2Hz,采用标准700/150训练/验证划分

评价指标

  • NAVSIM:PDM Score (PDMS),包含无过失碰撞(NC)、可行驶区域合规性(DAC)、碰撞时间(TTC)、舒适度(Comf.)、自车进展(EP)
  • nuScenes:L2位移误差和碰撞率

实现细节

  • NAVSIM:ResNet34骨干网络,3视角,1024×256分辨率,256轨迹模式,4秒规划范围
  • nuScenes:ResNet50骨干网络,6视角,640×360分辨率,6轨迹模式,3秒规划范围
  • 训练:8个RTX 3090 GPU,AdamW优化器

实验结果

主要结果

MethodNC ↑DAC ↑TTC ↑Comf. ↑EP ↑PDMS ↑
DiffusionDrive98.296.294.710082.288.1
WoTE98.596.894.999.981.988.3
Hydra-NeXt98.197.794.610081.888.6
SeerDrive98.497.094.999.983.288.9

SeerDrive在NAVSIM上取得了最高的88.9 PDMS分数,显著优于现有方法。

nuScenes数据集性能对比

MethodL2 (m) ↓Col. Rate (%) ↓
1s/2s/3s/Avg.1s/2s/3s/Avg.
SparseDrive0.29/0.58/0.96/0.610.01/0.05/0.18/0.08
SeerDrive0.20/0.39/0.69/0.430.00/0.05/0.14/0.06

在nuScenes上,SeerDrive在位移误差和碰撞率方面均取得显著改善。

消融实验

核心组件分析

Future-aware planIter. S&VPDMS ↑
87.1
87.9
88.1
88.9

结果表明两个核心组件都对性能提升有重要贡献。

迭代次数分析

迭代次数PDMS ↑
188.1
288.9
388.7

2次迭代达到效率与性能的最佳平衡。

定性结果

论文展示了右转和左转场景的可视化结果,显示模型能够:

  • 准确预测未来BEV语义图
  • 生成与真实轨迹高度一致的规划轨迹
  • 捕获多模态的可能未来运动

相关工作

端到端自动驾驶

  • 早期方法:直接从传感器数据推断轨迹或动作
  • 统一框架:UniAD统一感知、预测和规划;VAD采用矢量化表示
  • 最新进展:DiffusionDrive使用截断扩散策略;DriveTransformer探索缩放定律

自动驾驶中的世界模型

  • 视频生成方法:DriveDreamer、Drive-WM等生成逼真视频
  • BEV建模:SLEDGE、GUMP、Scenario Dreamer等在BEV空间建模
  • 联合建模:OccWorld、Drive-OccWorld等联合生成占用和动作

本文区别于现有方法,实现了世界建模与规划的深度交互。

结论与讨论

主要结论

  1. 提出了场景演化与轨迹规划双向建模的新范式
  2. SeerDrive框架有效实现了未来感知的端到端驾驶
  3. 在两个基准数据集上取得了最先进的性能

局限性

  1. 基础模型限制:BEV世界模型采用专门设计的transformer架构,未能利用基础模型的泛化能力
  2. 推理速度:使用现成的基础模型作为世界模型存在推理速度慢和联合优化困难的问题
  3. 复杂场景处理:在某些复杂场景中仍存在失败案例,如车道选择错误和驾驶意图推断失误

未来方向

  • 开发规划与世界建模紧密集成的范式
  • 探索基础模型在端到端驾驶中的应用
  • 结合高层驾驶意图改进规划准确性

深度评价

优点

  1. 创新性强:首次系统性地建模场景演化与轨迹规划的双向关系,突破了传统单次范式
  2. 技术设计合理:解耦交互策略、迭代优化等设计有效解决了实际问题
  3. 实验充分:在多个数据集上进行了全面评估,消融实验详尽
  4. 性能显著提升:在具有挑战性的NAVSIM和nuScenes基准上取得了明显改进

不足

  1. 计算复杂度:迭代建模增加了计算开销,实际部署时需要考虑效率
  2. 泛化能力:专门设计的架构可能限制了在不同场景下的泛化能力
  3. 失败案例分析不够深入:对模型失败的根本原因分析有待加强

影响力

  1. 学术贡献:为端到端自动驾驶领域提供了新的研究范式和思路
  2. 实用价值:方法在实际驾驶场景中表现出良好的性能,具有应用潜力
  3. 可复现性:提供了详细的实现细节和开源代码,便于复现和后续研究

适用场景

  • 复杂城市驾驶环境
  • 需要考虑多智能体交互的场景
  • 对规划准确性要求较高的自动驾驶系统
  • 端到端学习的自动驾驶研究

参考文献

论文引用了58篇相关文献,涵盖了端到端自动驾驶、世界模型、联合建模等关键领域的重要工作,为本研究提供了坚实的理论基础。


总体评价:这是一篇高质量的自动驾驶研究论文,提出了具有创新性的双向建模范式,技术方案设计合理,实验评估全面,在重要基准测试上取得了显著的性能提升。论文为端到端自动驾驶领域开辟了新的研究方向,具有重要的学术价值和实用意义。