2025-11-22T23:16:16.841585

Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution

Zhang, Song, Li et al.
End-to-end autonomous driving methods aim to directly map raw sensor inputs to future driving actions such as planned trajectories, bypassing traditional modular pipelines. While these approaches have shown promise, they often operate under a one-shot paradigm that relies heavily on the current scene context, potentially underestimating the importance of scene dynamics and their temporal evolution. This limitation restricts the model's ability to make informed and adaptive decisions in complex driving scenarios. We propose a new perspective: the future trajectory of an autonomous vehicle is closely intertwined with the evolving dynamics of its environment, and conversely, the vehicle's own future states can influence how the surrounding scene unfolds. Motivated by this bidirectional relationship, we introduce SeerDrive, a novel end-to-end framework that jointly models future scene evolution and trajectory planning in a closed-loop manner. Our method first predicts future bird's-eye view (BEV) representations to anticipate the dynamics of the surrounding scene, then leverages this foresight to generate future-context-aware trajectories. Two key components enable this: (1) future-aware planning, which injects predicted BEV features into the trajectory planner, and (2) iterative scene modeling and vehicle planning, which refines both future scene prediction and trajectory generation through collaborative optimization. Extensive experiments on the NAVSIM and nuScenes benchmarks show that SeerDrive significantly outperforms existing state-of-the-art methods.
academic

未来予測型エンドツーエンド運転:軌跡計画とシーン進化の双方向モデリング

基本情報

  • 論文ID: 2510.11092
  • タイトル: Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
  • 著者: Bozhou Zhang, Nan Song, Jingyu Li, Xiatian Zhu, Jiankang Deng, Li Zhang
  • 分類: cs.CV
  • 発表会議: NeurIPS 2025(第39回ニューラル情報処理システム会議)
  • 論文リンク: https://arxiv.org/abs/2510.11092
  • コードリンク: https://github.com/LogosRoboticsGroup/SeerDrive

要旨

エンドツーエンド自動運転手法は、従来のモジュール化パイプラインを迂回して、生のセンサ入力を将来の運転動作(計画軌跡など)に直接マッピングすることを目指しています。これらの手法は有望性を示していますが、通常は単一パラダイムで動作し、現在のシーン文脈に大きく依存しており、シーン動力学とその時間的進化の重要性を過小評価する可能性があります。この制限は、複雑な運転シーンにおいて、モデルが情報に基づいた適応的な決定を下す能力を制約しています。本論文は、自動運転車両の将来軌跡がその環境の進化動力学と密接に関連しており、逆に、車両自体の将来状態が周囲シーンの展開に影響を与えることができるという新しい視点を提案しています。この双方向関係に基づいて、著者らはSeerDriveを導入しました。これは、閉ループ方式で将来のシーン進化と軌跡計画を共同でモデリングする新規なエンドツーエンドフレームワークです。

研究背景と動機

問題定義

既存のエンドツーエンド自動運転手法は、主に「単一パラダイム」(one-shot paradigm)を採用しており、現在時刻のセンサ観測に基づいて将来数秒間の軌跡を直接予測します。この手法には以下の重要な問題があります:

  1. 静的シーン仮定:現在のシーン状況に過度に依存して自車の将来運動を推論し、シーンが時間とともにどのように進化するかという重要な要因を無視している
  2. 単方向モデリング:自車の将来の行動が周囲シーンの展開に与える影響を考慮していない
  3. 時系列動力学モデリングの欠如:動的相互作用運転環境において、この手法はモデルの適応的決定能力を制限している

研究動機

著者らは2つの重要な双方向依存関係を観察しました:

  • 将来の交通動力学が自車の運動計画に影響を与える
  • 自車の計画行動が将来のシーンを逆に形成する

この洞察に基づいて、著者らはシーン進化と軌跡計画の間の双方向相互作用関係を明示的にモデリングする必要があると提案しています。

核心的貢献

  1. 新パラダイムの提案:シーン動力学と自車の将来の行動の間の双方向相互作用を明示的に捉える新しいエンドツーエンド運転パラダイムを提案し、従来の単一計画手法に異議を唱えている
  2. 統一フレームワーク設計:SeerDriveフレームワークを実装し、将来予測と反復相互作用メカニズムを通じて将来のBEVシーン表現と車両軌跡を共同でモデリングしている
  3. 性能の突破:NAVSIMとnuScenesベンチマークテストで最先端の性能を達成し、設計の有効性を検証している

方法の詳細

タスク定義

エンドツーエンド自動運転タスクは、センサ入力(カメラとLiDAR)を将来の自車軌跡にマッピングすることであり、通常は多様な可能な将来をキャプチャするためにマルチモーダル出力を使用します。世界モデルは自動運転において、現在の観測に基づいて将来のシーン進化を予測することを目指しています。

モデルアーキテクチャ

1. 特徴エンコーディング

マルチビュー画像Iとリダー特徴Pが与えられた場合、エンコーダはこれらのマルチモーダルセンサ入力を現在のBEV特徴マップ FbevcurrRH×W×CF^{curr}_{bev} \in \mathbb{R}^{H \times W \times C} に変換します:

F^curr_bev = TransFuser(I, P)
F^curr_ego = EgoEncoder(T, E)
B^curr = BEVDecoder(F^curr_bev)

ここで、Tはアンカー付きマルチモーダル軌跡、Eは自車状態です。

2. 将来のBEV世界モデリング

BEV世界モデルは将来のBEV表現を予測し、複雑な画像生成ではなく構造化されたBEV表現を採用しています:

F^fut_scene = BEVWorldModel(F^curr_scene)
B^fut = BEVDecoder(F^fut_bev)

3. 将来予測型エンドツーエンド計画

計画ネットワークは現在のシーンと将来の進化を共同で推論して計画軌跡を生成します。解耦戦略を採用し、自車特徴は現在と将来のBEV特徴とそれぞれ相互作用します:

F^curr_ego = TransformerDecoder(F^curr_ego, F^curr_bev)
F^fut_ego = TransformerDecoder(F^fut_ego, F^fut_bev)
Ta = EgoDecoder(F^curr_ego)
Tb = EgoDecoder(F^fut_ego)

最終的には運動認識層正規化(MLN)を通じて融合されます:

F^curr_ego = MLN(F^curr_ego, F^fut_ego)
T^final = EgoDecoder(F^curr_ego)

4. 反復的シーンモデリングと車両計画

BEV世界モデリングネットワークとエンドツーエンド計画ネットワークは反復的に動作し、計画性能を段階的に改善します。N回反復し、N対の予測された将来の意味図と自車軌跡を生成します。

技術的革新点

  1. 双方向モデリング:エンドツーエンド運転において、シーン進化と軌跡計画の双方向依存性を初めて明示的にモデリング
  2. 解耦相互作用戦略:現在と将来のBEV特徴の直接相互作用による表現の絡み合いを回避
  3. 反復最適化:協調最適化を通じてシーン予測と軌跡生成を段階的に精緻化
  4. 運動認識融合:MLNを使用して現在と将来の自車表現を効果的に融合

実験設定

データセット

  • NAVSIM:nuPlanに基づいて構築、1,192個の訓練/検証シーンと136個のテストシーン、8カメラ+LiDAR、2Hz
  • nuScenes:1,000個のシーン、6カメラ+LiDAR、2Hz、標準的な700/150訓練/検証分割を採用

評価指標

  • NAVSIM:PDMスコア(PDMS)、無過失衝突(NC)、走行可能領域適合性(DAC)、衝突時間(TTC)、快適性(Comf.)、自車進捗(EP)を含む
  • nuScenes:L2変位誤差と衝突率

実装詳細

  • NAVSIM:ResNet34バックボーン、3視点、1024×256解像度、256軌跡モード、4秒計画範囲
  • nuScenes:ResNet50バックボーン、6視点、640×360解像度、6軌跡モード、3秒計画範囲
  • 訓練:8個のRTX 3090 GPU、AdamWオプティマイザ

実験結果

主要結果

手法NC ↑DAC ↑TTC ↑Comf. ↑EP ↑PDMS ↑
DiffusionDrive98.296.294.710082.288.1
WoTE98.596.894.999.981.988.3
Hydra-NeXt98.197.794.610081.888.6
SeerDrive98.497.094.999.983.288.9

SeerDriveはNAVSIMで最高の88.9 PDMSスコアを達成し、既存手法を大幅に上回っています。

nuScenesデータセット性能比較

手法L2(m)↓衝突率(%)↓
1s/2s/3s/平均1s/2s/3s/平均
SparseDrive0.29/0.58/0.96/0.610.01/0.05/0.18/0.08
SeerDrive0.20/0.39/0.69/0.430.00/0.05/0.14/0.06

nuScenesでは、SeerDriveは変位誤差と衝突率の両方で顕著な改善を達成しています。

アブレーション実験

核心コンポーネント分析

将来予測計画反復S&VPDMS ↑
87.1
87.9
88.1
88.9

結果は両方の核心コンポーネントが性能向上に重要な貢献をしていることを示しています。

反復回数分析

反復回数PDMS ↑
188.1
288.9
388.7

2回の反復が効率と性能の最適なバランスを達成しています。

定性的結果

論文は右折と左折シーンの可視化結果を示し、モデルが以下を実行できることを示しています:

  • 将来のBEV意味図を正確に予測
  • 実際の軌跡と高度に一致した計画軌跡を生成
  • マルチモーダルな可能な将来の運動をキャプチャ

関連研究

エンドツーエンド自動運転

  • 初期手法:センサデータから軌跡または動作を直接推論
  • 統一フレームワーク:UniADは知覚、予測、計画を統一;VADはベクトル化表現を採用
  • 最新の進展:DiffusionDriveは切断拡散戦略を使用;DriveTransformerはスケーリング則を探索

自動運転における世界モデル

  • ビデオ生成手法:DriveDreamer、Drive-WMなどがリアルなビデオを生成
  • BEVモデリング:SLEDGE、GUMP、Scenario DreamerなどがBEV空間でモデリング
  • 共同モデリング:OccWorld、Drive-OccWorldなどが占有率と動作を共同生成

本論文は既存手法と異なり、世界モデリングと計画の深い相互作用を実現しています。

結論と考察

主要な結論

  1. シーン進化と軌跡計画の双方向モデリングの新パラダイムを提案
  2. SeerDriveフレームワークは将来予測型エンドツーエンド運転を効果的に実装
  3. 2つのベンチマークデータセットで最先端の性能を達成

制限事項

  1. 基礎モデルの制限:BEV世界モデルは専門的に設計されたトランスフォーマアーキテクチャを採用しており、基礎モデルの汎化能力を活用できていない
  2. 推論速度:既成の基礎モデルを世界モデルとして使用することは、推論速度が遅く、共同最適化が困難である
  3. 複雑なシーン処理:車線選択エラーや運転意図推論の失敗など、特定の複雑なシーンではまだ失敗ケースが存在

将来の方向性

  • 計画と世界モデリングが緊密に統合されたパラダイムの開発
  • エンドツーエンド運転における基礎モデルの応用の探索
  • 高レベルの運転意図を組み込んで計画精度を改善

深い評価

利点

  1. 革新性が強い:シーン進化と軌跡計画の双方向関係を初めて体系的にモデリングし、従来の単一パラダイムを突破
  2. 技術設計が合理的:解耦相互作用戦略、反復最適化などの設計が実際の問題を効果的に解決
  3. 実験が充分:複数のデータセットで包括的な評価を実施し、アブレーション実験が詳細
  4. 性能が顕著に向上:挑戦的なNAVSIMとnuScenesベンチマークで明らかな改善を達成

不足

  1. 計算複雑性:反復モデリングは計算オーバーヘッドを増加させ、実際の配置時に効率を考慮する必要がある
  2. 汎化能力:専門的に設計されたアーキテクチャは異なるシーンでの汎化能力を制限する可能性がある
  3. 失敗ケース分析が不十分:モデル失敗の根本原因の分析をさらに深める必要がある

影響力

  1. 学術的貢献:エンドツーエンド自動運転分野に新しい研究パラダイムと思考を提供
  2. 実用的価値:手法は実際の運転シーンで良好な性能を示し、応用の可能性がある
  3. 再現可能性:詳細な実装詳細とオープンソースコードを提供し、再現と後続研究を容易にする

適用シーン

  • 複雑な都市運転環境
  • マルチエージェント相互作用を考慮する必要があるシーン
  • 計画精度に対する要求が高い自動運転システム
  • エンドツーエンド学習の自動運転研究

参考文献

論文は58篇の関連文献を引用しており、エンドツーエンド自動運転、世界モデル、共同モデリングなどの重要分野の重要な研究をカバーしており、本研究に堅実な理論的基礎を提供しています。


総合評価:これは高品質の自動運転研究論文であり、革新的な双方向モデリングパラダイムを提案し、技術方案の設計が合理的で、実験評価が包括的であり、重要なベンチマークテストで顕著な性能向上を達成しています。論文はエンドツーエンド自動運転分野に新しい研究方向を開拓し、重要な学術的価値と実用的意義を有しています。