2025-11-22T23:16:16.841585

Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution

Zhang, Song, Li et al.
End-to-end autonomous driving methods aim to directly map raw sensor inputs to future driving actions such as planned trajectories, bypassing traditional modular pipelines. While these approaches have shown promise, they often operate under a one-shot paradigm that relies heavily on the current scene context, potentially underestimating the importance of scene dynamics and their temporal evolution. This limitation restricts the model's ability to make informed and adaptive decisions in complex driving scenarios. We propose a new perspective: the future trajectory of an autonomous vehicle is closely intertwined with the evolving dynamics of its environment, and conversely, the vehicle's own future states can influence how the surrounding scene unfolds. Motivated by this bidirectional relationship, we introduce SeerDrive, a novel end-to-end framework that jointly models future scene evolution and trajectory planning in a closed-loop manner. Our method first predicts future bird's-eye view (BEV) representations to anticipate the dynamics of the surrounding scene, then leverages this foresight to generate future-context-aware trajectories. Two key components enable this: (1) future-aware planning, which injects predicted BEV features into the trajectory planner, and (2) iterative scene modeling and vehicle planning, which refines both future scene prediction and trajectory generation through collaborative optimization. Extensive experiments on the NAVSIM and nuScenes benchmarks show that SeerDrive significantly outperforms existing state-of-the-art methods.
academic

Conduite Autonome Consciente du Futur : Modélisation Bidirectionnelle de la Planification de Trajectoire et de l'Évolution de la Scène

Informations Fondamentales

  • ID de l'article : 2510.11092
  • Titre : Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
  • Auteurs : Bozhou Zhang, Nan Song, Jingyu Li, Xiatian Zhu, Jiankang Deng, Li Zhang
  • Classification : cs.CV
  • Conférence de publication : NeurIPS 2025 (39e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
  • Lien de l'article : https://arxiv.org/abs/2510.11092
  • Lien du code : https://github.com/LogosRoboticsGroup/SeerDrive

Résumé

Les méthodes de conduite autonome de bout en bout visent à mapper directement les entrées de capteurs brutes aux actions de conduite futures (telles que les trajectoires planifiées), contournant les pipelines modulaires traditionnels. Bien que ces méthodes montrent des promesses, elles fonctionnent généralement selon un paradigme unique, dépendant fortement du contexte de scène actuel, ce qui pourrait sous-estimer l'importance de la dynamique de scène et de son évolution temporelle. Cette limitation restreint la capacité du modèle à prendre des décisions éclairées et adaptatives dans des scénarios de conduite complexes. Cet article propose une nouvelle perspective : la trajectoire future du véhicule autonome est étroitement liée à la dynamique d'évolution de son environnement, et inversement, l'état futur du véhicule lui-même peut influencer le déroulement de la scène environnante. Sur la base de cette relation bidirectionnelle, les auteurs introduisent SeerDrive, un nouveau cadre de bout en bout qui modélise conjointement l'évolution de scène future et la planification de trajectoire de manière en boucle fermée.

Contexte de Recherche et Motivation

Définition du Problème

Les méthodes actuelles de conduite autonome de bout en bout adoptent principalement un « paradigme unique » (one-shot paradigm), c'est-à-dire prédire la trajectoire des prochaines secondes directement à partir des observations de capteurs au moment actuel. Cette approche présente les problèmes clés suivants :

  1. Hypothèse de scène statique : Dépendance excessive du contexte de scène actuel pour déduire le mouvement futur du véhicule propre, ignorant comment la scène évolue au fil du temps
  2. Modélisation unidirectionnelle : Ne considère pas l'impact du comportement futur du véhicule propre sur le déroulement de la scène environnante
  3. Manque de modélisation de la dynamique temporelle : Dans un environnement de conduite interactive dynamique, cette approche limite la capacité du modèle à prendre des décisions adaptatives

Motivation de la Recherche

Les auteurs observent deux relations bidirectionnelles importantes :

  • La dynamique de trafic future influence la planification de mouvement du véhicule propre
  • Le comportement de planification du véhicule propre façonne à son tour la scène future

Sur la base de cette observation, les auteurs proposent la nécessité de modéliser explicitement les relations d'interaction bidirectionnelle entre l'évolution de scène et la planification de trajectoire.

Contributions Principales

  1. Proposition d'un nouveau paradigme : Propose un nouveau paradigme de conduite autonome de bout en bout qui capture explicitement l'interaction bidirectionnelle entre la dynamique de scène et le comportement futur du véhicule propre, remettant en question les méthodes de planification unique traditionnelles
  2. Conception d'un cadre unifié : Instancie le cadre SeerDrive, qui modélise conjointement la représentation BEV de scène future et la trajectoire du véhicule par le biais de mécanismes de conscience future et d'interaction itérative
  3. Percée de performance : Réalise les performances de pointe sur les benchmarks NAVSIM et nuScenes, validant l'efficacité de la conception

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche de conduite autonome de bout en bout consiste à mapper les entrées de capteurs (caméra et LiDAR) à la trajectoire future du véhicule propre, utilisant généralement des sorties multimodales pour capturer les futurs possibles diversifiés. Le modèle du monde en conduite autonome vise à prédire l'évolution de scène future basée sur les observations actuelles.

Architecture du Modèle

1. Codage des Caractéristiques

Étant donné les images multi-vues I et les caractéristiques LiDAR P, l'encodeur convertit ces entrées de capteurs multimodales en carte de caractéristiques BEV actuelle FbevcurrRH×W×CF^{curr}_{bev} \in \mathbb{R}^{H \times W \times C} :

F^curr_bev = TransFuser(I, P)
F^curr_ego = EgoEncoder(T, E)
B^curr = BEVDecoder(F^curr_bev)

où T est la trajectoire multimodale ancrée et E est l'état du véhicule propre.

2. Modélisation du Monde BEV Futur

Le modèle du monde BEV prédit les représentations BEV futures, adoptant une représentation BEV structurée plutôt que la génération d'images complexe :

F^fut_scene = BEVWorldModel(F^curr_scene)
B^fut = BEVDecoder(F^fut_bev)

3. Planification de Bout en Bout Consciente du Futur

Le réseau de planification raisonne conjointement sur la scène actuelle et l'évolution future pour générer la trajectoire planifiée. Adopte une stratégie découplée, où les caractéristiques du véhicule propre interagissent séparément avec les caractéristiques BEV actuelles et futures :

F^curr_ego = TransformerDecoder(F^curr_ego, F^curr_bev)
F^fut_ego = TransformerDecoder(F^fut_ego, F^fut_bev)
Ta = EgoDecoder(F^curr_ego)
Tb = EgoDecoder(F^fut_ego)

Finalement fusionné par la couche de normalisation consciente du mouvement (MLN) :

F^curr_ego = MLN(F^curr_ego, F^fut_ego)
T^final = EgoDecoder(F^curr_ego)

4. Modélisation Itérative de Scène et Planification de Véhicule

Le réseau de modélisation du monde BEV et le réseau de planification de bout en bout fonctionnent de manière itérative, améliorant progressivement les performances de planification. Itère N fois, produisant N paires de cartes sémantiques futures prédites et trajectoires du véhicule propre.

Points d'Innovation Technique

  1. Modélisation bidirectionnelle : Première modélisation explicite en conduite autonome de bout en bout de la dépendance bidirectionnelle entre l'évolution de scène et la planification de trajectoire
  2. Stratégie d'interaction découplée : Évite l'enchevêtrement de représentation causé par l'interaction directe des caractéristiques BEV actuelles et futures
  3. Optimisation itérative : Affine progressivement la prédiction de scène et la génération de trajectoire par optimisation conjointe
  4. Fusion consciente du mouvement : Utilise MLN pour fusionner efficacement les représentations actuelles et futures du véhicule propre

Configuration Expérimentale

Ensembles de Données

  • NAVSIM : Construit sur nuPlan, contient 1 192 scènes d'entraînement/validation et 136 scènes de test, 8 caméras + LiDAR, 2 Hz
  • nuScenes : 1 000 scènes, 6 caméras + LiDAR, 2 Hz, utilisant la division standard 700/150 entraînement/validation

Métriques d'Évaluation

  • NAVSIM : Score PDM (PDMS), incluant collision sans faute (NC), conformité de zone navigable (DAC), temps jusqu'à collision (TTC), confort (Comf.), progression du véhicule propre (EP)
  • nuScenes : Erreur de déplacement L2 et taux de collision

Détails d'Implémentation

  • NAVSIM : Réseau de base ResNet34, 3 vues, résolution 1024×256, 256 modes de trajectoire, plage de planification 4 secondes
  • nuScenes : Réseau de base ResNet50, 6 vues, résolution 640×360, 6 modes de trajectoire, plage de planification 3 secondes
  • Entraînement : 8 GPU RTX 3090, optimiseur AdamW

Résultats Expérimentaux

Résultats Principaux

Comparaison de Performance sur l'Ensemble de Données NAVSIM

MéthodeNC ↑DAC ↑TTC ↑Comf. ↑EP ↑PDMS ↑
DiffusionDrive98.296.294.710082.288.1
WoTE98.596.894.999.981.988.3
Hydra-NeXt98.197.794.610081.888.6
SeerDrive98.497.094.999.983.288.9

SeerDrive a atteint le score PDMS le plus élevé de 88,9 sur NAVSIM, surpassant significativement les méthodes existantes.

Comparaison de Performance sur l'Ensemble de Données nuScenes

MéthodeL2 (m) ↓Taux Col. (%) ↓
1s/2s/3s/Moy.1s/2s/3s/Moy.
SparseDrive0.29/0.58/0.96/0.610.01/0.05/0.18/0.08
SeerDrive0.20/0.39/0.69/0.430.00/0.05/0.14/0.06

Sur nuScenes, SeerDrive a réalisé des améliorations significatives en erreur de déplacement et taux de collision.

Expériences d'Ablation

Analyse des Composants Principaux

Planification consciente du futurIter. S&VPDMS ↑
87.1
87.9
88.1
88.9

Les résultats montrent que les deux composants principaux contribuent de manière importante à l'amélioration des performances.

Analyse du Nombre d'Itérations

Nombre d'itérationsPDMS ↑
188.1
288.9
388.7

2 itérations atteignent le meilleur équilibre entre efficacité et performance.

Résultats Qualitatifs

L'article présente les résultats de visualisation pour les scénarios de virage à droite et à gauche, montrant que le modèle peut :

  • Prédire avec précision les cartes sémantiques BEV futures
  • Générer des trajectoires planifiées hautement cohérentes avec les trajectoires réelles
  • Capturer les mouvements futurs multimodaux possibles

Travaux Connexes

Conduite Autonome de Bout en Bout

  • Méthodes précoces : Déduction directe de trajectoires ou d'actions à partir de données de capteurs
  • Cadres unifiés : UniAD unifie la perception, la prédiction et la planification ; VAD adopte une représentation vectorisée
  • Progrès récents : DiffusionDrive utilise une stratégie de diffusion tronquée ; DriveTransformer explore les lois d'échelle

Modèles du Monde en Conduite Autonome

  • Méthodes de génération vidéo : DriveDreamer, Drive-WM, etc. génèrent des vidéos réalistes
  • Modélisation BEV : SLEDGE, GUMP, Scenario Dreamer, etc. modélisent dans l'espace BEV
  • Modélisation conjointe : OccWorld, Drive-OccWorld, etc. génèrent conjointement l'occupation et l'action

Cet article se distingue des méthodes existantes en réalisant une interaction profonde entre la modélisation du monde et la planification.

Conclusion et Discussion

Conclusions Principales

  1. Propose un nouveau paradigme de modélisation bidirectionnelle de l'évolution de scène et de la planification de trajectoire
  2. Le cadre SeerDrive implémente efficacement la conduite autonome consciente du futur de bout en bout
  3. Réalise les performances de pointe sur deux ensembles de données de référence

Limitations

  1. Limitations du modèle de base : Le modèle du monde BEV adopte une architecture transformer spécialement conçue, ne pouvant pas exploiter la capacité de généralisation des modèles de base
  2. Vitesse d'inférence : L'utilisation de modèles de base prêts à l'emploi comme modèle du monde présente des problèmes de vitesse d'inférence lente et de difficultés d'optimisation conjointe
  3. Traitement de scènes complexes : Des cas d'échec subsistent dans certaines scènes complexes, tels que les erreurs de sélection de voie et les erreurs d'inférence d'intention de conduite

Directions Futures

  • Développer des paradigmes avec intégration étroite entre planification et modélisation du monde
  • Explorer l'application de modèles de base en conduite autonome de bout en bout
  • Combiner les intentions de conduite de haut niveau pour améliorer la précision de planification

Évaluation Approfondie

Points Forts

  1. Innovation forte : Première modélisation systématique de la relation bidirectionnelle entre l'évolution de scène et la planification de trajectoire, dépassant le paradigme unique traditionnel
  2. Conception technique raisonnée : La stratégie d'interaction découplée, l'optimisation itérative et autres conceptions résolvent efficacement les problèmes pratiques
  3. Expérimentation complète : Évaluation complète sur plusieurs ensembles de données, expériences d'ablation détaillées
  4. Amélioration significative des performances : Améliorations évidentes sur les benchmarks difficiles NAVSIM et nuScenes

Insuffisances

  1. Complexité de calcul : La modélisation itérative augmente les frais généraux de calcul, nécessitant une considération d'efficacité pour le déploiement réel
  2. Capacité de généralisation : L'architecture spécialement conçue peut limiter la capacité de généralisation dans différents scénarios
  3. Analyse insuffisante des cas d'échec : L'analyse des causes fondamentales des défaillances du modèle nécessite d'être renforcée

Impact

  1. Contribution académique : Fournit un nouveau paradigme de recherche et des perspectives au domaine de la conduite autonome de bout en bout
  2. Valeur pratique : La méthode montre de bonnes performances dans les scénarios de conduite réels, avec un potentiel d'application
  3. Reproductibilité : Fournit des détails d'implémentation détaillés et du code open-source, facilitant la reproduction et la recherche ultérieure

Scénarios Applicables

  • Environnements de conduite urbaine complexes
  • Scénarios nécessitant de considérer l'interaction multi-agents
  • Systèmes de conduite autonome exigeant une haute précision de planification
  • Recherche en apprentissage de bout en bout pour la conduite autonome

Références

L'article cite 57 références connexes, couvrant les travaux importants dans les domaines clés de la conduite autonome de bout en bout, des modèles du monde et de la modélisation conjointe, fournissant une base théorique solide pour cette recherche.


Évaluation Globale : Ceci est un article de recherche de haute qualité en conduite autonome, proposant un paradigme de modélisation bidirectionnelle innovant, avec une conception technique raisonnée, une évaluation expérimentale complète et des améliorations de performance significatives sur les tests de référence importants. L'article ouvre une nouvelle direction de recherche pour le domaine de la conduite autonome de bout en bout, possédant une valeur académique et une importance pratique significatives.