2025-11-22T23:16:16.841585

Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution

Zhang, Song, Li et al.
End-to-end autonomous driving methods aim to directly map raw sensor inputs to future driving actions such as planned trajectories, bypassing traditional modular pipelines. While these approaches have shown promise, they often operate under a one-shot paradigm that relies heavily on the current scene context, potentially underestimating the importance of scene dynamics and their temporal evolution. This limitation restricts the model's ability to make informed and adaptive decisions in complex driving scenarios. We propose a new perspective: the future trajectory of an autonomous vehicle is closely intertwined with the evolving dynamics of its environment, and conversely, the vehicle's own future states can influence how the surrounding scene unfolds. Motivated by this bidirectional relationship, we introduce SeerDrive, a novel end-to-end framework that jointly models future scene evolution and trajectory planning in a closed-loop manner. Our method first predicts future bird's-eye view (BEV) representations to anticipate the dynamics of the surrounding scene, then leverages this foresight to generate future-context-aware trajectories. Two key components enable this: (1) future-aware planning, which injects predicted BEV features into the trajectory planner, and (2) iterative scene modeling and vehicle planning, which refines both future scene prediction and trajectory generation through collaborative optimization. Extensive experiments on the NAVSIM and nuScenes benchmarks show that SeerDrive significantly outperforms existing state-of-the-art methods.
academic

Conducción Autónoma Consciente del Futuro de Extremo a Extremo: Modelado Bidireccional de Planificación de Trayectorias y Evolución de Escenas

Información Básica

  • ID del Artículo: 2510.11092
  • Título: Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
  • Autores: Bozhou Zhang, Nan Song, Jingyu Li, Xiatian Zhu, Jiankang Deng, Li Zhang
  • Clasificación: cs.CV
  • Conferencia de Publicación: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11092
  • Enlace del Código: https://github.com/LogosRoboticsGroup/SeerDrive

Resumen

Los métodos de conducción autónoma de extremo a extremo tienen como objetivo mapear directamente las entradas de sensores sin procesar a acciones de conducción futuras (como trayectorias planificadas), evitando los conductos modulares tradicionales. Aunque estos métodos muestran promesa, típicamente operan bajo un paradigma de una sola vez, dependiendo fuertemente del contexto de escena actual, lo que puede subestimar la importancia de la dinámica de escena y su evolución temporal. Esta limitación restringe la capacidad del modelo para tomar decisiones informadas y adaptativas en escenarios de conducción complejos. Este artículo propone una nueva perspectiva: la trayectoria futura del vehículo autónomo está estrechamente relacionada con la dinámica evolutiva de su entorno, y viceversa, el estado futuro del vehículo también puede influir en el desarrollo de la escena circundante. Basándose en esta relación bidireccional, los autores introducen SeerDrive, un marco novedoso de extremo a extremo que modela conjuntamente la evolución de escenas futuras y la planificación de trayectorias de manera cerrada.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos actuales de conducción autónoma de extremo a extremo adoptan principalmente un "paradigma de una sola vez" (one-shot paradigm), es decir, predicen la trayectoria de los próximos segundos basándose directamente en observaciones de sensores en el momento actual. Este enfoque presenta los siguientes problemas clave:

  1. Suposición de Escena Estática: Depende excesivamente de la situación de escena actual para inferir el movimiento futuro del vehículo propio, ignorando el factor crucial de cómo evoluciona la escena con el tiempo
  2. Modelado Unidireccional: No considera el impacto del comportamiento futuro del vehículo propio en el desarrollo de la escena circundante
  3. Falta de Modelado de Dinámicas Temporales: En entornos de conducción interactiva dinámica, este enfoque limita la capacidad del modelo para tomar decisiones adaptativas

Motivación de la Investigación

Los autores observan dos relaciones bidireccionales importantes:

  • La dinámica de tráfico futura influye en la planificación de movimiento del vehículo propio
  • El comportamiento planificado del vehículo propio, a su vez, moldea la escena futura

Basándose en esta perspectiva, los autores proponen la necesidad de modelar explícitamente las relaciones de interacción bidireccional entre la evolución de escenas y la planificación de trayectorias.

Contribuciones Principales

  1. Propuesta de Nuevo Paradigma: Propone un nuevo paradigma de conducción de extremo a extremo que captura explícitamente la interacción bidireccional entre dinámicas de escena y comportamiento futuro del vehículo, desafiando los métodos de planificación de una sola vez tradicionales
  2. Diseño de Marco Unificado: Instancia el marco SeerDrive, que modela conjuntamente la representación de escena BEV futura y la trayectoria del vehículo mediante mecanismos de percepción futura e interacción iterativa
  3. Avance en Rendimiento: Logra rendimiento de última generación en los puntos de referencia NAVSIM y nuScenes, validando la efectividad del diseño

Explicación Detallada del Método

Definición de Tarea

La tarea de conducción autónoma de extremo a extremo es mapear entradas de sensores (cámara y LiDAR) a la trayectoria futura del vehículo propio, típicamente utilizando salidas multimodales para capturar futuros diversos y posibles. Los modelos del mundo en conducción autónoma tienen como objetivo predecir la evolución de escenas futuras basándose en observaciones actuales.

Arquitectura del Modelo

1. Codificación de Características

Dadas imágenes multivista I y características LiDAR P, el codificador transforma estas entradas de sensores multimodales en un mapa de características BEV actual FbevcurrRH×W×CF^{curr}_{bev} \in \mathbb{R}^{H \times W \times C}:

F^curr_bev = TransFuser(I, P)
F^curr_ego = EgoEncoder(T, E)
B^curr = BEVDecoder(F^curr_bev)

Donde T es la trayectoria multimodal anclada y E es el estado del vehículo propio.

2. Modelado del Mundo BEV Futuro

El modelo del mundo BEV predice representaciones BEV futuras, adoptando una representación BEV estructurada en lugar de generación de imágenes compleja:

F^fut_scene = BEVWorldModel(F^curr_scene)
B^fut = BEVDecoder(F^fut_bev)

3. Planificación de Extremo a Extremo Consciente del Futuro

La red de planificación razona conjuntamente sobre la escena actual y la evolución futura para generar trayectorias planificadas. Adopta una estrategia desacoplada, donde las características del vehículo propio interactúan por separado con características BEV actuales y futuras:

F^curr_ego = TransformerDecoder(F^curr_ego, F^curr_bev)
F^fut_ego = TransformerDecoder(F^fut_ego, F^fut_bev)
Ta = EgoDecoder(F^curr_ego)
Tb = EgoDecoder(F^fut_ego)

Finalmente se fusionan mediante normalización de capa consciente del movimiento (MLN):

F^curr_ego = MLN(F^curr_ego, F^fut_ego)
T^final = EgoDecoder(F^curr_ego)

4. Modelado Iterativo de Escenas y Planificación de Vehículos

La red de modelado del mundo BEV y la red de planificación de extremo a extremo operan de manera iterativa, mejorando progresivamente el rendimiento de planificación. Iterando N veces, producen N pares de mapas semánticos futuros predichos y trayectorias del vehículo propio.

Puntos de Innovación Técnica

  1. Modelado Bidireccional: Primera vez que se modela explícitamente la dependencia bidireccional entre evolución de escenas y planificación de trayectorias en conducción de extremo a extremo
  2. Estrategia de Interacción Desacoplada: Evita el enredo de representaciones causado por la interacción directa de características BEV actuales y futuras
  3. Optimización Iterativa: Refina progresivamente la predicción de escenas y generación de trayectorias mediante optimización conjunta
  4. Fusión Consciente del Movimiento: Utiliza MLN para fusionar efectivamente representaciones del vehículo propio actual y futuro

Configuración Experimental

Conjuntos de Datos

  • NAVSIM: Construido sobre nuPlan, contiene 1,192 escenas de entrenamiento/validación y 136 escenas de prueba, 8 cámaras + LiDAR, 2Hz
  • nuScenes: 1,000 escenas, 6 cámaras + LiDAR, 2Hz, utilizando división estándar 700/150 entrenamiento/validación

Métricas de Evaluación

  • NAVSIM: Puntuación PDM (PDMS), incluyendo colisión sin culpa (NC), conformidad de área conducible (DAC), tiempo hasta colisión (TTC), comodidad (Comf.), progreso del vehículo propio (EP)
  • nuScenes: Error de desplazamiento L2 y tasa de colisión

Detalles de Implementación

  • NAVSIM: Red troncal ResNet34, 3 vistas, resolución 1024×256, 256 modos de trayectoria, rango de planificación de 4 segundos
  • nuScenes: Red troncal ResNet50, 6 vistas, resolución 640×360, 6 modos de trayectoria, rango de planificación de 3 segundos
  • Entrenamiento: 8 GPU RTX 3090, optimizador AdamW

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento en Conjunto de Datos NAVSIM

MétodoNC ↑DAC ↑TTC ↑Comf. ↑EP ↑PDMS ↑
DiffusionDrive98.296.294.710082.288.1
WoTE98.596.894.999.981.988.3
Hydra-NeXt98.197.794.610081.888.6
SeerDrive98.497.094.999.983.288.9

SeerDrive logra la puntuación PDMS más alta de 88.9 en NAVSIM, significativamente superior a los métodos existentes.

Comparación de Rendimiento en Conjunto de Datos nuScenes

MétodoL2 (m) ↓Tasa Col. (%) ↓
1s/2s/3s/Prom.1s/2s/3s/Prom.
SparseDrive0.29/0.58/0.96/0.610.01/0.05/0.18/0.08
SeerDrive0.20/0.39/0.69/0.430.00/0.05/0.14/0.06

En nuScenes, SeerDrive logra mejoras significativas tanto en error de desplazamiento como en tasa de colisión.

Experimentos de Ablación

Análisis de Componentes Principales

Plan Consciente del FuturoIter. E&VPDMS ↑
87.1
87.9
88.1
88.9

Los resultados muestran que ambos componentes principales contribuyen significativamente a la mejora del rendimiento.

Análisis del Número de Iteraciones

Número de IteracionesPDMS ↑
188.1
288.9
388.7

2 iteraciones logran el mejor equilibrio entre eficiencia y rendimiento.

Resultados Cualitativos

El artículo presenta resultados de visualización en escenarios de giro a la derecha e izquierda, mostrando que el modelo puede:

  • Predecir con precisión mapas semánticos BEV futuros
  • Generar trayectorias planificadas altamente consistentes con trayectorias reales
  • Capturar movimientos futuros multimodales posibles

Trabajo Relacionado

Conducción Autónoma de Extremo a Extremo

  • Métodos Tempranos: Inferencia directa de trayectorias o acciones a partir de datos de sensores
  • Marcos Unificados: UniAD unifica percepción, predicción y planificación; VAD adopta representación vectorizada
  • Avances Recientes: DiffusionDrive utiliza estrategia de difusión truncada; DriveTransformer explora leyes de escalado

Modelos del Mundo en Conducción Autónoma

  • Métodos de Generación de Video: DriveDreamer, Drive-WM, etc. generan videos realistas
  • Modelado BEV: SLEDGE, GUMP, Scenario Dreamer, etc. modelan en espacio BEV
  • Modelado Conjunto: OccWorld, Drive-OccWorld, etc. generan conjuntamente ocupación y acciones

Este artículo se diferencia de los métodos existentes al lograr una interacción profunda entre modelado del mundo y planificación.

Conclusiones y Discusión

Conclusiones Principales

  1. Propone un nuevo paradigma de modelado bidireccional de evolución de escenas y planificación de trayectorias
  2. El marco SeerDrive implementa efectivamente conducción de extremo a extremo consciente del futuro
  3. Logra rendimiento de última generación en dos conjuntos de datos de referencia

Limitaciones

  1. Limitaciones del Modelo Base: El modelo del mundo BEV adopta una arquitectura transformer diseñada específicamente, sin poder aprovechar la capacidad de generalización de modelos base
  2. Velocidad de Inferencia: El uso de modelos base listos para usar como modelo del mundo presenta problemas de velocidad de inferencia lenta y dificultad de optimización conjunta
  3. Manejo de Escenas Complejas: Existen casos de fallo en algunas escenas complejas, como selección de carril errónea e inferencia incorrecta de intención de conducción

Direcciones Futuras

  • Desarrollar paradigmas con integración estrecha entre planificación y modelado del mundo
  • Explorar la aplicación de modelos base en conducción de extremo a extremo
  • Combinar intención de conducción de alto nivel para mejorar la precisión de planificación

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera vez que se modela sistemáticamente la relación bidireccional entre evolución de escenas y planificación de trayectorias, rompiendo el paradigma de una sola vez tradicional
  2. Diseño Técnico Razonable: Estrategia de interacción desacoplada, optimización iterativa y otros diseños resuelven efectivamente problemas prácticos
  3. Experimentación Completa: Evaluación integral en múltiples conjuntos de datos, experimentos de ablación detallados
  4. Mejora Significativa de Rendimiento: Mejoras evidentes en puntos de referencia desafiantes NAVSIM y nuScenes

Deficiencias

  1. Complejidad Computacional: El modelado iterativo aumenta la carga computacional, requiriendo consideración de eficiencia en despliegue real
  2. Capacidad de Generalización: La arquitectura diseñada específicamente puede limitar la capacidad de generalización en diferentes escenas
  3. Análisis Insuficiente de Casos de Fallo: El análisis de las causas fundamentales de los fallos del modelo necesita profundización

Impacto

  1. Contribución Académica: Proporciona nuevo paradigma de investigación y perspectivas para el campo de conducción autónoma de extremo a extremo
  2. Valor Práctico: El método demuestra buen rendimiento en escenarios de conducción reales, con potencial de aplicación
  3. Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto, facilitando reproducción e investigación posterior

Escenarios Aplicables

  • Entornos de conducción urbana compleja
  • Escenarios que requieren consideración de interacción multiagente
  • Sistemas de conducción autónoma con requisitos altos de precisión de planificación
  • Investigación de aprendizaje de extremo a extremo en conducción autónoma

Referencias

El artículo cita 58 referencias relacionadas, cubriendo trabajos importantes en conducción autónoma de extremo a extremo, modelos del mundo, modelado conjunto y otros campos clave, proporcionando una base teórica sólida para esta investigación.


Evaluación General: Este es un artículo de investigación de alta calidad en conducción autónoma que propone un paradigma de modelado bidireccional innovador, con diseño de soluciones técnicas razonable, evaluación experimental completa y mejoras significativas de rendimiento en pruebas de referencia importantes. El artículo abre nuevas direcciones de investigación para el campo de conducción autónoma de extremo a extremo, con importante valor académico y significado práctico.