2025-11-22T23:16:16.841585

Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution

Zhang, Song, Li et al.

End-to-end autonomous driving methods aim to directly map raw sensor inputs to future driving actions such as planned trajectories, bypassing traditional modular pipelines. While these approaches have shown promise, they often operate under a one-shot paradigm that relies heavily on the current scene context, potentially underestimating the importance of scene dynamics and their temporal evolution. This limitation restricts the model's ability to make informed and adaptive decisions in complex driving scenarios. We propose a new perspective: the future trajectory of an autonomous vehicle is closely intertwined with the evolving dynamics of its environment, and conversely, the vehicle's own future states can influence how the surrounding scene unfolds. Motivated by this bidirectional relationship, we introduce SeerDrive, a novel end-to-end framework that jointly models future scene evolution and trajectory planning in a closed-loop manner. Our method first predicts future bird's-eye view (BEV) representations to anticipate the dynamics of the surrounding scene, then leverages this foresight to generate future-context-aware trajectories. Two key components enable this: (1) future-aware planning, which injects predicted BEV features into the trajectory planner, and (2) iterative scene modeling and vehicle planning, which refines both future scene prediction and trajectory generation through collaborative optimization. Extensive experiments on the NAVSIM and nuScenes benchmarks show that SeerDrive significantly outperforms existing state-of-the-art methods.

academic

Conducción Autónoma Consciente del Futuro de Extremo a Extremo: Modelado Bidireccional de Planificación de Trayectorias y Evolución de Escenas

Información Básica

ID del Artículo: 2510.11092
Título: Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
Autores: Bozhou Zhang, Nan Song, Jingyu Li, Xiatian Zhu, Jiankang Deng, Li Zhang
Clasificación: cs.CV
Conferencia de Publicación: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
Enlace del Artículo: https://arxiv.org/abs/2510.11092
Enlace del Código: https://github.com/LogosRoboticsGroup/SeerDrive

Resumen

Los métodos de conducción autónoma de extremo a extremo tienen como objetivo mapear directamente las entradas de sensores sin procesar a acciones de conducción futuras (como trayectorias planificadas), evitando los conductos modulares tradicionales. Aunque estos métodos muestran promesa, típicamente operan bajo un paradigma de una sola vez, dependiendo fuertemente del contexto de escena actual, lo que puede subestimar la importancia de la dinámica de escena y su evolución temporal. Esta limitación restringe la capacidad del modelo para tomar decisiones informadas y adaptativas en escenarios de conducción complejos. Este artículo propone una nueva perspectiva: la trayectoria futura del vehículo autónomo está estrechamente relacionada con la dinámica evolutiva de su entorno, y viceversa, el estado futuro del vehículo también puede influir en el desarrollo de la escena circundante. Basándose en esta relación bidireccional, los autores introducen SeerDrive, un marco novedoso de extremo a extremo que modela conjuntamente la evolución de escenas futuras y la planificación de trayectorias de manera cerrada.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos actuales de conducción autónoma de extremo a extremo adoptan principalmente un "paradigma de una sola vez" (one-shot paradigm), es decir, predicen la trayectoria de los próximos segundos basándose directamente en observaciones de sensores en el momento actual. Este enfoque presenta los siguientes problemas clave:

Suposición de Escena Estática: Depende excesivamente de la situación de escena actual para inferir el movimiento futuro del vehículo propio, ignorando el factor crucial de cómo evoluciona la escena con el tiempo
Modelado Unidireccional: No considera el impacto del comportamiento futuro del vehículo propio en el desarrollo de la escena circundante
Falta de Modelado de Dinámicas Temporales: En entornos de conducción interactiva dinámica, este enfoque limita la capacidad del modelo para tomar decisiones adaptativas

Motivación de la Investigación

Los autores observan dos relaciones bidireccionales importantes:

La dinámica de tráfico futura influye en la planificación de movimiento del vehículo propio
El comportamiento planificado del vehículo propio, a su vez, moldea la escena futura

Basándose en esta perspectiva, los autores proponen la necesidad de modelar explícitamente las relaciones de interacción bidireccional entre la evolución de escenas y la planificación de trayectorias.

Contribuciones Principales

Propuesta de Nuevo Paradigma: Propone un nuevo paradigma de conducción de extremo a extremo que captura explícitamente la interacción bidireccional entre dinámicas de escena y comportamiento futuro del vehículo, desafiando los métodos de planificación de una sola vez tradicionales
Diseño de Marco Unificado: Instancia el marco SeerDrive, que modela conjuntamente la representación de escena BEV futura y la trayectoria del vehículo mediante mecanismos de percepción futura e interacción iterativa
Avance en Rendimiento: Logra rendimiento de última generación en los puntos de referencia NAVSIM y nuScenes, validando la efectividad del diseño

Explicación Detallada del Método

Definición de Tarea

La tarea de conducción autónoma de extremo a extremo es mapear entradas de sensores (cámara y LiDAR) a la trayectoria futura del vehículo propio, típicamente utilizando salidas multimodales para capturar futuros diversos y posibles. Los modelos del mundo en conducción autónoma tienen como objetivo predecir la evolución de escenas futuras basándose en observaciones actuales.

Arquitectura del Modelo

1. Codificación de Características

Dadas imágenes multivista I y características LiDAR P, el codificador transforma estas entradas de sensores multimodales en un mapa de características BEV actual $F^{curr}_{bev} \in \mathbb{R}^{H \times W \times C}$ :

F^curr_bev = TransFuser(I, P)
F^curr_ego = EgoEncoder(T, E)
B^curr = BEVDecoder(F^curr_bev)

Donde T es la trayectoria multimodal anclada y E es el estado del vehículo propio.

2. Modelado del Mundo BEV Futuro

El modelo del mundo BEV predice representaciones BEV futuras, adoptando una representación BEV estructurada en lugar de generación de imágenes compleja:

F^fut_scene = BEVWorldModel(F^curr_scene)
B^fut = BEVDecoder(F^fut_bev)

3. Planificación de Extremo a Extremo Consciente del Futuro

La red de planificación razona conjuntamente sobre la escena actual y la evolución futura para generar trayectorias planificadas. Adopta una estrategia desacoplada, donde las características del vehículo propio interactúan por separado con características BEV actuales y futuras:

F^curr_ego = TransformerDecoder(F^curr_ego, F^curr_bev)
F^fut_ego = TransformerDecoder(F^fut_ego, F^fut_bev)
Ta = EgoDecoder(F^curr_ego)
Tb = EgoDecoder(F^fut_ego)

Finalmente se fusionan mediante normalización de capa consciente del movimiento (MLN):

F^curr_ego = MLN(F^curr_ego, F^fut_ego)
T^final = EgoDecoder(F^curr_ego)

4. Modelado Iterativo de Escenas y Planificación de Vehículos

La red de modelado del mundo BEV y la red de planificación de extremo a extremo operan de manera iterativa, mejorando progresivamente el rendimiento de planificación. Iterando N veces, producen N pares de mapas semánticos futuros predichos y trayectorias del vehículo propio.

Puntos de Innovación Técnica

Modelado Bidireccional: Primera vez que se modela explícitamente la dependencia bidireccional entre evolución de escenas y planificación de trayectorias en conducción de extremo a extremo
Estrategia de Interacción Desacoplada: Evita el enredo de representaciones causado por la interacción directa de características BEV actuales y futuras
Optimización Iterativa: Refina progresivamente la predicción de escenas y generación de trayectorias mediante optimización conjunta
Fusión Consciente del Movimiento: Utiliza MLN para fusionar efectivamente representaciones del vehículo propio actual y futuro

Configuración Experimental

Conjuntos de Datos

NAVSIM: Construido sobre nuPlan, contiene 1,192 escenas de entrenamiento/validación y 136 escenas de prueba, 8 cámaras + LiDAR, 2Hz
nuScenes: 1,000 escenas, 6 cámaras + LiDAR, 2Hz, utilizando división estándar 700/150 entrenamiento/validación

Métricas de Evaluación

NAVSIM: Puntuación PDM (PDMS), incluyendo colisión sin culpa (NC), conformidad de área conducible (DAC), tiempo hasta colisión (TTC), comodidad (Comf.), progreso del vehículo propio (EP)
nuScenes: Error de desplazamiento L2 y tasa de colisión

Detalles de Implementación

NAVSIM: Red troncal ResNet34, 3 vistas, resolución 1024×256, 256 modos de trayectoria, rango de planificación de 4 segundos
nuScenes: Red troncal ResNet50, 6 vistas, resolución 640×360, 6 modos de trayectoria, rango de planificación de 3 segundos
Entrenamiento: 8 GPU RTX 3090, optimizador AdamW

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento en Conjunto de Datos NAVSIM

Método	NC ↑	DAC ↑	TTC ↑	Comf. ↑	EP ↑	PDMS ↑
DiffusionDrive	98.2	96.2	94.7	100	82.2	88.1
WoTE	98.5	96.8	94.9	99.9	81.9	88.3
Hydra-NeXt	98.1	97.7	94.6	100	81.8	88.6
SeerDrive	98.4	97.0	94.9	99.9	83.2	88.9

SeerDrive logra la puntuación PDMS más alta de 88.9 en NAVSIM, significativamente superior a los métodos existentes.

Comparación de Rendimiento en Conjunto de Datos nuScenes

Método	L2 (m) ↓	Tasa Col. (%) ↓
	1s/2s/3s/Prom.	1s/2s/3s/Prom.
SparseDrive	0.29/0.58/0.96/0.61	0.01/0.05/0.18/0.08
SeerDrive	0.20/0.39/0.69/0.43	0.00/0.05/0.14/0.06

En nuScenes, SeerDrive logra mejoras significativas tanto en error de desplazamiento como en tasa de colisión.

Experimentos de Ablación

Análisis de Componentes Principales

Plan Consciente del Futuro	Iter. E&V	PDMS ↑
		87.1
✓		87.9
	✓	88.1
✓	✓	88.9

Los resultados muestran que ambos componentes principales contribuyen significativamente a la mejora del rendimiento.

Análisis del Número de Iteraciones

Número de Iteraciones	PDMS ↑
1	88.1
2	88.9
3	88.7

2 iteraciones logran el mejor equilibrio entre eficiencia y rendimiento.

Resultados Cualitativos

El artículo presenta resultados de visualización en escenarios de giro a la derecha e izquierda, mostrando que el modelo puede:

Predecir con precisión mapas semánticos BEV futuros
Generar trayectorias planificadas altamente consistentes con trayectorias reales
Capturar movimientos futuros multimodales posibles

Trabajo Relacionado

Conducción Autónoma de Extremo a Extremo

Métodos Tempranos: Inferencia directa de trayectorias o acciones a partir de datos de sensores
Marcos Unificados: UniAD unifica percepción, predicción y planificación; VAD adopta representación vectorizada
Avances Recientes: DiffusionDrive utiliza estrategia de difusión truncada; DriveTransformer explora leyes de escalado

Modelos del Mundo en Conducción Autónoma

Métodos de Generación de Video: DriveDreamer, Drive-WM, etc. generan videos realistas
Modelado BEV: SLEDGE, GUMP, Scenario Dreamer, etc. modelan en espacio BEV
Modelado Conjunto: OccWorld, Drive-OccWorld, etc. generan conjuntamente ocupación y acciones

Este artículo se diferencia de los métodos existentes al lograr una interacción profunda entre modelado del mundo y planificación.

Conclusiones y Discusión

Conclusiones Principales

Propone un nuevo paradigma de modelado bidireccional de evolución de escenas y planificación de trayectorias
El marco SeerDrive implementa efectivamente conducción de extremo a extremo consciente del futuro
Logra rendimiento de última generación en dos conjuntos de datos de referencia

Limitaciones

Limitaciones del Modelo Base: El modelo del mundo BEV adopta una arquitectura transformer diseñada específicamente, sin poder aprovechar la capacidad de generalización de modelos base
Velocidad de Inferencia: El uso de modelos base listos para usar como modelo del mundo presenta problemas de velocidad de inferencia lenta y dificultad de optimización conjunta
Manejo de Escenas Complejas: Existen casos de fallo en algunas escenas complejas, como selección de carril errónea e inferencia incorrecta de intención de conducción

Direcciones Futuras

Desarrollar paradigmas con integración estrecha entre planificación y modelado del mundo
Explorar la aplicación de modelos base en conducción de extremo a extremo
Combinar intención de conducción de alto nivel para mejorar la precisión de planificación

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera vez que se modela sistemáticamente la relación bidireccional entre evolución de escenas y planificación de trayectorias, rompiendo el paradigma de una sola vez tradicional
Diseño Técnico Razonable: Estrategia de interacción desacoplada, optimización iterativa y otros diseños resuelven efectivamente problemas prácticos
Experimentación Completa: Evaluación integral en múltiples conjuntos de datos, experimentos de ablación detallados
Mejora Significativa de Rendimiento: Mejoras evidentes en puntos de referencia desafiantes NAVSIM y nuScenes

Deficiencias

Complejidad Computacional: El modelado iterativo aumenta la carga computacional, requiriendo consideración de eficiencia en despliegue real
Capacidad de Generalización: La arquitectura diseñada específicamente puede limitar la capacidad de generalización en diferentes escenas
Análisis Insuficiente de Casos de Fallo: El análisis de las causas fundamentales de los fallos del modelo necesita profundización

Impacto

Contribución Académica: Proporciona nuevo paradigma de investigación y perspectivas para el campo de conducción autónoma de extremo a extremo
Valor Práctico: El método demuestra buen rendimiento en escenarios de conducción reales, con potencial de aplicación
Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto, facilitando reproducción e investigación posterior

Escenarios Aplicables

Entornos de conducción urbana compleja
Escenarios que requieren consideración de interacción multiagente
Sistemas de conducción autónoma con requisitos altos de precisión de planificación
Investigación de aprendizaje de extremo a extremo en conducción autónoma

Referencias

El artículo cita 58 referencias relacionadas, cubriendo trabajos importantes en conducción autónoma de extremo a extremo, modelos del mundo, modelado conjunto y otros campos clave, proporcionando una base teórica sólida para esta investigación.

Evaluación General: Este es un artículo de investigación de alta calidad en conducción autónoma que propone un paradigma de modelado bidireccional innovador, con diseño de soluciones técnicas razonable, evaluación experimental completa y mejoras significativas de rendimiento en pruebas de referencia importantes. El artículo abre nuevas direcciones de investigación para el campo de conducción autónoma de extremo a extremo, con importante valor académico y significado práctico.