Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
Zhang, Song, Li et al.
End-to-end autonomous driving methods aim to directly map raw sensor inputs to future driving actions such as planned trajectories, bypassing traditional modular pipelines. While these approaches have shown promise, they often operate under a one-shot paradigm that relies heavily on the current scene context, potentially underestimating the importance of scene dynamics and their temporal evolution. This limitation restricts the model's ability to make informed and adaptive decisions in complex driving scenarios. We propose a new perspective: the future trajectory of an autonomous vehicle is closely intertwined with the evolving dynamics of its environment, and conversely, the vehicle's own future states can influence how the surrounding scene unfolds. Motivated by this bidirectional relationship, we introduce SeerDrive, a novel end-to-end framework that jointly models future scene evolution and trajectory planning in a closed-loop manner. Our method first predicts future bird's-eye view (BEV) representations to anticipate the dynamics of the surrounding scene, then leverages this foresight to generate future-context-aware trajectories. Two key components enable this: (1) future-aware planning, which injects predicted BEV features into the trajectory planner, and (2) iterative scene modeling and vehicle planning, which refines both future scene prediction and trajectory generation through collaborative optimization. Extensive experiments on the NAVSIM and nuScenes benchmarks show that SeerDrive significantly outperforms existing state-of-the-art methods.
academic
Conducción Autónoma Consciente del Futuro de Extremo a Extremo: Modelado Bidireccional de Planificación de Trayectorias y Evolución de Escenas
Los métodos de conducción autónoma de extremo a extremo tienen como objetivo mapear directamente las entradas de sensores sin procesar a acciones de conducción futuras (como trayectorias planificadas), evitando los conductos modulares tradicionales. Aunque estos métodos muestran promesa, típicamente operan bajo un paradigma de una sola vez, dependiendo fuertemente del contexto de escena actual, lo que puede subestimar la importancia de la dinámica de escena y su evolución temporal. Esta limitación restringe la capacidad del modelo para tomar decisiones informadas y adaptativas en escenarios de conducción complejos. Este artículo propone una nueva perspectiva: la trayectoria futura del vehículo autónomo está estrechamente relacionada con la dinámica evolutiva de su entorno, y viceversa, el estado futuro del vehículo también puede influir en el desarrollo de la escena circundante. Basándose en esta relación bidireccional, los autores introducen SeerDrive, un marco novedoso de extremo a extremo que modela conjuntamente la evolución de escenas futuras y la planificación de trayectorias de manera cerrada.
Los métodos actuales de conducción autónoma de extremo a extremo adoptan principalmente un "paradigma de una sola vez" (one-shot paradigm), es decir, predicen la trayectoria de los próximos segundos basándose directamente en observaciones de sensores en el momento actual. Este enfoque presenta los siguientes problemas clave:
Suposición de Escena Estática: Depende excesivamente de la situación de escena actual para inferir el movimiento futuro del vehículo propio, ignorando el factor crucial de cómo evoluciona la escena con el tiempo
Modelado Unidireccional: No considera el impacto del comportamiento futuro del vehículo propio en el desarrollo de la escena circundante
Falta de Modelado de Dinámicas Temporales: En entornos de conducción interactiva dinámica, este enfoque limita la capacidad del modelo para tomar decisiones adaptativas
Los autores observan dos relaciones bidireccionales importantes:
La dinámica de tráfico futura influye en la planificación de movimiento del vehículo propio
El comportamiento planificado del vehículo propio, a su vez, moldea la escena futura
Basándose en esta perspectiva, los autores proponen la necesidad de modelar explícitamente las relaciones de interacción bidireccional entre la evolución de escenas y la planificación de trayectorias.
Propuesta de Nuevo Paradigma: Propone un nuevo paradigma de conducción de extremo a extremo que captura explícitamente la interacción bidireccional entre dinámicas de escena y comportamiento futuro del vehículo, desafiando los métodos de planificación de una sola vez tradicionales
Diseño de Marco Unificado: Instancia el marco SeerDrive, que modela conjuntamente la representación de escena BEV futura y la trayectoria del vehículo mediante mecanismos de percepción futura e interacción iterativa
Avance en Rendimiento: Logra rendimiento de última generación en los puntos de referencia NAVSIM y nuScenes, validando la efectividad del diseño
La tarea de conducción autónoma de extremo a extremo es mapear entradas de sensores (cámara y LiDAR) a la trayectoria futura del vehículo propio, típicamente utilizando salidas multimodales para capturar futuros diversos y posibles. Los modelos del mundo en conducción autónoma tienen como objetivo predecir la evolución de escenas futuras basándose en observaciones actuales.
Dadas imágenes multivista I y características LiDAR P, el codificador transforma estas entradas de sensores multimodales en un mapa de características BEV actual Fbevcurr∈RH×W×C:
El modelo del mundo BEV predice representaciones BEV futuras, adoptando una representación BEV estructurada en lugar de generación de imágenes compleja:
La red de planificación razona conjuntamente sobre la escena actual y la evolución futura para generar trayectorias planificadas. Adopta una estrategia desacoplada, donde las características del vehículo propio interactúan por separado con características BEV actuales y futuras:
La red de modelado del mundo BEV y la red de planificación de extremo a extremo operan de manera iterativa, mejorando progresivamente el rendimiento de planificación. Iterando N veces, producen N pares de mapas semánticos futuros predichos y trayectorias del vehículo propio.
Modelado Bidireccional: Primera vez que se modela explícitamente la dependencia bidireccional entre evolución de escenas y planificación de trayectorias en conducción de extremo a extremo
Estrategia de Interacción Desacoplada: Evita el enredo de representaciones causado por la interacción directa de características BEV actuales y futuras
Optimización Iterativa: Refina progresivamente la predicción de escenas y generación de trayectorias mediante optimización conjunta
Fusión Consciente del Movimiento: Utiliza MLN para fusionar efectivamente representaciones del vehículo propio actual y futuro
NAVSIM: Puntuación PDM (PDMS), incluyendo colisión sin culpa (NC), conformidad de área conducible (DAC), tiempo hasta colisión (TTC), comodidad (Comf.), progreso del vehículo propio (EP)
nuScenes: Error de desplazamiento L2 y tasa de colisión
Limitaciones del Modelo Base: El modelo del mundo BEV adopta una arquitectura transformer diseñada específicamente, sin poder aprovechar la capacidad de generalización de modelos base
Velocidad de Inferencia: El uso de modelos base listos para usar como modelo del mundo presenta problemas de velocidad de inferencia lenta y dificultad de optimización conjunta
Manejo de Escenas Complejas: Existen casos de fallo en algunas escenas complejas, como selección de carril errónea e inferencia incorrecta de intención de conducción
Innovación Fuerte: Primera vez que se modela sistemáticamente la relación bidireccional entre evolución de escenas y planificación de trayectorias, rompiendo el paradigma de una sola vez tradicional
Diseño Técnico Razonable: Estrategia de interacción desacoplada, optimización iterativa y otros diseños resuelven efectivamente problemas prácticos
Experimentación Completa: Evaluación integral en múltiples conjuntos de datos, experimentos de ablación detallados
Mejora Significativa de Rendimiento: Mejoras evidentes en puntos de referencia desafiantes NAVSIM y nuScenes
El artículo cita 58 referencias relacionadas, cubriendo trabajos importantes en conducción autónoma de extremo a extremo, modelos del mundo, modelado conjunto y otros campos clave, proporcionando una base teórica sólida para esta investigación.
Evaluación General: Este es un artículo de investigación de alta calidad en conducción autónoma que propone un paradigma de modelado bidireccional innovador, con diseño de soluciones técnicas razonable, evaluación experimental completa y mejoras significativas de rendimiento en pruebas de referencia importantes. El artículo abre nuevas direcciones de investigación para el campo de conducción autónoma de extremo a extremo, con importante valor académico y significado práctico.