VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic
VR-Drive: Conducción End-to-End Robusta a Cambios de Punto de Vista con Splatting Gaussiano 3D de Alimentación Directa
La conducción autónoma end-to-end (E2E-AD) se ha convertido en un paradigma prometedor que unifica la percepción, predicción y planificación en un marco integral impulsado por datos. Sin embargo, lograr robustez ante diferentes puntos de vista de cámara —un desafío común en la realidad debido a la diversidad de configuraciones vehiculares— sigue siendo un problema abierto. Este trabajo propone VR-Drive, un nuevo marco E2E-AD que aborda el problema de generalización de puntos de vista mediante el aprendizaje conjunto de la reconstrucción de escenas 3D como tarea auxiliar para lograr síntesis de vistas consciente de la planificación. A diferencia de los métodos de síntesis anteriores específicos de escena, VR-Drive adopta una estrategia de inferencia de alimentación directa que permite el aumento durante el entrenamiento en línea desde vistas dispersas sin anotaciones adicionales. Para mejorar aún más la consistencia entre puntos de vista, se introduce un banco de memoria mixto de puntos de vista que promueve la interacción temporal entre múltiples vistas, así como una estrategia de destilación consistente con el punto de vista que transfiere conocimiento desde vistas originales a vistas sintetizadas. Mediante entrenamiento completamente end-to-end, VR-Drive mitiga efectivamente el ruido inducido por síntesis y mejora el rendimiento de planificación bajo cambios de punto de vista. Además, se publica un nuevo conjunto de datos de referencia para evaluar el rendimiento de E2E-AD bajo puntos de vista de cámara novedosos, permitiendo un análisis integral.
Los sistemas de conducción autónoma end-to-end existentes enfrentan un desafío crítico: degradación del rendimiento inducida por cambios en el punto de vista de la cámara. En el despliegue real, existen diferencias significativas en las configuraciones de cámara entre diferentes tipos de vehículos y fabricantes, incluyendo variaciones en parámetros como altura de montaje, ángulo y posición.
Necesidad Práctica: Los sistemas de conducción autónoma necesitan adaptarse a varios tipos de vehículos sin reentrenamiento para cada configuración
Consideraciones de Costo: Recopilar datos anotados para cada configuración de cámara es extremadamente costoso e impracticable
Requisitos de Seguridad: Los cambios de punto de vista pueden provocar fallos de percepción, como se muestra en la Figura 1, donde los métodos existentes no pueden detectar vehículos frontales cuando la altura de la cámara disminuye
Dependencia de Datos: Requiere recopilar grandes cantidades de datos anotados para cada configuración de cámara
Especificidad de Escena: Los métodos de síntesis de nuevas vistas existentes generalmente se optimizan para escenas específicas con gran carga computacional
Capacidad de Generalización Deficiente: El rendimiento se degrada significativamente en datos fuera de distribución (OOD)
Proponer un marco de conducción autónoma end-to-end que pueda usar solo una única configuración de cámara durante el entrenamiento, pero mantener robustez ante varios puntos de vista de cámara no vistos durante las pruebas.
Primer Estudio: Primer estudio sistemático de robustez ante cambios de punto de vista en conducción autónoma end-to-end
Marco Unificado: Propone VR-Drive, que aprende conjuntamente la reconstrucción de escenas 3D como tarea auxiliar para lograr síntesis de vistas consciente de la planificación
Innovaciones Técnicas:
Banco de Memoria Mixto de Puntos de Vista (Viewpoint-Mixed Memory Bank) que permite interacción de características entre puntos de vista
Estrategia de Destilación Consistente con Punto de Vista (Viewpoint-Consistent Distillation) que transfiere conocimiento
Contribución de Referencia: Construcción de un nuevo referencia de evaluación que respalda la evaluación del rendimiento de E2E-AD bajo puntos de vista de cámara novedosos
Entrada: Secuencia de imágenes de cámara multivista
Salida: Trayectoria de planificación de movimiento del vehículo propio
Restricción: Solo se utilizan datos de vista original durante el entrenamiento; se requiere robustez ante vistas no vistas durante las pruebas
El artículo cita 75 referencias relacionadas, cubriendo múltiples campos incluyendo conducción autónoma end-to-end, reconstrucción 3D, síntesis de nuevas vistas, proporcionando una base teórica sólida para esta investigación.
Evaluación General: Este es un artículo de investigación de alta calidad que aborda sistemáticamente por primera vez el problema de robustez ante cambios de punto de vista en conducción autónoma end-to-end. El diseño del método es razonable, la verificación experimental es completa, y tiene valor importante para impulsar la aplicación práctica de la tecnología de conducción autónoma.