2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic

VR-Drive: Conducción End-to-End Robusta a Cambios de Punto de Vista con Splatting Gaussiano 3D de Alimentación Directa

Información Básica

  • ID del Artículo: 2510.23205
  • Título: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
  • Autores: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
  • Clasificación: cs.CV
  • Fecha de Publicación/Conferencia: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
  • Enlace del Artículo: https://arxiv.org/abs/2510.23205

Resumen

La conducción autónoma end-to-end (E2E-AD) se ha convertido en un paradigma prometedor que unifica la percepción, predicción y planificación en un marco integral impulsado por datos. Sin embargo, lograr robustez ante diferentes puntos de vista de cámara —un desafío común en la realidad debido a la diversidad de configuraciones vehiculares— sigue siendo un problema abierto. Este trabajo propone VR-Drive, un nuevo marco E2E-AD que aborda el problema de generalización de puntos de vista mediante el aprendizaje conjunto de la reconstrucción de escenas 3D como tarea auxiliar para lograr síntesis de vistas consciente de la planificación. A diferencia de los métodos de síntesis anteriores específicos de escena, VR-Drive adopta una estrategia de inferencia de alimentación directa que permite el aumento durante el entrenamiento en línea desde vistas dispersas sin anotaciones adicionales. Para mejorar aún más la consistencia entre puntos de vista, se introduce un banco de memoria mixto de puntos de vista que promueve la interacción temporal entre múltiples vistas, así como una estrategia de destilación consistente con el punto de vista que transfiere conocimiento desde vistas originales a vistas sintetizadas. Mediante entrenamiento completamente end-to-end, VR-Drive mitiga efectivamente el ruido inducido por síntesis y mejora el rendimiento de planificación bajo cambios de punto de vista. Además, se publica un nuevo conjunto de datos de referencia para evaluar el rendimiento de E2E-AD bajo puntos de vista de cámara novedosos, permitiendo un análisis integral.

Contexto de Investigación y Motivación

Definición del Problema

Los sistemas de conducción autónoma end-to-end existentes enfrentan un desafío crítico: degradación del rendimiento inducida por cambios en el punto de vista de la cámara. En el despliegue real, existen diferencias significativas en las configuraciones de cámara entre diferentes tipos de vehículos y fabricantes, incluyendo variaciones en parámetros como altura de montaje, ángulo y posición.

Importancia del Problema

  1. Necesidad Práctica: Los sistemas de conducción autónoma necesitan adaptarse a varios tipos de vehículos sin reentrenamiento para cada configuración
  2. Consideraciones de Costo: Recopilar datos anotados para cada configuración de cámara es extremadamente costoso e impracticable
  3. Requisitos de Seguridad: Los cambios de punto de vista pueden provocar fallos de percepción, como se muestra en la Figura 1, donde los métodos existentes no pueden detectar vehículos frontales cuando la altura de la cámara disminuye

Limitaciones de Métodos Existentes

  1. Dependencia de Datos: Requiere recopilar grandes cantidades de datos anotados para cada configuración de cámara
  2. Especificidad de Escena: Los métodos de síntesis de nuevas vistas existentes generalmente se optimizan para escenas específicas con gran carga computacional
  3. Capacidad de Generalización Deficiente: El rendimiento se degrada significativamente en datos fuera de distribución (OOD)

Motivación de la Investigación

Proponer un marco de conducción autónoma end-to-end que pueda usar solo una única configuración de cámara durante el entrenamiento, pero mantener robustez ante varios puntos de vista de cámara no vistos durante las pruebas.

Contribuciones Principales

  1. Primer Estudio: Primer estudio sistemático de robustez ante cambios de punto de vista en conducción autónoma end-to-end
  2. Marco Unificado: Propone VR-Drive, que aprende conjuntamente la reconstrucción de escenas 3D como tarea auxiliar para lograr síntesis de vistas consciente de la planificación
  3. Innovaciones Técnicas:
    • Banco de Memoria Mixto de Puntos de Vista (Viewpoint-Mixed Memory Bank) que permite interacción de características entre puntos de vista
    • Estrategia de Destilación Consistente con Punto de Vista (Viewpoint-Consistent Distillation) que transfiere conocimiento
  4. Contribución de Referencia: Construcción de un nuevo referencia de evaluación que respalda la evaluación del rendimiento de E2E-AD bajo puntos de vista de cámara novedosos

Explicación Detallada del Método

Definición de la Tarea

Entrada: Secuencia de imágenes de cámara multivista Salida: Trayectoria de planificación de movimiento del vehículo propio Restricción: Solo se utilizan datos de vista original durante el entrenamiento; se requiere robustez ante vistas no vistas durante las pruebas

Arquitectura del Modelo

VR-Drive contiene tres componentes principales:

1. Aprendizaje de Vista Original (Original-view Learning)

  • Extrae mapas de características multivista utilizando ResNet50 IRN×C×H×WI \in \mathbb{R}^{N×C×H×W}
  • Realiza reconstrucción de escenas basada en Splatting Gaussiano 3D de alimentación directa (3DGS)
  • Definición de primitivos gaussianos: g=(μ,Σ,α,c)g = (μ, Σ, α, c), incluyendo posición, covarianza, opacidad y color

2. Aprendizaje de Nueva Vista (Novel-view Learning)

  • Muestrea aleatoriamente parámetros extrínsecos de cámara para generar nuevas vistas
  • Utiliza codificador compartido para extraer características de nueva vista I~RN×C×H×W\tilde{I} \in \mathbb{R}^{N×C×H×W}
  • Adopta pérdida de reconstrucción cíclica para entrenar el modelo y regenerar vistas originales

3. Aprendizaje de Percepción-Planificación (Perception-planning Learning)

  • Selecciona aleatoriamente vista original o nueva como entrada durante el entrenamiento
  • Integra tareas de detección de objetos 3D y mapeo
  • Adopta arquitectura dispersa para mejorar eficiencia

Componentes Técnicos Clave

Banco de Memoria Mixto de Puntos de Vista

F̃ = Cross-Attention(Query = F, Key = F', Value = F')
  • Almacena y actualiza características de instancia desde diferentes puntos de vista
  • Fusiona características del punto de vista actual y del banco de memoria mediante mecanismo de atención cruzada
  • Adopta estrategia FIFO para actualizar instancias de alta confianza

Destilación Consistente con Punto de Vista

Idea central: Utilizar características confiables del punto de vista original para guiar el aprendizaje de características de nueva vista

  1. Muestreo de Puntos Clave:
    p*_{i,j} = p_{i,j} + position(B_i)
    
  2. Agregación de Características:
    S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
    
  3. Pérdida de Destilación:
    L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2
    

Función de Pérdida

La pérdida total contiene múltiples componentes:

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

Donde la pérdida de renderizado incluye:

  • Pérdida de Reconstrucción Original: Reconstruye vistas en pasos de tiempo adyacentes
  • Pérdida de Reconstrucción Cíclica: Reconstruye vista original desde nueva vista

Configuración Experimental

Conjuntos de Datos

  1. nuScenes: Conjunto de datos de referencia ampliamente utilizado para conducción autónoma
  2. CARLA: Entorno de simulación para evaluación en bucle cerrado
  3. Nuevo Referencia: Conjunto de evaluación de cambios de punto de vista construido sobre nuScenes, que contiene 146 secuencias de prueba

Configuraciones de Cambio de Punto de Vista

Cambios de parámetros de cámara introducidos durante las pruebas:

  • Ángulo de inclinación: +5°, -10°
  • Altura: +1.0m, -0.7m
  • Profundidad: +1.0m

Métricas de Evaluación

  • Distancia L2: Error de desplazamiento promedio (ADE), en rangos de tiempo de 1s/2s/3s
  • Tasa de Colisión: Porcentaje de trayectorias de planificación que colisionan
  • Puntuación de Conducción (DS) y Tasa de Finalización de Ruta (RC): Métricas de evaluación en bucle cerrado de CARLA

Métodos de Comparación

  • AD-MLP
  • BEV-Planner
  • VAD
  • SparseDrive
  • DiffusionDrive

Resultados Experimentales

Resultados Principales

Comparación del rendimiento de planificación en bucle abierto en el conjunto de datos nuScenes:

Configuración de CámaraMétodoDistancia L2 (m) ↓Tasa de Colisión (%) ↓
OriginalDiffusionDrive0.570.08
OriginalVR-Drive0.600.06
Inclinación -10°DiffusionDrive0.960.24
Inclinación -10°VR-Drive0.700.11
Altura +1.0mDiffusionDrive1.460.81
Altura +1.0mVR-Drive0.690.11

Hallazgos Clave:

  • VR-Drive mantiene rendimiento competitivo en vista original
  • Supera significativamente métodos existentes en nuevas vistas, reduciendo la distancia L2 promedio de 1.17m a 0.68m
  • La tasa de colisión se reduce de 0.41% a 0.11%

Experimentos de Ablación

ComponenteVista Original L2↓Nueva Vista L2↓Tasa Colisión Original↓Tasa Colisión Nueva Vista↓
Línea Base0.630.910.140.30
+Reconstrucción de Escena0.590.900.070.26
+Banco de Memoria0.620.730.090.17
+Reconstrucción Cíclica0.590.680.090.16
+Destilación0.610.730.080.14
Modelo Completo0.600.680.060.11

Hallazgos Importantes:

  1. Solo agregar reconstrucción de escena mejora el rendimiento en vista original
  2. Los componentes actúan sinérgicamente, con el modelo completo mostrando el mejor rendimiento
  3. No existe compensación entre rendimiento en vista original y robustez en nueva vista

Evaluación en Bucle Cerrado de CARLA

Resultados en el referencia Town05-Nov:

MétodoDS OriginalDS Promedio Nueva VistaRC OriginalRC Promedio Nueva Vista
BEV-Planner17.257.8028.7028.86
Línea Base76.4748.2599.2094.87
VR-Drive84.0488.2599.0498.28

VR-Drive demuestra excelente robustez ante cambios de punto de vista en pruebas en bucle cerrado.

Trabajo Relacionado

Conducción Autónoma End-to-End

La investigación existente se divide principalmente en dos direcciones:

  1. Exploración de Arquitectura y Tareas: Optimización de submódulos para mejorar rendimiento de planificación
  2. Destilación de Información de Alto Nivel: Utilización de conocimiento de expertos basado en reglas o aprendizaje por refuerzo

Representación Robusta ante Cambios de Punto de Vista y Reconstrucción de Escenas

  1. Investigación Temprana: Demostración de fragilidad de redes neuronales ante cambios de punto de vista
  2. Síntesis de Nueva Vista: Métodos basados en NeRF y 3DGS, pero principalmente optimizados para escenas específicas
  3. Métodos de Alimentación Directa: Métodos de generalización que respaldan inferencia en tiempo real

Este artículo es el primero en estudiar sistemáticamente la robustez ante cambios de punto de vista en E2E-AD.

Conclusiones y Discusión

Conclusiones Principales

  1. VR-Drive resuelve exitosamente el problema de robustez ante cambios de punto de vista en E2E-AD
  2. El aprendizaje conjunto de reconstrucción 3D como tarea auxiliar mejora significativamente la robustez del sistema
  3. Los componentes técnicos propuestos mitigan efectivamente el ruido de síntesis y mejoran el rendimiento de planificación

Limitaciones

  1. Dependencia de Calibración de Cámara: El rendimiento se ve afectado por la precisión de calibración de cámara
  2. Carga Computacional: La reconstrucción 3D añade costo computacional adicional
  3. Alcance de Evaluación: Actualmente solo se valida dentro de un rango limitado de cambios de punto de vista

Direcciones Futuras

  1. Mejorar robustez ante errores de calibración de cámara
  2. Optimizar eficiencia computacional para reducir costos de despliegue en tiempo real
  3. Extender a rangos más amplios de cambios de punto de vista y configuraciones de sensores

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Aborda un desafío crítico en despliegue real
  2. Innovación del Método: Combinación ingeniosa de reconstrucción 3D con E2E-AD, con componentes técnicos bien diseñados
  3. Experimentación Completa: Incluye evaluación en bucle abierto y cerrado, con experimentos de ablación detallados
  4. Contribución de Referencia: Proporciona nuevos estándares de evaluación para el campo

Deficiencias

  1. Suposición de Calibración: Asume calibración de cámara perfecta, que puede tener errores en aplicaciones reales
  2. Rango de Punto de Vista: El rango de cambios de punto de vista probado es relativamente limitado
  3. Análisis Computacional: Falta análisis detallado de carga computacional

Impacto

  1. Valor Académico: Abre el estudio de robustez ante cambios de punto de vista en E2E-AD
  2. Valor Práctico: Resuelve directamente problemas reales en despliegue industrial
  3. Reproducibilidad: Descripción detallada del método, con potencial para impulsar investigación posterior

Escenarios Aplicables

  1. Despliegue Multi-Vehículo: Escenarios que requieren adaptación rápida entre diferentes configuraciones de vehículos
  2. Actualización de Sensores: Migración del sistema cuando cambia la configuración de sensores del vehículo
  3. Aplicación Transfronteriza: Adaptación a diferencias en estándares de vehículos entre diferentes regiones o países

Referencias

El artículo cita 75 referencias relacionadas, cubriendo múltiples campos incluyendo conducción autónoma end-to-end, reconstrucción 3D, síntesis de nuevas vistas, proporcionando una base teórica sólida para esta investigación.


Evaluación General: Este es un artículo de investigación de alta calidad que aborda sistemáticamente por primera vez el problema de robustez ante cambios de punto de vista en conducción autónoma end-to-end. El diseño del método es razonable, la verificación experimental es completa, y tiene valor importante para impulsar la aplicación práctica de la tecnología de conducción autónoma.