2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.

End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.

academic

VR-Drive: Conducción End-to-End Robusta a Cambios de Punto de Vista con Splatting Gaussiano 3D de Alimentación Directa

Información Básica

ID del Artículo: 2510.23205
Título: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Autores: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
Clasificación: cs.CV
Fecha de Publicación/Conferencia: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
Enlace del Artículo: https://arxiv.org/abs/2510.23205

Resumen

La conducción autónoma end-to-end (E2E-AD) se ha convertido en un paradigma prometedor que unifica la percepción, predicción y planificación en un marco integral impulsado por datos. Sin embargo, lograr robustez ante diferentes puntos de vista de cámara —un desafío común en la realidad debido a la diversidad de configuraciones vehiculares— sigue siendo un problema abierto. Este trabajo propone VR-Drive, un nuevo marco E2E-AD que aborda el problema de generalización de puntos de vista mediante el aprendizaje conjunto de la reconstrucción de escenas 3D como tarea auxiliar para lograr síntesis de vistas consciente de la planificación. A diferencia de los métodos de síntesis anteriores específicos de escena, VR-Drive adopta una estrategia de inferencia de alimentación directa que permite el aumento durante el entrenamiento en línea desde vistas dispersas sin anotaciones adicionales. Para mejorar aún más la consistencia entre puntos de vista, se introduce un banco de memoria mixto de puntos de vista que promueve la interacción temporal entre múltiples vistas, así como una estrategia de destilación consistente con el punto de vista que transfiere conocimiento desde vistas originales a vistas sintetizadas. Mediante entrenamiento completamente end-to-end, VR-Drive mitiga efectivamente el ruido inducido por síntesis y mejora el rendimiento de planificación bajo cambios de punto de vista. Además, se publica un nuevo conjunto de datos de referencia para evaluar el rendimiento de E2E-AD bajo puntos de vista de cámara novedosos, permitiendo un análisis integral.

Contexto de Investigación y Motivación

Definición del Problema

Los sistemas de conducción autónoma end-to-end existentes enfrentan un desafío crítico: degradación del rendimiento inducida por cambios en el punto de vista de la cámara. En el despliegue real, existen diferencias significativas en las configuraciones de cámara entre diferentes tipos de vehículos y fabricantes, incluyendo variaciones en parámetros como altura de montaje, ángulo y posición.

Importancia del Problema

Necesidad Práctica: Los sistemas de conducción autónoma necesitan adaptarse a varios tipos de vehículos sin reentrenamiento para cada configuración
Consideraciones de Costo: Recopilar datos anotados para cada configuración de cámara es extremadamente costoso e impracticable
Requisitos de Seguridad: Los cambios de punto de vista pueden provocar fallos de percepción, como se muestra en la Figura 1, donde los métodos existentes no pueden detectar vehículos frontales cuando la altura de la cámara disminuye

Limitaciones de Métodos Existentes

Dependencia de Datos: Requiere recopilar grandes cantidades de datos anotados para cada configuración de cámara
Especificidad de Escena: Los métodos de síntesis de nuevas vistas existentes generalmente se optimizan para escenas específicas con gran carga computacional
Capacidad de Generalización Deficiente: El rendimiento se degrada significativamente en datos fuera de distribución (OOD)

Motivación de la Investigación

Proponer un marco de conducción autónoma end-to-end que pueda usar solo una única configuración de cámara durante el entrenamiento, pero mantener robustez ante varios puntos de vista de cámara no vistos durante las pruebas.

Contribuciones Principales

Primer Estudio: Primer estudio sistemático de robustez ante cambios de punto de vista en conducción autónoma end-to-end
Marco Unificado: Propone VR-Drive, que aprende conjuntamente la reconstrucción de escenas 3D como tarea auxiliar para lograr síntesis de vistas consciente de la planificación
Innovaciones Técnicas:
- Banco de Memoria Mixto de Puntos de Vista (Viewpoint-Mixed Memory Bank) que permite interacción de características entre puntos de vista
- Estrategia de Destilación Consistente con Punto de Vista (Viewpoint-Consistent Distillation) que transfiere conocimiento
Contribución de Referencia: Construcción de un nuevo referencia de evaluación que respalda la evaluación del rendimiento de E2E-AD bajo puntos de vista de cámara novedosos

Explicación Detallada del Método

Definición de la Tarea

Entrada: Secuencia de imágenes de cámara multivista Salida: Trayectoria de planificación de movimiento del vehículo propio Restricción: Solo se utilizan datos de vista original durante el entrenamiento; se requiere robustez ante vistas no vistas durante las pruebas

Arquitectura del Modelo

VR-Drive contiene tres componentes principales:

1. Aprendizaje de Vista Original (Original-view Learning)

Extrae mapas de características multivista utilizando ResNet50 $I \in \mathbb{R}^{N×C×H×W}$
Realiza reconstrucción de escenas basada en Splatting Gaussiano 3D de alimentación directa (3DGS)
Definición de primitivos gaussianos: $g = (μ, Σ, α, c)$ , incluyendo posición, covarianza, opacidad y color

2. Aprendizaje de Nueva Vista (Novel-view Learning)

Muestrea aleatoriamente parámetros extrínsecos de cámara para generar nuevas vistas
Utiliza codificador compartido para extraer características de nueva vista $\tilde{I} \in \mathbb{R}^{N×C×H×W}$
Adopta pérdida de reconstrucción cíclica para entrenar el modelo y regenerar vistas originales

3. Aprendizaje de Percepción-Planificación (Perception-planning Learning)

Selecciona aleatoriamente vista original o nueva como entrada durante el entrenamiento
Integra tareas de detección de objetos 3D y mapeo
Adopta arquitectura dispersa para mejorar eficiencia

Componentes Técnicos Clave

Banco de Memoria Mixto de Puntos de Vista

F̃ = Cross-Attention(Query = F, Key = F', Value = F')

Almacena y actualiza características de instancia desde diferentes puntos de vista
Fusiona características del punto de vista actual y del banco de memoria mediante mecanismo de atención cruzada
Adopta estrategia FIFO para actualizar instancias de alta confianza

Destilación Consistente con Punto de Vista

Idea central: Utilizar características confiables del punto de vista original para guiar el aprendizaje de características de nueva vista

Muestreo de Puntos Clave:
```
p*_{i,j} = p_{i,j} + position(B_i)
```
Agregación de Características:
```
S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
```

Pérdida de Destilación:

L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2

Función de Pérdida

La pérdida total contiene múltiples componentes:

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

Donde la pérdida de renderizado incluye:

Pérdida de Reconstrucción Original: Reconstruye vistas en pasos de tiempo adyacentes
Pérdida de Reconstrucción Cíclica: Reconstruye vista original desde nueva vista

Configuración Experimental

Conjuntos de Datos

nuScenes: Conjunto de datos de referencia ampliamente utilizado para conducción autónoma
CARLA: Entorno de simulación para evaluación en bucle cerrado
Nuevo Referencia: Conjunto de evaluación de cambios de punto de vista construido sobre nuScenes, que contiene 146 secuencias de prueba

Configuraciones de Cambio de Punto de Vista

Cambios de parámetros de cámara introducidos durante las pruebas:

Ángulo de inclinación: +5°, -10°
Altura: +1.0m, -0.7m
Profundidad: +1.0m

Métricas de Evaluación

Distancia L2: Error de desplazamiento promedio (ADE), en rangos de tiempo de 1s/2s/3s
Tasa de Colisión: Porcentaje de trayectorias de planificación que colisionan
Puntuación de Conducción (DS) y Tasa de Finalización de Ruta (RC): Métricas de evaluación en bucle cerrado de CARLA

Métodos de Comparación

AD-MLP
BEV-Planner
VAD
SparseDrive
DiffusionDrive

Resultados Experimentales

Resultados Principales

Comparación del rendimiento de planificación en bucle abierto en el conjunto de datos nuScenes:

Configuración de Cámara	Método	Distancia L2 (m) ↓	Tasa de Colisión (%) ↓
Original	DiffusionDrive	0.57	0.08
Original	VR-Drive	0.60	0.06
Inclinación -10°	DiffusionDrive	0.96	0.24
Inclinación -10°	VR-Drive	0.70	0.11
Altura +1.0m	DiffusionDrive	1.46	0.81
Altura +1.0m	VR-Drive	0.69	0.11

Hallazgos Clave:

VR-Drive mantiene rendimiento competitivo en vista original
Supera significativamente métodos existentes en nuevas vistas, reduciendo la distancia L2 promedio de 1.17m a 0.68m
La tasa de colisión se reduce de 0.41% a 0.11%

Experimentos de Ablación

Componente	Vista Original L2↓	Nueva Vista L2↓	Tasa Colisión Original↓	Tasa Colisión Nueva Vista↓
Línea Base	0.63	0.91	0.14	0.30
+Reconstrucción de Escena	0.59	0.90	0.07	0.26
+Banco de Memoria	0.62	0.73	0.09	0.17
+Reconstrucción Cíclica	0.59	0.68	0.09	0.16
+Destilación	0.61	0.73	0.08	0.14
Modelo Completo	0.60	0.68	0.06	0.11

Hallazgos Importantes:

Solo agregar reconstrucción de escena mejora el rendimiento en vista original
Los componentes actúan sinérgicamente, con el modelo completo mostrando el mejor rendimiento
No existe compensación entre rendimiento en vista original y robustez en nueva vista

Evaluación en Bucle Cerrado de CARLA

Resultados en el referencia Town05-Nov:

Método	DS Original	DS Promedio Nueva Vista	RC Original	RC Promedio Nueva Vista
BEV-Planner	17.25	7.80	28.70	28.86
Línea Base	76.47	48.25	99.20	94.87
VR-Drive	84.04	88.25	99.04	98.28

VR-Drive demuestra excelente robustez ante cambios de punto de vista en pruebas en bucle cerrado.

Trabajo Relacionado

Conducción Autónoma End-to-End

La investigación existente se divide principalmente en dos direcciones:

Exploración de Arquitectura y Tareas: Optimización de submódulos para mejorar rendimiento de planificación
Destilación de Información de Alto Nivel: Utilización de conocimiento de expertos basado en reglas o aprendizaje por refuerzo

Representación Robusta ante Cambios de Punto de Vista y Reconstrucción de Escenas

Investigación Temprana: Demostración de fragilidad de redes neuronales ante cambios de punto de vista
Síntesis de Nueva Vista: Métodos basados en NeRF y 3DGS, pero principalmente optimizados para escenas específicas
Métodos de Alimentación Directa: Métodos de generalización que respaldan inferencia en tiempo real

Este artículo es el primero en estudiar sistemáticamente la robustez ante cambios de punto de vista en E2E-AD.

Conclusiones y Discusión

Conclusiones Principales

VR-Drive resuelve exitosamente el problema de robustez ante cambios de punto de vista en E2E-AD
El aprendizaje conjunto de reconstrucción 3D como tarea auxiliar mejora significativamente la robustez del sistema
Los componentes técnicos propuestos mitigan efectivamente el ruido de síntesis y mejoran el rendimiento de planificación

Limitaciones

Dependencia de Calibración de Cámara: El rendimiento se ve afectado por la precisión de calibración de cámara
Carga Computacional: La reconstrucción 3D añade costo computacional adicional
Alcance de Evaluación: Actualmente solo se valida dentro de un rango limitado de cambios de punto de vista

Direcciones Futuras

Mejorar robustez ante errores de calibración de cámara
Optimizar eficiencia computacional para reducir costos de despliegue en tiempo real
Extender a rangos más amplios de cambios de punto de vista y configuraciones de sensores

Evaluación Profunda

Fortalezas

Importancia del Problema: Aborda un desafío crítico en despliegue real
Innovación del Método: Combinación ingeniosa de reconstrucción 3D con E2E-AD, con componentes técnicos bien diseñados
Experimentación Completa: Incluye evaluación en bucle abierto y cerrado, con experimentos de ablación detallados
Contribución de Referencia: Proporciona nuevos estándares de evaluación para el campo

Deficiencias

Suposición de Calibración: Asume calibración de cámara perfecta, que puede tener errores en aplicaciones reales
Rango de Punto de Vista: El rango de cambios de punto de vista probado es relativamente limitado
Análisis Computacional: Falta análisis detallado de carga computacional

Impacto

Valor Académico: Abre el estudio de robustez ante cambios de punto de vista en E2E-AD
Valor Práctico: Resuelve directamente problemas reales en despliegue industrial
Reproducibilidad: Descripción detallada del método, con potencial para impulsar investigación posterior

Escenarios Aplicables

Despliegue Multi-Vehículo: Escenarios que requieren adaptación rápida entre diferentes configuraciones de vehículos
Actualización de Sensores: Migración del sistema cuando cambia la configuración de sensores del vehículo
Aplicación Transfronteriza: Adaptación a diferencias en estándares de vehículos entre diferentes regiones o países

Referencias

El artículo cita 75 referencias relacionadas, cubriendo múltiples campos incluyendo conducción autónoma end-to-end, reconstrucción 3D, síntesis de nuevas vistas, proporcionando una base teórica sólida para esta investigación.

Evaluación General: Este es un artículo de investigación de alta calidad que aborda sistemáticamente por primera vez el problema de robustez ante cambios de punto de vista en conducción autónoma end-to-end. El diseño del método es razonable, la verificación experimental es completa, y tiene valor importante para impulsar la aplicación práctica de la tecnología de conducción autónoma.