VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic
VR-Drive: Guida End-to-End Robusta al Punto di Vista con 3D Gaussian Splatting Feed-Forward
La guida autonoma end-to-end (E2E-AD) è diventata un paradigma promettente che unifica percezione, previsione e pianificazione in un framework integrato guidato dai dati. Tuttavia, il raggiungimento della robustezza rispetto a diversi punti di vista della telecamera—una sfida realistica comune dovuta alla diversità delle configurazioni dei veicoli—rimane una questione aperta. Questo lavoro propone VR-Drive, un nuovo framework E2E-AD che affronta il problema della generalizzazione del punto di vista attraverso l'apprendimento congiunto della ricostruzione della scena 3D come compito ausiliario per realizzare la sintesi di viste consapevole della pianificazione. A differenza dei precedenti metodi di sintesi specifici della scena, VR-Drive adotta una strategia di inferenza feed-forward che supporta l'aumento durante l'addestramento online da viste sparse senza annotazioni aggiuntive. Per migliorare ulteriormente la coerenza del punto di vista, viene introdotta una memoria bank con punti di vista misti per promuovere l'interazione temporale tra più viste, nonché una strategia di distillazione coerente al punto di vista che trasferisce la conoscenza dalle viste originali alle viste sintetizzate. Attraverso l'addestramento completamente end-to-end, VR-Drive mitiga efficacemente il rumore indotto dalla sintesi e migliora le prestazioni di pianificazione sotto variazioni di punto di vista. Inoltre, viene rilasciato un nuovo dataset di benchmark per valutare le prestazioni di E2E-AD con punti di vista della telecamera inediti, consentendo un'analisi completa.
I sistemi di guida autonoma end-to-end attuali affrontano una sfida critica: il degrado delle prestazioni causato da variazioni del punto di vista della telecamera. Nella distribuzione reale, le configurazioni delle telecamere di diversi tipi di veicoli e produttori presentano differenze significative, incluse variazioni nei parametri di altezza di montaggio, angolo e posizione.
Esigenze Pratiche: I sistemi di guida autonoma devono adattarsi a vari modelli di veicoli senza necessità di riaddestrare per ogni configurazione
Considerazioni di Costo: La raccolta di dati annotati per ogni configurazione di telecamera è estremamente costosa e impraticabile
Requisiti di Sicurezza: Le variazioni di punto di vista possono causare guasti nella percezione; come mostrato nella Figura 1, i metodi esistenti non riescono a rilevare veicoli anteriori quando l'altezza della telecamera diminuisce
Dipendenza dai Dati: Richiedono la raccolta di grandi quantità di dati annotati per ogni configurazione di telecamera
Specifici della Scena: I metodi di sintesi di viste inedite esistenti sono tipicamente ottimizzati per scene specifiche con elevati costi computazionali
Scarsa Capacità di Generalizzazione: Le prestazioni diminuiscono significativamente su dati fuori distribuzione (OOD)
Proporre un framework di guida autonoma end-to-end che utilizzi una singola configurazione di telecamera durante l'addestramento, ma mantenga robustezza rispetto a vari punti di vista della telecamera non visti durante il test.
Primo Studio: Primo studio sistematico della robustezza del punto di vista della telecamera nella guida autonoma end-to-end
Framework Unificato: Propone VR-Drive, che realizza la sintesi di viste consapevole della pianificazione attraverso l'apprendimento congiunto della ricostruzione della scena 3D come compito ausiliario
Innovazioni Tecniche:
Memory Bank con Punti di Vista Misti (Viewpoint-Mixed Memory Bank) per l'interazione di caratteristiche tra viste
Strategia di Distillazione Coerente al Punto di Vista (Viewpoint-Consistent Distillation) per il trasferimento di conoscenza
Contributo al Benchmark: Costruzione di un nuovo benchmark di valutazione che supporta la valutazione delle prestazioni di E2E-AD con punti di vista della telecamera inediti
Input: Sequenza di immagini da telecamere multi-vista
Output: Traiettoria di pianificazione del movimento dell'ego-vehicle
Vincoli: Utilizzo solo di dati della vista originale durante l'addestramento; robustezza rispetto a viste non viste durante il test
L'articolo cita 75 lavori correlati, coprendo molteplici aree incluse guida autonoma end-to-end, ricostruzione 3D, sintesi di viste inedite e altri campi importanti, fornendo una base teorica solida per questa ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta sistematicamente per la prima volta il problema della robustezza al punto di vista nella guida autonoma end-to-end. Il design del metodo è razionale, la verifica sperimentale è completa e il lavoro ha un valore importante nel promuovere l'applicazione pratica della tecnologia di guida autonoma.