VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic
VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
End-to-End-Autonomes Fahren (E2E-AD) hat sich als vielversprechendes Paradigma etabliert, das Wahrnehmung, Vorhersage und Planung in einem ganzheitlichen, datengesteuerten Rahmen vereint. Die Erreichung von Robustheit gegenüber verschiedenen Kameraausrichtungen – eine häufige praktische Herausforderung aufgrund der Vielfalt von Fahrzeugkonfigurationen – bleibt jedoch ein offenes Problem. Diese Arbeit präsentiert VR-Drive, ein neuartiges E2E-AD-Framework, das das Problem der Viewpoint-Generalisierung durch gemeinsames Lernen von 3D-Szenenerekonstruktion als Hilfaufgabe zur Ermöglichung von planungsgerichteter Viewpoint-Synthese adressiert. Im Gegensatz zu früheren szenariospezifischen Synthesemethoden nutzt VR-Drive eine Feed-Forward-Inferenzstrategie, die Online-Training mit Augmentierung aus spärlichen Ansichten ohne zusätzliche Annotationen ermöglicht. Um die Viewpoint-Konsistenz weiter zu verbessern, wird eine Viewpoint-Mixed Memory Bank eingeführt, um zeitliche Interaktionen zwischen mehreren Ansichten zu fördern, sowie eine Viewpoint-Consistent Distillation-Strategie, die Wissen von ursprünglichen Ansichten auf synthetische Ansichten überträgt. Durch vollständig End-to-End-Training lindert VR-Drive effektiv syntheseinduziertes Rauschen und verbessert die Planungsleistung unter Viewpoint-Variationen. Darüber hinaus wird ein neuer Benchmark-Datensatz veröffentlicht, um die E2E-AD-Leistung unter neuartigen Kameraausrichtungen zu evaluieren und eine umfassende Analyse zu ermöglichen.
Bestehende End-to-End-Autonomfahrtsysteme sehen sich einer kritischen Herausforderung gegenüber: Leistungsabbau durch Kameraausrichtungsvariationen. Bei der praktischen Bereitstellung gibt es erhebliche Unterschiede in den Kamerakonfigurationen verschiedener Fahrzeugtypen und Hersteller, einschließlich Variationen bei Installationshöhe, Winkel und Position.
Praktische Anforderungen: Autonomfahrtsysteme müssen sich an verschiedene Fahrzeugtypen anpassen, ohne für jede Konfiguration neu trainiert zu werden
Kostenüberlegungen: Das Sammeln annotierter Daten für jede Kamerakonfiguration ist äußerst kostspielig und unpraktisch
Sicherheitsanforderungen: Viewpoint-Variationen können zu Wahrnehmungsfehlern führen; wie in Abbildung 1 gezeigt, können bestehende Methoden Fahrzeuge vor sich nicht erkennen, wenn die Kamerahöhe sinkt
Entwicklung eines End-to-End-Autonomfahrtsframeworks, das während des Trainings nur eine einzelne Kamerakonfiguration verwendet, aber während des Tests robust gegenüber verschiedenen ungesehenen Kameraausrichtungen bleibt.
Erste Untersuchung: Erste systematische Untersuchung der Kameraausrichtungs-Robustheit im End-to-End-Autonomfahren
Einheitlicher Rahmen: Präsentation von VR-Drive, das 3D-Szenenerekonstruktion als Hilfaufgabe gemeinsam lernt, um planungsgerichtete Viewpoint-Synthese zu ermöglichen
Technische Innovationen:
Viewpoint-Mixed Memory Bank für Merkmalsinteraktion über Ansichten hinweg
Viewpoint-Consistent Distillation-Strategie zur Wissensübertragung
Benchmark-Beitrag: Konstruktion eines neuen Evaluierungs-Benchmarks zur Unterstützung der E2E-AD-Leistungsbewertung unter neuartigen Kameraausrichtungen
Eingabe: Multi-View-Kamerabildersequenzen
Ausgabe: Bewegungsplanungstrajektorie des Ego-Fahrzeugs
Einschränkungen: Während des Trainings nur ursprüngliche Viewpoint-Daten; während des Tests Robustheit gegenüber ungesehenen Ansichten erforderlich
Das Paper zitiert 75 relevante Arbeiten, die End-to-End-Autonomfahren, 3D-Rekonstruktion, Novel-View-Synthese und andere Bereiche abdecken und eine solide theoretische Grundlage für diese Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das das Problem der Viewpoint-Robustheit im End-to-End-Autonomfahren erstmals systematisch adressiert. Die Methodengestaltung ist rational, die experimentelle Validierung umfassend, und die Arbeit hat bedeutende Auswirkungen auf die Förderung praktischer Anwendungen der Autonomfahrttechnologie.