2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Grundinformationen

  • Paper-ID: 2510.23205
  • Titel: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
  • Autoren: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
  • Klassifizierung: cs.CV
  • Veröffentlichungszeitpunkt/Konferenz: NeurIPS 2025 (39. Konferenz über Neural Information Processing Systems)
  • Paper-Link: https://arxiv.org/abs/2510.23205

Zusammenfassung

End-to-End-Autonomes Fahren (E2E-AD) hat sich als vielversprechendes Paradigma etabliert, das Wahrnehmung, Vorhersage und Planung in einem ganzheitlichen, datengesteuerten Rahmen vereint. Die Erreichung von Robustheit gegenüber verschiedenen Kameraausrichtungen – eine häufige praktische Herausforderung aufgrund der Vielfalt von Fahrzeugkonfigurationen – bleibt jedoch ein offenes Problem. Diese Arbeit präsentiert VR-Drive, ein neuartiges E2E-AD-Framework, das das Problem der Viewpoint-Generalisierung durch gemeinsames Lernen von 3D-Szenenerekonstruktion als Hilfaufgabe zur Ermöglichung von planungsgerichteter Viewpoint-Synthese adressiert. Im Gegensatz zu früheren szenariospezifischen Synthesemethoden nutzt VR-Drive eine Feed-Forward-Inferenzstrategie, die Online-Training mit Augmentierung aus spärlichen Ansichten ohne zusätzliche Annotationen ermöglicht. Um die Viewpoint-Konsistenz weiter zu verbessern, wird eine Viewpoint-Mixed Memory Bank eingeführt, um zeitliche Interaktionen zwischen mehreren Ansichten zu fördern, sowie eine Viewpoint-Consistent Distillation-Strategie, die Wissen von ursprünglichen Ansichten auf synthetische Ansichten überträgt. Durch vollständig End-to-End-Training lindert VR-Drive effektiv syntheseinduziertes Rauschen und verbessert die Planungsleistung unter Viewpoint-Variationen. Darüber hinaus wird ein neuer Benchmark-Datensatz veröffentlicht, um die E2E-AD-Leistung unter neuartigen Kameraausrichtungen zu evaluieren und eine umfassende Analyse zu ermöglichen.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende End-to-End-Autonomfahrtsysteme sehen sich einer kritischen Herausforderung gegenüber: Leistungsabbau durch Kameraausrichtungsvariationen. Bei der praktischen Bereitstellung gibt es erhebliche Unterschiede in den Kamerakonfigurationen verschiedener Fahrzeugtypen und Hersteller, einschließlich Variationen bei Installationshöhe, Winkel und Position.

Bedeutung des Problems

  1. Praktische Anforderungen: Autonomfahrtsysteme müssen sich an verschiedene Fahrzeugtypen anpassen, ohne für jede Konfiguration neu trainiert zu werden
  2. Kostenüberlegungen: Das Sammeln annotierter Daten für jede Kamerakonfiguration ist äußerst kostspielig und unpraktisch
  3. Sicherheitsanforderungen: Viewpoint-Variationen können zu Wahrnehmungsfehlern führen; wie in Abbildung 1 gezeigt, können bestehende Methoden Fahrzeuge vor sich nicht erkennen, wenn die Kamerahöhe sinkt

Einschränkungen bestehender Methoden

  1. Datenabhängigkeit: Erfordert große Mengen annotierter Daten für jede Kamerakonfiguration
  2. Szenariospezifität: Bestehende Novel-View-Synthesemethoden sind typischerweise für spezifische Szenarien optimiert und rechenintensiv
  3. Schlechte Generalisierungsfähigkeit: Leistung bei Out-of-Distribution-(OOD)-Daten sinkt erheblich

Forschungsmotivation

Entwicklung eines End-to-End-Autonomfahrtsframeworks, das während des Trainings nur eine einzelne Kamerakonfiguration verwendet, aber während des Tests robust gegenüber verschiedenen ungesehenen Kameraausrichtungen bleibt.

Kernbeiträge

  1. Erste Untersuchung: Erste systematische Untersuchung der Kameraausrichtungs-Robustheit im End-to-End-Autonomfahren
  2. Einheitlicher Rahmen: Präsentation von VR-Drive, das 3D-Szenenerekonstruktion als Hilfaufgabe gemeinsam lernt, um planungsgerichtete Viewpoint-Synthese zu ermöglichen
  3. Technische Innovationen:
    • Viewpoint-Mixed Memory Bank für Merkmalsinteraktion über Ansichten hinweg
    • Viewpoint-Consistent Distillation-Strategie zur Wissensübertragung
  4. Benchmark-Beitrag: Konstruktion eines neuen Evaluierungs-Benchmarks zur Unterstützung der E2E-AD-Leistungsbewertung unter neuartigen Kameraausrichtungen

Methodische Details

Aufgabendefinition

Eingabe: Multi-View-Kamerabildersequenzen Ausgabe: Bewegungsplanungstrajektorie des Ego-Fahrzeugs Einschränkungen: Während des Trainings nur ursprüngliche Viewpoint-Daten; während des Tests Robustheit gegenüber ungesehenen Ansichten erforderlich

Modellarchitektur

VR-Drive besteht aus drei Hauptkomponenten:

1. Original-View-Lernen

  • Verwendung von ResNet50 zur Extraktion von Multi-View-Merkmalskarten IRN×C×H×WI \in \mathbb{R}^{N×C×H×W}
  • Szenenerekonstruktion basierend auf Feed-Forward 3D Gaussian Splatting (3DGS)
  • Gaußsche Primitive-Definition: g=(μ,Σ,α,c)g = (μ, Σ, α, c), einschließlich Position, Kovarianz, Transparenz und Farbe

2. Novel-View-Lernen

  • Zufällige Stichprobennahme von Kamera-Extrinsiken zur Generierung neuer Ansichten
  • Verwendung eines gemeinsamen Encoders zur Merkmalsextraktion neuer Ansichten I~RN×C×H×W\tilde{I} \in \mathbb{R}^{N×C×H×W}
  • Anwendung von zyklischem Rekonstruktionsverlust zum Trainieren des Modells zur Regenerierung ursprünglicher Ansichten

3. Wahrnehmungs-Planungs-Lernen

  • Während des Trainings zufällige Auswahl ursprünglicher oder neuer Ansichten als Eingabe
  • Integration von 3D-Objektdetektion und Kartierungsaufgaben
  • Verwendung einer spärlichen Architektur zur Effizienzsteigerung

Schlüsseltechnische Komponenten

Viewpoint-Mixed Memory Bank

F̃ = Cross-Attention(Query = F, Key = F', Value = F')
  • Speicherung und Aktualisierung von Instanzmerkmalen aus verschiedenen Ansichten
  • Fusion von aktuellen Ansichtsmerkmalen und Memory-Bank-Merkmalen durch Cross-Attention-Mechanismus
  • Verwendung einer FIFO-Strategie zur Aktualisierung hochkonfidenter Instanzen

Viewpoint-Consistent Distillation

Kernidee: Verwendung zuverlässiger Merkmale der ursprünglichen Ansicht zur Anleitung des Merkmalslernens neuer Ansichten

  1. Schlüsselpunkt-Stichprobennahme:
    p*_{i,j} = p_{i,j} + position(B_i)
    
  2. Merkmals-Aggregation:
    S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
    
  3. Distillationsverlust:
    L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2
    

Verlustfunktion

Der Gesamtverlust besteht aus mehreren Komponenten:

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

wobei der Renderverlust folgende Komponenten umfasst:

  • Ursprünglicher Rekonstruktionsverlust: Rekonstruktion benachbarter Zeitschritt-Ansichten
  • Zyklischer Rekonstruktionsverlust: Rekonstruktion der ursprünglichen Ansicht aus neuen Ansichten

Experimentelle Einrichtung

Datensätze

  1. nuScenes: Weit verbreiteter Autonomfahrt-Benchmark-Datensatz
  2. CARLA: Simulationsumgebung für Closed-Loop-Evaluierung
  3. Neuer Benchmark: Auf nuScenes basierendes Evaluierungsset für Viewpoint-Variationen mit 146 Test-Sequenzen

Viewpoint-Variationskonfigurationen

Während des Tests eingeführte Kameraparameter-Variationen:

  • Nickwinkel: +5°, -10°
  • Höhe: +1,0 m, -0,7 m
  • Tiefe: +1,0 m

Evaluierungsmetriken

  • L2-Distanz: Durchschnittlicher Versatzfehler (ADE) für Zeiträume von 1s/2s/3s
  • Kollisionsrate: Prozentsatz der Planungstrajektorien mit Kollisionen
  • Fahrscore (DS) und Routenvervollständigungsrate (RC): CARLA-Closed-Loop-Evaluierungsmetriken

Vergleichsmethoden

  • AD-MLP
  • BEV-Planner
  • VAD
  • SparseDrive
  • DiffusionDrive

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Open-Loop-Planungsleistung auf dem nuScenes-Datensatz:

KameraeinstellungMethodeL2-Distanz (m) ↓Kollisionsrate (%) ↓
OriginalDiffusionDrive0,570,08
OriginalVR-Drive0,600,06
Nickwinkel -10°DiffusionDrive0,960,24
Nickwinkel -10°VR-Drive0,700,11
Höhe +1,0 mDiffusionDrive1,460,81
Höhe +1,0 mVR-Drive0,690,11

Wichtigste Erkenntnisse:

  • VR-Drive behält wettbewerbsfähige Leistung bei ursprünglichen Ansichten
  • Deutlich überlegen gegenüber bestehenden Methoden bei neuen Ansichten; durchschnittliche L2-Distanz sinkt von 1,17 m auf 0,68 m
  • Kollisionsrate sinkt von 0,41 % auf 0,11 %

Ablationsstudien

KomponenteOriginal-View L2↓Novel-View L2↓Original-Kollisionsrate↓Novel-View-Kollisionsrate↓
Baseline0,630,910,140,30
+Szenenerekonstruktion0,590,900,070,26
+Memory Bank0,620,730,090,17
+Zyklische Rekonstruktion0,590,680,090,16
+Distillation0,610,730,080,14
Vollständiges Modell0,600,680,060,11

Wichtige Erkenntnisse:

  1. Allein das Hinzufügen von Szenenerekonstruktion verbessert die Leistung bei ursprünglichen Ansichten
  2. Komponenten wirken synergistisch; das vollständige Modell zeigt die beste Leistung
  3. Es gibt keinen Kompromiss zwischen ursprünglicher Ansichtsleistung und Novel-View-Robustheit

CARLA Closed-Loop-Evaluierung

Ergebnisse auf dem Town05-Nov-Benchmark:

MethodeOriginal DSDurchschnittlicher Novel-View DSOriginal RCDurchschnittliche Novel-View RC
BEV-Planner17,257,8028,7028,86
Baseline76,4748,2599,2094,87
VR-Drive84,0488,2599,0498,28

VR-Drive zeigt hervorragende Viewpoint-Robustheit in Closed-Loop-Tests.

Verwandte Arbeiten

End-to-End-Autonomfahren

Bestehende Forschung teilt sich in zwei Richtungen:

  1. Architektur- und Aufgabenforschung: Optimierung von Submodulen zur Verbesserung der Planungsleistung
  2. Hochwertige Informationsdestillation: Nutzung von Regelwerk oder Reinforcement-Learning-Expertenwissen

Viewpoint-robuste Darstellung und Szenenerekonstruktion

  1. Frühe Forschung: Nachweis der Anfälligkeit neuronaler Netze gegenüber Viewpoint-Variationen
  2. Novel-View-Synthese: Methoden basierend auf NeRF und 3DGS, aber meist szenariospezifische Optimierung
  3. Feed-Forward-Methoden: Verallgemeinerungsmethoden, die Echtzeit-Inferenz unterstützen

Diese Arbeit ist die erste, die Viewpoint-Robustheit im E2E-AD systematisch untersucht.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. VR-Drive löst erfolgreich das Viewpoint-Robustheitsproblem im E2E-AD
  2. Gemeinsames Lernen von 3D-Rekonstruktion als Hilfaufgabe verbessert die Systemrobustheit erheblich
  3. Die vorgeschlagenen technischen Komponenten lindern effektiv Syntheserauschen und verbessern die Planungsleistung

Einschränkungen

  1. Kalibrierungsabhängigkeit: Leistung wird durch die Genauigkeit der Kamerakalibrierung beeinflusst
  2. Rechenkomplexität: 3D-Rekonstruktion erhöht zusätzliche Rechenkosten
  3. Evaluierungsumfang: Derzeit nur innerhalb begrenzter Viewpoint-Variationsbereiche validiert

Zukünftige Richtungen

  1. Verbesserung der Robustheit gegenüber Kalibrierungsfehlern
  2. Optimierung der Recheneffizienz zur Senkung der Echtzeit-Bereitstellungskosten
  3. Erweiterung auf größere Viewpoint-Variationsbereiche und Sensorkonfigurationen

Tiefgreifende Bewertung

Stärken

  1. Problemrelevanz: Adressiert kritische Herausforderungen bei praktischer Bereitstellung
  2. Methodische Innovation: Geschickte Kombination von 3D-Rekonstruktion und E2E-AD mit sorgfältig gestalteten technischen Komponenten
  3. Umfassende Experimente: Umfasst Open-Loop- und Closed-Loop-Evaluierung mit detaillierten Ablationsstudien
  4. Benchmark-Beitrag: Bietet neue Evaluierungsstandards für das Feld

Mängel

  1. Kalibrierungsannahmen: Setzt perfekte Kamerakalibrierung voraus; praktische Anwendungen können Fehler aufweisen
  2. Viewpoint-Bereich: Getestete Viewpoint-Variationsbereiche sind relativ begrenzt
  3. Rechenanalyse: Mangel an detaillierter Rechenaufwandsanalyse

Auswirkungen

  1. Akademischer Wert: Bahnbrechende Untersuchung der Viewpoint-Robustheit im E2E-AD
  2. Praktischer Wert: Adressiert direkt praktische Probleme bei industrieller Bereitstellung
  3. Reproduzierbarkeit: Detaillierte Methodenbeschreibung fördert wahrscheinlich nachfolgende Forschung

Anwendungsszenarien

  1. Multi-Fahrzeug-Bereitstellung: Szenarien, die schnelle Anpassung über verschiedene Fahrzeugkonfigurationen erfordern
  2. Sensoren-Upgrade: Systemübergang bei Änderungen der Fahrzeugsensorkonfiguration
  3. Domänenübergreifende Anwendung: Anpassung an Fahrzeugstandard-Unterschiede zwischen Regionen oder Ländern

Literaturverzeichnis

Das Paper zitiert 75 relevante Arbeiten, die End-to-End-Autonomfahren, 3D-Rekonstruktion, Novel-View-Synthese und andere Bereiche abdecken und eine solide theoretische Grundlage für diese Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das das Problem der Viewpoint-Robustheit im End-to-End-Autonomfahren erstmals systematisch adressiert. Die Methodengestaltung ist rational, die experimentelle Validierung umfassend, und die Arbeit hat bedeutende Auswirkungen auf die Förderung praktischer Anwendungen der Autonomfahrttechnologie.