2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic

VR-Drive: Guida End-to-End Robusta al Punto di Vista con 3D Gaussian Splatting Feed-Forward

Informazioni Fondamentali

  • ID Articolo: 2510.23205
  • Titolo: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
  • Autori: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
  • Classificazione: cs.CV
  • Data di Pubblicazione/Conferenza: NeurIPS 2025 (39ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
  • Link Articolo: https://arxiv.org/abs/2510.23205

Riassunto

La guida autonoma end-to-end (E2E-AD) è diventata un paradigma promettente che unifica percezione, previsione e pianificazione in un framework integrato guidato dai dati. Tuttavia, il raggiungimento della robustezza rispetto a diversi punti di vista della telecamera—una sfida realistica comune dovuta alla diversità delle configurazioni dei veicoli—rimane una questione aperta. Questo lavoro propone VR-Drive, un nuovo framework E2E-AD che affronta il problema della generalizzazione del punto di vista attraverso l'apprendimento congiunto della ricostruzione della scena 3D come compito ausiliario per realizzare la sintesi di viste consapevole della pianificazione. A differenza dei precedenti metodi di sintesi specifici della scena, VR-Drive adotta una strategia di inferenza feed-forward che supporta l'aumento durante l'addestramento online da viste sparse senza annotazioni aggiuntive. Per migliorare ulteriormente la coerenza del punto di vista, viene introdotta una memoria bank con punti di vista misti per promuovere l'interazione temporale tra più viste, nonché una strategia di distillazione coerente al punto di vista che trasferisce la conoscenza dalle viste originali alle viste sintetizzate. Attraverso l'addestramento completamente end-to-end, VR-Drive mitiga efficacemente il rumore indotto dalla sintesi e migliora le prestazioni di pianificazione sotto variazioni di punto di vista. Inoltre, viene rilasciato un nuovo dataset di benchmark per valutare le prestazioni di E2E-AD con punti di vista della telecamera inediti, consentendo un'analisi completa.

Contesto di Ricerca e Motivazione

Definizione del Problema

I sistemi di guida autonoma end-to-end attuali affrontano una sfida critica: il degrado delle prestazioni causato da variazioni del punto di vista della telecamera. Nella distribuzione reale, le configurazioni delle telecamere di diversi tipi di veicoli e produttori presentano differenze significative, incluse variazioni nei parametri di altezza di montaggio, angolo e posizione.

Importanza del Problema

  1. Esigenze Pratiche: I sistemi di guida autonoma devono adattarsi a vari modelli di veicoli senza necessità di riaddestrare per ogni configurazione
  2. Considerazioni di Costo: La raccolta di dati annotati per ogni configurazione di telecamera è estremamente costosa e impraticabile
  3. Requisiti di Sicurezza: Le variazioni di punto di vista possono causare guasti nella percezione; come mostrato nella Figura 1, i metodi esistenti non riescono a rilevare veicoli anteriori quando l'altezza della telecamera diminuisce

Limitazioni dei Metodi Esistenti

  1. Dipendenza dai Dati: Richiedono la raccolta di grandi quantità di dati annotati per ogni configurazione di telecamera
  2. Specifici della Scena: I metodi di sintesi di viste inedite esistenti sono tipicamente ottimizzati per scene specifiche con elevati costi computazionali
  3. Scarsa Capacità di Generalizzazione: Le prestazioni diminuiscono significativamente su dati fuori distribuzione (OOD)

Motivazione della Ricerca

Proporre un framework di guida autonoma end-to-end che utilizzi una singola configurazione di telecamera durante l'addestramento, ma mantenga robustezza rispetto a vari punti di vista della telecamera non visti durante il test.

Contributi Principali

  1. Primo Studio: Primo studio sistematico della robustezza del punto di vista della telecamera nella guida autonoma end-to-end
  2. Framework Unificato: Propone VR-Drive, che realizza la sintesi di viste consapevole della pianificazione attraverso l'apprendimento congiunto della ricostruzione della scena 3D come compito ausiliario
  3. Innovazioni Tecniche:
    • Memory Bank con Punti di Vista Misti (Viewpoint-Mixed Memory Bank) per l'interazione di caratteristiche tra viste
    • Strategia di Distillazione Coerente al Punto di Vista (Viewpoint-Consistent Distillation) per il trasferimento di conoscenza
  4. Contributo al Benchmark: Costruzione di un nuovo benchmark di valutazione che supporta la valutazione delle prestazioni di E2E-AD con punti di vista della telecamera inediti

Dettagli del Metodo

Definizione del Compito

Input: Sequenza di immagini da telecamere multi-vista Output: Traiettoria di pianificazione del movimento dell'ego-vehicle Vincoli: Utilizzo solo di dati della vista originale durante l'addestramento; robustezza rispetto a viste non viste durante il test

Architettura del Modello

VR-Drive contiene tre componenti principali:

1. Apprendimento della Vista Originale (Original-view Learning)

  • Estrazione di mappe di caratteristiche multi-vista utilizzando ResNet50: IRN×C×H×WI \in \mathbb{R}^{N×C×H×W}
  • Ricostruzione della scena basata su 3D Gaussian Splatting (3DGS) feed-forward
  • Definizione dei primitivi gaussiani: g=(μ,Σ,α,c)g = (μ, Σ, α, c), includenti posizione, covarianza, opacità e colore

2. Apprendimento di Viste Inedite (Novel-view Learning)

  • Campionamento casuale dei parametri esterni della telecamera per generare viste inedite
  • Estrazione di caratteristiche della vista inedita utilizzando un codificatore condiviso: I~RN×C×H×W\tilde{I} \in \mathbb{R}^{N×C×H×W}
  • Utilizzo di una perdita di ricostruzione ciclica per addestrare il modello a rigenerare la vista originale

3. Apprendimento della Percezione-Pianificazione (Perception-planning Learning)

  • Selezione casuale della vista originale o inedita come input durante l'addestramento
  • Integrazione di rilevamento di oggetti 3D e compiti di mappatura
  • Utilizzo di un'architettura sparsa per migliorare l'efficienza

Componenti Tecniche Chiave

Memory Bank con Punti di Vista Misti

F̃ = Cross-Attention(Query = F, Key = F', Value = F')
  • Memorizzazione e aggiornamento di caratteristiche di istanze provenienti da diversi punti di vista
  • Fusione di caratteristiche della vista corrente e della memory bank attraverso meccanismi di attenzione incrociata
  • Utilizzo di una strategia FIFO per aggiornare istanze ad alta confidenza

Distillazione Coerente al Punto di Vista

Idea centrale: utilizzo di caratteristiche affidabili della vista originale per guidare l'apprendimento di caratteristiche della vista inedita

  1. Campionamento di Punti Chiave:
    p*_{i,j} = p_{i,j} + position(B_i)
    
  2. Aggregazione di Caratteristiche:
    S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
    
  3. Perdita di Distillazione:
    L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2
    

Funzione di Perdita

La perdita totale comprende più componenti:

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

dove la perdita di rendering include:

  • Perdita di Ricostruzione Originale: Ricostruzione di viste a passi temporali adiacenti
  • Perdita di Ricostruzione Ciclica: Ricostruzione della vista originale da viste inedite

Configurazione Sperimentale

Dataset

  1. nuScenes: Dataset di benchmark ampiamente utilizzato per la guida autonoma
  2. CARLA: Ambiente di simulazione per la valutazione in ciclo chiuso
  3. Nuovo Benchmark: Set di valutazione delle variazioni di punto di vista costruito su nuScenes, contenente 146 sequenze di test

Configurazioni di Variazione del Punto di Vista

Variazioni dei parametri della telecamera introdotte durante il test:

  • Angolo di beccheggio: +5°, -10°
  • Altezza: +1.0m, -0.7m
  • Profondità: +1.0m

Metriche di Valutazione

  • Distanza L2: Errore medio di spostamento (ADE) su intervalli temporali di 1s/2s/3s
  • Tasso di Collisione: Percentuale di traiettorie pianificate che collidono
  • Punteggio di Guida (DS) e Tasso di Completamento del Percorso (RC): Metriche di valutazione in ciclo chiuso CARLA

Metodi di Confronto

  • AD-MLP
  • BEV-Planner
  • VAD
  • SparseDrive
  • DiffusionDrive

Risultati Sperimentali

Risultati Principali

Confronto delle prestazioni di pianificazione in ciclo aperto sul dataset nuScenes:

Configurazione TelecameraMetodoDistanza L2 (m) ↓Tasso di Collisione (%) ↓
OriginaleDiffusionDrive0.570.08
OriginaleVR-Drive0.600.06
Beccheggio -10°DiffusionDrive0.960.24
Beccheggio -10°VR-Drive0.700.11
Altezza +1.0mDiffusionDrive1.460.81
Altezza +1.0mVR-Drive0.690.11

Scoperte Chiave:

  • VR-Drive mantiene prestazioni competitive sulla vista originale
  • Supera significativamente i metodi esistenti su viste inedite, riducendo la distanza L2 media da 1.17m a 0.68m
  • Il tasso di collisione si riduce da 0.41% a 0.11%

Esperimenti di Ablazione

ComponenteVista Originale L2↓Vista Inedita L2↓Tasso Collisione Originale↓Tasso Collisione Vista Inedita↓
Baseline0.630.910.140.30
+Ricostruzione Scena0.590.900.070.26
+Memory Bank0.620.730.090.17
+Ricostruzione Ciclica0.590.680.090.16
+Distillazione0.610.730.080.14
Modello Completo0.600.680.060.11

Scoperte Importanti:

  1. L'aggiunta sola della ricostruzione della scena migliora le prestazioni sulla vista originale
  2. I componenti agiscono sinergicamente, con il modello completo che raggiunge i migliori risultati
  3. Non esiste compromesso tra prestazioni sulla vista originale e robustezza su viste inedite

Valutazione in Ciclo Chiuso CARLA

Risultati sul benchmark Town05-Nov:

MetodoDS OriginaleDS Medio Vista IneditaRC OriginaleRC Medio Vista Inedita
BEV-Planner17.257.8028.7028.86
Baseline76.4748.2599.2094.87
VR-Drive84.0488.2599.0498.28

VR-Drive dimostra eccellente robustezza al punto di vista nei test in ciclo chiuso.

Lavori Correlati

Guida Autonoma End-to-End

La ricerca esistente si divide principalmente in due direzioni:

  1. Esplorazione di Architetture e Compiti: Ottimizzazione di sottomoduli per migliorare le prestazioni di pianificazione
  2. Distillazione di Informazioni di Alto Livello: Utilizzo di conoscenze di esperti da regole o apprendimento per rinforzo

Rappresentazioni Robuste al Punto di Vista e Ricostruzione della Scena

  1. Ricerca Iniziale: Dimostrazione della fragilità delle reti neurali rispetto alle variazioni di punto di vista
  2. Sintesi di Viste Inedite: Metodi basati su NeRF e 3DGS, ma principalmente ottimizzati per scene specifiche
  3. Metodi Feed-Forward: Approcci generalizzabili che supportano l'inferenza in tempo reale

Questo articolo è il primo a studiare sistematicamente la robustezza al punto di vista in E2E-AD.

Conclusioni e Discussione

Conclusioni Principali

  1. VR-Drive risolve con successo il problema della robustezza al punto di vista in E2E-AD
  2. L'apprendimento congiunto della ricostruzione 3D come compito ausiliario migliora significativamente la robustezza del sistema
  3. I componenti tecnici proposti mitigano efficacemente il rumore di sintesi e migliorano le prestazioni di pianificazione

Limitazioni

  1. Dipendenza dalla Calibrazione della Telecamera: Le prestazioni sono influenzate dalla precisione della calibrazione della telecamera
  2. Costi Computazionali: La ricostruzione 3D aggiunge costi computazionali aggiuntivi
  3. Portata di Valutazione: Attualmente validato solo su un intervallo limitato di variazioni di punto di vista

Direzioni Future

  1. Migliorare la robustezza rispetto agli errori di calibrazione della telecamera
  2. Ottimizzare l'efficienza computazionale per ridurre i costi di distribuzione in tempo reale
  3. Estendere a intervalli più ampi di variazioni di punto di vista e configurazioni di sensori

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Affronta una sfida critica nella distribuzione reale
  2. Innovazione del Metodo: Combinazione intelligente di ricostruzione 3D e E2E-AD, con componenti tecnici ben progettati
  3. Esperimenti Completi: Include valutazioni in ciclo aperto e chiuso, con esperimenti di ablazione dettagliati
  4. Contributo al Benchmark: Fornisce nuovi standard di valutazione al settore

Insufficienze

  1. Ipotesi di Calibrazione: Assume calibrazione perfetta della telecamera, che potrebbe presentare errori nelle applicazioni reali
  2. Intervallo di Punti di Vista: L'intervallo di variazioni di punto di vista testato è relativamente limitato
  3. Analisi Computazionale: Manca un'analisi dettagliata dei costi computazionali

Impatto

  1. Valore Accademico: Apre nuove prospettive nello studio della robustezza al punto di vista in E2E-AD
  2. Valore Pratico: Risolve direttamente problemi reali nella distribuzione industriale
  3. Riproducibilità: La descrizione del metodo è dettagliata, promettendo di stimolare ricerche successive

Scenari Applicabili

  1. Distribuzione Multi-Veicolo: Scenari che richiedono rapido adattamento tra diverse configurazioni di veicoli
  2. Aggiornamento dei Sensori: Migrazione del sistema quando la configurazione dei sensori del veicolo cambia
  3. Applicazioni Cross-Domain: Adattamento alle differenze negli standard dei veicoli tra diverse regioni o paesi

Riferimenti Bibliografici

L'articolo cita 75 lavori correlati, coprendo molteplici aree incluse guida autonoma end-to-end, ricostruzione 3D, sintesi di viste inedite e altri campi importanti, fornendo una base teorica solida per questa ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta sistematicamente per la prima volta il problema della robustezza al punto di vista nella guida autonoma end-to-end. Il design del metodo è razionale, la verifica sperimentale è completa e il lavoro ha un valore importante nel promuovere l'applicazione pratica della tecnologia di guida autonoma.