2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic

VR-Drive : Conduite Autonome Bout-en-Bout Robuste au Point de Vue avec Splatting Gaussien 3D Anticipatif

Informations Fondamentales

  • ID de l'article : 2510.23205
  • Titre : VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
  • Auteurs : Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
  • Classification : cs.CV
  • Date de publication/Conférence : NeurIPS 2025 (39e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
  • Lien de l'article : https://arxiv.org/abs/2510.23205

Résumé

La conduite autonome bout-en-bout (E2E-AD) s'est établie comme un paradigme prometteur, unifiant la perception, la prédiction et la planification dans un cadre global piloté par les données. Cependant, la réalisation de la robustesse face à différents points de vue de caméra — un défi réaliste courant dû à la diversité des configurations de véhicules — reste une question ouverte. Ce travail propose VR-Drive, un nouveau cadre E2E-AD qui résout le problème de généralisation du point de vue en apprenant conjointement la reconstruction de scène 3D comme tâche auxiliaire pour réaliser la synthèse de vue consciente de la planification. Contrairement aux méthodes de synthèse antérieures spécifiques à la scène, VR-Drive adopte une stratégie d'inférence anticipative, permettant l'augmentation en ligne lors de l'entraînement à partir de vues clairsemées sans annotation supplémentaire. Pour améliorer davantage la cohérence du point de vue, une banque de mémoire mixte selon le point de vue est introduite pour promouvoir l'interaction temporelle entre plusieurs points de vue, ainsi qu'une stratégie de distillation cohérente au point de vue qui transfère les connaissances de la vue originale vers la vue synthétisée. Grâce à un entraînement entièrement bout-en-bout, VR-Drive atténue efficacement le bruit induit par la synthèse et améliore les performances de planification en cas de variation du point de vue. De plus, un nouveau jeu de données de référence est publié pour évaluer les performances de l'E2E-AD sous des points de vue de caméra nouveaux, permettant une analyse complète.

Contexte de Recherche et Motivation

Définition du Problème

Les systèmes de conduite autonome bout-en-bout existants font face à un défi critique : la dégradation des performances causée par les variations du point de vue de la caméra. En déploiement réel, les configurations de caméra varient considérablement selon les types de véhicules et les fabricants, incluant des variations de hauteur de montage, d'angle et de position.

Importance du Problème

  1. Besoins pratiques : Les systèmes de conduite autonome doivent s'adapter à diverses configurations de véhicules sans nécessiter de réentraînement pour chaque configuration
  2. Considérations de coûts : La collecte de données annotées pour chaque configuration de caméra est extrêmement coûteuse et irréaliste
  3. Exigences de sécurité : Les variations de point de vue peuvent entraîner des défaillances de perception, comme illustré à la Figure 1, où les méthodes existantes ne peuvent pas détecter les véhicules avant lorsque la hauteur de la caméra diminue

Limitations des Approches Existantes

  1. Dépendance aux données : Nécessite la collecte de grandes quantités de données annotées pour chaque configuration de caméra
  2. Spécificité à la scène : Les méthodes existantes de synthèse de nouvelle vue sont généralement optimisées pour des scènes spécifiques, avec un coût de calcul élevé
  3. Faible capacité de généralisation : Les performances se dégradent significativement sur les données hors distribution (OOD)

Motivation de la Recherche

Proposer un cadre de conduite autonome bout-en-bout capable d'utiliser une seule configuration de caméra lors de l'entraînement, tout en maintenant la robustesse face à diverses perspectives de caméra inédites lors du test.

Contributions Principales

  1. Première étude : Première étude systématique de la robustesse du point de vue de la caméra dans la conduite autonome bout-en-bout
  2. Cadre unifié : Proposition de VR-Drive, qui apprend conjointement la reconstruction de scène 3D comme tâche auxiliaire pour réaliser la synthèse de vue consciente de la planification
  3. Innovations techniques :
    • Banque de mémoire mixte selon le point de vue (Viewpoint-Mixed Memory Bank) permettant l'interaction de caractéristiques entre points de vue
    • Stratégie de distillation cohérente au point de vue (Viewpoint-Consistent Distillation) pour le transfert de connaissances
  4. Contribution de référence : Construction d'une nouvelle référence d'évaluation supportant l'évaluation des performances E2E-AD sous des points de vue de caméra nouveaux

Détails de la Méthode

Définition de la Tâche

Entrée : Séquence d'images multi-caméra Sortie : Trajectoire de planification du mouvement du véhicule propre Contrainte : Utiliser uniquement les données du point de vue original lors de l'entraînement, maintenir la robustesse face aux points de vue inédits lors du test

Architecture du Modèle

VR-Drive comprend trois composants principaux :

1. Apprentissage du Point de Vue Original (Original-view Learning)

  • Extraction de cartes de caractéristiques multi-caméra à l'aide de ResNet50 IRN×C×H×WI \in \mathbb{R}^{N×C×H×W}
  • Reconstruction de scène basée sur le splatting gaussien 3D anticipatif (3DGS)
  • Définition des primitives gaussiennes : g=(μ,Σ,α,c)g = (μ, Σ, α, c), incluant position, covariance, transparence et couleur

2. Apprentissage du Point de Vue Nouveau (Novel-view Learning)

  • Échantillonnage aléatoire des paramètres externes de la caméra pour générer de nouveaux points de vue
  • Extraction de caractéristiques du nouveau point de vue à l'aide d'un encodeur partagé I~RN×C×H×W\tilde{I} \in \mathbb{R}^{N×C×H×W}
  • Utilisation d'une perte de reconstruction cyclique pour entraîner le modèle à régénérer le point de vue original

3. Apprentissage de la Perception-Planification (Perception-planning Learning)

  • Sélection aléatoire du point de vue original ou nouveau comme entrée lors de l'entraînement
  • Intégration de la détection d'objets 3D et des tâches de cartographie
  • Utilisation d'une architecture clairsemée pour améliorer l'efficacité

Composants Techniques Clés

Banque de Mémoire Mixte selon le Point de Vue

F̃ = Cross-Attention(Query = F, Key = F', Value = F')
  • Stockage et mise à jour des caractéristiques d'instance provenant de différents points de vue
  • Fusion des caractéristiques du point de vue actuel et de la banque de mémoire via un mécanisme d'attention croisée
  • Utilisation d'une stratégie FIFO pour mettre à jour les instances de haute confiance

Distillation Cohérente au Point de Vue

Idée centrale : Utiliser les caractéristiques fiables du point de vue original pour guider l'apprentissage des caractéristiques du nouveau point de vue

  1. Échantillonnage de points clés :
    p*_{i,j} = p_{i,j} + position(B_i)
    
  2. Agrégation de caractéristiques :
    S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
    
  3. Perte de distillation :
    L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2
    

Fonction de Perte

La perte totale comprend plusieurs composants :

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

où la perte de rendu inclut :

  • Perte de reconstruction originale : Reconstruction de vues à pas de temps adjacents
  • Perte de reconstruction cyclique : Reconstruction du point de vue original à partir du nouveau point de vue

Configuration Expérimentale

Ensembles de Données

  1. nuScenes : Ensemble de données de référence largement utilisé pour la conduite autonome
  2. CARLA : Environnement de simulation pour l'évaluation en boucle fermée
  3. Nouvelle référence : Ensemble d'évaluation de variation de point de vue construit sur la base de nuScenes, contenant 146 séquences de test

Configurations de Variation du Point de Vue

Variations des paramètres de caméra introduites lors du test :

  • Angle de tangage : +5°, -10°
  • Hauteur : +1,0 m, -0,7 m
  • Profondeur : +1,0 m

Métriques d'Évaluation

  • Distance L2 : Erreur de déplacement moyen (ADE), sur des plages temporelles de 1s/2s/3s
  • Taux de collision : Pourcentage de trajectoires de planification en collision
  • Score de conduite (DS) et Taux de complétion d'itinéraire (RC) : Métriques d'évaluation en boucle fermée CARLA

Méthodes de Comparaison

  • AD-MLP
  • BEV-Planner
  • VAD
  • SparseDrive
  • DiffusionDrive

Résultats Expérimentaux

Résultats Principaux

Comparaison des performances de planification en boucle ouverte sur l'ensemble de données nuScenes :

Configuration de CaméraMéthodeDistance L2 (m) ↓Taux de Collision (%) ↓
OriginalDiffusionDrive0,570,08
OriginalVR-Drive0,600,06
Tangage -10°DiffusionDrive0,960,24
Tangage -10°VR-Drive0,700,11
Hauteur +1,0 mDiffusionDrive1,460,81
Hauteur +1,0 mVR-Drive0,690,11

Conclusions Clés :

  • VR-Drive maintient des performances compétitives au point de vue original
  • Surpasse significativement les méthodes existantes sous les nouveaux points de vue, réduisant la distance L2 moyenne de 1,17 m à 0,68 m
  • Le taux de collision diminue de 0,41 % à 0,11 %

Étude d'Ablation

ComposantPoint de Vue Original L2↓Nouveau Point de Vue L2↓Taux de Collision Original↓Taux de Collision Nouveau↓
Ligne de base0,630,910,140,30
+ Reconstruction de scène0,590,900,070,26
+ Banque de mémoire0,620,730,090,17
+ Reconstruction cyclique0,590,680,090,16
+ Distillation0,610,730,080,14
Modèle complet0,600,680,060,11

Conclusions Importantes :

  1. L'ajout seul de la reconstruction de scène améliore les performances du point de vue original
  2. Les composants agissent en synergie, le modèle complet offrant les meilleures performances
  3. Il n'existe pas de compromis entre les performances du point de vue original et la robustesse du nouveau point de vue

Évaluation en Boucle Fermée CARLA

Résultats sur la référence Town05-Nov :

MéthodeDS OriginalDS Moyen Nouveau Point de VueRC OriginalRC Moyen Nouveau Point de Vue
BEV-Planner17,257,8028,7028,86
Ligne de base76,4748,2599,2094,87
VR-Drive84,0488,2599,0498,28

VR-Drive démontre une excellente robustesse au point de vue lors des tests en boucle fermée.

Travaux Connexes

Conduite Autonome Bout-en-Bout

Les recherches existantes se divisent principalement en deux directions :

  1. Exploration d'architecture et de tâches : Optimisation des sous-modules pour améliorer les performances de planification
  2. Distillation d'informations avancées : Utilisation de connaissances d'experts basées sur des règles ou l'apprentissage par renforcement

Représentation Robuste au Point de Vue et Reconstruction de Scène

  1. Recherches précoces : Démonstration de la fragilité des réseaux de neurones face aux variations de point de vue
  2. Synthèse de nouvelle vue : Méthodes basées sur NeRF et 3DGS, mais généralement optimisées pour des scènes spécifiques
  3. Méthodes anticipatives : Approches de généralisation supportant l'inférence en temps réel

Cet article est le premier à étudier systématiquement la robustesse du point de vue dans l'E2E-AD.

Conclusion et Discussion

Conclusions Principales

  1. VR-Drive résout avec succès le problème de robustesse du point de vue dans l'E2E-AD
  2. L'apprentissage conjoint de la reconstruction 3D comme tâche auxiliaire améliore significativement la robustesse du système
  3. Les composants techniques proposés atténuent efficacement le bruit de synthèse et améliorent les performances de planification

Limitations

  1. Dépendance à l'étalonnage de la caméra : Les performances sont affectées par la précision de l'étalonnage de la caméra
  2. Coût de calcul : La reconstruction 3D ajoute un coût de calcul supplémentaire
  3. Portée d'évaluation : Actuellement validée uniquement sur une plage limitée de variations de point de vue

Directions Futures

  1. Améliorer la robustesse face aux erreurs d'étalonnage de caméra
  2. Optimiser l'efficacité de calcul pour réduire les coûts de déploiement en temps réel
  3. Étendre à des plages plus larges de variations de point de vue et de configurations de capteurs

Évaluation Approfondie

Points Forts

  1. Importance du problème : Résout un défi clé du déploiement réel
  2. Innovation méthodologique : Combinaison ingénieuse de la reconstruction 3D et de l'E2E-AD, avec des composants techniques bien conçus
  3. Expérimentation complète : Inclut des évaluations en boucle ouverte et fermée, avec des études d'ablation détaillées
  4. Contribution de référence : Fournit de nouvelles normes d'évaluation pour le domaine

Insuffisances

  1. Hypothèse d'étalonnage : Suppose un étalonnage de caméra parfait, qui peut présenter des erreurs en application réelle
  2. Plage de points de vue : La plage de variations de point de vue testée est relativement limitée
  3. Analyse de calcul : Manque d'analyse détaillée du coût de calcul

Impact

  1. Valeur académique : Étude pionnière de la robustesse du point de vue dans l'E2E-AD
  2. Valeur pratique : Résout directement les problèmes réels du déploiement industriel
  3. Reproductibilité : Description détaillée de la méthode, susceptible de stimuler les recherches ultérieures

Scénarios d'Application

  1. Déploiement multi-véhicules : Scénarios nécessitant une adaptation rapide entre différentes configurations de véhicules
  2. Mise à niveau des capteurs : Migration du système lors de changements de configuration des capteurs de véhicule
  3. Application transfrontalière : Adaptation aux différences de normes de véhicules entre régions ou pays

Références Bibliographiques

L'article cite 75 références pertinentes, couvrant plusieurs domaines incluant la conduite autonome bout-en-bout, la reconstruction 3D, et la synthèse de nouvelle vue, fournissant une base théorique solide pour cette recherche.


Évaluation Globale : Ceci est un article de recherche de haute qualité qui résout systématiquement pour la première fois le problème de robustesse du point de vue dans la conduite autonome bout-en-bout. La conception méthodologique est rationnelle, la vérification expérimentale est complète, et le travail a une valeur importante pour promouvoir l'application pratique de la technologie de conduite autonome.