2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.

End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.

academic

VR-Drive : Conduite Autonome Bout-en-Bout Robuste au Point de Vue avec Splatting Gaussien 3D Anticipatif

Informations Fondamentales

ID de l'article : 2510.23205
Titre : VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Auteurs : Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
Classification : cs.CV
Date de publication/Conférence : NeurIPS 2025 (39e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
Lien de l'article : https://arxiv.org/abs/2510.23205

Résumé

La conduite autonome bout-en-bout (E2E-AD) s'est établie comme un paradigme prometteur, unifiant la perception, la prédiction et la planification dans un cadre global piloté par les données. Cependant, la réalisation de la robustesse face à différents points de vue de caméra — un défi réaliste courant dû à la diversité des configurations de véhicules — reste une question ouverte. Ce travail propose VR-Drive, un nouveau cadre E2E-AD qui résout le problème de généralisation du point de vue en apprenant conjointement la reconstruction de scène 3D comme tâche auxiliaire pour réaliser la synthèse de vue consciente de la planification. Contrairement aux méthodes de synthèse antérieures spécifiques à la scène, VR-Drive adopte une stratégie d'inférence anticipative, permettant l'augmentation en ligne lors de l'entraînement à partir de vues clairsemées sans annotation supplémentaire. Pour améliorer davantage la cohérence du point de vue, une banque de mémoire mixte selon le point de vue est introduite pour promouvoir l'interaction temporelle entre plusieurs points de vue, ainsi qu'une stratégie de distillation cohérente au point de vue qui transfère les connaissances de la vue originale vers la vue synthétisée. Grâce à un entraînement entièrement bout-en-bout, VR-Drive atténue efficacement le bruit induit par la synthèse et améliore les performances de planification en cas de variation du point de vue. De plus, un nouveau jeu de données de référence est publié pour évaluer les performances de l'E2E-AD sous des points de vue de caméra nouveaux, permettant une analyse complète.

Contexte de Recherche et Motivation

Définition du Problème

Les systèmes de conduite autonome bout-en-bout existants font face à un défi critique : la dégradation des performances causée par les variations du point de vue de la caméra. En déploiement réel, les configurations de caméra varient considérablement selon les types de véhicules et les fabricants, incluant des variations de hauteur de montage, d'angle et de position.

Importance du Problème

Besoins pratiques : Les systèmes de conduite autonome doivent s'adapter à diverses configurations de véhicules sans nécessiter de réentraînement pour chaque configuration
Considérations de coûts : La collecte de données annotées pour chaque configuration de caméra est extrêmement coûteuse et irréaliste
Exigences de sécurité : Les variations de point de vue peuvent entraîner des défaillances de perception, comme illustré à la Figure 1, où les méthodes existantes ne peuvent pas détecter les véhicules avant lorsque la hauteur de la caméra diminue

Limitations des Approches Existantes

Dépendance aux données : Nécessite la collecte de grandes quantités de données annotées pour chaque configuration de caméra
Spécificité à la scène : Les méthodes existantes de synthèse de nouvelle vue sont généralement optimisées pour des scènes spécifiques, avec un coût de calcul élevé
Faible capacité de généralisation : Les performances se dégradent significativement sur les données hors distribution (OOD)

Motivation de la Recherche

Proposer un cadre de conduite autonome bout-en-bout capable d'utiliser une seule configuration de caméra lors de l'entraînement, tout en maintenant la robustesse face à diverses perspectives de caméra inédites lors du test.

Contributions Principales

Première étude : Première étude systématique de la robustesse du point de vue de la caméra dans la conduite autonome bout-en-bout
Cadre unifié : Proposition de VR-Drive, qui apprend conjointement la reconstruction de scène 3D comme tâche auxiliaire pour réaliser la synthèse de vue consciente de la planification
Innovations techniques :
- Banque de mémoire mixte selon le point de vue (Viewpoint-Mixed Memory Bank) permettant l'interaction de caractéristiques entre points de vue
- Stratégie de distillation cohérente au point de vue (Viewpoint-Consistent Distillation) pour le transfert de connaissances
Contribution de référence : Construction d'une nouvelle référence d'évaluation supportant l'évaluation des performances E2E-AD sous des points de vue de caméra nouveaux

Détails de la Méthode

Définition de la Tâche

Entrée : Séquence d'images multi-caméra Sortie : Trajectoire de planification du mouvement du véhicule propre Contrainte : Utiliser uniquement les données du point de vue original lors de l'entraînement, maintenir la robustesse face aux points de vue inédits lors du test

Architecture du Modèle

VR-Drive comprend trois composants principaux :

1. Apprentissage du Point de Vue Original (Original-view Learning)

Extraction de cartes de caractéristiques multi-caméra à l'aide de ResNet50 $I \in \mathbb{R}^{N×C×H×W}$
Reconstruction de scène basée sur le splatting gaussien 3D anticipatif (3DGS)
Définition des primitives gaussiennes : $g = (μ, Σ, α, c)$ , incluant position, covariance, transparence et couleur

2. Apprentissage du Point de Vue Nouveau (Novel-view Learning)

Échantillonnage aléatoire des paramètres externes de la caméra pour générer de nouveaux points de vue
Extraction de caractéristiques du nouveau point de vue à l'aide d'un encodeur partagé $\tilde{I} \in \mathbb{R}^{N×C×H×W}$
Utilisation d'une perte de reconstruction cyclique pour entraîner le modèle à régénérer le point de vue original

3. Apprentissage de la Perception-Planification (Perception-planning Learning)

Sélection aléatoire du point de vue original ou nouveau comme entrée lors de l'entraînement
Intégration de la détection d'objets 3D et des tâches de cartographie
Utilisation d'une architecture clairsemée pour améliorer l'efficacité

Composants Techniques Clés

Banque de Mémoire Mixte selon le Point de Vue

F̃ = Cross-Attention(Query = F, Key = F', Value = F')

Stockage et mise à jour des caractéristiques d'instance provenant de différents points de vue
Fusion des caractéristiques du point de vue actuel et de la banque de mémoire via un mécanisme d'attention croisée
Utilisation d'une stratégie FIFO pour mettre à jour les instances de haute confiance

Distillation Cohérente au Point de Vue

Idée centrale : Utiliser les caractéristiques fiables du point de vue original pour guider l'apprentissage des caractéristiques du nouveau point de vue

Échantillonnage de points clés :
```
p*_{i,j} = p_{i,j} + position(B_i)
```
Agrégation de caractéristiques :
```
S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
```

Perte de distillation :

L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2

Fonction de Perte

La perte totale comprend plusieurs composants :

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

où la perte de rendu inclut :

Perte de reconstruction originale : Reconstruction de vues à pas de temps adjacents
Perte de reconstruction cyclique : Reconstruction du point de vue original à partir du nouveau point de vue

Configuration Expérimentale

Ensembles de Données

nuScenes : Ensemble de données de référence largement utilisé pour la conduite autonome
CARLA : Environnement de simulation pour l'évaluation en boucle fermée
Nouvelle référence : Ensemble d'évaluation de variation de point de vue construit sur la base de nuScenes, contenant 146 séquences de test

Configurations de Variation du Point de Vue

Variations des paramètres de caméra introduites lors du test :

Angle de tangage : +5°, -10°
Hauteur : +1,0 m, -0,7 m
Profondeur : +1,0 m

Métriques d'Évaluation

Distance L2 : Erreur de déplacement moyen (ADE), sur des plages temporelles de 1s/2s/3s
Taux de collision : Pourcentage de trajectoires de planification en collision
Score de conduite (DS) et Taux de complétion d'itinéraire (RC) : Métriques d'évaluation en boucle fermée CARLA

Méthodes de Comparaison

AD-MLP
BEV-Planner
VAD
SparseDrive
DiffusionDrive

Résultats Expérimentaux

Résultats Principaux

Comparaison des performances de planification en boucle ouverte sur l'ensemble de données nuScenes :

Configuration de Caméra	Méthode	Distance L2 (m) ↓	Taux de Collision (%) ↓
Original	DiffusionDrive	0,57	0,08
Original	VR-Drive	0,60	0,06
Tangage -10°	DiffusionDrive	0,96	0,24
Tangage -10°	VR-Drive	0,70	0,11
Hauteur +1,0 m	DiffusionDrive	1,46	0,81
Hauteur +1,0 m	VR-Drive	0,69	0,11

Conclusions Clés :

VR-Drive maintient des performances compétitives au point de vue original
Surpasse significativement les méthodes existantes sous les nouveaux points de vue, réduisant la distance L2 moyenne de 1,17 m à 0,68 m
Le taux de collision diminue de 0,41 % à 0,11 %

Étude d'Ablation

Composant	Point de Vue Original L2↓	Nouveau Point de Vue L2↓	Taux de Collision Original↓	Taux de Collision Nouveau↓
Ligne de base	0,63	0,91	0,14	0,30
+ Reconstruction de scène	0,59	0,90	0,07	0,26
+ Banque de mémoire	0,62	0,73	0,09	0,17
+ Reconstruction cyclique	0,59	0,68	0,09	0,16
+ Distillation	0,61	0,73	0,08	0,14
Modèle complet	0,60	0,68	0,06	0,11

Conclusions Importantes :

L'ajout seul de la reconstruction de scène améliore les performances du point de vue original
Les composants agissent en synergie, le modèle complet offrant les meilleures performances
Il n'existe pas de compromis entre les performances du point de vue original et la robustesse du nouveau point de vue

Évaluation en Boucle Fermée CARLA

Résultats sur la référence Town05-Nov :

Méthode	DS Original	DS Moyen Nouveau Point de Vue	RC Original	RC Moyen Nouveau Point de Vue
BEV-Planner	17,25	7,80	28,70	28,86
Ligne de base	76,47	48,25	99,20	94,87
VR-Drive	84,04	88,25	99,04	98,28

VR-Drive démontre une excellente robustesse au point de vue lors des tests en boucle fermée.

Travaux Connexes

Conduite Autonome Bout-en-Bout

Les recherches existantes se divisent principalement en deux directions :

Exploration d'architecture et de tâches : Optimisation des sous-modules pour améliorer les performances de planification
Distillation d'informations avancées : Utilisation de connaissances d'experts basées sur des règles ou l'apprentissage par renforcement

Représentation Robuste au Point de Vue et Reconstruction de Scène

Recherches précoces : Démonstration de la fragilité des réseaux de neurones face aux variations de point de vue
Synthèse de nouvelle vue : Méthodes basées sur NeRF et 3DGS, mais généralement optimisées pour des scènes spécifiques
Méthodes anticipatives : Approches de généralisation supportant l'inférence en temps réel

Cet article est le premier à étudier systématiquement la robustesse du point de vue dans l'E2E-AD.

Conclusion et Discussion

Conclusions Principales

VR-Drive résout avec succès le problème de robustesse du point de vue dans l'E2E-AD
L'apprentissage conjoint de la reconstruction 3D comme tâche auxiliaire améliore significativement la robustesse du système
Les composants techniques proposés atténuent efficacement le bruit de synthèse et améliorent les performances de planification

Limitations

Dépendance à l'étalonnage de la caméra : Les performances sont affectées par la précision de l'étalonnage de la caméra
Coût de calcul : La reconstruction 3D ajoute un coût de calcul supplémentaire
Portée d'évaluation : Actuellement validée uniquement sur une plage limitée de variations de point de vue

Directions Futures

Améliorer la robustesse face aux erreurs d'étalonnage de caméra
Optimiser l'efficacité de calcul pour réduire les coûts de déploiement en temps réel
Étendre à des plages plus larges de variations de point de vue et de configurations de capteurs

Évaluation Approfondie

Points Forts

Importance du problème : Résout un défi clé du déploiement réel
Innovation méthodologique : Combinaison ingénieuse de la reconstruction 3D et de l'E2E-AD, avec des composants techniques bien conçus
Expérimentation complète : Inclut des évaluations en boucle ouverte et fermée, avec des études d'ablation détaillées
Contribution de référence : Fournit de nouvelles normes d'évaluation pour le domaine

Insuffisances

Hypothèse d'étalonnage : Suppose un étalonnage de caméra parfait, qui peut présenter des erreurs en application réelle
Plage de points de vue : La plage de variations de point de vue testée est relativement limitée
Analyse de calcul : Manque d'analyse détaillée du coût de calcul

Impact

Valeur académique : Étude pionnière de la robustesse du point de vue dans l'E2E-AD
Valeur pratique : Résout directement les problèmes réels du déploiement industriel
Reproductibilité : Description détaillée de la méthode, susceptible de stimuler les recherches ultérieures

Scénarios d'Application

Déploiement multi-véhicules : Scénarios nécessitant une adaptation rapide entre différentes configurations de véhicules
Mise à niveau des capteurs : Migration du système lors de changements de configuration des capteurs de véhicule
Application transfrontalière : Adaptation aux différences de normes de véhicules entre régions ou pays

Références Bibliographiques

L'article cite 75 références pertinentes, couvrant plusieurs domaines incluant la conduite autonome bout-en-bout, la reconstruction 3D, et la synthèse de nouvelle vue, fournissant une base théorique solide pour cette recherche.

Évaluation Globale : Ceci est un article de recherche de haute qualité qui résout systématiquement pour la première fois le problème de robustesse du point de vue dans la conduite autonome bout-en-bout. La conception méthodologique est rationnelle, la vérification expérimentale est complète, et le travail a une valeur importante pour promouvoir l'application pratique de la technologie de conduite autonome.