VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic
VR-Drive : Conduite Autonome Bout-en-Bout Robuste au Point de Vue avec Splatting Gaussien 3D Anticipatif
La conduite autonome bout-en-bout (E2E-AD) s'est établie comme un paradigme prometteur, unifiant la perception, la prédiction et la planification dans un cadre global piloté par les données. Cependant, la réalisation de la robustesse face à différents points de vue de caméra — un défi réaliste courant dû à la diversité des configurations de véhicules — reste une question ouverte. Ce travail propose VR-Drive, un nouveau cadre E2E-AD qui résout le problème de généralisation du point de vue en apprenant conjointement la reconstruction de scène 3D comme tâche auxiliaire pour réaliser la synthèse de vue consciente de la planification. Contrairement aux méthodes de synthèse antérieures spécifiques à la scène, VR-Drive adopte une stratégie d'inférence anticipative, permettant l'augmentation en ligne lors de l'entraînement à partir de vues clairsemées sans annotation supplémentaire. Pour améliorer davantage la cohérence du point de vue, une banque de mémoire mixte selon le point de vue est introduite pour promouvoir l'interaction temporelle entre plusieurs points de vue, ainsi qu'une stratégie de distillation cohérente au point de vue qui transfère les connaissances de la vue originale vers la vue synthétisée. Grâce à un entraînement entièrement bout-en-bout, VR-Drive atténue efficacement le bruit induit par la synthèse et améliore les performances de planification en cas de variation du point de vue. De plus, un nouveau jeu de données de référence est publié pour évaluer les performances de l'E2E-AD sous des points de vue de caméra nouveaux, permettant une analyse complète.
Les systèmes de conduite autonome bout-en-bout existants font face à un défi critique : la dégradation des performances causée par les variations du point de vue de la caméra. En déploiement réel, les configurations de caméra varient considérablement selon les types de véhicules et les fabricants, incluant des variations de hauteur de montage, d'angle et de position.
Besoins pratiques : Les systèmes de conduite autonome doivent s'adapter à diverses configurations de véhicules sans nécessiter de réentraînement pour chaque configuration
Considérations de coûts : La collecte de données annotées pour chaque configuration de caméra est extrêmement coûteuse et irréaliste
Exigences de sécurité : Les variations de point de vue peuvent entraîner des défaillances de perception, comme illustré à la Figure 1, où les méthodes existantes ne peuvent pas détecter les véhicules avant lorsque la hauteur de la caméra diminue
Dépendance aux données : Nécessite la collecte de grandes quantités de données annotées pour chaque configuration de caméra
Spécificité à la scène : Les méthodes existantes de synthèse de nouvelle vue sont généralement optimisées pour des scènes spécifiques, avec un coût de calcul élevé
Faible capacité de généralisation : Les performances se dégradent significativement sur les données hors distribution (OOD)
Proposer un cadre de conduite autonome bout-en-bout capable d'utiliser une seule configuration de caméra lors de l'entraînement, tout en maintenant la robustesse face à diverses perspectives de caméra inédites lors du test.
Première étude : Première étude systématique de la robustesse du point de vue de la caméra dans la conduite autonome bout-en-bout
Cadre unifié : Proposition de VR-Drive, qui apprend conjointement la reconstruction de scène 3D comme tâche auxiliaire pour réaliser la synthèse de vue consciente de la planification
Innovations techniques :
Banque de mémoire mixte selon le point de vue (Viewpoint-Mixed Memory Bank) permettant l'interaction de caractéristiques entre points de vue
Stratégie de distillation cohérente au point de vue (Viewpoint-Consistent Distillation) pour le transfert de connaissances
Contribution de référence : Construction d'une nouvelle référence d'évaluation supportant l'évaluation des performances E2E-AD sous des points de vue de caméra nouveaux
Entrée : Séquence d'images multi-caméra
Sortie : Trajectoire de planification du mouvement du véhicule propre
Contrainte : Utiliser uniquement les données du point de vue original lors de l'entraînement, maintenir la robustesse face aux points de vue inédits lors du test
Idée centrale : Utiliser les caractéristiques fiables du point de vue original pour guider l'apprentissage des caractéristiques du nouveau point de vue
L'article cite 75 références pertinentes, couvrant plusieurs domaines incluant la conduite autonome bout-en-bout, la reconstruction 3D, et la synthèse de nouvelle vue, fournissant une base théorique solide pour cette recherche.
Évaluation Globale : Ceci est un article de recherche de haute qualité qui résout systématiquement pour la première fois le problème de robustesse du point de vue dans la conduite autonome bout-en-bout. La conception méthodologique est rationnelle, la vérification expérimentale est complète, et le travail a une valeur importante pour promouvoir l'application pratique de la technologie de conduite autonome.