VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic
VR-Drive: 피드포워드 3D 가우시안 스플래팅을 이용한 시점 강건 엔드-투-엔드 주행
엔드-투-엔드 자동주행(E2E-AD)은 인식, 예측 및 계획을 통합된 데이터 기반 프레임워크로 통합하는 유망한 패러다임이 되었다. 그러나 차량 구성의 다양성으로 인한 일반적인 실제 문제인 서로 다른 카메라 시점에 대한 강건성을 달성하는 것은 여전히 미해결 문제이다. 본 연구는 VR-Drive를 제안하며, 이는 3D 장면 재구성을 보조 작업으로 공동 학습함으로써 계획 인식 뷰 합성을 통해 시점 일반화 문제를 해결하는 새로운 E2E-AD 프레임워크이다. 이전의 장면 특정 합성 방법과 달리, VR-Drive는 피드포워드 추론 전략을 채택하여 추가 주석 없이 희소 뷰에서 온라인 학습 시간 증강을 지원한다. 시점 일관성을 더욱 향상시키기 위해 다중 시점 간의 시간적 상호작용을 촉진하는 시점 혼합 메모리 뱅크와 원본 시점에서 합성 시점으로 지식을 전달하는 시점 일관성 증류 전략을 도입한다. 완전한 엔드-투-엔드 학습을 통해 VR-Drive는 합성으로 인한 노이즈를 효과적으로 완화하고 시점 변화 하에서 계획 성능을 개선한다. 또한 새로운 기준 데이터셋을 공개하여 새로운 카메라 시점에서의 E2E-AD 성능을 평가하고 포괄적인 분석을 가능하게 한다.