VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic
VR-Drive: Устойчивая к точке зрения сквозная система вождения с прямой трёхмерной гауссовой растеризацией
Сквозное автоматическое вождение (E2E-AD) стало перспективной парадигмой, объединяющей восприятие, предсказание и планирование в единую целостную структуру, управляемую данными. Однако обеспечение устойчивости к различным ракурсам камер — распространённая практическая проблема, вызванная разнообразием конфигураций транспортных средств — остаётся открытым вопросом. В данной работе предлагается VR-Drive, новая структура E2E-AD, которая решает проблему обобщения по ракурсам путём совместного обучения трёхмерной реконструкции сцены в качестве вспомогательной задачи для синтеза видов, ориентированного на планирование восприятия. В отличие от предыдущих методов синтеза, специфичных для сцены, VR-Drive использует стратегию прямого вывода, поддерживающую онлайн-расширение при обучении из разреженных видов без дополнительных аннотаций. Для дальнейшего повышения согласованности ракурсов вводится банк памяти со смешанными ракурсами, способствующий временному взаимодействию между несколькими ракурсами, и стратегия дистилляции, согласованной по ракурсам, которая передаёт знания из исходного вида в синтезированный вид. Благодаря полностью сквозному обучению VR-Drive эффективно смягчает шум, вызванный синтезом, и улучшает производительность планирования при изменении ракурса. Кроме того, выпущен новый эталонный набор данных для оценки производительности E2E-AD при новых ракурсах камер, что позволяет провести комплексный анализ.
Существующие системы сквозного автоматического вождения сталкиваются с критической проблемой: деградация производительности, вызванная изменением ракурса камеры. При практическом развёртывании существуют значительные различия в конфигурации камер для различных типов и производителей транспортных средств, включая вариации параметров высоты установки, угла и положения.
Практические требования: Системы автоматического вождения должны адаптироваться к различным типам транспортных средств без необходимости переобучения для каждой конфигурации
Экономические соображения: Сбор аннотированных данных для каждой конфигурации камеры чрезвычайно дорог и нецелесообразен
Требования безопасности: Изменение ракурса может привести к отказу восприятия, как показано на рисунке 1, когда существующие методы не могут обнаружить впереди идущее транспортное средство при снижении высоты камеры
Предложить структуру сквозного автоматического вождения, которая использует только одну конфигурацию камеры во время обучения, но остаётся устойчивой к различным невиданным ракурсам камер во время тестирования.
Первое исследование: Первое систематическое исследование проблемы устойчивости к ракурсам камер в сквозном автоматическом вождении
Единая структура: Предложение VR-Drive, которое объединяет трёхмерную реконструкцию сцены в качестве вспомогательной задачи для реализации синтеза видов, ориентированного на планирование восприятия
Технические инновации:
Банк памяти со смешанными ракурсами (Viewpoint-Mixed Memory Bank) для взаимодействия признаков между ракурсами
Стратегия дистилляции, согласованной по ракурсам (Viewpoint-Consistent Distillation) для передачи знаний
Вклад в эталонные данные: Построение нового эталона оценки, поддерживающего оценку производительности E2E-AD при новых ракурсах камер
Входные данные: Последовательность изображений с многоракурсных камер
Выходные данные: Траектория планирования движения собственного транспортного средства
Ограничения: Использование только данных исходного ракурса во время обучения, необходимость сохранения устойчивости к невиданным ракурсам во время тестирования
Статья цитирует 75 соответствующих работ, охватывающих сквозное автоматическое вождение, трёхмерную реконструкцию, синтез новых видов и другие области, предоставляя прочную теоретическую основу для данного исследования.
Общая оценка: Это высококачественная исследовательская статья, которая впервые систематически решает проблему устойчивости к ракурсам в сквозном автоматическом вождении. Метод разумно разработан, эксперименты полностью проверены, и работа имеет важное значение для продвижения практического применения технологии автоматического вождения.