2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic

VR-Drive: Устойчивая к точке зрения сквозная система вождения с прямой трёхмерной гауссовой растеризацией

Основная информация

  • ID статьи: 2510.23205
  • Название: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
  • Авторы: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
  • Классификация: cs.CV
  • Дата публикации/Конференция: NeurIPS 2025 (39-я конференция по системам нейронной обработки информации)
  • Ссылка на статью: https://arxiv.org/abs/2510.23205

Аннотация

Сквозное автоматическое вождение (E2E-AD) стало перспективной парадигмой, объединяющей восприятие, предсказание и планирование в единую целостную структуру, управляемую данными. Однако обеспечение устойчивости к различным ракурсам камер — распространённая практическая проблема, вызванная разнообразием конфигураций транспортных средств — остаётся открытым вопросом. В данной работе предлагается VR-Drive, новая структура E2E-AD, которая решает проблему обобщения по ракурсам путём совместного обучения трёхмерной реконструкции сцены в качестве вспомогательной задачи для синтеза видов, ориентированного на планирование восприятия. В отличие от предыдущих методов синтеза, специфичных для сцены, VR-Drive использует стратегию прямого вывода, поддерживающую онлайн-расширение при обучении из разреженных видов без дополнительных аннотаций. Для дальнейшего повышения согласованности ракурсов вводится банк памяти со смешанными ракурсами, способствующий временному взаимодействию между несколькими ракурсами, и стратегия дистилляции, согласованной по ракурсам, которая передаёт знания из исходного вида в синтезированный вид. Благодаря полностью сквозному обучению VR-Drive эффективно смягчает шум, вызванный синтезом, и улучшает производительность планирования при изменении ракурса. Кроме того, выпущен новый эталонный набор данных для оценки производительности E2E-AD при новых ракурсах камер, что позволяет провести комплексный анализ.

Исследовательский контекст и мотивация

Определение проблемы

Существующие системы сквозного автоматического вождения сталкиваются с критической проблемой: деградация производительности, вызванная изменением ракурса камеры. При практическом развёртывании существуют значительные различия в конфигурации камер для различных типов и производителей транспортных средств, включая вариации параметров высоты установки, угла и положения.

Важность проблемы

  1. Практические требования: Системы автоматического вождения должны адаптироваться к различным типам транспортных средств без необходимости переобучения для каждой конфигурации
  2. Экономические соображения: Сбор аннотированных данных для каждой конфигурации камеры чрезвычайно дорог и нецелесообразен
  3. Требования безопасности: Изменение ракурса может привести к отказу восприятия, как показано на рисунке 1, когда существующие методы не могут обнаружить впереди идущее транспортное средство при снижении высоты камеры

Ограничения существующих методов

  1. Зависимость от данных: Требуется сбор большого количества аннотированных данных для каждой конфигурации камеры
  2. Специфичность сцены: Существующие методы синтеза новых видов обычно оптимизируются для конкретной сцены с большими вычислительными затратами
  3. Плохая способность к обобщению: Производительность значительно снижается на данных вне распределения (OOD)

Исследовательская мотивация

Предложить структуру сквозного автоматического вождения, которая использует только одну конфигурацию камеры во время обучения, но остаётся устойчивой к различным невиданным ракурсам камер во время тестирования.

Основные вклады

  1. Первое исследование: Первое систематическое исследование проблемы устойчивости к ракурсам камер в сквозном автоматическом вождении
  2. Единая структура: Предложение VR-Drive, которое объединяет трёхмерную реконструкцию сцены в качестве вспомогательной задачи для реализации синтеза видов, ориентированного на планирование восприятия
  3. Технические инновации:
    • Банк памяти со смешанными ракурсами (Viewpoint-Mixed Memory Bank) для взаимодействия признаков между ракурсами
    • Стратегия дистилляции, согласованной по ракурсам (Viewpoint-Consistent Distillation) для передачи знаний
  4. Вклад в эталонные данные: Построение нового эталона оценки, поддерживающего оценку производительности E2E-AD при новых ракурсах камер

Подробное описание метода

Определение задачи

Входные данные: Последовательность изображений с многоракурсных камер Выходные данные: Траектория планирования движения собственного транспортного средства Ограничения: Использование только данных исходного ракурса во время обучения, необходимость сохранения устойчивости к невиданным ракурсам во время тестирования

Архитектура модели

VR-Drive содержит три основных компонента:

1. Обучение исходному ракурсу (Original-view Learning)

  • Извлечение признаков многоракурсных камер с использованием ResNet50 IRN×C×H×WI \in \mathbb{R}^{N×C×H×W}
  • Реконструкция сцены на основе прямой трёхмерной гауссовой растеризации (3DGS)
  • Определение гауссовых примитивов: g=(μ,Σ,α,c)g = (μ, Σ, α, c), включающих положение, ковариацию, прозрачность и цвет

2. Обучение новому ракурсу (Novel-view Learning)

  • Случайная выборка внешних параметров камеры для создания новых ракурсов
  • Извлечение признаков нового ракурса с использованием общего кодировщика I~RN×C×H×W\tilde{I} \in \mathbb{R}^{N×C×H×W}
  • Применение циклической потери реконструкции для обучения модели переформированию исходного ракурса

3. Обучение восприятию и планированию (Perception-planning Learning)

  • Случайный выбор исходного или нового ракурса в качестве входных данных во время обучения
  • Интеграция трёхмерного обнаружения объектов и задач картирования
  • Использование разреженной архитектуры для повышения эффективности

Ключевые технические компоненты

Банк памяти со смешанными ракурсами

F̃ = Cross-Attention(Query = F, Key = F', Value = F')
  • Хранение и обновление признаков экземпляров из различных ракурсов
  • Слияние признаков текущего ракурса и банка памяти через механизм кросс-внимания
  • Обновление высокодоверительных экземпляров с использованием стратегии FIFO

Дистилляция, согласованная по ракурсам

Основная идея: использование надёжных признаков исходного ракурса для руководства обучением признаков нового ракурса

  1. Выборка ключевых точек:
    p*_{i,j} = p_{i,j} + position(B_i)
    
  2. Агрегирование признаков:
    S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
    
  3. Потеря дистилляции:
    L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2
    

Функция потерь

Общая потеря включает несколько компонентов:

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

где потеря рендеринга включает:

  • Потеря исходной реконструкции: Реконструкция видов соседних временных шагов
  • Потеря циклической реконструкции: Реконструкция исходного ракурса из нового ракурса

Экспериментальная установка

Наборы данных

  1. nuScenes: Широко используемый эталонный набор данных для автоматического вождения
  2. CARLA: Среда моделирования для оценки в замкнутом контуре
  3. Новый эталон: Набор оценки изменения ракурса, построенный на основе nuScenes, содержащий 146 тестовых последовательностей

Конфигурации изменения ракурса

Изменения параметров камеры, вводимые во время тестирования:

  • Угол тангажа: +5°, -10°
  • Высота: +1.0м, -0.7м
  • Глубина: +1.0м

Метрики оценки

  • Расстояние L2: Средняя ошибка смещения (ADE) в диапазонах времени 1с/2с/3с
  • Коэффициент столкновений: Процент столкновений в спланированной траектории
  • Оценка вождения (DS) и Коэффициент завершения маршрута (RC): Метрики оценки CARLA в замкнутом контуре

Методы сравнения

  • AD-MLP
  • BEV-Planner
  • VAD
  • SparseDrive
  • DiffusionDrive

Результаты экспериментов

Основные результаты

Сравнение производительности планирования в открытом контуре на наборе данных nuScenes:

Конфигурация камерыМетодРасстояние L2 (м) ↓Коэффициент столкновений (%) ↓
ИсходнаяDiffusionDrive0.570.08
ИсходнаяVR-Drive0.600.06
Тангаж -10°DiffusionDrive0.960.24
Тангаж -10°VR-Drive0.700.11
Высота +1.0мDiffusionDrive1.460.81
Высота +1.0мVR-Drive0.690.11

Ключевые выводы:

  • VR-Drive сохраняет конкурентоспособную производительность на исходном ракурсе
  • Значительно превосходит существующие методы на новых ракурсах, снижая среднее расстояние L2 с 1.17м до 0.68м
  • Коэффициент столкновений снижается с 0.41% до 0.11%

Абляционные исследования

КомпонентИсходный L2↓Новый L2↓Исходный коэффициент столкновений↓Новый коэффициент столкновений↓
Базовая модель0.630.910.140.30
+Реконструкция сцены0.590.900.070.26
+Банк памяти0.620.730.090.17
+Циклическая реконструкция0.590.680.090.16
+Дистилляция0.610.730.080.14
Полная модель0.600.680.060.11

Важные выводы:

  1. Простое добавление реконструкции сцены улучшает производительность на исходном ракурсе
  2. Компоненты работают синергетически, полная модель показывает лучший результат
  3. Отсутствует компромисс между производительностью на исходном ракурсе и устойчивостью к новым ракурсам

Оценка CARLA в замкнутом контуре

Результаты на эталоне Town05-Nov:

МетодИсходная DSСредняя DS новых ракурсовИсходный RCСредний RC новых ракурсов
BEV-Planner17.257.8028.7028.86
Базовая модель76.4748.2599.2094.87
VR-Drive84.0488.2599.0498.28

VR-Drive демонстрирует отличную устойчивость к ракурсам при тестировании в замкнутом контуре.

Связанные работы

Сквозное автоматическое вождение

Существующие исследования разделяются на два направления:

  1. Исследование архитектуры и задач: Оптимизация подмодулей для повышения производительности планирования
  2. Дистилляция высокоуровневой информации: Использование знаний экспертов на основе правил или обучения с подкреплением

Представления, устойчивые к ракурсам, и реконструкция сцены

  1. Ранние исследования: Доказательство уязвимости нейронных сетей к изменениям ракурса
  2. Синтез новых видов: Методы на основе NeRF и 3DGS, но в основном оптимизированные для конкретных сцен
  3. Прямые методы: Методы обобщения, поддерживающие вывод в реальном времени

Данная работа является первой, систематически исследующей устойчивость к ракурсам в E2E-AD.

Заключение и обсуждение

Основные выводы

  1. VR-Drive успешно решает проблему устойчивости к ракурсам в E2E-AD
  2. Совместное обучение трёхмерной реконструкции в качестве вспомогательной задачи значительно повышает устойчивость системы
  3. Предложенные технические компоненты эффективно смягчают синтетический шум и улучшают производительность планирования

Ограничения

  1. Зависимость от калибровки камеры: Производительность зависит от точности калибровки камеры
  2. Вычислительные затраты: Трёхмерная реконструкция добавляет дополнительные вычислительные затраты
  3. Диапазон оценки: В настоящее время проверено только в ограниченном диапазоне изменения ракурса

Будущие направления

  1. Повышение устойчивости к ошибкам калибровки камеры
  2. Оптимизация вычислительной эффективности для снижения затрат на развёртывание в реальном времени
  3. Расширение на больший диапазон изменения ракурса и конфигурации датчиков

Глубокая оценка

Преимущества

  1. Важность проблемы: Решение критической проблемы при практическом развёртывании
  2. Методологические инновации: Умелое объединение трёхмерной реконструкции с E2E-AD, тщательно разработанные технические компоненты
  3. Полные эксперименты: Включение оценки в открытом и замкнутом контурах, подробные абляционные исследования
  4. Вклад в эталонные данные: Предоставление новых стандартов оценки для области

Недостатки

  1. Предположение о калибровке: Предположение идеальной калибровки камеры, в практических приложениях могут быть ошибки
  2. Диапазон ракурсов: Диапазон тестируемых изменений ракурса относительно ограничен
  3. Анализ вычислений: Отсутствие подробного анализа вычислительных затрат

Влияние

  1. Академическая ценность: Пионерское исследование устойчивости к ракурсам в E2E-AD
  2. Практическая ценность: Прямое решение практических проблем при промышленном развёртывании
  3. Воспроизводимость: Подробное описание метода, вероятно, будет способствовать последующим исследованиям

Применимые сценарии

  1. Развёртывание на нескольких типах транспортных средств: Сценарии, требующие быстрой адаптации между различными конфигурациями транспортных средств
  2. Обновление датчиков: Миграция системы при изменении конфигурации датчиков транспортного средства
  3. Кроссдоменные приложения: Адаптация к различиям в стандартах транспортных средств в разных регионах или странах

Библиография

Статья цитирует 75 соответствующих работ, охватывающих сквозное автоматическое вождение, трёхмерную реконструкцию, синтез новых видов и другие области, предоставляя прочную теоретическую основу для данного исследования.


Общая оценка: Это высококачественная исследовательская статья, которая впервые систематически решает проблему устойчивости к ракурсам в сквозном автоматическом вождении. Метод разумно разработан, эксперименты полностью проверены, и работа имеет важное значение для продвижения практического применения технологии автоматического вождения.