2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.

End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.

academic

VR-Drive: Устойчивая к точке зрения сквозная система вождения с прямой трёхмерной гауссовой растеризацией

Основная информация

ID статьи: 2510.23205
Название: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Авторы: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
Классификация: cs.CV
Дата публикации/Конференция: NeurIPS 2025 (39-я конференция по системам нейронной обработки информации)
Ссылка на статью: https://arxiv.org/abs/2510.23205

Аннотация

Сквозное автоматическое вождение (E2E-AD) стало перспективной парадигмой, объединяющей восприятие, предсказание и планирование в единую целостную структуру, управляемую данными. Однако обеспечение устойчивости к различным ракурсам камер — распространённая практическая проблема, вызванная разнообразием конфигураций транспортных средств — остаётся открытым вопросом. В данной работе предлагается VR-Drive, новая структура E2E-AD, которая решает проблему обобщения по ракурсам путём совместного обучения трёхмерной реконструкции сцены в качестве вспомогательной задачи для синтеза видов, ориентированного на планирование восприятия. В отличие от предыдущих методов синтеза, специфичных для сцены, VR-Drive использует стратегию прямого вывода, поддерживающую онлайн-расширение при обучении из разреженных видов без дополнительных аннотаций. Для дальнейшего повышения согласованности ракурсов вводится банк памяти со смешанными ракурсами, способствующий временному взаимодействию между несколькими ракурсами, и стратегия дистилляции, согласованной по ракурсам, которая передаёт знания из исходного вида в синтезированный вид. Благодаря полностью сквозному обучению VR-Drive эффективно смягчает шум, вызванный синтезом, и улучшает производительность планирования при изменении ракурса. Кроме того, выпущен новый эталонный набор данных для оценки производительности E2E-AD при новых ракурсах камер, что позволяет провести комплексный анализ.

Исследовательский контекст и мотивация

Определение проблемы

Существующие системы сквозного автоматического вождения сталкиваются с критической проблемой: деградация производительности, вызванная изменением ракурса камеры. При практическом развёртывании существуют значительные различия в конфигурации камер для различных типов и производителей транспортных средств, включая вариации параметров высоты установки, угла и положения.

Важность проблемы

Практические требования: Системы автоматического вождения должны адаптироваться к различным типам транспортных средств без необходимости переобучения для каждой конфигурации
Экономические соображения: Сбор аннотированных данных для каждой конфигурации камеры чрезвычайно дорог и нецелесообразен
Требования безопасности: Изменение ракурса может привести к отказу восприятия, как показано на рисунке 1, когда существующие методы не могут обнаружить впереди идущее транспортное средство при снижении высоты камеры

Ограничения существующих методов

Зависимость от данных: Требуется сбор большого количества аннотированных данных для каждой конфигурации камеры
Специфичность сцены: Существующие методы синтеза новых видов обычно оптимизируются для конкретной сцены с большими вычислительными затратами
Плохая способность к обобщению: Производительность значительно снижается на данных вне распределения (OOD)

Исследовательская мотивация

Предложить структуру сквозного автоматического вождения, которая использует только одну конфигурацию камеры во время обучения, но остаётся устойчивой к различным невиданным ракурсам камер во время тестирования.

Основные вклады

Первое исследование: Первое систематическое исследование проблемы устойчивости к ракурсам камер в сквозном автоматическом вождении
Единая структура: Предложение VR-Drive, которое объединяет трёхмерную реконструкцию сцены в качестве вспомогательной задачи для реализации синтеза видов, ориентированного на планирование восприятия
Технические инновации:
- Банк памяти со смешанными ракурсами (Viewpoint-Mixed Memory Bank) для взаимодействия признаков между ракурсами
- Стратегия дистилляции, согласованной по ракурсам (Viewpoint-Consistent Distillation) для передачи знаний
Вклад в эталонные данные: Построение нового эталона оценки, поддерживающего оценку производительности E2E-AD при новых ракурсах камер

Подробное описание метода

Определение задачи

Входные данные: Последовательность изображений с многоракурсных камер Выходные данные: Траектория планирования движения собственного транспортного средства Ограничения: Использование только данных исходного ракурса во время обучения, необходимость сохранения устойчивости к невиданным ракурсам во время тестирования

Архитектура модели

VR-Drive содержит три основных компонента:

1. Обучение исходному ракурсу (Original-view Learning)

Извлечение признаков многоракурсных камер с использованием ResNet50 $I \in \mathbb{R}^{N×C×H×W}$
Реконструкция сцены на основе прямой трёхмерной гауссовой растеризации (3DGS)
Определение гауссовых примитивов: $g = (μ, Σ, α, c)$ , включающих положение, ковариацию, прозрачность и цвет

2. Обучение новому ракурсу (Novel-view Learning)

Случайная выборка внешних параметров камеры для создания новых ракурсов
Извлечение признаков нового ракурса с использованием общего кодировщика $\tilde{I} \in \mathbb{R}^{N×C×H×W}$
Применение циклической потери реконструкции для обучения модели переформированию исходного ракурса

3. Обучение восприятию и планированию (Perception-planning Learning)

Случайный выбор исходного или нового ракурса в качестве входных данных во время обучения
Интеграция трёхмерного обнаружения объектов и задач картирования
Использование разреженной архитектуры для повышения эффективности

Ключевые технические компоненты

Банк памяти со смешанными ракурсами

F̃ = Cross-Attention(Query = F, Key = F', Value = F')

Хранение и обновление признаков экземпляров из различных ракурсов
Слияние признаков текущего ракурса и банка памяти через механизм кросс-внимания
Обновление высокодоверительных экземпляров с использованием стратегии FIFO

Дистилляция, согласованная по ракурсам

Основная идея: использование надёжных признаков исходного ракурса для руководства обучением признаков нового ракурса

Выборка ключевых точек:
```
p*_{i,j} = p_{i,j} + position(B_i)
```
Агрегирование признаков:
```
S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
```

Потеря дистилляции:

L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2

Функция потерь

Общая потеря включает несколько компонентов:

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

где потеря рендеринга включает:

Потеря исходной реконструкции: Реконструкция видов соседних временных шагов
Потеря циклической реконструкции: Реконструкция исходного ракурса из нового ракурса

Экспериментальная установка

Наборы данных

nuScenes: Широко используемый эталонный набор данных для автоматического вождения
CARLA: Среда моделирования для оценки в замкнутом контуре
Новый эталон: Набор оценки изменения ракурса, построенный на основе nuScenes, содержащий 146 тестовых последовательностей

Конфигурации изменения ракурса

Изменения параметров камеры, вводимые во время тестирования:

Угол тангажа: +5°, -10°
Высота: +1.0м, -0.7м
Глубина: +1.0м

Метрики оценки

Расстояние L2: Средняя ошибка смещения (ADE) в диапазонах времени 1с/2с/3с
Коэффициент столкновений: Процент столкновений в спланированной траектории
Оценка вождения (DS) и Коэффициент завершения маршрута (RC): Метрики оценки CARLA в замкнутом контуре

Методы сравнения

AD-MLP
BEV-Planner
VAD
SparseDrive
DiffusionDrive

Результаты экспериментов

Основные результаты

Сравнение производительности планирования в открытом контуре на наборе данных nuScenes:

Конфигурация камеры	Метод	Расстояние L2 (м) ↓	Коэффициент столкновений (%) ↓
Исходная	DiffusionDrive	0.57	0.08
Исходная	VR-Drive	0.60	0.06
Тангаж -10°	DiffusionDrive	0.96	0.24
Тангаж -10°	VR-Drive	0.70	0.11
Высота +1.0м	DiffusionDrive	1.46	0.81
Высота +1.0м	VR-Drive	0.69	0.11

Ключевые выводы:

VR-Drive сохраняет конкурентоспособную производительность на исходном ракурсе
Значительно превосходит существующие методы на новых ракурсах, снижая среднее расстояние L2 с 1.17м до 0.68м
Коэффициент столкновений снижается с 0.41% до 0.11%

Абляционные исследования

Компонент	Исходный L2↓	Новый L2↓	Исходный коэффициент столкновений↓	Новый коэффициент столкновений↓
Базовая модель	0.63	0.91	0.14	0.30
+Реконструкция сцены	0.59	0.90	0.07	0.26
+Банк памяти	0.62	0.73	0.09	0.17
+Циклическая реконструкция	0.59	0.68	0.09	0.16
+Дистилляция	0.61	0.73	0.08	0.14
Полная модель	0.60	0.68	0.06	0.11

Важные выводы:

Простое добавление реконструкции сцены улучшает производительность на исходном ракурсе
Компоненты работают синергетически, полная модель показывает лучший результат
Отсутствует компромисс между производительностью на исходном ракурсе и устойчивостью к новым ракурсам

Оценка CARLA в замкнутом контуре

Результаты на эталоне Town05-Nov:

Метод	Исходная DS	Средняя DS новых ракурсов	Исходный RC	Средний RC новых ракурсов
BEV-Planner	17.25	7.80	28.70	28.86
Базовая модель	76.47	48.25	99.20	94.87
VR-Drive	84.04	88.25	99.04	98.28

VR-Drive демонстрирует отличную устойчивость к ракурсам при тестировании в замкнутом контуре.

Связанные работы

Сквозное автоматическое вождение

Существующие исследования разделяются на два направления:

Исследование архитектуры и задач: Оптимизация подмодулей для повышения производительности планирования
Дистилляция высокоуровневой информации: Использование знаний экспертов на основе правил или обучения с подкреплением

Представления, устойчивые к ракурсам, и реконструкция сцены

Ранние исследования: Доказательство уязвимости нейронных сетей к изменениям ракурса
Синтез новых видов: Методы на основе NeRF и 3DGS, но в основном оптимизированные для конкретных сцен
Прямые методы: Методы обобщения, поддерживающие вывод в реальном времени

Данная работа является первой, систематически исследующей устойчивость к ракурсам в E2E-AD.

Заключение и обсуждение

Основные выводы

VR-Drive успешно решает проблему устойчивости к ракурсам в E2E-AD
Совместное обучение трёхмерной реконструкции в качестве вспомогательной задачи значительно повышает устойчивость системы
Предложенные технические компоненты эффективно смягчают синтетический шум и улучшают производительность планирования

Ограничения

Зависимость от калибровки камеры: Производительность зависит от точности калибровки камеры
Вычислительные затраты: Трёхмерная реконструкция добавляет дополнительные вычислительные затраты
Диапазон оценки: В настоящее время проверено только в ограниченном диапазоне изменения ракурса

Будущие направления

Повышение устойчивости к ошибкам калибровки камеры
Оптимизация вычислительной эффективности для снижения затрат на развёртывание в реальном времени
Расширение на больший диапазон изменения ракурса и конфигурации датчиков

Глубокая оценка

Преимущества

Важность проблемы: Решение критической проблемы при практическом развёртывании
Методологические инновации: Умелое объединение трёхмерной реконструкции с E2E-AD, тщательно разработанные технические компоненты
Полные эксперименты: Включение оценки в открытом и замкнутом контурах, подробные абляционные исследования
Вклад в эталонные данные: Предоставление новых стандартов оценки для области

Недостатки

Предположение о калибровке: Предположение идеальной калибровки камеры, в практических приложениях могут быть ошибки
Диапазон ракурсов: Диапазон тестируемых изменений ракурса относительно ограничен
Анализ вычислений: Отсутствие подробного анализа вычислительных затрат

Влияние

Академическая ценность: Пионерское исследование устойчивости к ракурсам в E2E-AD
Практическая ценность: Прямое решение практических проблем при промышленном развёртывании
Воспроизводимость: Подробное описание метода, вероятно, будет способствовать последующим исследованиям

Применимые сценарии

Развёртывание на нескольких типах транспортных средств: Сценарии, требующие быстрой адаптации между различными конфигурациями транспортных средств
Обновление датчиков: Миграция системы при изменении конфигурации датчиков транспортного средства
Кроссдоменные приложения: Адаптация к различиям в стандартах транспортных средств в разных регионах или странах

Библиография

Статья цитирует 75 соответствующих работ, охватывающих сквозное автоматическое вождение, трёхмерную реконструкцию, синтез новых видов и другие области, предоставляя прочную теоретическую основу для данного исследования.

Общая оценка: Это высококачественная исследовательская статья, которая впервые систематически решает проблему устойчивости к ракурсам в сквозном автоматическом вождении. Метод разумно разработан, эксперименты полностью проверены, и работа имеет важное значение для продвижения практического применения технологии автоматического вождения.