2025-11-22T23:16:16.841585

Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution

Zhang, Song, Li et al.

End-to-end autonomous driving methods aim to directly map raw sensor inputs to future driving actions such as planned trajectories, bypassing traditional modular pipelines. While these approaches have shown promise, they often operate under a one-shot paradigm that relies heavily on the current scene context, potentially underestimating the importance of scene dynamics and their temporal evolution. This limitation restricts the model's ability to make informed and adaptive decisions in complex driving scenarios. We propose a new perspective: the future trajectory of an autonomous vehicle is closely intertwined with the evolving dynamics of its environment, and conversely, the vehicle's own future states can influence how the surrounding scene unfolds. Motivated by this bidirectional relationship, we introduce SeerDrive, a novel end-to-end framework that jointly models future scene evolution and trajectory planning in a closed-loop manner. Our method first predicts future bird's-eye view (BEV) representations to anticipate the dynamics of the surrounding scene, then leverages this foresight to generate future-context-aware trajectories. Two key components enable this: (1) future-aware planning, which injects predicted BEV features into the trajectory planner, and (2) iterative scene modeling and vehicle planning, which refines both future scene prediction and trajectory generation through collaborative optimization. Extensive experiments on the NAVSIM and nuScenes benchmarks show that SeerDrive significantly outperforms existing state-of-the-art methods.

academic

Будущее-ориентированное сквозное вождение: двусторонее моделирование планирования траектории и эволюции сцены

Основная информация

ID статьи: 2510.11092
Название: Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
Авторы: Bozhou Zhang, Nan Song, Jingyu Li, Xiatian Zhu, Jiankang Deng, Li Zhang
Категория: cs.CV
Конференция: NeurIPS 2025 (39-я конференция по системам нейронной обработки информации)
Ссылка на статью: https://arxiv.org/abs/2510.11092
Ссылка на код: https://github.com/LogosRoboticsGroup/SeerDrive

Аннотация

Методы сквозного автономного вождения направлены на прямое отображение необработанных входных данных датчиков на будущие действия вождения (например, планируемые траектории), обходя традиционные модульные конвейеры. Хотя эти методы показывают перспективность, они обычно работают в однократной парадигме, сильно зависят от текущего контекста сцены и могут недооценивать важность динамики сцены и её временной эволюции. Это ограничение сдерживает способность модели принимать обоснованные и адаптивные решения в сложных сценариях вождения. В данной работе предлагается новая точка зрения: будущая траектория автономного транспортного средства тесно связана с динамикой эволюции его окружения, и наоборот, будущее состояние самого транспортного средства может влиять на развёртывание окружающей сцены. На основе этого двустороннего отношения авторы представляют SeerDrive — новую сквозную структуру для совместного моделирования будущей эволюции сцены и планирования траектории в замкнутом цикле.

Исследовательский контекст и мотивация

Определение проблемы

Существующие методы сквозного автономного вождения в основном используют "однократную парадигму" (one-shot paradigm), то есть прямое предсказание траектории на несколько секунд вперёд на основе наблюдений датчиков в текущий момент времени. Этот подход имеет следующие ключевые проблемы:

Предположение о статической сцене: чрезмерная зависимость от текущей ситуации сцены при выводе будущего движения собственного транспортного средства, игнорирование того, как сцена эволюционирует во времени
Однонаправленное моделирование: отсутствие учёта влияния будущего поведения собственного транспортного средства на развёртывание окружающей сцены
Недостаток моделирования временной динамики: в динамичной интерактивной среде вождения этот подход ограничивает способность модели к адаптивному принятию решений

Исследовательская мотивация

Авторы наблюдают две важные двусторонние зависимости:

Будущая динамика трафика влияет на планирование движения собственного транспортного средства
Планируемое поведение собственного транспортного средства, в свою очередь, формирует будущую сцену

На основе этого понимания авторы предлагают необходимость явного моделирования двусторонних взаимодействий между эволюцией сцены и будущим поведением транспортного средства.

Основные вклады

Предложение новой парадигмы: представлена новая парадигма сквозного вождения, которая явно захватывает двусторонние взаимодействия между динамикой сцены и будущим поведением собственного транспортного средства, бросая вызов традиционным методам однократного планирования
Проектирование унифицированной структуры: реализована структура SeerDrive, которая совместно моделирует будущее представление BEV сцены и траекторию транспортного средства посредством механизмов будущего восприятия и итеративного взаимодействия
Прорыв в производительности: достигнута передовая производительность на эталонных тестах NAVSIM и nuScenes, подтверждающая эффективность проектирования

Подробное описание метода

Определение задачи

Задача сквозного автономного вождения заключается в отображении входных данных датчиков (камеры и LiDAR) на будущую траекторию собственного транспортного средства, обычно используя многомодальный выход для захвата разнообразных возможных будущих сценариев. Модель мира при автономном вождении направлена на предсказание эволюции будущей сцены на основе текущих наблюдений.

Архитектура модели

1. Кодирование признаков

Учитывая многовидовые изображения I и признаки LiDAR P, кодировщик преобразует эти многомодальные входные данные датчиков в текущую карту признаков BEV $F^{curr}_{bev} \in \mathbb{R}^{H \times W \times C}$ :

F^curr_bev = TransFuser(I, P)
F^curr_ego = EgoEncoder(T, E)
B^curr = BEVDecoder(F^curr_bev)

где T — якорные многомодальные траектории, E — состояние собственного транспортного средства.

2. Моделирование будущего мира BEV

Модель мира BEV предсказывает будущее представление BEV, используя структурированное представление BEV вместо сложной генерации изображений:

F^fut_scene = BEVWorldModel(F^curr_scene)
B^fut = BEVDecoder(F^fut_bev)

3. Планирование сквозного типа с восприятием будущего

Сеть планирования совместно рассуждает о текущей сцене и будущей эволюции для генерации планируемой траектории. Используется стратегия развязки, где признаки собственного транспортного средства отдельно взаимодействуют с текущими и будущими признаками BEV:

F^curr_ego = TransformerDecoder(F^curr_ego, F^curr_bev)
F^fut_ego = TransformerDecoder(F^fut_ego, F^fut_bev)
Ta = EgoDecoder(F^curr_ego)
Tb = EgoDecoder(F^fut_ego)

Окончательное слияние осуществляется через нормализацию, чувствительную к движению (MLN):

F^curr_ego = MLN(F^curr_ego, F^fut_ego)
T^final = EgoDecoder(F^curr_ego)

4. Итеративное моделирование сцены и планирование транспортного средства

Сеть моделирования мира BEV и сеть сквозного планирования работают итеративно, постепенно улучшая производительность планирования. После N итераций получаются N пар предсказанных будущих семантических карт и траекторий собственного транспортного средства.

Технические инновации

Двусторонее моделирование: впервые явно моделирует двусторонние зависимости между эволюцией сцены и планированием траектории при сквозном вождении
Стратегия развязанного взаимодействия: избегает запутанности представлений, вызванной прямым взаимодействием текущих и будущих признаков BEV
Итеративная оптимизация: постепенно уточняет предсказание сцены и генерацию траектории посредством совместной оптимизации
Слияние, чувствительное к движению: эффективно объединяет текущее и будущее представления собственного транспортного средства с помощью MLN

Экспериментальная установка

Наборы данных

NAVSIM: построен на основе nuPlan, содержит 1 192 сцены обучения/валидации и 136 сцен тестирования, 8 камер + LiDAR, 2 Гц
nuScenes: 1 000 сцен, 6 камер + LiDAR, 2 Гц, используется стандартное разделение 700/150 для обучения/валидации

Метрики оценки

NAVSIM: оценка PDM (PDMS), включающая отсутствие безвинных столкновений (NC), соответствие проезжей части (DAC), время до столкновения (TTC), комфорт (Comf.), прогресс собственного транспортного средства (EP)
nuScenes: ошибка смещения L2 и коэффициент столкновений

Детали реализации

NAVSIM: магистраль ResNet34, 3 вида, разрешение 1024×256, 256 режимов траектории, диапазон планирования 4 секунды
nuScenes: магистраль ResNet50, 6 видов, разрешение 640×360, 6 режимов траектории, диапазон планирования 3 секунды
Обучение: 8 GPU RTX 3090, оптимизатор AdamW

Результаты экспериментов

Основные результаты

Сравнение производительности на наборе данных NAVSIM

Метод	NC ↑	DAC ↑	TTC ↑	Comf. ↑	EP ↑	PDMS ↑
DiffusionDrive	98.2	96.2	94.7	100	82.2	88.1
WoTE	98.5	96.8	94.9	99.9	81.9	88.3
Hydra-NeXt	98.1	97.7	94.6	100	81.8	88.6
SeerDrive	98.4	97.0	94.9	99.9	83.2	88.9

SeerDrive достигла наивысшей оценки PDMS 88.9 на NAVSIM, значительно превосходя существующие методы.

Сравнение производительности на наборе данных nuScenes

Метод	L2 (м) ↓	Коэф. столкн. (%) ↓
	1с/2с/3с/Сред.	1с/2с/3с/Сред.
SparseDrive	0.29/0.58/0.96/0.61	0.01/0.05/0.18/0.08
SeerDrive	0.20/0.39/0.69/0.43	0.00/0.05/0.14/0.06

На nuScenes SeerDrive достигла значительного улучшения как в ошибке смещения, так и в коэффициенте столкновений.

Абляционные исследования

Анализ основных компонентов

Планирование с восприятием будущего	Итер. С&В	PDMS ↑
		87.1
✓		87.9
	✓	88.1
✓	✓	88.9

Результаты показывают, что оба основных компонента вносят важный вклад в повышение производительности.

Анализ количества итераций

Количество итераций	PDMS ↑
1	88.1
2	88.9
3	88.7

2 итерации достигают оптимального баланса между эффективностью и производительностью.

Качественные результаты

В статье представлены визуализированные результаты сценариев правого и левого поворотов, демонстрирующие, что модель способна:

Точно предсказывать будущие семантические карты BEV
Генерировать планируемые траектории, высоко согласованные с реальными траекториями
Захватывать многомодальные возможные будущие движения

Связанные работы

Сквозное автономное вождение

Ранние методы: прямой вывод траектории или действий из данных датчиков
Унифицированные структуры: UniAD объединяет восприятие, предсказание и планирование; VAD использует векторизованное представление
Последние достижения: DiffusionDrive использует стратегию усечённой диффузии; DriveTransformer исследует законы масштабирования

Модели мира при автономном вождении

Методы генерации видео: DriveDreamer, Drive-WM и другие генерируют реалистичные видео
Моделирование BEV: SLEDGE, GUMP, Scenario Dreamer и другие моделируют в пространстве BEV
Совместное моделирование: OccWorld, Drive-OccWorld и другие совместно генерируют занятость и действия

Данная работа отличается от существующих методов, реализуя глубокое взаимодействие между моделированием мира и планированием.

Заключение и обсуждение

Основные выводы

Предложена новая парадигма двустороннего моделирования эволюции сцены и планирования траектории
Структура SeerDrive эффективно реализует сквозное вождение с восприятием будущего
Достигнута передовая производительность на двух эталонных наборах данных

Ограничения

Ограничения базовой модели: модель мира BEV использует специально разработанную архитектуру трансформатора, не используя способность к обобщению базовых моделей
Скорость вывода: использование готовых базовых моделей в качестве модели мира приводит к медленной скорости вывода и трудностям совместной оптимизации
Обработка сложных сценариев: в некоторых сложных сценариях остаются случаи отказа, такие как ошибки выбора полосы и неправильный вывод намерения вождения

Направления будущих исследований

Разработка парадигм с тесной интеграцией планирования и моделирования мира
Исследование применения базовых моделей при сквозном автономном вождении
Улучшение точности планирования путём включения высокоуровневых намерений вождения

Глубокая оценка

Преимущества

Высокая инновационность: впервые систематически моделирует двусторонние отношения между эволюцией сцены и планированием траектории, преодолевая традиционную однократную парадигму
Разумное техническое проектирование: стратегия развязанного взаимодействия, итеративная оптимизация и другие решения эффективно решают практические проблемы
Полные эксперименты: проведена комплексная оценка на нескольких наборах данных, абляционные исследования детальны
Значительное повышение производительности: достигнуто явное улучшение на сложных эталонах NAVSIM и nuScenes

Недостатки

Вычислительная сложность: итеративное моделирование увеличивает вычислительные затраты, требуя рассмотрения эффективности при практическом развёртывании
Способность к обобщению: специально разработанная архитектура может ограничить способность к обобщению в различных сценариях
Недостаточный анализ случаев отказа: анализ коренных причин отказа модели требует углубления

Влияние

Академический вклад: предоставляет новую исследовательскую парадигму и идеи для области сквозного автономного вождения
Практическая ценность: метод демонстрирует хорошую производительность в реальных сценариях вождения, имеет потенциал применения
Воспроизводимость: предоставляет подробные детали реализации и открытый исходный код, облегчая воспроизведение и последующие исследования

Применимые сценарии

Сложные городские среды вождения
Сценарии, требующие рассмотрения взаимодействия между несколькими агентами
Системы автономного вождения с высокими требованиями к точности планирования
Исследования автономного вождения с использованием сквозного обучения

Библиография

Статья цитирует 58 связанных работ, охватывающих важные исследования в ключевых областях сквозного автономного вождения, моделирования мира и совместного моделирования, обеспечивая прочную теоретическую основу для данного исследования.

Общая оценка: Это высококачественная исследовательская работа в области автономного вождения, которая предлагает инновационную парадигму двустороннего моделирования, разумно спроектированное техническое решение, полную экспериментальную оценку и значительное повышение производительности на важных эталонных тестах. Статья открывает новое направление исследований в области сквозного автономного вождения и имеет важное академическое значение и практическую ценность.