Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
Zhang, Song, Li et al.
End-to-end autonomous driving methods aim to directly map raw sensor inputs to future driving actions such as planned trajectories, bypassing traditional modular pipelines. While these approaches have shown promise, they often operate under a one-shot paradigm that relies heavily on the current scene context, potentially underestimating the importance of scene dynamics and their temporal evolution. This limitation restricts the model's ability to make informed and adaptive decisions in complex driving scenarios. We propose a new perspective: the future trajectory of an autonomous vehicle is closely intertwined with the evolving dynamics of its environment, and conversely, the vehicle's own future states can influence how the surrounding scene unfolds. Motivated by this bidirectional relationship, we introduce SeerDrive, a novel end-to-end framework that jointly models future scene evolution and trajectory planning in a closed-loop manner. Our method first predicts future bird's-eye view (BEV) representations to anticipate the dynamics of the surrounding scene, then leverages this foresight to generate future-context-aware trajectories. Two key components enable this: (1) future-aware planning, which injects predicted BEV features into the trajectory planner, and (2) iterative scene modeling and vehicle planning, which refines both future scene prediction and trajectory generation through collaborative optimization. Extensive experiments on the NAVSIM and nuScenes benchmarks show that SeerDrive significantly outperforms existing state-of-the-art methods.
academic
Будущее-ориентированное сквозное вождение: двусторонее моделирование планирования траектории и эволюции сцены
Методы сквозного автономного вождения направлены на прямое отображение необработанных входных данных датчиков на будущие действия вождения (например, планируемые траектории), обходя традиционные модульные конвейеры. Хотя эти методы показывают перспективность, они обычно работают в однократной парадигме, сильно зависят от текущего контекста сцены и могут недооценивать важность динамики сцены и её временной эволюции. Это ограничение сдерживает способность модели принимать обоснованные и адаптивные решения в сложных сценариях вождения. В данной работе предлагается новая точка зрения: будущая траектория автономного транспортного средства тесно связана с динамикой эволюции его окружения, и наоборот, будущее состояние самого транспортного средства может влиять на развёртывание окружающей сцены. На основе этого двустороннего отношения авторы представляют SeerDrive — новую сквозную структуру для совместного моделирования будущей эволюции сцены и планирования траектории в замкнутом цикле.
Существующие методы сквозного автономного вождения в основном используют "однократную парадигму" (one-shot paradigm), то есть прямое предсказание траектории на несколько секунд вперёд на основе наблюдений датчиков в текущий момент времени. Этот подход имеет следующие ключевые проблемы:
Предположение о статической сцене: чрезмерная зависимость от текущей ситуации сцены при выводе будущего движения собственного транспортного средства, игнорирование того, как сцена эволюционирует во времени
Однонаправленное моделирование: отсутствие учёта влияния будущего поведения собственного транспортного средства на развёртывание окружающей сцены
Недостаток моделирования временной динамики: в динамичной интерактивной среде вождения этот подход ограничивает способность модели к адаптивному принятию решений
Авторы наблюдают две важные двусторонние зависимости:
Будущая динамика трафика влияет на планирование движения собственного транспортного средства
Планируемое поведение собственного транспортного средства, в свою очередь, формирует будущую сцену
На основе этого понимания авторы предлагают необходимость явного моделирования двусторонних взаимодействий между эволюцией сцены и будущим поведением транспортного средства.
Предложение новой парадигмы: представлена новая парадигма сквозного вождения, которая явно захватывает двусторонние взаимодействия между динамикой сцены и будущим поведением собственного транспортного средства, бросая вызов традиционным методам однократного планирования
Проектирование унифицированной структуры: реализована структура SeerDrive, которая совместно моделирует будущее представление BEV сцены и траекторию транспортного средства посредством механизмов будущего восприятия и итеративного взаимодействия
Прорыв в производительности: достигнута передовая производительность на эталонных тестах NAVSIM и nuScenes, подтверждающая эффективность проектирования
Задача сквозного автономного вождения заключается в отображении входных данных датчиков (камеры и LiDAR) на будущую траекторию собственного транспортного средства, обычно используя многомодальный выход для захвата разнообразных возможных будущих сценариев. Модель мира при автономном вождении направлена на предсказание эволюции будущей сцены на основе текущих наблюдений.
Учитывая многовидовые изображения I и признаки LiDAR P, кодировщик преобразует эти многомодальные входные данные датчиков в текущую карту признаков BEV Fbevcurr∈RH×W×C:
Сеть планирования совместно рассуждает о текущей сцене и будущей эволюции для генерации планируемой траектории. Используется стратегия развязки, где признаки собственного транспортного средства отдельно взаимодействуют с текущими и будущими признаками BEV:
Сеть моделирования мира BEV и сеть сквозного планирования работают итеративно, постепенно улучшая производительность планирования. После N итераций получаются N пар предсказанных будущих семантических карт и траекторий собственного транспортного средства.
NAVSIM: оценка PDM (PDMS), включающая отсутствие безвинных столкновений (NC), соответствие проезжей части (DAC), время до столкновения (TTC), комфорт (Comf.), прогресс собственного транспортного средства (EP)
nuScenes: ошибка смещения L2 и коэффициент столкновений
Ограничения базовой модели: модель мира BEV использует специально разработанную архитектуру трансформатора, не используя способность к обобщению базовых моделей
Скорость вывода: использование готовых базовых моделей в качестве модели мира приводит к медленной скорости вывода и трудностям совместной оптимизации
Обработка сложных сценариев: в некоторых сложных сценариях остаются случаи отказа, такие как ошибки выбора полосы и неправильный вывод намерения вождения
Высокая инновационность: впервые систематически моделирует двусторонние отношения между эволюцией сцены и планированием траектории, преодолевая традиционную однократную парадигму
Разумное техническое проектирование: стратегия развязанного взаимодействия, итеративная оптимизация и другие решения эффективно решают практические проблемы
Полные эксперименты: проведена комплексная оценка на нескольких наборах данных, абляционные исследования детальны
Значительное повышение производительности: достигнуто явное улучшение на сложных эталонах NAVSIM и nuScenes
Статья цитирует 58 связанных работ, охватывающих важные исследования в ключевых областях сквозного автономного вождения, моделирования мира и совместного моделирования, обеспечивая прочную теоретическую основу для данного исследования.
Общая оценка: Это высококачественная исследовательская работа в области автономного вождения, которая предлагает инновационную парадигму двустороннего моделирования, разумно спроектированное техническое решение, полную экспериментальную оценку и значительное повышение производительности на важных эталонных тестах. Статья открывает новое направление исследований в области сквозного автономного вождения и имеет важное академическое значение и практическую ценность.