We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
- ID статьи: 2402.01116
- Название: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
- Авторы: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
- Классификация: cs.RO cs.LG cs.SY eess.SY
- Дата публикации/конференция: препринт arXiv (подано в феврале 2024 г., последнее обновление в марте 2025 г.)
- Ссылка на статью: https://arxiv.org/abs/2402.01116
В данной работе предложена иерархическая архитектура для реализации масштабируемого управления с предсказательной моделью (MPC) в реальном времени в сложных многомодальных сценариях дорожного движения. Архитектура содержит два ключевых компонента: 1) RAID-Net — рекуррентная нейронная сеть на основе механизма внимания, использующая лагранжеву двойственность для предсказания релевантных взаимодействий между автономным транспортным средством и окружающими автомобилями в пределах горизонта предсказания MPC; 2) упрощённую задачу стохастического MPC путём исключения нерелевантных ограничений избежания столкновений для повышения вычислительной эффективности. Метод был проверен в смоделированной среде дорожного перекрёстка и достиг 12-кратного ускорения решения задачи планирования движения.
В сложных сценариях городского вождения автономные транспортные средства должны безопасно ориентироваться в высокой степени неопределённости окружающей среды, одновременно наблюдая и реагируя на поведение гетерогенных участников дорожного движения (водители-люди и автономные транспортные средства). Эти участники дорожного движения обладают многомодальными характеристиками предсказания, что создаёт значительные трудности при учёте этих факторов в планировании движения.
Существующие методы планирования движения сталкиваются с двойной проблемой масштабируемости и работы в реальном времени:
- Иерархические методы предсказания и планирования: хотя и способны обрабатывать многомодальные предсказания, им не хватает масштабируемости в реальном времени в сложных сценариях
- Интегрированные методы планирования на основе моделей: теоретико-игровые подходы имеют чрезмерно высокую вычислительную сложность в многотранспортных сценариях
- Методы сквозного обучения: хотя и масштабируемы, им не хватает интерпретируемости и гарантий безопасности
- Количество ограничений в традиционных методах MPC растёт экспоненциально с количеством транспортных средств и модальностей (O(NM^V))
- В сложных сценариях дорожного движения большинство ограничений избежания столкновений фактически неактивны
- Отсутствует эффективный механизм фильтрации ограничений для выявления действительно релевантных взаимодействий между транспортными средствами
- Предложена архитектура RAID-Net: рекуррентная нейронная сеть на основе механизма внимания, способная предсказывать релевантные взаимодействия между автономным транспортным средством и окружающими транспортными средствами в пределах горизонта предсказания MPC
- Установлена теория предсказания взаимодействий на основе двойственности: использование лагранжевой двойственности и анализа чувствительности для выявления активных ограничений
- Разработана иерархическая структура MPC: значительное снижение вычислительной сложности посредством фильтрации ограничений, достижение 12-кратного ускорения решения
- Построена среда моделирования дорожного перекрёстка: для обучения и оценки предложенного алгоритма
Входные данные: текущее наблюдение окружающей среды obt, включающее состояние собственного транспортного средства, состояние окружающих транспортных средств и семантическую информацию
Выходные данные: управляющее воздействие ut, позволяющее собственному транспортному средству безопасно достичь целевого местоположения
Ограничения: ограничения состояния-входа и многомодальные ограничения избежания столкновений
Рассмотрим V целевых транспортных средств, каждое с M модальностями, всего M^V конфигураций сценариев. Задача оптимизации:
minθt∑m=1MVE[∑k=tt+N−1∥Q(xk+1∣t,m−xkref)∥22+∥R(uk∣t,m−ukref)∥22]
При ограничениях:
- Ограничения системной динамики
- Ограничения состояния-входа: P((xk∣t,m,uk∣t,m)∈/XUk)≤ϵ
- Ограничения избежания столкновений: P((xk∣t,m,ok∣t,jˉ(i,m)i)∈/CAk∣t,jˉ(i,m)i)≤ϵ
Преобразование задачи MPC в коническое программирование второго порядка (SOCP):
minθt21∥Qtθt∥22+CtTθts.t.Atθt+Rt∈K
Соответствующая двойственная задача:
minμt,ηt[μtTηtT]Rt+21∥Qt−1(AtT[μtTηtT]T−Ct)∥22
Через условия KKT, если [μt∗]s=0, соответствующее ограничение может быть исключено.
Кодирование входных данных:
- Использование кодирования графа с центром на собственном транспортном средстве на основе времени до столкновения (TTC)
- Кодировщик трансформатора генерирует вектор признаков представления сценария fi∈Rdem
Структура сети:
- Последовательность N декодеров с общими параметрами
- Многоголовый механизм внимания для захвата различных типов взаимодействий между транспортными средствами
- Управляемый рекуррентный блок (GRU) для обработки временных зависимостей
- Слой MLP для изучения сложных взаимодействий
Выходные данные: предсказание двоичной классификации двойственных переменных μ~t∈{0,1}nc
- Фильтрация ограничений, направляемая двойственностью: первое применение теории лагранжевой двойственности к фильтрации ограничений MPC
- Моделирование взаимодействий с использованием механизма внимания: захват сложных паттернов взаимодействия между транспортными средствами посредством многоголового внимания
- Независимость временного горизонта рекуррентной архитектуры: достижение независимости от длины горизонта предсказания посредством совместного использования параметров
- Гарантии безопасности анализа чувствительности: количественная оценка влияния нарушения ограничений на стоимость посредством теории теневых цен
- Среда моделирования: пользовательская среда нерегулируемого дорожного перекрёстка
- Конфигурация транспортных средств: 1 собственное транспортное средство + 1-3 целевых транспортных средства
- Установка модальностей: всего 16 конфигураций модальностей, приводящих к 624 ограничениям избежания столкновений
- Масштаб данных: 120 315 точек данных, 85% обучающий набор, 15% тестовый набор
- Допустимость: процент допустимых решений задачи MPC
- Коэффициент столкновений: процент временных шагов со столкновениями с целевыми транспортными средствами
- Доля ограничений: процент среднего принудительно применяемого ограничения
- Время решения: среднее время решения задачи MPC
- Время выполнения задачи: нормализованное время достижения целевого местоположения
- Full MPC: полная задача MPC со всеми ограничениями
- MLP baseline: метод сравнения с использованием многослойного персептрона
- Горизонт предсказания: N = 14, время дискретизации Δt = 0,2 с
- Параметры сети: скорость обучения 0,001, размер пакета 1024, 3000 эпох обучения
- Веса потерь: wp = 4 (смещение в сторону предсказания положительного класса для повышения безопасности)
- Решатель: использование Gurobi для решения задачи SOCP
| Метрика производительности | Full MPC | HMPC |
|---|
| Допустимость (%) | 98,97 | 99,79 |
| Коэффициент столкновений (%) | 0 | 4,0 |
| Средняя доля применяемых ограничений (%) | 100 | 17,45 |
| Среднее время решения (с) | 0,92 ± 0,18 | 0,063 ± 0,073 |
| Время запроса RAID-Net (с) | — | 0,013 ± 0,003 |
| Общее время вычисления (с) | 0,92 ± 0,18 | 0,076 ± 0,076 |
| Нормализованное время выполнения задачи | 1 | 0,91 |
- 12-кратное ускорение: алгоритм HMPC достиг 12-кратного ускорения времени решения
- Высокий коэффициент полноты: RAID-Net достиг 94% коэффициента полноты на тестовом наборе, правильно предсказав 98,1% двойственных переменных взаимодействия
- Консервативное предсказание: доля применяемых ограничений 17,45% по сравнению с фактической долей активных ограничений 1,52% отражает ориентированную на безопасность консервативную стратегию
- Незначительные издержки безопасности: коэффициент столкновений 4% в основном вызван ошибочной классификацией отрицательного класса
RAID-Net показал лучшую производительность по сравнению со стандартной сетью MLP в распределении потерь, что подтверждает эффективность механизма внимания и рекуррентной структуры.
- Иерархическое предсказание и планирование: методы, такие как Trajectron++, сосредоточены на сложных моделях предсказания
- Интегрированные методы на основе моделей: теоретико-игровые и совместные методы оптимизации
- Методы сквозного обучения: такие как Social Attention и другие методы глубокого обучения
По сравнению с существующими методами, данная работа достигает значительного повышения вычислительной эффективности при сохранении безопасности и обеспечивает интерпретируемый механизм предсказания взаимодействий.
- Предложена первая структура фильтрации ограничений MPC на основе теории двойственности
- RAID-Net эффективно предсказывает взаимодействия между транспортными средствами и обеспечивает требуемую производительность в реальном времени
- В сложных сценариях дорожного движения достигнуто 12-кратное ускорение вычисления
- Недостаточные гарантии безопасности: отсутствуют теоретические гарантии безопасности для отфильтрованных ограничений
- Переопределённость стратегии: обратная связь в MPC может быть переопределённой
- Ограниченная способность к обобщению: способность RAID-Net к обобщению на различные топологии перекрёстков требует дальнейшей проверки
- Риск столкновений: коэффициент столкновений 4% требует дальнейшего улучшения
- Использование алгоритма DAgger для решения проблемы смещения распределения при поведенческом клонировании
- Тестирование способности RAID-Net к обобщению на реальных наборах данных дорожного движения
- Применение предсказания взаимодействий на основе двойственности к многотранспортному координированному планированию пути
- Обеспечение более строгих теоретических гарантий безопасности
- Теоретическая инновация: инновационное применение теории лагранжевой двойственности к фильтрации ограничений MPC
- Практическая ценность: значительное ускорение вычисления делает возможным управление MPC в реальном времени в сложных сценариях
- Разумное проектирование архитектуры: механизм внимания и рекуррентная структура RAID-Net хорошо спроектированы
- Полная экспериментальная оценка: комплексная оценка производительности в среде моделирования
- Компромисс в безопасности: коэффициент столкновений 4% может быть неприемлем для критичных по безопасности приложений
- Ограничения моделирования: проверка только в упрощённых сценариях дорожного перекрёстка, отсутствие тестирования в сложной городской среде
- Недостаточный теоретический анализ: требуется усиление теоретического анализа и границ ошибок фильтрации ограничений
- Отсутствие верификации на реальных транспортных средствах: нет верификации на реальных платформах транспортных средств
Данная работа предоставляет новый подход к решению проблемы управления MPC в реальном времени в автономном вождении, и применение теории двойственности может вдохновить более эффективные методы решения других задач оптимизации.
- Принятие решений при автономном вождении на городских дорожных перекрёстках
- Координированное управление многороботными системами
- Другие многоагентные системы, требующие оптимизации в реальном времени
В статье цитируются ключевые работы из нескольких важных областей, включая:
- Trajectron++: предсказание динамически допустимых траекторий
- Основы теории стохастического MPC
- Архитектуры механизма внимания и трансформаторов
- Выпуклую оптимизацию и теорию двойственности
Данная статья вносит значительный вклад как в теоретические инновации, так и в практическую ценность, предоставляя эффективное решение для проблемы управления MPC в реальном времени в автономном вождении, однако требует дальнейшего совершенствования в отношении гарантий безопасности и практического развёртывания.