2025-11-17T20:34:11.907682

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

Kim, Nair, Borrelli

We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet

academic

Масштабируемое многомодальное управление с предсказательной моделью посредством предсказания взаимодействий на основе двойственности

Основная информация

ID статьи: 2402.01116
Название: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
Авторы: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
Классификация: cs.RO cs.LG cs.SY eess.SY
Дата публикации/конференция: препринт arXiv (подано в феврале 2024 г., последнее обновление в марте 2025 г.)
Ссылка на статью: https://arxiv.org/abs/2402.01116

Аннотация

В данной работе предложена иерархическая архитектура для реализации масштабируемого управления с предсказательной моделью (MPC) в реальном времени в сложных многомодальных сценариях дорожного движения. Архитектура содержит два ключевых компонента: 1) RAID-Net — рекуррентная нейронная сеть на основе механизма внимания, использующая лагранжеву двойственность для предсказания релевантных взаимодействий между автономным транспортным средством и окружающими автомобилями в пределах горизонта предсказания MPC; 2) упрощённую задачу стохастического MPC путём исключения нерелевантных ограничений избежания столкновений для повышения вычислительной эффективности. Метод был проверен в смоделированной среде дорожного перекрёстка и достиг 12-кратного ускорения решения задачи планирования движения.

Исследовательский контекст и мотивация

Основная проблема

В сложных сценариях городского вождения автономные транспортные средства должны безопасно ориентироваться в высокой степени неопределённости окружающей среды, одновременно наблюдая и реагируя на поведение гетерогенных участников дорожного движения (водители-люди и автономные транспортные средства). Эти участники дорожного движения обладают многомодальными характеристиками предсказания, что создаёт значительные трудности при учёте этих факторов в планировании движения.

Значимость проблемы

Существующие методы планирования движения сталкиваются с двойной проблемой масштабируемости и работы в реальном времени:

Иерархические методы предсказания и планирования: хотя и способны обрабатывать многомодальные предсказания, им не хватает масштабируемости в реальном времени в сложных сценариях
Интегрированные методы планирования на основе моделей: теоретико-игровые подходы имеют чрезмерно высокую вычислительную сложность в многотранспортных сценариях
Методы сквозного обучения: хотя и масштабируемы, им не хватает интерпретируемости и гарантий безопасности

Ограничения существующих методов

Количество ограничений в традиционных методах MPC растёт экспоненциально с количеством транспортных средств и модальностей (O(NM^V))
В сложных сценариях дорожного движения большинство ограничений избежания столкновений фактически неактивны
Отсутствует эффективный механизм фильтрации ограничений для выявления действительно релевантных взаимодействий между транспортными средствами

Основные вклады

Предложена архитектура RAID-Net: рекуррентная нейронная сеть на основе механизма внимания, способная предсказывать релевантные взаимодействия между автономным транспортным средством и окружающими транспортными средствами в пределах горизонта предсказания MPC
Установлена теория предсказания взаимодействий на основе двойственности: использование лагранжевой двойственности и анализа чувствительности для выявления активных ограничений
Разработана иерархическая структура MPC: значительное снижение вычислительной сложности посредством фильтрации ограничений, достижение 12-кратного ускорения решения
Построена среда моделирования дорожного перекрёстка: для обучения и оценки предложенного алгоритма

Подробное описание методики

Определение задачи

Входные данные: текущее наблюдение окружающей среды $ob_t$ , включающее состояние собственного транспортного средства, состояние окружающих транспортных средств и семантическую информацию Выходные данные: управляющее воздействие $u_t$ , позволяющее собственному транспортному средству безопасно достичь целевого местоположения Ограничения: ограничения состояния-входа и многомодальные ограничения избежания столкновений

Архитектура модели

1. Моделирование задачи стохастического MPC

Рассмотрим V целевых транспортных средств, каждое с M модальностями, всего M^V конфигураций сценариев. Задача оптимизации:

$\min_{\theta_t} \sum_{m=1}^{M^V} \mathbb{E}\left[\sum_{k=t}^{t+N-1} \|Q(x_{k+1|t,m}-x^{ref}_k)\|_2^2 + \|R(u_{k|t,m}-u^{ref}_k)\|_2^2\right]$

При ограничениях:

Ограничения системной динамики
Ограничения состояния-входа: $P((x_{k|t,m}, u_{k|t,m}) \notin XU_k) \leq \epsilon$
Ограничения избежания столкновений: $P((x_{k|t,m}, o^i_{k|t,\bar{j}(i,m)}) \notin CA^i_{k|t,\bar{j}(i,m)}) \leq \epsilon$

2. Анализ теории двойственности

Преобразование задачи MPC в коническое программирование второго порядка (SOCP): $\min_{\theta_t} \frac{1}{2}\|Q_t\theta_t\|_2^2 + C_t^T\theta_t \quad \text{s.t.} \quad A_t\theta_t + R_t \in K$

Соответствующая двойственная задача: $\min_{\mu_t,\eta_t} [\mu_t^T \eta_t^T]R_t + \frac{1}{2}\|Q_t^{-1}(A_t^T[\mu_t^T \eta_t^T]^T - C_t)\|_2^2$

Через условия KKT, если $[\mu_t^*]_s = 0$ , соответствующее ограничение может быть исключено.

3. Проектирование архитектуры RAID-Net

Кодирование входных данных:

Использование кодирования графа с центром на собственном транспортном средстве на основе времени до столкновения (TTC)
Кодировщик трансформатора генерирует вектор признаков представления сценария $f_i \in \mathbb{R}^{d_{em}}$

Структура сети:

Последовательность N декодеров с общими параметрами
Многоголовый механизм внимания для захвата различных типов взаимодействий между транспортными средствами
Управляемый рекуррентный блок (GRU) для обработки временных зависимостей
Слой MLP для изучения сложных взаимодействий

Выходные данные: предсказание двоичной классификации двойственных переменных $\tilde{\mu}_t \in \{0,1\}^{n_c}$

Технические инновации

Фильтрация ограничений, направляемая двойственностью: первое применение теории лагранжевой двойственности к фильтрации ограничений MPC
Моделирование взаимодействий с использованием механизма внимания: захват сложных паттернов взаимодействия между транспортными средствами посредством многоголового внимания
Независимость временного горизонта рекуррентной архитектуры: достижение независимости от длины горизонта предсказания посредством совместного использования параметров
Гарантии безопасности анализа чувствительности: количественная оценка влияния нарушения ограничений на стоимость посредством теории теневых цен

Экспериментальная установка

Набор данных

Среда моделирования: пользовательская среда нерегулируемого дорожного перекрёстка
Конфигурация транспортных средств: 1 собственное транспортное средство + 1-3 целевых транспортных средства
Установка модальностей: всего 16 конфигураций модальностей, приводящих к 624 ограничениям избежания столкновений
Масштаб данных: 120 315 точек данных, 85% обучающий набор, 15% тестовый набор

Метрики оценки

Допустимость: процент допустимых решений задачи MPC
Коэффициент столкновений: процент временных шагов со столкновениями с целевыми транспортными средствами
Доля ограничений: процент среднего принудительно применяемого ограничения
Время решения: среднее время решения задачи MPC
Время выполнения задачи: нормализованное время достижения целевого местоположения

Методы сравнения

Full MPC: полная задача MPC со всеми ограничениями
MLP baseline: метод сравнения с использованием многослойного персептрона

Детали реализации

Горизонт предсказания: N = 14, время дискретизации Δt = 0,2 с
Параметры сети: скорость обучения 0,001, размер пакета 1024, 3000 эпох обучения
Веса потерь: wp = 4 (смещение в сторону предсказания положительного класса для повышения безопасности)
Решатель: использование Gurobi для решения задачи SOCP

Результаты экспериментов

Основные результаты

Метрика производительности	Full MPC	HMPC
Допустимость (%)	98,97	99,79
Коэффициент столкновений (%)	0	4,0
Средняя доля применяемых ограничений (%)	100	17,45
Среднее время решения (с)	0,92 ± 0,18	0,063 ± 0,073
Время запроса RAID-Net (с)	—	0,013 ± 0,003
Общее время вычисления (с)	0,92 ± 0,18	0,076 ± 0,076
Нормализованное время выполнения задачи	1	0,91

Ключевые выводы

12-кратное ускорение: алгоритм HMPC достиг 12-кратного ускорения времени решения
Высокий коэффициент полноты: RAID-Net достиг 94% коэффициента полноты на тестовом наборе, правильно предсказав 98,1% двойственных переменных взаимодействия
Консервативное предсказание: доля применяемых ограничений 17,45% по сравнению с фактической долей активных ограничений 1,52% отражает ориентированную на безопасность консервативную стратегию
Незначительные издержки безопасности: коэффициент столкновений 4% в основном вызван ошибочной классификацией отрицательного класса

Абляционные исследования

RAID-Net показал лучшую производительность по сравнению со стандартной сетью MLP в распределении потерь, что подтверждает эффективность механизма внимания и рекуррентной структуры.

Связанные работы

Основные направления исследований

Иерархическое предсказание и планирование: методы, такие как Trajectron++, сосредоточены на сложных моделях предсказания
Интегрированные методы на основе моделей: теоретико-игровые и совместные методы оптимизации
Методы сквозного обучения: такие как Social Attention и другие методы глубокого обучения

Преимущества данной работы

По сравнению с существующими методами, данная работа достигает значительного повышения вычислительной эффективности при сохранении безопасности и обеспечивает интерпретируемый механизм предсказания взаимодействий.

Заключение и обсуждение

Основные выводы

Предложена первая структура фильтрации ограничений MPC на основе теории двойственности
RAID-Net эффективно предсказывает взаимодействия между транспортными средствами и обеспечивает требуемую производительность в реальном времени
В сложных сценариях дорожного движения достигнуто 12-кратное ускорение вычисления

Ограничения

Недостаточные гарантии безопасности: отсутствуют теоретические гарантии безопасности для отфильтрованных ограничений
Переопределённость стратегии: обратная связь в MPC может быть переопределённой
Ограниченная способность к обобщению: способность RAID-Net к обобщению на различные топологии перекрёстков требует дальнейшей проверки
Риск столкновений: коэффициент столкновений 4% требует дальнейшего улучшения

Направления будущих исследований

Использование алгоритма DAgger для решения проблемы смещения распределения при поведенческом клонировании
Тестирование способности RAID-Net к обобщению на реальных наборах данных дорожного движения
Применение предсказания взаимодействий на основе двойственности к многотранспортному координированному планированию пути
Обеспечение более строгих теоретических гарантий безопасности

Глубокая оценка

Преимущества

Теоретическая инновация: инновационное применение теории лагранжевой двойственности к фильтрации ограничений MPC
Практическая ценность: значительное ускорение вычисления делает возможным управление MPC в реальном времени в сложных сценариях
Разумное проектирование архитектуры: механизм внимания и рекуррентная структура RAID-Net хорошо спроектированы
Полная экспериментальная оценка: комплексная оценка производительности в среде моделирования

Недостатки

Компромисс в безопасности: коэффициент столкновений 4% может быть неприемлем для критичных по безопасности приложений
Ограничения моделирования: проверка только в упрощённых сценариях дорожного перекрёстка, отсутствие тестирования в сложной городской среде
Недостаточный теоретический анализ: требуется усиление теоретического анализа и границ ошибок фильтрации ограничений
Отсутствие верификации на реальных транспортных средствах: нет верификации на реальных платформах транспортных средств

Влияние

Данная работа предоставляет новый подход к решению проблемы управления MPC в реальном времени в автономном вождении, и применение теории двойственности может вдохновить более эффективные методы решения других задач оптимизации.

Применимые сценарии

Принятие решений при автономном вождении на городских дорожных перекрёстках
Координированное управление многороботными системами
Другие многоагентные системы, требующие оптимизации в реальном времени

Список литературы

В статье цитируются ключевые работы из нескольких важных областей, включая:

Trajectron++: предсказание динамически допустимых траекторий
Основы теории стохастического MPC
Архитектуры механизма внимания и трансформаторов
Выпуклую оптимизацию и теорию двойственности

Данная статья вносит значительный вклад как в теоретические инновации, так и в практическую ценность, предоставляя эффективное решение для проблемы управления MPC в реальном времени в автономном вождении, однако требует дальнейшего совершенствования в отношении гарантий безопасности и практического развёртывания.