2025-11-17T20:34:11.907682

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

Kim, Nair, Borrelli
We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
academic

Масштабируемое многомодальное управление с предсказательной моделью посредством предсказания взаимодействий на основе двойственности

Основная информация

  • ID статьи: 2402.01116
  • Название: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
  • Авторы: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
  • Классификация: cs.RO cs.LG cs.SY eess.SY
  • Дата публикации/конференция: препринт arXiv (подано в феврале 2024 г., последнее обновление в марте 2025 г.)
  • Ссылка на статью: https://arxiv.org/abs/2402.01116

Аннотация

В данной работе предложена иерархическая архитектура для реализации масштабируемого управления с предсказательной моделью (MPC) в реальном времени в сложных многомодальных сценариях дорожного движения. Архитектура содержит два ключевых компонента: 1) RAID-Net — рекуррентная нейронная сеть на основе механизма внимания, использующая лагранжеву двойственность для предсказания релевантных взаимодействий между автономным транспортным средством и окружающими автомобилями в пределах горизонта предсказания MPC; 2) упрощённую задачу стохастического MPC путём исключения нерелевантных ограничений избежания столкновений для повышения вычислительной эффективности. Метод был проверен в смоделированной среде дорожного перекрёстка и достиг 12-кратного ускорения решения задачи планирования движения.

Исследовательский контекст и мотивация

Основная проблема

В сложных сценариях городского вождения автономные транспортные средства должны безопасно ориентироваться в высокой степени неопределённости окружающей среды, одновременно наблюдая и реагируя на поведение гетерогенных участников дорожного движения (водители-люди и автономные транспортные средства). Эти участники дорожного движения обладают многомодальными характеристиками предсказания, что создаёт значительные трудности при учёте этих факторов в планировании движения.

Значимость проблемы

Существующие методы планирования движения сталкиваются с двойной проблемой масштабируемости и работы в реальном времени:

  1. Иерархические методы предсказания и планирования: хотя и способны обрабатывать многомодальные предсказания, им не хватает масштабируемости в реальном времени в сложных сценариях
  2. Интегрированные методы планирования на основе моделей: теоретико-игровые подходы имеют чрезмерно высокую вычислительную сложность в многотранспортных сценариях
  3. Методы сквозного обучения: хотя и масштабируемы, им не хватает интерпретируемости и гарантий безопасности

Ограничения существующих методов

  • Количество ограничений в традиционных методах MPC растёт экспоненциально с количеством транспортных средств и модальностей (O(NM^V))
  • В сложных сценариях дорожного движения большинство ограничений избежания столкновений фактически неактивны
  • Отсутствует эффективный механизм фильтрации ограничений для выявления действительно релевантных взаимодействий между транспортными средствами

Основные вклады

  1. Предложена архитектура RAID-Net: рекуррентная нейронная сеть на основе механизма внимания, способная предсказывать релевантные взаимодействия между автономным транспортным средством и окружающими транспортными средствами в пределах горизонта предсказания MPC
  2. Установлена теория предсказания взаимодействий на основе двойственности: использование лагранжевой двойственности и анализа чувствительности для выявления активных ограничений
  3. Разработана иерархическая структура MPC: значительное снижение вычислительной сложности посредством фильтрации ограничений, достижение 12-кратного ускорения решения
  4. Построена среда моделирования дорожного перекрёстка: для обучения и оценки предложенного алгоритма

Подробное описание методики

Определение задачи

Входные данные: текущее наблюдение окружающей среды obtob_t, включающее состояние собственного транспортного средства, состояние окружающих транспортных средств и семантическую информацию Выходные данные: управляющее воздействие utu_t, позволяющее собственному транспортному средству безопасно достичь целевого местоположения Ограничения: ограничения состояния-входа и многомодальные ограничения избежания столкновений

Архитектура модели

1. Моделирование задачи стохастического MPC

Рассмотрим V целевых транспортных средств, каждое с M модальностями, всего M^V конфигураций сценариев. Задача оптимизации:

minθtm=1MVE[k=tt+N1Q(xk+1t,mxkref)22+R(ukt,mukref)22]\min_{\theta_t} \sum_{m=1}^{M^V} \mathbb{E}\left[\sum_{k=t}^{t+N-1} \|Q(x_{k+1|t,m}-x^{ref}_k)\|_2^2 + \|R(u_{k|t,m}-u^{ref}_k)\|_2^2\right]

При ограничениях:

  • Ограничения системной динамики
  • Ограничения состояния-входа: P((xkt,m,ukt,m)XUk)ϵP((x_{k|t,m}, u_{k|t,m}) \notin XU_k) \leq \epsilon
  • Ограничения избежания столкновений: P((xkt,m,okt,jˉ(i,m)i)CAkt,jˉ(i,m)i)ϵP((x_{k|t,m}, o^i_{k|t,\bar{j}(i,m)}) \notin CA^i_{k|t,\bar{j}(i,m)}) \leq \epsilon

2. Анализ теории двойственности

Преобразование задачи MPC в коническое программирование второго порядка (SOCP): minθt12Qtθt22+CtTθts.t.Atθt+RtK\min_{\theta_t} \frac{1}{2}\|Q_t\theta_t\|_2^2 + C_t^T\theta_t \quad \text{s.t.} \quad A_t\theta_t + R_t \in K

Соответствующая двойственная задача: minμt,ηt[μtTηtT]Rt+12Qt1(AtT[μtTηtT]TCt)22\min_{\mu_t,\eta_t} [\mu_t^T \eta_t^T]R_t + \frac{1}{2}\|Q_t^{-1}(A_t^T[\mu_t^T \eta_t^T]^T - C_t)\|_2^2

Через условия KKT, если [μt]s=0[\mu_t^*]_s = 0, соответствующее ограничение может быть исключено.

3. Проектирование архитектуры RAID-Net

Кодирование входных данных:

  • Использование кодирования графа с центром на собственном транспортном средстве на основе времени до столкновения (TTC)
  • Кодировщик трансформатора генерирует вектор признаков представления сценария fiRdemf_i \in \mathbb{R}^{d_{em}}

Структура сети:

  • Последовательность N декодеров с общими параметрами
  • Многоголовый механизм внимания для захвата различных типов взаимодействий между транспортными средствами
  • Управляемый рекуррентный блок (GRU) для обработки временных зависимостей
  • Слой MLP для изучения сложных взаимодействий

Выходные данные: предсказание двоичной классификации двойственных переменных μ~t{0,1}nc\tilde{\mu}_t \in \{0,1\}^{n_c}

Технические инновации

  1. Фильтрация ограничений, направляемая двойственностью: первое применение теории лагранжевой двойственности к фильтрации ограничений MPC
  2. Моделирование взаимодействий с использованием механизма внимания: захват сложных паттернов взаимодействия между транспортными средствами посредством многоголового внимания
  3. Независимость временного горизонта рекуррентной архитектуры: достижение независимости от длины горизонта предсказания посредством совместного использования параметров
  4. Гарантии безопасности анализа чувствительности: количественная оценка влияния нарушения ограничений на стоимость посредством теории теневых цен

Экспериментальная установка

Набор данных

  • Среда моделирования: пользовательская среда нерегулируемого дорожного перекрёстка
  • Конфигурация транспортных средств: 1 собственное транспортное средство + 1-3 целевых транспортных средства
  • Установка модальностей: всего 16 конфигураций модальностей, приводящих к 624 ограничениям избежания столкновений
  • Масштаб данных: 120 315 точек данных, 85% обучающий набор, 15% тестовый набор

Метрики оценки

  • Допустимость: процент допустимых решений задачи MPC
  • Коэффициент столкновений: процент временных шагов со столкновениями с целевыми транспортными средствами
  • Доля ограничений: процент среднего принудительно применяемого ограничения
  • Время решения: среднее время решения задачи MPC
  • Время выполнения задачи: нормализованное время достижения целевого местоположения

Методы сравнения

  • Full MPC: полная задача MPC со всеми ограничениями
  • MLP baseline: метод сравнения с использованием многослойного персептрона

Детали реализации

  • Горизонт предсказания: N = 14, время дискретизации Δt = 0,2 с
  • Параметры сети: скорость обучения 0,001, размер пакета 1024, 3000 эпох обучения
  • Веса потерь: wp = 4 (смещение в сторону предсказания положительного класса для повышения безопасности)
  • Решатель: использование Gurobi для решения задачи SOCP

Результаты экспериментов

Основные результаты

Метрика производительностиFull MPCHMPC
Допустимость (%)98,9799,79
Коэффициент столкновений (%)04,0
Средняя доля применяемых ограничений (%)10017,45
Среднее время решения (с)0,92 ± 0,180,063 ± 0,073
Время запроса RAID-Net (с)0,013 ± 0,003
Общее время вычисления (с)0,92 ± 0,180,076 ± 0,076
Нормализованное время выполнения задачи10,91

Ключевые выводы

  1. 12-кратное ускорение: алгоритм HMPC достиг 12-кратного ускорения времени решения
  2. Высокий коэффициент полноты: RAID-Net достиг 94% коэффициента полноты на тестовом наборе, правильно предсказав 98,1% двойственных переменных взаимодействия
  3. Консервативное предсказание: доля применяемых ограничений 17,45% по сравнению с фактической долей активных ограничений 1,52% отражает ориентированную на безопасность консервативную стратегию
  4. Незначительные издержки безопасности: коэффициент столкновений 4% в основном вызван ошибочной классификацией отрицательного класса

Абляционные исследования

RAID-Net показал лучшую производительность по сравнению со стандартной сетью MLP в распределении потерь, что подтверждает эффективность механизма внимания и рекуррентной структуры.

Связанные работы

Основные направления исследований

  1. Иерархическое предсказание и планирование: методы, такие как Trajectron++, сосредоточены на сложных моделях предсказания
  2. Интегрированные методы на основе моделей: теоретико-игровые и совместные методы оптимизации
  3. Методы сквозного обучения: такие как Social Attention и другие методы глубокого обучения

Преимущества данной работы

По сравнению с существующими методами, данная работа достигает значительного повышения вычислительной эффективности при сохранении безопасности и обеспечивает интерпретируемый механизм предсказания взаимодействий.

Заключение и обсуждение

Основные выводы

  1. Предложена первая структура фильтрации ограничений MPC на основе теории двойственности
  2. RAID-Net эффективно предсказывает взаимодействия между транспортными средствами и обеспечивает требуемую производительность в реальном времени
  3. В сложных сценариях дорожного движения достигнуто 12-кратное ускорение вычисления

Ограничения

  1. Недостаточные гарантии безопасности: отсутствуют теоретические гарантии безопасности для отфильтрованных ограничений
  2. Переопределённость стратегии: обратная связь в MPC может быть переопределённой
  3. Ограниченная способность к обобщению: способность RAID-Net к обобщению на различные топологии перекрёстков требует дальнейшей проверки
  4. Риск столкновений: коэффициент столкновений 4% требует дальнейшего улучшения

Направления будущих исследований

  1. Использование алгоритма DAgger для решения проблемы смещения распределения при поведенческом клонировании
  2. Тестирование способности RAID-Net к обобщению на реальных наборах данных дорожного движения
  3. Применение предсказания взаимодействий на основе двойственности к многотранспортному координированному планированию пути
  4. Обеспечение более строгих теоретических гарантий безопасности

Глубокая оценка

Преимущества

  1. Теоретическая инновация: инновационное применение теории лагранжевой двойственности к фильтрации ограничений MPC
  2. Практическая ценность: значительное ускорение вычисления делает возможным управление MPC в реальном времени в сложных сценариях
  3. Разумное проектирование архитектуры: механизм внимания и рекуррентная структура RAID-Net хорошо спроектированы
  4. Полная экспериментальная оценка: комплексная оценка производительности в среде моделирования

Недостатки

  1. Компромисс в безопасности: коэффициент столкновений 4% может быть неприемлем для критичных по безопасности приложений
  2. Ограничения моделирования: проверка только в упрощённых сценариях дорожного перекрёстка, отсутствие тестирования в сложной городской среде
  3. Недостаточный теоретический анализ: требуется усиление теоретического анализа и границ ошибок фильтрации ограничений
  4. Отсутствие верификации на реальных транспортных средствах: нет верификации на реальных платформах транспортных средств

Влияние

Данная работа предоставляет новый подход к решению проблемы управления MPC в реальном времени в автономном вождении, и применение теории двойственности может вдохновить более эффективные методы решения других задач оптимизации.

Применимые сценарии

  • Принятие решений при автономном вождении на городских дорожных перекрёстках
  • Координированное управление многороботными системами
  • Другие многоагентные системы, требующие оптимизации в реальном времени

Список литературы

В статье цитируются ключевые работы из нескольких важных областей, включая:

  • Trajectron++: предсказание динамически допустимых траекторий
  • Основы теории стохастического MPC
  • Архитектуры механизма внимания и трансформаторов
  • Выпуклую оптимизацию и теорию двойственности

Данная статья вносит значительный вклад как в теоретические инновации, так и в практическую ценность, предоставляя эффективное решение для проблемы управления MPC в реальном времени в автономном вождении, однако требует дальнейшего совершенствования в отношении гарантий безопасности и практического развёртывания.