2025-11-17T20:34:11.907682

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

Kim, Nair, Borrelli

We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet

academic

이중성 기반 상호작용 예측을 통한 확장 가능한 다중 모달 모델 예측 제어

기본 정보

논문 ID: 2402.01116
제목: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
저자: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
분류: cs.RO cs.LG cs.SY eess.SY
발표 시간/학회: arXiv preprint (2024년 2월 제출, 2025년 3월 최종 업데이트)
논문 링크: https://arxiv.org/abs/2402.01116

초록

본 논문은 복잡한 다중 모달 교통 시나리오에서 확장 가능한 실시간 모델 예측 제어(MPC)를 구현하기 위한 계층적 아키텍처를 제안한다. 이 아키텍처는 두 가지 핵심 구성 요소를 포함한다: 1) RAID-Net, 라그랑주 이중성을 사용하여 MPC 예측 시간 범위 내에서 자동 운전 차량과 주변 차량 간의 관련 상호작용을 예측하는 주의 메커니즘 기반 순환 신경망; 2) 무관한 충돌 회피 제약을 제거하여 계산 효율성을 향상시키는 단순화된 확률적 MPC 문제. 이 방법은 시뮬레이션 교통 교차로 환경에서 검증되었으며, 운동 계획 문제 해결에서 12배 가속을 달성했다.

연구 배경 및 동기

핵심 문제

복잡한 도시 운전 시나리오에서 자동 운전 차량은 고도로 불확실한 환경에서 안전하게 항법하면서 동시에 이질적인 교통 참여자(인간 운전자 및 자동 운전 차량)의 행동을 관찰하고 대응해야 한다. 이러한 교통 참여자들은 다중 모달 예측 특성을 가지고 있으며, 운동 계획에서 이러한 요소들을 고려하는 것은 거대한 도전을 제시한다.

문제의 중요성

기존의 운동 계획 방법은 확장성과 실시간성의 이중 도전에 직면해 있다:

계층적 예측 및 계획 방법: 다중 모달 예측을 처리할 수 있지만 복잡한 시나리오에서 실시간 확장성이 부족하다
모델 기반 통합 계획 방법: 게임 이론 방법은 다중 차량 시나리오에서 계산 복잡도가 너무 높다
종단 간 학습 방법: 확장 가능하지만 해석 가능성과 안전 보장이 부족하다

기존 방법의 한계

전통적인 MPC 방법의 제약 수는 차량 수와 모달 수에 따라 지수적으로 증가한다 (O(NM^V))
복잡한 교통 시나리오에서 대부분의 충돌 회피 제약은 실제로 비활성 상태이다
진정으로 관련된 차량 상호작용을 식별하기 위한 효과적인 제약 필터링 메커니즘이 부족하다

핵심 기여

RAID-Net 아키텍처 제안: MPC 예측 시간 범위 내에서 자동 운전 차량과 주변 차량 간의 관련 상호작용을 예측할 수 있는 주의 메커니즘 기반 순환 신경망
이중성 기반 상호작용 예측 이론 수립: 라그랑주 이중성과 민감도 분석을 활용하여 활성 제약을 식별
계층적 MPC 프레임워크 설계: 제약 필터링을 통해 계산 복잡도를 현저히 감소시켜 12배 해결 가속 달성
교통 교차로 시뮬레이션 환경 구축: 제안된 알고리즘의 훈련 및 평가를 위해

방법 상세 설명

작업 정의

입력: 현재 환경 관찰 $ob_t$ , 자차 상태, 주변 차량 상태 및 의미론적 정보 포함 출력: 제어 입력 $u_t$ , 자차가 목표 위치에 안전하게 도달하도록 함 제약: 상태 입력 제약 및 다중 모달 충돌 회피 제약

모델 아키텍처

1. 확률적 MPC 문제 모델링

V개의 목표 차량을 고려하며, 각 차량은 M가지 모달을 가지고 있으며, 총 M^V가지 시나리오 구성이 있다. 최적화 문제는 다음과 같다:

$\min_{\theta_t} \sum_{m=1}^{M^V} \mathbb{E}\left[\sum_{k=t}^{t+N-1} \|Q(x_{k+1|t,m}-x^{ref}_k)\|_2^2 + \|R(u_{k|t,m}-u^{ref}_k)\|_2^2\right]$

다음 제약을 받는다:

시스템 동역학 제약
상태 입력 제약: $P((x_{k|t,m}, u_{k|t,m}) \notin XU_k) \leq \epsilon$
충돌 회피 제약: $P((x_{k|t,m}, o^i_{k|t,\bar{j}(i,m)}) \notin CA^i_{k|t,\bar{j}(i,m)}) \leq \epsilon$

2. 이중성 이론 분석

MPC 문제를 이계 원뿔 계획법(SOCP)으로 변환한다: $\min_{\theta_t} \frac{1}{2}\|Q_t\theta_t\|_2^2 + C_t^T\theta_t \quad \text{s.t.} \quad A_t\theta_t + R_t \in K$

대응하는 이중 문제는 다음과 같다: $\min_{\mu_t,\eta_t} [\mu_t^T \eta_t^T]R_t + \frac{1}{2}\|Q_t^{-1}(A_t^T[\mu_t^T \eta_t^T]^T - C_t)\|_2^2$

KKT 조건을 통해, $[\mu_t^*]_s = 0$ 이면 대응하는 제약을 제거할 수 있다.

3. RAID-Net 아키텍처 설계

입력 인코딩:

충돌까지의 시간(TTC) 기반 자차 중심 그래프 인코딩 사용
트랜스포머 인코더가 시나리오 표현 특성 벡터 $f_i \in \mathbb{R}^{d_{em}}$ 생성

네트워크 구조:

N개의 공유 매개변수 디코더 시퀀스
다양한 유형의 차량 상호작용 관계를 포착하는 다중 헤드 주의 메커니즘
시간 의존성을 처리하는 게이트 순환 단위(GRU)
복잡한 상호작용 관계를 학습하는 MLP 계층

출력: 이중 변수의 이진 분류 예측 $\tilde{\mu}_t \in \{0,1\}^{n_c}$

기술 혁신 포인트

이중성 지도 제약 필터링: 라그랑주 이중 이론을 MPC 제약 필터링에 처음으로 적용
주의 메커니즘의 상호작용 모델링: 다중 헤드 주의를 통해 차량 간의 복잡한 상호작용 패턴 포착
순환 아키텍처의 시간 영역 독립성: 매개변수 공유를 통해 예측 시간 범위 길이에 대한 독립성 달성
민감도 분석의 안전 보장: 섀도우 가격 이론을 통해 제약 위반이 비용에 미치는 영향 정량화

실험 설정

데이터셋

시뮬레이션 환경: 사용자 정의 신호 없는 교통 교차로 환경
차량 구성: 1개 자차 + 1-3개 목표 차량
모달 설정: 총 16가지 모달 구성, 624개 충돌 회피 제약 초래
데이터 규모: 120,315개 데이터 포인트, 훈련 집합 85%, 테스트 집합 15%

평가 지표

실행 가능성: MPC 문제 실행 가능 해의 백분율
충돌률: 목표 차량과의 충돌 시간 단계 백분율
제약 비율: 평균 강제 실행 제약 백분율
해결 시간: MPC 문제 평균 해결 시간
작업 완료 시간: 목표 위치 도달의 정규화된 시간

비교 방법

Full MPC: 모든 제약을 포함하는 완전한 MPC 문제
MLP 기준선: 다층 퍼셉트론을 사용하는 비교 방법

구현 세부 사항

예측 시간 범위: N = 14, 샘플링 시간 Δt = 0.2s
네트워크 매개변수: 학습률 0.001, 배치 크기 1024, 3000 에포크 훈련
손실 가중치: wp = 4 (안전성 향상을 위해 양성 클래스 예측 편향)
해결기: SOCP 문제 해결을 위해 Gurobi 사용

실험 결과

주요 결과

성능 지표	Full MPC	HMPC
실행 가능성 (%)	98.97	99.79
충돌률 (%)	0	4.0
평균 제약 실행률 (%)	100	17.45
평균 해결 시간 (s)	0.92 ± 0.18	0.063 ± 0.073
RAID-Net 쿼리 시간 (s)	-	0.013 ± 0.003
총 계산 시간 (s)	0.92 ± 0.18	0.076 ± 0.076
정규화된 작업 완료 시간	1	0.91