2025-11-17T20:34:11.907682

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

Kim, Nair, Borrelli
We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
academic

द्वैत-आधारित इंटरैक्शन भविष्यवाणियों के माध्यम से स्केलेबल बहु-मोडल मॉडल भविष्यसूचक नियंत्रण

मूल जानकारी

  • पेपर ID: 2402.01116
  • शीर्षक: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
  • लेखक: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
  • वर्गीकरण: cs.RO cs.LG cs.SY eess.SY
  • प्रकाशन समय/सम्मेलन: arXiv प्रीप्रिंट (फरवरी 2024 में प्रस्तुत, मार्च 2025 में अंतिम अपडेट)
  • पेपर लिंक: https://arxiv.org/abs/2402.01116

सारांश

यह पेपर जटिल बहु-मोडल यातायात परिदृश्यों में स्केलेबल रीयल-टाइम मॉडल भविष्यसूचक नियंत्रण (MPC) को लागू करने के लिए एक स्तरीय आर्किटेक्चर प्रस्तावित करता है। इस आर्किटेक्चर में दो मुख्य घटक हैं: 1) RAID-Net, एक ध्यान तंत्र-आधारित पुनरावर्ती तंत्रिका नेटवर्क, जो लैग्रेंज द्वैत का उपयोग करके स्वायत्त वाहन और आसपास के वाहनों के बीच MPC भविष्यसूचना समय क्षेत्र में प्रासंगिक इंटरैक्शन की भविष्यवाणी करता है; 2) एक सरलीकृत स्टोकेस्टिक MPC समस्या, जो अप्रासंगिक टकराव से बचने वाली बाधाओं को समाप्त करके कम्प्यूटेशनल दक्षता को बढ़ाता है। इस विधि को सिम्युलेटेड यातायात चौराहे वातावरण में सत्यापित किया गया था, जिससे गति नियोजन समस्या समाधान में 12 गुना त्वरण प्राप्त हुआ।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

जटिल शहरी ड्राइविंग परिदृश्यों में, स्वायत्त वाहनों को अत्यधिक अनिश्चित वातावरण में सुरक्षित रूप से नेविगेट करने की आवश्यकता होती है, साथ ही विषम यातायात प्रतिभागियों (मानव-संचालित और स्वायत्त वाहन) के व्यवहार को देखना और प्रतिक्रिया करना होता है। ये यातायात प्रतिभागी बहु-मोडल भविष्यसूचना विशेषताएं प्रदर्शित करते हैं, और गति नियोजन में इन कारकों पर विचार करना बहुत बड़ी चुनौती प्रस्तुत करता है।

समस्या की महत्ता

मौजूदा गति नियोजन विधियों को स्केलेबिलिटी और रीयल-टाइम प्रदर्शन की दोहरी चुनौतियों का सामना करना पड़ता है:

  1. स्तरीय भविष्यसूचना और नियोजन विधियां: हालांकि बहु-मोडल भविष्यसूचना को संभाल सकती हैं, लेकिन जटिल परिदृश्यों में रीयल-टाइम स्केलेबिलिटी की कमी है
  2. मॉडल-आधारित एकीकृत नियोजन विधियां: गेम सिद्धांत विधियां बहु-वाहन परिदृश्यों में अत्यधिक कम्प्यूटेशनल जटिलता रखती हैं
  3. अंत-से-अंत शिक्षण विधियां: हालांकि स्केलेबल हैं, लेकिन व्याख्यात्मकता और सुरक्षा गारंटियों की कमी है

मौजूदा विधियों की सीमाएं

  • पारंपरिक MPC विधियों में बाधाओं की संख्या वाहनों और मोडों की संख्या के साथ घातीय रूप से बढ़ती है (O(NM^V))
  • जटिल यातायात परिदृश्यों में, अधिकांश टकराव से बचने वाली बाधाएं वास्तव में निष्क्रिय होती हैं
  • सच में प्रासंगिक वाहन इंटरैक्शन की पहचान करने के लिए प्रभावी बाधा फ़िल्टरिंग तंत्र की कमी

मुख्य योगदान

  1. RAID-Net आर्किटेक्चर का प्रस्ताव: ध्यान तंत्र-आधारित पुनरावर्ती तंत्रिका नेटवर्क, जो MPC भविष्यसूचना समय क्षेत्र में स्वायत्त वाहन और आसपास के वाहनों के बीच प्रासंगिक इंटरैक्शन की भविष्यवाणी कर सकता है
  2. द्वैत-आधारित इंटरैक्शन भविष्यसूचना सिद्धांत की स्थापना: लैग्रेंज द्वैत और संवेदनशीलता विश्लेषण का उपयोग करके सक्रिय बाधाओं की पहचान करना
  3. स्तरीय MPC ढांचे का डिजाइन: बाधा फ़िल्टरिंग के माध्यम से कम्प्यूटेशनल जटिलता को काफी हद तक कम करना, 12 गुना समाधान त्वरण प्राप्त करना
  4. यातायात चौराहे सिम्युलेशन वातावरण का निर्माण: प्रस्तावित एल्गोरिदम के प्रशिक्षण और मूल्यांकन के लिए

विधि विवरण

कार्य परिभाषा

इनपुट: वर्तमान पर्यावरण अवलोकन obtob_t, जिसमें स्वयं-वाहन की स्थिति, आसपास के वाहनों की स्थिति और शब्दार्थ जानकारी शामिल है आउटपुट: नियंत्रण इनपुट utu_t, जो स्वयं-वाहन को सुरक्षित रूप से लक्ष्य स्थान तक पहुंचाता है बाधाएं: स्थिति इनपुट बाधाएं और बहु-मोडल टकराव से बचने वाली बाधाएं

मॉडल आर्किटेक्चर

1. स्टोकेस्टिक MPC समस्या मॉडलिंग

V लक्ष्य वाहनों पर विचार करते हुए, प्रत्येक वाहन के M मोड हैं, कुल M^V परिदृश्य कॉन्फ़िगरेशन। अनुकूलन समस्या है:

minθtm=1MVE[k=tt+N1Q(xk+1t,mxkref)22+R(ukt,mukref)22]\min_{\theta_t} \sum_{m=1}^{M^V} \mathbb{E}\left[\sum_{k=t}^{t+N-1} \|Q(x_{k+1|t,m}-x^{ref}_k)\|_2^2 + \|R(u_{k|t,m}-u^{ref}_k)\|_2^2\right]

निम्नलिखित के अधीन:

  • प्रणाली गतिशीलता बाधाएं
  • स्थिति इनपुट बाधाएं: P((xkt,m,ukt,m)XUk)ϵP((x_{k|t,m}, u_{k|t,m}) \notin XU_k) \leq \epsilon
  • टकराव से बचने वाली बाधाएं: P((xkt,m,okt,jˉ(i,m)i)CAkt,jˉ(i,m)i)ϵP((x_{k|t,m}, o^i_{k|t,\bar{j}(i,m)}) \notin CA^i_{k|t,\bar{j}(i,m)}) \leq \epsilon

2. द्वैत सिद्धांत विश्लेषण

MPC समस्या को दूसरे-क्रम शंकु प्रोग्रामिंग (SOCP) में परिवर्तित करना: minθt12Qtθt22+CtTθts.t.Atθt+RtK\min_{\theta_t} \frac{1}{2}\|Q_t\theta_t\|_2^2 + C_t^T\theta_t \quad \text{s.t.} \quad A_t\theta_t + R_t \in K

संबंधित द्वैत समस्या है: minμt,ηt[μtTηtT]Rt+12Qt1(AtT[μtTηtT]TCt)22\min_{\mu_t,\eta_t} [\mu_t^T \eta_t^T]R_t + \frac{1}{2}\|Q_t^{-1}(A_t^T[\mu_t^T \eta_t^T]^T - C_t)\|_2^2

KKT शर्तों के माध्यम से, यदि [μt]s=0[\mu_t^*]_s = 0, तो संबंधित बाधा को समाप्त किया जा सकता है।

3. RAID-Net आर्किटेक्चर डिजाइन

इनपुट एन्कोडिंग:

  • समय-से-टकराव (TTC) आधारित स्वयं-वाहन-केंद्रित ग्राफ एन्कोडिंग का उपयोग
  • ट्रांसफॉर्मर एन्कोडर दृश्य प्रतिनिधित्व विशेषता वेक्टर fiRdemf_i \in \mathbb{R}^{d_{em}} उत्पन्न करता है

नेटवर्क संरचना:

  • N साझा पैरामीटर वाले डिकोडर अनुक्रम
  • बहु-सिर ध्यान तंत्र विभिन्न प्रकार के वाहन इंटरैक्शन संबंधों को कैप्चर करता है
  • गेटेड रिकरेंट यूनिट (GRU) समय-श्रृंखला निर्भरता को संभालता है
  • MLP परत जटिल इंटरैक्शन संबंधों को सीखता है

आउटपुट: द्वैत चर की बाइनरी वर्गीकरण भविष्यसूचना μ~t{0,1}nc\tilde{\mu}_t \in \{0,1\}^{n_c}

तकनीकी नवाचार बिंदु

  1. द्वैत-निर्देशित बाधा फ़िल्टरिंग: पहली बार लैग्रेंज द्वैत सिद्धांत को MPC बाधा फ़िल्टरिंग में लागू करना
  2. ध्यान तंत्र का इंटरैक्शन मॉडलिंग: बहु-सिर ध्यान के माध्यम से वाहनों के बीच जटिल इंटरैक्शन पैटर्न को कैप्चर करना
  3. पुनरावर्ती आर्किटेक्चर की समय-क्षेत्र स्वतंत्रता: पैरामीटर साझाकरण के माध्यम से भविष्यसूचना समय क्षेत्र की लंबाई के लिए स्वतंत्रता प्राप्त करना
  4. संवेदनशीलता विश्लेषण की सुरक्षा गारंटी: छाया मूल्य सिद्धांत के माध्यम से बाधा उल्लंघन के लागत पर प्रभाव को मापना

प्रायोगिक सेटअप

डेटासेट

  • सिम्युलेशन वातावरण: कस्टम संकेत रहित यातायात चौराहे वातावरण
  • वाहन कॉन्फ़िगरेशन: 1 स्वयं-वाहन + 1-3 लक्ष्य वाहन
  • मोड सेटिंग: कुल 16 मोड कॉन्फ़िगरेशन, 624 टकराव से बचने वाली बाधाओं के परिणामस्वरूप
  • डेटा स्केल: 120,315 डेटा बिंदु, प्रशिक्षण सेट 85%, परीक्षण सेट 15%

मूल्यांकन मेट्रिक्स

  • व्यवहार्यता: MPC समस्या के व्यवहार्य समाधान का प्रतिशत
  • टकराव दर: लक्ष्य वाहनों के साथ टकराव की समय-चरण प्रतिशत
  • बाधा अनुपात: औसत लागू बाधाओं का प्रतिशत
  • समाधान समय: MPC समस्या का औसत समाधान समय
  • कार्य पूर्ण समय: लक्ष्य स्थान तक पहुंचने का सामान्यीकृत समय

तुलना विधियां

  • Full MPC: सभी बाधाओं वाली पूर्ण MPC समस्या
  • MLP baseline: बहु-परत परसेप्ट्रॉन का उपयोग करके तुलना विधि

कार्यान्वयन विवरण

  • भविष्यसूचना समय क्षेत्र: N = 14, नमूना समय Δt = 0.2s
  • नेटवर्क पैरामीटर: सीखने की दर 0.001, बैच आकार 1024, 3000 प्रशिक्षण दौर
  • हानि वजन: wp = 4 (सुरक्षा में सुधार के लिए सकारात्मक वर्ग भविष्यसूचना की ओर पूर्वाग्रह)
  • समाधानकर्ता: SOCP समस्या को हल करने के लिए Gurobi का उपयोग

प्रायोगिक परिणाम

मुख्य परिणाम

प्रदर्शन मेट्रिकFull MPCHMPC
व्यवहार्यता (%)98.9799.79
टकराव दर (%)04.0
औसत बाधा कार्यान्वयन दर (%)10017.45
औसत समाधान समय (s)0.92 ± 0.180.063 ± 0.073
RAID-Net क्वेरी समय (s)-0.013 ± 0.003
कुल कम्प्यूटेशनल समय (s)0.92 ± 0.180.076 ± 0.076
सामान्यीकृत कार्य पूर्ण समय10.91

मुख्य निष्कर्ष

  1. 12 गुना त्वरण: HMPC एल्गोरिदम ने समाधान समय में 12 गुना त्वरण प्राप्त किया
  2. उच्च रिकॉल दर: RAID-Net परीक्षण सेट पर 94% रिकॉल दर प्राप्त करता है, 98.1% इंटरैक्शन द्वैत चर की सही भविष्यसूचना करता है
  3. रूढ़िवादी भविष्यसूचना: 17.45% बाधा कार्यान्वयन दर 1.52% वास्तविक सक्रिय बाधा दर की तुलना में, सुरक्षा-उन्मुख रूढ़िवादी रणनीति को दर्शाता है
  4. हल्का सुरक्षा व्यापार: 4% टकराव दर मुख्य रूप से झूठी नकारात्मक वर्गीकरण के कारण होता है

विलोपन प्रयोग

RAID-Net मानक MLP नेटवर्क की तुलना में हानि वितरण पर बेहतर प्रदर्शन करता है, ध्यान तंत्र और पुनरावर्ती संरचना की प्रभावशीलता को सत्यापित करता है।

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

  1. स्तरीय भविष्यसूचना और नियोजन: Trajectron++ जैसी विधियां जटिल भविष्यसूचना मॉडल पर ध्यान केंद्रित करती हैं
  2. मॉडल-आधारित एकीकृत विधियां: गेम सिद्धांत और संयुक्त अनुकूलन विधियां
  3. अंत-से-अंत शिक्षण विधियां: Social Attention जैसी गहन शिक्षण विधियां

इस पेपर के लाभ

मौजूदा विधियों की तुलना में, यह पेपर सुरक्षा बनाए रखते हुए महत्वपूर्ण कम्प्यूटेशनल दक्षता में सुधार प्राप्त करता है, और एक व्याख्यात्मक इंटरैक्शन भविष्यसूचना तंत्र प्रदान करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. द्वैत सिद्धांत पर आधारित पहली MPC बाधा फ़िल्टरिंग ढांचा प्रस्तावित किया गया
  2. RAID-Net ने प्रभावी रूप से वाहन इंटरैक्शन की भविष्यसूचना की, रीयल-टाइम प्रदर्शन आवश्यकताओं को पूरा किया
  3. जटिल यातायात परिदृश्यों में 12 गुना कम्प्यूटेशनल त्वरण प्राप्त किया गया

सीमाएं

  1. अपर्याप्त सुरक्षा गारंटी: फ़िल्टर की गई बाधाओं के लिए सैद्धांतिक सुरक्षा गारंटी की कमी
  2. नीति अति-पैरामीटरीकरण: MPC में प्रतिक्रिया नीति अति-पैरामीटरीकृत हो सकती है
  3. सीमित सामान्यीकरण क्षमता: विभिन्न चौराहे टोपोलॉजी के लिए RAID-Net की सामान्यीकरण क्षमता को आगे सत्यापित करने की आवश्यकता है
  4. टकराव जोखिम: 4% टकराव दर को आगे सुधारने की आवश्यकता है

भविष्य की दिशाएं

  1. व्यवहार क्लोनिंग में वितरण बदलाव समस्या को हल करने के लिए DAgger एल्गोरिदम का उपयोग करना
  2. वास्तविक यातायात डेटासेट पर RAID-Net की सामान्यीकरण क्षमता का परीक्षण करना
  3. बहु-वाहन समन्वय पथ नियोजन में द्वैत इंटरैक्शन भविष्यसूचना को लागू करना
  4. मजबूत सुरक्षा सैद्धांतिक गारंटी प्रदान करना

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक नवाचार: लैग्रेंज द्वैत सिद्धांत को MPC बाधा फ़िल्टरिंग में रचनात्मक रूप से लागू करना
  2. व्यावहारिक मूल्य: महत्वपूर्ण कम्प्यूटेशनल त्वरण जटिल परिदृश्यों में वास्तविक समय MPC को संभव बनाता है
  3. आर्किटेक्चर डिजाइन: RAID-Net का ध्यान तंत्र और पुनरावर्ती संरचना डिजाइन उचित है
  4. व्यापक प्रयोग: सिम्युलेशन वातावरण में व्यापक प्रदर्शन मूल्यांकन

कमजोरियां

  1. सुरक्षा व्यापार: 4% टकराव दर सुरक्षा-महत्वपूर्ण अनुप्रयोगों के लिए अस्वीकार्य हो सकता है
  2. सिम्युलेशन सीमाएं: केवल सरलीकृत यातायात चौराहे परिदृश्य में सत्यापित, जटिल शहरी वातावरण के परीक्षण की कमी
  3. अपर्याप्त सैद्धांतिक विश्लेषण: बाधा फ़िल्टरिंग त्रुटि का सैद्धांतिक विश्लेषण और सीमाएं मजबूत करने की आवश्यकता है
  4. वास्तविक वाहन सत्यापन की कमी: वास्तविक वाहन प्लेटफॉर्म पर सत्यापन की कमी

प्रभाव

यह कार्य स्वायत्त ड्राइविंग में वास्तविक समय MPC समस्या के लिए नई समाधान सोच प्रदान करता है, द्वैत सिद्धांत का अनुप्रयोग अन्य अनुकूलन समस्याओं की कुशल समाधान विधियों को प्रेरित कर सकता है।

लागू परिदृश्य

  • शहरी यातायात चौराहे में स्वायत्त ड्राइविंग निर्णय
  • बहु-रोबोट समन्वय नियंत्रण
  • अन्य वास्तविक समय अनुकूलन की आवश्यकता वाली बहु-बुद्धिमान प्रणालियां

संदर्भ

पेपर कई महत्वपूर्ण क्षेत्रों के मुख्य कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • Trajectron++: गतिशील व्यवहार्य प्रक्षेपवक्र भविष्यसूचना
  • स्टोकेस्टिक MPC सिद्धांत आधार
  • ध्यान तंत्र और Transformer आर्किटेक्चर
  • उत्तल अनुकूलन और द्वैत सिद्धांत

यह पेपर सैद्धांतिक नवाचार और व्यावहारिक मूल्य दोनों पहलुओं में महत्वपूर्ण योगदान देता है, स्वायत्त ड्राइविंग में वास्तविक समय MPC समस्या के लिए प्रभावी समाधान प्रदान करता है, लेकिन सुरक्षा गारंटी और व्यावहारिक तैनाती के पहलुओं में आगे सुधार की आवश्यकता है।