We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
- पेपर ID: 2402.01116
- शीर्षक: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
- लेखक: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
- वर्गीकरण: cs.RO cs.LG cs.SY eess.SY
- प्रकाशन समय/सम्मेलन: arXiv प्रीप्रिंट (फरवरी 2024 में प्रस्तुत, मार्च 2025 में अंतिम अपडेट)
- पेपर लिंक: https://arxiv.org/abs/2402.01116
यह पेपर जटिल बहु-मोडल यातायात परिदृश्यों में स्केलेबल रीयल-टाइम मॉडल भविष्यसूचक नियंत्रण (MPC) को लागू करने के लिए एक स्तरीय आर्किटेक्चर प्रस्तावित करता है। इस आर्किटेक्चर में दो मुख्य घटक हैं: 1) RAID-Net, एक ध्यान तंत्र-आधारित पुनरावर्ती तंत्रिका नेटवर्क, जो लैग्रेंज द्वैत का उपयोग करके स्वायत्त वाहन और आसपास के वाहनों के बीच MPC भविष्यसूचना समय क्षेत्र में प्रासंगिक इंटरैक्शन की भविष्यवाणी करता है; 2) एक सरलीकृत स्टोकेस्टिक MPC समस्या, जो अप्रासंगिक टकराव से बचने वाली बाधाओं को समाप्त करके कम्प्यूटेशनल दक्षता को बढ़ाता है। इस विधि को सिम्युलेटेड यातायात चौराहे वातावरण में सत्यापित किया गया था, जिससे गति नियोजन समस्या समाधान में 12 गुना त्वरण प्राप्त हुआ।
जटिल शहरी ड्राइविंग परिदृश्यों में, स्वायत्त वाहनों को अत्यधिक अनिश्चित वातावरण में सुरक्षित रूप से नेविगेट करने की आवश्यकता होती है, साथ ही विषम यातायात प्रतिभागियों (मानव-संचालित और स्वायत्त वाहन) के व्यवहार को देखना और प्रतिक्रिया करना होता है। ये यातायात प्रतिभागी बहु-मोडल भविष्यसूचना विशेषताएं प्रदर्शित करते हैं, और गति नियोजन में इन कारकों पर विचार करना बहुत बड़ी चुनौती प्रस्तुत करता है।
मौजूदा गति नियोजन विधियों को स्केलेबिलिटी और रीयल-टाइम प्रदर्शन की दोहरी चुनौतियों का सामना करना पड़ता है:
- स्तरीय भविष्यसूचना और नियोजन विधियां: हालांकि बहु-मोडल भविष्यसूचना को संभाल सकती हैं, लेकिन जटिल परिदृश्यों में रीयल-टाइम स्केलेबिलिटी की कमी है
- मॉडल-आधारित एकीकृत नियोजन विधियां: गेम सिद्धांत विधियां बहु-वाहन परिदृश्यों में अत्यधिक कम्प्यूटेशनल जटिलता रखती हैं
- अंत-से-अंत शिक्षण विधियां: हालांकि स्केलेबल हैं, लेकिन व्याख्यात्मकता और सुरक्षा गारंटियों की कमी है
- पारंपरिक MPC विधियों में बाधाओं की संख्या वाहनों और मोडों की संख्या के साथ घातीय रूप से बढ़ती है (O(NM^V))
- जटिल यातायात परिदृश्यों में, अधिकांश टकराव से बचने वाली बाधाएं वास्तव में निष्क्रिय होती हैं
- सच में प्रासंगिक वाहन इंटरैक्शन की पहचान करने के लिए प्रभावी बाधा फ़िल्टरिंग तंत्र की कमी
- RAID-Net आर्किटेक्चर का प्रस्ताव: ध्यान तंत्र-आधारित पुनरावर्ती तंत्रिका नेटवर्क, जो MPC भविष्यसूचना समय क्षेत्र में स्वायत्त वाहन और आसपास के वाहनों के बीच प्रासंगिक इंटरैक्शन की भविष्यवाणी कर सकता है
- द्वैत-आधारित इंटरैक्शन भविष्यसूचना सिद्धांत की स्थापना: लैग्रेंज द्वैत और संवेदनशीलता विश्लेषण का उपयोग करके सक्रिय बाधाओं की पहचान करना
- स्तरीय MPC ढांचे का डिजाइन: बाधा फ़िल्टरिंग के माध्यम से कम्प्यूटेशनल जटिलता को काफी हद तक कम करना, 12 गुना समाधान त्वरण प्राप्त करना
- यातायात चौराहे सिम्युलेशन वातावरण का निर्माण: प्रस्तावित एल्गोरिदम के प्रशिक्षण और मूल्यांकन के लिए
इनपुट: वर्तमान पर्यावरण अवलोकन obt, जिसमें स्वयं-वाहन की स्थिति, आसपास के वाहनों की स्थिति और शब्दार्थ जानकारी शामिल है
आउटपुट: नियंत्रण इनपुट ut, जो स्वयं-वाहन को सुरक्षित रूप से लक्ष्य स्थान तक पहुंचाता है
बाधाएं: स्थिति इनपुट बाधाएं और बहु-मोडल टकराव से बचने वाली बाधाएं
V लक्ष्य वाहनों पर विचार करते हुए, प्रत्येक वाहन के M मोड हैं, कुल M^V परिदृश्य कॉन्फ़िगरेशन। अनुकूलन समस्या है:
minθt∑m=1MVE[∑k=tt+N−1∥Q(xk+1∣t,m−xkref)∥22+∥R(uk∣t,m−ukref)∥22]
निम्नलिखित के अधीन:
- प्रणाली गतिशीलता बाधाएं
- स्थिति इनपुट बाधाएं: P((xk∣t,m,uk∣t,m)∈/XUk)≤ϵ
- टकराव से बचने वाली बाधाएं: P((xk∣t,m,ok∣t,jˉ(i,m)i)∈/CAk∣t,jˉ(i,m)i)≤ϵ
MPC समस्या को दूसरे-क्रम शंकु प्रोग्रामिंग (SOCP) में परिवर्तित करना:
minθt21∥Qtθt∥22+CtTθts.t.Atθt+Rt∈K
संबंधित द्वैत समस्या है:
minμt,ηt[μtTηtT]Rt+21∥Qt−1(AtT[μtTηtT]T−Ct)∥22
KKT शर्तों के माध्यम से, यदि [μt∗]s=0, तो संबंधित बाधा को समाप्त किया जा सकता है।
इनपुट एन्कोडिंग:
- समय-से-टकराव (TTC) आधारित स्वयं-वाहन-केंद्रित ग्राफ एन्कोडिंग का उपयोग
- ट्रांसफॉर्मर एन्कोडर दृश्य प्रतिनिधित्व विशेषता वेक्टर fi∈Rdem उत्पन्न करता है
नेटवर्क संरचना:
- N साझा पैरामीटर वाले डिकोडर अनुक्रम
- बहु-सिर ध्यान तंत्र विभिन्न प्रकार के वाहन इंटरैक्शन संबंधों को कैप्चर करता है
- गेटेड रिकरेंट यूनिट (GRU) समय-श्रृंखला निर्भरता को संभालता है
- MLP परत जटिल इंटरैक्शन संबंधों को सीखता है
आउटपुट: द्वैत चर की बाइनरी वर्गीकरण भविष्यसूचना μ~t∈{0,1}nc
- द्वैत-निर्देशित बाधा फ़िल्टरिंग: पहली बार लैग्रेंज द्वैत सिद्धांत को MPC बाधा फ़िल्टरिंग में लागू करना
- ध्यान तंत्र का इंटरैक्शन मॉडलिंग: बहु-सिर ध्यान के माध्यम से वाहनों के बीच जटिल इंटरैक्शन पैटर्न को कैप्चर करना
- पुनरावर्ती आर्किटेक्चर की समय-क्षेत्र स्वतंत्रता: पैरामीटर साझाकरण के माध्यम से भविष्यसूचना समय क्षेत्र की लंबाई के लिए स्वतंत्रता प्राप्त करना
- संवेदनशीलता विश्लेषण की सुरक्षा गारंटी: छाया मूल्य सिद्धांत के माध्यम से बाधा उल्लंघन के लागत पर प्रभाव को मापना
- सिम्युलेशन वातावरण: कस्टम संकेत रहित यातायात चौराहे वातावरण
- वाहन कॉन्फ़िगरेशन: 1 स्वयं-वाहन + 1-3 लक्ष्य वाहन
- मोड सेटिंग: कुल 16 मोड कॉन्फ़िगरेशन, 624 टकराव से बचने वाली बाधाओं के परिणामस्वरूप
- डेटा स्केल: 120,315 डेटा बिंदु, प्रशिक्षण सेट 85%, परीक्षण सेट 15%
- व्यवहार्यता: MPC समस्या के व्यवहार्य समाधान का प्रतिशत
- टकराव दर: लक्ष्य वाहनों के साथ टकराव की समय-चरण प्रतिशत
- बाधा अनुपात: औसत लागू बाधाओं का प्रतिशत
- समाधान समय: MPC समस्या का औसत समाधान समय
- कार्य पूर्ण समय: लक्ष्य स्थान तक पहुंचने का सामान्यीकृत समय
- Full MPC: सभी बाधाओं वाली पूर्ण MPC समस्या
- MLP baseline: बहु-परत परसेप्ट्रॉन का उपयोग करके तुलना विधि
- भविष्यसूचना समय क्षेत्र: N = 14, नमूना समय Δt = 0.2s
- नेटवर्क पैरामीटर: सीखने की दर 0.001, बैच आकार 1024, 3000 प्रशिक्षण दौर
- हानि वजन: wp = 4 (सुरक्षा में सुधार के लिए सकारात्मक वर्ग भविष्यसूचना की ओर पूर्वाग्रह)
- समाधानकर्ता: SOCP समस्या को हल करने के लिए Gurobi का उपयोग
| प्रदर्शन मेट्रिक | Full MPC | HMPC |
|---|
| व्यवहार्यता (%) | 98.97 | 99.79 |
| टकराव दर (%) | 0 | 4.0 |
| औसत बाधा कार्यान्वयन दर (%) | 100 | 17.45 |
| औसत समाधान समय (s) | 0.92 ± 0.18 | 0.063 ± 0.073 |
| RAID-Net क्वेरी समय (s) | - | 0.013 ± 0.003 |
| कुल कम्प्यूटेशनल समय (s) | 0.92 ± 0.18 | 0.076 ± 0.076 |
| सामान्यीकृत कार्य पूर्ण समय | 1 | 0.91 |
- 12 गुना त्वरण: HMPC एल्गोरिदम ने समाधान समय में 12 गुना त्वरण प्राप्त किया
- उच्च रिकॉल दर: RAID-Net परीक्षण सेट पर 94% रिकॉल दर प्राप्त करता है, 98.1% इंटरैक्शन द्वैत चर की सही भविष्यसूचना करता है
- रूढ़िवादी भविष्यसूचना: 17.45% बाधा कार्यान्वयन दर 1.52% वास्तविक सक्रिय बाधा दर की तुलना में, सुरक्षा-उन्मुख रूढ़िवादी रणनीति को दर्शाता है
- हल्का सुरक्षा व्यापार: 4% टकराव दर मुख्य रूप से झूठी नकारात्मक वर्गीकरण के कारण होता है
RAID-Net मानक MLP नेटवर्क की तुलना में हानि वितरण पर बेहतर प्रदर्शन करता है, ध्यान तंत्र और पुनरावर्ती संरचना की प्रभावशीलता को सत्यापित करता है।
- स्तरीय भविष्यसूचना और नियोजन: Trajectron++ जैसी विधियां जटिल भविष्यसूचना मॉडल पर ध्यान केंद्रित करती हैं
- मॉडल-आधारित एकीकृत विधियां: गेम सिद्धांत और संयुक्त अनुकूलन विधियां
- अंत-से-अंत शिक्षण विधियां: Social Attention जैसी गहन शिक्षण विधियां
मौजूदा विधियों की तुलना में, यह पेपर सुरक्षा बनाए रखते हुए महत्वपूर्ण कम्प्यूटेशनल दक्षता में सुधार प्राप्त करता है, और एक व्याख्यात्मक इंटरैक्शन भविष्यसूचना तंत्र प्रदान करता है।
- द्वैत सिद्धांत पर आधारित पहली MPC बाधा फ़िल्टरिंग ढांचा प्रस्तावित किया गया
- RAID-Net ने प्रभावी रूप से वाहन इंटरैक्शन की भविष्यसूचना की, रीयल-टाइम प्रदर्शन आवश्यकताओं को पूरा किया
- जटिल यातायात परिदृश्यों में 12 गुना कम्प्यूटेशनल त्वरण प्राप्त किया गया
- अपर्याप्त सुरक्षा गारंटी: फ़िल्टर की गई बाधाओं के लिए सैद्धांतिक सुरक्षा गारंटी की कमी
- नीति अति-पैरामीटरीकरण: MPC में प्रतिक्रिया नीति अति-पैरामीटरीकृत हो सकती है
- सीमित सामान्यीकरण क्षमता: विभिन्न चौराहे टोपोलॉजी के लिए RAID-Net की सामान्यीकरण क्षमता को आगे सत्यापित करने की आवश्यकता है
- टकराव जोखिम: 4% टकराव दर को आगे सुधारने की आवश्यकता है
- व्यवहार क्लोनिंग में वितरण बदलाव समस्या को हल करने के लिए DAgger एल्गोरिदम का उपयोग करना
- वास्तविक यातायात डेटासेट पर RAID-Net की सामान्यीकरण क्षमता का परीक्षण करना
- बहु-वाहन समन्वय पथ नियोजन में द्वैत इंटरैक्शन भविष्यसूचना को लागू करना
- मजबूत सुरक्षा सैद्धांतिक गारंटी प्रदान करना
- सैद्धांतिक नवाचार: लैग्रेंज द्वैत सिद्धांत को MPC बाधा फ़िल्टरिंग में रचनात्मक रूप से लागू करना
- व्यावहारिक मूल्य: महत्वपूर्ण कम्प्यूटेशनल त्वरण जटिल परिदृश्यों में वास्तविक समय MPC को संभव बनाता है
- आर्किटेक्चर डिजाइन: RAID-Net का ध्यान तंत्र और पुनरावर्ती संरचना डिजाइन उचित है
- व्यापक प्रयोग: सिम्युलेशन वातावरण में व्यापक प्रदर्शन मूल्यांकन
- सुरक्षा व्यापार: 4% टकराव दर सुरक्षा-महत्वपूर्ण अनुप्रयोगों के लिए अस्वीकार्य हो सकता है
- सिम्युलेशन सीमाएं: केवल सरलीकृत यातायात चौराहे परिदृश्य में सत्यापित, जटिल शहरी वातावरण के परीक्षण की कमी
- अपर्याप्त सैद्धांतिक विश्लेषण: बाधा फ़िल्टरिंग त्रुटि का सैद्धांतिक विश्लेषण और सीमाएं मजबूत करने की आवश्यकता है
- वास्तविक वाहन सत्यापन की कमी: वास्तविक वाहन प्लेटफॉर्म पर सत्यापन की कमी
यह कार्य स्वायत्त ड्राइविंग में वास्तविक समय MPC समस्या के लिए नई समाधान सोच प्रदान करता है, द्वैत सिद्धांत का अनुप्रयोग अन्य अनुकूलन समस्याओं की कुशल समाधान विधियों को प्रेरित कर सकता है।
- शहरी यातायात चौराहे में स्वायत्त ड्राइविंग निर्णय
- बहु-रोबोट समन्वय नियंत्रण
- अन्य वास्तविक समय अनुकूलन की आवश्यकता वाली बहु-बुद्धिमान प्रणालियां
पेपर कई महत्वपूर्ण क्षेत्रों के मुख्य कार्यों का हवाला देता है, जिनमें शामिल हैं:
- Trajectron++: गतिशील व्यवहार्य प्रक्षेपवक्र भविष्यसूचना
- स्टोकेस्टिक MPC सिद्धांत आधार
- ध्यान तंत्र और Transformer आर्किटेक्चर
- उत्तल अनुकूलन और द्वैत सिद्धांत
यह पेपर सैद्धांतिक नवाचार और व्यावहारिक मूल्य दोनों पहलुओं में महत्वपूर्ण योगदान देता है, स्वायत्त ड्राइविंग में वास्तविक समय MPC समस्या के लिए प्रभावी समाधान प्रदान करता है, लेकिन सुरक्षा गारंटी और व्यावहारिक तैनाती के पहलुओं में आगे सुधार की आवश्यकता है।