2025-11-17T20:34:11.907682

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions

Kim, Nair, Borrelli
We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
academic

স্কেলেবল মাল্টি-মোডাল মডেল প্রেডিক্টিভ কন্ট্রোল ডুয়ালিটি-ভিত্তিক ইন্টারঅ্যাকশন প্রেডিকশনের মাধ্যমে

মৌলিক তথ্য

  • পেপার আইডি: 2402.01116
  • শিরোনাম: Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions
  • লেখক: Hansung Kim, Siddharth H. Nair, Francesco Borrelli
  • শ্রেণীবিভাগ: cs.RO cs.LG cs.SY eess.SY
  • প্রকাশনার সময়/সম্মেলন: arXiv প্রিপ্রিন্ট (ফেব্রুয়ারি ২০২৪ জমা, মার্চ ২০২৫ সর্বশেষ আপডেট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2402.01116

সারসংক্ষেপ

এই পেপারটি জটিল মাল্টি-মোডাল ট্রাফিক পরিস্থিতিতে স্কেলেবল রিয়েল-টাইম মডেল প্রেডিক্টিভ কন্ট্রোল (MPC) বাস্তবায়নের জন্য একটি স্তরযুক্ত আর্কিটেকচার প্রস্তাব করে। এই আর্কিটেকচারে দুটি মূল উপাদান রয়েছে: ১) RAID-Net, একটি মনোযোগ-ভিত্তিক পুনরাবৃত্তিমূলক স্নায়ু নেটওয়ার্ক যা লাগরেঞ্জ ডুয়ালিটি ব্যবহার করে স্বায়ত্তশাসিত যানবাহন এবং আশেপাশের যানবাহনের মধ্যে MPC পূর্বাভাস সময়কালে প্রাসঙ্গিক ইন্টারঅ্যাকশন পূর্বাভাস দেয়; ২) একটি সরলীকৃত স্টোকাস্টিক MPC সমস্যা যা অপ্রাসঙ্গিক সংঘর্ষ এড়ানো সীমাবদ্ধতা দূর করে গণনামূলক দক্ষতা বৃদ্ধি করে। এই পদ্ধতিটি সিমুলেটেড ট্রাফিক ইন্টারসেকশন পরিবেশে যাচাই করা হয়েছে, গতি পরিকল্পনা সমস্যা সমাধানে ১২ গুণ ত্বরণ অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

জটিল শহুরে ড্রাইভিং পরিস্থিতিতে, স্বায়ত্তশাসিত যানবাহনগুলিকে অত্যন্ত অনিশ্চিত পরিবেশে নিরাপদে নেভিগেট করতে হবে, একই সাথে বিজাতীয় ট্রাফিক অংশগ্রহণকারীদের (মানব-চালিত এবং স্বায়ত্তশাসিত যানবাহন) আচরণ পর্যবেক্ষণ এবং প্রতিক্রিয়া জানাতে হবে। এই ট্রাফিক অংশগ্রহণকারীরা মাল্টি-মোডাল পূর্বাভাস বৈশিষ্ট্য প্রদর্শন করে, যা গতি পরিকল্পনায় এই কারণগুলি বিবেচনা করা বিশাল চ্যালেঞ্জ নিয়ে আসে।

সমস্যার গুরুত্ব

বিদ্যমান গতি পরিকল্পনা পদ্ধতিগুলি স্কেলেবিলিটি এবং রিয়েল-টাইম কর্মক্ষমতার দ্বৈত চ্যালেঞ্জের সম্মুখীন হয়: ১. স্তরযুক্ত পূর্বাভাস এবং পরিকল্পনা পদ্ধতি: যদিও মাল্টি-মোডাল পূর্বাভাস পরিচালনা করতে পারে, জটিল পরিস্থিতিতে রিয়েল-টাইম স্কেলেবিলিটির অভাব রয়েছে २. মডেল-ভিত্তিক সমন্বিত পরিকল্পনা পদ্ধতি: গেম তত্ত্ব পদ্ধতি বহু-যানবাহন পরিস্থিতিতে অত্যন্ত গণনামূলক জটিলতা প্রদর্শন করে ३. প্রান্ত-থেকে-প্রান্ত শেখার পদ্ধতি: যদিও স্কেলেবল, তবে ব্যাখ্যাযোগ্যতা এবং নিরাপত্তা নিশ্চয়তার অভাব রয়েছে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • ঐতিহ্যবাহী MPC পদ্ধতির সীমাবদ্ধতার সংখ্যা যানবাহন সংখ্যা এবং মোডাল সংখ্যার সাথে সূচকীয়ভাবে বৃদ্ধি পায় (O(NM^V))
  • জটিল ট্রাফিক পরিস্থিতিতে, বেশিরভাগ সংঘর্ষ এড়ানো সীমাবদ্ধতা প্রকৃতপক্ষে নিষ্ক্রিয়
  • সত্যিকারের প্রাসঙ্গিক যানবাহন ইন্টারঅ্যাকশন চিহ্নিত করার জন্য কার্যকর সীমাবদ্ধতা ফিল্টারিং প্রক্রিয়ার অভাব

মূল অবদান

१. RAID-Net আর্কিটেকচার প্রস্তাব: মনোযোগ-ভিত্তিক পুনরাবৃত্তিমূলক স্নায়ু নেটওয়ার্ক যা MPC পূর্বাভাস সময়কালে স্বায়ত্তশাসিত যানবাহন এবং আশেপাশের যানবাহনের মধ্যে প্রাসঙ্গিক ইন্টারঅ্যাকশন পূর্বাভাস দিতে পারে २. ডুয়ালিটি-ভিত্তিক ইন্টারঅ্যাকশন পূর্বাভাস তত্ত্ব প্রতিষ্ঠা: সক্রিয় সীমাবদ্ধতা চিহ্নিত করতে লাগরেঞ্জ ডুয়ালিটি এবং সংবেদনশীলতা বিশ্লেষণ ব্যবহার করা ३. স্তরযুক্ত MPC ফ্রেমওয়ার্ক ডিজাইন: সীমাবদ্ধতা ফিল্টারিংয়ের মাধ্যমে গণনামূলক জটিলতা উল্লেখযোগ্যভাবে হ্রাস করে, ১२ গুণ সমাধান ত্বরণ অর্জন করা ४. ট্রাফিক ইন্টারসেকশন সিমুলেশন পরিবেশ নির্মাণ: প্রস্তাবিত অ্যালগরিদম প্রশিক্ষণ এবং মূল্যায়নের জন্য

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: বর্তমান পরিবেশ পর্যবেক্ষণ obtob_t, যা নিজস্ব যানবাহনের অবস্থা, আশেপাশের যানবাহনের অবস্থা এবং শব্দার্থিক তথ্য অন্তর্ভুক্ত করে আউটপুট: নিয়ন্ত্রণ ইনপুট utu_t, যা নিজস্ব যানবাহনকে লক্ষ্য অবস্থানে নিরাপদে পৌঁছাতে সক্ষম করে সীমাবদ্ধতা: অবস্থা ইনপুট সীমাবদ্ধতা এবং মাল্টি-মোডাল সংঘর্ষ এড়ানো সীমাবদ্ধতা

মডেল আর্কিটেকচার

१. স্টোকাস্টিক MPC সমস্যা মডেলিং

V টি লক্ষ্য যানবাহন বিবেচনা করুন, প্রতিটি যানবাহনে M মোড রয়েছে, মোট M^V পরিস্থিতি কনফিগারেশন। অপ্টিমাইজেশন সমস্যা:

minθtm=1MVE[k=tt+N1Q(xk+1t,mxkref)22+R(ukt,mukref)22]\min_{\theta_t} \sum_{m=1}^{M^V} \mathbb{E}\left[\sum_{k=t}^{t+N-1} \|Q(x_{k+1|t,m}-x^{ref}_k)\|_2^2 + \|R(u_{k|t,m}-u^{ref}_k)\|_2^2\right]

সীমাবদ্ধ:

  • সিস্টেম গতিশীলতা সীমাবদ্ধতা
  • অবস্থা ইনপুট সীমাবদ্ধতা: P((xkt,m,ukt,m)XUk)ϵP((x_{k|t,m}, u_{k|t,m}) \notin XU_k) \leq \epsilon
  • সংঘর্ষ এড়ানো সীমাবদ্ধতা: P((xkt,m,okt,jˉ(i,m)i)CAkt,jˉ(i,m)i)ϵP((x_{k|t,m}, o^i_{k|t,\bar{j}(i,m)}) \notin CA^i_{k|t,\bar{j}(i,m)}) \leq \epsilon

२. ডুয়ালিটি তত্ত্ব বিশ্লেষণ

MPC সমস্যাকে দ্বিতীয়-ক্রম শঙ্কু প্রোগ্রামিং (SOCP) তে রূপান্তরিত করুন: minθt12Qtθt22+CtTθts.t.Atθt+RtK\min_{\theta_t} \frac{1}{2}\|Q_t\theta_t\|_2^2 + C_t^T\theta_t \quad \text{s.t.} \quad A_t\theta_t + R_t \in K

সংশ্লিষ্ট ডুয়াল সমস্যা: minμt,ηt[μtTηtT]Rt+12Qt1(AtT[μtTηtT]TCt)22\min_{\mu_t,\eta_t} [\mu_t^T \eta_t^T]R_t + \frac{1}{2}\|Q_t^{-1}(A_t^T[\mu_t^T \eta_t^T]^T - C_t)\|_2^2

KKT শর্তের মাধ্যমে, যদি [μt]s=0[\mu_t^*]_s = 0, তবে সংশ্লিষ্ট সীমাবদ্ধতা দূর করা যেতে পারে।

३. RAID-Net আর্কিটেকচার ডিজাইন

ইনপুট এনকোডিং:

  • সংঘর্ষের সময় (TTC) ভিত্তিক নিজস্ব যানবাহন-কেন্দ্রিক গ্রাফ এনকোডিং ব্যবহার করা
  • ট্রান্সফরমার এনকোডার দৃশ্য প্রতিনিধিত্ব বৈশিষ্ট্য ভেক্টর fiRdemf_i \in \mathbb{R}^{d_{em}} উৎপন্ন করে

নেটওয়ার্ক কাঠামো:

  • N টি ভাগ করা পরামিতি সহ ডিকোডার সিকোয়েন্স
  • বহু-মাথা মনোযোগ প্রক্রিয়া বিভিন্ন ধরনের যানবাহন ইন্টারঅ্যাকশন সম্পর্ক ক্যাপচার করে
  • গেটেড পুনরাবৃত্তিমূলক ইউনিট (GRU) সময়গত নির্ভরতা প্রক্রিয়া করে
  • MLP স্তর জটিল ইন্টারঅ্যাকশন সম্পর্ক শিখে

আউটপুট: ডুয়াল ভেরিয়েবলের বাইনারি শ্রেণীবিভাগ পূর্বাভাস μ~t{0,1}nc\tilde{\mu}_t \in \{0,1\}^{n_c}

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. ডুয়ালিটি-গাইডেড সীমাবদ্ধতা ফিল্টারিং: প্রথমবারের মতো লাগরেঞ্জ ডুয়ালিটি তত্ত্ব MPC সীমাবদ্ধতা ফিল্টারিংয়ে প্রয়োগ করা २. মনোযোগ প্রক্রিয়া ইন্টারঅ্যাকশন মডেলিং: বহু-মাথা মনোযোগের মাধ্যমে যানবাহনের মধ্যে জটিল ইন্টারঅ্যাকশন প্যাটার্ন ক্যাপচার করা ३. পুনরাবৃত্তিমূলক আর্কিটেকচারের সময়গত স্বাধীনতা: পরামিতি ভাগাভাগির মাধ্যমে পূর্বাভাস সময়কাল দৈর্ঘ্যের স্বাধীনতা অর্জন করা ४. সংবেদনশীলতা বিশ্লেষণের নিরাপত্তা নিশ্চয়তা: ছায়া মূল্য তত্ত্বের মাধ্যমে সীমাবদ্ধতা লঙ্ঘনের খরচে প্রভাব পরিমাণ করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • সিমুলেশন পরিবেশ: কাস্টম সংকেত-মুক্ত ট্রাফিক ইন্টারসেকশন পরিবেশ
  • যানবাহন কনফিগারেশন: १ টি নিজস্ব যানবাহন + १-३ টি লক্ষ্য যানবাহন
  • মোড সেটিংস: মোট १६ টি মোড কনফিগারেশন, ६२४ টি সংঘর্ষ এড়ানো সীমাবদ্ধতা সহ
  • ডেটা স্কেল: १२०,३१५ টি ডেটা পয়েন্ট, প্রশিক্ষণ সেট ८५%, পরীক্ষা সেট १५%

মূল্যায়ন মেট্রিক্স

  • সম্ভাব্যতা: MPC সমস্যার সম্ভাব্য সমাধানের শতাংশ
  • সংঘর্ষ হার: লক্ষ্য যানবাহনের সাথে সংঘর্ষের সময় পদক্ষেপের শতাংশ
  • সীমাবদ্ধতা অনুপাত: গড় প্রয়োগকৃত সীমাবদ্ধতার শতাংশ
  • সমাধান সময়: MPC সমস্যার গড় সমাধান সময়
  • কাজ সম্পূর্ণতার সময়: লক্ষ্য অবস্থানে পৌঁছানোর স্বাভাবিকীকৃত সময়

তুলনামূলক পদ্ধতি

  • সম্পূর্ণ MPC: সমস্ত সীমাবদ্ধতা সহ সম্পূর্ণ MPC সমস্যা
  • MLP বেসলাইন: বহু-স্তরীয় পার্সেপ্ট্রন ব্যবহার করে তুলনামূলক পদ্ধতি

বাস্তবায়ন বিবরণ

  • পূর্বাভাস সময়কাল: N = १४, স্যাম্পলিং সময় Δt = ०.२s
  • নেটওয়ার্ক পরামিতি: শেখার হার ०.००१, ব্যাচ আকার १०२४, প্রশিক্ষণ ३००० রাউন্ড
  • ক্ষতি ওজন: wp = ४ (নিরাপত্তা উন্নত করতে ইতিবাচক শ্রেণী পূর্বাভাসের দিকে পক্ষপাত)
  • সমাধানকারী: SOCP সমস্যা সমাধানের জন্য Gurobi ব্যবহার করা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

কর্মক্ষমতা মেট্রিকসম্পূর্ণ MPCHMPC
সম্ভাব্যতা (%)९८.९७९९.७९
সংঘর্ষ হার (%)४.०
গড় সীমাবদ্ধতা প্রয়োগ হার (%)१००१७.४५
গড় সমাধান সময় (s)०.९२ ± ०.१८०.०६३ ± ०.०७३
RAID-Net প্রশ্ন সময় (s)-०.०१३ ± ०.००३
মোট গণনা সময় (s)०.९२ ± ०.१८०.०७६ ± ०.०७६
স্বাভাবিকীকৃত কাজ সম্পূর্ণতার সময়०.९१

মূল আবিষ্কার

१. १२ গুণ ত্বরণ: HMPC অ্যালগরিদম সমাধান সময়ে १२ গুণ ত্বরণ অর্জন করেছে २. উচ্চ রিকল হার: RAID-Net পরীক্ষা সেটে ९४% রিকল হার অর্জন করে, ইন্টারঅ্যাকশন জোড়া ডুয়াল ভেরিয়েবলের ९८.१% সঠিকভাবে পূর্বাভাস দেয় ३. রক্ষণশীল পূর্বাভাস: १७.४५% সীমাবদ্ধতা প্রয়োগ হার প্রকৃত সক্রিয় সীমাবদ্ধতা হারের १.५२% এর তুলনায়, নিরাপত্তা-ভিত্তিক রক্ষণশীল কৌশল প্রতিফলিত করে ४. হালকা নিরাপত্তা খরচ: ४% সংঘর্ষ হার প্রধানত মিথ্যা নেতিবাচক শ্রেণীবিভাগ দ্বারা সৃষ্ট

অ্যাবলেশন পরীক্ষা

RAID-Net মান MLP নেটওয়ার্কের তুলনায় ক্ষতি বিতরণে উন্নত পারফরম্যান্স প্রদর্শন করে, মনোযোগ প্রক্রিয়া এবং পুনরাবৃত্তিমূলক কাঠামোর কার্যকারিতা যাচাই করে।

সম্পর্কিত কাজ

প্রধান গবেষণা দিকনির্দেশনা

१. স্তরযুক্ত পূর্বাভাস এবং পরিকল্পনা: Trajectron++ এর মতো পদ্ধতি জটিল পূর্বাভাস মডেলে ফোকাস করে २. মডেল-ভিত্তিক সমন্বিত পদ্ধতি: গেম তত্ত্ব এবং যৌথ অপ্টিমাইজেশন পদ্ধতি ३. প্রান্ত-থেকে-প্রান্ত শেখার পদ্ধতি: Social Attention এর মতো গভীর শেখার পদ্ধতি

এই পেপারের সুবিধা

বিদ্যমান পদ্ধতির তুলনায়, এই পেপারটি নিরাপত্তা বজায় রেখে উল্লেখযোগ্য গণনামূলক দক্ষতা উন্নতি অর্জন করে এবং ব্যাখ্যাযোগ্য ইন্টারঅ্যাকশন পূর্বাভাস প্রক্রিয়া প্রদান করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. ডুয়ালিটি তত্ত্বের উপর ভিত্তি করে প্রথম MPC সীমাবদ্ধতা ফিল্টারিং ফ্রেমওয়ার্ক প্রস্তাব করা २. RAID-Net কার্যকরভাবে যানবাহন ইন্টারঅ্যাকশন পূর্বাভাস দেয়, রিয়েল-টাইম কর্মক্ষমতা প্রয়োজনীয়তা অর্জন করে ३. জটিল ট্রাফিক পরিস্থিতিতে १२ গুণ গণনা ত্বরণ অর্জন করা

সীমাবদ্ধতা

१. অপর্যাপ্ত নিরাপত্তা নিশ্চয়তা: ফিল্টার করা সীমাবদ্ধতার জন্য তাত্ত্বিক নিরাপত্তা নিশ্চয়তার অভাব २. কৌশল অতি-পরামিতিকরণ: MPC তে প্রতিক্রিয়া কৌশল অতি-পরামিতিকৃত হতে পারে ३. সীমিত সাধারণীকরণ ক্ষমতা: বিভিন্ন ইন্টারসেকশন টপোলজিতে RAID-Net এর সাধারণীকরণ ক্ষমতা আরও যাচাইয়ের প্রয়োজন ४. সংঘর্ষ ঝুঁকি: ४% সংঘর্ষ হার আরও উন্নতির প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. আচরণগত ক্লোনিংয়ে বিতরণ পরিবর্তন সমস্যা সমাধানের জন্য DAgger অ্যালগরিদম ব্যবহার করা २. বাস্তব ট্রাফিক ডেটাসেটে RAID-Net এর সাধারণীকরণ কর্মক্ষমতা পরীক্ষা করা ३. ডুয়ালিটি ইন্টারঅ্যাকশন পূর্বাভাস বহু-যানবাহন সমন্বিত পথ পরিকল্পনায় প্রয়োগ করা ४. শক্তিশালী নিরাপত্তা তাত্ত্বিক নিশ্চয়তা প্রদান করা

গভীর মূল্যায়ন

সুবিধা

१. তাত্ত্বিক উদ্ভাবন: লাগরেঞ্জ ডুয়ালিটি তত্ত্বকে MPC সীমাবদ্ধতা ফিল্টারিংয়ে সৃজনশীলভাবে প্রয়োগ করা २. ব্যবহারিক মূল্য: উল্লেখযোগ্য গণনা ত্বরণ জটিল পরিস্থিতিতে রিয়েল-টাইম MPC সম্ভব করে তোলে ३. আর্কিটেকচার ডিজাইন: RAID-Net এর মনোযোগ প্রক্রিয়া এবং পুনরাবৃত্তিমূলক কাঠামো ডিজাইন যুক্তিসঙ্গত ४. ব্যাপক পরীক্ষা: সিমুলেশন পরিবেশে সম্পূর্ণ কর্মক্ষমতা মূল্যায়ন পরিচালনা করা

অপূর্ণতা

१. নিরাপত্তা ট্রেড-অফ: ४% সংঘর্ষ হার নিরাপত্তা-সমালোচনামূলক অ্যাপ্লিকেশনের জন্য অগ্রহণযোগ্য হতে পারে २. সিমুলেশন সীমাবদ্ধতা: শুধুমাত্র সরলীকৃত ট্রাফিক ইন্টারসেকশন পরিস্থিতিতে যাচাই করা, জটিল শহুরে পরিবেশের পরীক্ষার অভাব ३. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: সীমাবদ্ধতা ফিল্টারিং ত্রুটির তাত্ত্বিক বিশ্লেষণ এবং সীমানা শক্তিশালী করার প্রয়োজন ४. বাস্তব যানবাহন যাচাইয়ের অভাব: প্রকৃত যানবাহন প্ল্যাটফর্মে যাচাইয়ের অভাব

প্রভাব

এই কাজটি স্বায়ত্তশাসিত ড্রাইভিংয়ে রিয়েল-টাইম MPC সমস্যার জন্য নতুন সমাধান পথ প্রদান করে, ডুয়ালিটি তত্ত্বের প্রয়োগ আরও অপ্টিমাইজেশন সমস্যার দক্ষ সমাধান পদ্ধতিকে অনুপ্রাণিত করতে পারে।

প্রযোজ্য পরিস্থিতি

  • শহুরে ট্রাফিক ইন্টারসেকশনে স্বায়ত্তশাসিত ড্রাইভিং সিদ্ধান্ত
  • বহু-রোবট সমন্বয় নিয়ন্ত্রণ
  • অন্যান্য রিয়েল-টাইম অপ্টিমাইজেশন প্রয়োজনীয় বহু-বুদ্ধিমান এজেন্ট সিস্টেম

রেফারেন্স

পেপারটি একাধিক গুরুত্বপূর্ণ ক্ষেত্রের মূল কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • Trajectron++: গতিশীল সম্ভাব্য ট্র্যাজেক্টরি পূর্বাভাস
  • স্টোকাস্টিক MPC তাত্ত্বিক ভিত্তি
  • মনোযোগ প্রক্রিয়া এবং Transformer আর্কিটেকচার
  • উত্তল অপ্টিমাইজেশন এবং ডুয়ালিটি তত্ত্ব

এই পেপারটি তাত্ত্বিক উদ্ভাবন এবং ব্যবহারিক মূল্য উভয় ক্ষেত্রেই গুরুত্বপূর্ণ অবদান রাখে, স্বায়ত্তশাসিত ড্রাইভিংয়ে রিয়েল-টাইম MPC সমস্যার জন্য কার্যকর সমাধান প্রদান করে, তবে নিরাপত্তা নিশ্চয়তা এবং প্রকৃত স্থাপনার দিক থেকে আরও উন্নতির প্রয়োজন।