2025-11-23T02:40:16.760420

Dual-Regularized Riccati Recursions for Interior-Point Optimal Control

Sousa-Pinto, Orban
We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.
academic

आंतरिक-बिंदु इष्टतम नियंत्रण के लिए द्वैत-नियमितकृत रिक्काती पुनरावृत्तियाँ

मूल जानकारी

  • पेपर ID: 2509.16370
  • शीर्षक: Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
  • लेखक: João Sousa-Pinto, Dominique Orban
  • वर्गीकरण: math.OC cs.MS cs.RO cs.SY eess.SY
  • प्रकाशन समय: 15 अक्टूबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2509.16370

सारांश

यह पेपर द्वैत-नियमितकृत LQR समस्या को हल करने के लिए रिक्काती पुनरावृत्तियों के बंद-रूप विस्तार (अनुक्रमिक और समानांतर संस्करण दोनों सहित) प्राप्त करता है। लेखक दिखाते हैं कि कैसे नियमितकृत आंतरिक-बिंदु विधि का उपयोग करके सामान्य बाधित, गैर-उत्तल, असतत समय इष्टतम नियंत्रण समस्याओं को हल किया जाए, जबकि प्रत्येक चरण में संवर्धित बाधा-लैग्रेंजियन फलन की अवरोही दिशा की गारंटी दी जाए। पेपर C++ और JAX में MIT लाइसेंस कार्यान्वयन प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह अनुसंधान समानता और असमानता बाधाओं के साथ गैर-उत्तल असतत समय इष्टतम नियंत्रण समस्याओं को कुशलतापूर्वक हल करने का तरीका खोजने के लिए है। पारंपरिक विधियों को इस तरह की समस्याओं को संभालते समय निम्नलिखित चुनौतियों का सामना करना पड़ता है:

  1. कम्प्यूटेशनल दक्षता समस्या: मानक आंतरिक-बिंदु विधि इष्टतम नियंत्रण समस्याओं को संभालते समय बड़े पैमाने पर रैखिक प्रणालियों को हल करने की आवश्यकता होती है, जिससे कम्प्यूटेशनल जटिलता अधिक होती है
  2. संख्यात्मक स्थिरता: जब नियमितकरण पैरामीटर शून्य की ओर जाता है, तो पारंपरिक विधियां संख्यात्मक अस्थिरता प्रदर्शित कर सकती हैं
  3. समानांतरकरण कठिनाई: मौजूदा विधियां समानांतर कम्प्यूटिंग संसाधनों का पूर्ण उपयोग करना मुश्किल है

समस्या की महत्ता

इष्टतम नियंत्रण समस्याओं का रोबोटिक्स, एयरोस्पेस, स्वायत्त ड्राइविंग और अन्य क्षेत्रों में व्यापक अनुप्रयोग है। इस तरह की समस्याओं को कुशलतापूर्वक हल करना वास्तविक समय नियंत्रण प्रणालियों के लिए महत्वपूर्ण है, विशेष रूप से जटिल बाधाओं को संभालने की आवश्यकता वाले परिदृश्यों में।

मौजूदा विधियों की सीमाएं

  1. DDP एल्गोरिदम: हालांकि व्यावहारिक रूप से सबसे अधिक उपयोग की जाने वाली विधि है, लेकिन एकल-शूटिंग विधि के रूप में, स्वतंत्र रूप से गर्म-शुरुआत स्थिति प्रक्षेपवक्र नहीं कर सकता
  2. मानक LQR विधि: केवल बिना बाधा या सरल बाधा वाली रैखिक प्रणालियों के लिए उपयुक्त
  3. मौजूदा आंतरिक-बिंदु विधियां: जैसे IPOPT आदि सामान्य सॉल्वर, इष्टतम नियंत्रण समस्याओं की संरचनात्मक विशेषताओं का पूर्ण लाभ नहीं उठा सकते

मूल योगदान

  1. सैद्धांतिक योगदान: द्वैत-नियमितकृत LQR समस्या को हल करने के लिए बंद-रूप रिक्काती पुनरावृत्ति विस्तार प्राप्त किए, अनुक्रमिक और समानांतर संस्करण दोनों सहित
  2. एल्गोरिदम नवाचार: नियमितकृत आंतरिक-बिंदु विधि प्रस्तावित की जो अवरोही दिशा की गारंटी देती है, संवर्धित बाधा-लैग्रेंजियन फलन को योग्यता फलन के रूप में उपयोग करके
  3. संख्यात्मक स्थिरता: जब नियमितकरण पैरामीटर δ→0 होता है तो संख्यात्मक रूप से स्थिर एल्गोरिदम डिज़ाइन किया, जो मानक LQR एल्गोरिदम को पुनः प्राप्त कर सकता है
  4. समानांतर एल्गोरिदम: संबद्ध स्कैन (associative scans) के आधार पर O(log N) समानांतर समय जटिलता के साथ हल एल्गोरिदम लागू किया
  5. सॉफ्टवेयर योगदान: C++ और JAX में खुला स्रोत कार्यान्वयन प्रदान किया, जो कुशल विरल रैखिक बीजगणित संचालन का समर्थन करता है

विधि विवरण

कार्य परिभाषा

असतत समय इष्टतम नियंत्रण समस्या पर विचार करें:

minx0,u0,,xNi=0N1fi(xi,ui)+fN(xN)\min_{x_0,u_0,\ldots,x_N} \sum_{i=0}^{N-1} f_i(x_i, u_i) + f_N(x_N)

बाधा शर्तें:

  • प्रारंभिक स्थिति: x0=s0x_0 = s_0
  • गतिशीलता बाधा: xi+1=di(xi,ui),i{0,,N1}x_{i+1} = d_i(x_i, u_i), \forall i \in \{0,\ldots,N-1\}
  • समानता बाधा: ci(xi,ui)=0,i{0,,N1}c_i(x_i, u_i) = 0, \forall i \in \{0,\ldots,N-1\}
  • असमानता बाधा: gi(xi,ui)0,i{0,,N1}g_i(x_i, u_i) \leq 0, \forall i \in \{0,\ldots,N-1\}
  • टर्मिनल बाधा: cN(xN)=0,gN(xN)0c_N(x_N) = 0, g_N(x_N) \leq 0

नियमितकृत आंतरिक-बिंदु विधि ढांचा

संवर्धित बाधा-लैग्रेंजियन फलन

बाधा-लैग्रेंजियन फलन को परिभाषित करें: L(x,s,y,z;μ)=f(x)μilog(si)+yTc(x)+zT(g(x)+s)L(x,s,y,z;\mu) = f(x) - \mu\sum_i \log(s_i) + y^T c(x) + z^T(g(x) + s)

संवर्धित संस्करण: A(x,s,y,z;μ,η)=L(x,s,y,z;μ)+η2(c(x)2+g(x)+s2)A(x,s,y,z;\mu,\eta) = L(x,s,y,z;\mu) + \frac{\eta}{2}(\|c(x)\|^2 + \|g(x)+s\|^2)

रैखिक प्रणाली समाधान

प्रत्येक पुनरावृत्ति को रैखिक प्रणाली को हल करने की आवश्यकता है:

undefined