We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.
معرّف البحث : 2509.16370العنوان : Dual-Regularized Riccati Recursions for Interior-Point Optimal Controlالمؤلفون : João Sousa-Pinto, Dominique Orbanالتصنيف : math.OC cs.MS cs.RO cs.SY eess.SYتاريخ النشر : 15 أكتوبر 2025 (arXiv v2)رابط البحث : https://arxiv.org/abs/2509.16370 يشتق هذا البحث صيغة مغلقة لتكرارات ريكاتي لحل مشاكل التحكم الخطي التربيعي (LQR) ثنائية التنظيم، بما في ذلك النسخ المتسلسلة والمتوازية. يوضح المؤلفون كيفية استخدام هذه الطرق لحل مشاكل التحكم الأمثل غير المحدبة ذات القيود العامة والمنفصلة زمنياً من خلال طرق النقطة الداخلية المنتظمة، مع ضمان أن كل خطوة تمثل اتجاه انحدار لدالة الحاجز المعزز-لاغرانج. يوفر البحث تطبيقات مرخصة بموجب MIT بلغات C++ و JAX.
يعالج هذا البحث المشكلة الأساسية المتمثلة في كيفية حل مشاكل التحكم الأمثل غير المحدبة والمنفصلة زمنياً ذات القيود المساواة والمتباينة بكفاءة. تواجه الطرق التقليدية التحديات التالية عند التعامل مع هذه المشاكل:
مشاكل الكفاءة الحسابية : تتطلب طرق النقطة الداخلية القياسية حل أنظمة خطية كبيرة الحجم عند التعامل مع مشاكل التحكم الأمثل، مما يؤدي إلى تعقيد حسابي عاليالاستقرار العددي : قد تظهر الطرق التقليدية عدم استقرار عددي عندما تميل معاملات التنظيم إلى الصفرصعوبة المعالجة المتوازية : يصعب على الطرق الحالية الاستفادة الكاملة من موارد الحوسبة المتوازيةتتمتع مشاكل التحكم الأمثل بتطبيقات واسعة في مجالات الروبوتات والملاحة الجوية والقيادة الذاتية وغيرها. يعتبر الحل الفعال لهذه المشاكل حاسماً لأنظمة التحكم في الوقت الفعلي، خاصة في السيناريوهات التي تتطلب التعامل مع قيود معقدة.
خوارزمية البرمجة الديناميكية التفاضلية (DDP) : على الرغم من أنها الطريقة الأكثر استخداماً في الممارسة العملية، إلا أنها كطريقة إطلاق واحد لا يمكنها البدء الساخن المستقل لمسارات الحالةطرق LQR القياسية : تنطبق فقط على الأنظمة الخطية بدون قيود أو ذات قيود بسيطةطرق النقطة الداخلية الموجودة : مثل حل IPOPT العام، لا يمكنها الاستفادة الكاملة من خصائص هيكل مشاكل التحكم الأمثلالمساهمة النظرية : اشتقاق امتدادات ريكاتي المغلقة لحل مشاكل LQR ثنائية التنظيم، بما في ذلك النسخ المتسلسلة والمتوازيةالابتكار الخوارزمي : اقتراح طريقة نقطة داخلية منتظمة تضمن اتجاهات انحدار من خلال دالة الحاجز المعزز-لاغرانج كدالة جدارةالاستقرار العددي : تصميم خوارزمية مستقرة عددياً عندما يميل معامل التنظيم δ→0، قادرة على استعادة خوارزمية LQR القياسيةالخوارزمية المتوازية : تحقيق تعقيد زمني متوازي O(log N) بناءً على المسح المترابط (associative scans)المساهمة البرمجية : توفير تطبيقات مفتوحة المصدر بلغات C++ و JAX، تدعم عمليات الجبر الخطي المتفرقة الفعالةضع في الاعتبار مشكلة التحكم الأمثل المنفصلة زمنياً:
min x 0 , u 0 , … , x N ∑ i = 0 N − 1 f i ( x i , u i ) + f N ( x N ) \min_{x_0,u_0,\ldots,x_N} \sum_{i=0}^{N-1} f_i(x_i, u_i) + f_N(x_N) min x 0 , u 0 , … , x N ∑ i = 0 N − 1 f i ( x i , u i ) + f N ( x N )
شروط القيد:
الحالة الأولية: x 0 = s 0 x_0 = s_0 x 0 = s 0 قيود الديناميكا: x i + 1 = d i ( x i , u i ) , ∀ i ∈ { 0 , … , N − 1 } x_{i+1} = d_i(x_i, u_i), \forall i \in \{0,\ldots,N-1\} x i + 1 = d i ( x i , u i ) , ∀ i ∈ { 0 , … , N − 1 } قيود المساواة: c i ( x i , u i ) = 0 , ∀ i ∈ { 0 , … , N − 1 } c_i(x_i, u_i) = 0, \forall i \in \{0,\ldots,N-1\} c i ( x i , u i ) = 0 , ∀ i ∈ { 0 , … , N − 1 } قيود المتباينة: g i ( x i , u i ) ≤ 0 , ∀ i ∈ { 0 , … , N − 1 } g_i(x_i, u_i) \leq 0, \forall i \in \{0,\ldots,N-1\} g i ( x i , u i ) ≤ 0 , ∀ i ∈ { 0 , … , N − 1 } قيود الحالة النهائية: c N ( x N ) = 0 , g N ( x N ) ≤ 0 c_N(x_N) = 0, g_N(x_N) \leq 0 c N ( x N ) = 0 , g N ( x N ) ≤ 0 تعريف دالة الحاجز-لاغرانج:
L ( x , s , y , z ; μ ) = f ( x ) − μ ∑ i log ( s i ) + y T c ( x ) + z T ( g ( x ) + s ) L(x,s,y,z;\mu) = f(x) - \mu\sum_i \log(s_i) + y^T c(x) + z^T(g(x) + s) L ( x , s , y , z ; μ ) = f ( x ) − μ ∑ i log ( s i ) + y T c ( x ) + z T ( g ( x ) + s )
النسخة المعززة:
A ( x , s , y , z ; μ , η ) = L ( x , s , y , z ; μ ) + η 2 ( ∥ c ( x ) ∥ 2 + ∥ g ( x ) + s ∥ 2 ) A(x,s,y,z;\mu,\eta) = L(x,s,y,z;\mu) + \frac{\eta}{2}(\|c(x)\|^2 + \|g(x)+s\|^2) A ( x , s , y , z ; μ , η ) = L ( x , s , y , z ; μ ) + 2 η ( ∥ c ( x ) ∥ 2 + ∥ g ( x ) + s ∥ 2 )
تتطلب كل تكرار حل النظام الخطي:
[ P 0 C T G T 0 S − 1 Z 0 I C 0 − 1 η I 0 G I 0 − 1 η I ] [ Δ x Δ s Δ y Δ z ] = − ∇ L ( x , s , y , z ; μ ) \begin{bmatrix}
P & 0 & C^T & G^T \\
0 & S^{-1}Z & 0 & I \\
C & 0 & -\frac{1}{\eta}I & 0 \\
G & I & 0 & -\frac{1}{\eta}I
\end{bmatrix}
\begin{bmatrix}
\Delta x \\ \Delta s \\ \Delta y \\ \Delta z
\end{bmatrix} = -\nabla L(x,s,y,z;\mu) P 0 C G 0 S − 1 Z 0 I C T 0 − η 1 I 0 G T I 0 − η 1 I Δ x Δ s Δ y Δ z = − ∇ L ( x , s , y , z ; μ )
من خلال حذف المتغيرات، يتم تحويل النظام الخطي لطريقة النقطة الداخلية إلى مشكلة LQR ثنائية التنظيم:
[ P C T C − δ I ] [ x y ] = − [ s c ] \begin{bmatrix}
P & C^T \\
C & -\delta I
\end{bmatrix}
\begin{bmatrix}
x \\ y
\end{bmatrix} = -\begin{bmatrix}
s \\ c
\end{bmatrix} [ P C C T − δ I ] [ x y ] = − [ s c ]
حيث δ > 0 \delta > 0 δ > 0 هو معامل التنظيم، والمصفوفة P P P لها هيكل قطري كتلي، و C C C تحتوي على مصفوفات جاكوبيان لقيود الديناميكا.
تعريف المتغيرات الرئيسية:
V i = 1 δ ( F i − I ) V_i = \frac{1}{\delta}(F_i - I) V i = δ 1 ( F i − I ) : تقريب دالة القيمةv i = 1 δ ( f i + c i ) v_i = \frac{1}{\delta}(f_i + c_i) v i = δ 1 ( f i + c i ) : متجه الإزاحةصيغة التكرار:
G_i = B_i^T W_{i+1} B_i + R_i
H_i = B_i^T W_{i+1} A_i + M_i^T
h_i = r_i + B_i^T g_{i+1}
K_i = -G_i^{-1} H_i
k_i = -G_i^{-1} h_i
V_i = A_i^T W_{i+1} A_i + Q_i + H_i^T K_i
v_i = q_i + A_i^T g_{i+1} + H_i^T k_i
W_i = (I + \delta V_i)^{-1} V_i
g_i = v_i + W_i(c_i - \delta v_i)
استعادة المسار الأمثل من خلال قانون التحكم u i = K i x i + k i u_i = K_i x_i + k_i u i = K i x i + k i ومعادلة انتقال الحالة.
استخدام المسح المترابط لتحقيق تعقيد زمني متوازي O(log N):
دوال القيمة الفاصلة : تعريف V i → j ( x i , x j ) V_{i \to j}(x_i, x_j) V i → j ( x i , x j ) يمثل دالة القيمة من المرحلة i إلى jقواعد التركيب : إنشاء عملية تركيب لدوال القيمة الفاصلة، تحقق الخاصية الترابطيةالحساب المتوازي : حساب جميع V i → N + 1 V_{i \to N+1} V i → N + 1 بالتوازي من خلال المسح المترابط العكسيتحويل التكرار الأمامي إلى تركيب دوال أفينية:
x i + 1 = M i x i + m i x_{i+1} = M_i x_i + m_i x i + 1 = M i x i + m i
استخدام المسح المترابط لتركيب جميع التحويلات الأفينية بالتوازي، مما يحقق انتشار أمامي متوازي O(log N).
تصميم الاستقرار العددي : تجنب المشاكل العددية عند δ → 0 \delta \to 0 δ → 0 من خلال إعادة البارامترةضمان اتجاه الانحدار : إثبات نظري بأن اتجاه البحث هو اتجاه انحدار لدالة الحاجز المعزز-لاغرانجالحل المنظم : الاستفادة الكاملة من الهيكل الزمني لمشاكل التحكم الأمثل، تجنب حل الأنظمة الخطية الكثيفة الكبيرةتصميم المعالجة المتوازية : تحقيق معالجة متوازية فعالة بناءً على المسح المترابط من البرمجة الوظيفيةيوفر البحث مجموعتي تطبيق:
تطبيق C++ :بناءً على إطار SIP (Simple Interior Point) يدعم تكامل حل QDLDL المتفرق يتجنب تخصيص الذاكرة الديناميكية في وقت التشغيل يدعم حل نظام KKT مخصص تطبيق JAX :يدعم التفاضل التلقائي تسريع GPU/TPU يتضمن مجموعة اختبارات وحدة كاملة التحقق من صحة الخوارزمية على عينات عشوائية تحقق الشروط المطلوبة للتحديد الموجب التحقق من التوافق مع خوارزمية LQR القياسية عند δ = 0 \delta = 0 δ = 0 اختبارات الاستقرار العددي يتحقق البحث من صحة الخوارزمية بالطرق التالية:
التحقق النظري : عندما δ = 0 \delta = 0 δ = 0 ، تتحول الخوارزمية إلى خوارزمية LQR القياسيةالتحقق العددي : التحقق من صحة الحل على حالات اختبار مولدة عشوائياًاختبارات الوحدة : يتضمن تطبيق JAX مجموعة اختبارات وحدة شاملةالنظرية 1.2 تثبت أنه عندما Δ x ≠ 0 \Delta x \neq 0 Δ x = 0 أو Δ s ≠ 0 \Delta s \neq 0 Δ s = 0 ، يحقق مشتق الاتجاه:
D ( A ( ⋅ , ⋅ , y , z ; μ , η ) ; ( Δ x , Δ s ) ) ( x , s ) < 0 D(A(\cdot,\cdot,y,z;\mu,\eta);(\Delta x,\Delta s))(x,s) < 0 D ( A ( ⋅ , ⋅ , y , z ; μ , η ) ; ( Δ x , Δ s )) ( x , s ) < 0
هذا يضمن التقارب العام للخوارزمية.
الخوارزمية المتسلسلة : تعقيد زمني O(N)الخوارزمية المتوازية : تعقيد زمني متوازي O(log N)تعقيد المساحة : O(N)، يتناسب خطياً مع حجم المشكلةطرق LQR الكلاسيكية : اشتق Kalman (1960) تكرارات ريكاتي لأول مرةتطبيق طرق النقطة الداخلية : طبق Rao وآخرون (1998) طرق النقطة الداخلية على التحكم التنبؤي بالنموذج لأول مرةLQR المتوازي : اقترح Särkkä و García-Fernández (2021) أول خوارزمية LQR متوازية O(log N)الحل المنظم : استكشفت الأعمال الحديثة مثل FATROP معالجة القيود المنظمةالاكتمال النظري : توفير تحليل نظري شامل وضمانات التقاربالاستقرار العددي : حل مشكلة عدم الاستقرار العددي عند تميل معامل التنظيم إلى الصفرالجدوى العملية : توفير تطبيق مفتوح المصدر كاملالعمومية : يمكن التعامل مع مشاكل التحكم الأمثل غير المحدبة ذات القيود العامةاشتقاق ناجح لامتدادات ريكاتي المغلقة لمشاكل LQR ثنائية التنظيم إنشاء اتصال مع طرق النقطة الداخلية المنتظمة، مما يضمن تقارب الخوارزمية تحقيق خوارزمية فعالة بتعقيد زمني متوازي O(log N) توفير تطبيق مفتوح المصدر مستقر عددياً وعملي تقييد نوع القيود : تنطبق الطريقة بشكل أساسي على المشاكل التي يمكن تحويلها إلى صيغة LQRمتطلبات التحديد الموجب : تتطلب الخوارزمية افتراض التحديد الموجب لمصفوفة هيسيانالأداء العملية : يفتقد البحث إلى مقارنات الأداء على مشاكل عملية كبيرة الحجمالتوسع إلى قيود أكثر عمومية : التعامل مع قيود المسار والقيود النهائية الأكثر تعقيداًالتنظيم التكيفي : تطوير استراتيجيات لاختيار معاملات التنظيم بشكل تكيفيالتحقق من التطبيقات العملية : التحقق من فعالية الطريقة في تطبيقات عملية مثل التحكم الروبوتيمساهمة نظرية كبيرة : أول دمج لتقنية التنظيم الثنائي مع تكرارات ريكاتي، مع تحليل نظري شاملتصميم خوارزمي أنيق : استخدام ذكي لهيكل الزمن في مشاكل التحكم الأمثلاعتبارات عددية دقيقة : اهتمام خاص بمشاكل الاستقرار العدديجودة التطبيق عالية : توفير تطبيقات مفتوحة المصدر عالية الجودة بلغتينابتكار المعالجة المتوازية : طريقة المعالجة المتوازية بناءً على المسح المترابط لها قيمة نظرية وعمليةالتحقق التجريبي محدود : في الغالب تحقق نظري واختبارات عددية بسيطة، يفتقد إلى مقارنات على مشاكل عملية كبيرةتحليل الأداء غير كافٍ : لا يوجد تحليل تفصيلي لوقت الحساب واستخدام الذاكرةنقاش نطاق التطبيق : نقص النقاش المتعمق حول أنواع مشاكل التحكم الأمثل الأكثر ملاءمة لهذه الطريقةنقص إرشادات اختيار المعاملات : نقاش محدود حول استراتيجيات اختيار معاملات التنظيمالقيمة الأكاديمية : توفير أدوات نظرية جديدة لطرق التحكم الأمثل العدديةالقيمة العملية : يساعد التطبيق مفتوح المصدر على نشر الطريقة وتطبيقهاقابلية التكرار : تضمن وصف الخوارزمية التفصيلي والكود مفتوح المصدر قابلية التكرارالإلهام : قد تلهم فكرة التنظيم الثنائي حل مشاكل تحسين أخرىأنظمة التحكم في الوقت الفعلي : تطبيقات التحكم التنبؤي بالنموذج التي تتطلب حلاً سريعاًالتحسين واسع النطاق : مشاكل التحكم الأمثل ذات المجال الزمني الطويلبيئات الحوسبة المتوازية : سيناريوهات التطبيق التي يمكنها الاستفادة الكاملة من موارد المعالجة متعددة النوى أو GPUالتحسين المقيد : مشاكل التحكم التي تتطلب التعامل مع قيود معقدة من المساواة والمتباينةيستشهد البحث بالأدبيات المهمة في هذا المجال، بما في ذلك:
Kalman (1960): أساسيات نظرية التحكم الأمثل Blelloch (1989): نظرية الخوارزميات المتوازية للمسح المترابط Särkkä & García-Fernández (2021): خوارزميات LQR المتوازية Wächter & Biegler (2006): حل IPOPT لطريقة النقطة الداخلية التقييم الشامل : هذا بحث ممتاز يتمتع بمساهمات نظرية بارزة وابتكارات تقنية واضحة. نجح المؤلفون في إدخال تقنية التنظيم الثنائي إلى تكرارات ريكاتي، ليس فقط الحفاظ على الاستقرار العددي، بل أيضاً تحقيق معالجة متوازية فعالة. على الرغم من وجود مجال للتحسن في التحقق من التطبيقات العملية، فإن قيمته النظرية ومساهمته في المصدر المفتوح تجعله تقدماً مهماً في مجال الطرق العددية للتحكم الأمثل.