2025-11-23T02:40:16.760420

Dual-Regularized Riccati Recursions for Interior-Point Optimal Control

Sousa-Pinto, Orban
We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.
academic

تكرارات ريكاتي ثنائية التنظيم لتحكم أمثل داخلي النقطة

المعلومات الأساسية

  • معرّف البحث: 2509.16370
  • العنوان: Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
  • المؤلفون: João Sousa-Pinto, Dominique Orban
  • التصنيف: math.OC cs.MS cs.RO cs.SY eess.SY
  • تاريخ النشر: 15 أكتوبر 2025 (arXiv v2)
  • رابط البحث: https://arxiv.org/abs/2509.16370

الملخص

يشتق هذا البحث صيغة مغلقة لتكرارات ريكاتي لحل مشاكل التحكم الخطي التربيعي (LQR) ثنائية التنظيم، بما في ذلك النسخ المتسلسلة والمتوازية. يوضح المؤلفون كيفية استخدام هذه الطرق لحل مشاكل التحكم الأمثل غير المحدبة ذات القيود العامة والمنفصلة زمنياً من خلال طرق النقطة الداخلية المنتظمة، مع ضمان أن كل خطوة تمثل اتجاه انحدار لدالة الحاجز المعزز-لاغرانج. يوفر البحث تطبيقات مرخصة بموجب MIT بلغات C++ و JAX.

الخلفية البحثية والدافع

المشكلة الأساسية

يعالج هذا البحث المشكلة الأساسية المتمثلة في كيفية حل مشاكل التحكم الأمثل غير المحدبة والمنفصلة زمنياً ذات القيود المساواة والمتباينة بكفاءة. تواجه الطرق التقليدية التحديات التالية عند التعامل مع هذه المشاكل:

  1. مشاكل الكفاءة الحسابية: تتطلب طرق النقطة الداخلية القياسية حل أنظمة خطية كبيرة الحجم عند التعامل مع مشاكل التحكم الأمثل، مما يؤدي إلى تعقيد حسابي عالي
  2. الاستقرار العددي: قد تظهر الطرق التقليدية عدم استقرار عددي عندما تميل معاملات التنظيم إلى الصفر
  3. صعوبة المعالجة المتوازية: يصعب على الطرق الحالية الاستفادة الكاملة من موارد الحوسبة المتوازية

أهمية المشكلة

تتمتع مشاكل التحكم الأمثل بتطبيقات واسعة في مجالات الروبوتات والملاحة الجوية والقيادة الذاتية وغيرها. يعتبر الحل الفعال لهذه المشاكل حاسماً لأنظمة التحكم في الوقت الفعلي، خاصة في السيناريوهات التي تتطلب التعامل مع قيود معقدة.

قيود الطرق الموجودة

  1. خوارزمية البرمجة الديناميكية التفاضلية (DDP): على الرغم من أنها الطريقة الأكثر استخداماً في الممارسة العملية، إلا أنها كطريقة إطلاق واحد لا يمكنها البدء الساخن المستقل لمسارات الحالة
  2. طرق LQR القياسية: تنطبق فقط على الأنظمة الخطية بدون قيود أو ذات قيود بسيطة
  3. طرق النقطة الداخلية الموجودة: مثل حل IPOPT العام، لا يمكنها الاستفادة الكاملة من خصائص هيكل مشاكل التحكم الأمثل

المساهمات الأساسية

  1. المساهمة النظرية: اشتقاق امتدادات ريكاتي المغلقة لحل مشاكل LQR ثنائية التنظيم، بما في ذلك النسخ المتسلسلة والمتوازية
  2. الابتكار الخوارزمي: اقتراح طريقة نقطة داخلية منتظمة تضمن اتجاهات انحدار من خلال دالة الحاجز المعزز-لاغرانج كدالة جدارة
  3. الاستقرار العددي: تصميم خوارزمية مستقرة عددياً عندما يميل معامل التنظيم δ→0، قادرة على استعادة خوارزمية LQR القياسية
  4. الخوارزمية المتوازية: تحقيق تعقيد زمني متوازي O(log N) بناءً على المسح المترابط (associative scans)
  5. المساهمة البرمجية: توفير تطبيقات مفتوحة المصدر بلغات C++ و JAX، تدعم عمليات الجبر الخطي المتفرقة الفعالة

شرح الطريقة

تعريف المهمة

ضع في الاعتبار مشكلة التحكم الأمثل المنفصلة زمنياً:

minx0,u0,,xNi=0N1fi(xi,ui)+fN(xN)\min_{x_0,u_0,\ldots,x_N} \sum_{i=0}^{N-1} f_i(x_i, u_i) + f_N(x_N)

شروط القيد:

  • الحالة الأولية: x0=s0x_0 = s_0
  • قيود الديناميكا: xi+1=di(xi,ui),i{0,,N1}x_{i+1} = d_i(x_i, u_i), \forall i \in \{0,\ldots,N-1\}
  • قيود المساواة: ci(xi,ui)=0,i{0,,N1}c_i(x_i, u_i) = 0, \forall i \in \{0,\ldots,N-1\}
  • قيود المتباينة: gi(xi,ui)0,i{0,,N1}g_i(x_i, u_i) \leq 0, \forall i \in \{0,\ldots,N-1\}
  • قيود الحالة النهائية: cN(xN)=0,gN(xN)0c_N(x_N) = 0, g_N(x_N) \leq 0

إطار طريقة النقطة الداخلية المنتظمة

دالة الحاجز المعزز-لاغرانج

تعريف دالة الحاجز-لاغرانج: L(x,s,y,z;μ)=f(x)μilog(si)+yTc(x)+zT(g(x)+s)L(x,s,y,z;\mu) = f(x) - \mu\sum_i \log(s_i) + y^T c(x) + z^T(g(x) + s)

النسخة المعززة: A(x,s,y,z;μ,η)=L(x,s,y,z;μ)+η2(c(x)2+g(x)+s2)A(x,s,y,z;\mu,\eta) = L(x,s,y,z;\mu) + \frac{\eta}{2}(\|c(x)\|^2 + \|g(x)+s\|^2)

حل النظام الخطي

تتطلب كل تكرار حل النظام الخطي: [P0CTGT0S1Z0IC01ηI0GI01ηI][ΔxΔsΔyΔz]=L(x,s,y,z;μ)\begin{bmatrix} P & 0 & C^T & G^T \\ 0 & S^{-1}Z & 0 & I \\ C & 0 & -\frac{1}{\eta}I & 0 \\ G & I & 0 & -\frac{1}{\eta}I \end{bmatrix} \begin{bmatrix} \Delta x \\ \Delta s \\ \Delta y \\ \Delta z \end{bmatrix} = -\nabla L(x,s,y,z;\mu)

مشكلة LQR ثنائية التنظيم

من خلال حذف المتغيرات، يتم تحويل النظام الخطي لطريقة النقطة الداخلية إلى مشكلة LQR ثنائية التنظيم: [PCTCδI][xy]=[sc]\begin{bmatrix} P & C^T \\ C & -\delta I \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = -\begin{bmatrix} s \\ c \end{bmatrix}

حيث δ>0\delta > 0 هو معامل التنظيم، والمصفوفة PP لها هيكل قطري كتلي، و CC تحتوي على مصفوفات جاكوبيان لقيود الديناميكا.

الخوارزمية المتسلسلة

التكرار العكسي

تعريف المتغيرات الرئيسية:

  • Vi=1δ(FiI)V_i = \frac{1}{\delta}(F_i - I): تقريب دالة القيمة
  • vi=1δ(fi+ci)v_i = \frac{1}{\delta}(f_i + c_i): متجه الإزاحة

صيغة التكرار:

G_i = B_i^T W_{i+1} B_i + R_i
H_i = B_i^T W_{i+1} A_i + M_i^T
h_i = r_i + B_i^T g_{i+1}
K_i = -G_i^{-1} H_i
k_i = -G_i^{-1} h_i
V_i = A_i^T W_{i+1} A_i + Q_i + H_i^T K_i
v_i = q_i + A_i^T g_{i+1} + H_i^T k_i
W_i = (I + \delta V_i)^{-1} V_i
g_i = v_i + W_i(c_i - \delta v_i)

التكرار الأمامي

استعادة المسار الأمثل من خلال قانون التحكم ui=Kixi+kiu_i = K_i x_i + k_i ومعادلة انتقال الحالة.

الخوارزمية المتوازية

المعالجة المتوازية بالمسح المترابط

استخدام المسح المترابط لتحقيق تعقيد زمني متوازي O(log N):

  1. دوال القيمة الفاصلة: تعريف Vij(xi,xj)V_{i \to j}(x_i, x_j) يمثل دالة القيمة من المرحلة i إلى j
  2. قواعد التركيب: إنشاء عملية تركيب لدوال القيمة الفاصلة، تحقق الخاصية الترابطية
  3. الحساب المتوازي: حساب جميع ViN+1V_{i \to N+1} بالتوازي من خلال المسح المترابط العكسي

تركيب الدوال الأفينية

تحويل التكرار الأمامي إلى تركيب دوال أفينية: xi+1=Mixi+mix_{i+1} = M_i x_i + m_i

استخدام المسح المترابط لتركيب جميع التحويلات الأفينية بالتوازي، مما يحقق انتشار أمامي متوازي O(log N).

نقاط الابتكار التقني

  1. تصميم الاستقرار العددي: تجنب المشاكل العددية عند δ0\delta \to 0 من خلال إعادة البارامترة
  2. ضمان اتجاه الانحدار: إثبات نظري بأن اتجاه البحث هو اتجاه انحدار لدالة الحاجز المعزز-لاغرانج
  3. الحل المنظم: الاستفادة الكاملة من الهيكل الزمني لمشاكل التحكم الأمثل، تجنب حل الأنظمة الخطية الكثيفة الكبيرة
  4. تصميم المعالجة المتوازية: تحقيق معالجة متوازية فعالة بناءً على المسح المترابط من البرمجة الوظيفية

إعداد التجارب

تفاصيل التطبيق

يوفر البحث مجموعتي تطبيق:

  1. تطبيق C++:
    • بناءً على إطار SIP (Simple Interior Point)
    • يدعم تكامل حل QDLDL المتفرق
    • يتجنب تخصيص الذاكرة الديناميكية في وقت التشغيل
    • يدعم حل نظام KKT مخصص
  2. تطبيق JAX:
    • يدعم التفاضل التلقائي
    • تسريع GPU/TPU
    • يتضمن مجموعة اختبارات وحدة كاملة

طرق التحقق

  • التحقق من صحة الخوارزمية على عينات عشوائية تحقق الشروط المطلوبة للتحديد الموجب
  • التحقق من التوافق مع خوارزمية LQR القياسية عند δ=0\delta = 0
  • اختبارات الاستقرار العددي

نتائج التجارب

التحقق من الصحة

يتحقق البحث من صحة الخوارزمية بالطرق التالية:

  1. التحقق النظري: عندما δ=0\delta = 0، تتحول الخوارزمية إلى خوارزمية LQR القياسية
  2. التحقق العددي: التحقق من صحة الحل على حالات اختبار مولدة عشوائياً
  3. اختبارات الوحدة: يتضمن تطبيق JAX مجموعة اختبارات وحدة شاملة

ضمان اتجاه الانحدار

النظرية 1.2 تثبت أنه عندما Δx0\Delta x \neq 0 أو Δs0\Delta s \neq 0، يحقق مشتق الاتجاه: D(A(,,y,z;μ,η);(Δx,Δs))(x,s)<0D(A(\cdot,\cdot,y,z;\mu,\eta);(\Delta x,\Delta s))(x,s) < 0

هذا يضمن التقارب العام للخوارزمية.

تحليل التعقيد

  • الخوارزمية المتسلسلة: تعقيد زمني O(N)
  • الخوارزمية المتوازية: تعقيد زمني متوازي O(log N)
  • تعقيد المساحة: O(N)، يتناسب خطياً مع حجم المشكلة

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. طرق LQR الكلاسيكية: اشتق Kalman (1960) تكرارات ريكاتي لأول مرة
  2. تطبيق طرق النقطة الداخلية: طبق Rao وآخرون (1998) طرق النقطة الداخلية على التحكم التنبؤي بالنموذج لأول مرة
  3. LQR المتوازي: اقترح Särkkä و García-Fernández (2021) أول خوارزمية LQR متوازية O(log N)
  4. الحل المنظم: استكشفت الأعمال الحديثة مثل FATROP معالجة القيود المنظمة

المزايا النسبية للبحث الحالي

  1. الاكتمال النظري: توفير تحليل نظري شامل وضمانات التقارب
  2. الاستقرار العددي: حل مشكلة عدم الاستقرار العددي عند تميل معامل التنظيم إلى الصفر
  3. الجدوى العملية: توفير تطبيق مفتوح المصدر كامل
  4. العمومية: يمكن التعامل مع مشاكل التحكم الأمثل غير المحدبة ذات القيود العامة

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. اشتقاق ناجح لامتدادات ريكاتي المغلقة لمشاكل LQR ثنائية التنظيم
  2. إنشاء اتصال مع طرق النقطة الداخلية المنتظمة، مما يضمن تقارب الخوارزمية
  3. تحقيق خوارزمية فعالة بتعقيد زمني متوازي O(log N)
  4. توفير تطبيق مفتوح المصدر مستقر عددياً وعملي

القيود

  1. تقييد نوع القيود: تنطبق الطريقة بشكل أساسي على المشاكل التي يمكن تحويلها إلى صيغة LQR
  2. متطلبات التحديد الموجب: تتطلب الخوارزمية افتراض التحديد الموجب لمصفوفة هيسيان
  3. الأداء العملية: يفتقد البحث إلى مقارنات الأداء على مشاكل عملية كبيرة الحجم

الاتجاهات المستقبلية

  1. التوسع إلى قيود أكثر عمومية: التعامل مع قيود المسار والقيود النهائية الأكثر تعقيداً
  2. التنظيم التكيفي: تطوير استراتيجيات لاختيار معاملات التنظيم بشكل تكيفي
  3. التحقق من التطبيقات العملية: التحقق من فعالية الطريقة في تطبيقات عملية مثل التحكم الروبوتي

التقييم المتعمق

المزايا

  1. مساهمة نظرية كبيرة: أول دمج لتقنية التنظيم الثنائي مع تكرارات ريكاتي، مع تحليل نظري شامل
  2. تصميم خوارزمي أنيق: استخدام ذكي لهيكل الزمن في مشاكل التحكم الأمثل
  3. اعتبارات عددية دقيقة: اهتمام خاص بمشاكل الاستقرار العددي
  4. جودة التطبيق عالية: توفير تطبيقات مفتوحة المصدر عالية الجودة بلغتين
  5. ابتكار المعالجة المتوازية: طريقة المعالجة المتوازية بناءً على المسح المترابط لها قيمة نظرية وعملية

أوجه القصور

  1. التحقق التجريبي محدود: في الغالب تحقق نظري واختبارات عددية بسيطة، يفتقد إلى مقارنات على مشاكل عملية كبيرة
  2. تحليل الأداء غير كافٍ: لا يوجد تحليل تفصيلي لوقت الحساب واستخدام الذاكرة
  3. نقاش نطاق التطبيق: نقص النقاش المتعمق حول أنواع مشاكل التحكم الأمثل الأكثر ملاءمة لهذه الطريقة
  4. نقص إرشادات اختيار المعاملات: نقاش محدود حول استراتيجيات اختيار معاملات التنظيم

التأثير

  1. القيمة الأكاديمية: توفير أدوات نظرية جديدة لطرق التحكم الأمثل العددية
  2. القيمة العملية: يساعد التطبيق مفتوح المصدر على نشر الطريقة وتطبيقها
  3. قابلية التكرار: تضمن وصف الخوارزمية التفصيلي والكود مفتوح المصدر قابلية التكرار
  4. الإلهام: قد تلهم فكرة التنظيم الثنائي حل مشاكل تحسين أخرى

السيناريوهات المناسبة

  1. أنظمة التحكم في الوقت الفعلي: تطبيقات التحكم التنبؤي بالنموذج التي تتطلب حلاً سريعاً
  2. التحسين واسع النطاق: مشاكل التحكم الأمثل ذات المجال الزمني الطويل
  3. بيئات الحوسبة المتوازية: سيناريوهات التطبيق التي يمكنها الاستفادة الكاملة من موارد المعالجة متعددة النوى أو GPU
  4. التحسين المقيد: مشاكل التحكم التي تتطلب التعامل مع قيود معقدة من المساواة والمتباينة

المراجع

يستشهد البحث بالأدبيات المهمة في هذا المجال، بما في ذلك:

  • Kalman (1960): أساسيات نظرية التحكم الأمثل
  • Blelloch (1989): نظرية الخوارزميات المتوازية للمسح المترابط
  • Särkkä & García-Fernández (2021): خوارزميات LQR المتوازية
  • Wächter & Biegler (2006): حل IPOPT لطريقة النقطة الداخلية

التقييم الشامل: هذا بحث ممتاز يتمتع بمساهمات نظرية بارزة وابتكارات تقنية واضحة. نجح المؤلفون في إدخال تقنية التنظيم الثنائي إلى تكرارات ريكاتي، ليس فقط الحفاظ على الاستقرار العددي، بل أيضاً تحقيق معالجة متوازية فعالة. على الرغم من وجود مجال للتحسن في التحقق من التطبيقات العملية، فإن قيمته النظرية ومساهمته في المصدر المفتوح تجعله تقدماً مهماً في مجال الطرق العددية للتحكم الأمثل.