2025-11-23T02:40:16.760420

Dual-Regularized Riccati Recursions for Interior-Point Optimal Control

Sousa-Pinto, Orban
We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.
academic

Dual-Regularisierte Riccati-Rekursionen für Interior-Point-Optimalsteuerung

Grundlegende Informationen

  • Paper-ID: 2509.16370
  • Titel: Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
  • Autoren: João Sousa-Pinto, Dominique Orban
  • Klassifizierung: math.OC cs.MS cs.RO cs.SY eess.SY
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2509.16370

Zusammenfassung

In diesem Artikel werden geschlossene Erweiterungen der Riccati-Rekursion zur Lösung dual-regularisierter LQR-Probleme hergeleitet (einschließlich sequenzieller und paralleler Versionen). Die Autoren zeigen, wie diese Methoden durch regularisierte Interior-Point-Verfahren zur Lösung allgemeiner, eingeschränkter, nicht-konvexer, zeitdiskreter Optimalsteuerungsprobleme verwendet werden können, während gleichzeitig garantiert wird, dass jeder Schritt eine Abstiegsrichtung der erweiterten Barriere-Lagrange-Funktion darstellt. Das Papier bietet MIT-lizenzierte Implementierungen in C++ und JAX.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung besteht darin, wie man effizient nicht-konvexe zeitdiskrete Optimalsteuerungsprobleme mit Gleichheits- und Ungleichheitsnebenbedingungen löst. Traditionelle Methoden haben bei der Behandlung solcher Probleme folgende Herausforderungen:

  1. Rechnerische Effizienzprobleme: Standardmäßige Interior-Point-Verfahren erfordern bei Optimalsteuerungsproblemen die Lösung großer linearer Systeme mit hoher Rechenkomplexität
  2. Numerische Stabilität: Wenn der Regularisierungsparameter gegen Null geht, können traditionelle Methoden numerische Instabilität aufweisen
  3. Parallelisierungsschwierigkeiten: Bestehende Methoden können Parallelrechenressourcen nicht vollständig nutzen

Bedeutung des Problems

Optimalsteuerungsprobleme haben breite Anwendungen in der Robotik, Luft- und Raumfahrt, autonomem Fahren und anderen Bereichen. Die effiziente Lösung solcher Probleme ist für Echtzeit-Steuersysteme entscheidend, besonders in Szenarien, die komplexe Nebenbedingungen erfordern.

Einschränkungen bestehender Methoden

  1. DDP-Algorithmus: Obwohl die in der Praxis am häufigsten verwendete Methode, kann diese Single-Shooting-Methode Zustandstrajektorien nicht unabhängig warm starten
  2. Standard-LQR-Methoden: Nur für uneingeschränkte oder einfach eingeschränkte lineare Systeme geeignet
  3. Bestehende Interior-Point-Verfahren: Wie IPOPT und andere universelle Löser können die Struktureigenschaften von Optimalsteuerungsproblemen nicht vollständig ausnutzen

Kernbeiträge

  1. Theoretischer Beitrag: Herleitung geschlossener Riccati-Rekursionserweiterungen zur Lösung dual-regularisierter LQR-Probleme, einschließlich sequenzieller und paralleler Versionen
  2. Algorithmische Innovation: Vorschlag eines regularisierten Interior-Point-Verfahrens, das Abstiegsrichtungen garantiert, unter Verwendung der erweiterten Barriere-Lagrange-Funktion als Merit-Funktion
  3. Numerische Stabilität: Entwurf eines Algorithmus, der numerisch stabil ist, wenn der Regularisierungsparameter δ→0 geht und den Standard-LQR-Algorithmus wiederherstellen kann
  4. Parallelisierter Algorithmus: Implementierung eines Lösungsalgorithmus mit O(log N) paralleler Zeitkomplexität basierend auf assoziativen Scans
  5. Software-Beitrag: Bereitstellung von Open-Source-Implementierungen in C++ und JAX mit Unterstützung für effiziente dünnbesetzte lineare Algebra

Methodische Details

Aufgabendefinition

Betrachten Sie das zeitdiskrete Optimalsteuerungsproblem:

minx0,u0,,xNi=0N1fi(xi,ui)+fN(xN)\min_{x_0,u_0,\ldots,x_N} \sum_{i=0}^{N-1} f_i(x_i, u_i) + f_N(x_N)

Nebenbedingungen:

  • Anfangszustand: x0=s0x_0 = s_0
  • Dynamische Nebenbedingungen: xi+1=di(xi,ui),i{0,,N1}x_{i+1} = d_i(x_i, u_i), \forall i \in \{0,\ldots,N-1\}
  • Gleichheitsnebenbedingungen: ci(xi,ui)=0,i{0,,N1}c_i(x_i, u_i) = 0, \forall i \in \{0,\ldots,N-1\}
  • Ungleichheitsnebenbedingungen: gi(xi,ui)0,i{0,,N1}g_i(x_i, u_i) \leq 0, \forall i \in \{0,\ldots,N-1\}
  • Endbedingungen: cN(xN)=0,gN(xN)0c_N(x_N) = 0, g_N(x_N) \leq 0

Regularisiertes Interior-Point-Verfahren-Rahmenwerk

Erweiterte Barriere-Lagrange-Funktion

Definition der Barriere-Lagrange-Funktion: L(x,s,y,z;μ)=f(x)μilog(si)+yTc(x)+zT(g(x)+s)L(x,s,y,z;\mu) = f(x) - \mu\sum_i \log(s_i) + y^T c(x) + z^T(g(x) + s)

Erweiterte Version: A(x,s,y,z;μ,η)=L(x,s,y,z;μ)+η2(c(x)2+g(x)+s2)A(x,s,y,z;\mu,\eta) = L(x,s,y,z;\mu) + \frac{\eta}{2}(\|c(x)\|^2 + \|g(x)+s\|^2)

Lösung linearer Systeme

Jede Iteration erfordert die Lösung des linearen Systems:

undefined