We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.
- Paper-ID: 2509.16370
- Titel: Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
- Autoren: João Sousa-Pinto, Dominique Orban
- Klassifizierung: math.OC cs.MS cs.RO cs.SY eess.SY
- Veröffentlichungsdatum: 15. Oktober 2025 (arXiv v2)
- Paper-Link: https://arxiv.org/abs/2509.16370
In diesem Artikel werden geschlossene Erweiterungen der Riccati-Rekursion zur Lösung dual-regularisierter LQR-Probleme hergeleitet (einschließlich sequenzieller und paralleler Versionen). Die Autoren zeigen, wie diese Methoden durch regularisierte Interior-Point-Verfahren zur Lösung allgemeiner, eingeschränkter, nicht-konvexer, zeitdiskreter Optimalsteuerungsprobleme verwendet werden können, während gleichzeitig garantiert wird, dass jeder Schritt eine Abstiegsrichtung der erweiterten Barriere-Lagrange-Funktion darstellt. Das Papier bietet MIT-lizenzierte Implementierungen in C++ und JAX.
Das Kernproblem dieser Forschung besteht darin, wie man effizient nicht-konvexe zeitdiskrete Optimalsteuerungsprobleme mit Gleichheits- und Ungleichheitsnebenbedingungen löst. Traditionelle Methoden haben bei der Behandlung solcher Probleme folgende Herausforderungen:
- Rechnerische Effizienzprobleme: Standardmäßige Interior-Point-Verfahren erfordern bei Optimalsteuerungsproblemen die Lösung großer linearer Systeme mit hoher Rechenkomplexität
- Numerische Stabilität: Wenn der Regularisierungsparameter gegen Null geht, können traditionelle Methoden numerische Instabilität aufweisen
- Parallelisierungsschwierigkeiten: Bestehende Methoden können Parallelrechenressourcen nicht vollständig nutzen
Optimalsteuerungsprobleme haben breite Anwendungen in der Robotik, Luft- und Raumfahrt, autonomem Fahren und anderen Bereichen. Die effiziente Lösung solcher Probleme ist für Echtzeit-Steuersysteme entscheidend, besonders in Szenarien, die komplexe Nebenbedingungen erfordern.
- DDP-Algorithmus: Obwohl die in der Praxis am häufigsten verwendete Methode, kann diese Single-Shooting-Methode Zustandstrajektorien nicht unabhängig warm starten
- Standard-LQR-Methoden: Nur für uneingeschränkte oder einfach eingeschränkte lineare Systeme geeignet
- Bestehende Interior-Point-Verfahren: Wie IPOPT und andere universelle Löser können die Struktureigenschaften von Optimalsteuerungsproblemen nicht vollständig ausnutzen
- Theoretischer Beitrag: Herleitung geschlossener Riccati-Rekursionserweiterungen zur Lösung dual-regularisierter LQR-Probleme, einschließlich sequenzieller und paralleler Versionen
- Algorithmische Innovation: Vorschlag eines regularisierten Interior-Point-Verfahrens, das Abstiegsrichtungen garantiert, unter Verwendung der erweiterten Barriere-Lagrange-Funktion als Merit-Funktion
- Numerische Stabilität: Entwurf eines Algorithmus, der numerisch stabil ist, wenn der Regularisierungsparameter δ→0 geht und den Standard-LQR-Algorithmus wiederherstellen kann
- Parallelisierter Algorithmus: Implementierung eines Lösungsalgorithmus mit O(log N) paralleler Zeitkomplexität basierend auf assoziativen Scans
- Software-Beitrag: Bereitstellung von Open-Source-Implementierungen in C++ und JAX mit Unterstützung für effiziente dünnbesetzte lineare Algebra
Betrachten Sie das zeitdiskrete Optimalsteuerungsproblem:
minx0,u0,…,xN∑i=0N−1fi(xi,ui)+fN(xN)
Nebenbedingungen:
- Anfangszustand: x0=s0
- Dynamische Nebenbedingungen: xi+1=di(xi,ui),∀i∈{0,…,N−1}
- Gleichheitsnebenbedingungen: ci(xi,ui)=0,∀i∈{0,…,N−1}
- Ungleichheitsnebenbedingungen: gi(xi,ui)≤0,∀i∈{0,…,N−1}
- Endbedingungen: cN(xN)=0,gN(xN)≤0
Definition der Barriere-Lagrange-Funktion:
L(x,s,y,z;μ)=f(x)−μ∑ilog(si)+yTc(x)+zT(g(x)+s)
Erweiterte Version:
A(x,s,y,z;μ,η)=L(x,s,y,z;μ)+2η(∥c(x)∥2+∥g(x)+s∥2)
Jede Iteration erfordert die Lösung des linearen Systems:
undefined