2025-11-23T02:40:16.760420

Dual-Regularized Riccati Recursions for Interior-Point Optimal Control

Sousa-Pinto, Orban

We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.

academic

Dual-Regularisierte Riccati-Rekursionen für Interior-Point-Optimalsteuerung

Grundlegende Informationen

Paper-ID: 2509.16370
Titel: Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
Autoren: João Sousa-Pinto, Dominique Orban
Klassifizierung: math.OC cs.MS cs.RO cs.SY eess.SY
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2509.16370

Zusammenfassung

In diesem Artikel werden geschlossene Erweiterungen der Riccati-Rekursion zur Lösung dual-regularisierter LQR-Probleme hergeleitet (einschließlich sequenzieller und paralleler Versionen). Die Autoren zeigen, wie diese Methoden durch regularisierte Interior-Point-Verfahren zur Lösung allgemeiner, eingeschränkter, nicht-konvexer, zeitdiskreter Optimalsteuerungsprobleme verwendet werden können, während gleichzeitig garantiert wird, dass jeder Schritt eine Abstiegsrichtung der erweiterten Barriere-Lagrange-Funktion darstellt. Das Papier bietet MIT-lizenzierte Implementierungen in C++ und JAX.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung besteht darin, wie man effizient nicht-konvexe zeitdiskrete Optimalsteuerungsprobleme mit Gleichheits- und Ungleichheitsnebenbedingungen löst. Traditionelle Methoden haben bei der Behandlung solcher Probleme folgende Herausforderungen:

Rechnerische Effizienzprobleme: Standardmäßige Interior-Point-Verfahren erfordern bei Optimalsteuerungsproblemen die Lösung großer linearer Systeme mit hoher Rechenkomplexität
Numerische Stabilität: Wenn der Regularisierungsparameter gegen Null geht, können traditionelle Methoden numerische Instabilität aufweisen
Parallelisierungsschwierigkeiten: Bestehende Methoden können Parallelrechenressourcen nicht vollständig nutzen

Bedeutung des Problems

Optimalsteuerungsprobleme haben breite Anwendungen in der Robotik, Luft- und Raumfahrt, autonomem Fahren und anderen Bereichen. Die effiziente Lösung solcher Probleme ist für Echtzeit-Steuersysteme entscheidend, besonders in Szenarien, die komplexe Nebenbedingungen erfordern.

Einschränkungen bestehender Methoden

DDP-Algorithmus: Obwohl die in der Praxis am häufigsten verwendete Methode, kann diese Single-Shooting-Methode Zustandstrajektorien nicht unabhängig warm starten
Standard-LQR-Methoden: Nur für uneingeschränkte oder einfach eingeschränkte lineare Systeme geeignet
Bestehende Interior-Point-Verfahren: Wie IPOPT und andere universelle Löser können die Struktureigenschaften von Optimalsteuerungsproblemen nicht vollständig ausnutzen

Kernbeiträge

Theoretischer Beitrag: Herleitung geschlossener Riccati-Rekursionserweiterungen zur Lösung dual-regularisierter LQR-Probleme, einschließlich sequenzieller und paralleler Versionen
Algorithmische Innovation: Vorschlag eines regularisierten Interior-Point-Verfahrens, das Abstiegsrichtungen garantiert, unter Verwendung der erweiterten Barriere-Lagrange-Funktion als Merit-Funktion
Numerische Stabilität: Entwurf eines Algorithmus, der numerisch stabil ist, wenn der Regularisierungsparameter δ→0 geht und den Standard-LQR-Algorithmus wiederherstellen kann
Parallelisierter Algorithmus: Implementierung eines Lösungsalgorithmus mit O(log N) paralleler Zeitkomplexität basierend auf assoziativen Scans
Software-Beitrag: Bereitstellung von Open-Source-Implementierungen in C++ und JAX mit Unterstützung für effiziente dünnbesetzte lineare Algebra

Methodische Details

Aufgabendefinition

Betrachten Sie das zeitdiskrete Optimalsteuerungsproblem:

$\min_{x_0,u_0,\ldots,x_N} \sum_{i=0}^{N-1} f_i(x_i, u_i) + f_N(x_N)$

Nebenbedingungen:

Anfangszustand: $x_0 = s_0$
Dynamische Nebenbedingungen: $x_{i+1} = d_i(x_i, u_i), \forall i \in \{0,\ldots,N-1\}$
Gleichheitsnebenbedingungen: $c_i(x_i, u_i) = 0, \forall i \in \{0,\ldots,N-1\}$
Ungleichheitsnebenbedingungen: $g_i(x_i, u_i) \leq 0, \forall i \in \{0,\ldots,N-1\}$
Endbedingungen: $c_N(x_N) = 0, g_N(x_N) \leq 0$

Regularisiertes Interior-Point-Verfahren-Rahmenwerk

Erweiterte Barriere-Lagrange-Funktion

Definition der Barriere-Lagrange-Funktion: $L(x,s,y,z;\mu) = f(x) - \mu\sum_i \log(s_i) + y^T c(x) + z^T(g(x) + s)$

Erweiterte Version: $A(x,s,y,z;\mu,\eta) = L(x,s,y,z;\mu) + \frac{\eta}{2}(\|c(x)\|^2 + \|g(x)+s\|^2)$

Lösung linearer Systeme

Jede Iteration erfordert die Lösung des linearen Systems: $\begin{bmatrix} P & 0 & C^T & G^T \\ 0 & S^{-1}Z & 0 & I \\ C & 0 & -\frac{1}{\eta}I & 0 \\ G & I & 0 & -\frac{1}{\eta}I \end{bmatrix} \begin{bmatrix} \Delta x \\ \Delta s \\ \Delta y \\ \Delta z \end{bmatrix} = -\nabla L(x,s,y,z;\mu)$

Dual-regularisiertes LQR-Problem

Durch Variableneliminierung wird das lineare System des Interior-Point-Verfahrens in ein dual-regularisiertes LQR-Problem transformiert: $\begin{bmatrix} P & C^T \\ C & -\delta I \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = -\begin{bmatrix} s \\ c \end{bmatrix}$

wobei $\delta > 0$ der Regularisierungsparameter ist, die Matrix $P$ eine Blockdiagonalstruktur aufweist und $C$ die Jacobi-Matrizen der dynamischen Nebenbedingungen enthält.

Sequenzieller Algorithmus

Rückwärts-Rekursion

Definition von Schlüsselvariablen:

$V_i = \frac{1}{\delta}(F_i - I)$ : Wertfunktions-Approximation
$v_i = \frac{1}{\delta}(f_i + c_i)$ : Offset-Vektor

Rekursionsformeln:

G_i = B_i^T W_{i+1} B_i + R_i
H_i = B_i^T W_{i+1} A_i + M_i^T
h_i = r_i + B_i^T g_{i+1}
K_i = -G_i^{-1} H_i
k_i = -G_i^{-1} h_i
V_i = A_i^T W_{i+1} A_i + Q_i + H_i^T K_i
v_i = q_i + A_i^T g_{i+1} + H_i^T k_i
W_i = (I + \delta V_i)^{-1} V_i
g_i = v_i + W_i(c_i - \delta v_i)

Vorwärts-Rekursion

Wiederherstellung der optimalen Trajektorie durch das Steuergesetz $u_i = K_i x_i + k_i$ und die Zustandsübergangsgleichung.

Paralleler Algorithmus

Parallelisierung durch assoziative Scans

Implementierung von O(log N) paralleler Zeitkomplexität unter Verwendung von assoziativen Scans:

Intervall-Wertfunktionen: Definition von $V_{i \to j}(x_i, x_j)$ , die die Wertfunktion von Phase i bis j darstellt
Kombinationsregeln: Etablierung von Kombinationsoperationen für Intervall-Wertfunktionen, die Assoziativität erfüllen
Parallele Berechnung: Parallele Berechnung aller $V_{i \to N+1}$ durch rückwärts-assoziative Scans

Affine Funktionszusammensetzung

Transformation der Vorwärts-Rekursion in eine Zusammensetzung affiner Funktionen: $x_{i+1} = M_i x_i + m_i$

Verwendung von assoziativen Scans zur parallelen Zusammensetzung aller affinen Transformationen, um O(log N) parallele Vorwärts-Propagation zu erreichen.

Technische Innovationen

Numerische Stabilitätsgestaltung: Vermeidung numerischer Probleme bei $\delta \to 0$ durch Reparametrisierung
Garantie der Abstiegsrichtung: Theoretischer Beweis, dass die Suchrichtung eine Abstiegsrichtung der erweiterten Barriere-Lagrange-Funktion ist
Strukturierte Lösung: Vollständige Ausnutzung der zeitlichen Struktur von Optimalsteuerungsproblemen, Vermeidung der Lösung großer dichter linearer Systeme
Parallelisierungsgestaltung: Effiziente Parallelisierung basierend auf assoziativen Scans aus der funktionalen Programmierung

Experimentelle Einrichtung

Implementierungsdetails

Das Papier bietet zwei Implementierungssätze:

C++-Implementierung:
- Basierend auf dem SIP-Rahmenwerk (Simple Interior Point)
- Unterstützung für QDLDL-Dünnbesetzter-Löser-Integration
- Vermeidung dynamischer Speicherzuweisung zur Laufzeit
- Unterstützung für benutzerdefinierte KKT-Systemlöser
JAX-Implementierung:
- Unterstützung für automatische Differentiation
- GPU/TPU-Beschleunigung
- Vollständige Unit-Test-Suite

Verifikationsmethoden

Verifikation der Algorithmen-Korrektheit auf zufällig generierten Beispielen, die erforderliche positive Definitheit erfüllen
Konsistenzverifikation mit Standard-LQR-Algorithmus bei $\delta = 0$
Numerische Stabilitätstests

Experimentelle Ergebnisse

Korrektheit-Verifikation

Das Papier verifiziert die Algorithmen-Korrektheit auf folgende Weise:

Theoretische Verifikation: Bei $\delta = 0$ degeneriert der Algorithmus zum Standard-LQR-Algorithmus
Numerische Verifikation: Verifikation der Lösungskorrektheit auf zufällig generierten Testfällen
Unit-Tests: Die JAX-Implementierung enthält eine vollständige Unit-Test-Suite

Garantie der Abstiegsrichtung

Theorem 1.2 beweist, dass wenn $\Delta x \neq 0$ oder $\Delta s \neq 0$ , die Richtungsableitung erfüllt: $D(A(\cdot,\cdot,y,z;\mu,\eta);(\Delta x,\Delta s))(x,s) < 0$

Dies garantiert die globale Konvergenz des Algorithmus.

Komplexitätsanalyse

Sequenzieller Algorithmus: O(N) Zeitkomplexität
Paralleler Algorithmus: O(log N) parallele Zeitkomplexität
Raumkomplexität: O(N), linear mit der Problemgröße

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreiche Herleitung geschlossener Riccati-Rekursionserweiterungen für dual-regularisierte LQR-Probleme
Etablierung der Verbindung zu regularisierten Interior-Point-Verfahren mit Konvergenzgarantien
Implementierung eines effizienten Algorithmus mit O(log N) paralleler Zeitkomplexität
Bereitstellung einer numerisch stabilen und praktischen Open-Source-Implementierung

Einschränkungen

Nebenbedingungstyp-Einschränkungen: Die Methode ist hauptsächlich auf Probleme anwendbar, die in LQR-Form transformiert werden können
Positive-Definitheit-Anforderungen: Der Algorithmus erfordert Annahmen zur positiven Definitheit der Hessian-Matrix
Praktische Leistung: Das Papier fehlt ein Leistungsvergleich bei großen praktischen Problemen

Zukünftige Richtungen

Erweiterung auf allgemeinere Nebenbedingungen: Behandlung von Pfadnebenbedingungen und komplexeren Endbedingungen
Adaptive Regularisierung: Entwicklung von Strategien zur adaptiven Auswahl von Regularisierungsparametern
Praktische Anwendungsverifikation: Verifikation der Methoden-Effektivität in praktischen Anwendungen wie Robotersteuerung

Tiefgreifende Bewertung

Stärken

Signifikanter theoretischer Beitrag: Erstmalige Kombination von dual-regularisierten Techniken mit Riccati-Rekursion mit vollständiger theoretischer Analyse
Elegantes Algorithmen-Design: Geschickte Ausnutzung der zeitlichen Struktur von Optimalsteuerungsproblemen
Sorgfältige numerische Überlegungen: Besondere Aufmerksamkeit auf Numerische-Stabilitätsprobleme
Hochwertige Implementierung: Hochwertige Open-Source-Implementierungen in zwei Programmiersprachen
Parallelisierungs-Innovation: Die auf assoziativen Scans basierende Parallelisierungsmethode hat theoretischen und praktischen Wert

Mängel

Begrenzte experimentelle Verifikation: Hauptsächlich theoretische Verifikation und einfache numerische Tests, fehlende Vergleiche bei großen praktischen Problemen
Unzureichende Leistungsanalyse: Keine detaillierten Analysen von Rechenzeit und Speichernutzung
Unzureichende Diskussion des Anwendungsbereichs: Mangelnde tiefgreifende Diskussion, für welche Arten von Optimalsteuerungsproblemen die Methode am besten geeignet ist
Fehlende Parameterwahlrichtlinien: Begrenzte Diskussion von Strategien zur Auswahl des Regularisierungsparameters

Einfluss

Akademischer Wert: Bietet neue theoretische Werkzeuge für numerische Methoden der Optimalsteuerung
Praktischer Wert: Open-Source-Implementierung fördert die Verbreitung und Anwendung der Methode
Reproduzierbarkeit: Detaillierte Algorithmusbeschreibung und Open-Source-Code garantieren Reproduzierbarkeit
Inspirationswert: Die Dual-Regularisierungs-Idee kann andere Optimierungsprobleme inspirieren

Anwendungsszenarien

Echtzeit-Steuersysteme: Modellprädiktive Steuerungsanwendungen, die schnelle Lösungen erfordern
Großskalige Optimierung: Optimalsteuerungsprobleme mit langen Zeithorizonten
Parallelrechenumgebungen: Anwendungsszenarien, die Multi-Core- oder GPU-Ressourcen vollständig nutzen können
Eingeschränkte Optimierung: Steuerungsprobleme, die komplexe Gleichheits- und Ungleichheitsnebenbedingungen erfordern

Referenzen

Das Papier zitiert wichtige Literatur in diesem Bereich, einschließlich:

Kalman (1960): Grundlagen der Optimalsteuerungstheorie
Blelloch (1989): Parallelisierungstheorie für assoziative Scans
Särkkä & García-Fernández (2021): Parallele LQR-Algorithmen
Wächter & Biegler (2006): IPOPT Interior-Point-Löser

Gesamtbewertung: Dies ist ein ausgezeichnetes Papier mit herausragendem theoretischem Beitrag und deutlichen technischen Innovationen. Die Autoren haben erfolgreich dual-regularisierte Techniken in die Riccati-Rekursion eingeführt, nicht nur numerische Stabilität bewahrt, sondern auch effiziente Parallelisierung erreicht. Obwohl es noch Raum für Verbesserungen bei der praktischen Anwendungsverifikation gibt, machen sein theoretischer Wert und sein Open-Source-Beitrag es zu einem wichtigen Fortschritt im Bereich der numerischen Methoden für Optimalsteuerung.