2025-11-13T08:28:10.831761

Optimal Control with Lyapunov Stability Guarantees for Space Applications

Abhijeet, Mohamed, Sharma et al.

This paper investigates the infinite horizon optimal control problem (OCP) for space applications characterized by nonlinear dynamics. The proposed approach divides the problem into a finite horizon OCP with a regularized terminal cost, guiding the system towards a terminal set, and an infinite horizon linear regulation phase within this set. This strategy guarantees global asymptotic stability under specific assumptions. Our method maintains the system's fully nonlinear dynamics until it reaches the terminal set, where the system dynamics is linearized. As the terminal set converges to the origin, the difference in optimal cost incurred reduces to zero, guaranteeing an efficient and stable solution. The approach is tested through simulations on three problems: spacecraft attitude control, rendezvous maneuver, and soft landing. In spacecraft attitude control, we focus on achieving precise orientation and stabilization. For rendezvous maneuvers, we address the navigation of a chaser to meet a target spacecraft. For the soft landing problem, we ensure a controlled descent and touchdown on a planetary surface. We provide numerical results confirming the effectiveness of the proposed method in managing these nonlinear dynamics problems, offering robust solutions essential for successful space missions.

academic

Optimale Steuerung mit Lyapunov-Stabilitätsgarantien für Weltraumanwendungen

Grundinformationen

Papier-ID: 2510.08854
Titel: Optimal Control with Lyapunov Stability Guarantees for Space Applications
Autoren: Abhijeet, Mohamed Naveed Gul Mohamed, Aayushman Sharma, Suman Chakravorty (Texas A&M University)
Klassifizierung: math.OC (Optimierung und Steuerung), cs.SY (Systeme und Steuerung), eess.SY (Systeme und Steuerung)
Veröffentlichungsdatum: 9. Oktober 2025
Papierlink: https://arxiv.org/abs/2510.08854v1

Zusammenfassung

Dieses Papier untersucht das Problem der optimalen Steuerung mit unendlichem Zeithorizont (OCP) für Weltraumanwendungen mit nichtlinearen Dynamiken. Der vorgeschlagene Ansatz zerlegt das Problem in zwei Phasen: ein endliches OCP mit regularisierter Terminalkosten, das das System zu einer Terminalmengen führt, sowie eine unendliche Regelungsphase innerhalb dieser Menge. Die Strategie garantiert unter bestimmten Annahmen globale asymptotische Stabilität. Das Verfahren behält die vollständig nichtlinearen Dynamiken bei, bevor die Terminalmengen erreicht werden, und linearisiert dann die Systemdynamiken. Mit der Konvergenz der Terminalmengen gegen den Ursprung konvergiert die resultierende optimale Kostenabweichung gegen Null und garantiert eine effiziente und stabile Lösung. Das Verfahren wird durch Simulationen von drei Problemen validiert: Raumfahrzeug-Lageregelung, Rendezvous-Manöver und Weichlandung.

Forschungshintergrund und Motivation

Problemhintergrund

Steuerungsherausforderungen bei Weltraummissionen: Die Weltraumforschung erfordert fortschrittliche Steuerungsstrategien, um den Missionserfolg zu gewährleisten. Von der präzisen Ausrichtung von Raumfahrzeugen bis zu feinen Manövern beim Andocken und Landen müssen inhärente Herausforderungen der Weltraumumgebung überwunden werden.
Einschränkungen traditioneller Methoden:
- Schießverfahren (Shooting Method): Wirksam bei Lageregelung und Bahnoptimierung, aber schlecht adaptierbar und empfindlich gegenüber Anfangsschätzungen
- Direkte Methoden (SQP, Interior Point): Können Nebenbedingungen handhaben, garantieren aber keine globale asymptotische Stabilität oder Rückkopplung
- Verstärkungslernen (RL): Stark datenabhängig mit inkonsistenten Ergebnissen
Anforderungen an Langzeitstabilität: Weltraummissionen erfordern, dass Systeme von beliebigen Anfangszuständen zu spezifischen Terminalzuständen gelangen können, was globale asymptotische Stabilität für Weltraummissionen besonders wertvoll macht.

Forschungsmotivation

Angesichts der Einschränkungen bestehender Methoden bei der Lösung von Optimalsteuerungsproblemen und der Anforderung an Langzeitstabilität formuliert dieses Papier das Problem als unendliches OCP neu und wendet einen handhabbaren Ansatz an, um Rückkopplung zu gewährleisten und globale asymptotische Stabilität zu garantieren.

Kernbeiträge

Vorschlag eines neuen Lösungsrahmens für nichtlineare Optimalsteuerung mit unendlichem Zeithorizont: Zerlegung des unendlichen Problems in ein endliches nichtlineares OCP und eine lineare Regelungsphase
Etablierung theoretischer Garantien: Nachweis, dass die vorgeschlagene Methode die Bellman-Gleichung erfüllt, Bereitstellung einer Steuerungs-Lyapunov-Funktion (CLF) und Gewährleistung globaler asymptotischer Stabilität
Entwicklung eines praktischen Algorithmus: Hybridmethode, die iterativen linearen quadratischen Regler (iLQR) und linearen quadratischen Regler (LQR) kombiniert
Validierung der Methodeneffektivität: Verifikation in drei kritischen Weltraumanwendungen: Raumfahrzeug-Lageregelung, Rendezvous-Manöver und Weichlandung
Bereitstellung von Konvergenzanalyse: Nachweis, dass die Kosten des Ersatzkonstruktions-OCP (AC-OCP) gegen die Kosten des echten unendlichen OCP konvergieren, wenn der Terminalmengen-Parameter M→0

Methodische Details

Aufgabendefinition

Problem der optimalen Steuerung mit unendlichem Zeithorizont definiert als:

J*∞(x) = min{ut} Σ(t=0 to ∞) c(xt, ut); gegeben x0 = x
subject to: xt+1 = f(xt, ut)

wobei:

xt ∈ Rn: Systemzustandsvektor
ut ∈ Rp: Steuereingabe
c(xt, ut): inkrementelle Kostenfunktion

Modellarchitektur

1. Ersatzkonstruktions-Optimalsteuerungsproblem (AC-OCP)

Umwandlung des unendlichen Problems in:

JM∞(x) = min{ut}(T-1, t=0), T [Σ(t=0 to T-1) c(xt, ut) + max(J̄∞(xT), M)]
subject to: xt+1 = f(xt, ut), xT ∈ ΩM

wobei ΩM = {x | J̄∞(x) ≤ M} die Terminalmengen ist.

2. Zweiphasen-Lösungsstrategie

Phase 1: Nichtlineares endliches OCP

Verwendung von iLQR zur Lösung des endlichen Problems:

JT∞(x) = min{ut}(T-1, t=0) [Σ(t=0 to T-1) c(xt, ut) + J̄∞(xT)]

Phase 2: Lineare Regelung

Verwendung von LQR-Regler innerhalb der Terminalmengen ΩM
Linearisierung des Systems: J̄∞(x) = xTP∞x, wobei P∞ die Lösung der stationären Riccati-Gleichung ist

3. iLQR-Algorithmus-Implementierung

Vorwärtspropagation:

uk+1_t = uk_t + αkt + Kt(xk+1_t - xk_t)
xk+1_t+1 = f(xk+1_t, uk+1_t)

Rückwärtspropagation: Berechnung der Q-Funktionsableitungen und Aktualisierung der Verstärkungen:

kt = -Q^(-1)_utut * Qut
Kt = -Q^(-1)_utut * Qutxt

Technische Innovationen

Optimierung der freien Endzeit: Optimierung der Übergangsdauer T zur Gewährleistung eines sanften Übergangs zur Terminalmengen
Asymptotische Optimalität: Nachweis, dass limM→0 JM∞(x) = J*∞(x)
Stabilitätsgarantie: Die Kostenfunktion des AC-OCP erfüllt die Bellman-Gleichung und fungiert als CLF zur Gewährleistung globaler asymptotischer Stabilität
Behandlung hybrider Dynamiken: Beibehaltung vollständig nichtlinearer Dynamiken außerhalb der Terminalmengen und Linearisierung innerhalb der Terminalmengen

Experimentelle Einrichtung

Anwendungsszenarien

Das Papier validiert die Methode in drei kritischen Weltraumanwendungen:

Raumfahrzeug-Lageregelung
Rendezvous-Manöver
Weichlandung

Systemdynamiken

1. Lageregelung

Zustandsvektor: ψ, θ, φ, ω1, ω2, ω3T

Euler-Winkel-Dynamiken und Winkelgeschwindigkeitsdynamiken
Trägheitstensormatrix: J = diag4500, 2000, 7500
Zeithorizont: 200 Sekunden, Diskretisierungsschrittweite: 0,1 Sekunden

2. Rendezvous-Manöver

Zustand umfasst relative Positionsfehler er, relative Geschwindigkeitsfehler ev und Masse m

Elliptische Bahnendynamiken
Zeithorizont: 6000 Sekunden, Diskretisierungsschrittweite: 2 Sekunden

3. Weichlandung

Kombination von Lage- und Positionsdynamiken

Marsgravitation: gref = 0, 0, -3.7114T
Einschließlich Massenänderung und Schubvektorbeschränkungen
Zeithorizont: 30 Sekunden, Diskretisierungsschrittweite: 0,2 Sekunden

Bewertungsmetriken

Gesamtkostenfunktion: Quadratische Kosten c(x,u) = ½(xTQx + uTRu)
Terminalzustandsfehler
Glätte der Steuereingabe
Konvergenzanalyse

Experimentelle Ergebnisse

Hauptergebnisse

1. Lageregelung

Auswirkung der Übergangsdauer: Von 10 Sekunden bis 80 Sekunden sinken die Gesamtkosten von 6,45×10^5 auf 5,20×10^5
Zustandskonvergenz:
- 10-Sekunden-Übergang: Terminalfehler 34,86°, -33,19°, -36,71°, 2,79°/s, 6,02°/s, 0,97°/s
- 80-Sekunden-Übergang: Terminalfehler -0,77°, -0,15°, 0,55°, -0,05°/s, 0,02°/s, -0,05°/s

2. Rendezvous-Manöver

Kostenreduktion mit Übergangsdauer: Längere Übergangsdauern führen zu niedrigeren Kosten und kleineren Fehlern
Terminalzustandsvergleich:
- 600 Sekunden: Positionsfehler ~1400 km Größenordnung, Geschwindigkeitsfehler ~5000 m/s Größenordnung
- 2400 Sekunden: Positionsfehler ~1 m Größenordnung, Geschwindigkeitsfehler ~2 m/s Größenordnung

3. Weichlandung

Erfolgreiche Landung: Bei 29,9 Sekunden r3=0 (Landung)
Terminalgenauigkeit: Positionsfehler -0,06 m, -0,03 m, 1,09 m, Geschwindigkeitsfehler -0,007 m/s, -0,008 m/s, -0,99 m/s
Nebenbedingungsbehandlung: Höhenbeschränkungen werden durch exponentielle Strafunktionen behandelt

Wichtigste Erkenntnisse

Bedeutung der Übergangszeitoptimierung: Längere Übergangsdauern ermöglichen es dem System, näher am Ursprung linearisiert zu werden, was die Regelungskosten erheblich reduziert
Sanfter Übergang: Angemessene Übergangsdauern vermeiden abrupte Änderungen der Steuereingaben
Robustheit: Das Verfahren zeigt gute Leistung unter verschiedenen Anfangsbedingungen und Systemparametern

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Beitrag: Etablierung eines handhabbaren Lösungsrahmens für nichtlineares OCP mit unendlichem Zeithorizont
Praktischer Wert: Validierung der Methodeneffektivität in kritischen Weltraumanwendungen
Stabilitätsgarantie: Bereitstellung theoretischer Garantien für globale asymptotische Stabilität

Einschränkungen

Linearisierungsbeschränkungen: Die Linearisierung bestimmter Systeme (wie nichtholonomer Systeme) kann unkontrollierbar sein
Nebenbedingungsbehandlung: Harte Nebenbedingungen müssen in weiche Nebenbedingungen umgewandelt werden (wie die Höhenbeschränkung bei der Weichlandung)
Rechenkomplexität: Die Optimierung der Übergangsdauer erhöht die Rechenlast

Zukünftige Richtungen

Erweiterung auf komplexere Nebenbedingungen: Behandlung von Pfadbeschränkungen und hybriden Systemen
Echtzeitimplementierung: Entwicklung schneller Algorithmen für Online-Anwendungen
Robustheitsverstärkung: Berücksichtigung von Modellunsicherheiten und externen Störungen

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Bereitstellung eines vollständigen mathematischen Rahmens und Konvergenzbeweise
Hohe Praktikabilität: Validierung der Methode in drei verschiedenen Weltraumanwendungen
Innovativität: Geschickte Kombination der Vorteile von endlichen und unendlichen Zeithorizont-Methoden
Stabilitätsgarantie: Gewährleistung globaler asymptotischer Stabilität durch CLF

Mängel

Annahmebedingungen: Abhängigkeit von Systemsteuerbarkeit und spezifischen Eigenschaften der Kostenfunktion
Parametereinstellung: Mangelnde klare Anleitung zur Auswahl des Terminalmengen-Parameters M
Recheneffizienz: Die Übergangszeitoptimierung kann mehrere iterative Lösungen erfordern

Auswirkungen

Akademischer Wert: Bereitstellung eines neuen theoretischen Rahmens für nichtlineare Steuerung mit unendlichem Zeithorizont
Ingenieurische Bedeutung: Bereitstellung praktischer Entwurfsmethoden für Weltraummissionssteuerung
Skalierbarkeit: Methode kann auf andere Steuerungsprobleme mit Anforderungen an Langzeitstabilität verallgemeinert werden

Anwendungsszenarien

Langfristig betriebene Weltraummissionen
Steuersysteme, die globale Stabilitätsgarantien erfordern
Komplexe Systeme mit nichtlinearen Dynamiken
Kritische Missionen mit extremen Sicherheitsanforderungen

Literaturverzeichnis

Das Papier zitiert 23 relevante Arbeiten, die wichtige Werke in den Bereichen Optimalsteuerungstheorie, Raumfahrzeugsteuerung und numerische Optimierungsmethoden abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen Beiträgen sowohl in Theorie als auch in Anwendung. Die Autoren wandeln das unendliche Zeithorizont-Problem geschickt in ein handhabbares endliches Problem um, während gleichzeitig Stabilität gewährleistet wird. Die Validierung in drei wichtigen Weltraumanwendungen demonstriert den praktischen Wert der Methode. Trotz einiger Einschränkungen bietet das Papier insgesamt wertvolle theoretische Werkzeuge und praktische Methoden für das Feld der Weltraumsteuerung.