2025-11-13T08:28:10.831761

Optimal Control with Lyapunov Stability Guarantees for Space Applications

Abhijeet, Mohamed, Sharma et al.
This paper investigates the infinite horizon optimal control problem (OCP) for space applications characterized by nonlinear dynamics. The proposed approach divides the problem into a finite horizon OCP with a regularized terminal cost, guiding the system towards a terminal set, and an infinite horizon linear regulation phase within this set. This strategy guarantees global asymptotic stability under specific assumptions. Our method maintains the system's fully nonlinear dynamics until it reaches the terminal set, where the system dynamics is linearized. As the terminal set converges to the origin, the difference in optimal cost incurred reduces to zero, guaranteeing an efficient and stable solution. The approach is tested through simulations on three problems: spacecraft attitude control, rendezvous maneuver, and soft landing. In spacecraft attitude control, we focus on achieving precise orientation and stabilization. For rendezvous maneuvers, we address the navigation of a chaser to meet a target spacecraft. For the soft landing problem, we ensure a controlled descent and touchdown on a planetary surface. We provide numerical results confirming the effectiveness of the proposed method in managing these nonlinear dynamics problems, offering robust solutions essential for successful space missions.
academic

Optimale Steuerung mit Lyapunov-Stabilitätsgarantien für Weltraumanwendungen

Grundinformationen

  • Papier-ID: 2510.08854
  • Titel: Optimal Control with Lyapunov Stability Guarantees for Space Applications
  • Autoren: Abhijeet, Mohamed Naveed Gul Mohamed, Aayushman Sharma, Suman Chakravorty (Texas A&M University)
  • Klassifizierung: math.OC (Optimierung und Steuerung), cs.SY (Systeme und Steuerung), eess.SY (Systeme und Steuerung)
  • Veröffentlichungsdatum: 9. Oktober 2025
  • Papierlink: https://arxiv.org/abs/2510.08854v1

Zusammenfassung

Dieses Papier untersucht das Problem der optimalen Steuerung mit unendlichem Zeithorizont (OCP) für Weltraumanwendungen mit nichtlinearen Dynamiken. Der vorgeschlagene Ansatz zerlegt das Problem in zwei Phasen: ein endliches OCP mit regularisierter Terminalkosten, das das System zu einer Terminalmengen führt, sowie eine unendliche Regelungsphase innerhalb dieser Menge. Die Strategie garantiert unter bestimmten Annahmen globale asymptotische Stabilität. Das Verfahren behält die vollständig nichtlinearen Dynamiken bei, bevor die Terminalmengen erreicht werden, und linearisiert dann die Systemdynamiken. Mit der Konvergenz der Terminalmengen gegen den Ursprung konvergiert die resultierende optimale Kostenabweichung gegen Null und garantiert eine effiziente und stabile Lösung. Das Verfahren wird durch Simulationen von drei Problemen validiert: Raumfahrzeug-Lageregelung, Rendezvous-Manöver und Weichlandung.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Steuerungsherausforderungen bei Weltraummissionen: Die Weltraumforschung erfordert fortschrittliche Steuerungsstrategien, um den Missionserfolg zu gewährleisten. Von der präzisen Ausrichtung von Raumfahrzeugen bis zu feinen Manövern beim Andocken und Landen müssen inhärente Herausforderungen der Weltraumumgebung überwunden werden.
  2. Einschränkungen traditioneller Methoden:
    • Schießverfahren (Shooting Method): Wirksam bei Lageregelung und Bahnoptimierung, aber schlecht adaptierbar und empfindlich gegenüber Anfangsschätzungen
    • Direkte Methoden (SQP, Interior Point): Können Nebenbedingungen handhaben, garantieren aber keine globale asymptotische Stabilität oder Rückkopplung
    • Verstärkungslernen (RL): Stark datenabhängig mit inkonsistenten Ergebnissen
  3. Anforderungen an Langzeitstabilität: Weltraummissionen erfordern, dass Systeme von beliebigen Anfangszuständen zu spezifischen Terminalzuständen gelangen können, was globale asymptotische Stabilität für Weltraummissionen besonders wertvoll macht.

Forschungsmotivation

Angesichts der Einschränkungen bestehender Methoden bei der Lösung von Optimalsteuerungsproblemen und der Anforderung an Langzeitstabilität formuliert dieses Papier das Problem als unendliches OCP neu und wendet einen handhabbaren Ansatz an, um Rückkopplung zu gewährleisten und globale asymptotische Stabilität zu garantieren.

Kernbeiträge

  1. Vorschlag eines neuen Lösungsrahmens für nichtlineare Optimalsteuerung mit unendlichem Zeithorizont: Zerlegung des unendlichen Problems in ein endliches nichtlineares OCP und eine lineare Regelungsphase
  2. Etablierung theoretischer Garantien: Nachweis, dass die vorgeschlagene Methode die Bellman-Gleichung erfüllt, Bereitstellung einer Steuerungs-Lyapunov-Funktion (CLF) und Gewährleistung globaler asymptotischer Stabilität
  3. Entwicklung eines praktischen Algorithmus: Hybridmethode, die iterativen linearen quadratischen Regler (iLQR) und linearen quadratischen Regler (LQR) kombiniert
  4. Validierung der Methodeneffektivität: Verifikation in drei kritischen Weltraumanwendungen: Raumfahrzeug-Lageregelung, Rendezvous-Manöver und Weichlandung
  5. Bereitstellung von Konvergenzanalyse: Nachweis, dass die Kosten des Ersatzkonstruktions-OCP (AC-OCP) gegen die Kosten des echten unendlichen OCP konvergieren, wenn der Terminalmengen-Parameter M→0

Methodische Details

Aufgabendefinition

Problem der optimalen Steuerung mit unendlichem Zeithorizont definiert als:

J*∞(x) = min{ut} Σ(t=0 to ∞) c(xt, ut); gegeben x0 = x
subject to: xt+1 = f(xt, ut)

wobei:

  • xt ∈ Rn: Systemzustandsvektor
  • ut ∈ Rp: Steuereingabe
  • c(xt, ut): inkrementelle Kostenfunktion

Modellarchitektur

1. Ersatzkonstruktions-Optimalsteuerungsproblem (AC-OCP)

Umwandlung des unendlichen Problems in:

JM∞(x) = min{ut}(T-1, t=0), T [Σ(t=0 to T-1) c(xt, ut) + max(J̄∞(xT), M)]
subject to: xt+1 = f(xt, ut), xT ∈ ΩM

wobei ΩM = {x | J̄∞(x) ≤ M} die Terminalmengen ist.

2. Zweiphasen-Lösungsstrategie

Phase 1: Nichtlineares endliches OCP

  • Verwendung von iLQR zur Lösung des endlichen Problems:
JT∞(x) = min{ut}(T-1, t=0) [Σ(t=0 to T-1) c(xt, ut) + J̄∞(xT)]

Phase 2: Lineare Regelung

  • Verwendung von LQR-Regler innerhalb der Terminalmengen ΩM
  • Linearisierung des Systems: J̄∞(x) = xTP∞x, wobei P∞ die Lösung der stationären Riccati-Gleichung ist

3. iLQR-Algorithmus-Implementierung

Vorwärtspropagation:

uk+1_t = uk_t + αkt + Kt(xk+1_t - xk_t)
xk+1_t+1 = f(xk+1_t, uk+1_t)

Rückwärtspropagation: Berechnung der Q-Funktionsableitungen und Aktualisierung der Verstärkungen:

kt = -Q^(-1)_utut * Qut
Kt = -Q^(-1)_utut * Qutxt

Technische Innovationen

  1. Optimierung der freien Endzeit: Optimierung der Übergangsdauer T zur Gewährleistung eines sanften Übergangs zur Terminalmengen
  2. Asymptotische Optimalität: Nachweis, dass limM→0 JM∞(x) = J*∞(x)
  3. Stabilitätsgarantie: Die Kostenfunktion des AC-OCP erfüllt die Bellman-Gleichung und fungiert als CLF zur Gewährleistung globaler asymptotischer Stabilität
  4. Behandlung hybrider Dynamiken: Beibehaltung vollständig nichtlinearer Dynamiken außerhalb der Terminalmengen und Linearisierung innerhalb der Terminalmengen

Experimentelle Einrichtung

Anwendungsszenarien

Das Papier validiert die Methode in drei kritischen Weltraumanwendungen:

  1. Raumfahrzeug-Lageregelung
  2. Rendezvous-Manöver
  3. Weichlandung

Systemdynamiken

1. Lageregelung

Zustandsvektor: ψ, θ, φ, ω1, ω2, ω3T

  • Euler-Winkel-Dynamiken und Winkelgeschwindigkeitsdynamiken
  • Trägheitstensormatrix: J = diag4500, 2000, 7500
  • Zeithorizont: 200 Sekunden, Diskretisierungsschrittweite: 0,1 Sekunden

2. Rendezvous-Manöver

Zustand umfasst relative Positionsfehler er, relative Geschwindigkeitsfehler ev und Masse m

  • Elliptische Bahnendynamiken
  • Zeithorizont: 6000 Sekunden, Diskretisierungsschrittweite: 2 Sekunden

3. Weichlandung

Kombination von Lage- und Positionsdynamiken

  • Marsgravitation: gref = 0, 0, -3.7114T
  • Einschließlich Massenänderung und Schubvektorbeschränkungen
  • Zeithorizont: 30 Sekunden, Diskretisierungsschrittweite: 0,2 Sekunden

Bewertungsmetriken

  • Gesamtkostenfunktion: Quadratische Kosten c(x,u) = ½(xTQx + uTRu)
  • Terminalzustandsfehler
  • Glätte der Steuereingabe
  • Konvergenzanalyse

Experimentelle Ergebnisse

Hauptergebnisse

1. Lageregelung

  • Auswirkung der Übergangsdauer: Von 10 Sekunden bis 80 Sekunden sinken die Gesamtkosten von 6,45×10^5 auf 5,20×10^5
  • Zustandskonvergenz:
    • 10-Sekunden-Übergang: Terminalfehler 34,86°, -33,19°, -36,71°, 2,79°/s, 6,02°/s, 0,97°/s
    • 80-Sekunden-Übergang: Terminalfehler -0,77°, -0,15°, 0,55°, -0,05°/s, 0,02°/s, -0,05°/s

2. Rendezvous-Manöver

  • Kostenreduktion mit Übergangsdauer: Längere Übergangsdauern führen zu niedrigeren Kosten und kleineren Fehlern
  • Terminalzustandsvergleich:
    • 600 Sekunden: Positionsfehler ~1400 km Größenordnung, Geschwindigkeitsfehler ~5000 m/s Größenordnung
    • 2400 Sekunden: Positionsfehler ~1 m Größenordnung, Geschwindigkeitsfehler ~2 m/s Größenordnung

3. Weichlandung

  • Erfolgreiche Landung: Bei 29,9 Sekunden r3=0 (Landung)
  • Terminalgenauigkeit: Positionsfehler -0,06 m, -0,03 m, 1,09 m, Geschwindigkeitsfehler -0,007 m/s, -0,008 m/s, -0,99 m/s
  • Nebenbedingungsbehandlung: Höhenbeschränkungen werden durch exponentielle Strafunktionen behandelt

Wichtigste Erkenntnisse

  1. Bedeutung der Übergangszeitoptimierung: Längere Übergangsdauern ermöglichen es dem System, näher am Ursprung linearisiert zu werden, was die Regelungskosten erheblich reduziert
  2. Sanfter Übergang: Angemessene Übergangsdauern vermeiden abrupte Änderungen der Steuereingaben
  3. Robustheit: Das Verfahren zeigt gute Leistung unter verschiedenen Anfangsbedingungen und Systemparametern

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Traditionelle Optimalsteuerungsmethoden: Schießverfahren, direkte Methoden (SQP, Innenpunktmethode)
  2. Moderne Methoden: Verstärkungslernen, modellprädiktive Steuerung
  3. Stabilitätstheorie: Lyapunov-Methoden, Steuerungs-Lyapunov-Funktionen

Vorteile dieses Papiers

  • Gegenüber Schießverfahren: Bietet Rückkopplungssteuerung und bessere Robustheit
  • Gegenüber direkten Methoden: Garantiert globale asymptotische Stabilität
  • Gegenüber Verstärkungslernen: Theoretische Garantien und deterministische Ergebnisse

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Beitrag: Etablierung eines handhabbaren Lösungsrahmens für nichtlineares OCP mit unendlichem Zeithorizont
  2. Praktischer Wert: Validierung der Methodeneffektivität in kritischen Weltraumanwendungen
  3. Stabilitätsgarantie: Bereitstellung theoretischer Garantien für globale asymptotische Stabilität

Einschränkungen

  1. Linearisierungsbeschränkungen: Die Linearisierung bestimmter Systeme (wie nichtholonomer Systeme) kann unkontrollierbar sein
  2. Nebenbedingungsbehandlung: Harte Nebenbedingungen müssen in weiche Nebenbedingungen umgewandelt werden (wie die Höhenbeschränkung bei der Weichlandung)
  3. Rechenkomplexität: Die Optimierung der Übergangsdauer erhöht die Rechenlast

Zukünftige Richtungen

  1. Erweiterung auf komplexere Nebenbedingungen: Behandlung von Pfadbeschränkungen und hybriden Systemen
  2. Echtzeitimplementierung: Entwicklung schneller Algorithmen für Online-Anwendungen
  3. Robustheitsverstärkung: Berücksichtigung von Modellunsicherheiten und externen Störungen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Bereitstellung eines vollständigen mathematischen Rahmens und Konvergenzbeweise
  2. Hohe Praktikabilität: Validierung der Methode in drei verschiedenen Weltraumanwendungen
  3. Innovativität: Geschickte Kombination der Vorteile von endlichen und unendlichen Zeithorizont-Methoden
  4. Stabilitätsgarantie: Gewährleistung globaler asymptotischer Stabilität durch CLF

Mängel

  1. Annahmebedingungen: Abhängigkeit von Systemsteuerbarkeit und spezifischen Eigenschaften der Kostenfunktion
  2. Parametereinstellung: Mangelnde klare Anleitung zur Auswahl des Terminalmengen-Parameters M
  3. Recheneffizienz: Die Übergangszeitoptimierung kann mehrere iterative Lösungen erfordern

Auswirkungen

  1. Akademischer Wert: Bereitstellung eines neuen theoretischen Rahmens für nichtlineare Steuerung mit unendlichem Zeithorizont
  2. Ingenieurische Bedeutung: Bereitstellung praktischer Entwurfsmethoden für Weltraummissionssteuerung
  3. Skalierbarkeit: Methode kann auf andere Steuerungsprobleme mit Anforderungen an Langzeitstabilität verallgemeinert werden

Anwendungsszenarien

  • Langfristig betriebene Weltraummissionen
  • Steuersysteme, die globale Stabilitätsgarantien erfordern
  • Komplexe Systeme mit nichtlinearen Dynamiken
  • Kritische Missionen mit extremen Sicherheitsanforderungen

Literaturverzeichnis

Das Papier zitiert 23 relevante Arbeiten, die wichtige Werke in den Bereichen Optimalsteuerungstheorie, Raumfahrzeugsteuerung und numerische Optimierungsmethoden abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen Beiträgen sowohl in Theorie als auch in Anwendung. Die Autoren wandeln das unendliche Zeithorizont-Problem geschickt in ein handhabbares endliches Problem um, während gleichzeitig Stabilität gewährleistet wird. Die Validierung in drei wichtigen Weltraumanwendungen demonstriert den praktischen Wert der Methode. Trotz einiger Einschränkungen bietet das Papier insgesamt wertvolle theoretische Werkzeuge und praktische Methoden für das Feld der Weltraumsteuerung.