2025-11-14T08:52:10.884823

MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems

Han, Wong, Law et al.

In this work, we propose a meta-learning-based Koopman modeling and predictive control approach for nonlinear systems with parametric uncertainties. An adaptive deep meta-learning-based modeling approach, called Meta Adaptive Koopman Operator (MAKO), is proposed. Without knowledge of the parametric uncertainty, the proposed MAKO approach can learn a meta-model from a multi-modal dataset and efficiently adapt to new systems with previously unseen parameter settings by using online data. Based on the learned meta Koopman model, a predictive control scheme is developed, and the stability of the closed-loop system is ensured even in the presence of previously unseen parameter settings. Through extensive simulations, our proposed approach demonstrates superior performance in both modeling accuracy and control efficacy as compared to competitive baselines.

academic

MAKO: Meta-Adaptive Koopman Operatoren für lernbasierte modellprädiktive Regelung parametrisch unsicherer nichtlinearer Systeme

Grundlegende Informationen

Paper-ID: 2510.09042
Titel: MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems
Autoren: Minghao Han, Kiwan Wong, Adrian Wing-Keung Law, Xunyuan Yin
Klassifizierung: eess.SY cs.LG cs.SY
Veröffentlichungszeitpunkt: Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.09042

Zusammenfassung

In diesem Artikel wird eine auf Meta-Learning basierende Koopman-Modellierung und prädiktive Regelungsmethode für nichtlineare Systeme mit Parameterunsicherheit vorgestellt. Es wird eine adaptive tiefe Meta-Learning-Modellierungsmethode – Meta-Adaptive Koopman Operatoren (MAKO) – vorgeschlagen. Ohne Kenntnis der Parameterunsicherheit kann die MAKO-Methode aus multimodalen Datensätzen ein Meta-Modell lernen und sich durch Online-Daten effizient an neue Systeme mit zuvor ungesehenen Parametereinstellungen anpassen. Basierend auf dem gelernten Meta-Koopman-Modell wird ein prädiktives Regelungsschema entwickelt, das die Stabilität des geschlossenen Regelkreises auch bei zuvor ungesehenen Parametereinstellungen gewährleistet.

Forschungshintergrund und Motivation

Problemdefinition: Parameterunsicherheit ist in nichtlinearen Systemen weit verbreitet und wird normalerweise durch Lastveränderungen und Betriebsbedingungen verursacht. Diese Unsicherheiten führen zu Leistungsabfall und Instabilität und stellen große Herausforderungen für die Regelungssystemauslegung dar.
Problemrelevanz: Traditionelle adaptive modellprädiktive Regelungsmethoden (AMPC) zeigen begrenzte Ergebnisse bei nichtlinearen Systemen und erfordern normalerweise First-Principles-Modelle als Grundlage für die Regelungssystemauslegung. Theoretische Annahmen setzen lineare Abhängigkeit von unsicheren Parametern voraus, was die Anwendbarkeit auf allgemeine nichtlineare Prozesse einschränkt.
Limitierungen bestehender Methoden:
- Bestehende Koopman-Operator-Methoden konzentrieren sich hauptsächlich auf spezifische Regelungsaufgaben mit festen Modellparametern
- Online-Anpassung basierend auf tiefen neuronalen Netzen ist ineffizient und rechnerisch aufwändig
- Meta-Reinforcement-Learning-Methoden können keine Stabilitätsgarantien und Garantien für die Regelungsleistung im geschlossenen Kreis bieten
Forschungsmotivation: Kombination von Meta-Learning mit Koopman-Operator-Theorie zur Schaffung eines lerngestützten adaptiven Regelungsrahmens für parametrisch unsichere nichtlineare Systeme.

Kernbeiträge

Erstmalige Integration: Erstmalige Integration von Meta-Learning und Koopman-Operator-Theorie, Etablierung eines lerngestützten adaptiven MPC-Rahmens für allgemeine Klassen parametrisch unsicherer nichtlinearer Systeme
Theoretische Garantien: Strenger Nachweis der Konvergenz der Modellanpassung und des geschlossenen Regelkreises
Leistungsverifikation: Basierend auf Benchmarksystemen aus drei verschiedenen Bereichen zeigt MAKO gute Modellierungsgenauigkeit und robuste Verfolgungsregelungsleistung bei Vorhandensein von Parameterunsicherheit, überlegen gegenüber konkurrierenden Baseline-Methoden

Methodische Details

Aufgabendefinition

Betrachten Sie ein nichtlineares System mit Parameterunsicherheit: $x_{k+1} = f(x_k, u_k, \Theta), \quad \Theta \sim p(\Theta)$

Wobei:

$x_k \in X \subset \mathbb{R}^n$ : Systemzustand
$u_k \in U \subset \mathbb{R}^m$ : Regelungseingang
$\Theta \in \Xi \subset \mathbb{R}^l$ : Systemparameter, verteilt nach unbekannter Verteilung $p(\Theta)$

Modellarchitektur

1. Meta-Training Neuronales Netz (MNN)

Das MNN parametrisiert die Beobachtungsfunktion und wird über verschiedene Aufgabeneinstellungen hinweg gemeinsam genutzt: $g_k^i = \psi_\theta(x_k^i), \quad x_k^i \in D_i$

Wobei $\psi_\theta(\cdot)$ ein mehrschichtiges neuronales Netz ist und $\theta$ trainierbare Parameter sind.

2. Koopman-Operator

Im kodierten Beobachtungsraum wird für jede Aufgabeneinstellung $\Theta_i$ ein Satz von Koopman-Operatoren $A_i, B_i, C_i$ gelernt: $g_{k+1|k}^i = A_i g_{k|k}^i + B_i u_k^i$ $\hat{x}_{k+1|k}^i = C_i g_{k+1|k}^i$

3. Meta-Learning-Optimierung

Das Optimierungsproblem wird formuliert als: $\min_{\theta,\{A_i,B_i,C_i\}} \frac{1}{NTH} \sum_{i=1}^N \sum_{k=1}^T \sum_{t=1}^H \|x_{k+t}^i - C_i g_{k+t|k}^i\|_2^2$

Unter den Nebenbedingungen:

$g_{k+t|k}^i = A_i g_{k+t-1|k}^i + B_i u_{k+t-1}^i$
$g_{k|k}^i = \psi_\theta(x_k^i)$

Online-Anpassungsmechanismus

1. Nominale Anpassung

Initialisierung: $\hat{A}_0, \hat{B}_0, \hat{C}_0 = \{\frac{1}{N}\sum A_i, \frac{1}{N}\sum B_i, \frac{1}{N}\sum C_i\}$

Gradientenberechnung: $\nabla_{\hat{\Psi}} J_k = -X_k \tilde{g}_{k+1}^T$ $\nabla_{\hat{C}} J_k = -g_{k+1} \tilde{x}_{k+1}^T$

Aktualisierungsgesetz: $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k \tilde{g}_{k+1} X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k \tilde{x}_{k+1} g_{k+1}^T$

Wobei die adaptive Lernrate: $\lambda_k = \min\left(\frac{2-\alpha}{X_k^T X_k}, \frac{2-\alpha}{g_{k+1}^T g_{k+1}}\right)$

2. Robuste Anpassung

Unter Berücksichtigung von Modellierungsfehlern wird ideales Rauschen eingeführt: $w_k^*, v_k^* = \min_{w_k \in W, v_k \in V} \bar{J}(\hat{\Psi}_k, \hat{C}_k, w_k, v_k)$

Robustes Aktualisierungsgesetz: $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k(\tilde{g}_{k+1} - w_k^*) X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k(\tilde{x}_{k+1} - v_k^*) g_{k+1}^T$

Technische Innovationspunkte

Gemeinsames Repräsentationslernen: Lernen von gemeinsamen Beobachtungsraumdarstellungen über Aufgaben hinweg durch MNN
Aufgabenspezifische Dynamik: Lernen aufgabenspezifischer Koopman-Operatoren
Adaptive Lernrate: Dynamische Lernratenanpassung basierend auf Dateneigenschaften
Theoretische Garantien: Strenge theoretische Analyse von Konvergenz und Stabilität

Experimentelle Einrichtung

Datensätze

Experimente werden auf drei Benchmarksystemen durchgeführt:

Cart-Pole-System:
- Zustand: $[x, \dot{x}, \theta, \dot{\theta}]^T$
- Unsichere Parameter: Stablänge $l_p \in [0,1m, 1,0m]$ , Stabmasse $m_p \in [0,01kg, 0,2kg]$
- Regelungseingang: $u \in [-20, 20]$
Genregulationsnetzwerk (GRN):
- Zustand: $[m_1, m_2, m_3, p_1, p_2, p_3]^T$ (mRNA- und Proteinkonzentrationen)
- Unsichere Parameter: Dissoziationskonstante $K \in [2, 8]$ , Eingangsskalar $b_1 \in [3, 7]$
Reaktor-Separator-Chemieprozess:
- Zustand: 9-dimensional (Massenanteile und Temperatur)
- Unsichere Parameter: Einspeisungstemperatur $T_{10}, T_{20} \in [150K, 450K]$

Bewertungsmetriken

Kumulativer Vorhersagefehler (16-Schritt-Vorhersage)
L2-Norm des Verfolgungsfehlers
Kumulierte Kosten der Regelungsleistung

Vergleichsmethoden

DeSKO (Deep Stochastic Koopman Operator): Konkurrierendes Baseline-Verfahren, trainiert unter nominalen Parametereinstellungen

Implementierungsdetails

Beobachtungsdimension: 128-256
Trajektorienlänge: 250-500
Batch-Größe: 128
Lernrate: $10^{-4}$
Vorhersagehorizont: 16 Schritte
Netzwerkstruktur: (128,128), ReLU-Aktivierungsfunktion

Experimentelle Ergebnisse

Hauptergebnisse

Modellierungsleistung

MAKO zeigt gute Modellierungsleistung auf allen drei Systemen
Durchschnittlicher Fehler der 16-Schritt-Vorhersage kleiner als $10^{-2}$
Überlegen gegenüber DeSKO auf Cartpole- und Chemieprozesssystemen
Leicht unterlegen gegenüber DeSKO auf GRN-System, aber immer noch gute Leistung

Regelungsleistung

Cartpole-System: MAKO erreicht stabile Regelung mit niedrigeren kumulierten Kosten als DeSKO
GRN-System: DeSKO erreicht nur bei 3 Parametereinstellungen genaue Verfolgung, MAKO zeigt stabilere Leistung
Chemieprozess: DeSKO kann bei keiner Parametereinstellung den Verfolgungsfehler stabil halten, MAKO erreicht erfolgreich das Regelungsziel

Rechnerische Effizienz

MAKO-Robust-Framework benötigt durchschnittlich 0,0203 Sekunden Rechenzeit pro Zeitschritt auf Cartpole-System
Geeignet für Echtzeit-Regelungsanwendungen

Ablationsstudien

Vergleich zwischen nominaler Anpassung (MAKO) und robuster Anpassung (MAKO-robust):

MAKO-robust zeigt schnelleres und stabileres Übergangverhalten
Erreicht vergleichbare oder kleinere stationäre Verfolgungsfehler

Experimentelle Erkenntnisse

Verallgemeinerungsfähigkeit: MAKO kann sich an Parametereinstellungen anpassen, die während des Trainings nicht angetroffen wurden
Robustheit: Behält gute Leistung bei Vorhandensein von Parameterunsicherheit
Adaptivität: Schnelle Anpassung an neue Aufgaben durch Online-Daten

Theoretische Analyse

Konvergenzsätze

Satz 1 (Nominale Anpassung): Unter Annahmen 1-3 konvergiert der Vorhersagezustandsfehler $\tilde{x}$ asymptotisch gegen Null mit den Aktualisierungsgesetzen (9) und (10), während die Parameterapproximationsfehler $\tilde{\Psi}_k$ und $\tilde{C}_k$ letztendlich begrenzt sind.

Satz 2 (Robuste Anpassung): Unter Annahmen 1 und 2 sind die Parameterapproximationsfehler $\tilde{\Psi}_k$ , $\tilde{C}_k$ letztendlich begrenzt mit den Aktualisierungsgesetzen (10), (15) und (16), und $\lim_{k\to\infty} \|\tilde{x}_k\| \leq \epsilon_v$ .

Stabilitätssätze

Satz 3: Betrachten Sie das nichtlineare System (1) mit Aktualisierungsgesetzen (9) und (10) sowie MPC-Regler (19). Unter Annahmen 1-3 ist der Verfolgungsfehler des geschlossenen Regelkreises asymptotisch stabil.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreiche Integration von Meta-Learning und Koopman-Operator-Theorie zur Schaffung eines adaptiven Regelungsrahmens für parametrisch unsichere nichtlineare Systeme
Bereitstellung strenger theoretischer Konvergenz- und Stabilitätsgarantien
Verifikation der Wirksamkeit und Überlegenheit der Methode auf mehreren Benchmarksystemen

Limitierungen

Theoretische Annahmen: Annahme 3 erfordert die Existenz eines endlich-dimensionalen invarianten Unterraums, was für allgemeine nichtlineare Systeme schwer zu garantieren ist
Leistungsgrenzen: Fehlende strenge Grenzwertanalyse für Verallgemeinerung und Leistung des Meta-Training-Koopman-Modells
Praktische Anwendung: Nur in Simulationen verifiziert, fehlende Verifikation an realen Systemen

Zukünftige Richtungen

Anwendung der Methode auf reale Systeme mit Parameterunsicherheit
Formale Analyse der Anforderungen an kontinuierliche Anregung (PE)
Systematische Untersuchung der Beziehung zwischen Trajektorienlänge und Qualität des Meta-Learning-Koopman-Operators
Erweiterung auf hochdimensionale Systeme

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erstmalige Kombination von Meta-Learning und Koopman-Operatoren bietet neue Perspektiven für die Regelung parametrisch unsicherer Systeme
Theoretische Vollständigkeit: Vollständige Konvergenz- und Stabilitätsanalyse
Umfassende Experimente: Umfassende Evaluierung auf Benchmarksystemen aus drei verschiedenen Bereichen
Praktischer Wert: Hohe Recheneffizienz, geeignet für Echtzeit-Regelungsanwendungen

Mängel

Annahmebeschränkungen: Theoretische Analyse beruht auf relativ starken Annahmebedingungen, die reale Systeme möglicherweise nicht erfüllen
Begrenzte Baselines: Nur Vergleich mit DeSKO, fehlende Vergleiche mit anderen fortgeschrittenen Methoden
Fehlende praktische Verifikation: Keine Verifikation der Methodenwirksamkeit an realen Systemen
Skalierbarkeit auf hohe Dimensionen: Anwendbarkeit auf hochdimensionale Systeme bedarf weiterer Forschung

Einfluss

Akademischer Beitrag: Bietet neuen theoretischen Rahmen und Methoden für die lerngestützte Regelungstheorie
Anwendungsperspektiven: Breite Anwendungsperspektiven in Robotik, Chemieprozessregelung und anderen Bereichen
Reproduzierbarkeit: Autoren stellen Code-Links bereit, was die Reproduzierbarkeit von Ergebnissen erleichtert

Anwendungsszenarien

Parametrisch unsichere nichtlineare Systeme: Wie Robotersysteme, Chemieprozesse, biologische Systeme
Regelungsaufgaben mit schneller Anpassung erforderlich: Lastveränderungen, Umgebungsveränderungen und ähnliche Szenarien
Echtzeit-Regelungsanwendungen: Szenarien mit hohen Anforderungen an Recheneffizienz

Literaturverzeichnis

Der Artikel zitiert 41 relevante Literaturquellen, die wichtige Arbeiten aus mehreren Bereichen wie adaptive Regelung, Koopman-Operator-Theorie, Meta-Learning und modellprädiktive Regelung abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives akademisches Papier, das sich in theoretischer Innovation, Methodendesign und experimenteller Verifikation auszeichnet. Die Kombination von Meta-Learning und Koopman-Operator-Theorie bietet neue Lösungsansätze für das Regelungsproblem parametrisch unsicherer nichtlinearer Systeme und hat wichtigen akademischen Wert und Anwendungspotenzial. Trotz einiger Einschränkungen bei theoretischen Annahmen und praktischer Verifikation ist dies insgesamt eine bemerkenswerte Forschungsarbeit, die Aufmerksamkeit verdient.