2025-11-14T08:52:10.884823

MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems

Han, Wong, Law et al.
In this work, we propose a meta-learning-based Koopman modeling and predictive control approach for nonlinear systems with parametric uncertainties. An adaptive deep meta-learning-based modeling approach, called Meta Adaptive Koopman Operator (MAKO), is proposed. Without knowledge of the parametric uncertainty, the proposed MAKO approach can learn a meta-model from a multi-modal dataset and efficiently adapt to new systems with previously unseen parameter settings by using online data. Based on the learned meta Koopman model, a predictive control scheme is developed, and the stability of the closed-loop system is ensured even in the presence of previously unseen parameter settings. Through extensive simulations, our proposed approach demonstrates superior performance in both modeling accuracy and control efficacy as compared to competitive baselines.
academic

MAKO: Meta-Adaptive Koopman Operatoren für lernbasierte modellprädiktive Regelung parametrisch unsicherer nichtlinearer Systeme

Grundlegende Informationen

  • Paper-ID: 2510.09042
  • Titel: MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems
  • Autoren: Minghao Han, Kiwan Wong, Adrian Wing-Keung Law, Xunyuan Yin
  • Klassifizierung: eess.SY cs.LG cs.SY
  • Veröffentlichungszeitpunkt: Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.09042

Zusammenfassung

In diesem Artikel wird eine auf Meta-Learning basierende Koopman-Modellierung und prädiktive Regelungsmethode für nichtlineare Systeme mit Parameterunsicherheit vorgestellt. Es wird eine adaptive tiefe Meta-Learning-Modellierungsmethode – Meta-Adaptive Koopman Operatoren (MAKO) – vorgeschlagen. Ohne Kenntnis der Parameterunsicherheit kann die MAKO-Methode aus multimodalen Datensätzen ein Meta-Modell lernen und sich durch Online-Daten effizient an neue Systeme mit zuvor ungesehenen Parametereinstellungen anpassen. Basierend auf dem gelernten Meta-Koopman-Modell wird ein prädiktives Regelungsschema entwickelt, das die Stabilität des geschlossenen Regelkreises auch bei zuvor ungesehenen Parametereinstellungen gewährleistet.

Forschungshintergrund und Motivation

  1. Problemdefinition: Parameterunsicherheit ist in nichtlinearen Systemen weit verbreitet und wird normalerweise durch Lastveränderungen und Betriebsbedingungen verursacht. Diese Unsicherheiten führen zu Leistungsabfall und Instabilität und stellen große Herausforderungen für die Regelungssystemauslegung dar.
  2. Problemrelevanz: Traditionelle adaptive modellprädiktive Regelungsmethoden (AMPC) zeigen begrenzte Ergebnisse bei nichtlinearen Systemen und erfordern normalerweise First-Principles-Modelle als Grundlage für die Regelungssystemauslegung. Theoretische Annahmen setzen lineare Abhängigkeit von unsicheren Parametern voraus, was die Anwendbarkeit auf allgemeine nichtlineare Prozesse einschränkt.
  3. Limitierungen bestehender Methoden:
    • Bestehende Koopman-Operator-Methoden konzentrieren sich hauptsächlich auf spezifische Regelungsaufgaben mit festen Modellparametern
    • Online-Anpassung basierend auf tiefen neuronalen Netzen ist ineffizient und rechnerisch aufwändig
    • Meta-Reinforcement-Learning-Methoden können keine Stabilitätsgarantien und Garantien für die Regelungsleistung im geschlossenen Kreis bieten
  4. Forschungsmotivation: Kombination von Meta-Learning mit Koopman-Operator-Theorie zur Schaffung eines lerngestützten adaptiven Regelungsrahmens für parametrisch unsichere nichtlineare Systeme.

Kernbeiträge

  1. Erstmalige Integration: Erstmalige Integration von Meta-Learning und Koopman-Operator-Theorie, Etablierung eines lerngestützten adaptiven MPC-Rahmens für allgemeine Klassen parametrisch unsicherer nichtlinearer Systeme
  2. Theoretische Garantien: Strenger Nachweis der Konvergenz der Modellanpassung und des geschlossenen Regelkreises
  3. Leistungsverifikation: Basierend auf Benchmarksystemen aus drei verschiedenen Bereichen zeigt MAKO gute Modellierungsgenauigkeit und robuste Verfolgungsregelungsleistung bei Vorhandensein von Parameterunsicherheit, überlegen gegenüber konkurrierenden Baseline-Methoden

Methodische Details

Aufgabendefinition

Betrachten Sie ein nichtlineares System mit Parameterunsicherheit: xk+1=f(xk,uk,Θ),Θp(Θ)x_{k+1} = f(x_k, u_k, \Theta), \quad \Theta \sim p(\Theta)

Wobei:

  • xkXRnx_k \in X \subset \mathbb{R}^n: Systemzustand
  • ukURmu_k \in U \subset \mathbb{R}^m: Regelungseingang
  • ΘΞRl\Theta \in \Xi \subset \mathbb{R}^l: Systemparameter, verteilt nach unbekannter Verteilung p(Θ)p(\Theta)

Modellarchitektur

1. Meta-Training Neuronales Netz (MNN)

Das MNN parametrisiert die Beobachtungsfunktion und wird über verschiedene Aufgabeneinstellungen hinweg gemeinsam genutzt: gki=ψθ(xki),xkiDig_k^i = \psi_\theta(x_k^i), \quad x_k^i \in D_i

Wobei ψθ()\psi_\theta(\cdot) ein mehrschichtiges neuronales Netz ist und θ\theta trainierbare Parameter sind.

2. Koopman-Operator

Im kodierten Beobachtungsraum wird für jede Aufgabeneinstellung Θi\Theta_i ein Satz von Koopman-Operatoren Ai,Bi,CiA_i, B_i, C_i gelernt: gk+1ki=Aigkki+Biukig_{k+1|k}^i = A_i g_{k|k}^i + B_i u_k^ix^k+1ki=Cigk+1ki\hat{x}_{k+1|k}^i = C_i g_{k+1|k}^i

3. Meta-Learning-Optimierung

Das Optimierungsproblem wird formuliert als: minθ,{Ai,Bi,Ci}1NTHi=1Nk=1Tt=1Hxk+tiCigk+tki22\min_{\theta,\{A_i,B_i,C_i\}} \frac{1}{NTH} \sum_{i=1}^N \sum_{k=1}^T \sum_{t=1}^H \|x_{k+t}^i - C_i g_{k+t|k}^i\|_2^2

Unter den Nebenbedingungen:

  • gk+tki=Aigk+t1ki+Biuk+t1ig_{k+t|k}^i = A_i g_{k+t-1|k}^i + B_i u_{k+t-1}^i
  • gkki=ψθ(xki)g_{k|k}^i = \psi_\theta(x_k^i)

Online-Anpassungsmechanismus

1. Nominale Anpassung

Initialisierung: A^0,B^0,C^0={1NAi,1NBi,1NCi}\hat{A}_0, \hat{B}_0, \hat{C}_0 = \{\frac{1}{N}\sum A_i, \frac{1}{N}\sum B_i, \frac{1}{N}\sum C_i\}

Gradientenberechnung: Ψ^Jk=Xkg~k+1T\nabla_{\hat{\Psi}} J_k = -X_k \tilde{g}_{k+1}^TC^Jk=gk+1x~k+1T\nabla_{\hat{C}} J_k = -g_{k+1} \tilde{x}_{k+1}^T

Aktualisierungsgesetz: Ψ^k+1=Ψ^k+λkg~k+1XkT\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k \tilde{g}_{k+1} X_k^TC^k+1=C^k+λkx~k+1gk+1T\hat{C}_{k+1} = \hat{C}_k + \lambda_k \tilde{x}_{k+1} g_{k+1}^T

Wobei die adaptive Lernrate: λk=min(2αXkTXk,2αgk+1Tgk+1)\lambda_k = \min\left(\frac{2-\alpha}{X_k^T X_k}, \frac{2-\alpha}{g_{k+1}^T g_{k+1}}\right)

2. Robuste Anpassung

Unter Berücksichtigung von Modellierungsfehlern wird ideales Rauschen eingeführt: wk,vk=minwkW,vkVJˉ(Ψ^k,C^k,wk,vk)w_k^*, v_k^* = \min_{w_k \in W, v_k \in V} \bar{J}(\hat{\Psi}_k, \hat{C}_k, w_k, v_k)

Robustes Aktualisierungsgesetz: Ψ^k+1=Ψ^k+λk(g~k+1wk)XkT\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k(\tilde{g}_{k+1} - w_k^*) X_k^TC^k+1=C^k+λk(x~k+1vk)gk+1T\hat{C}_{k+1} = \hat{C}_k + \lambda_k(\tilde{x}_{k+1} - v_k^*) g_{k+1}^T

Technische Innovationspunkte

  1. Gemeinsames Repräsentationslernen: Lernen von gemeinsamen Beobachtungsraumdarstellungen über Aufgaben hinweg durch MNN
  2. Aufgabenspezifische Dynamik: Lernen aufgabenspezifischer Koopman-Operatoren
  3. Adaptive Lernrate: Dynamische Lernratenanpassung basierend auf Dateneigenschaften
  4. Theoretische Garantien: Strenge theoretische Analyse von Konvergenz und Stabilität

Experimentelle Einrichtung

Datensätze

Experimente werden auf drei Benchmarksystemen durchgeführt:

  1. Cart-Pole-System:
    • Zustand: [x,x˙,θ,θ˙]T[x, \dot{x}, \theta, \dot{\theta}]^T
    • Unsichere Parameter: Stablänge lp[0,1m,1,0m]l_p \in [0,1m, 1,0m], Stabmasse mp[0,01kg,0,2kg]m_p \in [0,01kg, 0,2kg]
    • Regelungseingang: u[20,20]u \in [-20, 20]
  2. Genregulationsnetzwerk (GRN):
    • Zustand: [m1,m2,m3,p1,p2,p3]T[m_1, m_2, m_3, p_1, p_2, p_3]^T (mRNA- und Proteinkonzentrationen)
    • Unsichere Parameter: Dissoziationskonstante K[2,8]K \in [2, 8], Eingangsskalar b1[3,7]b_1 \in [3, 7]
  3. Reaktor-Separator-Chemieprozess:
    • Zustand: 9-dimensional (Massenanteile und Temperatur)
    • Unsichere Parameter: Einspeisungstemperatur T10,T20[150K,450K]T_{10}, T_{20} \in [150K, 450K]

Bewertungsmetriken

  • Kumulativer Vorhersagefehler (16-Schritt-Vorhersage)
  • L2-Norm des Verfolgungsfehlers
  • Kumulierte Kosten der Regelungsleistung

Vergleichsmethoden

  • DeSKO (Deep Stochastic Koopman Operator): Konkurrierendes Baseline-Verfahren, trainiert unter nominalen Parametereinstellungen

Implementierungsdetails

  • Beobachtungsdimension: 128-256
  • Trajektorienlänge: 250-500
  • Batch-Größe: 128
  • Lernrate: 10410^{-4}
  • Vorhersagehorizont: 16 Schritte
  • Netzwerkstruktur: (128,128), ReLU-Aktivierungsfunktion

Experimentelle Ergebnisse

Hauptergebnisse

Modellierungsleistung

  • MAKO zeigt gute Modellierungsleistung auf allen drei Systemen
  • Durchschnittlicher Fehler der 16-Schritt-Vorhersage kleiner als 10210^{-2}
  • Überlegen gegenüber DeSKO auf Cartpole- und Chemieprozesssystemen
  • Leicht unterlegen gegenüber DeSKO auf GRN-System, aber immer noch gute Leistung

Regelungsleistung

  1. Cartpole-System: MAKO erreicht stabile Regelung mit niedrigeren kumulierten Kosten als DeSKO
  2. GRN-System: DeSKO erreicht nur bei 3 Parametereinstellungen genaue Verfolgung, MAKO zeigt stabilere Leistung
  3. Chemieprozess: DeSKO kann bei keiner Parametereinstellung den Verfolgungsfehler stabil halten, MAKO erreicht erfolgreich das Regelungsziel

Rechnerische Effizienz

  • MAKO-Robust-Framework benötigt durchschnittlich 0,0203 Sekunden Rechenzeit pro Zeitschritt auf Cartpole-System
  • Geeignet für Echtzeit-Regelungsanwendungen

Ablationsstudien

Vergleich zwischen nominaler Anpassung (MAKO) und robuster Anpassung (MAKO-robust):

  • MAKO-robust zeigt schnelleres und stabileres Übergangverhalten
  • Erreicht vergleichbare oder kleinere stationäre Verfolgungsfehler

Experimentelle Erkenntnisse

  1. Verallgemeinerungsfähigkeit: MAKO kann sich an Parametereinstellungen anpassen, die während des Trainings nicht angetroffen wurden
  2. Robustheit: Behält gute Leistung bei Vorhandensein von Parameterunsicherheit
  3. Adaptivität: Schnelle Anpassung an neue Aufgaben durch Online-Daten

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Adaptive modellprädiktive Regelung: Traditionelle AMPC-Methoden zeigen begrenzte Ergebnisse bei nichtlinearen Systemen
  2. Koopman-Operator-Theorie: In den letzten Jahren Aufmerksamkeit bei der linearen Darstellung komplexer nichtlinearer Prozesse
  3. Meta-Learning in der Regelungstechnik: Entwicklung von MAML-, Meta-Reinforcement-Learning- und anderen Methoden

Vorteile dieses Artikels

  1. Erstmalige Kombination von Meta-Learning und Koopman-Operatoren
  2. Bereitstellung theoretischer Konvergenzgarantien
  3. Anwendbarkeit auf allgemeine Klassen nichtlinearer Systeme
  4. Höhere Recheneffizienz als Online-Anpassung mit tiefen neuronalen Netzen

Theoretische Analyse

Konvergenzsätze

Satz 1 (Nominale Anpassung): Unter Annahmen 1-3 konvergiert der Vorhersagezustandsfehler x~\tilde{x} asymptotisch gegen Null mit den Aktualisierungsgesetzen (9) und (10), während die Parameterapproximationsfehler Ψ~k\tilde{\Psi}_k und C~k\tilde{C}_k letztendlich begrenzt sind.

Satz 2 (Robuste Anpassung): Unter Annahmen 1 und 2 sind die Parameterapproximationsfehler Ψ~k\tilde{\Psi}_k, C~k\tilde{C}_k letztendlich begrenzt mit den Aktualisierungsgesetzen (10), (15) und (16), und limkx~kϵv\lim_{k\to\infty} \|\tilde{x}_k\| \leq \epsilon_v.

Stabilitätssätze

Satz 3: Betrachten Sie das nichtlineare System (1) mit Aktualisierungsgesetzen (9) und (10) sowie MPC-Regler (19). Unter Annahmen 1-3 ist der Verfolgungsfehler des geschlossenen Regelkreises asymptotisch stabil.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Integration von Meta-Learning und Koopman-Operator-Theorie zur Schaffung eines adaptiven Regelungsrahmens für parametrisch unsichere nichtlineare Systeme
  2. Bereitstellung strenger theoretischer Konvergenz- und Stabilitätsgarantien
  3. Verifikation der Wirksamkeit und Überlegenheit der Methode auf mehreren Benchmarksystemen

Limitierungen

  1. Theoretische Annahmen: Annahme 3 erfordert die Existenz eines endlich-dimensionalen invarianten Unterraums, was für allgemeine nichtlineare Systeme schwer zu garantieren ist
  2. Leistungsgrenzen: Fehlende strenge Grenzwertanalyse für Verallgemeinerung und Leistung des Meta-Training-Koopman-Modells
  3. Praktische Anwendung: Nur in Simulationen verifiziert, fehlende Verifikation an realen Systemen

Zukünftige Richtungen

  1. Anwendung der Methode auf reale Systeme mit Parameterunsicherheit
  2. Formale Analyse der Anforderungen an kontinuierliche Anregung (PE)
  3. Systematische Untersuchung der Beziehung zwischen Trajektorienlänge und Qualität des Meta-Learning-Koopman-Operators
  4. Erweiterung auf hochdimensionale Systeme

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmalige Kombination von Meta-Learning und Koopman-Operatoren bietet neue Perspektiven für die Regelung parametrisch unsicherer Systeme
  2. Theoretische Vollständigkeit: Vollständige Konvergenz- und Stabilitätsanalyse
  3. Umfassende Experimente: Umfassende Evaluierung auf Benchmarksystemen aus drei verschiedenen Bereichen
  4. Praktischer Wert: Hohe Recheneffizienz, geeignet für Echtzeit-Regelungsanwendungen

Mängel

  1. Annahmebeschränkungen: Theoretische Analyse beruht auf relativ starken Annahmebedingungen, die reale Systeme möglicherweise nicht erfüllen
  2. Begrenzte Baselines: Nur Vergleich mit DeSKO, fehlende Vergleiche mit anderen fortgeschrittenen Methoden
  3. Fehlende praktische Verifikation: Keine Verifikation der Methodenwirksamkeit an realen Systemen
  4. Skalierbarkeit auf hohe Dimensionen: Anwendbarkeit auf hochdimensionale Systeme bedarf weiterer Forschung

Einfluss

  1. Akademischer Beitrag: Bietet neuen theoretischen Rahmen und Methoden für die lerngestützte Regelungstheorie
  2. Anwendungsperspektiven: Breite Anwendungsperspektiven in Robotik, Chemieprozessregelung und anderen Bereichen
  3. Reproduzierbarkeit: Autoren stellen Code-Links bereit, was die Reproduzierbarkeit von Ergebnissen erleichtert

Anwendungsszenarien

  1. Parametrisch unsichere nichtlineare Systeme: Wie Robotersysteme, Chemieprozesse, biologische Systeme
  2. Regelungsaufgaben mit schneller Anpassung erforderlich: Lastveränderungen, Umgebungsveränderungen und ähnliche Szenarien
  3. Echtzeit-Regelungsanwendungen: Szenarien mit hohen Anforderungen an Recheneffizienz

Literaturverzeichnis

Der Artikel zitiert 41 relevante Literaturquellen, die wichtige Arbeiten aus mehreren Bereichen wie adaptive Regelung, Koopman-Operator-Theorie, Meta-Learning und modellprädiktive Regelung abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives akademisches Papier, das sich in theoretischer Innovation, Methodendesign und experimenteller Verifikation auszeichnet. Die Kombination von Meta-Learning und Koopman-Operator-Theorie bietet neue Lösungsansätze für das Regelungsproblem parametrisch unsicherer nichtlinearer Systeme und hat wichtigen akademischen Wert und Anwendungspotenzial. Trotz einiger Einschränkungen bei theoretischen Annahmen und praktischer Verifikation ist dies insgesamt eine bemerkenswerte Forschungsarbeit, die Aufmerksamkeit verdient.