2025-11-14T08:52:10.884823

MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems

Han, Wong, Law et al.
In this work, we propose a meta-learning-based Koopman modeling and predictive control approach for nonlinear systems with parametric uncertainties. An adaptive deep meta-learning-based modeling approach, called Meta Adaptive Koopman Operator (MAKO), is proposed. Without knowledge of the parametric uncertainty, the proposed MAKO approach can learn a meta-model from a multi-modal dataset and efficiently adapt to new systems with previously unseen parameter settings by using online data. Based on the learned meta Koopman model, a predictive control scheme is developed, and the stability of the closed-loop system is ensured even in the presence of previously unseen parameter settings. Through extensive simulations, our proposed approach demonstrates superior performance in both modeling accuracy and control efficacy as compared to competitive baselines.
academic

MAKO : Opérateurs de Koopman Méta-Adaptatifs pour la Commande Prédictive Basée sur l'Apprentissage de Systèmes Non-Linéaires Paramétriquement Incertains

Informations Fondamentales

  • ID de l'article : 2510.09042
  • Titre : MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems
  • Auteurs : Minghao Han, Kiwan Wong, Adrian Wing-Keung Law, Xunyuan Yin
  • Classification : eess.SY cs.LG cs.SY
  • Date de publication : Octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.09042

Résumé

Cet article propose une méthode de modélisation et de commande prédictive basée sur la méta-apprentissage utilisant les opérateurs de Koopman pour traiter les systèmes non-linéaires présentant des incertitudes paramétriques. Une approche de modélisation par méta-apprentissage profond adaptatif est proposée — les Opérateurs de Koopman Méta-Adaptatifs (MAKO). Sans connaître les incertitudes paramétriques, la méthode MAKO peut apprendre un métamodèle à partir d'ensembles de données multimodales et s'adapter efficacement en ligne à de nouveaux systèmes présentant des configurations paramétriques non observées auparavant. Sur la base du métamodèle de Koopman appris, un schéma de commande prédictive est développé, garantissant la stabilité du système en boucle fermée même en présence de configurations paramétriques non observées auparavant.

Contexte et Motivation de la Recherche

  1. Définition du problème : L'incertitude paramétrique est courante dans les systèmes non-linéaires, généralement causée par des variations de charge et des conditions opératoires. Ces incertitudes entraînent une dégradation des performances et de l'instabilité, posant des défis majeurs à la conception des systèmes de commande.
  2. Importance du problème : Les méthodes traditionnelles de commande prédictive adaptative (AMPC) présentent des résultats limités sur les systèmes non-linéaires, nécessitant généralement des modèles de premiers principes comme base pour la conception du système de commande, et supposent théoriquement une dépendance linéaire aux paramètres incertains, limitant leur applicabilité aux processus non-linéaires généraux.
  3. Limitations des approches existantes :
    • Les méthodes existantes basées sur les opérateurs de Koopman ciblent principalement des tâches de commande spécifiques avec des paramètres de modèle fixes
    • L'adaptation en ligne basée sur les réseaux de neurones profonds est inefficace et coûteuse en calcul
    • Les méthodes d'apprentissage par renforcement méta-apprentissage ont du mal à fournir des garanties de stabilité et de performance en boucle fermée
  4. Motivation de la recherche : Combiner la méta-apprentissage avec la théorie des opérateurs de Koopman pour créer un cadre de commande adaptative basé sur l'apprentissage pour les systèmes non-linéaires paramétriquement incertains.

Contributions Principales

  1. Intégration novatrice : Première intégration de la méta-apprentissage et de la théorie des opérateurs de Koopman, établissant un cadre de commande prédictive adaptative basée sur l'apprentissage applicable aux systèmes non-linéaires paramétriquement incertains de classe générale
  2. Garanties théoriques : Preuve rigoureuse de la convergence de l'adaptation en ligne du modèle et du système en boucle fermée
  3. Vérification des performances : Sur la base de trois systèmes de référence de domaines différents, MAKO démontre une excellente précision de modélisation et des performances de commande de suivi robuste en présence d'incertitude paramétrique, surpassant les méthodes de base concurrentes

Détails de la Méthode

Définition de la Tâche

Considérez un système non-linéaire paramétriquement incertain : xk+1=f(xk,uk,Θ),Θp(Θ)x_{k+1} = f(x_k, u_k, \Theta), \quad \Theta \sim p(\Theta)

Où :

  • xkXRnx_k \in X \subset \mathbb{R}^n : état du système
  • ukURmu_k \in U \subset \mathbb{R}^m : entrée de commande
  • ΘΞRl\Theta \in \Xi \subset \mathbb{R}^l : paramètres du système, suivant une distribution inconnue p(Θ)p(\Theta)

Architecture du Modèle

1. Réseau de Neurones Méta-Apprentissage (MNN)

Le MNN est responsable de la paramétrisation de la fonction observable, partagée entre différentes configurations de tâches : gki=ψθ(xki),xkiDig_k^i = \psi_\theta(x_k^i), \quad x_k^i \in D_i

ψθ()\psi_\theta(\cdot) est un réseau de neurones multicouche et θ\theta est le paramètre entraînable.

2. Opérateur de Koopman

Dans l'espace observable codé, un ensemble d'opérateurs de Koopman Ai,Bi,CiA_i, B_i, C_i est appris pour chaque configuration de tâche Θi\Theta_i : gk+1ki=Aigkki+Biukig_{k+1|k}^i = A_i g_{k|k}^i + B_i u_k^ix^k+1ki=Cigk+1ki\hat{x}_{k+1|k}^i = C_i g_{k+1|k}^i

3. Optimisation de la Méta-Apprentissage

Le problème d'optimisation s'exprime comme : minθ,{Ai,Bi,Ci}1NTHi=1Nk=1Tt=1Hxk+tiCigk+tki22\min_{\theta,\{A_i,B_i,C_i\}} \frac{1}{NTH} \sum_{i=1}^N \sum_{k=1}^T \sum_{t=1}^H \|x_{k+t}^i - C_i g_{k+t|k}^i\|_2^2

Sous les contraintes :

  • gk+tki=Aigk+t1ki+Biuk+t1ig_{k+t|k}^i = A_i g_{k+t-1|k}^i + B_i u_{k+t-1}^i
  • gkki=ψθ(xki)g_{k|k}^i = \psi_\theta(x_k^i)

Mécanisme d'Adaptation en Ligne

1. Adaptation Nominale

Initialisation : A^0,B^0,C^0={1NAi,1NBi,1NCi}\hat{A}_0, \hat{B}_0, \hat{C}_0 = \{\frac{1}{N}\sum A_i, \frac{1}{N}\sum B_i, \frac{1}{N}\sum C_i\}

Calcul du gradient : Ψ^Jk=Xkg~k+1T\nabla_{\hat{\Psi}} J_k = -X_k \tilde{g}_{k+1}^TC^Jk=gk+1x~k+1T\nabla_{\hat{C}} J_k = -g_{k+1} \tilde{x}_{k+1}^T

Loi de mise à jour : Ψ^k+1=Ψ^k+λkg~k+1XkT\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k \tilde{g}_{k+1} X_k^TC^k+1=C^k+λkx~k+1gk+1T\hat{C}_{k+1} = \hat{C}_k + \lambda_k \tilde{x}_{k+1} g_{k+1}^T

Où le taux d'apprentissage adaptatif : λk=min(2αXkTXk,2αgk+1Tgk+1)\lambda_k = \min\left(\frac{2-\alpha}{X_k^T X_k}, \frac{2-\alpha}{g_{k+1}^T g_{k+1}}\right)

2. Adaptation Robuste

Considérant le cas d'erreur de modélisation, un bruit idéal est introduit : wk,vk=minwkW,vkVJˉ(Ψ^k,C^k,wk,vk)w_k^*, v_k^* = \min_{w_k \in W, v_k \in V} \bar{J}(\hat{\Psi}_k, \hat{C}_k, w_k, v_k)

Loi de mise à jour robuste : Ψ^k+1=Ψ^k+λk(g~k+1wk)XkT\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k(\tilde{g}_{k+1} - w_k^*) X_k^TC^k+1=C^k+λk(x~k+1vk)gk+1T\hat{C}_{k+1} = \hat{C}_k + \lambda_k(\tilde{x}_{k+1} - v_k^*) g_{k+1}^T

Points d'Innovation Technique

  1. Apprentissage de représentations partagées : Apprentissage de représentations d'espace observable partagées entre tâches via MNN
  2. Dynamiques spécifiques à la tâche : Apprentissage d'opérateurs de Koopman spécifiques pour chaque tâche
  3. Taux d'apprentissage adaptatif : Ajustement dynamique du taux d'apprentissage basé sur les caractéristiques des données
  4. Garanties théoriques : Analyse théorique rigoureuse de la convergence et de la stabilité

Configuration Expérimentale

Ensemble de Données

Les expériences sont menées sur trois systèmes de référence :

  1. Système Chariot-Pendule :
    • État : [x,x˙,θ,θ˙]T[x, \dot{x}, \theta, \dot{\theta}]^T
    • Paramètres incertains : longueur de la tige lp[0.1m,1.0m]l_p \in [0.1m, 1.0m], masse de la tige mp[0.01kg,0.2kg]m_p \in [0.01kg, 0.2kg]
    • Entrée de commande : u[20,20]u \in [-20, 20]
  2. Réseau de Régulation Génique (GRN) :
    • État : [m1,m2,m3,p1,p2,p3]T[m_1, m_2, m_3, p_1, p_2, p_3]^T (concentrations d'ARNm et de protéines)
    • Paramètres incertains : constante de dissociation K[2,8]K \in [2, 8], scalaire d'entrée b1[3,7]b_1 \in [3, 7]
  3. Processus Chimique Réacteur-Séparateur :
    • État : 9 dimensions (fractions massiques et température)
    • Paramètres incertains : température d'alimentation T10,T20[150K,450K]T_{10}, T_{20} \in [150K, 450K]

Métriques d'Évaluation

  • Erreur de prédiction cumulée (prédiction sur 16 pas)
  • Norme L2 de l'erreur de suivi
  • Coût cumulé de la performance de commande

Méthodes de Comparaison

  • DeSKO (Deep Stochastic Koopman Operator) : ligne de base concurrente entraînée sur des configurations de paramètres nominaux

Détails d'Implémentation

  • Dimension observable : 128-256
  • Longueur de trajectoire : 250-500
  • Taille de lot : 128
  • Taux d'apprentissage : 10410^{-4}
  • Horizon de prédiction : 16 pas
  • Structure du réseau : (128,128), fonction d'activation ReLU

Résultats Expérimentaux

Résultats Principaux

Performance de Modélisation

  • MAKO démontre une excellente performance de modélisation sur les trois systèmes
  • L'erreur moyenne de prédiction sur 16 pas est inférieure à 10210^{-2}
  • Surpasse DeSKO sur les systèmes Chariot-Pendule et processus chimique
  • Légèrement inférieur à DeSKO sur le système GRN, mais maintient une bonne performance

Performance de Commande

  1. Système Chariot-Pendule : MAKO réalise une commande stable avec un coût cumulé inférieur à DeSKO
  2. Système GRN : DeSKO n'atteint un suivi précis que pour 3 configurations paramétriques, MAKO montre une performance plus stable
  3. Processus Chimique : DeSKO ne peut pas stabiliser l'erreur de suivi pour toutes les configurations paramétriques, MAKO atteint avec succès l'objectif de commande

Efficacité Computationnelle

  • Le cadre MAKO-robust nécessite en moyenne 0.0203 secondes de calcul par pas de temps sur le système Chariot-Pendule
  • Convient aux applications de commande en temps réel

Expériences d'Ablation

Comparaison entre l'adaptation nominale (MAKO) et l'adaptation robuste (MAKO-robust) :

  • MAKO-robust démontre un comportement transitoire plus rapide et plus stable
  • Atteint une erreur de suivi en régime permanent comparable ou inférieure

Résultats Expérimentaux

  1. Capacité de généralisation : MAKO peut s'adapter à des configurations paramétriques non rencontrées pendant l'entraînement
  2. Robustesse : Maintient une bonne performance en présence d'incertitude paramétrique
  3. Adaptabilité : S'adapte rapidement aux nouvelles tâches via des données en ligne

Travaux Connexes

Principaux Domaines de Recherche

  1. Commande Prédictive Adaptative : Les méthodes AMPC traditionnelles présentent des résultats limités sur les systèmes non-linéaires
  2. Théorie des Opérateurs de Koopman : Récemment attirée l'attention pour la représentation linéaire de processus non-linéaires complexes
  3. Application de la Méta-Apprentissage en Commande : Développement de méthodes telles que MAML et l'apprentissage par renforcement méta-apprentissage

Avantages de Cet Article

  1. Première combinaison de la méta-apprentissage et des opérateurs de Koopman
  2. Fournit des garanties de convergence théorique
  3. Applicable aux systèmes non-linéaires de classe générale
  4. Efficacité computationnelle supérieure à l'adaptation en ligne par réseaux de neurones profonds

Analyse Théorique

Théorèmes de Convergence

Théorème 1 (Adaptation Nominale) : Sous les hypothèses 1-3, utilisant les lois de mise à jour adaptatives (9) et (10), l'erreur d'approximation paramétrique Ψ~k\tilde{\Psi}_k et C~k\tilde{C}_k sont finalement bornées, et l'erreur d'état de prédiction x~\tilde{x} converge asymptotiquement vers zéro.

Théorème 2 (Adaptation Robuste) : Sous les hypothèses 1 et 2, utilisant les lois de mise à jour (10), (15) et (16), l'erreur d'approximation paramétrique Ψ~k\tilde{\Psi}_k, C~k\tilde{C}_k sont finalement bornées, et limkx~kϵv\lim_{k\to\infty} \|\tilde{x}_k\| \leq \epsilon_v.

Théorème de Stabilité

Théorème 3 : Considérant le système non-linéaire (1) avec les lois de mise à jour adaptatives (9) et (10) et le contrôleur MPC (19), sous les hypothèses 1-3, l'erreur de suivi du système en boucle fermée est asymptotiquement stable.

Conclusions et Discussion

Conclusions Principales

  1. Intégration réussie de la méta-apprentissage et de la théorie des opérateurs de Koopman, créant un cadre de commande adaptative applicable aux systèmes non-linéaires paramétriquement incertains
  2. Fournit des garanties rigoureuses de convergence théorique et de stabilité
  3. Valide l'efficacité et la supériorité de la méthode sur plusieurs systèmes de référence

Limitations

  1. Hypothèses théoriques : L'hypothèse 3 exige l'existence d'un sous-espace invariant de dimension finie, difficile à garantir pour les systèmes non-linéaires généraux
  2. Limites de performance : Absence d'analyse rigoureuse des limites de généralisation et de performance du métamodèle de Koopman entraîné
  3. Application pratique : Validation uniquement en simulation, manque de vérification sur des systèmes réels

Directions Futures

  1. Application de la méthode à des systèmes réels présentant des incertitudes paramétriques
  2. Analyse formelle des exigences d'excitation persistante (PE)
  3. Étude systématique de la relation entre la longueur de trajectoire et la qualité de la méta-apprentissage des opérateurs de Koopman
  4. Extension aux systèmes de haute dimension

Évaluation Approfondie

Points Forts

  1. Forte innovativité : Première combinaison de la méta-apprentissage et des opérateurs de Koopman, offrant une nouvelle perspective pour la commande de systèmes paramétriquement incertains
  2. Complétude théorique : Fournit une analyse complète de la convergence et de la stabilité
  3. Expériences exhaustives : Évaluation complète sur trois systèmes de référence de domaines différents
  4. Valeur pratique : Efficacité computationnelle élevée, adaptée aux applications de commande en temps réel

Insuffisances

  1. Limitations des hypothèses : L'analyse théorique dépend d'hypothèses relativement fortes, que les systèmes réels pourraient ne pas satisfaire
  2. Lignes de base limitées : Comparaison uniquement avec DeSKO, manque de comparaison avec d'autres méthodes avancées
  3. Absence de vérification pratique : Pas de validation de l'efficacité de la méthode sur des systèmes réels
  4. Extensibilité aux hautes dimensions : L'applicabilité aux systèmes de haute dimension nécessite une recherche supplémentaire

Impact

  1. Contribution académique : Fournit un nouveau cadre théorique et une nouvelle méthode pour la théorie de la commande basée sur l'apprentissage
  2. Perspectives d'application : Larges perspectives d'application dans les domaines de la robotique, de la commande de processus chimiques, etc.
  3. Reproductibilité : Les auteurs fournissent un lien de code, facilitant la reproduction des résultats

Scénarios d'Application

  1. Systèmes non-linéaires paramétriquement incertains : Tels que les systèmes robotiques, les processus chimiques, les systèmes biologiques
  2. Tâches de commande nécessitant une adaptation rapide : Scénarios de variation de charge, de changement d'environnement, etc.
  3. Applications de commande en temps réel : Situations avec des exigences élevées d'efficacité computationnelle

Références Bibliographiques

L'article cite 41 références pertinentes, couvrant plusieurs domaines importants tels que la commande adaptative, la théorie des opérateurs de Koopman, la méta-apprentissage et la commande prédictive, fournissant une base théorique solide pour la recherche.


Évaluation Globale : Ceci est un article académique de haute qualité, démontrant une excellence en innovation théorique, conception de méthodes et vérification expérimentale. La combinaison de la méta-apprentissage et de la théorie des opérateurs de Koopman offre une nouvelle perspective de résolution pour le problème de commande de systèmes non-linéaires paramétriquement incertains, possédant une valeur académique importante et un potentiel d'application considérable. Bien que présentant certaines limitations dans les hypothèses théoriques et l'insuffisance de vérification pratique, il s'agit globalement d'un travail de recherche digne d'attention.