2025-11-14T08:52:10.884823

MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems

Han, Wong, Law et al.

In this work, we propose a meta-learning-based Koopman modeling and predictive control approach for nonlinear systems with parametric uncertainties. An adaptive deep meta-learning-based modeling approach, called Meta Adaptive Koopman Operator (MAKO), is proposed. Without knowledge of the parametric uncertainty, the proposed MAKO approach can learn a meta-model from a multi-modal dataset and efficiently adapt to new systems with previously unseen parameter settings by using online data. Based on the learned meta Koopman model, a predictive control scheme is developed, and the stability of the closed-loop system is ensured even in the presence of previously unseen parameter settings. Through extensive simulations, our proposed approach demonstrates superior performance in both modeling accuracy and control efficacy as compared to competitive baselines.

academic

MAKO : Opérateurs de Koopman Méta-Adaptatifs pour la Commande Prédictive Basée sur l'Apprentissage de Systèmes Non-Linéaires Paramétriquement Incertains

Informations Fondamentales

ID de l'article : 2510.09042
Titre : MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems
Auteurs : Minghao Han, Kiwan Wong, Adrian Wing-Keung Law, Xunyuan Yin
Classification : eess.SY cs.LG cs.SY
Date de publication : Octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.09042

Résumé

Cet article propose une méthode de modélisation et de commande prédictive basée sur la méta-apprentissage utilisant les opérateurs de Koopman pour traiter les systèmes non-linéaires présentant des incertitudes paramétriques. Une approche de modélisation par méta-apprentissage profond adaptatif est proposée — les Opérateurs de Koopman Méta-Adaptatifs (MAKO). Sans connaître les incertitudes paramétriques, la méthode MAKO peut apprendre un métamodèle à partir d'ensembles de données multimodales et s'adapter efficacement en ligne à de nouveaux systèmes présentant des configurations paramétriques non observées auparavant. Sur la base du métamodèle de Koopman appris, un schéma de commande prédictive est développé, garantissant la stabilité du système en boucle fermée même en présence de configurations paramétriques non observées auparavant.

Contexte et Motivation de la Recherche

Définition du problème : L'incertitude paramétrique est courante dans les systèmes non-linéaires, généralement causée par des variations de charge et des conditions opératoires. Ces incertitudes entraînent une dégradation des performances et de l'instabilité, posant des défis majeurs à la conception des systèmes de commande.
Importance du problème : Les méthodes traditionnelles de commande prédictive adaptative (AMPC) présentent des résultats limités sur les systèmes non-linéaires, nécessitant généralement des modèles de premiers principes comme base pour la conception du système de commande, et supposent théoriquement une dépendance linéaire aux paramètres incertains, limitant leur applicabilité aux processus non-linéaires généraux.
Limitations des approches existantes :
- Les méthodes existantes basées sur les opérateurs de Koopman ciblent principalement des tâches de commande spécifiques avec des paramètres de modèle fixes
- L'adaptation en ligne basée sur les réseaux de neurones profonds est inefficace et coûteuse en calcul
- Les méthodes d'apprentissage par renforcement méta-apprentissage ont du mal à fournir des garanties de stabilité et de performance en boucle fermée
Motivation de la recherche : Combiner la méta-apprentissage avec la théorie des opérateurs de Koopman pour créer un cadre de commande adaptative basé sur l'apprentissage pour les systèmes non-linéaires paramétriquement incertains.

Contributions Principales

Intégration novatrice : Première intégration de la méta-apprentissage et de la théorie des opérateurs de Koopman, établissant un cadre de commande prédictive adaptative basée sur l'apprentissage applicable aux systèmes non-linéaires paramétriquement incertains de classe générale
Garanties théoriques : Preuve rigoureuse de la convergence de l'adaptation en ligne du modèle et du système en boucle fermée
Vérification des performances : Sur la base de trois systèmes de référence de domaines différents, MAKO démontre une excellente précision de modélisation et des performances de commande de suivi robuste en présence d'incertitude paramétrique, surpassant les méthodes de base concurrentes

Détails de la Méthode

Définition de la Tâche

Considérez un système non-linéaire paramétriquement incertain : $x_{k+1} = f(x_k, u_k, \Theta), \quad \Theta \sim p(\Theta)$

Où :

$x_k \in X \subset \mathbb{R}^n$ : état du système
$u_k \in U \subset \mathbb{R}^m$ : entrée de commande
$\Theta \in \Xi \subset \mathbb{R}^l$ : paramètres du système, suivant une distribution inconnue $p(\Theta)$

Architecture du Modèle

1. Réseau de Neurones Méta-Apprentissage (MNN)

Le MNN est responsable de la paramétrisation de la fonction observable, partagée entre différentes configurations de tâches : $g_k^i = \psi_\theta(x_k^i), \quad x_k^i \in D_i$

Où $\psi_\theta(\cdot)$ est un réseau de neurones multicouche et $\theta$ est le paramètre entraînable.

2. Opérateur de Koopman

Dans l'espace observable codé, un ensemble d'opérateurs de Koopman $A_i, B_i, C_i$ est appris pour chaque configuration de tâche $\Theta_i$ : $g_{k+1|k}^i = A_i g_{k|k}^i + B_i u_k^i$ $\hat{x}_{k+1|k}^i = C_i g_{k+1|k}^i$

3. Optimisation de la Méta-Apprentissage

Le problème d'optimisation s'exprime comme : $\min_{\theta,\{A_i,B_i,C_i\}} \frac{1}{NTH} \sum_{i=1}^N \sum_{k=1}^T \sum_{t=1}^H \|x_{k+t}^i - C_i g_{k+t|k}^i\|_2^2$

Sous les contraintes :

$g_{k+t|k}^i = A_i g_{k+t-1|k}^i + B_i u_{k+t-1}^i$
$g_{k|k}^i = \psi_\theta(x_k^i)$

Mécanisme d'Adaptation en Ligne

1. Adaptation Nominale

Initialisation : $\hat{A}_0, \hat{B}_0, \hat{C}_0 = \{\frac{1}{N}\sum A_i, \frac{1}{N}\sum B_i, \frac{1}{N}\sum C_i\}$

Calcul du gradient : $\nabla_{\hat{\Psi}} J_k = -X_k \tilde{g}_{k+1}^T$ $\nabla_{\hat{C}} J_k = -g_{k+1} \tilde{x}_{k+1}^T$

Loi de mise à jour : $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k \tilde{g}_{k+1} X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k \tilde{x}_{k+1} g_{k+1}^T$

Où le taux d'apprentissage adaptatif : $\lambda_k = \min\left(\frac{2-\alpha}{X_k^T X_k}, \frac{2-\alpha}{g_{k+1}^T g_{k+1}}\right)$

2. Adaptation Robuste

Considérant le cas d'erreur de modélisation, un bruit idéal est introduit : $w_k^*, v_k^* = \min_{w_k \in W, v_k \in V} \bar{J}(\hat{\Psi}_k, \hat{C}_k, w_k, v_k)$

Loi de mise à jour robuste : $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k(\tilde{g}_{k+1} - w_k^*) X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k(\tilde{x}_{k+1} - v_k^*) g_{k+1}^T$

Points d'Innovation Technique

Apprentissage de représentations partagées : Apprentissage de représentations d'espace observable partagées entre tâches via MNN
Dynamiques spécifiques à la tâche : Apprentissage d'opérateurs de Koopman spécifiques pour chaque tâche
Taux d'apprentissage adaptatif : Ajustement dynamique du taux d'apprentissage basé sur les caractéristiques des données
Garanties théoriques : Analyse théorique rigoureuse de la convergence et de la stabilité

Configuration Expérimentale

Ensemble de Données

Les expériences sont menées sur trois systèmes de référence :

Système Chariot-Pendule :
- État : $[x, \dot{x}, \theta, \dot{\theta}]^T$
- Paramètres incertains : longueur de la tige $l_p \in [0.1m, 1.0m]$ , masse de la tige $m_p \in [0.01kg, 0.2kg]$
- Entrée de commande : $u \in [-20, 20]$
Réseau de Régulation Génique (GRN) :
- État : $[m_1, m_2, m_3, p_1, p_2, p_3]^T$ (concentrations d'ARNm et de protéines)
- Paramètres incertains : constante de dissociation $K \in [2, 8]$ , scalaire d'entrée $b_1 \in [3, 7]$
Processus Chimique Réacteur-Séparateur :
- État : 9 dimensions (fractions massiques et température)
- Paramètres incertains : température d'alimentation $T_{10}, T_{20} \in [150K, 450K]$

Métriques d'Évaluation

Erreur de prédiction cumulée (prédiction sur 16 pas)
Norme L2 de l'erreur de suivi
Coût cumulé de la performance de commande

Méthodes de Comparaison

DeSKO (Deep Stochastic Koopman Operator) : ligne de base concurrente entraînée sur des configurations de paramètres nominaux

Détails d'Implémentation

Dimension observable : 128-256
Longueur de trajectoire : 250-500
Taille de lot : 128
Taux d'apprentissage : $10^{-4}$
Horizon de prédiction : 16 pas
Structure du réseau : (128,128), fonction d'activation ReLU

Résultats Expérimentaux

Résultats Principaux

Performance de Modélisation

MAKO démontre une excellente performance de modélisation sur les trois systèmes
L'erreur moyenne de prédiction sur 16 pas est inférieure à $10^{-2}$
Surpasse DeSKO sur les systèmes Chariot-Pendule et processus chimique
Légèrement inférieur à DeSKO sur le système GRN, mais maintient une bonne performance

Performance de Commande

Système Chariot-Pendule : MAKO réalise une commande stable avec un coût cumulé inférieur à DeSKO
Système GRN : DeSKO n'atteint un suivi précis que pour 3 configurations paramétriques, MAKO montre une performance plus stable
Processus Chimique : DeSKO ne peut pas stabiliser l'erreur de suivi pour toutes les configurations paramétriques, MAKO atteint avec succès l'objectif de commande

Efficacité Computationnelle

Le cadre MAKO-robust nécessite en moyenne 0.0203 secondes de calcul par pas de temps sur le système Chariot-Pendule
Convient aux applications de commande en temps réel

Expériences d'Ablation

Comparaison entre l'adaptation nominale (MAKO) et l'adaptation robuste (MAKO-robust) :

MAKO-robust démontre un comportement transitoire plus rapide et plus stable
Atteint une erreur de suivi en régime permanent comparable ou inférieure

Résultats Expérimentaux

Capacité de généralisation : MAKO peut s'adapter à des configurations paramétriques non rencontrées pendant l'entraînement
Robustesse : Maintient une bonne performance en présence d'incertitude paramétrique
Adaptabilité : S'adapte rapidement aux nouvelles tâches via des données en ligne

Travaux Connexes

Principaux Domaines de Recherche

Commande Prédictive Adaptative : Les méthodes AMPC traditionnelles présentent des résultats limités sur les systèmes non-linéaires
Théorie des Opérateurs de Koopman : Récemment attirée l'attention pour la représentation linéaire de processus non-linéaires complexes
Application de la Méta-Apprentissage en Commande : Développement de méthodes telles que MAML et l'apprentissage par renforcement méta-apprentissage

Avantages de Cet Article

Première combinaison de la méta-apprentissage et des opérateurs de Koopman
Fournit des garanties de convergence théorique
Applicable aux systèmes non-linéaires de classe générale
Efficacité computationnelle supérieure à l'adaptation en ligne par réseaux de neurones profonds

Analyse Théorique

Théorèmes de Convergence

Théorème 1 (Adaptation Nominale) : Sous les hypothèses 1-3, utilisant les lois de mise à jour adaptatives (9) et (10), l'erreur d'approximation paramétrique $\tilde{\Psi}_k$ et $\tilde{C}_k$ sont finalement bornées, et l'erreur d'état de prédiction $\tilde{x}$ converge asymptotiquement vers zéro.

Théorème 2 (Adaptation Robuste) : Sous les hypothèses 1 et 2, utilisant les lois de mise à jour (10), (15) et (16), l'erreur d'approximation paramétrique $\tilde{\Psi}_k$ , $\tilde{C}_k$ sont finalement bornées, et $\lim_{k\to\infty} \|\tilde{x}_k\| \leq \epsilon_v$ .

Théorème de Stabilité

Théorème 3 : Considérant le système non-linéaire (1) avec les lois de mise à jour adaptatives (9) et (10) et le contrôleur MPC (19), sous les hypothèses 1-3, l'erreur de suivi du système en boucle fermée est asymptotiquement stable.

Conclusions et Discussion

Conclusions Principales

Intégration réussie de la méta-apprentissage et de la théorie des opérateurs de Koopman, créant un cadre de commande adaptative applicable aux systèmes non-linéaires paramétriquement incertains
Fournit des garanties rigoureuses de convergence théorique et de stabilité
Valide l'efficacité et la supériorité de la méthode sur plusieurs systèmes de référence

Limitations

Hypothèses théoriques : L'hypothèse 3 exige l'existence d'un sous-espace invariant de dimension finie, difficile à garantir pour les systèmes non-linéaires généraux
Limites de performance : Absence d'analyse rigoureuse des limites de généralisation et de performance du métamodèle de Koopman entraîné
Application pratique : Validation uniquement en simulation, manque de vérification sur des systèmes réels

Directions Futures

Application de la méthode à des systèmes réels présentant des incertitudes paramétriques
Analyse formelle des exigences d'excitation persistante (PE)
Étude systématique de la relation entre la longueur de trajectoire et la qualité de la méta-apprentissage des opérateurs de Koopman
Extension aux systèmes de haute dimension

Évaluation Approfondie

Points Forts

Forte innovativité : Première combinaison de la méta-apprentissage et des opérateurs de Koopman, offrant une nouvelle perspective pour la commande de systèmes paramétriquement incertains
Complétude théorique : Fournit une analyse complète de la convergence et de la stabilité
Expériences exhaustives : Évaluation complète sur trois systèmes de référence de domaines différents
Valeur pratique : Efficacité computationnelle élevée, adaptée aux applications de commande en temps réel

Insuffisances

Limitations des hypothèses : L'analyse théorique dépend d'hypothèses relativement fortes, que les systèmes réels pourraient ne pas satisfaire
Lignes de base limitées : Comparaison uniquement avec DeSKO, manque de comparaison avec d'autres méthodes avancées
Absence de vérification pratique : Pas de validation de l'efficacité de la méthode sur des systèmes réels
Extensibilité aux hautes dimensions : L'applicabilité aux systèmes de haute dimension nécessite une recherche supplémentaire

Impact

Contribution académique : Fournit un nouveau cadre théorique et une nouvelle méthode pour la théorie de la commande basée sur l'apprentissage
Perspectives d'application : Larges perspectives d'application dans les domaines de la robotique, de la commande de processus chimiques, etc.
Reproductibilité : Les auteurs fournissent un lien de code, facilitant la reproduction des résultats

Scénarios d'Application

Systèmes non-linéaires paramétriquement incertains : Tels que les systèmes robotiques, les processus chimiques, les systèmes biologiques
Tâches de commande nécessitant une adaptation rapide : Scénarios de variation de charge, de changement d'environnement, etc.
Applications de commande en temps réel : Situations avec des exigences élevées d'efficacité computationnelle

Références Bibliographiques

L'article cite 41 références pertinentes, couvrant plusieurs domaines importants tels que la commande adaptative, la théorie des opérateurs de Koopman, la méta-apprentissage et la commande prédictive, fournissant une base théorique solide pour la recherche.

Évaluation Globale : Ceci est un article académique de haute qualité, démontrant une excellence en innovation théorique, conception de méthodes et vérification expérimentale. La combinaison de la méta-apprentissage et de la théorie des opérateurs de Koopman offre une nouvelle perspective de résolution pour le problème de commande de systèmes non-linéaires paramétriquement incertains, possédant une valeur académique importante et un potentiel d'application considérable. Bien que présentant certaines limitations dans les hypothèses théoriques et l'insuffisance de vérification pratique, il s'agit globalement d'un travail de recherche digne d'attention.