2025-11-14T08:52:10.884823

MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems

Han, Wong, Law et al.

In this work, we propose a meta-learning-based Koopman modeling and predictive control approach for nonlinear systems with parametric uncertainties. An adaptive deep meta-learning-based modeling approach, called Meta Adaptive Koopman Operator (MAKO), is proposed. Without knowledge of the parametric uncertainty, the proposed MAKO approach can learn a meta-model from a multi-modal dataset and efficiently adapt to new systems with previously unseen parameter settings by using online data. Based on the learned meta Koopman model, a predictive control scheme is developed, and the stability of the closed-loop system is ensured even in the presence of previously unseen parameter settings. Through extensive simulations, our proposed approach demonstrates superior performance in both modeling accuracy and control efficacy as compared to competitive baselines.

academic

MAKO: Operadores de Koopman Meta-Adaptativos para Control Predictivo Basado en Aprendizaje de Sistemas No Lineales con Incertidumbre Paramétrica

Información Básica

ID del Artículo: 2510.09042
Título: MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems
Autores: Minghao Han, Kiwan Wong, Adrian Wing-Keung Law, Xunyuan Yin
Clasificación: eess.SY cs.LG cs.SY
Fecha de Publicación: Octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09042

Resumen

En este artículo se propone un método de modelado de Koopman basado en metaaprendizaje y control predictivo para sistemas no lineales con incertidumbre paramétrica. Se presenta un método de modelado de metaaprendizaje profundo adaptativo denominado Operadores de Koopman Meta-Adaptativos (MAKO). Sin conocimiento de la incertidumbre paramétrica, el método MAKO puede aprender un metamodelo a partir de conjuntos de datos multimodales y adaptarse eficientemente en línea a nuevos sistemas con configuraciones de parámetros previamente no observadas. Basándose en el metamodelo de Koopman aprendido, se desarrolla un esquema de control predictivo que garantiza la estabilidad del sistema en bucle cerrado incluso en presencia de configuraciones de parámetros previamente no observadas.

Antecedentes de Investigación y Motivación

Definición del Problema: La incertidumbre paramétrica es común en sistemas no lineales, generalmente causada por cambios de carga y condiciones operativas. Estas incertidumbres provocan degradación del desempeño e inestabilidad, presentando desafíos significativos para el diseño de sistemas de control.
Importancia del Problema: Los métodos tradicionales de control predictivo adaptativo (AMPC) tienen resultados limitados en sistemas no lineales, generalmente requieren modelos de primeros principios como base para el diseño del sistema de control, y teóricamente asumen dependencia lineal de parámetros inciertos, lo que limita su aplicabilidad a procesos no lineales generales.
Limitaciones de Métodos Existentes:
- Los métodos de operadores de Koopman existentes se orientan principalmente a tareas de control específicas con parámetros de modelo fijos
- La adaptación en línea basada en redes neuronales profundas es ineficiente y computacionalmente intensiva
- Los métodos de metaaprendizaje por refuerzo dificultan proporcionar garantías de estabilidad y desempeño en bucle cerrado
Motivación de la Investigación: Combinar metaaprendizaje con teoría de operadores de Koopman para crear un marco de control adaptativo basado en aprendizaje para sistemas no lineales con incertidumbre paramétrica.

Contribuciones Principales

Integración Pionera: Primera integración de metaaprendizaje y teoría de operadores de Koopman, estableciendo un marco de MPC adaptativo basado en aprendizaje aplicable a sistemas no lineales con incertidumbre paramétrica de clase general
Garantías Teóricas: Demostración rigurosa de la convergencia de la adaptación en línea del modelo y del sistema en bucle cerrado
Verificación de Desempeño: Basándose en sistemas de referencia de tres dominios diferentes, MAKO demuestra buena precisión de modelado y desempeño de control de seguimiento robusto en presencia de incertidumbre paramétrica, superando métodos de referencia competitivos

Explicación Detallada del Método

Definición de la Tarea

Considérese un sistema no lineal con incertidumbre paramétrica: $x_{k+1} = f(x_k, u_k, \Theta), \quad \Theta \sim p(\Theta)$

Donde:

$x_k \in X \subset \mathbb{R}^n$ : estado del sistema
$u_k \in U \subset \mathbb{R}^m$ : entrada de control
$\Theta \in \Xi \subset \mathbb{R}^l$ : parámetros del sistema, distribuidos según $p(\Theta)$ desconocida

Arquitectura del Modelo

1. Red Neuronal de Metaentrenamiento (MNN)

La MNN es responsable de parametrizar funciones observables, compartidas entre diferentes configuraciones de tareas: $g_k^i = \psi_\theta(x_k^i), \quad x_k^i \in D_i$

Donde $\psi_\theta(\cdot)$ es una red neuronal multicapa y $\theta$ son parámetros entrenables.

2. Operador de Koopman

En el espacio observable codificado, se aprende un conjunto de operadores de Koopman $A_i, B_i, C_i$ para cada configuración de tarea $\Theta_i$ : $g_{k+1|k}^i = A_i g_{k|k}^i + B_i u_k^i$ $\hat{x}_{k+1|k}^i = C_i g_{k+1|k}^i$

3. Optimización de Metaaprendizaje

El problema de optimización se formula como: $\min_{\theta,\{A_i,B_i,C_i\}} \frac{1}{NTH} \sum_{i=1}^N \sum_{k=1}^T \sum_{t=1}^H \|x_{k+t}^i - C_i g_{k+t|k}^i\|_2^2$

Sujeto a:

$g_{k+t|k}^i = A_i g_{k+t-1|k}^i + B_i u_{k+t-1}^i$
$g_{k|k}^i = \psi_\theta(x_k^i)$

Mecanismo de Adaptación en Línea

1. Adaptación Nominal

Inicialización: $\hat{A}_0, \hat{B}_0, \hat{C}_0 = \{\frac{1}{N}\sum A_i, \frac{1}{N}\sum B_i, \frac{1}{N}\sum C_i\}$

Cálculo del gradiente: $\nabla_{\hat{\Psi}} J_k = -X_k \tilde{g}_{k+1}^T$ $\nabla_{\hat{C}} J_k = -g_{k+1} \tilde{x}_{k+1}^T$

Ley de actualización: $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k \tilde{g}_{k+1} X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k \tilde{x}_{k+1} g_{k+1}^T$

Donde la tasa de aprendizaje adaptativa: $\lambda_k = \min\left(\frac{2-\alpha}{X_k^T X_k}, \frac{2-\alpha}{g_{k+1}^T g_{k+1}}\right)$

2. Adaptación Robusta

Considerando el caso de error de modelado, se introduce ruido ideal: $w_k^*, v_k^* = \min_{w_k \in W, v_k \in V} \bar{J}(\hat{\Psi}_k, \hat{C}_k, w_k, v_k)$

Ley de actualización robusta: $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k(\tilde{g}_{k+1} - w_k^*) X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k(\tilde{x}_{k+1} - v_k^*) g_{k+1}^T$

Puntos de Innovación Técnica

Aprendizaje de Representación Compartida: Aprendizaje de representaciones de espacio observable compartidas entre tareas mediante MNN
Dinámicas Específicas de Tarea: Aprendizaje de operadores de Koopman específicos para cada tarea
Tasa de Aprendizaje Adaptativa: Ajuste dinámico de la tasa de aprendizaje basado en características de datos
Garantías Teóricas: Análisis teórico riguroso de convergencia y estabilidad

Configuración Experimental

Conjuntos de Datos

Los experimentos se realizan en tres sistemas de referencia:

Sistema Carrito-Péndulo:
- Estado: $[x, \dot{x}, \theta, \dot{\theta}]^T$
- Parámetros inciertos: longitud de la varilla $l_p \in [0.1m, 1.0m]$ , masa de la varilla $m_p \in [0.01kg, 0.2kg]$
- Entrada de control: $u \in [-20, 20]$
Red de Regulación Génica (GRN):
- Estado: $[m_1, m_2, m_3, p_1, p_2, p_3]^T$ (concentraciones de ARNm y proteína)
- Parámetros inciertos: constante de disociación $K \in [2, 8]$ , escalar de entrada $b_1 \in [3, 7]$
Proceso Químico Reactor-Separador:
- Estado: 9 dimensiones (fracciones de masa y temperatura)
- Parámetros inciertos: temperatura de alimentación $T_{10}, T_{20} \in [150K, 450K]$

Métricas de Evaluación

Error de predicción acumulado (predicción de 16 pasos)
Norma L2 del error de seguimiento
Costo acumulado del desempeño de control

Métodos de Comparación

DeSKO (Operador de Koopman Estocástico Profundo): línea base competitiva entrenada en configuración de parámetros nominales

Detalles de Implementación

Dimensión observable: 128-256
Longitud de trayectoria: 250-500
Tamaño de lote: 128
Tasa de aprendizaje: $10^{-4}$
Horizonte de predicción: 16 pasos
Estructura de red: (128,128), función de activación ReLU

Resultados Experimentales

Resultados Principales

Desempeño de Modelado

MAKO demuestra buen desempeño de modelado en los tres sistemas
Error promedio de predicción de 16 pasos menor que $10^{-2}$
Superior a DeSKO en sistemas Cartpole y proceso químico
Ligeramente inferior a DeSKO en sistema GRN, pero mantiene buen desempeño

Desempeño de Control

Sistema Cartpole: MAKO logra control estable con costo acumulado menor que DeSKO
Sistema GRN: DeSKO solo logra seguimiento preciso en 3 configuraciones de parámetros, MAKO muestra desempeño más estable
Proceso Químico: DeSKO no puede estabilizar el error de seguimiento en ninguna configuración de parámetros, MAKO logra exitosamente el objetivo de control

Eficiencia Computacional

Marco MAKO-robusto en sistema Cartpole con tiempo de cálculo promedio de 0.0203 segundos por paso de tiempo
Adecuado para aplicaciones de control en tiempo real

Experimentos de Ablación

Comparación de adaptación nominal (MAKO) y adaptación robusta (MAKO-robusto):

MAKO-robusto demuestra comportamiento transitorio más rápido y estable
Logra error de seguimiento en estado estacionario comparable o menor

Hallazgos Experimentales

Capacidad de Generalización: MAKO puede adaptarse a configuraciones de parámetros no encontradas durante el entrenamiento
Robustez: Mantiene buen desempeño en presencia de incertidumbre paramétrica
Adaptabilidad: Adaptación rápida a nuevas tareas mediante datos en línea

Trabajo Relacionado

Direcciones Principales de Investigación

Control Predictivo Adaptativo: Resultados limitados de métodos AMPC tradicionales en sistemas no lineales
Teoría de Operadores de Koopman: Atención reciente en representación lineal de procesos no lineales complejos
Aplicaciones de Metaaprendizaje en Control: Desarrollo de métodos MAML, metaaprendizaje por refuerzo, etc.

Ventajas de Este Trabajo

Primera combinación de metaaprendizaje con operadores de Koopman
Proporciona garantías de convergencia teórica
Aplicable a sistemas no lineales de clase general
Mayor eficiencia computacional que adaptación en línea de redes neuronales profundas

Análisis Teórico

Teoremas de Convergencia

Teorema 1 (Adaptación Nominal): Bajo los Supuestos 1-3, utilizando las leyes de actualización adaptativa (9) y (10), los errores de aproximación de parámetros $\tilde{\Psi}_k$ y $\tilde{C}_k$ están finalmente acotados, y el error de estado predicho $\tilde{x}$ converge asintóticamente a cero.

Teorema 2 (Adaptación Robusta): Bajo los Supuestos 1 y 2, utilizando las leyes de actualización (10), (15) y (16), los errores de aproximación de parámetros $\tilde{\Psi}_k$ , $\tilde{C}_k$ están finalmente acotados, y $\lim_{k\to\infty} \|\tilde{x}_k\| \leq \epsilon_v$ .

Teorema de Estabilidad

Teorema 3: Considerando el sistema no lineal (1) con leyes de actualización adaptativa (9) y (10) y controlador MPC (19), bajo los Supuestos 1-3, el error de seguimiento del sistema en bucle cerrado es asintóticamente estable.

Conclusiones y Discusión

Conclusiones Principales

Integración exitosa de metaaprendizaje y teoría de operadores de Koopman, creando un marco de control adaptativo aplicable a sistemas no lineales con incertidumbre paramétrica
Proporciona garantías rigurosas de convergencia teórica y estabilidad
Verifica la efectividad y superioridad del método en múltiples sistemas de referencia

Limitaciones

Supuestos Teóricos: El Supuesto 3 requiere la existencia de subespacios invariantes de dimensión finita, difícil de garantizar para sistemas no lineales generales
Límites de Desempeño: Falta análisis riguroso de límites de generalización y desempeño del metamodelo de Koopman entrenado
Aplicación Práctica: Solo verificado en simulación, carece de verificación en sistemas reales

Direcciones Futuras

Aplicación del método a sistemas reales con incertidumbre paramétrica
Análisis formal de requisitos de excitación persistente (PE)
Investigación sistemática de la relación entre longitud de trayectoria y calidad del metaaprendizaje de operadores de Koopman
Extensión a sistemas de alta dimensión

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera combinación de metaaprendizaje y operadores de Koopman, proporcionando nuevas perspectivas para control de sistemas con incertidumbre paramétrica
Completitud Teórica: Proporciona análisis completo de convergencia y estabilidad
Evaluación Suficiente: Evaluación integral en sistemas de referencia de tres dominios diferentes
Valor Práctico: Alta eficiencia computacional, adecuada para aplicaciones de control en tiempo real

Deficiencias

Limitaciones de Supuestos: El análisis teórico depende de condiciones de supuestos relativamente fuertes, que sistemas reales pueden no satisfacer
Líneas Base Limitadas: Solo comparación con DeSKO, carece de comparación con otros métodos avanzados
Falta de Verificación Práctica: No verificado en sistemas reales
Escalabilidad a Alta Dimensión: La aplicabilidad a sistemas de alta dimensión requiere investigación adicional

Impacto

Contribución Académica: Proporciona nuevo marco teórico y método para teoría de control basada en aprendizaje
Perspectivas de Aplicación: Amplias perspectivas de aplicación en robótica, control de procesos químicos y otros campos
Reproducibilidad: Los autores proporcionan enlace de código, facilitando la reproducción de resultados

Escenarios Aplicables

Sistemas No Lineales con Incertidumbre Paramétrica: Como sistemas robóticos, procesos químicos, sistemas biológicos
Tareas de Control que Requieren Adaptación Rápida: Escenarios de cambio de carga, cambio ambiental, etc.
Aplicaciones de Control en Tiempo Real: Situaciones con altos requisitos de eficiencia computacional

Referencias

El artículo cita 41 referencias relacionadas, cubriendo múltiples campos incluyendo control adaptativo, teoría de operadores de Koopman, metaaprendizaje, control predictivo de modelos, etc., proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo académico de alta calidad que demuestra excelencia en innovación teórica, diseño de métodos y verificación experimental. La combinación de metaaprendizaje y teoría de operadores de Koopman proporciona nuevas perspectivas para resolver problemas de control de sistemas no lineales con incertidumbre paramétrica, poseyendo importante valor académico y potencial de aplicación. Aunque existen algunas limitaciones en supuestos teóricos y falta de verificación práctica, en general es un trabajo de investigación digno de atención.