2025-11-14T08:52:10.884823

MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems

Han, Wong, Law et al.
In this work, we propose a meta-learning-based Koopman modeling and predictive control approach for nonlinear systems with parametric uncertainties. An adaptive deep meta-learning-based modeling approach, called Meta Adaptive Koopman Operator (MAKO), is proposed. Without knowledge of the parametric uncertainty, the proposed MAKO approach can learn a meta-model from a multi-modal dataset and efficiently adapt to new systems with previously unseen parameter settings by using online data. Based on the learned meta Koopman model, a predictive control scheme is developed, and the stability of the closed-loop system is ensured even in the presence of previously unseen parameter settings. Through extensive simulations, our proposed approach demonstrates superior performance in both modeling accuracy and control efficacy as compared to competitive baselines.
academic

MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems

基本信息

  • 论文ID: 2510.09042
  • 标题: MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems
  • 作者: Minghao Han, Kiwan Wong, Adrian Wing-Keung Law, Xunyuan Yin
  • 分类: eess.SY cs.LG cs.SY
  • 发表时间: 2025年10月(arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.09042

摘要

本文提出了一种基于元学习的Koopman建模和预测控制方法,用于处理具有参数不确定性的非线性系统。提出了一种自适应深度元学习建模方法——元自适应Koopman算子(MAKO)。在不了解参数不确定性的情况下,MAKO方法可以从多模态数据集中学习元模型,并通过在线数据高效适应具有先前未见参数设置的新系统。基于学习的元Koopman模型,开发了预测控制方案,即使在存在先前未见参数设置的情况下也能确保闭环系统的稳定性。

研究背景与动机

  1. 问题定义:参数不确定性在非线性系统中很常见,通常由载荷变化和操作条件等因素引起。这些不确定性会导致性能下降和不稳定性,给控制系统设计带来巨大挑战。
  2. 问题重要性:传统的自适应模型预测控制(AMPC)方法在非线性系统上的结果有限,通常需要第一性原理模型作为控制系统设计的基础,且理论上假设对不确定参数的线性依赖性,限制了其对一般非线性过程的适用性。
  3. 现有方法局限性
    • 现有Koopman算子方法主要针对固定模型参数的特定控制任务
    • 基于深度神经网络的在线适应效率低且计算量大
    • 元强化学习方法难以提供稳定性保证和闭环性能保证
  4. 研究动机:将元学习与Koopman算子理论结合,创建一个学习型自适应控制框架,用于参数不确定的非线性系统。

核心贡献

  1. 首次集成:首次将元学习和Koopman算子理论集成,建立了适用于一般类参数不确定非线性系统的学习型自适应MPC框架
  2. 理论保证:严格证明了模型在线适应和闭环系统的收敛性
  3. 性能验证:基于三个不同领域的基准系统,MAKO在参数不确定性存在时展现了良好的建模精度和鲁棒跟踪控制性能,优于竞争基线方法

方法详解

任务定义

考虑参数不确定的非线性系统: xk+1=f(xk,uk,Θ),Θp(Θ)x_{k+1} = f(x_k, u_k, \Theta), \quad \Theta \sim p(\Theta)

其中:

  • xkXRnx_k \in X \subset \mathbb{R}^n:系统状态
  • ukURmu_k \in U \subset \mathbb{R}^m:控制输入
  • ΘΞRl\Theta \in \Xi \subset \mathbb{R}^l:系统参数,服从未知分布p(Θ)p(\Theta)

模型架构

1. 元训练神经网络(MNN)

MNN负责参数化可观测函数,在不同任务设置间共享: gki=ψθ(xki),xkiDig_k^i = \psi_\theta(x_k^i), \quad x_k^i \in D_i

其中ψθ()\psi_\theta(\cdot)是多层神经网络,θ\theta为可训练参数。

2. Koopman算子

在编码的可观测空间中,为每个任务设置Θi\Theta_i学习一组Koopman算子Ai,Bi,CiA_i, B_i, C_igk+1ki=Aigkki+Biukig_{k+1|k}^i = A_i g_{k|k}^i + B_i u_k^ix^k+1ki=Cigk+1ki\hat{x}_{k+1|k}^i = C_i g_{k+1|k}^i

3. 元学习优化

优化问题表述为: minθ,{Ai,Bi,Ci}1NTHi=1Nk=1Tt=1Hxk+tiCigk+tki22\min_{\theta,\{A_i,B_i,C_i\}} \frac{1}{NTH} \sum_{i=1}^N \sum_{k=1}^T \sum_{t=1}^H \|x_{k+t}^i - C_i g_{k+t|k}^i\|_2^2

受约束:

  • gk+tki=Aigk+t1ki+Biuk+t1ig_{k+t|k}^i = A_i g_{k+t-1|k}^i + B_i u_{k+t-1}^i
  • gkki=ψθ(xki)g_{k|k}^i = \psi_\theta(x_k^i)

在线适应机制

1. 名义适应

初始化:A^0,B^0,C^0={1NAi,1NBi,1NCi}\hat{A}_0, \hat{B}_0, \hat{C}_0 = \{\frac{1}{N}\sum A_i, \frac{1}{N}\sum B_i, \frac{1}{N}\sum C_i\}

梯度计算: Ψ^Jk=Xkg~k+1T\nabla_{\hat{\Psi}} J_k = -X_k \tilde{g}_{k+1}^TC^Jk=gk+1x~k+1T\nabla_{\hat{C}} J_k = -g_{k+1} \tilde{x}_{k+1}^T

更新律: Ψ^k+1=Ψ^k+λkg~k+1XkT\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k \tilde{g}_{k+1} X_k^TC^k+1=C^k+λkx~k+1gk+1T\hat{C}_{k+1} = \hat{C}_k + \lambda_k \tilde{x}_{k+1} g_{k+1}^T

其中自适应学习率: λk=min(2αXkTXk,2αgk+1Tgk+1)\lambda_k = \min\left(\frac{2-\alpha}{X_k^T X_k}, \frac{2-\alpha}{g_{k+1}^T g_{k+1}}\right)

2. 鲁棒适应

考虑建模误差的情况,引入理想噪声: wk,vk=minwkW,vkVJˉ(Ψ^k,C^k,wk,vk)w_k^*, v_k^* = \min_{w_k \in W, v_k \in V} \bar{J}(\hat{\Psi}_k, \hat{C}_k, w_k, v_k)

鲁棒更新律: Ψ^k+1=Ψ^k+λk(g~k+1wk)XkT\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k(\tilde{g}_{k+1} - w_k^*) X_k^TC^k+1=C^k+λk(x~k+1vk)gk+1T\hat{C}_{k+1} = \hat{C}_k + \lambda_k(\tilde{x}_{k+1} - v_k^*) g_{k+1}^T

技术创新点

  1. 共享表示学习:通过MNN学习跨任务的共享可观测空间表示
  2. 任务特定动力学:为每个任务学习特定的Koopman算子
  3. 自适应学习率:基于数据特性的动态学习率调整
  4. 理论保证:提供收敛性和稳定性的严格理论分析

实验设置

数据集

实验在三个基准系统上进行:

  1. Cart-pole系统
    • 状态:[x,x˙,θ,θ˙]T[x, \dot{x}, \theta, \dot{\theta}]^T
    • 不确定参数:杆长lp[0.1m,1.0m]l_p \in [0.1m, 1.0m],杆质量mp[0.01kg,0.2kg]m_p \in [0.01kg, 0.2kg]
    • 控制输入:u[20,20]u \in [-20, 20]
  2. 基因调控网络(GRN)
    • 状态:[m1,m2,m3,p1,p2,p3]T[m_1, m_2, m_3, p_1, p_2, p_3]^T(mRNA和蛋白质浓度)
    • 不确定参数:解离常数K[2,8]K \in [2, 8],输入标量b1[3,7]b_1 \in [3, 7]
  3. 反应器-分离器化学过程
    • 状态:9维(质量分数和温度)
    • 不确定参数:进料温度T10,T20[150K,450K]T_{10}, T_{20} \in [150K, 450K]

评价指标

  • 累积预测误差(16步预测)
  • 跟踪误差的L2范数
  • 控制性能的累积成本

对比方法

  • DeSKO(Deep Stochastic Koopman Operator):在名义参数设置下训练的竞争基线

实现细节

  • 可观测维度:128-256
  • 轨迹长度:250-500
  • 批量大小:128
  • 学习率:10410^{-4}
  • 预测视野:16步
  • 网络结构:(128,128),ReLU激活函数

实验结果

主要结果

建模性能

  • MAKO在所有三个系统上展现了良好的建模性能
  • 16步预测的平均误差小于10210^{-2}
  • 在Cartpole和化学过程系统上优于DeSKO
  • 在GRN系统上略逊于DeSKO,但仍保持良好性能

控制性能

  1. Cartpole系统:MAKO实现了稳定控制,累积成本低于DeSKO
  2. GRN系统:DeSKO仅在3个参数设置下实现准确跟踪,MAKO表现更稳定
  3. 化学过程:DeSKO在所有参数设置下都无法稳定跟踪误差,MAKO成功实现控制目标

计算效率

  • MAKO-robust框架在Cartpole系统上平均每时间步计算时间为0.0203秒
  • 适合实时控制应用

消融实验

比较了名义适应(MAKO)和鲁棒适应(MAKO-robust):

  • MAKO-robust展现了更快、更稳定的瞬态行为
  • 达到了相当或更小的稳态跟踪误差

实验发现

  1. 泛化能力:MAKO能够适应训练期间未遇到的参数设置
  2. 鲁棒性:在参数不确定性存在时保持良好性能
  3. 适应性:通过在线数据快速适应新任务

相关工作

主要研究方向

  1. 自适应模型预测控制:传统AMPC方法对非线性系统的结果有限
  2. Koopman算子理论:近年来在复杂非线性过程的线性表示方面获得关注
  3. 元学习在控制中的应用:MAML、元强化学习等方法的发展

本文优势

  1. 首次将元学习与Koopman算子结合
  2. 提供理论收敛保证
  3. 适用于一般类非线性系统
  4. 计算效率高于深度神经网络的在线适应

理论分析

收敛性定理

定理1(名义适应):在假设1-3下,使用自适应更新律(9)和(10),参数近似误差Ψ~k\tilde{\Psi}_kC~k\tilde{C}_k最终有界,预测状态误差x~\tilde{x}渐近收敛到零。

定理2(鲁棒适应):在假设1和2下,使用更新律(10)、(15)和(16),参数近似误差Ψ~k\tilde{\Psi}_kC~k\tilde{C}_k最终有界,且limkx~kϵv\lim_{k\to\infty} \|\tilde{x}_k\| \leq \epsilon_v

稳定性定理

定理3:考虑非线性系统(1)与自适应更新律(9)和(10)以及MPC控制器(19),在假设1-3下,闭环系统的跟踪误差渐近稳定。

结论与讨论

主要结论

  1. 成功将元学习与Koopman算子理论集成,创建了适用于参数不确定非线性系统的自适应控制框架
  2. 提供了严格的理论收敛和稳定性保证
  3. 在多个基准系统上验证了方法的有效性和优越性

局限性

  1. 理论假设:Assumption 3要求有限维不变子空间的存在,对一般非线性系统难以保证
  2. 性能界限:缺乏对元训练Koopman模型泛化和性能的严格界限分析
  3. 实际应用:仅在仿真中验证,缺乏实际系统的验证

未来方向

  1. 将方法应用于具有参数不确定性的真实系统
  2. 持续激励(PE)要求的正式分析
  3. 轨迹长度与Koopman算子元学习质量关系的系统研究
  4. 扩展到高维系统

深度评价

优点

  1. 创新性强:首次结合元学习和Koopman算子,为参数不确定系统控制提供新思路
  2. 理论完备:提供了完整的收敛性和稳定性分析
  3. 实验充分:在三个不同领域的基准系统上进行了全面评估
  4. 实用价值:计算效率高,适合实时控制应用

不足

  1. 假设限制:理论分析依赖较强的假设条件,实际系统可能不满足
  2. 基线有限:仅与DeSKO进行比较,缺乏与其他先进方法的对比
  3. 实际验证缺失:未在真实系统上验证方法的有效性
  4. 高维扩展性:对高维系统的适用性需要进一步研究

影响力

  1. 学术贡献:为学习型控制理论提供了新的理论框架和方法
  2. 应用前景:在机器人、化工过程控制等领域具有广阔应用前景
  3. 可复现性:作者提供了代码链接,便于结果复现

适用场景

  1. 参数不确定的非线性系统:如机器人系统、化工过程、生物系统
  2. 需要快速适应的控制任务:载荷变化、环境变化等场景
  3. 实时控制应用:计算效率要求较高的场合

参考文献

论文引用了41篇相关文献,涵盖了自适应控制、Koopman算子理论、元学习、模型预测控制等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇高质量的学术论文,在理论创新、方法设计和实验验证方面都表现出色。将元学习与Koopman算子理论的结合为参数不确定非线性系统的控制问题提供了新的解决思路,具有重要的学术价值和应用潜力。尽管存在一些理论假设的限制和实际验证的不足,但整体上是一项值得关注的研究工作。