2025-11-14T08:52:10.884823

MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems

Han, Wong, Law et al.

In this work, we propose a meta-learning-based Koopman modeling and predictive control approach for nonlinear systems with parametric uncertainties. An adaptive deep meta-learning-based modeling approach, called Meta Adaptive Koopman Operator (MAKO), is proposed. Without knowledge of the parametric uncertainty, the proposed MAKO approach can learn a meta-model from a multi-modal dataset and efficiently adapt to new systems with previously unseen parameter settings by using online data. Based on the learned meta Koopman model, a predictive control scheme is developed, and the stability of the closed-loop system is ensured even in the presence of previously unseen parameter settings. Through extensive simulations, our proposed approach demonstrates superior performance in both modeling accuracy and control efficacy as compared to competitive baselines.

academic

MAKO: Метаадаптивные операторы Купмана для обучаемого прогнозирующего управления параметрически неопределёнными нелинейными системами

Основная информация

ID статьи: 2510.09042
Название: MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems
Авторы: Minghao Han, Kiwan Wong, Adrian Wing-Keung Law, Xunyuan Yin
Классификация: eess.SY cs.LG cs.SY
Дата публикации: октябрь 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09042

Аннотация

В данной работе предложен метод моделирования на основе метаобучения с использованием операторов Купмана и прогнозирующего управления для обработки нелинейных систем с параметрической неопределённостью. Предложен адаптивный метод глубокого метаобучения — метаадаптивные операторы Купмана (MAKO). Без знания параметрической неопределённости метод MAKO может обучаться на метамодели из мультимодальных наборов данных и эффективно адаптироваться в режиме реального времени к новым системам с ранее не встречавшимися параметрическими конфигурациями. На основе обученной метамодели Купмана разработана схема прогнозирующего управления, которая обеспечивает устойчивость замкнутой системы даже при наличии ранее не встречавшихся параметрических конфигураций.

Исследовательский контекст и мотивация

Определение проблемы: Параметрическая неопределённость в нелинейных системах часто возникает из-за изменений нагрузки и условий эксплуатации. Эта неопределённость приводит к деградации производительности и нестабильности, создавая серьёзные проблемы при проектировании систем управления.
Значимость проблемы: Традиционные методы адаптивного прогнозирующего управления (AMPC) имеют ограниченные результаты на нелинейных системах, обычно требуют моделей первых принципов в качестве основы для проектирования и теоретически предполагают линейную зависимость от неопределённых параметров, что ограничивает их применимость к общим нелинейным процессам.
Ограничения существующих методов:
- Существующие методы операторов Купмана ориентированы в основном на конкретные задачи управления с фиксированными параметрами модели
- Онлайн-адаптация на основе глубоких нейронных сетей неэффективна и требует больших вычислительных ресурсов
- Методы метаусиления с подкреплением затрудняются в обеспечении гарантий устойчивости и замкнутой производительности
Исследовательская мотивация: Объединить метаобучение с теорией операторов Купмана для создания обучаемой адаптивной системы управления для нелинейных систем с параметрической неопределённостью.

Основные вклады

Первая интеграция: Впервые интегрированы метаобучение и теория операторов Купмана, установлена обучаемая адаптивная система управления с прогнозированием для общего класса параметрически неопределённых нелинейных систем
Теоретические гарантии: Строго доказана сходимость онлайн-адаптации модели и замкнутой системы
Проверка производительности: На основе эталонных систем из трёх различных областей MAKO демонстрирует хорошую точность моделирования и надёжное отслеживающее управление при наличии параметрической неопределённости, превосходя конкурирующие базовые методы

Подробное описание метода

Определение задачи

Рассмотрим параметрически неопределённую нелинейную систему: $x_{k+1} = f(x_k, u_k, \Theta), \quad \Theta \sim p(\Theta)$

где:

$x_k \in X \subset \mathbb{R}^n$ : состояние системы
$u_k \in U \subset \mathbb{R}^m$ : управляющее воздействие
$\Theta \in \Xi \subset \mathbb{R}^l$ : параметры системы, распределённые согласно неизвестному распределению $p(\Theta)$

Архитектура модели

1. Метанейронная сеть (MNN)

MNN отвечает за параметризацию функции наблюдаемости, совместно используемой между различными задачами: $g_k^i = \psi_\theta(x_k^i), \quad x_k^i \in D_i$

где $\psi_\theta(\cdot)$ — многослойная нейронная сеть, $\theta$ — обучаемые параметры.

2. Оператор Купмана

В закодированном пространстве наблюдаемости для каждой конфигурации задачи $\Theta_i$ обучается набор операторов Купмана $A_i, B_i, C_i$ : $g_{k+1|k}^i = A_i g_{k|k}^i + B_i u_k^i$ $\hat{x}_{k+1|k}^i = C_i g_{k+1|k}^i$

3. Оптимизация метаобучения

Задача оптимизации формулируется как: $\min_{\theta,\{A_i,B_i,C_i\}} \frac{1}{NTH} \sum_{i=1}^N \sum_{k=1}^T \sum_{t=1}^H \|x_{k+t}^i - C_i g_{k+t|k}^i\|_2^2$

При ограничениях:

$g_{k+t|k}^i = A_i g_{k+t-1|k}^i + B_i u_{k+t-1}^i$
$g_{k|k}^i = \psi_\theta(x_k^i)$

Механизм онлайн-адаптации

1. Номинальная адаптация

Инициализация: $\hat{A}_0, \hat{B}_0, \hat{C}_0 = \{\frac{1}{N}\sum A_i, \frac{1}{N}\sum B_i, \frac{1}{N}\sum C_i\}$

Вычисление градиента: $\nabla_{\hat{\Psi}} J_k = -X_k \tilde{g}_{k+1}^T$ $\nabla_{\hat{C}} J_k = -g_{k+1} \tilde{x}_{k+1}^T$

Закон обновления: $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k \tilde{g}_{k+1} X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k \tilde{x}_{k+1} g_{k+1}^T$

где адаптивный коэффициент обучения: $\lambda_k = \min\left(\frac{2-\alpha}{X_k^T X_k}, \frac{2-\alpha}{g_{k+1}^T g_{k+1}}\right)$

2. Робастная адаптация

С учётом ошибок моделирования вводится идеальный шум: $w_k^*, v_k^* = \min_{w_k \in W, v_k \in V} \bar{J}(\hat{\Psi}_k, \hat{C}_k, w_k, v_k)$

Закон робастного обновления: $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k(\tilde{g}_{k+1} - w_k^*) X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k(\tilde{x}_{k+1} - v_k^*) g_{k+1}^T$

Технические инновации

Обучение совместного представления: Обучение совместного представления пространства наблюдаемости между задачами через MNN
Динамика, специфичная для задачи: Обучение специфичных для каждой задачи операторов Купмана
Адаптивный коэффициент обучения: Динамическая регулировка коэффициента обучения на основе характеристик данных
Теоретические гарантии: Предоставление строгого теоретического анализа сходимости и устойчивости

Экспериментальная установка

Наборы данных

Эксперименты проводились на трёх эталонных системах:

Система тележка-маятник (Cart-pole):
- Состояние: $[x, \dot{x}, \theta, \dot{\theta}]^T$
- Неопределённые параметры: длина стержня $l_p \in [0.1\text{м}, 1.0\text{м}]$ , масса стержня $m_p \in [0.01\text{кг}, 0.2\text{кг}]$
- Управляющее воздействие: $u \in [-20, 20]$
Сеть генной регуляции (GRN):
- Состояние: $[m_1, m_2, m_3, p_1, p_2, p_3]^T$ (концентрации мРНК и белков)
- Неопределённые параметры: константа диссоциации $K \in [2, 8]$ , входной скаляр $b_1 \in [3, 7]$
Химический процесс реактор-сепаратор:
- Состояние: 9-мерное (массовые доли и температура)
- Неопределённые параметры: температура подачи $T_{10}, T_{20} \in [150\text{К}, 450\text{К}]$

Метрики оценки

Накопленная ошибка предсказания (16-шаговое предсказание)
L2-норма ошибки отслеживания
Накопленная стоимость управления

Методы сравнения

DeSKO (Deep Stochastic Koopman Operator): конкурирующий базовый метод, обученный на номинальных параметрических конфигурациях

Детали реализации

Размерность наблюдаемости: 128-256
Длина траектории: 250-500
Размер пакета: 128
Коэффициент обучения: $10^{-4}$
Горизонт предсказания: 16 шагов
Структура сети: (128,128), функция активации ReLU

Результаты экспериментов

Основные результаты

Производительность моделирования

MAKO демонстрирует хорошую производительность моделирования на всех трёх системах
Средняя ошибка 16-шагового предсказания менее $10^{-2}$
Превосходит DeSKO на системах Cartpole и химического процесса
Немного уступает DeSKO на системе GRN, но сохраняет хорошую производительность

Производительность управления

Система Cartpole: MAKO достигает стабильного управления с более низкой накопленной стоимостью, чем DeSKO
Система GRN: DeSKO достигает точного отслеживания только на 3 параметрических конфигурациях, MAKO показывает более стабильное поведение
Химический процесс: DeSKO не может стабильно отслеживать ошибку при всех параметрических конфигурациях, MAKO успешно достигает целей управления

Вычислительная эффективность

Среднее время вычисления на один временной шаг для системы Cartpole составляет 0.0203 секунды
Подходит для приложений управления в реальном времени

Абляционные эксперименты

Сравнение номинальной адаптации (MAKO) и робастной адаптации (MAKO-robust):

MAKO-robust демонстрирует более быстрое и стабильное переходное поведение
Достигает сравнимой или меньшей установившейся ошибки отслеживания

Экспериментальные выводы

Способность к обобщению: MAKO может адаптироваться к параметрическим конфигурациям, не встречавшимся во время обучения
Робастность: Сохраняет хорошую производительность при наличии параметрической неопределённости
Адаптивность: Быстро адаптируется к новым задачам через онлайн-данные

Связанные работы

Основные направления исследований

Адаптивное прогнозирующее управление: Традиционные методы AMPC имеют ограниченные результаты на нелинейных системах
Теория операторов Купмана: В последние годы привлекает внимание при линейном представлении сложных нелинейных процессов
Применение метаобучения в управлении: Развитие методов MAML, метаусиления с подкреплением и др.

Преимущества данной работы

Впервые объединяет метаобучение и операторы Купмана
Предоставляет теоретические гарантии сходимости
Применима к общему классу нелинейных систем
Вычислительно эффективнее онлайн-адаптации глубоких нейронных сетей

Теоретический анализ

Теоремы сходимости

Теорема 1 (Номинальная адаптация): При предположениях 1-3, используя законы адаптивного обновления (9) и (10), ошибки параметрической аппроксимации $\tilde{\Psi}_k$ и $\tilde{C}_k$ в конечном счёте ограничены, а ошибка предсказанного состояния $\tilde{x}$ асимптотически сходится к нулю.

Теорема 2 (Робастная адаптация): При предположениях 1 и 2, используя законы обновления (10), (15) и (16), ошибки параметрической аппроксимации $\tilde{\Psi}_k$ , $\tilde{C}_k$ в конечном счёте ограничены, и $\lim_{k\to\infty} \|\tilde{x}_k\| \leq \epsilon_v$ .

Теоремы устойчивости

Теорема 3: Рассмотрим нелинейную систему (1) с законами адаптивного обновления (9) и (10) и контроллером MPC (19). При предположениях 1-3 ошибка отслеживания замкнутой системы асимптотически устойчива.

Заключение и обсуждение

Основные выводы

Успешно интегрированы метаобучение и теория операторов Купмана, создана адаптивная система управления для параметрически неопределённых нелинейных систем
Предоставлены строгие теоретические гарантии сходимости и устойчивости
Эффективность и превосходство метода подтверждены на нескольких эталонных системах

Ограничения

Теоретические предположения: Предположение 3 требует существования конечномерного инвариантного подпространства, что сложно гарантировать для общих нелинейных систем
Границы производительности: Отсутствует строгий анализ границ обобщения и производительности метамодели операторов Купмана
Практическое применение: Проверено только в симуляции, отсутствует проверка на реальных системах

Направления будущих исследований

Применение метода к реальным системам с параметрической неопределённостью
Формальный анализ требований постоянного возбуждения (PE)
Систематическое исследование связи между длиной траектории и качеством метаобучения операторов Купмана
Расширение на высокомерные системы

Глубокая оценка

Преимущества

Высокая инновационность: Впервые объединены метаобучение и операторы Купмана, предложен новый подход к управлению параметрически неопределёнными системами
Теоретическая полнота: Предоставлен полный анализ сходимости и устойчивости
Достаточная экспериментальная проверка: Проведена комплексная оценка на эталонных системах из трёх различных областей
Практическая ценность: Высокая вычислительная эффективность, подходит для приложений управления в реальном времени

Недостатки

Ограничения предположений: Теоретический анализ зависит от строгих условий предположений, которые реальные системы могут не удовлетворять
Ограниченные базовые методы: Сравнение только с DeSKO, отсутствует сравнение с другими передовыми методами
Отсутствие практической проверки: Метод не проверен на реальных системах
Масштабируемость на высокие размерности: Применимость к высокомерным системам требует дальнейших исследований

Влияние

Академический вклад: Предоставляет новую теоретическую базу и методы для теории обучаемого управления
Перспективы применения: Имеет широкие перспективы применения в робототехнике, управлении химическими процессами и других областях
Воспроизводимость: Авторы предоставили ссылку на код, облегчающую воспроизведение результатов

Применимые сценарии

Параметрически неопределённые нелинейные системы: Такие как робототехнические системы, химические процессы, биологические системы
Задачи управления, требующие быстрой адаптации: Сценарии с изменением нагрузки, изменением окружающей среды и т.д.
Приложения управления в реальном времени: Ситуации с высокими требованиями к вычислительной эффективности

Библиография

Статья цитирует 41 соответствующий источник, охватывающий адаптивное управление, теорию операторов Купмана, метаобучение, прогнозирующее управление и другие области, обеспечивая прочную теоретическую базу для исследования.

Общая оценка: Это высококачественная академическая статья, демонстрирующая отличные результаты в теоретических инновациях, разработке методов и экспериментальной проверке. Объединение метаобучения и теории операторов Купмана предоставляет новый подход к решению проблемы управления параметрически неопределёнными нелинейными системами, имеет важное академическое значение и потенциал применения. Несмотря на некоторые ограничения теоретических предположений и недостаток практической проверки, в целом это исследование заслуживает внимания.