2025-11-14T08:52:10.884823

MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems

Han, Wong, Law et al.

In this work, we propose a meta-learning-based Koopman modeling and predictive control approach for nonlinear systems with parametric uncertainties. An adaptive deep meta-learning-based modeling approach, called Meta Adaptive Koopman Operator (MAKO), is proposed. Without knowledge of the parametric uncertainty, the proposed MAKO approach can learn a meta-model from a multi-modal dataset and efficiently adapt to new systems with previously unseen parameter settings by using online data. Based on the learned meta Koopman model, a predictive control scheme is developed, and the stability of the closed-loop system is ensured even in the presence of previously unseen parameter settings. Through extensive simulations, our proposed approach demonstrates superior performance in both modeling accuracy and control efficacy as compared to competitive baselines.

academic

MAKO: مشغلات Koopman المتكيفة الفوقية للتحكم التنبؤي القائم على التعلم في الأنظمة غير الخطية غير المؤكدة البارامترية

المعلومات الأساسية

معرف الورقة: 2510.09042
العنوان: MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems
المؤلفون: Minghao Han, Kiwan Wong, Adrian Wing-Keung Law, Xunyuan Yin
التصنيف: eess.SY cs.LG cs.SY
وقت النشر: أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.09042

الملخص

تقترح هذه الورقة طريقة نمذجة Koopman وتحكم تنبؤي قائمة على التعلم الفوقي للتعامل مع الأنظمة غير الخطية ذات عدم اليقين البارامتري. تقدم طريقة نمذجة تعلم فوقي عميق متكيفة - مشغلات Koopman المتكيفة الفوقية (MAKO). بدون معرفة عدم اليقين البارامتري، يمكن لطريقة MAKO تعلم نموذج فوقي من مجموعات بيانات متعددة الأنماط والتكيف بكفاءة عبر الإنترنت مع الأنظمة الجديدة ذات إعدادات البارامترات غير المرئية سابقاً. بناءً على نموذج Koopman الفوقي المتعلم، تم تطوير مخطط تحكم تنبؤي يضمن استقرار النظام حلقة مغلقة حتى في وجود إعدادات بارامترات غير مرئية سابقاً.

خلفية البحث والدافع

تعريف المشكلة: عدم اليقين البارامتري شائع في الأنظمة غير الخطية، وعادة ما ينجم عن تغييرات الحمل وظروف التشغيل وعوامل أخرى. يؤدي عدم اليقين هذا إلى تدهور الأداء وعدم الاستقرار، مما يشكل تحديات ضخمة لتصميم أنظمة التحكم.
أهمية المشكلة: تتمتع طرق التحكم التنبؤي النموذجي التكيفي (AMPC) التقليدية بنتائج محدودة على الأنظمة غير الخطية، وعادة ما تتطلب نماذج من المبادئ الأولى كأساس لتصميم أنظمة التحكم، وتفترض نظرياً الاعتماد الخطي على معاملات عدم اليقين، مما يحد من قابليتها للتطبيق على العمليات غير الخطية العامة.
قيود الطرق الموجودة:
- تركز طرق مشغل Koopman الموجودة بشكل أساسي على مهام التحكم المحددة ذات معاملات النموذج الثابتة
- التكيف عبر الإنترنت القائم على الشبكات العصبية العميقة غير فعال وحسابياً مكثفاً
- تواجه طرق التعلم الفوقي بالتعزيز صعوبة في توفير ضمانات الاستقرار وضمانات الأداء حلقة مغلقة
دافع البحث: دمج التعلم الفوقي مع نظرية مشغل Koopman لإنشاء إطار عمل تحكم متكيف قائم على التعلم للأنظمة غير الخطية غير المؤكدة البارامترية.

المساهمات الأساسية

التكامل الأول: دمج التعلم الفوقي ونظرية مشغل Koopman لأول مرة، وإنشاء إطار عمل MPC تكيفي قائم على التعلم ينطبق على الأنظمة غير الخطية غير المؤكدة البارامترية من الفئة العامة
الضمانات النظرية: إثبات صارم لتقارب التكيف النموذجي عبر الإنترنت والنظام حلقة مغلقة
التحقق من الأداء: بناءً على ثلاثة أنظمة معيارية من مجالات مختلفة، أظهرت MAKO دقة نمذجة جيدة وأداء تحكم تتبع قوية في وجود عدم اليقين البارامتري، متفوقة على طرق الخطوط الأساسية المنافسة

شرح الطريقة

تعريف المهمة

ضع في الاعتبار نظام غير خطي غير مؤكد البارامترات: $x_{k+1} = f(x_k, u_k, \Theta), \quad \Theta \sim p(\Theta)$

حيث:

$x_k \in X \subset \mathbb{R}^n$ : حالة النظام
$u_k \in U \subset \mathbb{R}^m$ : مدخل التحكم
$\Theta \in \Xi \subset \mathbb{R}^l$ : معاملات النظام، موزعة وفقاً لتوزيع غير معروف $p(\Theta)$

معمارية النموذج

1. شبكة التعلم الفوقي (MNN)

تتولى MNN معاملة دوال قابلة للملاحظة، مع المشاركة عبر إعدادات مهام مختلفة: $g_k^i = \psi_\theta(x_k^i), \quad x_k^i \in D_i$

حيث $\psi_\theta(\cdot)$ هي شبكة عصبية متعددة الطبقات و $\theta$ معاملات قابلة للتدريب.

2. مشغل Koopman

في فضاء الملاحظات المشفر، تعلم مجموعة من مشغلات Koopman $A_i, B_i, C_i$ لكل إعداد مهمة $\Theta_i$ : $g_{k+1|k}^i = A_i g_{k|k}^i + B_i u_k^i$ $\hat{x}_{k+1|k}^i = C_i g_{k+1|k}^i$

3. تحسين التعلم الفوقي

يتم التعبير عن مشكلة التحسين كـ: $\min_{\theta,\{A_i,B_i,C_i\}} \frac{1}{NTH} \sum_{i=1}^N \sum_{k=1}^T \sum_{t=1}^H \|x_{k+t}^i - C_i g_{k+t|k}^i\|_2^2$

تخضع للقيود:

$g_{k+t|k}^i = A_i g_{k+t-1|k}^i + B_i u_{k+t-1}^i$
$g_{k|k}^i = \psi_\theta(x_k^i)$

آلية التكيف عبر الإنترنت

1. التكيف الاسمي

التهيئة: $\hat{A}_0, \hat{B}_0, \hat{C}_0 = \{\frac{1}{N}\sum A_i, \frac{1}{N}\sum B_i, \frac{1}{N}\sum C_i\}$

حساب التدرج: $\nabla_{\hat{\Psi}} J_k = -X_k \tilde{g}_{k+1}^T$ $\nabla_{\hat{C}} J_k = -g_{k+1} \tilde{x}_{k+1}^T$

قانون التحديث: $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k \tilde{g}_{k+1} X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k \tilde{x}_{k+1} g_{k+1}^T$

حيث معدل التعلم التكيفي: $\lambda_k = \min\left(\frac{2-\alpha}{X_k^T X_k}, \frac{2-\alpha}{g_{k+1}^T g_{k+1}}\right)$

2. التكيف القوي

مع الأخذ في الاعتبار حالة خطأ النمذجة، إدخال الضوضاء المثالية: $w_k^*, v_k^* = \min_{w_k \in W, v_k \in V} \bar{J}(\hat{\Psi}_k, \hat{C}_k, w_k, v_k)$

قانون التحديث القوي: $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k(\tilde{g}_{k+1} - w_k^*) X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k(\tilde{x}_{k+1} - v_k^*) g_{k+1}^T$

نقاط الابتكار التقنية

تعلم التمثيل المشترك: تعلم تمثيلات فضاء الملاحظات المشتركة عبر المهام من خلال MNN
ديناميكيات خاصة بالمهمة: تعلم مشغلات Koopman محددة لكل مهمة
معدل تعلم متكيف: تعديل معدل التعلم الديناميكي بناءً على خصائص البيانات
ضمانات نظرية: توفير تحليل نظري صارم للتقارب والاستقرار

إعداد التجارب

مجموعات البيانات

تجري التجارب على ثلاثة أنظمة معيارية:

نظام عربة البندول:
- الحالة: $[x, \dot{x}, \theta, \dot{\theta}]^T$
- معاملات غير مؤكدة: طول القضيب $l_p \in [0.1m, 1.0m]$ ، كتلة القضيب $m_p \in [0.01kg, 0.2kg]$
- مدخل التحكم: $u \in [-20, 20]$
شبكة التنظيم الجيني (GRN):
- الحالة: $[m_1, m_2, m_3, p_1, p_2, p_3]^T$ (تركيزات الحمض النووي الريبوسي الرسول والبروتين)
- معاملات غير مؤكدة: ثابت الفصل $K \in [2, 8]$ ، مقياس الإدخال $b_1 \in [3, 7]$
عملية كيميائية للمفاعل والفاصل:
- الحالة: 9 أبعاد (كسور الكتلة ودرجة الحرارة)
- معاملات غير مؤكدة: درجة حرارة التغذية $T_{10}, T_{20} \in [150K, 450K]$

مؤشرات التقييم

الخطأ التنبؤي التراكمي (التنبؤ لـ 16 خطوة)
معيار L2 لخطأ التتبع
التكلفة التراكمية لأداء التحكم

طرق المقارنة

DeSKO (مشغل Koopman العشوائي العميق): خط أساسي منافس مدرب على إعدادات معاملات اسمية

تفاصيل التنفيذ

بعد الملاحظة: 128-256
طول المسار: 250-500
حجم الدفعة: 128
معدل التعلم: $10^{-4}$
أفق التنبؤ: 16 خطوة
هيكل الشبكة: (128,128)، وظائف تفعيل ReLU

نتائج التجارب

النتائج الرئيسية

أداء النمذجة

أظهرت MAKO أداء نمذجة جيدة على جميع الأنظمة الثلاثة
متوسط الخطأ للتنبؤ لـ 16 خطوة أقل من $10^{-2}$
متفوقة على DeSKO على أنظمة Cartpole والعملية الكيميائية
أقل قليلاً من DeSKO على نظام GRN، لكن لا تزال تحافظ على أداء جيدة

أداء التحكم

نظام Cartpole: حققت MAKO تحكماً مستقراً بتكلفة تراكمية أقل من DeSKO
نظام GRN: حققت DeSKO تتبعاً دقيقاً فقط في 3 إعدادات معاملات، أظهرت MAKO أداء أكثر استقراراً
العملية الكيميائية: فشلت DeSKO في تحقيق تتبع خطأ مستقر في جميع إعدادات المعاملات، حققت MAKO بنجاح هدف التحكم

الكفاءة الحسابية

متوسط وقت الحساب لإطار عمل MAKO-robust لكل خطوة زمنية على نظام Cartpole هو 0.0203 ثانية
مناسب لتطبيقات التحكم في الوقت الفعلي

تجارب الاستئصال

مقارنة التكيف الاسمي (MAKO) والتكيف القوي (MAKO-robust):

أظهر MAKO-robust سلوكاً عابراً أسرع وأكثر استقراراً
حقق خطأ تتبع حالة مستقرة مماثل أو أصغر

نتائج التجارب

القدرة على التعميم: يمكن لـ MAKO التكيف مع إعدادات معاملات لم تواجهها أثناء التدريب
المتانة: الحفاظ على أداء جيدة في وجود عدم اليقين البارامتري
التكيفية: التكيف السريع مع المهام الجديدة من خلال البيانات عبر الإنترنت

الأعمال ذات الصلة

اتجاهات البحث الرئيسية

التحكم التنبؤي النموذجي التكيفي: تتمتع طرق AMPC التقليدية بنتائج محدودة على الأنظمة غير الخطية
نظرية مشغل Koopman: حصلت على اهتمام في السنوات الأخيرة في التمثيل الخطي للعمليات غير الخطية المعقدة
تطبيقات التعلم الفوقي في التحكم: تطور طرق MAML والتعلم الفوقي بالتعزيز وغيرها

مزايا هذه الورقة

دمج التعلم الفوقي ومشغل Koopman لأول مرة
توفير ضمانات تقارب نظرية
قابلة للتطبيق على فئة عامة من الأنظمة غير الخطية
كفاءة حسابية أعلى من التكيف عبر الإنترنت للشبكات العصبية العميقة

التحليل النظري

نظريات التقارب

النظرية 1 (التكيف الاسمي): تحت الافتراضات 1-3، باستخدام قوانين التحديث التكيفية (9) و(10)، خطأ التقريب البارامتري $\tilde{\Psi}_k$ و $\tilde{C}_k$ محدود في النهاية، وخطأ الحالة المتنبأ به $\tilde{x}$ يتقارب بشكل مقارب إلى الصفر.

النظرية 2 (التكيف القوي): تحت الافتراضات 1 و2، باستخدام قوانين التحديث (10) و(15) و(16)، خطأ التقريب البارامتري $\tilde{\Psi}_k$ و $\tilde{C}_k$ محدود في النهاية، و $\lim_{k\to\infty} \|\tilde{x}_k\| \leq \epsilon_v$ .

نظريات الاستقرار

النظرية 3: ضع في الاعتبار النظام غير الخطي (1) مع قوانين التحديث التكيفية (9) و(10) ومتحكم MPC (19)، تحت الافتراضات 1-3، خطأ تتبع النظام حلقة مغلقة مستقر بشكل مقارب.

الاستنتاج والمناقشة

الاستنتاجات الرئيسية

دمج التعلم الفوقي ونظرية مشغل Koopman بنجاح، وإنشاء إطار عمل تحكم متكيف ينطبق على الأنظمة غير الخطية غير المؤكدة البارامترية
توفير ضمانات تقارب واستقرار نظرية صارمة
التحقق من فعالية وتفوق الطريقة على أنظمة معيارية متعددة

القيود

الافتراضات النظرية: يتطلب الافتراض 3 وجود فضاء فرعي ثابت محدود الأبعاد، وهو صعب الضمان للأنظمة غير الخطية العامة
حدود الأداء: نقص التحليل الصارم لحدود التعميم والأداء لنموذج Koopman الفوقي المدرب
التطبيق العملي: التحقق فقط في المحاكاة، نقص التحقق على الأنظمة الفعلية

الاتجاهات المستقبلية

تطبيق الطريقة على أنظمة حقيقية ذات عدم اليقين البارامتري
التحليل الرسمي لمتطلبات الإثارة المستمرة (PE)
دراسة منهجية لعلاقة طول المسار بجودة التعلم الفوقي لمشغل Koopman
التوسع إلى أنظمة عالية الأبعاد

التقييم المتعمق

المزايا

ابتكار قوي: دمج التعلم الفوقي ومشغل Koopman لأول مرة، يوفر منظوراً جديداً للتحكم في الأنظمة غير المؤكدة البارامترية
اكتمال نظري: توفير تحليل تقارب واستقرار شامل
تجارب كافية: تقييم شامل على أنظمة معيارية من ثلاثة مجالات مختلفة
قيمة عملية: كفاءة حسابية عالية، مناسبة لتطبيقات التحكم في الوقت الفعلي

أوجه القصور

قيود الافتراضات: يعتمد التحليل النظري على شروط افتراضية قوية، قد لا تستوفيها الأنظمة الفعلية
خطوط أساسية محدودة: مقارنة فقط مع DeSKO، نقص المقارنة مع طرق متقدمة أخرى
نقص التحقق العملي: عدم التحقق من فعالية الطريقة على أنظمة حقيقية
قابلية التوسع إلى أبعاد عالية: تحتاج قابلية التطبيق على الأنظمة عالية الأبعاد إلى مزيد من البحث

التأثير

المساهمة الأكاديمية: توفير إطار نظري جديد وطريقة لنظرية التحكم القائم على التعلم
آفاق التطبيق: آفاق تطبيق واسعة في مجالات مثل الروبوتات والتحكم في العمليات الكيميائية
قابلية التكرار: يوفر المؤلفون رابط الكود، مما يسهل تكرار النتائج

السيناريوهات المطبقة

الأنظمة غير الخطية غير المؤكدة البارامترية: مثل أنظمة الروبوتات والعمليات الكيميائية والأنظمة البيولوجية
مهام التحكم التي تتطلب تكيفاً سريعاً: سيناريوهات تغيير الحمل وتغيير البيئة وغيرها
تطبيقات التحكم في الوقت الفعلي: الحالات التي تتطلب كفاءة حسابية عالية

المراجع

تستشهد الورقة بـ 41 مرجعاً ذا صلة، تغطي عدة مجالات بما في ذلك التحكم التكيفي ونظرية مشغل Koopman والتعلم الفوقي والتحكم التنبؤي النموذجي وغيرها، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الشامل: هذه ورقة أكاديمية عالية الجودة، تتمتع بأداء ممتازة في الابتكار النظري وتصميم الطريقة والتحقق التجريبي. يوفر دمج التعلم الفوقي ونظرية مشغل Koopman منظوراً جديداً لحل مشكلة التحكم في الأنظمة غير الخطية غير المؤكدة البارامترية، ويتمتع بقيمة أكاديمية وإمكانية تطبيق مهمة. على الرغم من وجود بعض قيود الافتراضات النظرية وعدم كفاية التحقق العملي، إلا أنها بشكل عام عمل بحثي جدير بالاهتمام.