In this work, we propose a meta-learning-based Koopman modeling and predictive control approach for nonlinear systems with parametric uncertainties. An adaptive deep meta-learning-based modeling approach, called Meta Adaptive Koopman Operator (MAKO), is proposed. Without knowledge of the parametric uncertainty, the proposed MAKO approach can learn a meta-model from a multi-modal dataset and efficiently adapt to new systems with previously unseen parameter settings by using online data. Based on the learned meta Koopman model, a predictive control scheme is developed, and the stability of the closed-loop system is ensured even in the presence of previously unseen parameter settings. Through extensive simulations, our proposed approach demonstrates superior performance in both modeling accuracy and control efficacy as compared to competitive baselines.
- معرف الورقة: 2510.09042
- العنوان: MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems
- المؤلفون: Minghao Han, Kiwan Wong, Adrian Wing-Keung Law, Xunyuan Yin
- التصنيف: eess.SY cs.LG cs.SY
- وقت النشر: أكتوبر 2025 (نسخة arXiv المسبقة)
- رابط الورقة: https://arxiv.org/abs/2510.09042
تقترح هذه الورقة طريقة نمذجة Koopman وتحكم تنبؤي قائمة على التعلم الفوقي للتعامل مع الأنظمة غير الخطية ذات عدم اليقين البارامتري. تقدم طريقة نمذجة تعلم فوقي عميق متكيفة - مشغلات Koopman المتكيفة الفوقية (MAKO). بدون معرفة عدم اليقين البارامتري، يمكن لطريقة MAKO تعلم نموذج فوقي من مجموعات بيانات متعددة الأنماط والتكيف بكفاءة عبر الإنترنت مع الأنظمة الجديدة ذات إعدادات البارامترات غير المرئية سابقاً. بناءً على نموذج Koopman الفوقي المتعلم، تم تطوير مخطط تحكم تنبؤي يضمن استقرار النظام حلقة مغلقة حتى في وجود إعدادات بارامترات غير مرئية سابقاً.
- تعريف المشكلة: عدم اليقين البارامتري شائع في الأنظمة غير الخطية، وعادة ما ينجم عن تغييرات الحمل وظروف التشغيل وعوامل أخرى. يؤدي عدم اليقين هذا إلى تدهور الأداء وعدم الاستقرار، مما يشكل تحديات ضخمة لتصميم أنظمة التحكم.
- أهمية المشكلة: تتمتع طرق التحكم التنبؤي النموذجي التكيفي (AMPC) التقليدية بنتائج محدودة على الأنظمة غير الخطية، وعادة ما تتطلب نماذج من المبادئ الأولى كأساس لتصميم أنظمة التحكم، وتفترض نظرياً الاعتماد الخطي على معاملات عدم اليقين، مما يحد من قابليتها للتطبيق على العمليات غير الخطية العامة.
- قيود الطرق الموجودة:
- تركز طرق مشغل Koopman الموجودة بشكل أساسي على مهام التحكم المحددة ذات معاملات النموذج الثابتة
- التكيف عبر الإنترنت القائم على الشبكات العصبية العميقة غير فعال وحسابياً مكثفاً
- تواجه طرق التعلم الفوقي بالتعزيز صعوبة في توفير ضمانات الاستقرار وضمانات الأداء حلقة مغلقة
- دافع البحث: دمج التعلم الفوقي مع نظرية مشغل Koopman لإنشاء إطار عمل تحكم متكيف قائم على التعلم للأنظمة غير الخطية غير المؤكدة البارامترية.
- التكامل الأول: دمج التعلم الفوقي ونظرية مشغل Koopman لأول مرة، وإنشاء إطار عمل MPC تكيفي قائم على التعلم ينطبق على الأنظمة غير الخطية غير المؤكدة البارامترية من الفئة العامة
- الضمانات النظرية: إثبات صارم لتقارب التكيف النموذجي عبر الإنترنت والنظام حلقة مغلقة
- التحقق من الأداء: بناءً على ثلاثة أنظمة معيارية من مجالات مختلفة، أظهرت MAKO دقة نمذجة جيدة وأداء تحكم تتبع قوية في وجود عدم اليقين البارامتري، متفوقة على طرق الخطوط الأساسية المنافسة
ضع في الاعتبار نظام غير خطي غير مؤكد البارامترات:
xk+1=f(xk,uk,Θ),Θ∼p(Θ)
حيث:
- xk∈X⊂Rn: حالة النظام
- uk∈U⊂Rm: مدخل التحكم
- Θ∈Ξ⊂Rl: معاملات النظام، موزعة وفقاً لتوزيع غير معروف p(Θ)
تتولى MNN معاملة دوال قابلة للملاحظة، مع المشاركة عبر إعدادات مهام مختلفة:
gki=ψθ(xki),xki∈Di
حيث ψθ(⋅) هي شبكة عصبية متعددة الطبقات وθ معاملات قابلة للتدريب.
في فضاء الملاحظات المشفر، تعلم مجموعة من مشغلات Koopman Ai,Bi,Ci لكل إعداد مهمة Θi:
gk+1∣ki=Aigk∣ki+Biukix^k+1∣ki=Cigk+1∣ki
يتم التعبير عن مشكلة التحسين كـ:
minθ,{Ai,Bi,Ci}NTH1∑i=1N∑k=1T∑t=1H∥xk+ti−Cigk+t∣ki∥22
تخضع للقيود:
- gk+t∣ki=Aigk+t−1∣ki+Biuk+t−1i
- gk∣ki=ψθ(xki)
التهيئة: A^0,B^0,C^0={N1∑Ai,N1∑Bi,N1∑Ci}
حساب التدرج:
∇Ψ^Jk=−Xkg~k+1T∇C^Jk=−gk+1x~k+1T
قانون التحديث:
Ψ^k+1=Ψ^k+λkg~k+1XkTC^k+1=C^k+λkx~k+1gk+1T
حيث معدل التعلم التكيفي:
λk=min(XkTXk2−α,gk+1Tgk+12−α)
مع الأخذ في الاعتبار حالة خطأ النمذجة، إدخال الضوضاء المثالية:
wk∗,vk∗=minwk∈W,vk∈VJˉ(Ψ^k,C^k,wk,vk)
قانون التحديث القوي:
Ψ^k+1=Ψ^k+λk(g~k+1−wk∗)XkTC^k+1=C^k+λk(x~k+1−vk∗)gk+1T
- تعلم التمثيل المشترك: تعلم تمثيلات فضاء الملاحظات المشتركة عبر المهام من خلال MNN
- ديناميكيات خاصة بالمهمة: تعلم مشغلات Koopman محددة لكل مهمة
- معدل تعلم متكيف: تعديل معدل التعلم الديناميكي بناءً على خصائص البيانات
- ضمانات نظرية: توفير تحليل نظري صارم للتقارب والاستقرار
تجري التجارب على ثلاثة أنظمة معيارية:
- نظام عربة البندول:
- الحالة: [x,x˙,θ,θ˙]T
- معاملات غير مؤكدة: طول القضيب lp∈[0.1m,1.0m]، كتلة القضيب mp∈[0.01kg,0.2kg]
- مدخل التحكم: u∈[−20,20]
- شبكة التنظيم الجيني (GRN):
- الحالة: [m1,m2,m3,p1,p2,p3]T (تركيزات الحمض النووي الريبوسي الرسول والبروتين)
- معاملات غير مؤكدة: ثابت الفصل K∈[2,8]، مقياس الإدخال b1∈[3,7]
- عملية كيميائية للمفاعل والفاصل:
- الحالة: 9 أبعاد (كسور الكتلة ودرجة الحرارة)
- معاملات غير مؤكدة: درجة حرارة التغذية T10,T20∈[150K,450K]
- الخطأ التنبؤي التراكمي (التنبؤ لـ 16 خطوة)
- معيار L2 لخطأ التتبع
- التكلفة التراكمية لأداء التحكم
- DeSKO (مشغل Koopman العشوائي العميق): خط أساسي منافس مدرب على إعدادات معاملات اسمية
- بعد الملاحظة: 128-256
- طول المسار: 250-500
- حجم الدفعة: 128
- معدل التعلم: 10−4
- أفق التنبؤ: 16 خطوة
- هيكل الشبكة: (128,128)، وظائف تفعيل ReLU
- أظهرت MAKO أداء نمذجة جيدة على جميع الأنظمة الثلاثة
- متوسط الخطأ للتنبؤ لـ 16 خطوة أقل من 10−2
- متفوقة على DeSKO على أنظمة Cartpole والعملية الكيميائية
- أقل قليلاً من DeSKO على نظام GRN، لكن لا تزال تحافظ على أداء جيدة
- نظام Cartpole: حققت MAKO تحكماً مستقراً بتكلفة تراكمية أقل من DeSKO
- نظام GRN: حققت DeSKO تتبعاً دقيقاً فقط في 3 إعدادات معاملات، أظهرت MAKO أداء أكثر استقراراً
- العملية الكيميائية: فشلت DeSKO في تحقيق تتبع خطأ مستقر في جميع إعدادات المعاملات، حققت MAKO بنجاح هدف التحكم
- متوسط وقت الحساب لإطار عمل MAKO-robust لكل خطوة زمنية على نظام Cartpole هو 0.0203 ثانية
- مناسب لتطبيقات التحكم في الوقت الفعلي
مقارنة التكيف الاسمي (MAKO) والتكيف القوي (MAKO-robust):
- أظهر MAKO-robust سلوكاً عابراً أسرع وأكثر استقراراً
- حقق خطأ تتبع حالة مستقرة مماثل أو أصغر
- القدرة على التعميم: يمكن لـ MAKO التكيف مع إعدادات معاملات لم تواجهها أثناء التدريب
- المتانة: الحفاظ على أداء جيدة في وجود عدم اليقين البارامتري
- التكيفية: التكيف السريع مع المهام الجديدة من خلال البيانات عبر الإنترنت
- التحكم التنبؤي النموذجي التكيفي: تتمتع طرق AMPC التقليدية بنتائج محدودة على الأنظمة غير الخطية
- نظرية مشغل Koopman: حصلت على اهتمام في السنوات الأخيرة في التمثيل الخطي للعمليات غير الخطية المعقدة
- تطبيقات التعلم الفوقي في التحكم: تطور طرق MAML والتعلم الفوقي بالتعزيز وغيرها
- دمج التعلم الفوقي ومشغل Koopman لأول مرة
- توفير ضمانات تقارب نظرية
- قابلة للتطبيق على فئة عامة من الأنظمة غير الخطية
- كفاءة حسابية أعلى من التكيف عبر الإنترنت للشبكات العصبية العميقة
النظرية 1 (التكيف الاسمي): تحت الافتراضات 1-3، باستخدام قوانين التحديث التكيفية (9) و(10)، خطأ التقريب البارامتري Ψ~k وC~k محدود في النهاية، وخطأ الحالة المتنبأ به x~ يتقارب بشكل مقارب إلى الصفر.
النظرية 2 (التكيف القوي): تحت الافتراضات 1 و2، باستخدام قوانين التحديث (10) و(15) و(16)، خطأ التقريب البارامتري Ψ~k وC~k محدود في النهاية، وlimk→∞∥x~k∥≤ϵv.
النظرية 3: ضع في الاعتبار النظام غير الخطي (1) مع قوانين التحديث التكيفية (9) و(10) ومتحكم MPC (19)، تحت الافتراضات 1-3، خطأ تتبع النظام حلقة مغلقة مستقر بشكل مقارب.
- دمج التعلم الفوقي ونظرية مشغل Koopman بنجاح، وإنشاء إطار عمل تحكم متكيف ينطبق على الأنظمة غير الخطية غير المؤكدة البارامترية
- توفير ضمانات تقارب واستقرار نظرية صارمة
- التحقق من فعالية وتفوق الطريقة على أنظمة معيارية متعددة
- الافتراضات النظرية: يتطلب الافتراض 3 وجود فضاء فرعي ثابت محدود الأبعاد، وهو صعب الضمان للأنظمة غير الخطية العامة
- حدود الأداء: نقص التحليل الصارم لحدود التعميم والأداء لنموذج Koopman الفوقي المدرب
- التطبيق العملي: التحقق فقط في المحاكاة، نقص التحقق على الأنظمة الفعلية
- تطبيق الطريقة على أنظمة حقيقية ذات عدم اليقين البارامتري
- التحليل الرسمي لمتطلبات الإثارة المستمرة (PE)
- دراسة منهجية لعلاقة طول المسار بجودة التعلم الفوقي لمشغل Koopman
- التوسع إلى أنظمة عالية الأبعاد
- ابتكار قوي: دمج التعلم الفوقي ومشغل Koopman لأول مرة، يوفر منظوراً جديداً للتحكم في الأنظمة غير المؤكدة البارامترية
- اكتمال نظري: توفير تحليل تقارب واستقرار شامل
- تجارب كافية: تقييم شامل على أنظمة معيارية من ثلاثة مجالات مختلفة
- قيمة عملية: كفاءة حسابية عالية، مناسبة لتطبيقات التحكم في الوقت الفعلي
- قيود الافتراضات: يعتمد التحليل النظري على شروط افتراضية قوية، قد لا تستوفيها الأنظمة الفعلية
- خطوط أساسية محدودة: مقارنة فقط مع DeSKO، نقص المقارنة مع طرق متقدمة أخرى
- نقص التحقق العملي: عدم التحقق من فعالية الطريقة على أنظمة حقيقية
- قابلية التوسع إلى أبعاد عالية: تحتاج قابلية التطبيق على الأنظمة عالية الأبعاد إلى مزيد من البحث
- المساهمة الأكاديمية: توفير إطار نظري جديد وطريقة لنظرية التحكم القائم على التعلم
- آفاق التطبيق: آفاق تطبيق واسعة في مجالات مثل الروبوتات والتحكم في العمليات الكيميائية
- قابلية التكرار: يوفر المؤلفون رابط الكود، مما يسهل تكرار النتائج
- الأنظمة غير الخطية غير المؤكدة البارامترية: مثل أنظمة الروبوتات والعمليات الكيميائية والأنظمة البيولوجية
- مهام التحكم التي تتطلب تكيفاً سريعاً: سيناريوهات تغيير الحمل وتغيير البيئة وغيرها
- تطبيقات التحكم في الوقت الفعلي: الحالات التي تتطلب كفاءة حسابية عالية
تستشهد الورقة بـ 41 مرجعاً ذا صلة، تغطي عدة مجالات بما في ذلك التحكم التكيفي ونظرية مشغل Koopman والتعلم الفوقي والتحكم التنبؤي النموذجي وغيرها، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الشامل: هذه ورقة أكاديمية عالية الجودة، تتمتع بأداء ممتازة في الابتكار النظري وتصميم الطريقة والتحقق التجريبي. يوفر دمج التعلم الفوقي ونظرية مشغل Koopman منظوراً جديداً لحل مشكلة التحكم في الأنظمة غير الخطية غير المؤكدة البارامترية، ويتمتع بقيمة أكاديمية وإمكانية تطبيق مهمة. على الرغم من وجود بعض قيود الافتراضات النظرية وعدم كفاية التحقق العملي، إلا أنها بشكل عام عمل بحثي جدير بالاهتمام.