In differential equation discovery algorithms, a priori expert knowledge is mainly used implicitly to constrain the form of the expected equation, making it impossible for the algorithm to truly discover equations. Instead, most differential equation discovery algorithms try to recover the coefficients for a known structure. In this paper, we describe an algorithm that allows the discovery of unknown equations using automatically or manually extracted background knowledge. Instead of imposing rigid constraints, we modify the structure space so that certain terms are likely to appear within the crossover and mutation operators. In this way, we mimic expertly chosen terms while preserving the possibility of obtaining any equation form. The paper shows that the extraction and use of knowledge allows it to outperform the SINDy algorithm in terms of search stability and robustness. Synthetic examples are given for Burgers, wave, and Korteweg--De Vries equations.
- معرّف الورقة: 2501.00444
- العنوان: اكتشاف المعادلات مع الوعي بالمعرفة والاستخراج الآلي للمعرفة الأساسية
- المؤلفون: إليزافيتا إيفانتشيك، ألكسندر خفاتوف (جامعة ITMO)
- التصنيف: cs.AI
- تاريخ النشر: 3 يناير 2025 (نسخة arXiv التمهيدية)
- رابط الورقة: https://arxiv.org/abs/2501.00444
في خوارزميات اكتشاف المعادلات التفاضلية، يتم استخدام المعرفة الخبيرة المسبقة بشكل ضمني بشكل أساسي لتقييد شكل المعادلات المتوقعة، مما يحول دون اكتشاف حقيقي للمعادلات. بدلاً من ذلك، تحاول معظم خوارزميات اكتشاف المعادلات التفاضلية استعادة معاملات البنية المعروفة. تصف هذه الورقة خوارزمية تسمح باكتشاف معادلات مجهولة باستخدام معرفة أساسية مستخرجة تلقائياً أو يدوياً. بدلاً من فرض قيود صارمة، تعدل الخوارزمية فضاء البنية بحيث تصبح بعض الحدود أكثر احتمالاً في ظهورها في عمليات التقاطع والطفرة. بهذه الطريقة، تحاكي الخوارزمية اختيار الخبير للحدود مع الحفاظ على إمكانية الحصول على أي شكل معادلة. تُظهر التجارب أن استخراج واستخدام المعرفة يجعلها متفوقة على خوارزمية SINDy من حيث استقرار البحث والمتانة.
اكتشاف المعادلات التفاضلية مهمة مهمة لاستخراج نماذج فيزيائية قابلة للتفسير من البيانات المرصودة. تواجه طرق اكتشاف المعادلات التفاضلية الحالية المشاكل الرئيسية التالية:
- الاعتماد المفرط على المعرفة المسبقة: تعتمد الطرق الموجودة مثل SINDy بشكل أساسي على مكتبات الحدود المعرّفة مسبقاً لتقييد شكل المعادلة، وهي في الواقع استعادة معاملات وليست اكتشافاً حقيقياً للمعادلات
- قيود فضاء البنية: يمكن للطرق المستندة إلى التحسين المستند إلى التدرج البحث فقط في فضاء بنية ثابت، مما يحد من القدرة على اكتشاف معادلات جديدة
- طريقة استخدام المعرفة الجامدة: إما أن الطرق الموجودة لا تستخدم المعرفة الأساسية على الإطلاق أو تفرض قيوداً هيكلية صارمة جداً
الدافع الأساسي لهذه الورقة هو تطوير خوارزمية اكتشاف معادلات تفاضلية قادرة على:
- استخراج واستخدام المعرفة الأساسية تلقائياً
- توجيه عملية البحث مع الحفاظ على المرونة الهيكلية
- تحسين استقرار واستتباب اكتشاف المعادلات
- اقتراح إطار عمل لاكتشاف المعادلات مع الوعي بالمعرفة: تطوير خوارزمية محسّنة قائمة على EPDE تستخدم المعرفة الأساسية من خلال تعديل التوزيعات الاحتمالية بدلاً من القيود الصارمة
- تصميم آلية استخراج معرفة آلية: استخراج تلقائي للتخمينات الأولية بناءً على بنية SymNet المحسّنة وتحويلها إلى توزيع أهمية الحدود
- تنفيذ التوجيه المرن للمعرفة: من خلال تعديل التوزيعات الاحتمالية لعمليات التقاطع والطفرة، توجيه عملية التحسين مع الحفاظ على سلامة فضاء البحث
- التحقق من فعالية الطريقة: تُظهر التجارب على معادلة Burgers وموجة KdV أن الطريقة متفوقة على SINDy من حيث الاستقرار والمتانة
بالنظر إلى البيانات المرصودة على شبكة منفصلة X={x(i)}i=1N والقيم المرصودة المقابلة U={u(i)}i=1N، الهدف هو اكتشاف نموذج المعادلة التفاضلية التي تصف البيانات:
M(S,P,x)→u(x):M(S,P,x(i))→u(xi)∼u(i)
حيث يمثل S البنية وP يمثل المعاملات.
تستخدم خوارزمية EPDE الرموز المعاملية كوحدات بناء أساسية:
t=t(π1,...,πn)
تشكل مجموعات الرموز حدوداً: T=t1⋅...⋅tTlength، وشكل النموذج هو:
M(S,{C,P})=∑j=1NtermsCjTj
الابتكار الرئيسي يكمن في إدخال توزيع أهمية الحدود لتوجيه عمليات التطور:
عملية التقاطع المحسّنة: اختيار الحدود المشاركة في التقاطع وفقاً لتوزيع أهمية الحدود، بدلاً من الاختيار المنتظم.
عملية الطفرة المحسّنة:
- استبدال الرموز: اختيار رموز جديدة وفقاً لتوزيع الأهمية
- توليد الحدود: استخدام توزيع الأهمية لتوليد حدود جديدة
استخدام بنية SymNet المحسّنة لتوليد التخمينات الأولية:
تعديلات SymNet: توسيع البنية الأصلية لدعم أشكال مشتقات زمنية تعسفية:
Ut=F(t,x,U,Ux,Uxx,Utt,Uttt,...)Utt=F(t,x,U,Ux,Ut,Uxx,Uttt,...)
حساب التوزيع الاحتمالي:
- تعيين مخرجات SymNet إلى فضاء حدود EPDE
- تطبيق معالجة تمويه المعاملات (عامل الخلط mf يتحكم)
- التطبيع للحصول على توزيع احتمالي
- آلية القيود المرنة: إدخال المعرفة الأساسية من خلال التوزيعات الاحتمالية بدلاً من القيود الصارمة، مع الحفاظ على سلامة فضاء البحث
- استخراج المعرفة التكيفي: استخراج أهمية الحدود تلقائياً من التخمينات الأولية دون الحاجة إلى تعريف يدوي
- تنظيم عامل الخلط: موازنة موثوقية التخمين الأولي من خلال عامل الخلط، لمنع الاعتماد المفرط على التخمينات غير الدقيقة
تستخدم التجارب خمس معادلات تفاضلية جزئية كلاسيكية:
- معادلة Burgers (بدون لزوجة): ut+uux=0
- معادلة Burgers (مع حد اللزوجة): ut+uux−0.1uxx=0
- معادلة الموجة: utt−251uxx=0
- معادلة KdV: ut+6uux+uxxx=0
- معادلة KdV غير المتجانسة: ut+6uux+uxxx=costsinx
- متوسط الخطأ المطلق (MAE): حساب الخطأ بين معاملات المعادلة المكتشفة والمعاملات الحقيقية
- مسافة هامينج الهيكلية (SHD): قياس الفرق بين بنية المعادلة المكتشفة والبنية الحقيقية
- معدل النجاح: نسبة المرات التي تم فيها اكتشاف المعادلة بنجاح من بين 50 تشغيل
- وقت التقارب: الوقت المطلوب للخوارزمية للوصول إلى التقارب
- خوارزمية EPDE الكلاسيكية: كطريقة أساسية
- إطار عمل PySINDy: الطريقة الرائدة الحالية لاكتشاف المعادلات التفاضلية
- SymNet: لتقييم جودة التخمين الأولي
- تشغيل كل تجربة 50 مرة للحصول على النتائج الإحصائية
- مستويات الضوضاء: 0%، 25%، 50%، 75%، 100% (نسبة إلى مستوى الضوضاء الحد الأقصى)
- عامل الخلط: القيمة الافتراضية 2.4، مع اختبار القيم المحسّنة من خلال تباعد KL
تُظهر التجارب على معادلات متعددة:
- تحسن الاستقرار: تُظهر الخوارزمية المحسّنة استقراراً أفضل في ظروف الضوضاء العالية
- مزايا الدقة: تحقق دقة MAE أقل في معظم الحالات
- تعزيز المتانة: تنخفض الأداء بشكل أبطأ مع زيادة الضوضاء
وفقاً لنتائج الجداول A.3 و A.4:
- المعادلات المعقدة: يكون تحسن معدل النجاح أكثر وضوحاً لمعادلة KdV غير المتجانسة، ويصل إلى 72%
- المعادلات البسيطة: التحسن محدود للمعادلات البسيطة التي تتمتع بالفعل بمعدل نجاح عالي
- متوسط التحسن: متوسط تحسن المتانة ضد الضوضاء 12.5%، يتراوح بين 2% و 32%
- EPDE الكلاسيكية: حوالي 5 ثوان
- الخوارزمية المحسّنة: حوالي 15 ثانية
- PySINDy: حوالي 0.01 ثانية
اختبار تأثير عوامل خلط مختلفة (2.4، 3.0، 3.6، 4.5):
- عامل الخلط المحسّن من خلال تباعد KL يُظهر عادة أفضل أداء
- يمكن لتعديل عامل الخلط المناسب أن يحسّن معدل الاكتشاف بنسبة 30% إضافية
يختلف أداء SymNet بشكل كبير عبر معادلات مختلفة:
- المعادلات البسيطة: معادلة Burgers MAE = 0.0058 ± 0.0008
- المعادلات المعقدة: معادلة KdV غير المتجانسة MAE = 0.1497 ± 0.0214
بأخذ معادلة الموجة كمثال، يمكن للخوارزمية المحسّنة اكتشاف معادلات المشتقات الزمنية من الدرجة الثانية التي لا يمكن لـ PySINDy التعامل معها، مما يعكس المرونة الهيكلية للطريقة.
تصنف الورقة الطرق الموجودة إلى فئتين:
- النوع الأول (التحسين المستند إلى التدرج): بنية ثابتة، تحسين المعاملات (مثل SINDy و PDE-Net)
- النوع الثاني (البرمجة الجينية): تحسين البنية والمعاملات معاً (مثل EPDE و PySR)
- القواعد النحوية: قيود نحوية معرّفة من قبل الخبراء
- الطرق البايزية: دمج المعرفة بناءً على التوزيعات المسبقة
- القيود الهيكلية: القيود الصارمة لمكتبات الحدود المعرّفة مسبقاً
تمثل طريقة هذه الورقة تحسيناً على النوع الثاني، من خلال تحقيق التوجيه المرن للمعرفة عبر التوزيعات الاحتمالية.
- فعالية القيود المرنة: إدخال المعرفة الأساسية من خلال التوزيعات الاحتمالية أكثر فعالية من القيود الصارمة
- جدوى استخراج المعرفة الآلي: يمكن لآلية استخراج المعرفة الآلية القائمة على SymNet تحسين أداء البحث
- استفادة أكبر من المعادلات المعقدة: تُظهر الطريقة تأثيراً أكثر وضوحاً في تحسين المعادلات التفاضلية المعقدة
- الحمل الحسابي: يزداد وقت الحساب بشكل كبير مقارنة بـ SINDy
- الاعتماد على التخمين الأولي: تتأثر أداء الطريقة بجودة التخمين الأولي لـ SymNet
- حساسية المعاملات: تتطلب معاملات مثل عامل الخلط ضبطاً دقيقاً
- تحسين الكفاءة الحسابية: تقليل عدد استدعاءات SymNet، تحسين الكفاءة الإجمالية
- تحسين التخمين الأولي: تطوير طرق أكثر دقة للتخمين الأولي للمعادلات
- توسيع نطاق التطبيق: اختبار الطريقة على أنواع معادلات أكثر تنوعاً
- آلية دمج المعرفة المبتكرة: اقتراح طريقة جديدة لاستخدام المعرفة الأساسية من خلال تعديل التوزيعات الاحتمالية بدلاً من القيود الصارمة
- عملية أتمتة كاملة: أتمتة من طرف إلى طرف من استخراج المعرفة إلى اكتشاف المعادلات
- التحقق التجريبي الشامل: اختبار شامل على معادلات كلاسيكية متعددة، بما في ذلك تحليل المتانة ضد الضوضاء
- أساس نظري متين: شرح معقولية الطريقة من منظور الهندسة الاحتمالية
- مشكلة الكفاءة الحسابية: الحمل الحسابي أكبر مقارنة بالطرق الموجودة، مما يحد من التطبيق العملي
- تعقيد الطريقة: تتضمن مكونات متعددة (SymNet و EPDE وحساب التوزيع الاحتمالي)، مما يزيد من صعوبة التنفيذ
- متطلبات ضبط المعاملات: تتطلب معاملات رئيسية مثل عامل الخلط ضبطاً لكل مشكلة محددة
- تحليل نظري محدود: يفتقر إلى الضمانات النظرية للتقارب والأمثلية
- المساهمة الأكاديمية: توفير نموذج جديد لدمج المعرفة في مجال اكتشاف المعادلات التفاضلية
- القيمة العملية: إظهار مزايا في معالجة البيانات المعقدة والضوضائية
- قابلية التكرار: توفير الكود مفتوح المصدر وإعدادات تجريبية مفصلة
هذه الطريقة مناسبة بشكل خاص لـ:
- مهام اكتشاف المعادلات التفاضلية المعقدة
- استعادة المعادلات في بيئات الضوضاء العالية
- سيناريوهات التطبيق التي تتطلب مرونة هيكلية
- الحالات التي توجد فيها معرفة مسبقة جزئية لكن البنية الكاملة غير مؤكدة
تستشهد الورقة بالأعمال الرئيسية في مجال اكتشاف المعادلات التفاضلية، بما في ذلك:
- سلسلة طرق SINDy 8, 10, 26, 28
- سلسلة PDE-Net 12, 32
- خوارزمية EPDE 14, 25, 30, 31
- طرق الانحدار الرمزي 15, 29
- الأعمال ذات الصلة باستخراج المعرفة 1-6, 16-24
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة مبتكرة لاكتشاف المعادلات التفاضلية مع الوعي بالمعرفة. على الرغم من أوجه القصور في الكفاءة الحسابية، فإنها تتمتع بأداء ممتازة من حيث ابتكار الطريقة واكتمال التجارب والفعالية العملية، مما يساهم بقيمة في تطور هذا المجال.