2025-11-13T12:43:11.038101

Knowledge-aware equation discovery with automated background knowledge extraction

Ivanchik, Hvatov

In differential equation discovery algorithms, a priori expert knowledge is mainly used implicitly to constrain the form of the expected equation, making it impossible for the algorithm to truly discover equations. Instead, most differential equation discovery algorithms try to recover the coefficients for a known structure. In this paper, we describe an algorithm that allows the discovery of unknown equations using automatically or manually extracted background knowledge. Instead of imposing rigid constraints, we modify the structure space so that certain terms are likely to appear within the crossover and mutation operators. In this way, we mimic expertly chosen terms while preserving the possibility of obtaining any equation form. The paper shows that the extraction and use of knowledge allows it to outperform the SINDy algorithm in terms of search stability and robustness. Synthetic examples are given for Burgers, wave, and Korteweg--De Vries equations.

academic

اكتشاف المعادلات مع الوعي بالمعرفة والاستخراج الآلي للمعرفة الأساسية

المعلومات الأساسية

معرّف الورقة: 2501.00444
العنوان: اكتشاف المعادلات مع الوعي بالمعرفة والاستخراج الآلي للمعرفة الأساسية
المؤلفون: إليزافيتا إيفانتشيك، ألكسندر خفاتوف (جامعة ITMO)
التصنيف: cs.AI
تاريخ النشر: 3 يناير 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2501.00444

الملخص

في خوارزميات اكتشاف المعادلات التفاضلية، يتم استخدام المعرفة الخبيرة المسبقة بشكل ضمني بشكل أساسي لتقييد شكل المعادلات المتوقعة، مما يحول دون اكتشاف حقيقي للمعادلات. بدلاً من ذلك، تحاول معظم خوارزميات اكتشاف المعادلات التفاضلية استعادة معاملات البنية المعروفة. تصف هذه الورقة خوارزمية تسمح باكتشاف معادلات مجهولة باستخدام معرفة أساسية مستخرجة تلقائياً أو يدوياً. بدلاً من فرض قيود صارمة، تعدل الخوارزمية فضاء البنية بحيث تصبح بعض الحدود أكثر احتمالاً في ظهورها في عمليات التقاطع والطفرة. بهذه الطريقة، تحاكي الخوارزمية اختيار الخبير للحدود مع الحفاظ على إمكانية الحصول على أي شكل معادلة. تُظهر التجارب أن استخراج واستخدام المعرفة يجعلها متفوقة على خوارزمية SINDy من حيث استقرار البحث والمتانة.

الخلفية البحثية والدافع

تعريف المشكلة

اكتشاف المعادلات التفاضلية مهمة مهمة لاستخراج نماذج فيزيائية قابلة للتفسير من البيانات المرصودة. تواجه طرق اكتشاف المعادلات التفاضلية الحالية المشاكل الرئيسية التالية:

الاعتماد المفرط على المعرفة المسبقة: تعتمد الطرق الموجودة مثل SINDy بشكل أساسي على مكتبات الحدود المعرّفة مسبقاً لتقييد شكل المعادلة، وهي في الواقع استعادة معاملات وليست اكتشافاً حقيقياً للمعادلات
قيود فضاء البنية: يمكن للطرق المستندة إلى التحسين المستند إلى التدرج البحث فقط في فضاء بنية ثابت، مما يحد من القدرة على اكتشاف معادلات جديدة
طريقة استخدام المعرفة الجامدة: إما أن الطرق الموجودة لا تستخدم المعرفة الأساسية على الإطلاق أو تفرض قيوداً هيكلية صارمة جداً

الدافع البحثي

الدافع الأساسي لهذه الورقة هو تطوير خوارزمية اكتشاف معادلات تفاضلية قادرة على:

استخراج واستخدام المعرفة الأساسية تلقائياً
توجيه عملية البحث مع الحفاظ على المرونة الهيكلية
تحسين استقرار واستتباب اكتشاف المعادلات

المساهمات الأساسية

اقتراح إطار عمل لاكتشاف المعادلات مع الوعي بالمعرفة: تطوير خوارزمية محسّنة قائمة على EPDE تستخدم المعرفة الأساسية من خلال تعديل التوزيعات الاحتمالية بدلاً من القيود الصارمة
تصميم آلية استخراج معرفة آلية: استخراج تلقائي للتخمينات الأولية بناءً على بنية SymNet المحسّنة وتحويلها إلى توزيع أهمية الحدود
تنفيذ التوجيه المرن للمعرفة: من خلال تعديل التوزيعات الاحتمالية لعمليات التقاطع والطفرة، توجيه عملية التحسين مع الحفاظ على سلامة فضاء البحث
التحقق من فعالية الطريقة: تُظهر التجارب على معادلة Burgers وموجة KdV أن الطريقة متفوقة على SINDy من حيث الاستقرار والمتانة

شرح الطريقة

تعريف المهمة

بالنظر إلى البيانات المرصودة على شبكة منفصلة $X = \{x^{(i)}\}_{i=1}^N$ والقيم المرصودة المقابلة $U = \{u^{(i)}\}_{i=1}^N$ ، الهدف هو اكتشاف نموذج المعادلة التفاضلية التي تصف البيانات:

$M(S, P, x) \rightarrow u(x) : M(S, P, x^{(i)}) \rightarrow u(x_i) \sim u^{(i)}$

حيث يمثل $S$ البنية و $P$ يمثل المعاملات.

معمارية النموذج

1. خوارزمية EPDE الأساسية

تستخدم خوارزمية EPDE الرموز المعاملية كوحدات بناء أساسية: $t = t(\pi_1, ..., \pi_n)$

تشكل مجموعات الرموز حدوداً: $T = t_1 \cdot ... \cdot t_{T_{length}}$ ، وشكل النموذج هو: $M(S, \{C,P\}) = \sum_{j=1}^{N_{terms}} C_j T_j$

2. التحسينات مع الوعي بالمعرفة

الابتكار الرئيسي يكمن في إدخال توزيع أهمية الحدود لتوجيه عمليات التطور:

عملية التقاطع المحسّنة: اختيار الحدود المشاركة في التقاطع وفقاً لتوزيع أهمية الحدود، بدلاً من الاختيار المنتظم.

عملية الطفرة المحسّنة:

استبدال الرموز: اختيار رموز جديدة وفقاً لتوزيع الأهمية
توليد الحدود: استخدام توزيع الأهمية لتوليد حدود جديدة

3. استخراج المعرفة الآلي

استخدام بنية SymNet المحسّنة لتوليد التخمينات الأولية:

تعديلات SymNet: توسيع البنية الأصلية لدعم أشكال مشتقات زمنية تعسفية: $U_t = F(t, x, U, U_x, U_{xx}, U_{tt}, U_{ttt}, ...)$ $U_{tt} = F(t, x, U, U_x, U_t, U_{xx}, U_{ttt}, ...)$

حساب التوزيع الاحتمالي:

تعيين مخرجات SymNet إلى فضاء حدود EPDE
تطبيق معالجة تمويه المعاملات (عامل الخلط mf يتحكم)
التطبيع للحصول على توزيع احتمالي

نقاط الابتكار التقني

آلية القيود المرنة: إدخال المعرفة الأساسية من خلال التوزيعات الاحتمالية بدلاً من القيود الصارمة، مع الحفاظ على سلامة فضاء البحث
استخراج المعرفة التكيفي: استخراج أهمية الحدود تلقائياً من التخمينات الأولية دون الحاجة إلى تعريف يدوي
تنظيم عامل الخلط: موازنة موثوقية التخمين الأولي من خلال عامل الخلط، لمنع الاعتماد المفرط على التخمينات غير الدقيقة

إعداد التجارب

مجموعات البيانات

تستخدم التجارب خمس معادلات تفاضلية جزئية كلاسيكية:

معادلة Burgers (بدون لزوجة): $u_t + uu_x = 0$
معادلة Burgers (مع حد اللزوجة): $u_t + uu_x - 0.1u_{xx} = 0$
معادلة الموجة: $u_{tt} - \frac{1}{25}u_{xx} = 0$
معادلة KdV: $u_t + 6uu_x + u_{xxx} = 0$
معادلة KdV غير المتجانسة: $u_t + 6uu_x + u_{xxx} = \cos t \sin x$

مؤشرات التقييم

متوسط الخطأ المطلق (MAE): حساب الخطأ بين معاملات المعادلة المكتشفة والمعاملات الحقيقية
مسافة هامينج الهيكلية (SHD): قياس الفرق بين بنية المعادلة المكتشفة والبنية الحقيقية
معدل النجاح: نسبة المرات التي تم فيها اكتشاف المعادلة بنجاح من بين 50 تشغيل
وقت التقارب: الوقت المطلوب للخوارزمية للوصول إلى التقارب

طرق المقارنة

خوارزمية EPDE الكلاسيكية: كطريقة أساسية
إطار عمل PySINDy: الطريقة الرائدة الحالية لاكتشاف المعادلات التفاضلية
SymNet: لتقييم جودة التخمين الأولي

تفاصيل التنفيذ

تشغيل كل تجربة 50 مرة للحصول على النتائج الإحصائية
مستويات الضوضاء: 0%، 25%، 50%، 75%، 100% (نسبة إلى مستوى الضوضاء الحد الأقصى)
عامل الخلط: القيمة الافتراضية 2.4، مع اختبار القيم المحسّنة من خلال تباعد KL

نتائج التجارب

النتائج الرئيسية

1. المقارنة مع SINDy

تُظهر التجارب على معادلات متعددة:

تحسن الاستقرار: تُظهر الخوارزمية المحسّنة استقراراً أفضل في ظروف الضوضاء العالية
مزايا الدقة: تحقق دقة MAE أقل في معظم الحالات
تعزيز المتانة: تنخفض الأداء بشكل أبطأ مع زيادة الضوضاء

2. تحسن معدل النجاح

وفقاً لنتائج الجداول A.3 و A.4:

المعادلات المعقدة: يكون تحسن معدل النجاح أكثر وضوحاً لمعادلة KdV غير المتجانسة، ويصل إلى 72%
المعادلات البسيطة: التحسن محدود للمعادلات البسيطة التي تتمتع بالفعل بمعدل نجاح عالي
متوسط التحسن: متوسط تحسن المتانة ضد الضوضاء 12.5%، يتراوح بين 2% و 32%

3. استهلاك الوقت

EPDE الكلاسيكية: حوالي 5 ثوان
الخوارزمية المحسّنة: حوالي 15 ثانية
PySINDy: حوالي 0.01 ثانية

تجارب الاستئصال

تحليل حساسية عامل الخلط

اختبار تأثير عوامل خلط مختلفة (2.4، 3.0، 3.6، 4.5):

عامل الخلط المحسّن من خلال تباعد KL يُظهر عادة أفضل أداء
يمكن لتعديل عامل الخلط المناسب أن يحسّن معدل الاكتشاف بنسبة 30% إضافية

جودة التخمين الأولي لـ SymNet

يختلف أداء SymNet بشكل كبير عبر معادلات مختلفة:

المعادلات البسيطة: معادلة Burgers MAE = 0.0058 ± 0.0008
المعادلات المعقدة: معادلة KdV غير المتجانسة MAE = 0.1497 ± 0.0214

تحليل الحالات

بأخذ معادلة الموجة كمثال، يمكن للخوارزمية المحسّنة اكتشاف معادلات المشتقات الزمنية من الدرجة الثانية التي لا يمكن لـ PySINDy التعامل معها، مما يعكس المرونة الهيكلية للطريقة.

الأعمال ذات الصلة

تصنيف طرق اكتشاف المعادلات

تصنف الورقة الطرق الموجودة إلى فئتين:

النوع الأول (التحسين المستند إلى التدرج): بنية ثابتة، تحسين المعاملات (مثل SINDy و PDE-Net)
النوع الثاني (البرمجة الجينية): تحسين البنية والمعاملات معاً (مثل EPDE و PySR)

طرق دمج المعرفة

القواعد النحوية: قيود نحوية معرّفة من قبل الخبراء
الطرق البايزية: دمج المعرفة بناءً على التوزيعات المسبقة
القيود الهيكلية: القيود الصارمة لمكتبات الحدود المعرّفة مسبقاً

تمثل طريقة هذه الورقة تحسيناً على النوع الثاني، من خلال تحقيق التوجيه المرن للمعرفة عبر التوزيعات الاحتمالية.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية القيود المرنة: إدخال المعرفة الأساسية من خلال التوزيعات الاحتمالية أكثر فعالية من القيود الصارمة
جدوى استخراج المعرفة الآلي: يمكن لآلية استخراج المعرفة الآلية القائمة على SymNet تحسين أداء البحث
استفادة أكبر من المعادلات المعقدة: تُظهر الطريقة تأثيراً أكثر وضوحاً في تحسين المعادلات التفاضلية المعقدة

القيود

الحمل الحسابي: يزداد وقت الحساب بشكل كبير مقارنة بـ SINDy
الاعتماد على التخمين الأولي: تتأثر أداء الطريقة بجودة التخمين الأولي لـ SymNet
حساسية المعاملات: تتطلب معاملات مثل عامل الخلط ضبطاً دقيقاً

الاتجاهات المستقبلية

تحسين الكفاءة الحسابية: تقليل عدد استدعاءات SymNet، تحسين الكفاءة الإجمالية
تحسين التخمين الأولي: تطوير طرق أكثر دقة للتخمين الأولي للمعادلات
توسيع نطاق التطبيق: اختبار الطريقة على أنواع معادلات أكثر تنوعاً

التقييم المتعمق

المزايا

آلية دمج المعرفة المبتكرة: اقتراح طريقة جديدة لاستخدام المعرفة الأساسية من خلال تعديل التوزيعات الاحتمالية بدلاً من القيود الصارمة
عملية أتمتة كاملة: أتمتة من طرف إلى طرف من استخراج المعرفة إلى اكتشاف المعادلات
التحقق التجريبي الشامل: اختبار شامل على معادلات كلاسيكية متعددة، بما في ذلك تحليل المتانة ضد الضوضاء
أساس نظري متين: شرح معقولية الطريقة من منظور الهندسة الاحتمالية

أوجه القصور

مشكلة الكفاءة الحسابية: الحمل الحسابي أكبر مقارنة بالطرق الموجودة، مما يحد من التطبيق العملي
تعقيد الطريقة: تتضمن مكونات متعددة (SymNet و EPDE وحساب التوزيع الاحتمالي)، مما يزيد من صعوبة التنفيذ
متطلبات ضبط المعاملات: تتطلب معاملات رئيسية مثل عامل الخلط ضبطاً لكل مشكلة محددة
تحليل نظري محدود: يفتقر إلى الضمانات النظرية للتقارب والأمثلية

التأثير

المساهمة الأكاديمية: توفير نموذج جديد لدمج المعرفة في مجال اكتشاف المعادلات التفاضلية
القيمة العملية: إظهار مزايا في معالجة البيانات المعقدة والضوضائية
قابلية التكرار: توفير الكود مفتوح المصدر وإعدادات تجريبية مفصلة

السيناريوهات المناسبة

هذه الطريقة مناسبة بشكل خاص لـ:

مهام اكتشاف المعادلات التفاضلية المعقدة
استعادة المعادلات في بيئات الضوضاء العالية
سيناريوهات التطبيق التي تتطلب مرونة هيكلية
الحالات التي توجد فيها معرفة مسبقة جزئية لكن البنية الكاملة غير مؤكدة

المراجع

تستشهد الورقة بالأعمال الرئيسية في مجال اكتشاف المعادلات التفاضلية، بما في ذلك:

سلسلة طرق SINDy 8, 10, 26, 28
سلسلة PDE-Net 12, 32
خوارزمية EPDE 14, 25, 30, 31
طرق الانحدار الرمزي 15, 29
الأعمال ذات الصلة باستخراج المعرفة 1-6, 16-24

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة مبتكرة لاكتشاف المعادلات التفاضلية مع الوعي بالمعرفة. على الرغم من أوجه القصور في الكفاءة الحسابية، فإنها تتمتع بأداء ممتازة من حيث ابتكار الطريقة واكتمال التجارب والفعالية العملية، مما يساهم بقيمة في تطور هذا المجال.