2025-11-13T12:43:11.038101

Knowledge-aware equation discovery with automated background knowledge extraction

Ivanchik, Hvatov

In differential equation discovery algorithms, a priori expert knowledge is mainly used implicitly to constrain the form of the expected equation, making it impossible for the algorithm to truly discover equations. Instead, most differential equation discovery algorithms try to recover the coefficients for a known structure. In this paper, we describe an algorithm that allows the discovery of unknown equations using automatically or manually extracted background knowledge. Instead of imposing rigid constraints, we modify the structure space so that certain terms are likely to appear within the crossover and mutation operators. In this way, we mimic expertly chosen terms while preserving the possibility of obtaining any equation form. The paper shows that the extraction and use of knowledge allows it to outperform the SINDy algorithm in terms of search stability and robustness. Synthetic examples are given for Burgers, wave, and Korteweg--De Vries equations.

academic

ज्ञान-सचेत समीकरण खोज स्वचालित पृष्ठभूमि ज्ञान निष्कर्षण के साथ

बुनियादी जानकारी

पेपर ID: 2501.00444
शीर्षक: Knowledge-aware equation discovery with automated background knowledge extraction
लेखक: Elizaveta Ivanchik, Alexander Hvatov (ITMO विश्वविद्यालय)
वर्गीकरण: cs.AI
प्रकाशन समय: 3 जनवरी 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2501.00444

सारांश

अवकल समीकरण खोज एल्गोरिदम में, पूर्व विशेषज्ञ ज्ञान मुख्य रूप से अपेक्षित समीकरण के रूप को सीमित करने के लिए निहित रूप से उपयोग किया जाता है, जिससे एल्गोरिदम वास्तविक समीकरण खोज नहीं कर सकता। इसके बजाय, अधिकांश अवकल समीकरण खोज एल्गोरिदम ज्ञात संरचना के गुणांकों को पुनः प्राप्त करने का प्रयास करते हैं। यह पेपर एक ऐसा एल्गोरिदम वर्णित करता है जो स्वचालित या मैनुअल रूप से निकाले गए पृष्ठभूमि ज्ञान का उपयोग करके अज्ञात समीकरणों की खोज की अनुमति देता है। एल्गोरिदम कठोर बाधाएं नहीं लगाता, बल्कि संरचना स्थान को संशोधित करता है, जिससे कुछ पद क्रॉसओवर और उत्परिवर्तन ऑपरेटरों में अधिक संभावित हो जाते हैं। इस तरीके से, एल्गोरिदम विशेषज्ञ द्वारा चुने गए पदों का अनुकरण करता है, जबकि किसी भी समीकरण रूप को प्राप्त करने की संभावना को बनाए रखता है। प्रयोग दर्शाते हैं कि ज्ञान का निष्कर्षण और उपयोग इसे SINDy एल्गोरिदम से खोज स्थिरता और मजबूतता में बेहतर बनाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

अवकल समीकरण खोज अवलोकन डेटा से व्याख्यायोग्य भौतिक मॉडल निकालने का एक महत्वपूर्ण कार्य है। वर्तमान अवकल समीकरण खोज विधियों को मुख्य रूप से निम्नलिखित समस्याओं का सामना करना पड़ता है:

पूर्व ज्ञान पर अत्यधिक निर्भरता: SINDy जैसी मौजूदा विधियां मुख्य रूप से पूर्वनिर्धारित पद पुस्तकालय के माध्यम से समीकरण रूप को सीमित करती हैं, जो वास्तव में गुणांक पुनः प्राप्ति है न कि वास्तविक समीकरण खोज
संरचना स्थान सीमा: ढाल अनुकूलन पर आधारित विधियां केवल निश्चित संरचना स्थान के भीतर खोज कर सकती हैं, जो नए समीकरण खोजने की क्षमता को सीमित करती है
ज्ञान उपयोग का कठोर तरीका: मौजूदा विधियां या तो पृष्ठभूमि ज्ञान का उपयोग बिल्कुल नहीं करती हैं या बहुत सख्त संरचना बाधाएं लागू करती हैं

अनुसंधान प्रेरणा

इस पेपर की मूल प्रेरणा एक ऐसा एल्गोरिदम विकसित करना है जो:

पृष्ठभूमि ज्ञान को स्वचालित रूप से निकाल सके और उपयोग कर सके
संरचना लचीलेपन को बनाए रखते हुए खोज प्रक्रिया को निर्देशित कर सके
समीकरण खोज की स्थिरता और मजबूतता में सुधार कर सके

मुख्य योगदान

ज्ञान-सचेत समीकरण खोज ढांचा प्रस्तावित किया: EPDE पर आधारित एक सुधारा हुआ एल्गोरिदम विकसित किया, जो कठोर बाधाओं के बजाय संभाव्यता वितरण को संशोधित करके पृष्ठभूमि ज्ञान का उपयोग करता है
स्वचालित ज्ञान निष्कर्षण तंत्र डिजाइन किया: सुधारे गए SymNet आर्किटेक्चर के आधार पर स्वचालित रूप से प्रारंभिक अनुमान उत्पन्न करता है और इसे पद महत्व वितरण में परिवर्तित करता है
नरम ज्ञान मार्गदर्शन लागू किया: क्रॉसओवर और उत्परिवर्तन ऑपरेटरों के संभाव्यता वितरण को संशोधित करके, खोज स्थान की पूर्णता को बनाए रखते हुए अनुकूलन प्रक्रिया को निर्देशित करता है
विधि की प्रभावशीलता सत्यापित की: Burgers समीकरण, तरंग समीकरण और KdV समीकरण पर प्रयोग दर्शाते हैं कि यह विधि स्थिरता और मजबूतता के मामले में SINDy से बेहतर है

विधि विवरण

कार्य परिभाषा

असतत ग्रिड पर अवलोकन डेटा $X = \{x^{(i)}\}_{i=1}^N$ और संबंधित अवलोकन मान $U = \{u^{(i)}\}_{i=1}^N$ दिए गए, लक्ष्य डेटा का वर्णन करने वाले अवकल समीकरण मॉडल की खोज करना है:

$M(S, P, x) \rightarrow u(x) : M(S, P, x^{(i)}) \rightarrow u(x_i) \sim u^{(i)}$

जहां $S$ संरचना को दर्शाता है, $P$ पैरामीटर को दर्शाता है।

मॉडल आर्किटेक्चर

1. बुनियादी EPDE एल्गोरिदम

EPDE एल्गोरिदम पैरामीटरकृत टोकन को बुनियादी निर्माण खंड के रूप में उपयोग करता है: $t = t(\pi_1, ..., \pi_n)$

टोकन संयोजन पद बनाते हैं: $T = t_1 \cdot ... \cdot t_{T_{length}}$ , मॉडल रूप है: $M(S, \{C,P\}) = \sum_{j=1}^{N_{terms}} C_j T_j$

2. ज्ञान-सचेत सुधार

मुख्य नवाचार विकास ऑपरेटरों को निर्देशित करने के लिए पद महत्व वितरण को शामिल करना है:

सुधारा गया क्रॉसओवर ऑपरेटर: पद के महत्व वितरण के अनुसार क्रॉसओवर में भाग लेने वाले पदों का चयन करता है, न कि समान रूप से।

सुधारा गया उत्परिवर्तन ऑपरेटर:

टोकन प्रतिस्थापन: महत्व वितरण के अनुसार नए टोकन का चयन करता है
पद उत्पादन: महत्व वितरण का उपयोग करके नए पद उत्पन्न करता है

3. स्वचालित ज्ञान निष्कर्षण

प्रारंभिक अनुमान उत्पन्न करने के लिए सुधारे गए SymNet आर्किटेक्चर का उपयोग करता है:

SymNet संशोधन: मनमाने समय व्युत्पन्न रूपों का समर्थन करने के लिए मूल आर्किटेक्चर का विस्तार करता है: $U_t = F(t, x, U, U_x, U_{xx}, U_{tt}, U_{ttt}, ...)$ $U_{tt} = F(t, x, U, U_x, U_t, U_{xx}, U_{ttt}, ...)$

संभाव्यता वितरण गणना:

SymNet आउटपुट को EPDE पद स्थान में मैप करता है
गुणांक स्मूथिंग प्रक्रिया लागू करता है (मिश्रण कारक mf नियंत्रण)
संभाव्यता वितरण प्राप्त करने के लिए सामान्यीकृत करता है

तकनीकी नवाचार बिंदु

नरम बाधा तंत्र: कठोर बाधाओं के बजाय संभाव्यता वितरण के माध्यम से पृष्ठभूमि ज्ञान को शामिल करता है, खोज स्थान की पूर्णता को बनाए रखता है
अनुकूली ज्ञान निष्कर्षण: प्रारंभिक अनुमान से पद महत्व को स्वचालित रूप से निकालता है, मैनुअल परिभाषा की आवश्यकता नहीं
मिश्रण कारक समायोजन: प्रारंभिक अनुमान की विश्वसनीयता को संतुलित करने के लिए मिश्रण कारक के माध्यम से, अनुचित अनुमान पर अत्यधिक निर्भरता को रोकता है

प्रयोग सेटअप

डेटासेट

प्रयोग पाँच शास्त्रीय आंशिक अवकल समीकरणों का उपयोग करते हैं:

Burgers समीकरण (बिना चिपचिपाहट): $u_t + uu_x = 0$
Burgers समीकरण (चिपचिपाहट पद के साथ): $u_t + uu_x - 0.1u_{xx} = 0$
तरंग समीकरण: $u_{tt} - \frac{1}{25}u_{xx} = 0$
KdV समीकरण: $u_t + 6uu_x + u_{xxx} = 0$
अ-सजातीय KdV समीकरण: $u_t + 6uu_x + u_{xxx} = \cos t \sin x$

मूल्यांकन मेट्रिक्स

माध्य निरपेक्ष त्रुटि (MAE): खोजे गए समीकरण गुणांकों और वास्तविक गुणांकों के बीच त्रुटि की गणना करता है
संरचना हैमिंग दूरी (SHD): खोजे गए समीकरण संरचना और वास्तविक संरचना के बीच अंतर को मापता है
सफलता दर: 50 चलाने में समीकरण खोजने में सफल होने का अनुपात
अभिसरण समय: एल्गोरिदम को अभिसरण तक पहुंचने के लिए आवश्यक समय

तुलना विधियां

शास्त्रीय EPDE एल्गोरिदम: आधार विधि के रूप में
PySINDy ढांचा: वर्तमान मुख्यधारा की अवकल समीकरण खोज विधि
SymNet: प्रारंभिक अनुमान गुणवत्ता का मूल्यांकन करने के लिए

कार्यान्वयन विवरण

प्रत्येक प्रयोग 50 बार चलाया जाता है सांख्यिकीय परिणाम लेने के लिए
शोर स्तर: 0%, 25%, 50%, 75%, 100% (सीमा शोर स्तर के सापेक्ष)
मिश्रण कारक: डिफ़ॉल्ट मान 2.4, साथ ही KL विचलन अनुकूलन के माध्यम से परीक्षित मान

प्रयोग परिणाम

मुख्य परिणाम

1. SINDy के साथ तुलना

कई समीकरणों पर प्रयोग दर्शाते हैं:

स्थिरता में सुधार: सुधारा हुआ एल्गोरिदम उच्च शोर स्थितियों में अधिक स्थिर प्रदर्शन करता है
सटीकता लाभ: अधिकांश मामलों में कम MAE प्राप्त करता है
मजबूतता में वृद्धि: शोर बढ़ने पर प्रदर्शन अधिक धीरे-धीरे गिरता है

2. सफलता दर में वृद्धि

तालिका A.3 और A.4 के परिणामों के अनुसार:

जटिल समीकरण: अ-सजातीय KdV समीकरण की सफलता दर में सबसे अधिक वृद्धि, अधिकतम 72% तक
सरल समीकरण: पहले से ही उच्च सफलता दर वाले सरल समीकरणों के लिए, वृद्धि सीमित है
औसत वृद्धि: शोर मजबूतता में औसत 12.5% वृद्धि, 2%-32% की सीमा

3. समय खपत

शास्त्रीय EPDE: लगभग 5 सेकंड
सुधारा हुआ एल्गोरिदम: लगभग 15 सेकंड
PySINDy: लगभग 0.01 सेकंड

विलोपन प्रयोग

मिश्रण कारक संवेदनशीलता विश्लेषण

विभिन्न मिश्रण कारकों (2.4, 3.0, 3.6, 4.5) के प्रभाव का परीक्षण किया:

KL विचलन अनुकूलन के माध्यम से प्राप्त मिश्रण कारक आमतौर पर सर्वश्रेष्ठ प्रदर्शन करता है
उपयुक्त मिश्रण कारक समायोजन खोज दर में अतिरिक्त 30% सुधार कर सकता है

SymNet प्रारंभिक अनुमान गुणवत्ता

SymNet विभिन्न समीकरणों पर महत्वपूर्ण रूप से भिन्न प्रदर्शन करता है:

सरल समीकरण: Burgers समीकरण MAE = 0.0058 ± 0.0008
जटिल समीकरण: अ-सजातीय KdV समीकरण MAE = 0.1497 ± 0.0214

केस विश्लेषण

तरंग समीकरण के उदाहरण के रूप में, सुधारा हुआ एल्गोरिदम दूसरे क्रम के समय व्युत्पन्न समीकरण की खोज कर सकता है जो PySINDy नहीं कर सकता, विधि की संरचना लचीलेपन को प्रदर्शित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

नरम बाधा प्रभावी: संभाव्यता वितरण के माध्यम से पृष्ठभूमि ज्ञान को शामिल करना कठोर बाधाओं से अधिक प्रभावी है
स्वचालित ज्ञान निष्कर्षण व्यवहार्य: SymNet पर आधारित स्वचालित ज्ञान निष्कर्षण तंत्र खोज प्रदर्शन में सुधार कर सकता है
जटिल समीकरण अधिक लाभान्वित: विधि जटिल अवकल समीकरणों में सुधार प्रभाव अधिक स्पष्ट है

सीमाएं

कम्प्यूटेशनल ओवरहेड: SINDy की तुलना में, कम्प्यूटेशनल समय में महत्वपूर्ण वृद्धि
प्रारंभिक अनुमान निर्भरता: विधि प्रदर्शन SymNet प्रारंभिक अनुमान गुणवत्ता से प्रभावित है
पैरामीटर संवेदनशीलता: मिश्रण कारक जैसे महत्वपूर्ण पैरामीटरों को सावधानीपूर्वक समायोजन की आवश्यकता है

भविष्य की दिशाएं

कम्प्यूटेशनल दक्षता अनुकूलन: SymNet कॉल की संख्या को कम करता है, समग्र दक्षता में सुधार करता है
प्रारंभिक अनुमान में सुधार: अधिक सटीक प्रारंभिक समीकरण अनुमान विधि विकसित करता है
अनुप्रयोग क्षेत्र का विस्तार: अधिक प्रकार के समीकरणों पर विधि प्रभाव का परीक्षण करता है

गहन मूल्यांकन

लाभ

नवाचारी ज्ञान एकीकरण तंत्र: कठोर बाधाओं के बजाय संभाव्यता वितरण को संशोधित करके पृष्ठभूमि ज्ञान का उपयोग करने का नया विचार प्रस्तावित करता है
पूर्ण स्वचालन प्रक्रिया: ज्ञान निष्कर्षण से समीकरण खोज तक अंत-से-अंत स्वचालन
व्यापक प्रयोग सत्यापन: कई शास्त्रीय समीकरणों पर व्यापक परीक्षण, शोर मजबूतता विश्लेषण सहित
ठोस सैद्धांतिक आधार: संभाव्यता माप ज्यामिति के दृष्टिकोण से विधि की तर्कसंगतता की व्याख्या करता है

कमियां

कम्प्यूटेशनल दक्षता समस्या: मौजूदा विधियों की तुलना में कम्प्यूटेशनल ओवरहेड अधिक, व्यावहारिक अनुप्रयोग को सीमित करता है
विधि जटिलता: कई घटक (SymNet, EPDE, संभाव्यता वितरण गणना) शामिल है, कार्यान्वयन कठिनाई बढ़ाता है
पैरामीटर समायोजन आवश्यकता: मिश्रण कारक जैसे महत्वपूर्ण पैरामीटरों को विशिष्ट समस्या के लिए समायोजन की आवश्यकता है
सीमित सैद्धांतिक विश्लेषण: अभिसरण और इष्टतमता के सैद्धांतिक गारंटी की कमी

प्रभाव

शैक्षणिक योगदान: अवकल समीकरण खोज क्षेत्र के लिए ज्ञान एकीकरण का नया प्रतिमान प्रदान करता है
व्यावहारिक मूल्य: जटिल, उच्च शोर डेटा को संभालते समय लाभ प्रदर्शित करता है
पुनरुत्पादनीयता: खुला स्रोत कोड और विस्तृत प्रयोग सेटअप प्रदान करता है

लागू परिदृश्य

यह विधि विशेष रूप से उपयुक्त है:

जटिल अवकल समीकरणों की खोज कार्य
उच्च शोर वातावरण में समीकरण पुनः प्राप्ति
संरचना लचीलेपन की आवश्यकता वाले अनुप्रयोग परिदृश्य
आंशिक पूर्व ज्ञान है लेकिन पूर्ण संरचना अनिश्चित है

संदर्भ

पेपर अवकल समीकरण खोज क्षेत्र के मुख्य कार्यों का हवाला देता है, जिसमें शामिल हैं:

SINDy श्रृंखला विधियां 8, 10, 26, 28
PDE-Net श्रृंखला 12, 32
EPDE एल्गोरिदम 14, 25, 30, 31
प्रतीकात्मक प्रतिगमन विधियां 15, 29
ज्ञान निष्कर्षण संबंधित कार्य 1-6, 16-24

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुसंधान पेपर है जो ज्ञान-सचेत अवकल समीकरण खोज के लिए एक नवाचारी विधि प्रस्तावित करता है। हालांकि कम्प्यूटेशनल दक्षता के मामले में कमियां हैं, लेकिन इसके विधि नवाचार, प्रयोग पूर्णता और व्यावहारिक प्रभाव के मामले में उत्कृष्ट प्रदर्शन करता है, जो इस क्षेत्र के विकास में मूल्यवान योगदान देता है।