2025-11-13T12:43:11.038101

Knowledge-aware equation discovery with automated background knowledge extraction

Ivanchik, Hvatov

In differential equation discovery algorithms, a priori expert knowledge is mainly used implicitly to constrain the form of the expected equation, making it impossible for the algorithm to truly discover equations. Instead, most differential equation discovery algorithms try to recover the coefficients for a known structure. In this paper, we describe an algorithm that allows the discovery of unknown equations using automatically or manually extracted background knowledge. Instead of imposing rigid constraints, we modify the structure space so that certain terms are likely to appear within the crossover and mutation operators. In this way, we mimic expertly chosen terms while preserving the possibility of obtaining any equation form. The paper shows that the extraction and use of knowledge allows it to outperform the SINDy algorithm in terms of search stability and robustness. Synthetic examples are given for Burgers, wave, and Korteweg--De Vries equations.

academic

Découverte d'équations consciente des connaissances avec extraction automatisée des connaissances de base

Informations de base

ID de l'article : 2501.00444
Titre : Knowledge-aware equation discovery with automated background knowledge extraction
Auteurs : Elizaveta Ivanchik, Alexander Hvatov (Université ITMO)
Classification : cs.AI
Date de publication : 3 janvier 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2501.00444

Résumé

Dans les algorithmes de découverte d'équations différentielles, les connaissances préalables d'experts sont principalement utilisées implicitement pour contraindre la forme des équations attendues, ce qui empêche l'algorithme de découvrir véritablement des équations. Au lieu de cela, la plupart des algorithmes de découverte d'équations différentielles tentent de récupérer les coefficients de structures connues. Cet article décrit un algorithme permettant la découverte d'équations inconnues en utilisant des connaissances de base extraites automatiquement ou manuellement. L'algorithme n'impose pas de contraintes rigides, mais modifie plutôt l'espace des structures, rendant certains termes plus susceptibles d'apparaître dans les opérateurs de croisement et de mutation. De cette manière, l'algorithme simule la sélection de termes par un expert, tout en préservant la possibilité d'obtenir n'importe quelle forme d'équation. Les expériences montrent que l'extraction et l'utilisation des connaissances le rendent supérieur à l'algorithme SINDy en termes de stabilité et de robustesse de la recherche.

Contexte et motivation de la recherche

Définition du problème

La découverte d'équations différentielles est une tâche importante pour extraire des modèles physiques interprétables à partir de données observées. Les méthodes actuelles de découverte d'équations différentielles font face aux problèmes suivants :

Dépendance excessive aux connaissances préalables : Les méthodes existantes comme SINDy contraignent principalement la forme des équations par le biais de bibliothèques de termes prédéfinis, ce qui est essentiellement une récupération de coefficients plutôt qu'une véritable découverte d'équations
Limitations de l'espace des structures : Les méthodes basées sur l'optimisation par gradient ne peuvent rechercher que dans un espace de structures fixe, limitant la capacité à découvrir de nouvelles équations
Utilisation rigide des connaissances : Les méthodes existantes soit n'utilisent pas du tout les connaissances de base, soit imposent des contraintes de structure trop strictes

Motivation de la recherche

La motivation centrale de cet article est de développer un algorithme de découverte d'équations différentielles capable de :

Extraire et utiliser automatiquement les connaissances de base
Guider le processus de recherche tout en maintenant la flexibilité structurelle
Améliorer la stabilité et la robustesse de la découverte d'équations

Contributions principales

Proposition d'un cadre de découverte d'équations conscient des connaissances : Développement d'un algorithme amélioré basé sur EPDE, utilisant les connaissances de base en modifiant les distributions de probabilité plutôt que par des contraintes strictes
Conception d'un mécanisme d'extraction automatisée des connaissances : Génération automatique de suppositions initiales basées sur l'architecture SymNet améliorée, converties en distributions d'importance des termes
Implémentation d'un guidage des connaissances souples : Modification des distributions de probabilité des opérateurs de croisement et de mutation pour guider le processus d'optimisation tout en préservant l'intégrité de l'espace de recherche
Vérification de l'efficacité de la méthode : Les expériences sur l'équation de Burgers, l'équation d'onde et l'équation KdV montrent que la méthode surpasse SINDy en termes de stabilité et de robustesse

Détails de la méthode

Définition de la tâche

Étant donné les données observées $X = \{x^{(i)}\}_{i=1}^N$ sur une grille discrète et les valeurs observées correspondantes $U = \{u^{(i)}\}_{i=1}^N$ , l'objectif est de découvrir le modèle d'équation différentielle décrivant les données :

$M(S, P, x) \rightarrow u(x) : M(S, P, x^{(i)}) \rightarrow u(x_i) \sim u^{(i)}$

où $S$ représente la structure et $P$ représente les paramètres.

Architecture du modèle

1. Algorithme EPDE de base

L'algorithme EPDE utilise des tokens paramétrés comme blocs de construction fondamentaux : $t = t(\pi_1, ..., \pi_n)$

Les tokens se combinent pour former des termes : $T = t_1 \cdot ... \cdot t_{T_{length}}$ , la forme du modèle étant : $M(S, \{C,P\}) = \sum_{j=1}^{N_{terms}} C_j T_j$

2. Améliorations conscientes des connaissances

L'innovation clé réside dans l'introduction d'une distribution d'importance des termes pour guider les opérateurs d'évolution :

Opérateur de croisement amélioré : Sélection des termes participant au croisement selon leur distribution d'importance, plutôt que de manière uniforme.

Opérateur de mutation amélioré :

Remplacement de tokens : Sélection de nouveaux tokens selon la distribution d'importance
Génération de termes : Génération de nouveaux termes utilisant la distribution d'importance

3. Extraction automatisée des connaissances

Utilisation de l'architecture SymNet améliorée pour générer des suppositions initiales :

Modifications de SymNet : Extension de l'architecture originale pour supporter des formes arbitraires de dérivées temporelles : $U_t = F(t, x, U, U_x, U_{xx}, U_{tt}, U_{ttt}, ...)$ $U_{tt} = F(t, x, U, U_x, U_t, U_{xx}, U_{ttt}, ...)$

Calcul de la distribution de probabilité :

Mappage des sorties SymNet vers l'espace des termes EPDE
Application d'un lissage des coefficients (facteur de mélange mf contrôlant)
Normalisation pour obtenir la distribution de probabilité

Points d'innovation technique

Mécanisme de contrainte souple : Introduction des connaissances de base par le biais de distributions de probabilité plutôt que par des contraintes strictes, préservant l'intégrité de l'espace de recherche
Extraction adaptative des connaissances : Extraction automatique de l'importance des termes à partir de suppositions initiales, sans définition manuelle
Ajustement du facteur de mélange : Équilibre de la fiabilité de la supposition initiale par le biais du facteur de mélange, prévenant une dépendance excessive aux suppositions inexactes

Configuration expérimentale

Ensembles de données

Les expériences utilisent cinq équations aux dérivées partielles classiques :

Équation de Burgers (non visqueuse) : $u_t + uu_x = 0$
Équation de Burgers (avec terme visqueux) : $u_t + uu_x - 0.1u_{xx} = 0$
Équation d'onde : $u_{tt} - \frac{1}{25}u_{xx} = 0$
Équation KdV : $u_t + 6uu_x + u_{xxx} = 0$
Équation KdV non homogène : $u_t + 6uu_x + u_{xxx} = \cos t \sin x$

Métriques d'évaluation

Erreur absolue moyenne (MAE) : Calcul de l'erreur entre les coefficients de l'équation découverte et les coefficients réels
Distance de Hamming structurelle (SHD) : Mesure de la différence entre la structure de l'équation découverte et la structure réelle
Taux de réussite : Proportion de découvertes réussies d'équations parmi 50 exécutions
Temps de convergence : Temps nécessaire à l'algorithme pour atteindre la convergence

Méthodes de comparaison

Algorithme EPDE classique : Comme méthode de référence
Cadre PySINDy : Méthode principale actuelle de découverte d'équations différentielles
SymNet : Pour évaluer la qualité des suppositions initiales

Détails d'implémentation

Chaque expérience exécutée 50 fois pour les résultats statistiques
Niveaux de bruit : 0%, 25%, 50%, 75%, 100% (relatif au niveau de bruit limite)
Facteur de mélange : Valeur par défaut 2.4, avec test simultané des valeurs optimisées par divergence KL

Résultats expérimentaux

Résultats principaux

1. Comparaison avec SINDy

Les expériences sur plusieurs équations montrent :

Amélioration de la stabilité : L'algorithme amélioré présente une performance plus stable dans les conditions de bruit élevé
Avantage de précision : Atteint une MAE inférieure dans la plupart des cas
Robustesse accrue : La performance diminue plus lentement avec l'augmentation du bruit

2. Amélioration du taux de réussite

Selon les résultats des tableaux A.3 et A.4 :

Équations complexes : L'amélioration du taux de réussite est la plus significative pour l'équation KdV non homogène, atteignant jusqu'à 72%
Équations simples : L'amélioration est limitée pour les équations simples ayant déjà un taux de réussite élevé
Amélioration moyenne : Amélioration moyenne de la robustesse au bruit de 12,5%, avec une plage de 2% à 32%

3. Consommation de temps

EPDE classique : Environ 5 secondes
Algorithme amélioré : Environ 15 secondes
PySINDy : Environ 0.01 secondes

Expériences d'ablation

Analyse de sensibilité du facteur de mélange

Test de l'impact de différents facteurs de mélange (2.4, 3.0, 3.6, 4.5) :

Le facteur de mélange optimisé par divergence KL présente généralement les meilleures performances
L'ajustement approprié du facteur de mélange peut améliorer davantage le taux de découverte de 30%

Qualité des suppositions initiales de SymNet

La performance de SymNet varie considérablement selon les équations :

Équations simples : Équation de Burgers MAE = 0.0058 ± 0.0008
Équations complexes : Équation KdV non homogène MAE = 0.1497 ± 0.0214

Analyse de cas

Prenant l'équation d'onde comme exemple, l'algorithme amélioré peut découvrir l'équation avec dérivées temporelles du second ordre que PySINDy ne peut pas traiter, démontrant la flexibilité structurelle de la méthode.

Travaux connexes

Classification des méthodes de découverte d'équations

L'article classe les méthodes existantes en deux catégories :

Type I (optimisation par gradient) : Structure fixe, optimisation des paramètres (comme SINDy, PDE-Net)
Type II (programmation génétique) : Optimisation simultanée de la structure et des paramètres (comme EPDE, PySR)

Modes d'intégration des connaissances

Règles syntaxiques : Contraintes syntaxiques définies par les experts
Méthodes bayésiennes : Intégration des connaissances basée sur les distributions a priori
Contraintes structurelles : Contraintes strictes des bibliothèques de termes prédéfinis

La méthode proposée dans cet article est une amélioration du Type II, réalisant un guidage des connaissances souples par le biais de distributions de probabilité.

Conclusions et discussion

Conclusions principales

Efficacité des contraintes souples : L'introduction des connaissances de base par le biais de distributions de probabilité est plus efficace que les contraintes strictes
Faisabilité de l'extraction automatisée des connaissances : Le mécanisme d'extraction automatisée des connaissances basé sur SymNet peut améliorer les performances de recherche
Bénéfices accrus pour les équations complexes : La méthode produit des améliorations plus significatives pour les équations différentielles complexes

Limitations

Surcharge de calcul : Augmentation significative du temps de calcul par rapport à SINDy
Dépendance aux suppositions initiales : Les performances de la méthode sont affectées par la qualité des suppositions initiales de SymNet
Sensibilité aux paramètres : Les paramètres tels que le facteur de mélange nécessitent un ajustement minutieux

Directions futures

Optimisation de l'efficacité de calcul : Réduction du nombre d'appels SymNet, amélioration de l'efficacité globale
Amélioration des suppositions initiales : Développement de méthodes plus précises de supposition d'équations initiales
Extension des domaines d'application : Test de la méthode sur plus de types d'équations

Évaluation approfondie

Avantages

Mécanisme innovant d'intégration des connaissances : Propose une nouvelle approche d'utilisation des connaissances de base en modifiant les distributions de probabilité plutôt que par des contraintes strictes
Processus d'automatisation complet : Automatisation de bout en bout de l'extraction des connaissances à la découverte d'équations
Vérification expérimentale complète : Tests complets sur plusieurs équations classiques, incluant l'analyse de robustesse au bruit
Fondations théoriques solides : Explication de la rationalité de la méthode du point de vue de la géométrie des mesures de probabilité

Insuffisances

Problème d'efficacité de calcul : Surcharge de calcul plus importante par rapport aux méthodes existantes, limitant les applications pratiques
Complexité de la méthode : Implique plusieurs composants (SymNet, EPDE, calcul de distribution de probabilité), augmentant la difficulté d'implémentation
Besoin d'ajustement des paramètres : Les paramètres clés comme le facteur de mélange nécessitent un ajustement pour des problèmes spécifiques
Analyse théorique limitée : Absence de garanties théoriques sur la convergence et l'optimalité

Impact

Contribution académique : Fournit un nouveau paradigme d'intégration des connaissances pour le domaine de la découverte d'équations différentielles
Valeur pratique : Démontre des avantages dans le traitement de données complexes et bruitées
Reproductibilité : Fournit du code open-source et des configurations expérimentales détaillées

Scénarios d'application

Cette méthode est particulièrement adaptée à :

Les tâches de découverte d'équations différentielles complexes
La récupération d'équations dans des environnements à bruit élevé
Les scénarios nécessitant une flexibilité structurelle
Les situations avec des connaissances préalables partielles mais une structure incertaine

Références

L'article cite les travaux principaux du domaine de la découverte d'équations différentielles, incluant :

Méthodes de la série SINDy 8, 10, 26, 28
Série PDE-Net 12, 32
Algorithme EPDE 14, 25, 30, 31
Méthodes de régression symbolique 15, 29
Travaux connexes sur l'extraction de connaissances 1-6, 16-24

Évaluation globale : Ceci est un article de recherche de haute qualité proposant une méthode innovante de découverte d'équations différentielles consciente des connaissances. Bien qu'il présente des insuffisances en termes d'efficacité de calcul, il démontre une excellente performance en termes d'innovation méthodologique, de complétude expérimentale et d'efficacité pratique, apportant une contribution précieuse au développement du domaine.