2025-11-13T12:43:11.038101

Knowledge-aware equation discovery with automated background knowledge extraction

Ivanchik, Hvatov
In differential equation discovery algorithms, a priori expert knowledge is mainly used implicitly to constrain the form of the expected equation, making it impossible for the algorithm to truly discover equations. Instead, most differential equation discovery algorithms try to recover the coefficients for a known structure. In this paper, we describe an algorithm that allows the discovery of unknown equations using automatically or manually extracted background knowledge. Instead of imposing rigid constraints, we modify the structure space so that certain terms are likely to appear within the crossover and mutation operators. In this way, we mimic expertly chosen terms while preserving the possibility of obtaining any equation form. The paper shows that the extraction and use of knowledge allows it to outperform the SINDy algorithm in terms of search stability and robustness. Synthetic examples are given for Burgers, wave, and Korteweg--De Vries equations.
academic

Découverte d'équations consciente des connaissances avec extraction automatisée des connaissances de base

Informations de base

  • ID de l'article : 2501.00444
  • Titre : Knowledge-aware equation discovery with automated background knowledge extraction
  • Auteurs : Elizaveta Ivanchik, Alexander Hvatov (Université ITMO)
  • Classification : cs.AI
  • Date de publication : 3 janvier 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2501.00444

Résumé

Dans les algorithmes de découverte d'équations différentielles, les connaissances préalables d'experts sont principalement utilisées implicitement pour contraindre la forme des équations attendues, ce qui empêche l'algorithme de découvrir véritablement des équations. Au lieu de cela, la plupart des algorithmes de découverte d'équations différentielles tentent de récupérer les coefficients de structures connues. Cet article décrit un algorithme permettant la découverte d'équations inconnues en utilisant des connaissances de base extraites automatiquement ou manuellement. L'algorithme n'impose pas de contraintes rigides, mais modifie plutôt l'espace des structures, rendant certains termes plus susceptibles d'apparaître dans les opérateurs de croisement et de mutation. De cette manière, l'algorithme simule la sélection de termes par un expert, tout en préservant la possibilité d'obtenir n'importe quelle forme d'équation. Les expériences montrent que l'extraction et l'utilisation des connaissances le rendent supérieur à l'algorithme SINDy en termes de stabilité et de robustesse de la recherche.

Contexte et motivation de la recherche

Définition du problème

La découverte d'équations différentielles est une tâche importante pour extraire des modèles physiques interprétables à partir de données observées. Les méthodes actuelles de découverte d'équations différentielles font face aux problèmes suivants :

  1. Dépendance excessive aux connaissances préalables : Les méthodes existantes comme SINDy contraignent principalement la forme des équations par le biais de bibliothèques de termes prédéfinis, ce qui est essentiellement une récupération de coefficients plutôt qu'une véritable découverte d'équations
  2. Limitations de l'espace des structures : Les méthodes basées sur l'optimisation par gradient ne peuvent rechercher que dans un espace de structures fixe, limitant la capacité à découvrir de nouvelles équations
  3. Utilisation rigide des connaissances : Les méthodes existantes soit n'utilisent pas du tout les connaissances de base, soit imposent des contraintes de structure trop strictes

Motivation de la recherche

La motivation centrale de cet article est de développer un algorithme de découverte d'équations différentielles capable de :

  • Extraire et utiliser automatiquement les connaissances de base
  • Guider le processus de recherche tout en maintenant la flexibilité structurelle
  • Améliorer la stabilité et la robustesse de la découverte d'équations

Contributions principales

  1. Proposition d'un cadre de découverte d'équations conscient des connaissances : Développement d'un algorithme amélioré basé sur EPDE, utilisant les connaissances de base en modifiant les distributions de probabilité plutôt que par des contraintes strictes
  2. Conception d'un mécanisme d'extraction automatisée des connaissances : Génération automatique de suppositions initiales basées sur l'architecture SymNet améliorée, converties en distributions d'importance des termes
  3. Implémentation d'un guidage des connaissances souples : Modification des distributions de probabilité des opérateurs de croisement et de mutation pour guider le processus d'optimisation tout en préservant l'intégrité de l'espace de recherche
  4. Vérification de l'efficacité de la méthode : Les expériences sur l'équation de Burgers, l'équation d'onde et l'équation KdV montrent que la méthode surpasse SINDy en termes de stabilité et de robustesse

Détails de la méthode

Définition de la tâche

Étant donné les données observées X={x(i)}i=1NX = \{x^{(i)}\}_{i=1}^N sur une grille discrète et les valeurs observées correspondantes U={u(i)}i=1NU = \{u^{(i)}\}_{i=1}^N, l'objectif est de découvrir le modèle d'équation différentielle décrivant les données :

M(S,P,x)u(x):M(S,P,x(i))u(xi)u(i)M(S, P, x) \rightarrow u(x) : M(S, P, x^{(i)}) \rightarrow u(x_i) \sim u^{(i)}

SS représente la structure et PP représente les paramètres.

Architecture du modèle

1. Algorithme EPDE de base

L'algorithme EPDE utilise des tokens paramétrés comme blocs de construction fondamentaux : t=t(π1,...,πn)t = t(\pi_1, ..., \pi_n)

Les tokens se combinent pour former des termes : T=t1...tTlengthT = t_1 \cdot ... \cdot t_{T_{length}}, la forme du modèle étant : M(S,{C,P})=j=1NtermsCjTjM(S, \{C,P\}) = \sum_{j=1}^{N_{terms}} C_j T_j

2. Améliorations conscientes des connaissances

L'innovation clé réside dans l'introduction d'une distribution d'importance des termes pour guider les opérateurs d'évolution :

Opérateur de croisement amélioré : Sélection des termes participant au croisement selon leur distribution d'importance, plutôt que de manière uniforme.

Opérateur de mutation amélioré :

  • Remplacement de tokens : Sélection de nouveaux tokens selon la distribution d'importance
  • Génération de termes : Génération de nouveaux termes utilisant la distribution d'importance

3. Extraction automatisée des connaissances

Utilisation de l'architecture SymNet améliorée pour générer des suppositions initiales :

Modifications de SymNet : Extension de l'architecture originale pour supporter des formes arbitraires de dérivées temporelles : Ut=F(t,x,U,Ux,Uxx,Utt,Uttt,...)U_t = F(t, x, U, U_x, U_{xx}, U_{tt}, U_{ttt}, ...)Utt=F(t,x,U,Ux,Ut,Uxx,Uttt,...)U_{tt} = F(t, x, U, U_x, U_t, U_{xx}, U_{ttt}, ...)

Calcul de la distribution de probabilité :

  1. Mappage des sorties SymNet vers l'espace des termes EPDE
  2. Application d'un lissage des coefficients (facteur de mélange mf contrôlant)
  3. Normalisation pour obtenir la distribution de probabilité

Points d'innovation technique

  1. Mécanisme de contrainte souple : Introduction des connaissances de base par le biais de distributions de probabilité plutôt que par des contraintes strictes, préservant l'intégrité de l'espace de recherche
  2. Extraction adaptative des connaissances : Extraction automatique de l'importance des termes à partir de suppositions initiales, sans définition manuelle
  3. Ajustement du facteur de mélange : Équilibre de la fiabilité de la supposition initiale par le biais du facteur de mélange, prévenant une dépendance excessive aux suppositions inexactes

Configuration expérimentale

Ensembles de données

Les expériences utilisent cinq équations aux dérivées partielles classiques :

  1. Équation de Burgers (non visqueuse) : ut+uux=0u_t + uu_x = 0
  2. Équation de Burgers (avec terme visqueux) : ut+uux0.1uxx=0u_t + uu_x - 0.1u_{xx} = 0
  3. Équation d'onde : utt125uxx=0u_{tt} - \frac{1}{25}u_{xx} = 0
  4. Équation KdV : ut+6uux+uxxx=0u_t + 6uu_x + u_{xxx} = 0
  5. Équation KdV non homogène : ut+6uux+uxxx=costsinxu_t + 6uu_x + u_{xxx} = \cos t \sin x

Métriques d'évaluation

  1. Erreur absolue moyenne (MAE) : Calcul de l'erreur entre les coefficients de l'équation découverte et les coefficients réels
  2. Distance de Hamming structurelle (SHD) : Mesure de la différence entre la structure de l'équation découverte et la structure réelle
  3. Taux de réussite : Proportion de découvertes réussies d'équations parmi 50 exécutions
  4. Temps de convergence : Temps nécessaire à l'algorithme pour atteindre la convergence

Méthodes de comparaison

  • Algorithme EPDE classique : Comme méthode de référence
  • Cadre PySINDy : Méthode principale actuelle de découverte d'équations différentielles
  • SymNet : Pour évaluer la qualité des suppositions initiales

Détails d'implémentation

  • Chaque expérience exécutée 50 fois pour les résultats statistiques
  • Niveaux de bruit : 0%, 25%, 50%, 75%, 100% (relatif au niveau de bruit limite)
  • Facteur de mélange : Valeur par défaut 2.4, avec test simultané des valeurs optimisées par divergence KL

Résultats expérimentaux

Résultats principaux

1. Comparaison avec SINDy

Les expériences sur plusieurs équations montrent :

  • Amélioration de la stabilité : L'algorithme amélioré présente une performance plus stable dans les conditions de bruit élevé
  • Avantage de précision : Atteint une MAE inférieure dans la plupart des cas
  • Robustesse accrue : La performance diminue plus lentement avec l'augmentation du bruit

2. Amélioration du taux de réussite

Selon les résultats des tableaux A.3 et A.4 :

  • Équations complexes : L'amélioration du taux de réussite est la plus significative pour l'équation KdV non homogène, atteignant jusqu'à 72%
  • Équations simples : L'amélioration est limitée pour les équations simples ayant déjà un taux de réussite élevé
  • Amélioration moyenne : Amélioration moyenne de la robustesse au bruit de 12,5%, avec une plage de 2% à 32%

3. Consommation de temps

  • EPDE classique : Environ 5 secondes
  • Algorithme amélioré : Environ 15 secondes
  • PySINDy : Environ 0.01 secondes

Expériences d'ablation

Analyse de sensibilité du facteur de mélange

Test de l'impact de différents facteurs de mélange (2.4, 3.0, 3.6, 4.5) :

  • Le facteur de mélange optimisé par divergence KL présente généralement les meilleures performances
  • L'ajustement approprié du facteur de mélange peut améliorer davantage le taux de découverte de 30%

Qualité des suppositions initiales de SymNet

La performance de SymNet varie considérablement selon les équations :

  • Équations simples : Équation de Burgers MAE = 0.0058 ± 0.0008
  • Équations complexes : Équation KdV non homogène MAE = 0.1497 ± 0.0214

Analyse de cas

Prenant l'équation d'onde comme exemple, l'algorithme amélioré peut découvrir l'équation avec dérivées temporelles du second ordre que PySINDy ne peut pas traiter, démontrant la flexibilité structurelle de la méthode.

Travaux connexes

Classification des méthodes de découverte d'équations

L'article classe les méthodes existantes en deux catégories :

  1. Type I (optimisation par gradient) : Structure fixe, optimisation des paramètres (comme SINDy, PDE-Net)
  2. Type II (programmation génétique) : Optimisation simultanée de la structure et des paramètres (comme EPDE, PySR)

Modes d'intégration des connaissances

  • Règles syntaxiques : Contraintes syntaxiques définies par les experts
  • Méthodes bayésiennes : Intégration des connaissances basée sur les distributions a priori
  • Contraintes structurelles : Contraintes strictes des bibliothèques de termes prédéfinis

La méthode proposée dans cet article est une amélioration du Type II, réalisant un guidage des connaissances souples par le biais de distributions de probabilité.

Conclusions et discussion

Conclusions principales

  1. Efficacité des contraintes souples : L'introduction des connaissances de base par le biais de distributions de probabilité est plus efficace que les contraintes strictes
  2. Faisabilité de l'extraction automatisée des connaissances : Le mécanisme d'extraction automatisée des connaissances basé sur SymNet peut améliorer les performances de recherche
  3. Bénéfices accrus pour les équations complexes : La méthode produit des améliorations plus significatives pour les équations différentielles complexes

Limitations

  1. Surcharge de calcul : Augmentation significative du temps de calcul par rapport à SINDy
  2. Dépendance aux suppositions initiales : Les performances de la méthode sont affectées par la qualité des suppositions initiales de SymNet
  3. Sensibilité aux paramètres : Les paramètres tels que le facteur de mélange nécessitent un ajustement minutieux

Directions futures

  1. Optimisation de l'efficacité de calcul : Réduction du nombre d'appels SymNet, amélioration de l'efficacité globale
  2. Amélioration des suppositions initiales : Développement de méthodes plus précises de supposition d'équations initiales
  3. Extension des domaines d'application : Test de la méthode sur plus de types d'équations

Évaluation approfondie

Avantages

  1. Mécanisme innovant d'intégration des connaissances : Propose une nouvelle approche d'utilisation des connaissances de base en modifiant les distributions de probabilité plutôt que par des contraintes strictes
  2. Processus d'automatisation complet : Automatisation de bout en bout de l'extraction des connaissances à la découverte d'équations
  3. Vérification expérimentale complète : Tests complets sur plusieurs équations classiques, incluant l'analyse de robustesse au bruit
  4. Fondations théoriques solides : Explication de la rationalité de la méthode du point de vue de la géométrie des mesures de probabilité

Insuffisances

  1. Problème d'efficacité de calcul : Surcharge de calcul plus importante par rapport aux méthodes existantes, limitant les applications pratiques
  2. Complexité de la méthode : Implique plusieurs composants (SymNet, EPDE, calcul de distribution de probabilité), augmentant la difficulté d'implémentation
  3. Besoin d'ajustement des paramètres : Les paramètres clés comme le facteur de mélange nécessitent un ajustement pour des problèmes spécifiques
  4. Analyse théorique limitée : Absence de garanties théoriques sur la convergence et l'optimalité

Impact

  1. Contribution académique : Fournit un nouveau paradigme d'intégration des connaissances pour le domaine de la découverte d'équations différentielles
  2. Valeur pratique : Démontre des avantages dans le traitement de données complexes et bruitées
  3. Reproductibilité : Fournit du code open-source et des configurations expérimentales détaillées

Scénarios d'application

Cette méthode est particulièrement adaptée à :

  • Les tâches de découverte d'équations différentielles complexes
  • La récupération d'équations dans des environnements à bruit élevé
  • Les scénarios nécessitant une flexibilité structurelle
  • Les situations avec des connaissances préalables partielles mais une structure incertaine

Références

L'article cite les travaux principaux du domaine de la découverte d'équations différentielles, incluant :

  • Méthodes de la série SINDy 8, 10, 26, 28
  • Série PDE-Net 12, 32
  • Algorithme EPDE 14, 25, 30, 31
  • Méthodes de régression symbolique 15, 29
  • Travaux connexes sur l'extraction de connaissances 1-6, 16-24

Évaluation globale : Ceci est un article de recherche de haute qualité proposant une méthode innovante de découverte d'équations différentielles consciente des connaissances. Bien qu'il présente des insuffisances en termes d'efficacité de calcul, il démontre une excellente performance en termes d'innovation méthodologique, de complétude expérimentale et d'efficacité pratique, apportant une contribution précieuse au développement du domaine.