2025-11-21T19:10:17.554976

DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion

Mashkova, Zhapa-Camacho, Hoehndorf

Ontology embeddings map classes, roles, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several optimization-based embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives and formulated evaluation methods for knowledge base completion. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion.

academic

DELE : Plongements Déductifs $\mathcal{EL}^{++}$ pour la Complétion de Bases de Connaissances

Informations Fondamentales

ID de l'article : 2411.01574
Titre : DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion
Auteurs : Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf
Institution : King Abdullah University of Science and Technology (KAUST)
Classification : cs.AI
Conférence : Numéro Spécial NeSy 2024
Lien de l'article : https://arxiv.org/abs/2411.01574

Résumé

Cet article propose la méthode DELE (Deductive $\mathcal{EL}^{++}$ Embeddings) pour remédier aux limitations des méthodes de plongement d'ontologies en logique de description $\mathcal{EL}^{++}$ dans les tâches de complétion de bases de connaissances. Bien que les méthodes géométriques existantes puissent générer explicitement des modèles d'ontologies, elles présentent deux problèmes critiques : (1) l'incapacité à distinguer les énoncés non prouvables des énoncés réfutables, risquant de traiter les énoncés impliqués comme des exemples négatifs ; (2) l'utilisation insuffisante de la fermeture déductive de l'ontologie pour identifier les énoncés déduits mais non affirmés. Cet article améliore les performances de complétion de bases de connaissances en concevant de nouvelles fonctions de perte négative et des méthodes d'évaluation qui exploitent efficacement la fermeture déductive.

Contexte et Motivation de la Recherche

Définition du Problème

Le plongement d'ontologies vise à mapper les classes, rôles et individus d'une ontologie dans l'espace $\mathbb{R}^n$ afin de calculer la similarité entre entités ou de déduire de nouveaux axiomes. Pour la logique de description $\mathcal{EL}^{++}$ , plusieurs méthodes géométriques basées sur l'optimisation existent, telles que ELEmbeddings, ELBE et Box2EL.

Limitations des Méthodes Existantes

Problème de sélection des exemples négatifs : Lors de la sélection aléatoire d'exemples négatifs, les méthodes existantes peuvent traiter à tort les énoncés vrais impliqués par l'ontologie comme des exemples négatifs, affectant la qualité de l'entraînement du modèle
Utilisation insuffisante de la fermeture déductive : La fermeture déductive, c'est-à-dire l'ensemble de tous les énoncés dérivables, n'est pas suffisamment prise en compte, empêchant une distinction efficace entre les connaissances déduites et les connaissances non affirmées
Limitations des méthodes d'évaluation : Les méthodes d'évaluation existantes proviennent principalement des tâches de complétion de graphes de connaissances et ne tiennent pas compte des relations d'implication riches présentes dans les ontologies

Motivation de la Recherche

La complétion de bases de connaissances est une tâche importante qui nécessite de prédire les axiomes qui devraient être ajoutés à la base de connaissances mais qui ne sont pas encore représentés. Pour les bases de connaissances formalisées, cela inclut deux types : le raisonnement déductif (prédiction des axiomes impliqués) et le raisonnement inductif (prédiction de nouveaux axiomes non impliqués). Cet article vise à améliorer les méthodes géométriques de plongement en exploitant mieux la fermeture déductive.

Contributions Principales

Proposition de fonctions de perte négative tenant compte de la fermeture déductive : Conception de nouvelles fonctions de perte négative pour toutes les formes standard $\mathcal{EL}^{++}$ , évitant de traiter les énoncés impliqués comme des exemples négatifs
Conception d'un algorithme rapide d'approximation du calcul de la fermeture déductive : Proposition d'un algorithme correct pour calculer la fermeture déductive théorique de $\mathcal{EL}^{++}$ , utilisé pour améliorer la sélection des exemples négatifs lors de l'entraînement
Formulation de méthodes d'évaluation tenant compte de la fermeture déductive : Conception de nouvelles métriques d'évaluation pour les tâches de complétion de bases de connaissances, capable de distinguer les performances de prédiction entre axiomes impliqués et non impliqués
Extension de plusieurs méthodes géométriques de plongement : Application des améliorations à trois méthodes représentatives (ELEmbeddings, ELBE et Box2EL), démontrant l'universalité de l'approche

Détails de la Méthode

Définition de la Tâche

La tâche de complétion de bases de connaissances est définie comme suit : étant donnée une ontologie $\mathcal{EL}^{++}$ $T$ , prédire les nouveaux axiomes qui devraient être ajoutés à $T$ . La tâche peut être subdivisée en :

Complétion déductive : Prédiction des axiomes dans la fermeture déductive $T^⊢$ mais non explicitement affirmés dans $T$
Complétion inductive : Prédiction de nouveaux axiomes non présents dans la fermeture déductive

Calcul de la Fermeture Déductive

Formes Normalisées

Les axiomes $\mathcal{EL}^{++}$ peuvent être normalisés en sept formes (voir tableau 1) :

GCI0: $A \sqsubseteq B$
GCI1: $A \sqcap B \sqsubseteq E$
GCI2: $A \sqsubseteq \exists r.B$
GCI3: $\exists r.A \sqsubseteq B$
GCI0-BOT: $A \sqsubseteq \perp$
GCI1-BOT: $A \sqcap B \sqsubseteq \perp$
GCI3-BOT: $\exists r.A \sqsubseteq \perp$

Algorithme de Fermeture Déductive

Cet article propose deux algorithmes pour calculer une approximation de la fermeture déductive :

Algorithme 1 : Basé sur les axiomes explicitement représentés dans l'ontologie, utilisant des règles d'inférence pour déduire les axiomes impliqués. Par exemple :

A ⊓ B ⊑ E, A' ⊑ A, B' ⊑ B, E ⊑ E'
─────────────────────────────────────
         A' ⊓ B' ⊑ E'

Algorithme 2 : Basé sur des noms de concepts et de rôles arbitraires, ajoutant les axiomes logiquement nécessaires, tels que $A \sqcap \perp \sqsubseteq E$ .

Conception de la Fonction de Perte Négative

Perte Négative ELEmbeddings

Pour les plongements sphériques, six nouvelles fonctions de perte négative ont été conçues :

Perte Négative GCI0 (basée sur GCI1-BOT) : $\text{loss}_{A \not\sqsubseteq B}(a,b) = \max(0, r_\eta(a) + r_\eta(b) - \|f_\eta(a) - f_\eta(b)\| + \gamma)$
Perte Négative GCI1 : $\text{loss}_{A \sqcap B \not\sqsubseteq E}(a,b,e) = \max(0, -r_\eta(a) - r_\eta(b) + \|f_\eta(a) - f_\eta(b)\| - \gamma) + \text{autres termes}$

Des fonctions de perte négative correspondantes ont été conçues de manière similaire pour ELBE (plongement en boîtes) et Box2EL.

Filtrage des Exemples Négatifs

Pendant l'entraînement, les exemples négatifs générés aléatoirement sont filtrés :

Calcul de la fermeture déductive de l'ontologie d'entraînement
Vérification si les exemples négatifs candidats se trouvent dans la fermeture déductive
Si présents dans la fermeture, suppression des exemples négatifs

Configuration Expérimentale

Ensembles de Données

Données Gene Ontology & STRING :
- Prédiction d'interactions protéine-protéine (PPI)
- Prédiction de fonctions protéiques
- Basées sur des données de protéines de levure
Ontologie Alimentaire : Utilisée pour la prédiction de relations de sous-classe
Ontologie GALEN : Ontologie de concepts médicaux, utilisée pour la prédiction de relations de sous-classe

Métriques d'Évaluation

Hits@n (n=10,100) : Précision des n premiers classements
Mean Rank (MR) : Classement moyen (macro et micro)
AUC ROC : Aire sous la courbe ROC
Métriques filtrées : Métriques après suppression des axiomes dans l'ensemble d'entraînement et la fermeture déductive

Méthodes de Comparaison

Méthodes de base : ELEmbeddings, ELBE, Box2EL originaux
Versions améliorées :
- +l : Ajout de pertes négatives pour toutes les formes standard
- +l+n : Ajout de pertes négatives et filtrage des exemples négatifs

Détails d'Implémentation

Utilisation de la bibliothèque mOWL
Nombre d'itérations d'entraînement : 2000 pour les données STRING & GO, 800 pour les données Food & GALEN
Taille de lot : 32 768
Optimiseur : Adam, planificateur de taux d'apprentissage : ReduceLROnPlateau
Hyperparamètres déterminés par recherche en grille

Résultats Expérimentaux

Résultats Principaux

Prédiction d'Interactions Protéine-Protéine (Tableau 4)

ELEmbeddings+l+n : Hits@10 amélioré de 0,05 à 0,06, Hits@100 amélioré de 0,31 à 0,37
Box2EL+l+n : Réduction significative du classement moyen tout en maintenant les performances Hits@100

Prédiction de Fonctions Protéiques (Tableau 3)

Box2EL : Meilleures performances avec Hits@10 atteignant 0,28 et AUC atteignant 0,96
Après ajout de pertes négatives, l'AUC d'ELEmbeddings et ELBE s'est amélioré

Prédiction de Relations de Sous-classe

Ontologie Alimentaire (Tableau 5) : ELBE+l amélioré de 0,01 à 0,04 en Hits@10
Ontologie GALEN (Tableau 6) : Toutes les méthodes ont montré des améliorations en métriques Hits@n après ajout de pertes négatives

Études d'Ablation

Effet du Filtrage des Exemples Négatifs

Grâce à des expériences biaisées sur l'Ontologie Alimentaire (Figure 3) :

La réduction de la proportion d'axiomes impliqués dans les exemples négatifs améliore continuellement les performances
L'effet du filtrage est plus prononcé lorsque la proportion d'axiomes impliqués dans les exemples négatifs est élevée

Analyse de Visualisation

La visualisation des plongements 2D (Figures 1-2) montre :

Après ajout de toutes les pertes négatives, le modèle préserve mieux la structure logique de l'ontologie
Le filtrage des exemples négatifs aide à construire des modèles géométriques plus fidèles

Analyse des Métriques Filtrées

En comparant les différences de métriques avant et après filtrage (colonnes NF-F) :

Les méthodes améliorées priorisent la prédiction des axiomes impliqués
Cela indique que le modèle construit une représentation d'ontologie plus précise

Travaux Connexes

Plongements d'Ontologies Basés sur Graphes

Projection d'ontologies en structures graphiques, utilisant Word2Vec ou des méthodes de plongement de graphes de connaissances
Avantages : Capacité à traiter les informations de voisinage
Inconvénients : Difficulté à traiter les opérateurs logiques, incapacité à approximer les modèles d'ontologies

Plongements Géométriques d'Ontologies

ELEmbeddings : Représentation de concepts utilisant des hypersphères
ELBE/BoxEL : Utilisation de boîtes alignées sur les axes, support des opérations d'intersection
Box2EL : Représentation des rôles utilisant deux boîtes pour le domaine et la portée
EmEL++/EmELvar : Extension pour traiter les chaînes de rôles et l'inclusion de rôles

Méthodes de Complétion de Bases de Connaissances

Méthodes basées sur les grands modèles de langage (HalTon, raisonnement en langage naturel, etc.)
Méthodes de prédiction de liens basées sur la structure graphique
Méthodes de plongement d'ontologies basées sur les matrices

Conclusions et Discussion

Conclusions Principales

Importance de la fermeture déductive : L'exploitation complète de la fermeture déductive peut améliorer significativement les performances des méthodes géométriques de plongement
Impact de la qualité des exemples négatifs : Éviter de traiter les énoncés impliqués comme des exemples négatifs est crucial pour l'entraînement du modèle
Amélioration des méthodes d'évaluation : Les méthodes d'évaluation tenant compte de la fermeture déductive peuvent mieux refléter la capacité de complétion de bases de connaissances du modèle
Universalité de la méthode : Les stratégies d'amélioration s'appliquent à plusieurs méthodes géométriques de plongement

Limitations

Complexité de calcul : Le calcul de la fermeture déductive peut présenter des problèmes d'efficacité sur les ontologies à grande échelle
Algorithme d'approximation : L'algorithme de fermeture déductive proposé est correct mais incomplet
Limitations d'évaluation : Les métriques d'évaluation existantes restent basées sur le classement d'axiomes individuels, sans tenir compte de la similarité sémantique
Portée d'application : Principalement orienté vers $\mathcal{EL}^{++}$ , avec une extensibilité limitée aux logiques de description plus expressives

Directions Futures

Développement d'algorithmes plus efficaces pour le calcul de la fermeture déductive
Conception de métriques d'évaluation tenant compte de la similarité sémantique
Extension à des logiques de description plus expressives
Construction de plus de jeux de données de référence pour la complétion de bases de connaissances

Évaluation Approfondie

Points Forts

Identification précise du problème : Identification exacte des problèmes clés des méthodes existantes en matière de sélection d'exemples négatifs et d'utilisation de la fermeture déductive
Conception méthodologique rationnelle : Les fonctions de perte négative et les stratégies de filtrage proposées sont théoriquement bien motivées
Expériences complètes : Validation de l'efficacité de la méthode sur plusieurs ensembles de données et tâches, incluant l'analyse de visualisation
Contributions théoriques : Fourniture d'un algorithme correct pour le calcul de la fermeture déductive, ayant une valeur théorique
Forte universalité : Les stratégies d'amélioration s'appliquent à plusieurs méthodes géométriques de plongement

Insuffisances

Améliorations de performance limitées : Les améliorations sur certaines tâches sont modestes, pouvant ne pas justifier la complexité supplémentaire
Surcharge de calcul : Le calcul de la fermeture déductive et le filtrage des exemples négatifs augmentent le temps d'entraînement, mais l'article n'analyse pas suffisamment cette surcharge
Ensembles de données de référence : Les ensembles de données utilisés sont relativement petits, l'efficacité des applications à grande échelle reste à vérifier
Comparaisons insuffisantes : Manque de comparaisons avec les méthodes récentes de complétion de bases de connaissances basées sur les LLM

Impact

Valeur académique : Fournit des idées d'amélioration importantes pour le domaine des plongements géométriques d'ontologies
Valeur pratique : Les méthodes améliorées peuvent être directement appliquées à la complétion de bases de connaissances dans les domaines biomédicaux
Reproductibilité : Le code et les données sont publiquement disponibles, facilitant la reproduction et l'extension

Scénarios d'Application

Bases de connaissances formalisées : Particulièrement adaptées aux ontologies avec des structures logiques riches
Domaine biomédical : Performances satisfaisantes dans les tâches telles que la prédiction de fonctions de gènes et de protéines
Applications nécessitant l'explicabilité : Les plongements géométriques fournissent des structures de modèles explicables

Références

L'article cite 50 articles connexes, couvrant les travaux importants dans les domaines de la logique de description, des plongements d'ontologies et de la complétion de graphes de connaissances, fournissant une base théorique solide pour la recherche.

DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion

DELE : Plongements Déductifs EL++\mathcal{EL}^{++}EL++ pour la Complétion de Bases de Connaissances

DELE : Plongements Déductifs $\mathcal{EL}^{++}$ pour la Complétion de Bases de Connaissances