2025-11-21T19:10:17.554976

DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion

Mashkova, Zhapa-Camacho, Hoehndorf

Ontology embeddings map classes, roles, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several optimization-based embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives and formulated evaluation methods for knowledge base completion. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion.

academic

DELE: Deduktive $\mathcal{EL}^{++}$ Einbettungen für die Wissensbasisvervollständigung

Grundinformationen

Paper-ID: 2411.01574
Titel: DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion
Autoren: Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf
Institution: King Abdullah University of Science and Technology (KAUST)
Klassifizierung: cs.AI
Konferenz: NeSy 2024 Special Issue
Paper-Link: https://arxiv.org/abs/2411.01574

Zusammenfassung

Dieses Paper adressiert die Einschränkungen von Ontologie-Einbettungsmethoden für die Beschreibungslogik $\mathcal{EL}^{++}$ bei der Wissensbasisvervollständigung und schlägt die DELE-Methode (Deductive $\mathcal{EL}^{++}$ Embeddings) vor. Obwohl bestehende geometrische Einbettungsmethoden explizit Ontologie-Modelle generieren können, weisen sie zwei kritische Probleme auf: (1) Sie können nicht zwischen unbeweisbaren und widerlegbaren Aussagen unterscheiden und können implizierte Aussagen möglicherweise als negative Beispiele verwenden; (2) Sie nutzen den deduktiven Abschluss der Ontologie nicht ausreichend, um abgeleitete, aber nicht explizit behauptete Aussagen zu identifizieren. Dieses Paper verbessert die Wissensbasisvervollständigung durch die Gestaltung neuer negativer Verlustfunktionen und Bewertungsmethoden, die den deduktiven Abschluss effektiv nutzen.

Forschungshintergrund und Motivation

Problemdefinition

Die Ontologie-Einbettung zielt darauf ab, Klassen, Rollen und Individuen in einer Ontologie in den Raum $\mathbb{R}^n$ abzubilden, um die Ähnlichkeit zwischen Entitäten zu berechnen oder neue Axiome abzuleiten. Für die Beschreibungslogik $\mathcal{EL}^{++}$ existieren bereits mehrere optimierungsbasierte geometrische Einbettungsmethoden wie ELEmbeddings, ELBE und Box2EL.

Einschränkungen bestehender Methoden

Problem der Negativbeispielauswahl: Bei der zufälligen Auswahl von Negativbeispielen können bestehende Methoden echte Aussagen, die in der Ontologie impliziert sind, fälschlicherweise als negative Beispiele behandeln und die Trainingsqualität des Modells beeinträchtigen
Unzureichende Nutzung des deduktiven Abschlusses: Der deduktive Abschluss der Ontologie, d.h. die Menge aller ableitbaren Aussagen, wird nicht ausreichend berücksichtigt, was es unmöglich macht, zwischen abgeleiteten und nicht behaupteten Wissen effektiv zu unterscheiden
Einschränkungen der Bewertungsmethoden: Bestehende Bewertungsmethoden stammen hauptsächlich aus Wissensgraph-Vervollständigungsaufgaben und berücksichtigen nicht die reichen Implikationsbeziehungen in Ontologien

Forschungsmotivation

Die Wissensbasisvervollständigung ist eine wichtige Aufgabe, die die Vorhersage von Axiomen erfordert, die der Wissensbasis hinzugefügt werden sollten, aber noch nicht dargestellt sind. Für formalisierte Wissensbases umfasst dies zwei Arten: deduktive Inferenz (Vorhersage implizierter Axiome) und induktive Inferenz (Vorhersage neuer, nicht implizierter Axiome). Dieses Paper zielt darauf ab, geometrische Einbettungsmethoden durch bessere Nutzung des deduktiven Abschlusses zu verbessern.

Kernbeiträge

Vorschlag von Negativverlustfunktionen unter Berücksichtigung des deduktiven Abschlusses: Neue Negativverlustfunktionen für alle $\mathcal{EL}^{++}$ -Standardformen wurden entworfen, um zu vermeiden, dass implizierte Aussagen als negative Beispiele verwendet werden
Entwurf eines schnellen Näherungsalgorithmus zur Berechnung des deduktiven Abschlusses: Ein korrekter Algorithmus zur Berechnung des theoretischen deduktiven Abschlusses von $\mathcal{EL}^{++}$ wurde vorgeschlagen, um die Negativbeispielauswahl während des Trainings zu verbessern
Formulierung von Bewertungsmethoden unter Berücksichtigung des deduktiven Abschlusses: Neue Bewertungsmetriken für Wissensbasisvervollständigungsaufgaben wurden entworfen, die die Vorhersageleistung für implizierte und nicht implizierte Axiome unterscheiden können
Erweiterung mehrerer geometrischer Einbettungsmethoden: Die Verbesserungen wurden auf drei repräsentative Methoden (ELEmbeddings, ELBE und Box2EL) angewendet und ihre Allgemeingültigkeit nachgewiesen

Methodische Details

Aufgabendefinition

Die Wissensbasisvervollständigungsaufgabe wird wie folgt definiert: Gegeben eine $\mathcal{EL}^{++}$ -Ontologie $T$ , neue Axiome vorhersagen, die zu $T$ hinzugefügt werden sollten. Die Aufgabe kann weiter unterteilt werden in:

Deduktive Vervollständigung: Vorhersage von Axiomen im deduktiven Abschluss $T^⊢$ , die nicht explizit in $T$ behauptet sind
Induktive Vervollständigung: Vorhersage neuer Axiome, die nicht im deduktiven Abschluss enthalten sind

Berechnung des deduktiven Abschlusses

Standardisierte Formen

$\mathcal{EL}^{++}$ -Axiome können in sieben Formen standardisiert werden (siehe Tabelle 1):

GCI0: $A \sqsubseteq B$
GCI1: $A \sqcap B \sqsubseteq E$
GCI2: $A \sqsubseteq \exists r.B$
GCI3: $\exists r.A \sqsubseteq B$
GCI0-BOT: $A \sqsubseteq \perp$
GCI1-BOT: $A \sqcap B \sqsubseteq \perp$
GCI3-BOT: $\exists r.A \sqsubseteq \perp$

Algorithmus für den deduktiven Abschluss

Dieses Paper schlägt zwei Algorithmen vor, um eine Näherung des deduktiven Abschlusses zu berechnen:

Algorithmus 1: Basierend auf explizit in der Ontologie dargestellten Axiomen werden Inferenzregeln verwendet, um implizierte Axiome abzuleiten. Beispiel:

A ⊓ B ⊑ E, A' ⊑ A, B' ⊑ B, E ⊑ E'
─────────────────────────────────────
         A' ⊓ B' ⊑ E'

Algorithmus 2: Basierend auf beliebigen Konzept- und Rollennamen werden logisch notwendige Axiome hinzugefügt, wie z.B. $A \sqcap \perp \sqsubseteq E$ .

Entwurf der Negativverlustfunktion

Negativverlust für ELEmbeddings

Für sphärische Einbettungen wurden sechs neue Negativverlustfunktionen entworfen:

GCI0-Negativverlust (basierend auf GCI1-BOT): $\text{loss}_{A \not\sqsubseteq B}(a,b) = \max(0, r_\eta(a) + r_\eta(b) - \|f_\eta(a) - f_\eta(b)\| + \gamma)$
GCI1-Negativverlust: $\text{loss}_{A \sqcap B \not\sqsubseteq E}(a,b,e) = \max(0, -r_\eta(a) - r_\eta(b) + \|f_\eta(a) - f_\eta(b)\| - \gamma) + \text{weitere Terme}$

Entsprechende Negativverlustfunktionen wurden für ELBE (Box-Einbettung) und Box2EL entworfen.

Filterung von Negativbeispielen

Während des Trainings werden zufällig generierte Negativbeispiele gefiltert:

Berechnung des deduktiven Abschlusses der Trainingsontologie
Überprüfung, ob Kandidaten-Negativbeispiele im deduktiven Abschluss enthalten sind
Falls enthalten, werden sie aus den Negativbeispielen entfernt

Experimentelle Einrichtung

Datensätze

Gene Ontology & STRING-Daten:
- Vorhersage von Protein-Protein-Interaktionen (PPI)
- Vorhersage von Proteinfunktionen
- Basierend auf Hefepoteindaten
Food Ontology: Verwendet für Subklassen-Beziehungsvorhersage
GALEN Ontology: Medizinische Konzeptontologie für Subklassen-Beziehungsvorhersage

Bewertungsmetriken

Hits@n (n=10,100): Genauigkeit der Top-n-Rangfolge
Mean Rank (MR): Durchschnittliche Rangfolge (Makro und Mikro)
AUC ROC: Fläche unter der ROC-Kurve
Gefilterte Metriken: Metriken nach Entfernung von Axiomen aus Trainingsmenge und deduktivem Abschluss

Vergleichsmethoden

Baseline-Methoden: Original ELEmbeddings, ELBE, Box2EL
Verbesserte Versionen:
- +l: Hinzufügen von Negativverlustfunktionen für alle Standardformen
- +l+n: Hinzufügen von Negativverlustfunktionen und Filterung von Negativbeispielen

Implementierungsdetails

Verwendung der mOWL-Bibliothek
Trainingsrunden: 2000 für STRING & GO-Daten, 800 für Food & GALEN-Daten
Batch-Größe: 32.768
Optimierer: Adam, Lernraten-Scheduler: ReduceLROnPlateau
Hyperparameter durch Gittersuche bestimmt

Experimentelle Ergebnisse

Hauptergebnisse

Vorhersage von Protein-Protein-Interaktionen (Tabelle 4)

ELEmbeddings+l+n: Hits@10 von 0,05 auf 0,06 verbessert, Hits@100 von 0,31 auf 0,37
Box2EL+l+n: Durchschnittliche Rangfolge deutlich reduziert, während Hits@100-Leistung beibehalten wird

Vorhersage von Proteinfunktionen (Tabelle 3)

Box2EL zeigt beste Leistung: Hits@10 erreicht 0,28, AUC erreicht 0,96
Nach Hinzufügen von Negativverlustfunktionen verbessert sich die AUC von ELEmbeddings und ELBE

Vorhersage von Subklassen-Beziehungen

Food Ontology (Tabelle 5): ELBE+l verbessert Hits@10 von 0,01 auf 0,04
GALEN Ontology (Tabelle 6): Alle Methoden zeigen verbesserte Hits@n-Metriken nach Hinzufügen von Negativverlustfunktionen

Ablationsstudien

Effektivität der Negativbeispielfilterung

Durch Bias-Experimente auf Food Ontology (Abbildung 3) wurde festgestellt:

Die Reduzierung des Anteils implizierter Axiome in Negativbeispielen führt zu kontinuierlichen Leistungsverbesserungen
Der Filterungseffekt ist ausgeprägter, wenn der Anteil implizierter Axiome in Negativbeispielen höher ist

Visualisierungsanalyse

Die 2D-Einbettungsvisualisierung (Abbildungen 1-2) zeigt:

Nach Hinzufügen aller Negativverlustfunktionen kann das Modell die logische Struktur der Ontologie besser bewahren
Die Filterung von Negativbeispielen trägt zur Konstruktion eines treueren geometrischen Modells bei

Analyse gefilterte Metriken

Durch Vergleich der Metrikdifferenzen vor und nach Filterung (NF-F-Spalten) wurde festgestellt:

Die verbesserte Methode priorisiert die Vorhersage implizierter Axiome
Dies zeigt, dass das Modell ein genaueres Ontologie-Modell konstruiert hat

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Bedeutung des deduktiven Abschlusses: Die vollständige Nutzung des deduktiven Abschlusses kann die Leistung geometrischer Einbettungsmethoden erheblich verbessern
Auswirkung der Negativbeispielqualität: Die Vermeidung, implizierte Aussagen als Negativbeispiele zu verwenden, ist entscheidend für das Modelltraining
Verbesserung der Bewertungsmethoden: Bewertungsmethoden, die den deduktiven Abschluss berücksichtigen, können die Fähigkeit des Modells zur Wissensbasisvervollständigung genauer widerspiegeln
Allgemeingültigkeit der Methode: Die Verbesserungsstrategien sind auf mehrere geometrische Einbettungsmethoden anwendbar

Einschränkungen

Rechenkomplexität: Die Berechnung des deduktiven Abschlusses kann bei großen Ontologien Effizienzprobleme aufweisen
Näherungsalgorithmen: Die vorgeschlagenen Algorithmen für den deduktiven Abschluss sind korrekt, aber nicht vollständig
Bewertungseinschränkungen: Bestehende Bewertungsmetriken basieren immer noch auf einzelnem Axiom-Ranking und berücksichtigen keine semantische Ähnlichkeit
Anwendungsbereich: Hauptsächlich auf $\mathcal{EL}^{++}$ ausgerichtet, begrenzte Erweiterbarkeit auf ausdrucksstärkere Beschreibungslogiken

Zukünftige Richtungen

Entwicklung effizienterer Algorithmen zur Berechnung des deduktiven Abschlusses
Entwurf von Bewertungsmetriken, die semantische Ähnlichkeit berücksichtigen
Erweiterung auf ausdrucksstärkere Beschreibungslogiken
Konstruktion weiterer Benchmark-Datensätze für Wissensbasisvervollständigung

Tiefgreifende Bewertung

Stärken

Genaue Problemidentifikation: Präzise Identifikation kritischer Probleme bestehender Methoden bei der Negativbeispielauswahl und Nutzung des deduktiven Abschlusses
Angemessener Methodenentwurf: Die vorgeschlagenen Negativverlustfunktionen und Filterungsstrategien sind theoretisch gut motiviert
Umfassende Experimente: Validierung der Methodeneffektivität auf mehreren Datensätzen und Aufgaben, einschließlich Visualisierungsanalyse
Theoretischer Beitrag: Bereitstellung eines korrekten Algorithmus zur Berechnung des deduktiven Abschlusses mit theoretischem Wert
Starke Allgemeingültigkeit: Verbesserungsstrategien sind auf mehrere geometrische Einbettungsmethoden anwendbar

Mängel

Begrenzte Leistungsverbesserung: Bei einigen Aufgaben sind die Verbesserungen gering und möglicherweise nicht ausreichend, um die zusätzliche Komplexität zu rechtfertigen
Rechnerischer Overhead: Die Berechnung des deduktiven Abschlusses und die Filterung von Negativbeispielen erhöhen die Trainingszeit, aber das Paper analysiert diesen Overhead nicht ausreichend
Benchmark-Datensätze: Die verwendeten Datensätze sind relativ klein, die Effektivität bei großflächigen Anwendungen bleibt zu überprüfen
Unzureichende Vergleiche: Fehlender Vergleich mit neuesten LLM-basierten Wissensbasisvervollständigungsmethoden

Auswirkungen

Akademischer Wert: Bietet wichtige Verbesserungsideen für das Gebiet der geometrischen Ontologie-Einbettung
Praktischer Wert: Verbesserte Methoden können direkt auf Wissensbasisvervollständigung in Bereichen wie Biomedizin angewendet werden
Reproduzierbarkeit: Code und Daten sind öffentlich verfügbar, was Reproduktion und Erweiterung erleichtert

Anwendungsszenarien

Formalisierte Wissensbases: Besonders geeignet für Ontologien mit reicher logischer Struktur
Biomedizinisches Gebiet: Zeigt gute Leistung bei Aufgaben wie Genontologie und Proteinfunktionsvorhersage
Anwendungen, die Interpretierbarkeit erfordern: Geometrische Einbettungen bieten interpretierbare Modellstrukturen

Literaturverzeichnis

Das Paper zitiert 50 verwandte Arbeiten, die wichtige Arbeiten in den Bereichen Beschreibungslogik, Ontologie-Einbettung und Wissensgraph-Vervollständigung abdecken und eine solide theoretische Grundlage für die Forschung bieten.

DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion

DELE: Deduktive EL++\mathcal{EL}^{++}EL++ Einbettungen für die Wissensbasisvervollständigung

DELE: Deduktive $\mathcal{EL}^{++}$ Einbettungen für die Wissensbasisvervollständigung