2025-11-22T04:10:16.342290

Efficient Relational Context Perception for Knowledge Graph Completion

Tu, Wan, Shang et al.

Knowledge Graphs (KGs) provide a structured representation of knowledge but often suffer from challenges of incompleteness. To address this, link prediction or knowledge graph completion (KGC) aims to infer missing new facts based on existing facts in KGs. Previous knowledge graph embedding models are limited in their ability to capture expressive features, especially when compared to deeper, multi-layer models. These approaches also assign a single static embedding to each entity and relation, disregarding the fact that entities and relations can exhibit different behaviors in varying graph contexts. Due to complex context over a fact triple of a KG, existing methods have to leverage complex non-linear context encoder, like transformer, to project entity and relation into low dimensional representations, resulting in high computation cost. To overcome these limitations, we propose Triple Receptance Perception (TRP) architecture to model sequential information, enabling the learning of dynamic context of entities and relations. Then we use tensor decomposition to calculate triple scores, providing robust relational decoding capabilities. This integration allows for more expressive representations. Experiments on benchmark datasets such as YAGO3-10, UMLS, FB15k, and FB13 in link prediction and triple classification tasks demonstrate that our method performs better than several state-of-the-art models, proving the effectiveness of the integration.

academic

Effiziente relationale Kontextwahrnehmung zur Vervollständigung von Wissensgraphen

Grundinformationen

Paper-ID: 2501.00397
Titel: Efficient Relational Context Perception for Knowledge Graph Completion
Autoren: Wenkai Tu, Guojia Wan, Zhengchun Shang, Bo Du (Wuhan University)
Klassifizierung: cs.LG cs.AI cs.CL
Veröffentlichungsdatum: 31. Dezember 2024 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2501.00397

Zusammenfassung

Wissensgraphen (KGs) bieten eine strukturierte Wissensdarstellung, weisen jedoch häufig Unvollständigkeitsprobleme auf. Linkvorhersage oder Wissensgraph-Vervollständigung (KGC) zielt darauf ab, fehlende neue Fakten basierend auf bestehenden Fakten abzuleiten. Bestehende Wissensgraph-Einbettungsmodelle haben begrenzte Fähigkeiten bei der Erfassung ausdrucksstarker Merkmale und weisen jeder Entität und Relation eine einzelne statische Einbettung zu, wobei ignoriert wird, dass Entitäten und Relationen in verschiedenen Graphkontexten unterschiedliches Verhalten zeigen können. Aufgrund der komplexen Kontexte von Wissensgraph-Faktentripletts müssen bestehende Methoden komplexe nichtlineare Kontextkodierer (wie Transformer) nutzen, um Entitäten und Relationen in niedrigdimensionale Darstellungen zu projizieren, was zu hohen Rechenkosten führt. Um diese Einschränkungen zu überwinden, wird in diesem Papier eine Triplett-Rezeptivfeld-Wahrnehmungs-(TRP-)Architektur zur Modellierung von Sequenzinformationen vorgeschlagen, um das Lernen dynamischer Kontexte von Entitäten und Relationen zu ermöglichen. Anschließend wird die Tensorzerlegung zur Berechnung von Triplett-Scores verwendet, um starke Relationsdekodierungsfähigkeiten bereitzustellen. Diese Integration ermöglicht ausdrucksstärkere Darstellungen. Experimente bei Linkvorhersage- und Triplett-Klassifizierungsaufgaben auf Benchmark-Datensätzen wie YAGO3-10, UMLS, FB15k und FB13 zeigen, dass die Methode mehrere State-of-the-Art-Modelle übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Die Wissensgraph-Vervollständigung (KGC) ist ein wichtiges Forschungsproblem, das darauf abzielt, fehlende Fakten in Wissensgraphen abzuleiten. Wissensgraphen werden typischerweise in Triplett-Form dargestellt (Kopf-Entität, Relation, Schwanz-Entität), aber reale Wissensgraphen weisen häufig viele fehlende Relationen auf, was ihre Wirksamkeit in Anwendungen wie Frage-Antwort-Systemen und Empfehlungssystemen einschränkt.

Einschränkungen bestehender Methoden

Begrenzte Ausdrucksfähigkeit: Traditionelle Wissensgraph-Einbettungsmethoden beruhen hauptsächlich auf additiven oder multiplikativen Operationen mit begrenzter Ausdrucksfähigkeit
Statische Einbettungen: Bestehende Methoden weisen jeder Entität und Relation eine einzelne statische Einbettung zu und ignorieren deren unterschiedliches Verhalten in verschiedenen Kontexten
Hohe Rechenkosten: Obwohl Transformer-basierte Methoden gute Ergebnisse liefern, weisen sie Skalierbarkeitsprobleme und hohe Rechenkosten auf
Unzureichende Kontextmodellierung: Mangelnde Fähigkeit zur effektiven Modellierung komplexer Relationskontexte

Forschungsmotivation

Die Kernmotivation dieses Papiers besteht darin, eine Methode zur Wissensgraph-Vervollständigung zu entwerfen, die sowohl dynamische Kontextinformationen erfasst als auch rechnerisch effizient ist. Durch die Kombination der Vorteile von Sequenzmodellierung und Tensorzerlegung wird ein besseres Leistungs-Effizienz-Gleichgewicht erreicht.

Kernbeiträge

Vorschlag der Triplett-Rezeptivfeld-Wahrnehmungs-(TRP-)Architektur: Ein neuartiger Kodierer, der Sequenzinformationen und dynamische Kontexte in Wissensgraphen effektiv modellieren kann
Integration eines Tucker-Zerlegungs-Dekodierers: Bietet starke Relationsdekodierungsfähigkeiten und ermöglicht kompakte und ausdrucksstarke Relationenstrukturdarstellungen
Realisierung eines besseren Leistungs-Effizienz-Gleichgewichts: Im Vergleich zu komplexen Methoden wie Transformern werden die Rechenkosten erheblich gesenkt, während die Wettbewerbsfähigkeit der Leistung erhalten bleibt
Erreichung von SOTA-Ergebnissen auf mehreren Benchmark-Datensätzen: Übertrifft bestehende Methoden sowohl bei Linkvorhersage- als auch bei Triplett-Klassifizierungsaufgaben

Methodische Details

Aufgabendefinition

Gegeben ein unvollständiges Triplett in einem Wissensgraphen (h, r, ?) oder (?, r, t), besteht das Ziel darin, die fehlende Schwanz- oder Kopf-Entität vorherzusagen. Formal muss das Modell für ein Triplett (h, r, t) eine Bewertungsfunktion φ(h, r, t) erlernen, um die Wahrscheinlichkeit zu messen, dass dieses Triplett wahr ist.

Modellarchitektur

1. Triplett-Rezeptivfeld-Wahrnehmungs-(TRP-)Kodierer

Die TRP-Architektur besteht aus mehreren Residualblöcken, wobei jeder Block zwei Schlüssel-Submodule enthält:

Zeitmischungsmodul (Time Mixing):

ot = Wo · (σ(rt) ⊙ wkvt)
rt = Wr · (μr ⊙ xt + (1-μr) ⊙ xt-1)

wobei wkvt auf folgende rekursive Weise berechnet wird:

wkvt = (at-1 + e^(u+kt) ⊙ vt) / (bt-1 + e^(u+kt))
at = e^(-w) ⊙ at-1 + e^kt ⊙ vt  
bt = e^(-w) ⊙ bt-1 + e^kt

Kanalmischungsmodul (Channel Mixing):

r't = Wr' · (μ'r x't + (1-μ'r)x't-1)
k't = Wk' · (μ'k x't + (1-μ'k)x't-1)  
o't = σ(r't) · (Wv' ⊙ max(k't, 0)²)

Modulintegration:

x' = x + Dropout(TimeMixing(LayerNorm(x)))
x'' = x' + Dropout(ChannelMixing(LayerNorm(x')))

2. Tucker-Zerlegungs-Dekodierer

Verwendet Tucker-Zerlegung als Dekodierer zur Berechnung von Triplett-Scores:

φ(h, r, t) = Wc ×1 ẽh ×2 ẽr ×3 et

wobei Wc ∈ R^(d×d×d) ein erlernbarer Kerntensor ist und ×n das n-Modus-Tensorprodukt bezeichnet.

Technische Innovationspunkte

Dynamische Kontextmodellierung: TRP ermöglicht es Entitäts- und Relationseinbettungen durch Sequenzmodellierungsmechanismen, sich dynamisch an verschiedene Kontexte anzupassen
Effiziente rekursive Berechnung: Durch rekursive Formeln wird effiziente Inferenz erreicht, wodurch die quadratische Komplexität von Transformern vermieden wird
Kausalitätsbewahrung: Das Design gewährleistet Kausalität während des Inferenzprozesses, was dem Modell ermöglicht, wie ein RNN effizient zu arbeiten
Tensorzerlegungs-Integration: Tucker-Zerlegung bietet parametereffiziente und ausdrucksstarke Relationenmodellierungsfähigkeiten

Experimentelle Einrichtung

Datensätze

Es werden vier Standard-Benchmark-Datensätze verwendet:

Datensatz	Entitäten	Relationen	Trainingsset	Validierungsset	Testset
UMLS	135	46	5.126	652	661
FB15k	14.951	1.345	483.142	50.000	59.071
YAGO3-10	123.182	37	1.079.040	5.000	5.000
FB13	75.043	13	316.232	11.816	47.466

Bewertungsmetriken

Mittlerer reziproker Rang (MRR): MRR = 1/|S| Σ(1/ranki)
Hits@k: Anteil der Fälle, in denen die richtige Antwort in den Top-k liegt
Genauigkeit: Für Triplett-Klassifizierungsaufgaben

Vergleichsmethoden

Methoden, die nur Tripletts verwenden: TransE, DistMult, ComplEx, RotatE, TuckER, ConvE, CoKE, HAKE, HousE

Methoden, die Kontext verwenden: Neural-LP, R-GCN, Rlogic, ChatRule

Implementierungsdetails

Einbettungsdimension: {64, 96, 128, 192, 256}
Anzahl der TRP-Blöcke: {2, 4, 6, 8}
Dropout-Rate: {0,2, 0,3, 0,4, 0,5}
Optimierer: Adam
Lernrate: 0,0005-0,01
Batch-Größe: 512
Maximale Trainingsrunden: 500

Experimentelle Ergebnisse

Hauptergebnisse

Linkvorhersage-Ergebnisse:

Methode	FB15k			YAGO3-10			UMLS
	MRR	H@1	H@10	MRR	H@1	H@10	MRR	H@1	H@10
TransE	0,38	23,1	47,1	0,30	21,8	47,5	0,69	52,3	89,7
CoKE	0,85	82,6	90,6	0,55	47,5	67,5	0,94	90,7	99,7
Unsere Methode	0,85	81,2	90,3	0,57	50,1	70,0	0,95	90,4	99,9

Triplett-Klassifizierungs-Ergebnisse:

Methode	FB13	FB15k
CoKE	87,7	89,3
Unsere Methode	88,6	89,0

Ablationsstudien

Ablationsstudien auf FB15k und YAGO3-10 zeigen:

Entfernung des Tucker-Zerlegungs-Dekodierers: Leistungsabfall von 2-3 MRR-Punkten
Entfernung des TRP-Kodierers: Signifikanter Leistungsabfall von 6-10 MRR-Punkten
Die Kombination beider Komponenten erreicht optimale Leistung

Parametereffizienz-Analyse

Parameteranzahl: TRP benötigt deutlich weniger Parameter als Transformer
Trainingszeit: Jede Trainingsrunde mit TRP ist schneller, und das Wachstum mit der Anzahl der Sprünge ist langsamer
Leistungsvergleich: Bei vergleichbarer Leistung zeigt TRP bessere Effizienz

Visualisierungsanalyse

Entitätseinbettungen: t-SNE-Visualisierung zeigt, dass Entitäten verschiedener Klassen klare, getrennte Cluster bilden
Relationseinbettungen: Symmetrische Relationen und ihre Inversen sind eng beieinander, asymmetrische Relationen sind stärker verteilt, was die effektive Modellierung verschiedener semantischer Relationen durch TRP widerspiegelt

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Die TRP-Architektur kann dynamische Kontextinformationen in Wissensgraphen effektiv modellieren
Tucker-Zerlegung bietet parametereffiziente Relationsdekodierungsfähigkeiten
Die Kombination beider erreicht hervorragende Leistung auf mehreren Benchmark-Datensätzen
Im Vergleich zu Methoden wie Transformern zeigt sie bessere Parametereffizienz

Einschränkungen

Datensatzgröße: Hauptsächlich auf mittleren Datensätzen validiert; die Wirksamkeit auf sehr großen Wissensgraphen bleibt zu überprüfen
Relationstypen: Die Modellierungsfähigkeit für einige komplexe Relationsmuster könnte noch verbessert werden
Mehrfach-Hop-Inferenz: Das Papier konzentriert sich hauptsächlich auf Single-Hop-Linkvorhersage; Mehrfach-Hop-Inferenzfähigkeiten erfordern weitere Forschung

Zukünftige Richtungen

Erweiterung auf größere Wissensgraphen
Integration externer Textinformationen zur Verbesserung des Repräsentationslernens
Erkundung von Anwendungen bei Mehrfach-Hop-Inferenzaufgaben
Untersuchung der Kombination mit großen Sprachmodellen

Tiefgreifende Bewertung

Stärken

Starke technische Innovation: Die TRP-Architektur kombiniert geschickt die Vorteile von RNNs und Aufmerksamkeitsmechanismen und erreicht effiziente Sequenzmodellierung
Umfassende Experimente: Umfassende Evaluierung auf mehreren Datensätzen und Aufgaben, einschließlich Ablationsstudien und Visualisierungsanalyse
Hoher praktischer Wert: Erhebliche Verbesserung der Recheneffizienz bei Beibehaltung wettbewerbsfähiger Leistung mit großem praktischem Potenzial
Klare Darstellung: Klare Papierstruktur, genaue technische Beschreibung, leicht verständlich und reproduzierbar

Mängel

Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum die TRP-Architektur effektiv ist
Begrenzte Validierung in großem Maßstab: Hauptsächlich auf mittleren Datensätzen validiert; Experimente auf wirklich großen Wissensgraphen fehlen
Relativ begrenzte Vergleichsbaselines: Fehlende Vergleiche mit einigen der neuesten starken Baseline-Methoden
Unzureichende Fehleranalyse: Mangel an tiefgreifender Analyse von Fehlerfällen des Modells

Auswirkungen

Akademischer Beitrag: Bietet neue effiziente Modellierungsideen für das Feld der Wissensgraph-Vervollständigung
Praktischer Wert: Die Effizienz der Methode hat großes Potenzial in praktischen Anwendungen
Reproduzierbarkeit: Detaillierte technische Beschreibung und klare experimentelle Einrichtung mit guter Reproduzierbarkeit

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Anwendungsszenarien mit begrenzten Rechenressourcen, aber Bedarf nach guter Leistung
Anforderungen an Echtzeit-Inferenz: Wissensgraph-Abfrage- und Inferenzaufgaben, die schnelle Reaktion erfordern
Dynamische Wissensgraphen: Wissensgraph-Anwendungen, die häufige Aktualisierungen und inkrementelles Lernen erfordern
Edge-Computing: Bereitstellung von Wissensgraph-Anwendungen auf mobilen Geräten oder Edge-Geräten

Literaturverzeichnis

Das Papier zitiert wichtige Literatur im Bereich der Wissensgraph-Vervollständigung, einschließlich:

TransE (Bordes et al., 2013): Bahnbrechendes Werk des Translationsmodells
TuckER (Balažević et al., 2019): Anwendung von Tucker-Zerlegung in Wissensgraphen
CoKE (Wang et al., 2019): Kontextualisierte Wissensgraph-Einbettung basierend auf Transformer
RWKV (Peng et al., 2023): Inspirationsquelle für die TRP-Architektur dieses Papiers

Gesamtbewertung: Dies ist ein hochqualitatives Papier zur Wissensgraph-Vervollständigung mit signifikanten technischen Innovationen in der vorgeschlagenen TRP-Architektur, umfassender experimenteller Validierung und einem guten Gleichgewicht zwischen Leistung und Effizienz. Der Hauptbeitrag des Papiers liegt darin, Ideen der Sequenzmodellierung in die Wissensgraph-Vervollständigung einzuführen und neue Forschungsrichtungen für dieses Feld bereitzustellen. Obwohl es noch Raum für Verbesserungen in theoretischer Analyse und Validierung in großem Maßstab gibt, ist es insgesamt eine wertvolle Forschungsarbeit.