2025-11-22T04:10:16.342290

Efficient Relational Context Perception for Knowledge Graph Completion

Tu, Wan, Shang et al.

Knowledge Graphs (KGs) provide a structured representation of knowledge but often suffer from challenges of incompleteness. To address this, link prediction or knowledge graph completion (KGC) aims to infer missing new facts based on existing facts in KGs. Previous knowledge graph embedding models are limited in their ability to capture expressive features, especially when compared to deeper, multi-layer models. These approaches also assign a single static embedding to each entity and relation, disregarding the fact that entities and relations can exhibit different behaviors in varying graph contexts. Due to complex context over a fact triple of a KG, existing methods have to leverage complex non-linear context encoder, like transformer, to project entity and relation into low dimensional representations, resulting in high computation cost. To overcome these limitations, we propose Triple Receptance Perception (TRP) architecture to model sequential information, enabling the learning of dynamic context of entities and relations. Then we use tensor decomposition to calculate triple scores, providing robust relational decoding capabilities. This integration allows for more expressive representations. Experiments on benchmark datasets such as YAGO3-10, UMLS, FB15k, and FB13 in link prediction and triple classification tasks demonstrate that our method performs better than several state-of-the-art models, proving the effectiveness of the integration.

academic

إدراك السياق العلائقي الفعال لإكمال الرسم البياني للمعرفة

المعلومات الأساسية

معرّف الورقة: 2501.00397
العنوان: Efficient Relational Context Perception for Knowledge Graph Completion
المؤلفون: Wenkai Tu, Guojia Wan, Zhengchun Shang, Bo Du (جامعة ووهان)
التصنيف: cs.LG cs.AI cs.CL
تاريخ النشر: 31 ديسمبر 2024 (نسخة أولية من arXiv)
رابط الورقة: https://arxiv.org/abs/2501.00397

الملخص

توفر الرسوم البيانية للمعرفة (KGs) تمثيلاً منظماً للمعرفة، لكنها تعاني عادة من مشاكل عدم الاكتمال. يهدف التنبؤ بالروابط أو إكمال الرسم البياني للمعرفة (KGC) إلى استنتاج حقائق جديدة مفقودة بناءً على الحقائق الموجودة. تتمتع نماذج تضمين الرسم البياني للمعرفة الحالية بقدرة محدودة على التقاط الميزات التعبيرية، وتخصص تضمين ثابت واحد لكل كيان وعلاقة، مما يتجاهل حقيقة أن الكيانات والعلاقات قد تظهر سلوكيات مختلفة في سياقات رسوم بيانية مختلفة. نظراً للسياق المعقد لثلاثيات حقائق الرسم البياني للمعرفة، يجب على الطرق الموجودة الاستفادة من أجهزة ترميز السياق غير الخطية المعقدة (مثل Transformer) لإسقاط الكيانات والعلاقات إلى تمثيلات منخفضة الأبعاد، مما يؤدي إلى تكاليف حسابية عالية. للتغلب على هذه القيود، تقترح هذه الورقة معمارية مجال الاستقبال الثلاثي الإدراك (TRP) لنمذجة المعلومات التسلسلية وتحقيق التعلم الديناميكي للسياق للكيانات والعلاقات. ثم يتم استخدام تحليل الموتر لحساب درجات الثلاثيات، مما يوفر قدرة فك تشفير علائقية قوية. يسمح هذا التكامل بتمثيلات أكثر تعبيراً. تُظهر التجارب على مهام التنبؤ بالروابط وتصنيف الثلاثيات على مجموعات البيانات المعيارية YAGO3-10 و UMLS و FB15k و FB13 أن الطريقة تتفوق على عدة نماذج متقدمة.

الخلفية البحثية والدافع

تعريف المشكلة

إكمال الرسم البياني للمعرفة (KGC) هي مشكلة بحثية مهمة تهدف إلى استنتاج الحقائق المفقودة في الرسم البياني للمعرفة. يتم تمثيل الرسوم البيانية للمعرفة عادة في شكل ثلاثيات (كيان رأس، علاقة، كيان ذيل)، لكن الرسوم البيانية للمعرفة في العالم الحقيقي غالباً ما تحتوي على علاقات مفقودة كثيرة، مما يحد من فعاليتها في التطبيقات مثل أنظمة الإجابة على الأسئلة وأنظمة التوصيات.

قيود الطرق الموجودة

القدرة التعبيرية المحدودة: تعتمد طرق تضمين الرسم البياني للمعرفة التقليدية بشكل أساسي على العمليات الجمعية أو الضربية، مما يحد من القدرة التعبيرية
التضمينات الثابتة: تخصص الطرق الموجودة تضمين ثابت واحد لكل كيان وعلاقة، متجاهلة سلوكهم المختلف في سياقات مختلفة
التكاليف الحسابية العالية: بينما تتمتع الطرق المستندة إلى Transformer بأداء جيدة، إلا أنها تعاني من مشاكل قابلية التوسع والتكاليف الحسابية العالية
نمذجة السياق غير الكافية: نقص في القدرة على نمذجة فعالة للسياق العلائقي المعقد

الدافع البحثي

الدافع الأساسي لهذه الورقة هو تصميم طريقة لإكمال الرسم البياني للمعرفة يمكنها التقاط معلومات السياق الديناميكي مع الحفاظ على الكفاءة الحسابية. من خلال الجمع بين مزايا النمذجة التسلسلية وتحليل الموتر، يتم تحقيق توازن أفضل بين الأداء والكفاءة.

المساهمات الأساسية

اقتراح معمارية مجال الاستقبال الثلاثي الإدراك (TRP): جهاز ترميز جديد يمكنه نمذجة فعالة للمعلومات التسلسلية والسياق الديناميكي في الرسم البياني للمعرفة
دمج فك تشفير تحليل Tucker: يوفر قدرة فك تشفير علائقية قوية، مما يحقق تمثيل هيكل علائقي مضغوط وغني بالتعبير
تحقيق توازن أفضل بين الأداء والكفاءة: مقارنة بالطرق المعقدة مثل Transformer، يحافظ على أداء تنافسية مع تقليل كبير في التكاليس الحسابية
تحقيق نتائج متقدمة على عدة مجموعات بيانات معيارية: يتفوق على الطرق الموجودة في مهام التنبؤ بالروابط وتصنيف الثلاثيات

شرح الطريقة بالتفصيل

تعريف المهمة

بالنظر إلى ثلاثية غير مكتملة في الرسم البياني للمعرفة (h, r, ?) أو (?, r, t)، الهدف هو التنبؤ بكيان الذيل أو كيان الرأس المفقود. رسمياً، بالنسبة للثلاثية (h, r, t)، يجب على النموذج تعلم دالة تسجيل φ(h, r, t) لقياس احتمالية أن تكون هذه الثلاثية صحيحة.

معمارية النموذج

1. جهاز ترميز مجال الاستقبال الثلاثي الإدراك (TRP)

تتكون معمارية TRP من عدة كتل متبقية، يحتوي كل كتلة على وحدتي فرعيتين رئيسيتين:

وحدة الخلط الزمني (Time Mixing):

ot = Wo · (σ(rt) ⊙ wkvt)
rt = Wr · (μr ⊙ xt + (1-μr) ⊙ xt-1)

حيث يتم حساب wkvt بالطريقة العودية التالية:

wkvt = (at-1 + e^(u+kt) ⊙ vt) / (bt-1 + e^(u+kt))
at = e^(-w) ⊙ at-1 + e^kt ⊙ vt  
bt = e^(-w) ⊙ bt-1 + e^kt

وحدة الخلط القنوي (Channel Mixing):

r't = Wr' · (μ'r x't + (1-μ'r)x't-1)
k't = Wk' · (μ'k x't + (1-μ'k)x't-1)  
o't = σ(r't) · (Wv' ⊙ max(k't, 0)²)

دمج الوحدات:

x' = x + Dropout(TimeMixing(LayerNorm(x)))
x'' = x' + Dropout(ChannelMixing(LayerNorm(x')))

2. فك تشفير تحليل Tucker

استخدام تحليل Tucker كفاك تشفير لحساب درجة الثلاثية:

φ(h, r, t) = Wc ×1 ẽh ×2 ẽr ×3 et

حيث Wc ∈ R^(d×d×d) هو موتر النواة القابل للتعلم، و ×n يشير إلى حاصل الضرب الموتري n-الوضع.

نقاط الابتكار التقني

نمذجة السياق الديناميكي: يمكّن TRP التضمينات من الكيانات والعلاقات من التكيف ديناميكياً وفقاً لسياقات مختلفة من خلال آلية النمذجة التسلسلية
الحساب العودي الفعال: يحقق الاستدلال الفعال من خلال الصيغ العودية، مما يتجنب التعقيد التربيعي لـ Transformer
الحفاظ على السببية: يضمن التصميم السببية في عملية الاستدلال، مما يسمح للنموذج بالاستدلال الفعال مثل RNN
دمج تحليل الموتر: يوفر تحليل Tucker قدرة نمذجة علائقية فعالة من حيث المعاملات وقوية من حيث التعبير

إعداد التجارب

مجموعات البيانات

استخدام أربع مجموعات بيانات معيارية قياسية:

مجموعة البيانات	عدد الكيانات	عدد العلاقات	مجموعة التدريب	مجموعة التحقق	مجموعة الاختبار
UMLS	135	46	5,126	652	661
FB15k	14,951	1,345	483,142	50,000	59,071
YAGO3-10	123,182	37	1,079,040	5,000	5,000
FB13	75,043	13	316,232	11,816	47,466

مقاييس التقييم

متوسط الترتيب المتبادل (MRR): MRR = 1/|S| Σ(1/ranki)
Hits@k: نسبة الإجابات الصحيحة المصنفة في أفضل k
الدقة: المستخدمة في مهام تصنيف الثلاثيات

طرق المقارنة

الطرق التي تستخدم الثلاثيات فقط: TransE و DistMult و ComplEx و RotatE و TuckER و ConvE و CoKE و HAKE و HousE

الطرق التي تستخدم السياق: Neural-LP و R-GCN و Rlogic و ChatRule

تفاصيل التنفيذ

بُعد التضمين: {64, 96, 128, 192, 256}
عدد كتل TRP: {2, 4, 6, 8}
معدل Dropout: {0.2, 0.3, 0.4, 0.5}
المُحسِّن: Adam
معدل التعلم: 0.0005-0.01
حجم الدفعة: 512
الحد الأقصى لعدد جولات التدريب: 500

نتائج التجارب

النتائج الرئيسية

نتائج التنبؤ بالروابط:

الطريقة	FB15k			YAGO3-10			UMLS
	MRR	H@1	H@10	MRR	H@1	H@10	MRR	H@1	H@10
TransE	0.38	23.1	47.1	0.30	21.8	47.5	0.69	52.3	89.7
CoKE	0.85	82.6	90.6	0.55	47.5	67.5	0.94	90.7	99.7
طريقتنا	0.85	81.2	90.3	0.57	50.1	70.0	0.95	90.4	99.9

نتائج تصنيف الثلاثيات:

الطريقة	FB13	FB15k
CoKE	87.7	89.3
طريقتنا	88.6	89.0

دراسات الاستئصال

تُظهر الدراسات الاستئصالية على FB15k و YAGO3-10:

إزالة فاك تشفير تحليل Tucker: انخفاض الأداء بمقدار 2-3 نقاط MRR
إزالة جهاز ترميز TRP: انخفاض كبير في الأداء بمقدار 6-10 نقاط MRR
يحقق الجمع بين المكونين أفضل أداء

تحليل كفاءة المعاملات

عدد المعاملات: يتطلب TRP معاملات أقل بكثير مقارنة بـ Transformer
وقت التدريب: وقت التدريب لكل جولة من TRP أقصر، والنمو أبطأ مع زيادة عدد الخطوات
مقارنة الأداء: عند مستويات أداء قابلة للمقارنة، يُظهر TRP كفاءة أفضل

التحليل المرئي

تضمينات الكيانات: يُظهر التصور t-SNE أن كيانات الفئات المختلفة تشكل مجموعات منفصلة واضحة
تضمينات العلاقات: العلاقات المتماثلة وعلاقاتها العكسية مجمعة بإحكام، والعلاقات غير المتماثلة موزعة بشكل أكثر تشتتاً، مما يعكس نمذجة TRP الفعالة للعلاقات الدلالية المختلفة

الأعمال ذات الصلة

تصنيف طرق تضمين الرسم البياني للمعرفة

نماذج الترجمة: TransE و TransH و TransR و RotatE وغيرها، تؤسس قواعد ترجمة خطية من كيان الرأس إلى كيان الذيل
نماذج المطابقة الدلالية: RESCAL و DistMult و ComplEx و TuckER وغيرها، تستخدم دوال تسجيل مختلفة لقياس تشابه التضمينات
نماذج الشبكات العصبية: ConvE و R-GCN و CoKE وغيرها، تستخدم التعلم العميق للحصول على تمثيلات تعبيرية

العلاقة بين هذه الورقة والأعمال ذات الصلة

تجمع هذه الورقة بين مزايا النمذجة التسلسلية وتحليل الموتر. مقارنة بنماذج الترجمة البحتة، تتمتع بقدرة تعبيرية أقوى. مقارنة بنماذج الشبكات العصبية المعقدة، تتمتع بكفاءة أعلى، مما يحقق توازناً أفضل بين الأداء والكفاءة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يمكن لمعمارية TRP نمذجة فعالة لمعلومات السياق الديناميكي في الرسم البياني للمعرفة
يوفر تحليل Tucker قدرة فك تشفير علائقية فعالة من حيث المعاملات
يحقق الجمع بين الاثنين أداءً ممتازاً على عدة مجموعات بيانات معيارية
يتمتع بكفاءة معاملات أفضل مقارنة بطرق مثل Transformer

القيود

حجم مجموعة البيانات: التحقق الرئيسي على مجموعات بيانات متوسطة الحجم، وتأثير الرسوم البيانية الضخمة للمعرفة يحتاج إلى التحقق
أنواع العلاقات: قد تكون قدرة النمذجة لأنماط العلاقات المعقدة معينة قابلة للتحسين
الاستدلال متعدد الخطوات: تركز الورقة بشكل أساسي على التنبؤ بالروابط أحادية الخطوة، وتحتاج قدرة الاستدلال متعدد الخطوات إلى مزيد من البحث

الاتجاهات المستقبلية

التوسع إلى رسوم بيانية معرفية أكبر حجماً
دمج معلومات نصية خارجية لتعزيز التعلم التمثيلي
استكشاف التطبيقات في مهام الاستدلال متعدد الخطوات
دراسة التكامل مع نماذج اللغة الكبيرة

التقييم المتعمق

المزايا

الابتكار التقني قوي: تجمع معمارية TRP بذكاء بين مزايا RNN وآليات الانتباه، مما يحقق نمذجة تسلسلية فعالة
التجارب شاملة: تقييم شامل على عدة مجموعات بيانات ومهام، بما في ذلك دراسات الاستئصال والتحليل المرئي
القيمة العملية عالية: يحسن كفاءة الحساب بشكل كبير مع الحفاظ على أداء تنافسية، مما يتمتع بإمكانية تطبيق عملي كبير
الكتابة واضحة: هيكل الورقة واضح، وصف التفاصيل التقنية دقيق، وسهل الفهم والتكرار

أوجه القصور

التحليل النظري غير كافٍ: نقص التحليل النظري العميق لسبب فعالية معمارية TRP
التحقق على نطاق واسع محدود: التحقق الرئيسي على مجموعات بيانات متوسطة الحجم، نقص التجارب على رسوم بيانية معرفية حقيقية ضخمة
خطوط الأساس المقارنة محدودة نسبياً: نقص المقارنة مع بعض طرق الخطوط الأساسية القوية الحديثة
تحليل الأخطاء غير كافٍ: نقص التحليل المتعمق لحالات فشل النموذج

التأثير

المساهمة الأكاديمية: توفير أفكار نمذجة فعالة جديدة لمجال إكمال الرسم البياني للمعرفة
القيمة العملية: تتمتع كفاءة الطريقة بإمكانية تطبيق كبيرة في التطبيقات العملية
قابلية التكرار: وصف التفاصيل التقنية مفصل، إعداد التجارب واضح، تتمتع بقابلية تكرار جيدة

السيناريوهات المناسبة

البيئات محدودة الموارد: سيناريوهات التطبيق التي تتطلب موارد حسابية محدودة لكن أداء جيدة نسبياً
متطلبات الاستدلال في الوقت الفعلي: مهام الاستعلام والاستدلال على الرسم البياني للمعرفة التي تتطلب استجابة سريعة
الرسوم البيانية للمعرفة الديناميكية: تطبيقات الرسم البياني للمعرفة التي تتطلب تحديثات متكررة والتعلم الإضافي
الحوسبة الطرفية: نشر تطبيقات الرسم البياني للمعرفة على الأجهزة المحمولة أو أجهزة الحوسبة الطرفية

المراجع

تستشهد الورقة بالأدبيات المهمة في مجال إكمال الرسم البياني للمعرفة، بما في ذلك:

TransE (Bordes et al., 2013): العمل الرائد في نماذج الترجمة
TuckER (Balažević et al., 2019): تطبيق تحليل Tucker في الرسوم البيانية للمعرفة
CoKE (Wang et al., 2019): تضمين الرسم البياني للمعرفة السياقي المستند إلى Transformer
RWKV (Peng et al., 2023): مصدر الإلهام لمعمارية TRP في هذه الورقة

التقييم الإجمالي: هذه ورقة عالية الجودة في مجال إكمال الرسم البياني للمعرفة، حيث تقترح معمارية TRP ذات ابتكار تقني كبير، وتحقق تحقق تجريبي شامل، وتحقق توازناً جيداً بين الأداء والكفاءة. تكمن المساهمة الرئيسية للورقة في إدخال أفكار النمذجة التسلسلية إلى إكمال الرسم البياني للمعرفة، مما يوفر اتجاهاً بحثياً جديداً لهذا المجال. على الرغم من وجود مجال للتحسين في التحليل النظري والتحقق على نطاق واسع، إلا أن العمل البحثي ذو قيمة عموماً.