2025-11-21T19:10:17.554976

DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion

Mashkova, Zhapa-Camacho, Hoehndorf
Ontology embeddings map classes, roles, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several optimization-based embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives and formulated evaluation methods for knowledge base completion. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion.
academic

DELE: تضمينات استنتاجية EL++\mathcal{EL}^{++} لإكمال قاعدة المعرفة

المعلومات الأساسية

  • معرّف الورقة: 2411.01574
  • العنوان: DELE: Deductive EL++\mathcal{EL}^{++} Embeddings for Knowledge Base Completion
  • المؤلفون: Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf
  • المؤسسة: جامعة الملك عبدالله للعلوم والتكنولوجيا (KAUST)
  • التصنيف: cs.AI
  • المؤتمر: NeSy 2024 Special Issue
  • رابط الورقة: https://arxiv.org/abs/2411.01574

الملخص

تقدم هذه الورقة طريقة DELE (تضمينات استنتاجية EL++\mathcal{EL}^{++}) لمعالجة القيود في طرق تضمين الأنطولوجيا للمنطق الوصفي EL++\mathcal{EL}^{++} في مهام إكمال قاعدة المعرفة. على الرغم من أن الطرق الهندسية الموجودة يمكنها توليد نماذج أنطولوجيا صريحة، إلا أنها تعاني من مشكلتين رئيسيتين: (1) عدم القدرة على التمييز بين البيانات غير القابلة للإثبات والبيانات القابلة للدحض، مما قد يؤدي إلى استخدام البيانات المستنتجة كعينات سالبة؛ (2) عدم الاستفادة الكافية من الإغلاق الاستنتاجي للأنطولوجيا لتحديد البيانات المستنتجة لكن غير المؤكدة. تحسّن هذه الورقة أداء إكمال قاعدة المعرفة من خلال تصميم دوال خسارة سالبة جديدة وطرق تقييم فعالة تستفيد من الإغلاق الاستنتاجي.

السياق البحثي والدافع

تعريف المشكلة

يهدف تضمين الأنطولوجيا إلى تعيين الفئات والأدوار والأفراد في الأنطولوجيا إلى فضاء Rn\mathbb{R}^n لحساب التشابه بين الكيانات أو استنتاج بديهيات جديدة. بالنسبة للمنطق الوصفي EL++\mathcal{EL}^{++}، توجد عدة طرق تضمين هندسية قائمة على التحسين، مثل ELEmbeddings و ELBE و Box2EL وغيرها.

قيود الطرق الموجودة

  1. مشكلة اختيار العينات السالبة: عند اختيار العينات السالبة عشوائياً، قد تعتبر الطرق الموجودة البيانات الحقيقية المستنتجة من الأنطولوجيا كأمثلة سالبة، مما يؤثر على جودة تدريب النموذج
  2. الاستفادة غير الكافية من الإغلاق الاستنتاجي: لم يتم النظر الكافي في الإغلاق الاستنتاجي للأنطولوجيا، أي مجموعة جميع البيانات القابلة للاشتقاق، مما يؤدي إلى عدم القدرة على التمييز الفعال بين المعرفة المستنتجة والمعرفة غير المؤكدة
  3. قيود طرق التقييم: تأتي طرق التقييم الموجودة بشكل أساسي من مهام إكمال الرسم البياني للمعرفة، ولا تأخذ في الاعتبار العلاقات الاستنتاجية الغنية في الأنطولوجيا

الدافع البحثي

إكمال قاعدة المعرفة مهمة مهمة تتطلب التنبؤ بالبديهيات التي يجب إضافتها إلى قاعدة المعرفة لكنها لم تُمثّل بعد. بالنسبة لقواعس المعرفة الرسمية، يشمل ذلك نوعين من الاستدلال: الاستدلال الاستنتاجي (التنبؤ بالبديهيات المستنتجة) والاستدلال الاستقرائي (التنبؤ بالبديهيات الجديدة غير المستنتجة). تهدف هذه الورقة إلى تحسين الطرق الهندسية للتضمين من خلال الاستفادة بشكل أفضل من الإغلاق الاستنتاجي.

المساهمات الأساسية

  1. اقتراح دوال خسارة سالبة تأخذ في الاعتبار الإغلاق الاستنتاجي: تم تصميم دوال خسارة سالبة جديدة لجميع أشكال EL++\mathcal{EL}^{++} القياسية، مما يتجنب استخدام البيانات المستنتجة كعينات سالبة
  2. تصميم خوارزمية سريعة لحساب الإغلاق الاستنتاجي التقريبي: اقتراح خوارزمية سليمة لحساب الإغلاق الاستنتاجي النظري لـ EL++\mathcal{EL}^{++}، لاستخدامها في تحسين اختيار العينات السالبة أثناء التدريب
  3. وضع طريقة تقييم تأخذ في الاعتبار الإغلاق الاستنتاجي: تصميم مقاييس تقييم جديدة لمهام إكمال قاعدة المعرفة، يمكنها التمييز بين أداء التنبؤ بالبديهيات المستنتجة وغير المستنتجة
  4. توسيع عدة طرق تضمين هندسية: تطبيق التحسينات على ثلاث طرق تمثيلية: ELEmbeddings و ELBE و Box2EL، مما يثبت عمومية الطريقة

شرح الطريقة

تعريف المهمة

تُعرّف مهمة إكمال قاعدة المعرفة على أنها: بالنظر إلى أنطولوجيا EL++\mathcal{EL}^{++} معينة TT، التنبؤ بالبديهيات الجديدة التي يجب إضافتها إلى TT. يمكن تقسيم المهمة بشكل أكبر إلى:

  • الإكمال الاستنتاجي: التنبؤ بالبديهيات الموجودة في الإغلاق الاستنتاجي TT^⊢ لكنها غير مؤكدة صراحة في TT
  • الإكمال الاستقرائي: التنبؤ بالبديهيات الجديدة غير الموجودة في الإغلاق الاستنتاجي

حساب الإغلاق الاستنتاجي

الأشكال القياسية

يمكن توحيد بديهيات EL++\mathcal{EL}^{++} إلى سبعة أشكال (انظر الجدول 1):

  • GCI0: ABA \sqsubseteq B
  • GCI1: ABEA \sqcap B \sqsubseteq E
  • GCI2: Ar.BA \sqsubseteq \exists r.B
  • GCI3: r.AB\exists r.A \sqsubseteq B
  • GCI0-BOT: AA \sqsubseteq \perp
  • GCI1-BOT: ABA \sqcap B \sqsubseteq \perp
  • GCI3-BOT: r.A\exists r.A \sqsubseteq \perp

خوارزمية الإغلاق الاستنتاجي

تقترح الورقة خوارزميتين لحساب تقريب الإغلاق الاستنتاجي:

الخوارزمية 1: بناءً على البديهيات الممثلة صراحة في الأنطولوجيا، استخدام قواعد الاستدلال لاشتقاق البديهيات المستنتجة. على سبيل المثال:

A ⊓ B ⊑ E, A' ⊑ A, B' ⊑ B, E ⊑ E'
─────────────────────────────────────
         A' ⊓ B' ⊑ E'

الخوارزمية 2: بناءً على أسماء المفاهيم والأدوار التعسفية، إضافة البديهيات التي تكون منطقياً ضرورية، مثل AEA \sqcap \perp \sqsubseteq E.

تصميم دوال الخسارة السالبة

خسارة ELEmbeddings السالبة

بالنسبة للتضمين الكروي، تم تصميم ست دوال خسارة سالبة جديدة:

  1. خسارة GCI0 السالبة (بناءً على GCI1-BOT): lossA⋢B(a,b)=max(0,rη(a)+rη(b)fη(a)fη(b)+γ)\text{loss}_{A \not\sqsubseteq B}(a,b) = \max(0, r_\eta(a) + r_\eta(b) - \|f_\eta(a) - f_\eta(b)\| + \gamma)
  2. خسارة GCI1 السالبة: lossAB⋢E(a,b,e)=max(0,rη(a)rη(b)+fη(a)fη(b)γ)+حدود أخرى\text{loss}_{A \sqcap B \not\sqsubseteq E}(a,b,e) = \max(0, -r_\eta(a) - r_\eta(b) + \|f_\eta(a) - f_\eta(b)\| - \gamma) + \text{حدود أخرى}

تم تصميم دوال خسارة سالبة مماثلة لـ ELBE (تضمين الصناديق) و Box2EL.

تصفية العينات السالبة

أثناء عملية التدريب، يتم تصفية العينات السالبة المولدة عشوائياً:

  1. حساب الإغلاق الاستنتاجي لأنطولوجيا التدريب
  2. التحقق مما إذا كانت العينة السالبة المرشحة موجودة في الإغلاق الاستنتاجي
  3. إذا كانت موجودة، يتم إزالتها من العينات السالبة

إعداد التجارب

مجموعات البيانات

  1. بيانات Gene Ontology و STRING:
    • التنبؤ بتفاعلات البروتين-البروتين (PPI)
    • التنبؤ بوظيفة البروتين
    • بناءً على بيانات بروتينات الخميرة
  2. أنطولوجيا الغذاء: للتنبؤ بعلاقات الفئات الفرعية
  3. أنطولوجيا GALEN: أنطولوجيا المفاهيم الطبية، للتنبؤ بعلاقات الفئات الفرعية

مقاييس التقييم

  • Hits@n (n=10,100): دقة أفضل n
  • Mean Rank (MR): متوسط الترتيب (الكلي والدقيق)
  • AUC ROC: المساحة تحت منحنى ROC
  • مقاييس مصفاة: المقاييس بعد إزالة البديهيات من مجموعة التدريب والإغلاق الاستنتاجي

الطرق المقارنة

  • طرق الأساس: ELEmbeddings و ELBE و Box2EL الأصلية
  • النسخ المحسّنة:
    • +l: إضافة دوال خسارة سالبة لجميع الأشكال القياسية
    • +l+n: إضافة دوال خسارة سالبة وتصفية العينات السالبة

تفاصيل التنفيذ

  • استخدام مكتبة mOWL
  • عدد جولات التدريب: 2000 جولة لبيانات STRING و GO، 800 جولة لبيانات Food و GALEN
  • حجم الدفعة: 32,768
  • المحسّن: Adam، جدولة معدل التعلم: ReduceLROnPlateau
  • تحديد المعاملات الفائقة من خلال البحث الشامل

نتائج التجارب

النتائج الرئيسية

التنبؤ بتفاعلات البروتين-البروتين (الجدول 4)

  • ELEmbeddings+l+n: تحسّن Hits@10 من 0.05 إلى 0.06، و Hits@100 من 0.31 إلى 0.37
  • Box2EL+l+n: انخفاض كبير في متوسط الترتيب مع الحفاظ على أداء Hits@100

التنبؤ بوظيفة البروتين (الجدول 3)

  • Box2EL أداء أفضل: Hits@10 يصل إلى 0.28، AUC يصل إلى 0.96
  • بعد إضافة دوال الخسارة السالبة، تحسّن AUC لـ ELEmbeddings و ELBE

التنبؤ بعلاقات الفئات الفرعية

  • أنطولوجيا الغذاء (الجدول 5): تحسّن ELBE+l من 0.01 إلى 0.04 في Hits@10
  • أنطولوجيا GALEN (الجدول 6): تحسّن جميع الطرق في مقاييس Hits@n بعد إضافة دوال الخسارة السالبة

تجارب الاستئصال

تأثير تصفية العينات السالبة

من خلال تجربة التحيز على أنطولوجيا الغذاء (الشكل 3):

  • تقليل نسبة البديهيات المستنتجة في العينات السالبة يحسّن الأداء بشكل مستمر
  • عندما تكون نسبة البديهيات المستنتجة في العينات السالبة عالية، يكون تأثير التصفية أكثر وضوحاً

تحليل التصور

من خلال تصور التضمين ثنائي الأبعاد (الأشكال 1-2):

  • بعد إضافة جميع دوال الخسارة السالبة، يمكن للنموذج الحفاظ بشكل أفضل على البنية المنطقية للأنطولوجيا
  • تصفية العينات السالبة تساعد في بناء نموذج هندسي أكثر دقة

تحليل المقاييس المصفاة

من خلال مقارنة الفروقات في المقاييس قبل وبعد التصفية (عمود NF-F):

  • يمكن للطريقة المحسّنة أن تعطي الأولوية للتنبؤ بالبديهيات المستنتجة
  • يشير هذا إلى أن النموذج بنى نموذج أنطولوجيا أكثر دقة

الأعمال ذات الصلة

تضمين الأنطولوجيا القائم على الرسم البياني

  • إسقاط الأنطولوجيا في بنية رسم بياني، استخدام Word2Vec أو طرق تضمين الرسم البياني للمعرفة
  • المزايا: يمكن التعامل مع معلومات الجوار
  • العيوب: يصعب التعامل مع العوامل المنطقية، لا يمكن تقريب نموذج الأنطولوجيا

تضمين الأنطولوجيا الهندسي

  • ELEmbeddings: استخدام فائق الكرات لتمثيل المفاهيم
  • ELBE/BoxEL: استخدام صناديق محاذاة محورية، دعم عمليات التقاطع
  • Box2EL: استخدام صندوقين لتمثيل المجال والنطاق للأدوار
  • EmEL++/EmELvar: توسيع للتعامل مع سلاسل الأدوار وتضمين الأدوار

طرق إكمال قاعدة المعرفة

  • الطرق القائمة على نماذج اللغة الكبيرة (HalTon والاستدلال باللغة الطبيعية وغيرها)
  • طرق التنبؤ بالروابط القائمة على البنية الرسومية
  • طرق تضمين الأنطولوجيا القائمة على المصفوفات

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. أهمية الإغلاق الاستنتاجي: الاستفادة الكاملة من الإغلاق الاستنتاجي يمكن أن تحسّن بشكل كبير أداء طرق التضمين الهندسي
  2. تأثير جودة العينات السالبة: تجنب استخدام البيانات المستنتجة كعينات سالبة أمر حاسم لتدريب النموذج
  3. تحسين طرق التقييم: طرق التقييم التي تأخذ في الاعتبار الإغلاق الاستنتاجي يمكن أن تعكس بشكل أكثر دقة قدرة النموذج على إكمال قاعدة المعرفة
  4. عمومية الطريقة: استراتيجية التحسين تنطبق على طرق تضمين هندسية متعددة

القيود

  1. التعقيد الحسابي: قد يكون حساب الإغلاق الاستنتاجي غير فعال على الأنطولوجيات الكبيرة
  2. الخوارزميات التقريبية: الخوارزميات المقترحة لحساب الإغلاق الاستنتاجي سليمة لكن غير كاملة
  3. قيود التقييم: مقاييس التقييم الموجودة لا تزال تعتمد على ترتيب البديهيات الفردية، ولا تأخذ في الاعتبار التشابه الدلالي
  4. نطاق التطبيق: تركز بشكل أساسي على EL++\mathcal{EL}^{++}، والقابلية للتوسع إلى المنطق الوصفي الأكثر تعبيراً محدودة

الاتجاهات المستقبلية

  1. تطوير خوارزميات أكثر كفاءة لحساب الإغلاق الاستنتاجي
  2. تصميم مقاييس تقييم تأخذ في الاعتبار التشابه الدلالي
  3. التوسع إلى المنطق الوصفي الأكثر تعبيراً
  4. بناء مجموعات بيانات معيارية أكثر لإكمال قاعدة المعرفة

التقييم المتعمق

المزايا

  1. تحديد المشكلة دقيق: تحديد دقيق للمشاكل الرئيسية في الطرق الموجودة فيما يتعلق باختيار العينات السالبة والاستفادة من الإغلاق الاستنتاجي
  2. تصميم الطريقة معقول: دوال الخسارة السالبة واستراتيجيات التصفية المقترحة لها دوافع نظرية كافية
  3. التجارب شاملة: التحقق من فعالية الطريقة على مجموعات بيانات ومهام متعددة، بما في ذلك تحليل التصور
  4. المساهمة النظرية: توفير خوارزمية سليمة لحساب الإغلاق الاستنتاجي، ذات قيمة نظرية
  5. قوة عامة قوية: استراتيجية التحسين تنطبق على طرق تضمين هندسية متعددة

أوجه القصور

  1. تحسن الأداء محدود: التحسن في بعض المهام صغير نسبياً، قد لا يكون كافياً لتبرير التعقيد الإضافي
  2. النفقات الحسابية: يزيد حساب الإغلاق الاستنتاجي وتصفية العينات السالبة من وقت التدريب، لكن الورقة لم تحلل هذه النفقات بشكل كافٍ
  3. مجموعات البيانات المعيارية: حجم مجموعات البيانات المستخدمة صغير نسبياً، وتأثير التطبيق على نطاق واسع يحتاج إلى التحقق
  4. المقارنة غير كافية: نقص المقارنة مع أحدث طرق إكمال قاعدة المعرفة القائمة على نماذج اللغة الكبيرة

القيمة التأثيرية

  1. القيمة الأكاديمية: توفير أفكار تحسين مهمة لمجال تضمين الأنطولوجيا الهندسي
  2. القيمة العملية: يمكن تطبيق الطريقة المحسّنة مباشرة على إكمال قاعدة المعرفة في المجالات الطبية الحيوية وغيرها
  3. قابلية إعادة الإنتاج: تم نشر الكود والبيانات علناً، مما يسهل إعادة الإنتاج والتوسع

السيناريوهات المناسبة

  1. قواعس المعرفة الرسمية: مناسبة بشكل خاص للأنطولوجيات ذات البنية المنطقية الغنية
  2. المجال الطبي الحيوي: أداء جيدة في مهام مثل أنطولوجيا الجينات والتنبؤ بوظيفة البروتين
  3. التطبيقات التي تتطلب قابلية التفسير: يوفر التضمين الهندسي بنية نموذج قابلة للتفسير

المراجع

تستشهد الورقة بـ 50 مرجعاً ذا صلة، تغطي المنطق الوصفي وتضمين الأنطولوجيا وإكمال الرسم البياني للمعرفة والمجالات ذات الصلة الأخرى، مما يوفر أساساً نظرياً متيناً للبحث.