2025-11-21T19:10:17.554976

DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion

Mashkova, Zhapa-Camacho, Hoehndorf
Ontology embeddings map classes, roles, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several optimization-based embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives and formulated evaluation methods for knowledge base completion. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion.
academic

DELE: ज्ञान आधार पूर्णता के लिए演绎EL++\mathcal{EL}^{++} एम्बेडिंग

मूल जानकारी

  • पेपर ID: 2411.01574
  • शीर्षक: DELE: Deductive EL++\mathcal{EL}^{++} Embeddings for Knowledge Base Completion
  • लेखक: Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf
  • संस्थान: King Abdullah University of Science and Technology (KAUST)
  • वर्गीकरण: cs.AI
  • सम्मेलन: NeSy 2024 विशेष अंक
  • पेपर लिंक: https://arxiv.org/abs/2411.01574

सारांश

यह पेपर विवरणात्मक तर्क EL++\mathcal{EL}^{++} के लिए ज्ञान आधार पूर्णता कार्य में ऑन्टोलॉजी एम्बेडिंग विधियों की सीमाओं को संबोधित करता है। DELE (演绎 EL++\mathcal{EL}^{++} एम्बेडिंग) विधि प्रस्तावित की गई है। मौजूदा ज्यामितीय एम्बेडिंग विधियां, हालांकि ऑन्टोलॉजी मॉडल को स्पष्ट रूप से उत्पन्न कर सकती हैं, दो महत्वपूर्ण समस्याओं से ग्रस्त हैं: (1) अप्रमाणित कथनों और खंडन योग्य कथनों के बीच अंतर नहीं कर सकते, संभवतः निहित कथनों को नकारात्मक नमूनों के रूप में लेते हैं; (2) अनुमानित लेकिन अप्रमाणित कथनों की पहचान करने के लिए演绎बंद का पर्याप्त उपयोग नहीं करते हैं। यह पेपर नए नकारात्मक हानि कार्य और मूल्यांकन विधियों को डिजाइन करके,演绎बंद का प्रभावी ढंग से उपयोग करके ज्ञान आधार पूर्णता प्रदर्शन में सुधार करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

ऑन्टोलॉजी एम्बेडिंग का उद्देश्य ऑन्टोलॉजी में वर्गों, भूमिकाओं और व्यक्तियों को Rn\mathbb{R}^n स्थान में मैप करना है, ताकि संस्थाओं के बीच समानता की गणना की जा सके या नए स्वयंसिद्ध अनुमान लगाए जा सकें। EL++\mathcal{EL}^{++} विवरणात्मक तर्क के लिए, ELEmbeddings, ELBE और Box2EL जैसी कई अनुकूलन-आधारित ज्यामितीय एम्बेडिंग विधियां मौजूद हैं।

मौजूदा विधियों की सीमाएं

  1. नकारात्मक नमूना चयन समस्या: मौजूदा विधियां नकारात्मक नमूने यादृच्छिक रूप से चुनते समय, ऑन्टोलॉजी में निहित वास्तविक कथनों को गलती से नकारात्मक उदाहरणों के रूप में ले सकते हैं, जिससे मॉडल प्रशिक्षण गुणवत्ता प्रभावित होती है
  2. 演绎बंद उपयोग अपर्याप्त: ऑन्टोलॉजी के演绎बंद पर पर्याप्त विचार नहीं किया जाता है, अर्थात् सभी व्युत्पन्न कथनों का समुच्चय, जिससे पहले से अनुमानित और अप्रमाणित ज्ञान के बीच प्रभावी ढंग से अंतर नहीं किया जा सकता है
  3. मूल्यांकन विधि सीमाएं: मौजूदा मूल्यांकन विधियां मुख्य रूप से ज्ञान ग्राफ पूर्णता कार्य से आती हैं, ऑन्टोलॉजी में समृद्ध निहितार्थ संबंधों पर विचार नहीं करती हैं

अनुसंधान प्रेरणा

ज्ञान आधार पूर्णता एक महत्वपूर्ण कार्य है जिसके लिए ऐसे स्वयंसिद्धों की भविष्यवाणी की आवश्यकता है जो ज्ञान आधार में जोड़े जाने चाहिए लेकिन अभी तक प्रतिनिधित्व नहीं किए गए हैं। औपचारिक ज्ञान आधारों के लिए, इसमें演绎तर्क (निहित स्वयंसिद्धों की भविष्यवाणी) और आगमनात्मक तर्क (नए गैर-निहित स्वयंसिद्धों की भविष्यवाणी) दोनों प्रकार शामिल हैं। यह पेपर演绎बंद का बेहतर उपयोग करके ज्यामितीय एम्बेडिंग विधियों में सुधार करने का लक्ष्य रखता है।

मुख्य योगदान

  1. 演绎बंद पर विचार करने वाले नकारात्मक हानि कार्य का प्रस्ताव: सभी EL++\mathcal{EL}^{++} मानक रूपों के लिए नए नकारात्मक हानि कार्य डिजाइन किए गए हैं, जो निहित कथनों को नकारात्मक नमूनों के रूप में लेने से बचते हैं
  2. तेजी से अनुमानित演绎बंद गणना एल्गोरिथ्म डिजाइन: EL++\mathcal{EL}^{++} सिद्धांत演绎बंद की गणना के लिए एक ध्वनि एल्गोरिथ्म प्रस्तावित किया गया है, जिसका उपयोग प्रशिक्षण प्रक्रिया में नकारात्मक नमूना चयन में सुधार के लिए किया जाता है
  3. 演绎बंद पर विचार करने वाली मूल्यांकन विधि का निर्माण: ज्ञान आधार पूर्णता कार्य के लिए नई मूल्यांकन मेट्रिक्स डिजाइन की गई हैं, जो निहित और गैर-निहित स्वयंसिद्धों की भविष्यवाणी प्रदर्शन को अलग कर सकते हैं
  4. कई ज्यामितीय एम्बेडिंग विधियों का विस्तार: सुधार को ELEmbeddings, ELBE और Box2EL तीन प्रतिनिधि विधियों पर लागू किया गया है, जिससे सामान्यता सिद्ध होती है

विधि विवरण

कार्य परिभाषा

ज्ञान आधार पूर्णता कार्य को इस प्रकार परिभाषित किया गया है: एक EL++\mathcal{EL}^{++} ऑन्टोलॉजी TT दी गई है, TT में जोड़े जाने वाले नए स्वयंसिद्धों की भविष्यवाणी करें। कार्य को आगे विभाजित किया जा सकता है:

  • 演绎पूर्णता:演绎बंद TT^⊢ में लेकिन TT में स्पष्ट रूप से अप्रमाणित स्वयंसिद्धों की भविष्यवाणी करना
  • आगमनात्मक पूर्णता:演绎बंद में नहीं आने वाले नए स्वयंसिद्धों की भविष्यवाणी करना

###演绎बंद गणना

मानक रूप

EL++\mathcal{EL}^{++} स्वयंसिद्धों को 7 रूपों में मानकीकृत किया जा सकता है (तालिका 1 देखें):

  • GCI0: ABA \sqsubseteq B
  • GCI1: ABEA \sqcap B \sqsubseteq E
  • GCI2: Ar.BA \sqsubseteq \exists r.B
  • GCI3: r.AB\exists r.A \sqsubseteq B
  • GCI0-BOT: AA \sqsubseteq \perp
  • GCI1-BOT: ABA \sqcap B \sqsubseteq \perp
  • GCI3-BOT: r.A\exists r.A \sqsubseteq \perp

####演绎बंद एल्गोरिथ्म 演绎बंद के अनुमान की गणना के लिए दो एल्गोरिदम प्रस्तावित किए गए हैं:

एल्गोरिथ्म 1: ऑन्टोलॉजी में स्पष्ट रूप से प्रतिनिधित किए गए स्वयंसिद्धों के आधार पर, अनुमान नियमों का उपयोग करके निहित स्वयंसिद्धों को व्युत्पन्न करें। उदाहरण के लिए:

A ⊓ B ⊑ E, A' ⊑ A, B' ⊑ B, E ⊑ E'
─────────────────────────────────────
         A' ⊓ B' ⊑ E'

एल्गोरिथ्म 2: मनमानी अवधारणाओं और भूमिका नामों के आधार पर, तार्किक रूप से आवश्यक स्वयंसिद्धों को जोड़ें, जैसे AEA \sqcap \perp \sqsubseteq E

नकारात्मक हानि कार्य डिजाइन

ELEmbeddings नकारात्मक हानि

गोलाकार एम्बेडिंग के लिए, 6 नई नकारात्मक हानि कार्यें डिजाइन की गई हैं:

  1. GCI0 नकारात्मक हानि (GCI1-BOT पर आधारित): lossA⋢B(a,b)=max(0,rη(a)+rη(b)fη(a)fη(b)+γ)\text{loss}_{A \not\sqsubseteq B}(a,b) = \max(0, r_\eta(a) + r_\eta(b) - \|f_\eta(a) - f_\eta(b)\| + \gamma)
  2. GCI1 नकारात्मक हानि: lossAB⋢E(a,b,e)=max(0,rη(a)rη(b)+fη(a)fη(b)γ)+अन्य पद\text{loss}_{A \sqcap B \not\sqsubseteq E}(a,b,e) = \max(0, -r_\eta(a) - r_\eta(b) + \|f_\eta(a) - f_\eta(b)\| - \gamma) + \text{अन्य पद}

इसी तरह ELBE (बॉक्स एम्बेडिंग) और Box2EL के लिए संबंधित नकारात्मक हानि कार्यें डिजाइन की गई हैं।

नकारात्मक नमूना फ़िल्टरिंग

प्रशिक्षण प्रक्रिया के दौरान, यादृच्छिक रूप से उत्पन्न नकारात्मक नमूनों को फ़िल्टर किया जाता है:

  1. प्रशिक्षण ऑन्टोलॉजी का演绎बंद गणना करें
  2. जांचें कि क्या उम्मीदवार नकारात्मक नमूना演绎बंद में है
  3. यदि बंद में है, तो नकारात्मक नमूनों से हटाएं

प्रयोगात्मक सेटअप

डेटासेट

  1. जीन ऑन्टोलॉजी और STRING डेटा:
    • प्रोटीन-प्रोटीन इंटरेक्शन भविष्यवाणी (PPI)
    • प्रोटीन कार्य भविष्यवाणी
    • खमीर प्रोटीन डेटा पर आधारित
  2. खाद्य ऑन्टोलॉजी: उप-वर्ग संबंध भविष्यवाणी के लिए
  3. GALEN ऑन्टोलॉजी: चिकित्सा अवधारणा ऑन्टोलॉजी, उप-वर्ग संबंध भविष्यवाणी के लिए

मूल्यांकन मेट्रिक्स

  • Hits@n (n=10,100): शीर्ष n की सटीकता
  • Mean Rank (MR): औसत रैंकिंग (मैक्रो और माइक्रो)
  • AUC ROC: ROC वक्र के तहत क्षेत्र
  • फ़िल्टर किए गए मेट्रिक्स: प्रशिक्षण सेट और演绎बंद में स्वयंसिद्धों को हटाने के बाद के मेट्रिक्स

तुलनात्मक विधियां

  • आधार विधियां: मूल ELEmbeddings, ELBE, Box2EL
  • सुधारित संस्करण:
    • +l: सभी मानक रूपों की नकारात्मक हानि जोड़ें
    • +l+n: नकारात्मक हानि जोड़ें और नकारात्मक नमूना फ़िल्टरिंग करें

कार्यान्वयन विवरण

  • mOWL लाइब्रेरी का उपयोग करके कार्यान्वयन
  • प्रशिक्षण राउंड: STRING और GO डेटा के लिए 2000 राउंड, खाद्य और GALEN डेटा के लिए 800 राउंड
  • बैच आकार: 32,768
  • अनुकूलक: Adam, सीखने की दर शेड्यूलर: ReduceLROnPlateau
  • हाइपरपैरामीटर ग्रिड खोज के माध्यम से निर्धारित

प्रयोगात्मक परिणाम

मुख्य परिणाम

प्रोटीन-प्रोटीन इंटरेक्शन भविष्यवाणी (तालिका 4)

  • ELEmbeddings+l+n: Hits@10 0.05 से 0.06 तक, Hits@100 0.31 से 0.37 तक बढ़ा
  • Box2EL+l+n: Hits@100 प्रदर्शन बनाए रखते हुए, औसत रैंकिंग में उल्लेखनीय कमी

प्रोटीन कार्य भविष्यवाणी (तालिका 3)

  • Box2EL सर्वश्रेष्ठ प्रदर्शन: Hits@10 0.28 तक, AUC 0.96 तक
  • नकारात्मक हानि जोड़ने के बाद, ELEmbeddings और ELBE का AUC में सुधार हुआ

उप-वर्ग संबंध भविष्यवाणी

  • खाद्य ऑन्टोलॉजी (तालिका 5): ELBE+l Hits@10 में 0.01 से 0.04 तक बढ़ा
  • GALEN ऑन्टोलॉजी (तालिका 6): सभी विधियों में नकारात्मक हानि जोड़ने के बाद Hits@n मेट्रिक्स में सुधार

विलोपन प्रयोग

नकारात्मक नमूना फ़िल्टरिंग प्रभाव

खाद्य ऑन्टोलॉजी पर पूर्वाग्रह प्रयोग (चित्र 3) के माध्यम से पाया गया:

  • नकारात्मक नमूनों में निहित स्वयंसिद्धों के अनुपात को कम करना निरंतर प्रदर्शन में सुधार कर सकता है
  • जब नकारात्मक नमूनों में निहित स्वयंसिद्धों का अनुपात अधिक होता है, तो फ़िल्टरिंग प्रभाव अधिक स्पष्ट होता है

दृश्य विश्लेषण

2D एम्बेडिंग दृश्य (चित्र 1-2) के माध्यम से दिखाया गया है:

  • सभी नकारात्मक हानि जोड़ने के बाद, मॉडल ऑन्टोलॉजी की तार्किक संरचना को बेहतर ढंग से संरक्षित कर सकता है
  • नकारात्मक नमूना फ़िल्टरिंग अधिक विश्वसनीय ज्यामितीय मॉडल बनाने में सहायता करता है

फ़िल्टर किए गए मेट्रिक्स विश्लेषण

फ़िल्टरिंग से पहले और बाद के मेट्रिक्स अंतर की तुलना (NF-F कॉलम) के माध्यम से पाया गया:

  • सुधारी गई विधि निहित स्वयंसिद्धों की भविष्यवाणी को प्राथमिकता दे सकती है
  • यह दर्शाता है कि मॉडल ने अधिक सटीक ऑन्टोलॉजी मॉडल बनाया है

संबंधित कार्य

ग्राफ-आधारित ऑन्टोलॉजी एम्बेडिंग

  • ऑन्टोलॉजी को ग्राफ संरचना में प्रोजेक्ट करना, Word2Vec या ज्ञान ग्राफ एम्बेडिंग विधियों का उपयोग करना
  • लाभ: आसन्न जानकारी को संभाल सकते हैं
  • नुकसान: तार्किक ऑपरेटरों को संभालना मुश्किल है, ऑन्टोलॉजी मॉडल को अनुमानित नहीं कर सकते हैं

ज्यामितीय ऑन्टोलॉजी एम्बेडिंग

  • ELEmbeddings: अवधारणाओं का प्रतिनिधित्व करने के लिए हाइपरस्फीयर का उपयोग
  • ELBE/BoxEL: अक्ष-संरेखित बॉक्स का उपयोग, चौराहे संचालन का समर्थन करता है
  • Box2EL: भूमिका के डोमेन और रेंज का प्रतिनिधित्व करने के लिए दो बॉक्स का उपयोग
  • EmEL++/EmELvar: भूमिका श्रृंखला और भूमिका समावेश को संभालने के लिए विस्तारित

ज्ञान आधार पूर्णता विधियां

  • बड़े भाषा मॉडल पर आधारित विधियां (HalTon, प्राकृतिक भाषा तर्क आदि)
  • ग्राफ संरचना पर आधारित लिंक भविष्यवाणी विधियां
  • मैट्रिक्स-आधारित ऑन्टोलॉजी एम्बेडिंग विधियां

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. 演绎बंद का महत्व:演绎बंद का पर्याप्त उपयोग ज्यामितीय एम्बेडिंग विधियों के प्रदर्शन में उल्लेखनीय सुधार कर सकता है
  2. नकारात्मक नमूना गुणवत्ता प्रभाव: निहित कथनों को नकारात्मक नमूनों के रूप में लेने से बचना मॉडल प्रशिक्षण के लिए महत्वपूर्ण है
  3. मूल्यांकन विधि सुधार:演绎बंद पर विचार करने वाली मूल्यांकन विधि मॉडल की ज्ञान आधार पूर्णता क्षमता को अधिक सटीक रूप से प्रतिबिंबित कर सकती है
  4. विधि सामान्यता: सुधार रणनीति कई ज्यामितीय एम्बेडिंग विधियों पर लागू होती है

सीमाएं

  1. गणना जटिलता:演绎बंद गणना बड़े पैमाने पर ऑन्टोलॉजी पर दक्षता समस्याएं पेश कर सकती है
  2. अनुमानित एल्गोरिथ्म: प्रस्तावित演绎बंद एल्गोरिथ्म ध्वनि लेकिन अधूरा है
  3. मूल्यांकन सीमाएं: मौजूदा मूल्यांकन मेट्रिक्स अभी भी एकल स्वयंसिद्ध रैंकिंग पर आधारित हैं, शब्दार्थ समानता पर विचार नहीं करते हैं
  4. लागू क्षेत्र: मुख्य रूप से EL++\mathcal{EL}^{++} के लिए, अधिक अभिव्यक्तिशील विवरणात्मक तर्क के विस्तार में सीमित

भविष्य की दिशाएं

1.演绎बंद गणना के लिए अधिक कुशल एल्गोरिदम विकसित करना 2. शब्दार्थ समानता पर विचार करने वाली मूल्यांकन मेट्रिक्स डिजाइन करना 3. अधिक अभिव्यक्तिशील विवरणात्मक तर्क तक विस्तार करना 4. अधिक ज्ञान आधार पूर्णता बेंचमार्क डेटासेट बनाना

गहन मूल्यांकन

शक्तियां

  1. समस्या पहचान सटीक: नकारात्मक नमूना चयन और演绎बंद उपयोग के संदर्भ में मौजूदा विधियों की मुख्य समस्याओं की सटीक पहचान
  2. विधि डिजाइन तर्कसंगत: प्रस्तावित नकारात्मक हानि कार्य और फ़िल्टरिंग रणनीति सैद्धांतिक रूप से पर्याप्त प्रेरणा रखते हैं
  3. प्रयोग व्यापक: कई डेटासेट और कार्यों पर विधि की प्रभावशीलता सत्यापित की गई है, दृश्य विश्लेषण सहित
  4. सैद्धांतिक योगदान:演绎बंद गणना के लिए ध्वनि एल्गोरिथ्म प्रदान करता है, सैद्धांतिक मूल्य रखता है
  5. सामान्यता मजबूत: सुधार रणनीति कई ज्यामितीय एम्बेडिंग विधियों पर लागू होती है

कमियां

  1. प्रदर्शन सुधार सीमित: कुछ कार्यों पर सुधार का आकार छोटा है, अतिरिक्त जटिलता की औचित्यता साबित करने के लिए पर्याप्त नहीं हो सकता है
  2. गणना ओवरहेड:演绎बंद गणना और नकारात्मक नमूना फ़िल्टरिंग प्रशिक्षण समय में वृद्धि करते हैं, लेकिन पेपर इस ओवरहेड का पर्याप्त विश्लेषण नहीं करता है
  3. बेंचमार्क डेटासेट: उपयोग किए गए डेटासेट का आकार अपेक्षाकृत छोटा है, बड़े पैमाने पर अनुप्रयोग का प्रभाव सत्यापित किया जाना बाकी है
  4. तुलना अपर्याप्त: LLM-आधारित नवीनतम ज्ञान आधार पूर्णता विधियों के साथ तुलना की कमी

प्रभाव

  1. शैक्षणिक मूल्य: ज्यामितीय ऑन्टोलॉजी एम्बेडिंग क्षेत्र के लिए महत्वपूर्ण सुधार विचार प्रदान करता है
  2. व्यावहारिक मूल्य: सुधारी गई विधि जैव चिकित्सा आदि क्षेत्रों में ज्ञान आधार पूर्णता पर सीधे लागू की जा सकती है
  3. पुनरुत्पादनीयता: कोड और डेटा सार्वजनिक किए गए हैं, पुनरुत्पादन और विस्तार में सुविधा प्रदान करते हैं

लागू परिदृश्य

  1. औपचारिक ज्ञान आधार: विशेष रूप से समृद्ध तार्किक संरचना वाले ऑन्टोलॉजी के लिए उपयुक्त
  2. जैव चिकित्सा क्षेत्र: जीन ऑन्टोलॉजी, प्रोटीन कार्य भविष्यवाणी आदि कार्यों में अच्छा प्रदर्शन
  3. व्याख्या योग्यता की आवश्यकता वाले अनुप्रयोग: ज्यामितीय एम्बेडिंग व्याख्या योग्य मॉडल संरचना प्रदान करता है

संदर्भ

पेपर में विवरणात्मक तर्क, ऑन्टोलॉजी एम्बेडिंग, ज्ञान ग्राफ पूर्णता और अन्य संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हुए 50 संदर्भों का हवाला दिया गया है, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करता है।