2025-11-21T19:10:17.554976

DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion

Mashkova, Zhapa-Camacho, Hoehndorf
Ontology embeddings map classes, roles, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several optimization-based embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives and formulated evaluation methods for knowledge base completion. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion.
academic

DELE: Deductive EL++\mathcal{EL}^{++} Embeddings for Knowledge Base Completion

基本信息

  • 论文ID: 2411.01574
  • 标题: DELE: Deductive EL++\mathcal{EL}^{++} Embeddings for Knowledge Base Completion
  • 作者: Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf
  • 机构: King Abdullah University of Science and Technology (KAUST)
  • 分类: cs.AI
  • 会议: NeSy 2024 Special Issue
  • 论文链接: https://arxiv.org/abs/2411.01574

摘要

本文针对描述逻辑EL++\mathcal{EL}^{++}的本体嵌入方法在知识库补全任务中的局限性,提出了DELE(Deductive EL++\mathcal{EL}^{++} Embeddings)方法。现有的几何嵌入方法虽然能够显式生成本体模型,但存在两个关键问题:(1)无法区分不可证明的陈述和可证伪的陈述,可能将蕴含的陈述作为负样本;(2)未充分利用本体的演绎闭包来识别推断但未断言的陈述。本文通过设计新的负损失函数和评估方法,有效利用演绎闭包改进了知识库补全性能。

研究背景与动机

问题定义

本体嵌入旨在将本体中的类、角色和个体映射到Rn\mathbb{R}^n空间中,以便计算实体间相似性或推断新公理。对于EL++\mathcal{EL}^{++}描述逻辑,已有多种基于优化的几何嵌入方法,如ELEmbeddings、ELBE和Box2EL等。

现有方法的局限性

  1. 负样本选择问题:现有方法随机选择负样本时,可能将本体中蕴含的真实陈述误作为负例,影响模型训练质量
  2. 演绎闭包利用不足:未充分考虑本体的演绎闭包,即所有可推导出的陈述集合,导致无法有效区分已推断和未断言的知识
  3. 评估方法局限:现有评估方法主要来自知识图谱补全任务,未考虑本体中丰富的蕴含关系

研究动机

知识库补全是一个重要任务,需要预测应该添加到知识库中但尚未表示的公理。对于形式化知识库而言,这包括演绎推理(预测蕴含的公理)和归纳推理(预测新颖的非蕴含公理)两种类型。本文旨在通过更好地利用演绎闭包来改进几何嵌入方法。

核心贡献

  1. 提出了考虑演绎闭包的负损失函数:为所有EL++\mathcal{EL}^{++}标准形式设计了新的负损失函数,避免将蕴含陈述作为负样本
  2. 设计了快速近似演绎闭包计算算法:提出了计算EL++\mathcal{EL}^{++}理论演绎闭包的声音算法,用于改进训练过程中的负样本选择
  3. 制定了考虑演绎闭包的评估方法:针对知识库补全任务设计了新的评估指标,能够区分蕴含和非蕴含公理的预测性能
  4. 扩展了多种几何嵌入方法:将改进应用于ELEmbeddings、ELBE和Box2EL三种代表性方法,证明了通用性

方法详解

任务定义

知识库补全任务定义为:给定一个EL++\mathcal{EL}^{++}本体TT,预测应该添加到TT中的新公理。任务可进一步细分为:

  • 演绎补全:预测在演绎闭包TT^⊢中但未在TT中显式断言的公理
  • 归纳补全:预测不在演绎闭包中的新颖公理

演绎闭包计算

标准化形式

EL++\mathcal{EL}^{++}公理可标准化为7种形式(见表1):

  • GCI0: ABA \sqsubseteq B
  • GCI1: ABEA \sqcap B \sqsubseteq E
  • GCI2: Ar.BA \sqsubseteq \exists r.B
  • GCI3: r.AB\exists r.A \sqsubseteq B
  • GCI0-BOT: AA \sqsubseteq \perp
  • GCI1-BOT: ABA \sqcap B \sqsubseteq \perp
  • GCI3-BOT: r.A\exists r.A \sqsubseteq \perp

演绎闭包算法

本文提出两个算法来计算演绎闭包的近似:

算法1:基于本体中明确表示的公理,使用推理规则推导蕴含公理。例如:

A ⊓ B ⊑ E, A' ⊑ A, B' ⊑ B, E ⊑ E'
─────────────────────────────────────
         A' ⊓ B' ⊑ E'

算法2:基于任意概念和角色名,添加逻辑上必然成立的公理,如AEA \sqcap \perp \sqsubseteq E

负损失函数设计

ELEmbeddings负损失

对于球形嵌入,设计了6种新的负损失函数:

  1. GCI0负损失(基于GCI1-BOT): lossA⋢B(a,b)=max(0,rη(a)+rη(b)fη(a)fη(b)+γ)\text{loss}_{A \not\sqsubseteq B}(a,b) = \max(0, r_\eta(a) + r_\eta(b) - \|f_\eta(a) - f_\eta(b)\| + \gamma)
  2. GCI1负损失lossAB⋢E(a,b,e)=max(0,rη(a)rη(b)+fη(a)fη(b)γ)+其他项\text{loss}_{A \sqcap B \not\sqsubseteq E}(a,b,e) = \max(0, -r_\eta(a) - r_\eta(b) + \|f_\eta(a) - f_\eta(b)\| - \gamma) + \text{其他项}

类似地为ELBE(盒子嵌入)和Box2EL设计了相应的负损失函数。

负样本过滤

在训练过程中,对随机生成的负样本进行过滤:

  1. 计算训练本体的演绎闭包
  2. 检查候选负样本是否在演绎闭包中
  3. 如果在闭包中,则从负样本中移除

实验设置

数据集

  1. Gene Ontology & STRING数据
    • 蛋白质-蛋白质相互作用预测(PPI)
    • 蛋白质功能预测
    • 基于酵母蛋白质数据
  2. Food Ontology:用于子类关系预测
  3. GALEN Ontology:医学概念本体,用于子类关系预测

评价指标

  • Hits@n (n=10,100):排名前n的准确率
  • Mean Rank (MR):平均排名(宏观和微观)
  • AUC ROC:ROC曲线下面积
  • 过滤指标:移除训练集和演绎闭包中的公理后的指标

对比方法

  • 基线方法:原始的ELEmbeddings、ELBE、Box2EL
  • 改进版本
    • +l:添加所有标准形式的负损失
    • +l+n:添加负损失并进行负样本过滤

实现细节

  • 使用mOWL库实现
  • 训练轮数:STRING & GO数据2000轮,Food & GALEN数据800轮
  • 批大小:32,768
  • 优化器:Adam,学习率调度器:ReduceLROnPlateau
  • 超参数通过网格搜索确定

实验结果

主要结果

蛋白质-蛋白质相互作用预测(表4)

  • ELEmbeddings+l+n:Hits@10从0.05提升到0.06,Hits@100从0.31提升到0.37
  • Box2EL+l+n:在保持Hits@100性能的同时,显著降低了平均排名

蛋白质功能预测(表3)

  • Box2EL表现最佳:Hits@10达到0.28,AUC达到0.96
  • 添加负损失后,ELEmbeddings和ELBE的AUC有所提升

子类关系预测

  • Food Ontology(表5):ELBE+l在Hits@10上从0.01提升到0.04
  • GALEN Ontology(表6):所有方法在添加负损失后Hits@n指标均有改善

消融实验

负样本过滤效果

通过在Food Ontology上的偏置实验(图3)发现:

  • 减少负样本中蕴含公理的比例能够持续改进性能
  • 当负样本中蕴含公理比例较高时,过滤效果更加明显

可视化分析

通过2D嵌入可视化(图1-2)显示:

  • 添加所有负损失后,模型能更好地保持本体的逻辑结构
  • 负样本过滤有助于构建更忠实的几何模型

过滤指标分析

通过比较过滤前后的指标差异(NF-F列)发现:

  • 改进方法能够优先预测蕴含的公理
  • 这表明模型构建了更准确的本体模型

相关工作

图基础本体嵌入

  • 将本体投影为图结构,使用Word2Vec或知识图谱嵌入方法
  • 优点:能处理邻接信息
  • 缺点:难以处理逻辑操作符,无法近似本体模型

几何本体嵌入

  • ELEmbeddings:使用超球表示概念
  • ELBE/BoxEL:使用轴对齐盒子,支持交集操作
  • Box2EL:用两个盒子表示角色的定义域和值域
  • EmEL++/EmELvar:扩展处理角色链和角色包含

知识库补全方法

  • 基于大语言模型的方法(HalTon、自然语言推理等)
  • 基于图结构的链接预测方法
  • 基于矩阵的本体嵌入方法

结论与讨论

主要结论

  1. 演绎闭包的重要性:充分利用演绎闭包能够显著改进几何嵌入方法的性能
  2. 负样本质量影响:避免将蕴含陈述作为负样本对模型训练至关重要
  3. 评估方法改进:考虑演绎闭包的评估方法能更准确反映模型的知识库补全能力
  4. 方法通用性:改进策略适用于多种几何嵌入方法

局限性

  1. 计算复杂度:演绎闭包计算可能在大规模本体上存在效率问题
  2. 近似算法:提出的演绎闭包算法是声音但不完备的
  3. 评估局限:现有评估指标仍基于单个公理排名,未考虑语义相似性
  4. 适用范围:主要针对EL++\mathcal{EL}^{++},对更表达性描述逻辑的扩展性有限

未来方向

  1. 开发更高效的演绎闭包计算算法
  2. 设计考虑语义相似性的评估指标
  3. 扩展到更表达性的描述逻辑
  4. 构建更多知识库补全基准数据集

深度评价

优点

  1. 问题识别准确:准确识别了现有方法在负样本选择和演绎闭包利用方面的关键问题
  2. 方法设计合理:提出的负损失函数和过滤策略在理论上有充分的动机
  3. 实验全面:在多个数据集和任务上验证了方法的有效性,包括可视化分析
  4. 理论贡献:提供了演绎闭包计算的声音算法,具有理论价值
  5. 通用性强:改进策略适用于多种几何嵌入方法

不足

  1. 性能提升有限:在某些任务上改进幅度较小,可能不足以证明额外复杂度的合理性
  2. 计算开销:演绎闭包计算和负样本过滤增加了训练时间,但论文未充分分析这一开销
  3. 基准数据集:使用的数据集规模相对较小,大规模应用的效果有待验证
  4. 对比不充分:缺少与基于LLM的最新知识库补全方法的对比

影响力

  1. 学术价值:为几何本体嵌入领域提供了重要的改进思路
  2. 实用价值:改进的方法可直接应用于生物医学等领域的知识库补全
  3. 可复现性:代码和数据已公开,便于复现和扩展

适用场景

  1. 形式化知识库:特别适用于具有丰富逻辑结构的本体
  2. 生物医学领域:在基因本体、蛋白质功能预测等任务中表现良好
  3. 需要解释性的应用:几何嵌入提供了可解释的模型结构

参考文献

论文引用了50篇相关文献,涵盖了描述逻辑、本体嵌入、知识图谱补全等相关领域的重要工作,为研究提供了坚实的理论基础。