2025-11-21T19:10:17.554976

DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion

Mashkova, Zhapa-Camacho, Hoehndorf

Ontology embeddings map classes, roles, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several optimization-based embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives and formulated evaluation methods for knowledge base completion. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion.

academic

DELE: 지식 기반 완성을 위한 연역적 $\mathcal{EL}^{++}$ 임베딩

기본 정보

논문 ID: 2411.01574
제목: DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion
저자: Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf
소속: King Abdullah University of Science and Technology (KAUST)
분류: cs.AI
학술대회: NeSy 2024 특별호
논문 링크: https://arxiv.org/abs/2411.01574

초록

본 논문은 기술 논리(Description Logic) $\mathcal{EL}^{++}$ 의 온톨로지 임베딩 방법이 지식 기반 완성 작업에서 갖는 한계를 다루며, DELE(연역적 $\mathcal{EL}^{++}$ 임베딩) 방법을 제안한다. 기존의 기하학적 임베딩 방법은 온톨로지 모델을 명시적으로 생성할 수 있지만 두 가지 핵심 문제가 있다: (1) 증명 불가능한 진술과 반박 가능한 진술을 구별할 수 없어 함축된 진술을 음성 샘플로 취급할 수 있음, (2) 온톨로지의 연역적 폐포(deductive closure)를 충분히 활용하여 추론되었으나 명시적으로 단언되지 않은 진술을 식별하지 못함. 본 논문은 새로운 음성 손실 함수와 평가 방법을 설계하여 연역적 폐포를 효과적으로 활용함으로써 지식 기반 완성 성능을 개선한다.

연구 배경 및 동기

문제 정의

온톨로지 임베딩은 온톨로지의 클래스, 역할(role) 및 개체를 $\mathbb{R}^n$ 공간에 매핑하여 엔티티 간 유사성을 계산하거나 새로운 공리를 추론하는 것을 목표로 한다. $\mathcal{EL}^{++}$ 기술 논리의 경우, ELEmbeddings, ELBE, Box2EL 등 최적화 기반의 여러 기하학적 임베딩 방법이 존재한다.

기존 방법의 한계

음성 샘플 선택 문제: 기존 방법이 음성 샘플을 무작위로 선택할 때, 온톨로지에 함축된 참인 진술을 오류로 음성 예제로 취급할 수 있어 모델 훈련 품질에 영향을 미침
연역적 폐포 활용 부족: 온톨로지의 연역적 폐포, 즉 모든 추론 가능한 진술의 집합을 충분히 고려하지 않아 이미 추론된 지식과 미단언 지식을 효과적으로 구별하지 못함
평가 방법의 한계: 기존 평가 방법은 주로 지식 그래프 완성 작업에서 비롯되어 온톨로지의 풍부한 함축 관계를 고려하지 못함

연구 동기

지식 기반 완성은 지식 기반에 추가되어야 하지만 아직 표현되지 않은 공리를 예측하는 중요한 작업이다. 형식화된 지식 기반의 경우, 이는 연역 추론(함축된 공리 예측)과 귀납 추론(새로운 비함축 공리 예측) 두 가지 유형을 포함한다. 본 논문은 연역적 폐포를 더 잘 활용하여 기하학적 임베딩 방법을 개선하는 것을 목표로 한다.

핵심 기여

연역적 폐포를 고려한 음성 손실 함수 제안: 모든 $\mathcal{EL}^{++}$ 표준 형식에 대해 새로운 음성 손실 함수를 설계하여 함축된 진술이 음성 샘플로 취급되는 것을 방지
빠른 근사 연역적 폐포 계산 알고리즘 설계: $\mathcal{EL}^{++}$ 이론의 연역적 폐포 계산을 위한 건전한 알고리즘을 제안하여 훈련 과정 중 음성 샘플 선택 개선
연역적 폐포를 고려한 평가 방법 수립: 지식 기반 완성 작업을 위해 함축 공리와 비함축 공리의 예측 성능을 구별할 수 있는 새로운 평가 지표 설계
다양한 기하학적 임베딩 방법 확장: ELEmbeddings, ELBE, Box2EL 세 가지 대표적 방법에 개선 사항을 적용하여 범용성 입증

방법론 상세 설명

작업 정의

지식 기반 완성 작업은 다음과 같이 정의된다: $\mathcal{EL}^{++}$ 온톨로지 $T$ 가 주어졌을 때, $T$ 에 추가되어야 할 새로운 공리를 예측한다. 작업은 다음과 같이 세분화된다:

연역적 완성: 연역적 폐포 $T^⊢$ 에는 있지만 $T$ 에 명시적으로 단언되지 않은 공리 예측
귀납적 완성: 연역적 폐포에 없는 새로운 공리 예측

연역적 폐포 계산

표준 형식

$\mathcal{EL}^{++}$ 공리는 7가지 형식으로 표준화될 수 있다(표1 참조):

GCI0: $A \sqsubseteq B$
GCI1: $A \sqcap B \sqsubseteq E$
GCI2: $A \sqsubseteq \exists r.B$
GCI3: $\exists r.A \sqsubseteq B$
GCI0-BOT: $A \sqsubseteq \perp$
GCI1-BOT: $A \sqcap B \sqsubseteq \perp$
GCI3-BOT: $\exists r.A \sqsubseteq \perp$

연역적 폐포 알고리즘

본 논문은 연역적 폐포의 근사를 계산하기 위한 두 가지 알고리즘을 제안한다:

알고리즘 1: 온톨로지에 명시적으로 표현된 공리를 기반으로 추론 규칙을 사용하여 함축된 공리를 도출한다. 예를 들어:

A ⊓ B ⊑ E, A' ⊑ A, B' ⊑ B, E ⊑ E'
─────────────────────────────────────
         A' ⊓ B' ⊑ E'

알고리즘 2: 임의의 개념 및 역할 이름을 기반으로 논리적으로 필연적으로 성립하는 공리를 추가한다. 예: $A \sqcap \perp \sqsubseteq E$

음성 손실 함수 설계

ELEmbeddings 음성 손실

구형 임베딩의 경우, 6가지 새로운 음성 손실 함수를 설계했다:

GCI0 음성 손실(GCI1-BOT 기반): $\text{loss}_{A \not\sqsubseteq B}(a,b) = \max(0, r_\eta(a) + r_\eta(b) - \|f_\eta(a) - f_\eta(b)\| + \gamma)$
GCI1 음성 손실: $\text{loss}_{A \sqcap B \not\sqsubseteq E}(a,b,e) = \max(0, -r_\eta(a) - r_\eta(b) + \|f_\eta(a) - f_\eta(b)\| - \gamma) + \text{기타 항}$