2025-11-21T19:10:17.554976

DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion

Mashkova, Zhapa-Camacho, Hoehndorf
Ontology embeddings map classes, roles, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several optimization-based embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives and formulated evaluation methods for knowledge base completion. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion.
academic

DELE: 지식 기반 완성을 위한 연역적 EL++\mathcal{EL}^{++} 임베딩

기본 정보

  • 논문 ID: 2411.01574
  • 제목: DELE: Deductive EL++\mathcal{EL}^{++} Embeddings for Knowledge Base Completion
  • 저자: Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf
  • 소속: King Abdullah University of Science and Technology (KAUST)
  • 분류: cs.AI
  • 학술대회: NeSy 2024 특별호
  • 논문 링크: https://arxiv.org/abs/2411.01574

초록

본 논문은 기술 논리(Description Logic) EL++\mathcal{EL}^{++}의 온톨로지 임베딩 방법이 지식 기반 완성 작업에서 갖는 한계를 다루며, DELE(연역적 EL++\mathcal{EL}^{++} 임베딩) 방법을 제안한다. 기존의 기하학적 임베딩 방법은 온톨로지 모델을 명시적으로 생성할 수 있지만 두 가지 핵심 문제가 있다: (1) 증명 불가능한 진술과 반박 가능한 진술을 구별할 수 없어 함축된 진술을 음성 샘플로 취급할 수 있음, (2) 온톨로지의 연역적 폐포(deductive closure)를 충분히 활용하여 추론되었으나 명시적으로 단언되지 않은 진술을 식별하지 못함. 본 논문은 새로운 음성 손실 함수와 평가 방법을 설계하여 연역적 폐포를 효과적으로 활용함으로써 지식 기반 완성 성능을 개선한다.

연구 배경 및 동기

문제 정의

온톨로지 임베딩은 온톨로지의 클래스, 역할(role) 및 개체를 Rn\mathbb{R}^n 공간에 매핑하여 엔티티 간 유사성을 계산하거나 새로운 공리를 추론하는 것을 목표로 한다. EL++\mathcal{EL}^{++} 기술 논리의 경우, ELEmbeddings, ELBE, Box2EL 등 최적화 기반의 여러 기하학적 임베딩 방법이 존재한다.

기존 방법의 한계

  1. 음성 샘플 선택 문제: 기존 방법이 음성 샘플을 무작위로 선택할 때, 온톨로지에 함축된 참인 진술을 오류로 음성 예제로 취급할 수 있어 모델 훈련 품질에 영향을 미침
  2. 연역적 폐포 활용 부족: 온톨로지의 연역적 폐포, 즉 모든 추론 가능한 진술의 집합을 충분히 고려하지 않아 이미 추론된 지식과 미단언 지식을 효과적으로 구별하지 못함
  3. 평가 방법의 한계: 기존 평가 방법은 주로 지식 그래프 완성 작업에서 비롯되어 온톨로지의 풍부한 함축 관계를 고려하지 못함

연구 동기

지식 기반 완성은 지식 기반에 추가되어야 하지만 아직 표현되지 않은 공리를 예측하는 중요한 작업이다. 형식화된 지식 기반의 경우, 이는 연역 추론(함축된 공리 예측)과 귀납 추론(새로운 비함축 공리 예측) 두 가지 유형을 포함한다. 본 논문은 연역적 폐포를 더 잘 활용하여 기하학적 임베딩 방법을 개선하는 것을 목표로 한다.

핵심 기여

  1. 연역적 폐포를 고려한 음성 손실 함수 제안: 모든 EL++\mathcal{EL}^{++} 표준 형식에 대해 새로운 음성 손실 함수를 설계하여 함축된 진술이 음성 샘플로 취급되는 것을 방지
  2. 빠른 근사 연역적 폐포 계산 알고리즘 설계: EL++\mathcal{EL}^{++} 이론의 연역적 폐포 계산을 위한 건전한 알고리즘을 제안하여 훈련 과정 중 음성 샘플 선택 개선
  3. 연역적 폐포를 고려한 평가 방법 수립: 지식 기반 완성 작업을 위해 함축 공리와 비함축 공리의 예측 성능을 구별할 수 있는 새로운 평가 지표 설계
  4. 다양한 기하학적 임베딩 방법 확장: ELEmbeddings, ELBE, Box2EL 세 가지 대표적 방법에 개선 사항을 적용하여 범용성 입증

방법론 상세 설명

작업 정의

지식 기반 완성 작업은 다음과 같이 정의된다: EL++\mathcal{EL}^{++} 온톨로지 TT가 주어졌을 때, TT에 추가되어야 할 새로운 공리를 예측한다. 작업은 다음과 같이 세분화된다:

  • 연역적 완성: 연역적 폐포 TT^⊢에는 있지만 TT에 명시적으로 단언되지 않은 공리 예측
  • 귀납적 완성: 연역적 폐포에 없는 새로운 공리 예측

연역적 폐포 계산

표준 형식

EL++\mathcal{EL}^{++} 공리는 7가지 형식으로 표준화될 수 있다(표1 참조):

  • GCI0: ABA \sqsubseteq B
  • GCI1: ABEA \sqcap B \sqsubseteq E
  • GCI2: Ar.BA \sqsubseteq \exists r.B
  • GCI3: r.AB\exists r.A \sqsubseteq B
  • GCI0-BOT: AA \sqsubseteq \perp
  • GCI1-BOT: ABA \sqcap B \sqsubseteq \perp
  • GCI3-BOT: r.A\exists r.A \sqsubseteq \perp

연역적 폐포 알고리즘

본 논문은 연역적 폐포의 근사를 계산하기 위한 두 가지 알고리즘을 제안한다:

알고리즘 1: 온톨로지에 명시적으로 표현된 공리를 기반으로 추론 규칙을 사용하여 함축된 공리를 도출한다. 예를 들어:

A ⊓ B ⊑ E, A' ⊑ A, B' ⊑ B, E ⊑ E'
─────────────────────────────────────
         A' ⊓ B' ⊑ E'

알고리즘 2: 임의의 개념 및 역할 이름을 기반으로 논리적으로 필연적으로 성립하는 공리를 추가한다. 예: AEA \sqcap \perp \sqsubseteq E

음성 손실 함수 설계

ELEmbeddings 음성 손실

구형 임베딩의 경우, 6가지 새로운 음성 손실 함수를 설계했다:

  1. GCI0 음성 손실(GCI1-BOT 기반): lossA⋢B(a,b)=max(0,rη(a)+rη(b)fη(a)fη(b)+γ)\text{loss}_{A \not\sqsubseteq B}(a,b) = \max(0, r_\eta(a) + r_\eta(b) - \|f_\eta(a) - f_\eta(b)\| + \gamma)
  2. GCI1 음성 손실: lossAB⋢E(a,b,e)=max(0,rη(a)rη(b)+fη(a)fη(b)γ)+기타 항\text{loss}_{A \sqcap B \not\sqsubseteq E}(a,b,e) = \max(0, -r_\eta(a) - r_\eta(b) + \|f_\eta(a) - f_\eta(b)\| - \gamma) + \text{기타 항}

ELBE(박스 임베딩) 및 Box2EL에 대해서도 유사하게 해당 음성 손실 함수를 설계했다.

음성 샘플 필터링

훈련 과정 중 무작위로 생성된 음성 샘플에 대해 필터링을 수행한다:

  1. 훈련 온톨로지의 연역적 폐포 계산
  2. 후보 음성 샘플이 연역적 폐포에 있는지 확인
  3. 폐포에 있으면 음성 샘플에서 제거

실험 설정

데이터셋

  1. 유전자 온톨로지 & STRING 데이터:
    • 단백질-단백질 상호작용 예측(PPI)
    • 단백질 기능 예측
    • 효모 단백질 데이터 기반
  2. Food Ontology: 부분류 관계 예측용
  3. GALEN Ontology: 의학 개념 온톨로지, 부분류 관계 예측용

평가 지표

  • Hits@n (n=10,100): 상위 n개 순위의 정확도
  • Mean Rank (MR): 평균 순위(거시 및 미시)
  • AUC ROC: ROC 곡선 아래 면적
  • 필터링된 지표: 훈련 집합 및 연역적 폐포의 공리를 제거한 후의 지표

비교 방법

  • 기준 방법: 원본 ELEmbeddings, ELBE, Box2EL
  • 개선된 버전:
    • +l: 모든 표준 형식의 음성 손실 추가
    • +l+n: 음성 손실 추가 및 음성 샘플 필터링 수행

구현 세부사항

  • mOWL 라이브러리 사용
  • 훈련 에포크: STRING & GO 데이터 2000 에포크, Food & GALEN 데이터 800 에포크
  • 배치 크기: 32,768
  • 최적화기: Adam, 학습률 스케줄러: ReduceLROnPlateau
  • 하이퍼파라미터는 그리드 검색으로 결정

실험 결과

주요 결과

단백질-단백질 상호작용 예측(표4)

  • ELEmbeddings+l+n: Hits@10이 0.05에서 0.06으로 상승, Hits@100이 0.31에서 0.37로 상승
  • Box2EL+l+n: Hits@100 성능을 유지하면서 평균 순위를 현저히 감소

단백질 기능 예측(표3)

  • Box2EL 최고 성능: Hits@10이 0.28, AUC가 0.96에 도달
  • 음성 손실 추가 후 ELEmbeddings 및 ELBE의 AUC가 개선됨

부분류 관계 예측

  • Food Ontology(표5): ELBE+l의 Hits@10이 0.01에서 0.04로 상승
  • GALEN Ontology(표6): 모든 방법이 음성 손실 추가 후 Hits@n 지표 개선

제거 실험

음성 샘플 필터링 효과

Food Ontology에서의 편향 실험(그림3)을 통해 다음을 발견:

  • 음성 샘플에서 함축 공리의 비율을 줄이면 성능이 지속적으로 개선됨
  • 음성 샘플에서 함축 공리의 비율이 높을 때 필터링 효과가 더욱 두드러짐

시각화 분석

2D 임베딩 시각화(그림1-2)는 다음을 보여준다:

  • 모든 음성 손실을 추가한 후 모델이 온톨로지의 논리 구조를 더 잘 보존
  • 음성 샘플 필터링이 더욱 충실한 기하학적 모델 구축에 도움

필터링된 지표 분석

필터링 전후 지표 차이 비교(NF-F 열)를 통해 다음을 발견:

  • 개선된 방법이 함축된 공리 예측을 우선시
  • 이는 모델이 더욱 정확한 온톨로지 모델을 구축했음을 시사

관련 연구

그래프 기반 온톨로지 임베딩

  • 온톨로지를 그래프 구조로 투영하여 Word2Vec 또는 지식 그래프 임베딩 방법 사용
  • 장점: 인접 정보 처리 가능
  • 단점: 논리 연산자 처리 어려움, 온톨로지 모델 근사 불가

기하학적 온톨로지 임베딩

  • ELEmbeddings: 초구를 사용하여 개념 표현
  • ELBE/BoxEL: 축 정렬 박스 사용, 교집합 연산 지원
  • Box2EL: 두 개의 박스를 사용하여 역할의 정의역 및 치역 표현
  • EmEL++/EmELvar: 역할 체인 및 역할 포함 처리로 확장

지식 기반 완성 방법

  • 대규모 언어 모델 기반 방법(HalTon, 자연어 추론 등)
  • 그래프 구조 기반 링크 예측 방법
  • 행렬 기반 온톨로지 임베딩 방법

결론 및 논의

주요 결론

  1. 연역적 폐포의 중요성: 연역적 폐포를 충분히 활용하면 기하학적 임베딩 방법의 성능을 현저히 개선할 수 있음
  2. 음성 샘플 품질의 영향: 함축된 진술이 음성 샘플로 취급되는 것을 방지하는 것이 모델 훈련에 매우 중요
  3. 평가 방법 개선: 연역적 폐포를 고려한 평가 방법이 모델의 지식 기반 완성 능력을 더욱 정확히 반영
  4. 방법의 범용성: 개선 전략이 다양한 기하학적 임베딩 방법에 적용 가능

한계

  1. 계산 복잡도: 연역적 폐포 계산이 대규모 온톨로지에서 효율성 문제를 야기할 수 있음
  2. 근사 알고리즘: 제안된 연역적 폐포 알고리즘은 건전하지만 완전하지 않음
  3. 평가의 한계: 현존 평가 지표는 여전히 단일 공리 순위에 기반하며 의미론적 유사성을 고려하지 않음
  4. 적용 범위: 주로 EL++\mathcal{EL}^{++}에 초점을 맞추고 있으며 더욱 표현력 있는 기술 논리로의 확장성이 제한적

향후 방향

  1. 더욱 효율적인 연역적 폐포 계산 알고리즘 개발
  2. 의미론적 유사성을 고려한 평가 지표 설계
  3. 더욱 표현력 있는 기술 논리로의 확장
  4. 더 많은 지식 기반 완성 벤치마크 데이터셋 구축

심층 평가

장점

  1. 문제 식별의 정확성: 음성 샘플 선택 및 연역적 폐포 활용 측면에서 기존 방법의 핵심 문제를 정확히 식별
  2. 합리적인 방법 설계: 제안된 음성 손실 함수 및 필터링 전략이 이론적으로 충분한 동기 부여
  3. 포괄적인 실험: 다양한 데이터셋 및 작업에서 방법의 효과성을 검증하며 시각화 분석 포함
  4. 이론적 기여: 연역적 폐포 계산을 위한 건전한 알고리즘 제공으로 이론적 가치 제공
  5. 높은 범용성: 개선 전략이 다양한 기하학적 임베딩 방법에 적용 가능

부족한 점

  1. 제한된 성능 향상: 일부 작업에서 개선 폭이 작아 추가 복잡도의 정당성이 충분하지 않을 수 있음
  2. 계산 오버헤드: 연역적 폐포 계산 및 음성 샘플 필터링이 훈련 시간을 증가시키지만 논문에서 이를 충분히 분석하지 않음
  3. 벤치마크 데이터셋: 사용된 데이터셋 규모가 상대적으로 작아 대규모 응용의 효과가 미검증
  4. 불충분한 비교: 최신 LLM 기반 지식 기반 완성 방법과의 비교 부족

영향력

  1. 학술적 가치: 기하학적 온톨로지 임베딩 분야에 중요한 개선 사상 제공
  2. 실용적 가치: 개선된 방법이 생물의학 등 분야의 지식 기반 완성에 직접 적용 가능
  3. 재현성: 코드 및 데이터가 공개되어 재현 및 확장이 용이

적용 시나리오

  1. 형식화된 지식 기반: 특히 풍부한 논리 구조를 갖춘 온톨로지에 적합
  2. 생물의학 분야: 유전자 온톨로지, 단백질 기능 예측 등 작업에서 우수한 성능
  3. 해석성이 필요한 응용: 기하학적 임베딩이 해석 가능한 모델 구조 제공

참고문헌

논문은 기술 논리, 온톨로지 임베딩, 지식 그래프 완성 등 관련 분야의 중요한 연구 50편을 인용하여 연구에 견고한 이론적 기초를 제공한다.