2025-11-21T19:10:17.554976

DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion

Mashkova, Zhapa-Camacho, Hoehndorf
Ontology embeddings map classes, roles, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several optimization-based embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives and formulated evaluation methods for knowledge base completion. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion.
academic

DELE: 知識ベース補完のための演繹的 EL++\mathcal{EL}^{++} 埋め込み

基本情報

  • 論文ID: 2411.01574
  • タイトル: DELE: Deductive EL++\mathcal{EL}^{++} Embeddings for Knowledge Base Completion
  • 著者: Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf
  • 所属機関: King Abdullah University of Science and Technology (KAUST)
  • 分類: cs.AI
  • 会議: NeSy 2024 Special Issue
  • 論文リンク: https://arxiv.org/abs/2411.01574

要約

本論文は、記述論理 EL++\mathcal{EL}^{++} のオントロジー埋め込み手法が知識ベース補完タスクにおいて抱える限界に対処するため、DELE(Deductive EL++\mathcal{EL}^{++} Embeddings)手法を提案している。既存の幾何学的埋め込み手法は明示的にオントロジーモデルを生成できるが、2つの重要な問題がある:(1)証明不可能な陳述と反証可能な陳述を区別できず、含意される陳述を負例として扱う可能性がある、(2)オントロジーの演繹的閉包を十分に活用して、推論されたが明示的に主張されていない陳述を識別していない。本論文は、新しい負損失関数と評価方法を設計することで、演繹的閉包を効果的に活用し、知識ベース補完性能を改善している。

研究背景と動機

問題定義

オントロジー埋め込みは、オントロジー内のクラス、ロール、および個体を Rn\mathbb{R}^n 空間にマッピングすることを目的としており、これにより実体間の類似性を計算したり、新しい公理を推論したりできる。EL++\mathcal{EL}^{++} 記述論理に対しては、ELEmbeddings、ELBE、Box2ELなど、最適化に基づく複数の幾何学的埋め込み手法が存在する。

既存手法の限界

  1. 負例選択の問題:既存手法がランダムに負例を選択する際、オントロジーに含意される真の陳述を誤って負例として扱う可能性があり、モデル訓練の品質に影響する
  2. 演繹的閉包の活用不足:オントロジーの演繹的閉包、すなわちすべての導出可能な陳述の集合を十分に考慮していないため、推論済みと未主張の知識を効果的に区別できない
  3. 評価方法の限界:既存の評価方法は主に知識グラフ補完タスクに由来し、オントロジーに含まれる豊富な含意関係を考慮していない

研究動機

知識ベース補完は重要なタスクであり、知識ベースに追加すべきだが、まだ表現されていない公理を予測する必要がある。形式化された知識ベースの場合、これには演繹推論(含意される公理の予測)と帰納推論(新規の非含意公理の予測)の2つのタイプが含まれる。本論文は、演繹的閉包をより良く活用することで、幾何学的埋め込み手法を改善することを目指している。

核心的貢献

  1. 演繹的閉包を考慮した負損失関数の提案:すべての EL++\mathcal{EL}^{++} 標準形式に対して新しい負損失関数を設計し、含意される陳述を負例として扱うことを回避
  2. 高速近似演繹的閉包計算アルゴリズムの設計EL++\mathcal{EL}^{++} 理論の演繹的閉包を計算するための健全なアルゴリズムを提案し、訓練過程における負例選択を改善
  3. 演繹的閉包を考慮した評価方法の策定:知識ベース補完タスク用に新しい評価指標を設計し、含意と非含意公理の予測性能を区別
  4. 複数の幾何学的埋め込み手法への拡張:改善をELEmbeddings、ELBE、Box2ELの3つの代表的手法に適用し、汎用性を実証

方法の詳細

タスク定義

知識ベース補完タスクは以下のように定義される:EL++\mathcal{EL}^{++} オントロジー TT が与えられたとき、TT に追加すべき新しい公理を予測する。タスクはさらに以下に細分化される:

  • 演繹的補完:演繹的閉包 TT^⊢ に含まれるが TT に明示的に主張されていない公理を予測
  • 帰納的補完:演繹的閉包に含まれない新規公理を予測

演繹的閉包の計算

標準化形式

EL++\mathcal{EL}^{++} 公理は7つの形式に標準化できる(表1参照):

  • GCI0: ABA \sqsubseteq B
  • GCI1: ABEA \sqcap B \sqsubseteq E
  • GCI2: Ar.BA \sqsubseteq \exists r.B
  • GCI3: r.AB\exists r.A \sqsubseteq B
  • GCI0-BOT: AA \sqsubseteq \perp
  • GCI1-BOT: ABA \sqcap B \sqsubseteq \perp
  • GCI3-BOT: r.A\exists r.A \sqsubseteq \perp

演繹的閉包アルゴリズム

本論文は演繹的閉包の近似を計算するための2つのアルゴリズムを提案している:

アルゴリズム1:オントロジーに明示的に表現された公理に基づき、推論規則を使用して含意される公理を導出する。例えば:

A ⊓ B ⊑ E, A' ⊑ A, B' ⊑ B, E ⊑ E'
─────────────────────────────────────
         A' ⊓ B' ⊑ E'

アルゴリズム2:任意の概念とロール名に基づき、論理的に必然的に成立する公理(例:AEA \sqcap \perp \sqsubseteq E)を追加する。

負損失関数の設計

ELEmbeddings負損失

球形埋め込みに対して、6種類の新しい負損失関数を設計した:

  1. GCI0負損失(GCI1-BOTに基づく): lossA⋢B(a,b)=max(0,rη(a)+rη(b)fη(a)fη(b)+γ)\text{loss}_{A \not\sqsubseteq B}(a,b) = \max(0, r_\eta(a) + r_\eta(b) - \|f_\eta(a) - f_\eta(b)\| + \gamma)
  2. GCI1負損失lossAB⋢E(a,b,e)=max(0,rη(a)rη(b)+fη(a)fη(b)γ)+その他の項\text{loss}_{A \sqcap B \not\sqsubseteq E}(a,b,e) = \max(0, -r_\eta(a) - r_\eta(b) + \|f_\eta(a) - f_\eta(b)\| - \gamma) + \text{その他の項}

同様にELBE(ボックス埋め込み)とBox2ELに対応する負損失関数を設計した。

負例フィルタリング

訓練過程中、ランダムに生成された負例に対してフィルタリングを実施する:

  1. 訓練オントロジーの演繹的閉包を計算
  2. 候補負例が演繹的閉包に含まれるかどうかを確認
  3. 閉包に含まれる場合、負例から削除

実験設定

データセット

  1. Gene Ontology & STRINGデータ
    • タンパク質-タンパク質相互作用予測(PPI)
    • タンパク質機能予測
    • 酵母タンパク質データに基づく
  2. Food Ontology:部分クラス関係予測用
  3. GALEN Ontology:医学概念オントロジー、部分クラス関係予測用

評価指標

  • Hits@n(n=10,100):上位n件の精度
  • Mean Rank (MR):平均ランク(マクロおよびミクロ)
  • AUC ROC:ROC曲線下面積
  • フィルタリング指標:訓練セットと演繹的閉包から公理を除去した後の指標

比較手法

  • ベースライン手法:元のELEmbeddings、ELBE、Box2EL
  • 改善版
    • +l:すべての標準形式の負損失を追加
    • +l+n:負損失を追加し、負例フィルタリングを実施

実装詳細

  • mOWLライブラリを使用して実装
  • 訓練エポック数:STRING & GOデータ2000エポック、Food & GALENデータ800エポック
  • バッチサイズ:32,768
  • オプティマイザー:Adam、学習率スケジューラー:ReduceLROnPlateau
  • ハイパーパラメータはグリッドサーチで決定

実験結果

主要な結果

タンパク質-タンパク質相互作用予測(表4)

  • ELEmbeddings+l+n:Hits@10が0.05から0.06に向上、Hits@100が0.31から0.37に向上
  • Box2EL+l+n:Hits@100性能を維持しながら、平均ランクが大幅に低下

タンパク質機能予測(表3)

  • Box2ELが最高性能:Hits@10が0.28に達し、AUCが0.96に達する
  • 負損失を追加した後、ELEmbeddingsとELBEのAUCが向上

部分クラス関係予測

  • Food Ontology(表5):ELBE+lのHits@10が0.01から0.04に向上
  • GALEN Ontology(表6):すべての手法が負損失を追加した後、Hits@n指標が改善

アブレーション実験

負例フィルタリング効果

Food Ontologyでのバイアス実験(図3)を通じて以下が判明:

  • 負例に含まれる含意公理の比率を減らすことで、継続的に性能が改善される
  • 負例に含まれる含意公理の比率が高い場合、フィルタリング効果がより顕著

可視化分析

2D埋め込みの可視化(図1-2)により以下が示される:

  • すべての負損失を追加した後、モデルはオントロジーの論理構造をより良く保持できる
  • 負例フィルタリングは、より忠実な幾何学的モデルの構築に役立つ

フィルタリング指標分析

フィルタリング前後の指標差異を比較することで(NF-F列)以下が判明:

  • 改善手法は含意される公理の予測を優先できる
  • これはモデルがより正確なオントロジーモデルを構築したことを示唆している

関連研究

グラフベースのオントロジー埋め込み

  • オントロジーをグラフ構造に投影し、Word2Vecまたは知識グラフ埋め込み手法を使用
  • 利点:隣接情報を処理できる
  • 欠点:論理演算子の処理が困難、オントロジーモデルの近似が難しい

幾何学的オントロジー埋め込み

  • ELEmbeddings:超球を使用して概念を表現
  • ELBE/BoxEL:軸並列ボックスを使用し、交集操作をサポート
  • Box2EL:2つのボックスを使用してロールの定義域と値域を表現
  • EmEL++/EmELvar:ロールチェーンとロール包含を処理するために拡張

知識ベース補完手法

  • 大規模言語モデルに基づく手法(HalTon、自然言語推論など)
  • グラフ構造に基づくリンク予測手法
  • 行列ベースのオントロジー埋め込み手法

結論と考察

主要な結論

  1. 演繹的閉包の重要性:演繹的閉包を十分に活用することで、幾何学的埋め込み手法の性能を大幅に改善できる
  2. 負例品質の影響:含意される陳述を負例として扱わないことは、モデル訓練に不可欠である
  3. 評価方法の改善:演繹的閉包を考慮した評価方法は、モデルの知識ベース補完能力をより正確に反映できる
  4. 手法の汎用性:改善戦略は複数の幾何学的埋め込み手法に適用可能である

限界

  1. 計算複雑性:演繹的閉包の計算は、大規模オントロジーでは効率の問題が生じる可能性がある
  2. 近似アルゴリズム:提案された演繹的閉包アルゴリズムは健全だが完全ではない
  3. 評価の限界:既存の評価指標は依然として個別の公理ランキングに基づいており、意味的類似性を考慮していない
  4. 適用範囲:主に EL++\mathcal{EL}^{++} に焦点を当てており、より表現力の高い記述論理への拡張性は限定的である

今後の方向性

  1. より効率的な演繹的閉包計算アルゴリズムの開発
  2. 意味的類似性を考慮した評価指標の設計
  3. より表現力の高い記述論理への拡張
  4. より多くの知識ベース補完ベンチマークデータセットの構築

深層的評価

利点

  1. 問題認識の正確性:既存手法における負例選択と演繹的閉包活用の主要な問題を正確に特定
  2. 手法設計の合理性:提案された負損失関数とフィルタリング戦略は理論的に十分な動機付けがされている
  3. 実験の包括性:複数のデータセットとタスクで手法の有効性を検証し、可視化分析を含む
  4. 理論的貢献:演繹的閉包計算の健全なアルゴリズムを提供し、理論的価値がある
  5. 汎用性の強さ:改善戦略は複数の幾何学的埋め込み手法に適用可能

不足点

  1. 性能向上の限定性:一部のタスクでは改善幅が小さく、追加の複雑性を正当化するには不十分な可能性がある
  2. 計算オーバーヘッド:演繹的閉包計算と負例フィルタリングは訓練時間を増加させるが、論文ではこのオーバーヘッドを十分に分析していない
  3. ベンチマークデータセット:使用されるデータセットの規模は相対的に小さく、大規模応用での効果は検証が必要
  4. 比較の不十分性:LLMベースの最新知識ベース補完手法との比較が不足している

影響力

  1. 学術的価値:幾何学的オントロジー埋め込み分野に重要な改善思想を提供
  2. 実用的価値:改善された手法は生物医学などの分野の知識ベース補完に直接適用可能
  3. 再現性:コードとデータが公開されており、再現と拡張が容易

適用シーン

  1. 形式化知識ベース:特に豊富な論理構造を持つオントロジーに適している
  2. 生物医学分野:遺伝子オントロジー、タンパク質機能予測などのタスクで良好な性能を発揮
  3. 解釈性が必要なアプリケーション:幾何学的埋め込みは解釈可能なモデル構造を提供

参考文献

論文は関連分野の重要な研究50篇を引用しており、記述論理、オントロジー埋め込み、知識グラフ補完などの関連領域をカバーし、研究に堅実な理論的基礎を提供している。