Ontology embeddings map classes, roles, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several optimization-based embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives and formulated evaluation methods for knowledge base completion. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion.
論文ID : 2411.01574タイトル : DELE: Deductive E L + + \mathcal{EL}^{++} E L ++ Embeddings for Knowledge Base Completion著者 : Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf所属機関 : King Abdullah University of Science and Technology (KAUST)分類 : cs.AI会議 : NeSy 2024 Special Issue論文リンク : https://arxiv.org/abs/2411.01574 本論文は、記述論理 E L + + \mathcal{EL}^{++} E L ++ のオントロジー埋め込み手法が知識ベース補完タスクにおいて抱える限界に対処するため、DELE(Deductive E L + + \mathcal{EL}^{++} E L ++ Embeddings)手法を提案している。既存の幾何学的埋め込み手法は明示的にオントロジーモデルを生成できるが、2つの重要な問題がある:(1)証明不可能な陳述と反証可能な陳述を区別できず、含意される陳述を負例として扱う可能性がある、(2)オントロジーの演繹的閉包を十分に活用して、推論されたが明示的に主張されていない陳述を識別していない。本論文は、新しい負損失関数と評価方法を設計することで、演繹的閉包を効果的に活用し、知識ベース補完性能を改善している。
オントロジー埋め込みは、オントロジー内のクラス、ロール、および個体を R n \mathbb{R}^n R n 空間にマッピングすることを目的としており、これにより実体間の類似性を計算したり、新しい公理を推論したりできる。E L + + \mathcal{EL}^{++} E L ++ 記述論理に対しては、ELEmbeddings、ELBE、Box2ELなど、最適化に基づく複数の幾何学的埋め込み手法が存在する。
負例選択の問題 :既存手法がランダムに負例を選択する際、オントロジーに含意される真の陳述を誤って負例として扱う可能性があり、モデル訓練の品質に影響する演繹的閉包の活用不足 :オントロジーの演繹的閉包、すなわちすべての導出可能な陳述の集合を十分に考慮していないため、推論済みと未主張の知識を効果的に区別できない評価方法の限界 :既存の評価方法は主に知識グラフ補完タスクに由来し、オントロジーに含まれる豊富な含意関係を考慮していない知識ベース補完は重要なタスクであり、知識ベースに追加すべきだが、まだ表現されていない公理を予測する必要がある。形式化された知識ベースの場合、これには演繹推論(含意される公理の予測)と帰納推論(新規の非含意公理の予測)の2つのタイプが含まれる。本論文は、演繹的閉包をより良く活用することで、幾何学的埋め込み手法を改善することを目指している。
演繹的閉包を考慮した負損失関数の提案 :すべての E L + + \mathcal{EL}^{++} E L ++ 標準形式に対して新しい負損失関数を設計し、含意される陳述を負例として扱うことを回避高速近似演繹的閉包計算アルゴリズムの設計 :E L + + \mathcal{EL}^{++} E L ++ 理論の演繹的閉包を計算するための健全なアルゴリズムを提案し、訓練過程における負例選択を改善演繹的閉包を考慮した評価方法の策定 :知識ベース補完タスク用に新しい評価指標を設計し、含意と非含意公理の予測性能を区別複数の幾何学的埋め込み手法への拡張 :改善をELEmbeddings、ELBE、Box2ELの3つの代表的手法に適用し、汎用性を実証知識ベース補完タスクは以下のように定義される:E L + + \mathcal{EL}^{++} E L ++ オントロジー T T T が与えられたとき、T T T に追加すべき新しい公理を予測する。タスクはさらに以下に細分化される:
演繹的補完 :演繹的閉包 T ⊢ T^⊢ T ⊢ に含まれるが T T T に明示的に主張されていない公理を予測帰納的補完 :演繹的閉包に含まれない新規公理を予測E L + + \mathcal{EL}^{++} E L ++ 公理は7つの形式に標準化できる(表1参照):
GCI0: A ⊑ B A \sqsubseteq B A ⊑ B GCI1: A ⊓ B ⊑ E A \sqcap B \sqsubseteq E A ⊓ B ⊑ E GCI2: A ⊑ ∃ r . B A \sqsubseteq \exists r.B A ⊑ ∃ r . B GCI3: ∃ r . A ⊑ B \exists r.A \sqsubseteq B ∃ r . A ⊑ B GCI0-BOT: A ⊑ ⊥ A \sqsubseteq \perp A ⊑⊥ GCI1-BOT: A ⊓ B ⊑ ⊥ A \sqcap B \sqsubseteq \perp A ⊓ B ⊑⊥ GCI3-BOT: ∃ r . A ⊑ ⊥ \exists r.A \sqsubseteq \perp ∃ r . A ⊑⊥ 本論文は演繹的閉包の近似を計算するための2つのアルゴリズムを提案している:
アルゴリズム1 :オントロジーに明示的に表現された公理に基づき、推論規則を使用して含意される公理を導出する。例えば:
A ⊓ B ⊑ E, A' ⊑ A, B' ⊑ B, E ⊑ E'
─────────────────────────────────────
A' ⊓ B' ⊑ E'
アルゴリズム2 :任意の概念とロール名に基づき、論理的に必然的に成立する公理(例:A ⊓ ⊥ ⊑ E A \sqcap \perp \sqsubseteq E A ⊓ ⊥⊑ E )を追加する。
球形埋め込みに対して、6種類の新しい負損失関数を設計した:
GCI0負損失 (GCI1-BOTに基づく):
loss A ⋢ B ( a , b ) = max ( 0 , r η ( a ) + r η ( b ) − ∥ f η ( a ) − f η ( b ) ∥ + γ ) \text{loss}_{A \not\sqsubseteq B}(a,b) = \max(0, r_\eta(a) + r_\eta(b) - \|f_\eta(a) - f_\eta(b)\| + \gamma) loss A ⊑ B ( a , b ) = max ( 0 , r η ( a ) + r η ( b ) − ∥ f η ( a ) − f η ( b ) ∥ + γ ) GCI1負損失 :
loss A ⊓ B ⋢ E ( a , b , e ) = max ( 0 , − r η ( a ) − r η ( b ) + ∥ f η ( a ) − f η ( b ) ∥ − γ ) + その他の項 \text{loss}_{A \sqcap B \not\sqsubseteq E}(a,b,e) = \max(0, -r_\eta(a) - r_\eta(b) + \|f_\eta(a) - f_\eta(b)\| - \gamma) + \text{その他の項} loss A ⊓ B ⊑ E ( a , b , e ) = max ( 0 , − r η ( a ) − r η ( b ) + ∥ f η ( a ) − f η ( b ) ∥ − γ ) + その他の項 同様にELBE(ボックス埋め込み)とBox2ELに対応する負損失関数を設計した。
訓練過程中、ランダムに生成された負例に対してフィルタリングを実施する:
訓練オントロジーの演繹的閉包を計算 候補負例が演繹的閉包に含まれるかどうかを確認 閉包に含まれる場合、負例から削除 Gene Ontology & STRINGデータ :タンパク質-タンパク質相互作用予測(PPI) タンパク質機能予測 酵母タンパク質データに基づく Food Ontology :部分クラス関係予測用GALEN Ontology :医学概念オントロジー、部分クラス関係予測用Hits@n (n=10,100):上位n件の精度Mean Rank (MR) :平均ランク(マクロおよびミクロ)AUC ROC :ROC曲線下面積フィルタリング指標 :訓練セットと演繹的閉包から公理を除去した後の指標ベースライン手法 :元のELEmbeddings、ELBE、Box2EL改善版 :
+l:すべての標準形式の負損失を追加 +l+n:負損失を追加し、負例フィルタリングを実施 mOWLライブラリを使用して実装 訓練エポック数:STRING & GOデータ2000エポック、Food & GALENデータ800エポック バッチサイズ:32,768 オプティマイザー:Adam、学習率スケジューラー:ReduceLROnPlateau ハイパーパラメータはグリッドサーチで決定 ELEmbeddings+l+n :Hits@10が0.05から0.06に向上、Hits@100が0.31から0.37に向上Box2EL+l+n :Hits@100性能を維持しながら、平均ランクが大幅に低下Box2EL が最高性能:Hits@10が0.28に達し、AUCが0.96に達する負損失を追加した後、ELEmbeddingsとELBEのAUCが向上 Food Ontology (表5):ELBE+lのHits@10が0.01から0.04に向上GALEN Ontology (表6):すべての手法が負損失を追加した後、Hits@n指標が改善Food Ontologyでのバイアス実験(図3)を通じて以下が判明:
負例に含まれる含意公理の比率を減らすことで、継続的に性能が改善される 負例に含まれる含意公理の比率が高い場合、フィルタリング効果がより顕著 2D埋め込みの可視化(図1-2)により以下が示される:
すべての負損失を追加した後、モデルはオントロジーの論理構造をより良く保持できる 負例フィルタリングは、より忠実な幾何学的モデルの構築に役立つ フィルタリング前後の指標差異を比較することで(NF-F列)以下が判明:
改善手法は含意される公理の予測を優先できる これはモデルがより正確なオントロジーモデルを構築したことを示唆している オントロジーをグラフ構造に投影し、Word2Vecまたは知識グラフ埋め込み手法を使用 利点:隣接情報を処理できる 欠点:論理演算子の処理が困難、オントロジーモデルの近似が難しい ELEmbeddings :超球を使用して概念を表現ELBE/BoxEL :軸並列ボックスを使用し、交集操作をサポートBox2EL :2つのボックスを使用してロールの定義域と値域を表現EmEL++/EmELvar :ロールチェーンとロール包含を処理するために拡張大規模言語モデルに基づく手法(HalTon、自然言語推論など) グラフ構造に基づくリンク予測手法 行列ベースのオントロジー埋め込み手法 演繹的閉包の重要性 :演繹的閉包を十分に活用することで、幾何学的埋め込み手法の性能を大幅に改善できる負例品質の影響 :含意される陳述を負例として扱わないことは、モデル訓練に不可欠である評価方法の改善 :演繹的閉包を考慮した評価方法は、モデルの知識ベース補完能力をより正確に反映できる手法の汎用性 :改善戦略は複数の幾何学的埋め込み手法に適用可能である計算複雑性 :演繹的閉包の計算は、大規模オントロジーでは効率の問題が生じる可能性がある近似アルゴリズム :提案された演繹的閉包アルゴリズムは健全だが完全ではない評価の限界 :既存の評価指標は依然として個別の公理ランキングに基づいており、意味的類似性を考慮していない適用範囲 :主に E L + + \mathcal{EL}^{++} E L ++ に焦点を当てており、より表現力の高い記述論理への拡張性は限定的であるより効率的な演繹的閉包計算アルゴリズムの開発 意味的類似性を考慮した評価指標の設計 より表現力の高い記述論理への拡張 より多くの知識ベース補完ベンチマークデータセットの構築 問題認識の正確性 :既存手法における負例選択と演繹的閉包活用の主要な問題を正確に特定手法設計の合理性 :提案された負損失関数とフィルタリング戦略は理論的に十分な動機付けがされている実験の包括性 :複数のデータセットとタスクで手法の有効性を検証し、可視化分析を含む理論的貢献 :演繹的閉包計算の健全なアルゴリズムを提供し、理論的価値がある汎用性の強さ :改善戦略は複数の幾何学的埋め込み手法に適用可能性能向上の限定性 :一部のタスクでは改善幅が小さく、追加の複雑性を正当化するには不十分な可能性がある計算オーバーヘッド :演繹的閉包計算と負例フィルタリングは訓練時間を増加させるが、論文ではこのオーバーヘッドを十分に分析していないベンチマークデータセット :使用されるデータセットの規模は相対的に小さく、大規模応用での効果は検証が必要比較の不十分性 :LLMベースの最新知識ベース補完手法との比較が不足している学術的価値 :幾何学的オントロジー埋め込み分野に重要な改善思想を提供実用的価値 :改善された手法は生物医学などの分野の知識ベース補完に直接適用可能再現性 :コードとデータが公開されており、再現と拡張が容易形式化知識ベース :特に豊富な論理構造を持つオントロジーに適している生物医学分野 :遺伝子オントロジー、タンパク質機能予測などのタスクで良好な性能を発揮解釈性が必要なアプリケーション :幾何学的埋め込みは解釈可能なモデル構造を提供論文は関連分野の重要な研究50篇を引用しており、記述論理、オントロジー埋め込み、知識グラフ補完などの関連領域をカバーし、研究に堅実な理論的基礎を提供している。