2025-11-20T11:34:15.055386

Meronymic Ontology Extraction via Large Language Models

Zhang, Conia, Rago

Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.

academic

大規模言語モデルを用いた部分-全体本体論抽出

基本情報

論文ID: 2510.13839
タイトル: Meronymic Ontology Extraction via Large Language Models
著者: Dekai Zhang (インペリアル・カレッジ・ロンドン), Simone Conia (ローマ・サピエンツァ大学), Antonio Rago (インペリアル・カレッジ・ロンドン & キングス・カレッジ・ロンドン)
分類: cs.CL cs.AI
発表日: 2025年10月11日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2510.13839

要約

本論文は大規模言語モデル(LLM)の最新の進展を活用し、生の評論テキストから製品本体論(部分-全体関係の形式)を抽出する完全自動化手法を開発した。研究により、本手法が生成した本体論は、LLMを評価者として用いた評価において、既存のBERTベースのベースライン手法を上回ることが示された。本研究は、本体論抽出タスクにおけるLLMのより広範な応用の基礎を確立している。

研究背景と動機

問題定義

デジタル化時代において、膨大な非構造化テキストデータは本体論を通じて組織化・構造化される必要がある。特に電子商取引領域では、無数の製品リストが適切な製品組織構造を必要とする。部分-全体関係(meronymic relations)は、評論集約、感情分析、製品質問応答などの下流タスクにおいて重要な価値を有する。

既存手法の限界

手作業による構築コストが高い: 本体論の手動構築は時間がかかり、費用がかかり、労力を要するプロセスである
既存の自動化手法が不十分: 従来の研究は主に分類関係(taxonomic relations)に焦点を当てており、部分-全体関係の抽出には焦点を当てていない
評価が困難: 標準的なベンチマークデータセットが欠落しており、部分-全体本体論の品質を効果的に評価することが難しい
人間による注釈への依存: Oksanen等(2021)のBERT手法のような既存手法は、依然として一定程度の人間による注釈を必要とする

研究動機

本論文は、LLMの強力な能力を活用して、完全に自動化された部分-全体本体論抽出手法を開発し、手法の有効性を検証するための新しい評価フレームワークを提案することを目指している。

核心的貢献

完全自動化LLM手法の提案: 異なる製品カテゴリ間で一般化可能な、部分-全体本体論抽出のためのLLMを使用した完全自動化手法を開発した
革新的な評価フレームワーク: 部分-全体本体論抽出の各タスクに対して、LLMを評価者として用いた(LLM-as-a-judge)実証的評価の新しい手法を提案した
性能向上の検証: LLM手法がBERTベースのベースライン手法と比較して関連性の面で有意に優れていることを実験により証明した
オープンソースコード: 完全な実装コードを提供し、研究の再現性を促進した