Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.
academic- 論文ID: 2510.13839
- タイトル: Meronymic Ontology Extraction via Large Language Models
- 著者: Dekai Zhang (インペリアル・カレッジ・ロンドン), Simone Conia (ローマ・サピエンツァ大学), Antonio Rago (インペリアル・カレッジ・ロンドン & キングス・カレッジ・ロンドン)
- 分類: cs.CL cs.AI
- 発表日: 2025年10月11日 (arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.13839
本論文は大規模言語モデル(LLM)の最新の進展を活用し、生の評論テキストから製品本体論(部分-全体関係の形式)を抽出する完全自動化手法を開発した。研究により、本手法が生成した本体論は、LLMを評価者として用いた評価において、既存のBERTベースのベースライン手法を上回ることが示された。本研究は、本体論抽出タスクにおけるLLMのより広範な応用の基礎を確立している。
デジタル化時代において、膨大な非構造化テキストデータは本体論を通じて組織化・構造化される必要がある。特に電子商取引領域では、無数の製品リストが適切な製品組織構造を必要とする。部分-全体関係(meronymic relations)は、評論集約、感情分析、製品質問応答などの下流タスクにおいて重要な価値を有する。
- 手作業による構築コストが高い: 本体論の手動構築は時間がかかり、費用がかかり、労力を要するプロセスである
- 既存の自動化手法が不十分: 従来の研究は主に分類関係(taxonomic relations)に焦点を当てており、部分-全体関係の抽出には焦点を当てていない
- 評価が困難: 標準的なベンチマークデータセットが欠落しており、部分-全体本体論の品質を効果的に評価することが難しい
- 人間による注釈への依存: Oksanen等(2021)のBERT手法のような既存手法は、依然として一定程度の人間による注釈を必要とする
本論文は、LLMの強力な能力を活用して、完全に自動化された部分-全体本体論抽出手法を開発し、手法の有効性を検証するための新しい評価フレームワークを提案することを目指している。
- 完全自動化LLM手法の提案: 異なる製品カテゴリ間で一般化可能な、部分-全体本体論抽出のためのLLMを使用した完全自動化手法を開発した
- 革新的な評価フレームワーク: 部分-全体本体論抽出の各タスクに対して、LLMを評価者として用いた(LLM-as-a-judge)実証的評価の新しい手法を提案した
- 性能向上の検証: LLM手法がBERTベースのベースライン手法と比較して関連性の面で有意に優れていることを実験により証明した
- オープンソースコード: 完全な実装コードを提供し、研究の再現性を促進した
入力: 製品評論テキスト
出力: 部分-全体本体論グラフ(概念ノードとそれらの間の「部分-全体」関係を含む)
制約: 関係は意味のある部分-全体関係である必要があり、概念は製品に関連している必要がある
提案手法は4つの主要ステージのパイプラインで構成されている:
- 手法: Mistral-7B-Instruct-v0.2を微調整
- 訓練データ: SemEval-2014 Task 4データセット(1,600サンプル)
- 後処理: POS標注を用いたフィルタリング、評論に実際に出現する名詞のみを保持
- 出力制御: 最も一般的な50個のアスペクトを選択
- 埋め込みモデル: 微調整されたFastTextモデル(スペルミスと略語に対応)
- クラスタリングアルゴリズム: 等距ノードクラスタリング(ENC)、コサイン類似度に基づく
- 利点: K-meansと比較してより正確なクラスタリング結果を生成
- 代表選択: 各シノニムセット内で最も頻繁に出現する用語を代表として選択
- 関連性判定: LLMプロンプトを使用して、用語を本体論に含めるべきかを判定
- フィルタリング基準: 関連性、特異性、階層性
- 入力処理: 異なるシノニムセットから2つのアスペクトを含む文を抽出
- タスク設計: 多肢選択問題(アスペクトAはアスペクトBの一部/アスペクトBはアスペクトAの一部/無関係)
- モデル訓練: 1,000個の合成サンプルでMistralモデルを蒸留により微調整
- エンドツーエンドLLMパイプライン: BERT手法と比較して、より高度な自動化を実現
- 構造化出力制約: JSON構文制約を使用して出力形式の一貫性を確保
- 多段階最適化: 各ステージが特定のタスクに対して最適化され、全体的な性能を向上
- 幻覚の軽減: POS標注フィルタリングと微調整を通じてLLM幻覚問題を削減
- 出典: Amazon Reviews 2023データセット
- 製品カテゴリ: 5つのカテゴリ(ビデオゲーム、テレビ、ネックレス/腕時計、スタンドミキサー)
- データ規模: 各製品10万件の評論(ミキサーは26,464件)
- 処理制限: LLMタスクは1,000件の評論を使用(処理時間を考慮)
用語評価基準:
- 関連性: 用語が製品の部分またはコンポーネントを正確に表しているか
- 特異性: 用語が適切なレベルの特異性を有しているか
- 明確性: 用語が意図を明確に伝え、曖昧性を避けているか
- 製品適合性: 用語が論理的に与えられた製品に適しているか
関係評価基準:
- 論理的階層: 子ノードが親ノードの論理的部分または特性を表しているか
- 文脈適合性: 関係がAmazon製品カテゴリにおいて合理的であるか
- 明確性と特異性: 関係が曖昧性を避け、部分-全体関係を明確に定義しているか
- ベースライン手法: Oksanen等(2021)のBERTベース手法
- 評価手法: Gemini 1.5 Flashを評価者として使用
- 比較版: 完全版とベースライン用語数と等しい短縮版
- ハードウェア: NVIDIA GeForce RTX 4090 GPU
- 最適化器: Adam (学習率10^-4)
- 微調整技術: LoRA (r=4, α=16)
- 訓練エポック: 3エポック、バッチサイズ16
| 製品カテゴリ | 提案手法(完全) | 提案手法(短縮) | BERTベースライン |
|---|
| ビデオゲーム | 4.00 | 4.18 | 3.92 |
| テレビ | 4.06 | 4.05 | 3.95 |
| ネックレス | 4.50 | 4.57 | 3.86 |
| 腕時計 | 4.13 | 4.37 | 4.10 |
| スタンドミキサー | 4.36 | 4.40 | 3.31 |
| 製品カテゴリ | 提案手法(完全) | 提案手法(短縮) | BERTベースライン |
|---|
| ビデオゲーム | 3.89 | 3.82 | 3.43 |
| テレビ | 3.99 | 4.56 | 3.21 |
| ネックレス | 3.65 | 3.79 | 3.29 |
| 腕時計 | 3.75 | 4.06 | 2.68 |
| スタンドミキサー | 3.30 | 3.40 | 2.47 |
| 手法 | 平均スコア |
|---|
| 手法A1(プロンプトのみ) | 1.960 ± 0.006 |
| 手法A2(プロンプト+感情) | 2.259 ± 0.002 |
| 手法A3(微調整) | 2.662 ± 0.006 |
| 手法 | ビデオゲーム | テレビ | ネックレス | 腕時計 | ミキサー |
|---|
| 完全評論 | 3.811 | 4.155 | 3.397 | 3.570 | 3.080 |
| 抜粋 | 3.727 | 3.726 | 3.481 | 3.398 | 2.493 |
| 抜粋+微調整 | 3.893 | 3.987 | 3.646 | 3.747 | 3.303 |
| ステージ | 平均時間(分) |
|---|
| アスペクト抽出 | 32.05 |
| シノニムセット抽出 | 0.78 |
| 概念抽出 | 1.52 |
| 関係抽出 | 4.53 |
| 合計 | 38.89 |
| ステージ | 平均時間(分) |
|---|
| エンティティ抽出 | 1.66 |
| アスペクト抽出 | 2.79 |
| シノニム抽出 | 0.82 |
| 本体論抽出 | 1.36 |
| 合計 | 6.62 |
- 品質向上: LLM手法は用語と関係の品質の両面でBERTベースラインを有意に上回った
- 微調整の重要性: 微調整は純粋なプロンプト手法と比較して有意な性能向上をもたらした
- 計算コスト: LLM手法はより高い品質を提供するが、計算コストはBERT手法の約6倍である
- クラスタリングアルゴリズムの選択: ENCはK-meansと比較してより正確なシノニムセットを生成した
従来の本体論学習は主に深層学習手法に依存しているが、ほとんどが分類関係に焦点を当てており、部分-全体関係の抽出には焦点を当てていない。
最近の研究はLLMを用語と関係抽出などの重要な本体論学習タスクに適用することを開始しているが、主に分類関係に焦点を当てている。
標準的なベンチマークの欠落により、本体論品質の評価は常に課題となっている。本論文が提案するLLM-as-a-judge手法はこの問題に対して新しい解決策を提供する。
- LLM手法は部分-全体本体論抽出タスクにおいて既存のBERT手法を有意に上回った
- 微調整と構造化出力制約は性能向上の重要な要因である
- LLM-as-a-judgeは本体論品質評価のための実行可能な解決策を提供する
- 評価への依存: 主にLLM-as-a-judgeに依存しており、ユーザー研究による検証が欠落している
- 計算コスト: BERT手法と比較して計算コストが有意に増加している
- 幻覚問題: LLMは依然として無関係なアスペクトを生成する幻覚問題が存在する
- ベンチマークの欠落: 製品本体論領域に標準的なベンチマークデータセットが欠落している
- 標準ベンチマークの構築: 本タスクの標準的なベンチマークデータセットを確立する
- ユーザー研究による検証: ユーザー研究を通じて本体論の実用性を検証する
- 手法の一般化: 他の種類の本体論(分類本体論など)への手法の応用を探索する
- 幻覚の軽減: 単一モデルの幻覚を削減するために複数のLLMを統合する方法を研究する
- 革新性が高い: 部分-全体本体論抽出にLLMを体系的に適用した初めての研究
- 手法が完全: エンドツーエンドの完全なパイプラインソリューションを提供
- 評価が革新的: LLM-as-a-judgeの評価フレームワークを提案
- 実験が充分: 詳細なアブレーション実験と効率分析を含む
- オープンソース貢献: 完全なオープンソース実装を提供
- 評価の限界: LLM評価に過度に依存しており、人間による評価検証が欠落している
- コスト考慮: 計算コストが有意に増加しているが、コスト効果のバランスについて十分に議論されていない
- 一般化性: 5つの製品カテゴリでのみ検証されており、一般化性はさらなる検証が必要
- ベンチマーク比較: より多くの既存手法との比較が不十分である
- 学術的価値: 本体論構築におけるLLMの応用に重要な参考資料を提供
- 実用的価値: 電子商取引などの領域での直接的な応用可能性を有する
- 方法論的貢献: LLM-as-a-judge評価フレームワークは広範な適用可能性を有する
- 再現性: 詳細な実装詳細とオープンソースコードを提供
- 電子商取引プラットフォーム: 製品分類と推奨システム
- 知識グラフ構築: 自動化された本体論構築
- 情報抽出: 非構造化テキストからの構造化関係抽出
- 評論分析: 製品特性とコンポーネント識別
本論文は関連領域の重要な研究を引用しており、以下を含む:
- Oksanen et al. (2021): BERTベースの製品本体論抽出手法
- Devlin et al. (2019): BERTモデル
- Jiang et al. (2023): Mistralモデル
- Pontiki et al. (2014): SemEval-2014 Task 4データセット
総合評価: これは部分-全体本体論抽出領域において重要な貢献を有する論文である。手法の革新性が高く、実験設計が合理的であり、結果は説得力がある。評価手法と計算コストの面でいくつかの限界が存在するが、該当領域の発展に価値のある洞察とツールを提供している。