2025-11-20T11:34:15.055386

Meronymic Ontology Extraction via Large Language Models

Zhang, Conia, Rago
Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.
academic

Meronymic Ontology Extraction via Large Language Models

基本信息

  • 论文ID: 2510.13839
  • 标题: Meronymic Ontology Extraction via Large Language Models
  • 作者: Dekai Zhang (Imperial College London), Simone Conia (Sapienza University of Rome), Antonio Rago (Imperial College London & King's College London)
  • 分类: cs.CL cs.AI
  • 发表时间: 2025年10月11日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13839

摘要

本文利用大语言模型(LLMs)的最新进展,开发了一种从原始评论文本中提取产品本体论(以部分-整体关系形式)的全自动化方法。研究表明,该方法生成的本体论在使用LLM作为评判者的评估中超越了现有的基于BERT的基线方法。这项研究为LLMs在本体论提取任务中的更广泛应用奠定了基础。

研究背景与动机

问题定义

在数字化时代,海量的非结构化文本数据需要通过本体论进行组织和结构化。特别是在电商领域,无数的产品列表需要适当的产品组织结构。部分-整体关系(meronymic relations)在评论聚合、情感分析和产品问答等下游任务中具有重要价值。

现有方法局限性

  1. 手工构建成本高:手动构建本体论是一个耗时、昂贵且繁重的过程
  2. 现有自动化方法不足:以往研究主要集中在分类关系(taxonomic relations)而非部分-整体关系的提取
  3. 评估困难:缺乏标准基准数据集,难以有效评估部分-整体本体论的质量
  4. 依赖人工标注:现有方法如Oksanen等(2021)的BERT方法仍需要一定程度的人工标注

研究动机

本文旨在利用LLMs的强大能力,开发一个完全自动化的部分-整体本体论提取方法,并提出新的评估框架来验证方法的有效性。

核心贡献

  1. 提出全自动化LLM方法:开发了一个使用LLMs进行部分-整体本体论提取的完全自动化方法,可跨不同产品类别泛化
  2. 创新评估框架:提出了使用LLM作为评判者(LLM-as-a-judge)对部分-整体本体论提取各个任务进行实证评估的新方法
  3. 性能提升验证:通过实验证明LLM方法在相关性方面显著优于基于BERT的基线方法
  4. 开源代码:提供了完整的实现代码,促进研究的可复现性

方法详解

任务定义

输入:产品评论文本 输出:部分-整体本体论图,包含概念节点和它们之间的"部分-整体"关系 约束:关系必须是有意义的部分-整体关系,概念必须与产品相关

模型架构

本文提出的方法包含四个主要阶段的流水线:

1. 方面提取(Aspect Extraction)

  • 方法:使用Mistral-7B-Instruct-v0.2进行微调
  • 训练数据:SemEval-2014 Task 4数据集(1600个样本)
  • 后处理:使用POS标注过滤,只保留评论中实际出现的名词
  • 输出控制:选择前50个最常见的方面

2. 同义词集提取(Synset Extraction)

  • 嵌入模型:微调的FastText模型(处理拼写错误和缩写)
  • 聚类算法:等距节点聚类(ENC)基于余弦相似度
  • 优势:相比K-means产生更精确的聚类结果

3. 概念提取(Concept Extraction)

  • 代表选择:选择每个同义词集中最常出现的术语作为代表
  • 相关性判断:使用LLM提示判断术语是否应包含在本体论中
  • 筛选标准:相关性、特异性、层次性

4. 关系提取(Relation Extraction)

  • 输入处理:提取包含来自不同同义词集的两个方面的句子
  • 任务设计:多选问题(方面A是方面B的一部分/方面B是方面A的一部分/无关系)
  • 模型训练:通过蒸馏在1000个合成样本上微调Mistral模型

技术创新点

  1. 端到端LLM流水线:相比BERT方法,实现了更高程度的自动化
  2. 结构化输出约束:使用JSON语法约束确保输出格式一致性
  3. 多阶段优化:每个阶段针对特定任务进行优化,提高整体性能
  4. 幻觉缓解:通过POS标注过滤和微调减少LLM幻觉问题

实验设置

数据集

  • 来源:Amazon Reviews 2023数据集
  • 产品类别:5个类别(视频游戏、电视、项链/手表、立式搅拌机)
  • 数据规模:每个产品10万条评论(搅拌机26,464条)
  • 处理限制:LLM任务使用1000条评论(考虑处理时间)

评价指标

术语评估标准

  1. 相关性:术语是否准确代表产品的部分或组件
  2. 特异性:术语是否具有适当的特异性水平
  3. 清晰性:术语是否清晰传达意图,避免歧义
  4. 产品匹配度:术语是否逻辑上适合给定产品

关系评估标准

  1. 逻辑层次:子节点是否代表父节点的逻辑部分或特征
  2. 上下文匹配:关系在Amazon产品类别中是否合理
  3. 清晰性和特异性:关系是否避免歧义并清晰定义部分-整体关系

对比方法

  • 基线方法:Oksanen等(2021)的基于BERT的方法
  • 评估方法:Gemini 1.5 Flash作为LLM评判者
  • 对比版本:完整版本和缩短版本(与基线术语数量相等)

实现细节

  • 硬件:NVIDIA GeForce RTX 4090 GPU
  • 优化器:Adam (学习率10^-4)
  • 微调技术:LoRA (r=4, α=16)
  • 训练轮数:3轮,批大小16

实验结果

主要结果

术语质量评估

产品类别本文方法(完整)本文方法(缩短)BERT基线
视频游戏4.004.183.92
电视4.064.053.95
项链4.504.573.86
手表4.134.374.10
立式搅拌机4.364.403.31

关系质量评估

产品类别本文方法(完整)本文方法(缩短)BERT基线
视频游戏3.893.823.43
电视3.994.563.21
项链3.653.793.29
手表3.754.062.68
立式搅拌机3.303.402.47

消融实验

方面提取方法比较

方法平均得分
方法A1(仅提示)1.960 ± 0.006
方法A2(提示+情感)2.259 ± 0.002
方法A3(微调)2.662 ± 0.006

关系提取方法比较

方法视频游戏电视项链手表搅拌机
完整评论3.8114.1553.3973.5703.080
摘录3.7273.7263.4813.3982.493
摘录+微调3.8933.9873.6463.7473.303

效率分析

本文方法处理时间

阶段平均时间(分钟)
方面提取32.05
同义词集提取0.78
概念提取1.52
关系提取4.53
总计38.89

BERT基线处理时间

阶段平均时间(分钟)
实体提取1.66
方面提取2.79
同义词提取0.82
本体论提取1.36
总计6.62

实验发现

  1. 质量提升:LLM方法在术语和关系质量上均显著优于BERT基线
  2. 微调重要性:微调相比纯提示方法带来显著性能提升
  3. 计算成本:LLM方法质量更高但计算成本约为BERT方法的6倍
  4. 聚类算法选择:ENC相比K-means产生更精确的同义词集

相关工作

本体论学习

传统本体论学习主要依赖深度学习方法,但大多集中在分类关系而非部分-整体关系的提取。

LLM在本体论构建中的应用

近期研究开始探索LLMs在术语和关系提取等关键本体论学习任务中的应用,但主要关注分类关系。

评估方法

由于缺乏标准基准,本体论质量评估一直是一个挑战。本文提出的LLM-as-a-judge方法为这一问题提供了新的解决方案。

结论与讨论

主要结论

  1. LLM方法在部分-整体本体论提取任务中显著优于现有BERT方法
  2. 微调和结构化输出约束是提升性能的关键因素
  3. LLM-as-a-judge为本体论质量评估提供了可行的解决方案

局限性

  1. 评估依赖:主要依赖LLM-as-a-judge,缺乏用户研究验证
  2. 计算成本:相比BERT方法,计算成本显著增加
  3. 幻觉问题:LLM仍存在生成不相关方面的幻觉问题
  4. 基准缺失:产品本体论领域缺乏标准基准数据集

未来方向

  1. 标准基准构建:建立该任务的标准基准数据集
  2. 用户研究验证:通过用户研究验证本体论的实用性
  3. 方法泛化:探索方法在其他类型本体论(如分类本体论)中的应用
  4. 幻觉缓解:研究集成多个LLM以减少单一模型幻觉的方法

深度评价

优点

  1. 创新性强:首次系统性地将LLMs应用于部分-整体本体论提取
  2. 方法完整:提供了端到端的完整流水线解决方案
  3. 评估创新:提出了LLM-as-a-judge的评估框架
  4. 实验充分:包含详细的消融实验和效率分析
  5. 开源贡献:提供完整的开源实现

不足

  1. 评估局限:过度依赖LLM评估,缺乏人类评估验证
  2. 成本考虑:计算成本显著增加但未充分讨论成本效益权衡
  3. 泛化性:仅在5个产品类别上验证,泛化性有待进一步验证
  4. 基准对比:与更多现有方法的对比不够充分

影响力

  1. 学术价值:为LLMs在本体论构建中的应用提供了重要参考
  2. 实用价值:在电商等领域具有直接应用潜力
  3. 方法论贡献:LLM-as-a-judge评估框架具有广泛适用性
  4. 可复现性:提供详细实现细节和开源代码

适用场景

  1. 电商平台:产品分类和推荐系统
  2. 知识图谱构建:自动化本体论构建
  3. 信息抽取:从非结构化文本中抽取结构化关系
  4. 评论分析:产品特征和组件识别

参考文献

本文引用了相关领域的重要工作,包括:

  • Oksanen et al. (2021): 基于BERT的产品本体论提取方法
  • Devlin et al. (2019): BERT模型
  • Jiang et al. (2023): Mistral模型
  • Pontiki et al. (2014): SemEval-2014 Task 4数据集

总体评价:这是一篇在部分-整体本体论提取领域具有重要贡献的论文。方法创新性强,实验设计合理,结果令人信服。虽然在评估方法和计算成本方面存在一些局限,但为该领域的发展提供了有价值的见解和工具。