Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.
academic- 论文ID: 2510.13839
- 标题: Meronymic Ontology Extraction via Large Language Models
- 作者: Dekai Zhang (Imperial College London), Simone Conia (Sapienza University of Rome), Antonio Rago (Imperial College London & King's College London)
- 分类: cs.CL cs.AI
- 发表时间: 2025年10月11日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.13839
本文利用大语言模型(LLMs)的最新进展,开发了一种从原始评论文本中提取产品本体论(以部分-整体关系形式)的全自动化方法。研究表明,该方法生成的本体论在使用LLM作为评判者的评估中超越了现有的基于BERT的基线方法。这项研究为LLMs在本体论提取任务中的更广泛应用奠定了基础。
在数字化时代,海量的非结构化文本数据需要通过本体论进行组织和结构化。特别是在电商领域,无数的产品列表需要适当的产品组织结构。部分-整体关系(meronymic relations)在评论聚合、情感分析和产品问答等下游任务中具有重要价值。
- 手工构建成本高:手动构建本体论是一个耗时、昂贵且繁重的过程
- 现有自动化方法不足:以往研究主要集中在分类关系(taxonomic relations)而非部分-整体关系的提取
- 评估困难:缺乏标准基准数据集,难以有效评估部分-整体本体论的质量
- 依赖人工标注:现有方法如Oksanen等(2021)的BERT方法仍需要一定程度的人工标注
本文旨在利用LLMs的强大能力,开发一个完全自动化的部分-整体本体论提取方法,并提出新的评估框架来验证方法的有效性。
- 提出全自动化LLM方法:开发了一个使用LLMs进行部分-整体本体论提取的完全自动化方法,可跨不同产品类别泛化
- 创新评估框架:提出了使用LLM作为评判者(LLM-as-a-judge)对部分-整体本体论提取各个任务进行实证评估的新方法
- 性能提升验证:通过实验证明LLM方法在相关性方面显著优于基于BERT的基线方法
- 开源代码:提供了完整的实现代码,促进研究的可复现性
输入:产品评论文本
输出:部分-整体本体论图,包含概念节点和它们之间的"部分-整体"关系
约束:关系必须是有意义的部分-整体关系,概念必须与产品相关
本文提出的方法包含四个主要阶段的流水线:
- 方法:使用Mistral-7B-Instruct-v0.2进行微调
- 训练数据:SemEval-2014 Task 4数据集(1600个样本)
- 后处理:使用POS标注过滤,只保留评论中实际出现的名词
- 输出控制:选择前50个最常见的方面
- 嵌入模型:微调的FastText模型(处理拼写错误和缩写)
- 聚类算法:等距节点聚类(ENC)基于余弦相似度
- 优势:相比K-means产生更精确的聚类结果
- 代表选择:选择每个同义词集中最常出现的术语作为代表
- 相关性判断:使用LLM提示判断术语是否应包含在本体论中
- 筛选标准:相关性、特异性、层次性
- 输入处理:提取包含来自不同同义词集的两个方面的句子
- 任务设计:多选问题(方面A是方面B的一部分/方面B是方面A的一部分/无关系)
- 模型训练:通过蒸馏在1000个合成样本上微调Mistral模型
- 端到端LLM流水线:相比BERT方法,实现了更高程度的自动化
- 结构化输出约束:使用JSON语法约束确保输出格式一致性
- 多阶段优化:每个阶段针对特定任务进行优化,提高整体性能
- 幻觉缓解:通过POS标注过滤和微调减少LLM幻觉问题
- 来源:Amazon Reviews 2023数据集
- 产品类别:5个类别(视频游戏、电视、项链/手表、立式搅拌机)
- 数据规模:每个产品10万条评论(搅拌机26,464条)
- 处理限制:LLM任务使用1000条评论(考虑处理时间)
术语评估标准:
- 相关性:术语是否准确代表产品的部分或组件
- 特异性:术语是否具有适当的特异性水平
- 清晰性:术语是否清晰传达意图,避免歧义
- 产品匹配度:术语是否逻辑上适合给定产品
关系评估标准:
- 逻辑层次:子节点是否代表父节点的逻辑部分或特征
- 上下文匹配:关系在Amazon产品类别中是否合理
- 清晰性和特异性:关系是否避免歧义并清晰定义部分-整体关系
- 基线方法:Oksanen等(2021)的基于BERT的方法
- 评估方法:Gemini 1.5 Flash作为LLM评判者
- 对比版本:完整版本和缩短版本(与基线术语数量相等)
- 硬件:NVIDIA GeForce RTX 4090 GPU
- 优化器:Adam (学习率10^-4)
- 微调技术:LoRA (r=4, α=16)
- 训练轮数:3轮,批大小16
| 产品类别 | 本文方法(完整) | 本文方法(缩短) | BERT基线 |
|---|
| 视频游戏 | 4.00 | 4.18 | 3.92 |
| 电视 | 4.06 | 4.05 | 3.95 |
| 项链 | 4.50 | 4.57 | 3.86 |
| 手表 | 4.13 | 4.37 | 4.10 |
| 立式搅拌机 | 4.36 | 4.40 | 3.31 |
| 产品类别 | 本文方法(完整) | 本文方法(缩短) | BERT基线 |
|---|
| 视频游戏 | 3.89 | 3.82 | 3.43 |
| 电视 | 3.99 | 4.56 | 3.21 |
| 项链 | 3.65 | 3.79 | 3.29 |
| 手表 | 3.75 | 4.06 | 2.68 |
| 立式搅拌机 | 3.30 | 3.40 | 2.47 |
| 方法 | 平均得分 |
|---|
| 方法A1(仅提示) | 1.960 ± 0.006 |
| 方法A2(提示+情感) | 2.259 ± 0.002 |
| 方法A3(微调) | 2.662 ± 0.006 |
| 方法 | 视频游戏 | 电视 | 项链 | 手表 | 搅拌机 |
|---|
| 完整评论 | 3.811 | 4.155 | 3.397 | 3.570 | 3.080 |
| 摘录 | 3.727 | 3.726 | 3.481 | 3.398 | 2.493 |
| 摘录+微调 | 3.893 | 3.987 | 3.646 | 3.747 | 3.303 |
| 阶段 | 平均时间(分钟) |
|---|
| 方面提取 | 32.05 |
| 同义词集提取 | 0.78 |
| 概念提取 | 1.52 |
| 关系提取 | 4.53 |
| 总计 | 38.89 |
| 阶段 | 平均时间(分钟) |
|---|
| 实体提取 | 1.66 |
| 方面提取 | 2.79 |
| 同义词提取 | 0.82 |
| 本体论提取 | 1.36 |
| 总计 | 6.62 |
- 质量提升:LLM方法在术语和关系质量上均显著优于BERT基线
- 微调重要性:微调相比纯提示方法带来显著性能提升
- 计算成本:LLM方法质量更高但计算成本约为BERT方法的6倍
- 聚类算法选择:ENC相比K-means产生更精确的同义词集
传统本体论学习主要依赖深度学习方法,但大多集中在分类关系而非部分-整体关系的提取。
近期研究开始探索LLMs在术语和关系提取等关键本体论学习任务中的应用,但主要关注分类关系。
由于缺乏标准基准,本体论质量评估一直是一个挑战。本文提出的LLM-as-a-judge方法为这一问题提供了新的解决方案。
- LLM方法在部分-整体本体论提取任务中显著优于现有BERT方法
- 微调和结构化输出约束是提升性能的关键因素
- LLM-as-a-judge为本体论质量评估提供了可行的解决方案
- 评估依赖:主要依赖LLM-as-a-judge,缺乏用户研究验证
- 计算成本:相比BERT方法,计算成本显著增加
- 幻觉问题:LLM仍存在生成不相关方面的幻觉问题
- 基准缺失:产品本体论领域缺乏标准基准数据集
- 标准基准构建:建立该任务的标准基准数据集
- 用户研究验证:通过用户研究验证本体论的实用性
- 方法泛化:探索方法在其他类型本体论(如分类本体论)中的应用
- 幻觉缓解:研究集成多个LLM以减少单一模型幻觉的方法
- 创新性强:首次系统性地将LLMs应用于部分-整体本体论提取
- 方法完整:提供了端到端的完整流水线解决方案
- 评估创新:提出了LLM-as-a-judge的评估框架
- 实验充分:包含详细的消融实验和效率分析
- 开源贡献:提供完整的开源实现
- 评估局限:过度依赖LLM评估,缺乏人类评估验证
- 成本考虑:计算成本显著增加但未充分讨论成本效益权衡
- 泛化性:仅在5个产品类别上验证,泛化性有待进一步验证
- 基准对比:与更多现有方法的对比不够充分
- 学术价值:为LLMs在本体论构建中的应用提供了重要参考
- 实用价值:在电商等领域具有直接应用潜力
- 方法论贡献:LLM-as-a-judge评估框架具有广泛适用性
- 可复现性:提供详细实现细节和开源代码
- 电商平台:产品分类和推荐系统
- 知识图谱构建:自动化本体论构建
- 信息抽取:从非结构化文本中抽取结构化关系
- 评论分析:产品特征和组件识别
本文引用了相关领域的重要工作,包括:
- Oksanen et al. (2021): 基于BERT的产品本体论提取方法
- Devlin et al. (2019): BERT模型
- Jiang et al. (2023): Mistral模型
- Pontiki et al. (2014): SemEval-2014 Task 4数据集
总体评价:这是一篇在部分-整体本体论提取领域具有重要贡献的论文。方法创新性强,实验设计合理,结果令人信服。虽然在评估方法和计算成本方面存在一些局限,但为该领域的发展提供了有价值的见解和工具。