2025-11-20T11:34:15.055386

Meronymic Ontology Extraction via Large Language Models

Zhang, Conia, Rago

Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.

academic

Meronymic Ontology Extraction via Large Language Models

基本信息

论文ID: 2510.13839
标题: Meronymic Ontology Extraction via Large Language Models
作者: Dekai Zhang (Imperial College London), Simone Conia (Sapienza University of Rome), Antonio Rago (Imperial College London & King's College London)
分类: cs.CL cs.AI
发表时间: 2025年10月11日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13839

摘要

本文利用大语言模型(LLMs)的最新进展，开发了一种从原始评论文本中提取产品本体论(以部分-整体关系形式)的全自动化方法。研究表明，该方法生成的本体论在使用LLM作为评判者的评估中超越了现有的基于BERT的基线方法。这项研究为LLMs在本体论提取任务中的更广泛应用奠定了基础。

研究背景与动机

问题定义

在数字化时代，海量的非结构化文本数据需要通过本体论进行组织和结构化。特别是在电商领域，无数的产品列表需要适当的产品组织结构。部分-整体关系(meronymic relations)在评论聚合、情感分析和产品问答等下游任务中具有重要价值。

现有方法局限性

手工构建成本高：手动构建本体论是一个耗时、昂贵且繁重的过程
现有自动化方法不足：以往研究主要集中在分类关系(taxonomic relations)而非部分-整体关系的提取
评估困难：缺乏标准基准数据集，难以有效评估部分-整体本体论的质量
依赖人工标注：现有方法如Oksanen等(2021)的BERT方法仍需要一定程度的人工标注

研究动机

本文旨在利用LLMs的强大能力，开发一个完全自动化的部分-整体本体论提取方法，并提出新的评估框架来验证方法的有效性。

核心贡献

提出全自动化LLM方法：开发了一个使用LLMs进行部分-整体本体论提取的完全自动化方法，可跨不同产品类别泛化
创新评估框架：提出了使用LLM作为评判者(LLM-as-a-judge)对部分-整体本体论提取各个任务进行实证评估的新方法
性能提升验证：通过实验证明LLM方法在相关性方面显著优于基于BERT的基线方法
开源代码：提供了完整的实现代码，促进研究的可复现性

方法详解

任务定义

输入：产品评论文本输出：部分-整体本体论图，包含概念节点和它们之间的"部分-整体"关系约束：关系必须是有意义的部分-整体关系，概念必须与产品相关

模型架构

本文提出的方法包含四个主要阶段的流水线：

1. 方面提取(Aspect Extraction)

方法：使用Mistral-7B-Instruct-v0.2进行微调
训练数据：SemEval-2014 Task 4数据集(1600个样本)
后处理：使用POS标注过滤，只保留评论中实际出现的名词
输出控制：选择前50个最常见的方面

2. 同义词集提取(Synset Extraction)

嵌入模型：微调的FastText模型(处理拼写错误和缩写)
聚类算法：等距节点聚类(ENC)基于余弦相似度
优势：相比K-means产生更精确的聚类结果

3. 概念提取(Concept Extraction)

代表选择：选择每个同义词集中最常出现的术语作为代表
相关性判断：使用LLM提示判断术语是否应包含在本体论中
筛选标准：相关性、特异性、层次性

4. 关系提取(Relation Extraction)

输入处理：提取包含来自不同同义词集的两个方面的句子
任务设计：多选问题(方面A是方面B的一部分/方面B是方面A的一部分/无关系)
模型训练：通过蒸馏在1000个合成样本上微调Mistral模型

技术创新点

端到端LLM流水线：相比BERT方法，实现了更高程度的自动化
结构化输出约束：使用JSON语法约束确保输出格式一致性
多阶段优化：每个阶段针对特定任务进行优化，提高整体性能
幻觉缓解：通过POS标注过滤和微调减少LLM幻觉问题

实验设置

数据集

来源：Amazon Reviews 2023数据集
产品类别：5个类别(视频游戏、电视、项链/手表、立式搅拌机)
数据规模：每个产品10万条评论(搅拌机26,464条)
处理限制：LLM任务使用1000条评论(考虑处理时间)

评价指标

术语评估标准：

相关性：术语是否准确代表产品的部分或组件
特异性：术语是否具有适当的特异性水平
清晰性：术语是否清晰传达意图，避免歧义
产品匹配度：术语是否逻辑上适合给定产品

关系评估标准：

逻辑层次：子节点是否代表父节点的逻辑部分或特征
上下文匹配：关系在Amazon产品类别中是否合理
清晰性和特异性：关系是否避免歧义并清晰定义部分-整体关系

对比方法

基线方法：Oksanen等(2021)的基于BERT的方法
评估方法：Gemini 1.5 Flash作为LLM评判者
对比版本：完整版本和缩短版本(与基线术语数量相等)

实现细节

硬件：NVIDIA GeForce RTX 4090 GPU
优化器：Adam (学习率10^-4)
微调技术：LoRA (r=4, α=16)
训练轮数：3轮，批大小16

实验结果

主要结果

术语质量评估

产品类别	本文方法(完整)	本文方法(缩短)	BERT基线
视频游戏	4.00	4.18	3.92
电视	4.06	4.05	3.95
项链	4.50	4.57	3.86
手表	4.13	4.37	4.10
立式搅拌机	4.36	4.40	3.31

关系质量评估

产品类别	本文方法(完整)	本文方法(缩短)	BERT基线
视频游戏	3.89	3.82	3.43
电视	3.99	4.56	3.21
项链	3.65	3.79	3.29
手表	3.75	4.06	2.68
立式搅拌机	3.30	3.40	2.47

消融实验

方面提取方法比较

方法	平均得分
方法A1(仅提示)	1.960 ± 0.006
方法A2(提示+情感)	2.259 ± 0.002
方法A3(微调)	2.662 ± 0.006

关系提取方法比较

方法	视频游戏	电视	项链	手表	搅拌机
完整评论	3.811	4.155	3.397	3.570	3.080
摘录	3.727	3.726	3.481	3.398	2.493
摘录+微调	3.893	3.987	3.646	3.747	3.303

效率分析

本文方法处理时间

阶段	平均时间(分钟)
方面提取	32.05
同义词集提取	0.78
概念提取	1.52
关系提取	4.53
总计	38.89

BERT基线处理时间

阶段	平均时间(分钟)
实体提取	1.66
方面提取	2.79
同义词提取	0.82
本体论提取	1.36
总计	6.62

实验发现

质量提升：LLM方法在术语和关系质量上均显著优于BERT基线
微调重要性：微调相比纯提示方法带来显著性能提升
计算成本：LLM方法质量更高但计算成本约为BERT方法的6倍
聚类算法选择：ENC相比K-means产生更精确的同义词集

相关工作

本体论学习

传统本体论学习主要依赖深度学习方法，但大多集中在分类关系而非部分-整体关系的提取。

LLM在本体论构建中的应用

近期研究开始探索LLMs在术语和关系提取等关键本体论学习任务中的应用，但主要关注分类关系。

评估方法

由于缺乏标准基准，本体论质量评估一直是一个挑战。本文提出的LLM-as-a-judge方法为这一问题提供了新的解决方案。

结论与讨论

主要结论

LLM方法在部分-整体本体论提取任务中显著优于现有BERT方法
微调和结构化输出约束是提升性能的关键因素
LLM-as-a-judge为本体论质量评估提供了可行的解决方案

局限性

评估依赖：主要依赖LLM-as-a-judge，缺乏用户研究验证
计算成本：相比BERT方法，计算成本显著增加
幻觉问题：LLM仍存在生成不相关方面的幻觉问题
基准缺失：产品本体论领域缺乏标准基准数据集

未来方向

标准基准构建：建立该任务的标准基准数据集
用户研究验证：通过用户研究验证本体论的实用性
方法泛化：探索方法在其他类型本体论(如分类本体论)中的应用
幻觉缓解：研究集成多个LLM以减少单一模型幻觉的方法

深度评价

优点

创新性强：首次系统性地将LLMs应用于部分-整体本体论提取
方法完整：提供了端到端的完整流水线解决方案
评估创新：提出了LLM-as-a-judge的评估框架
实验充分：包含详细的消融实验和效率分析
开源贡献：提供完整的开源实现

不足

评估局限：过度依赖LLM评估，缺乏人类评估验证
成本考虑：计算成本显著增加但未充分讨论成本效益权衡
泛化性：仅在5个产品类别上验证，泛化性有待进一步验证
基准对比：与更多现有方法的对比不够充分

影响力

学术价值：为LLMs在本体论构建中的应用提供了重要参考
实用价值：在电商等领域具有直接应用潜力
方法论贡献：LLM-as-a-judge评估框架具有广泛适用性
可复现性：提供详细实现细节和开源代码

适用场景

电商平台：产品分类和推荐系统
知识图谱构建：自动化本体论构建
信息抽取：从非结构化文本中抽取结构化关系
评论分析：产品特征和组件识别

参考文献

本文引用了相关领域的重要工作，包括：

Oksanen et al. (2021): 基于BERT的产品本体论提取方法
Devlin et al. (2019): BERT模型
Jiang et al. (2023): Mistral模型
Pontiki et al. (2014): SemEval-2014 Task 4数据集

总体评价：这是一篇在部分-整体本体论提取领域具有重要贡献的论文。方法创新性强，实验设计合理，结果令人信服。虽然在评估方法和计算成本方面存在一些局限，但为该领域的发展提供了有价值的见解和工具。