2025-11-20T05:28:14.865591

Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark

He, Chu, Wu et al.
Benchmarks are crucial for evaluating machine learning algorithm performance, facilitating comparison and identifying superior solutions. However, biases within datasets can lead models to learn shortcut patterns, resulting in inaccurate assessments and hindering real-world applicability. This paper addresses the issue of entity bias in relation extraction tasks, where models tend to rely on entity mentions rather than context. We propose a debiased relation extraction benchmark DREB that breaks the pseudo-correlation between entity mentions and relation types through entity replacement. DREB utilizes Bias Evaluator and PPL Evaluator to ensure low bias and high naturalness, providing a reliable and accurate assessment of model generalization in entity bias scenarios. To establish a new baseline on DREB, we introduce MixDebias, a debiasing method combining data-level and model training-level techniques. MixDebias effectively improves model performance on DREB while maintaining performance on the original dataset. Extensive experiments demonstrate the effectiveness and robustness of MixDebias compared to existing methods, highlighting its potential for improving the generalization ability of relation extraction models. We will release DREB and MixDebias publicly.
academic

Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark

基本信息

  • 论文ID: 2501.01349
  • 标题: Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark
  • 作者: Liang He, Yougang Chu, Zhen Wu, Jianbing Zhang, Xinyu Dai, Jiajun Chen (南京大学)
  • 分类: cs.AI
  • 发表时间: 2025年1月2日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.01349

摘要

基准数据集对评估机器学习算法性能至关重要,但数据集中的偏见会导致模型学习捷径模式,导致评估不准确并阻碍实际应用。本文解决关系抽取任务中的实体偏见问题,即模型倾向于依赖实体提及而非上下文。作者提出了去偏关系抽取基准DREB,通过实体替换打破实体提及与关系类型之间的伪相关性。DREB利用偏见评估器和困惑度评估器确保低偏见和高自然性。为在DREB上建立新基线,作者引入MixDebias方法,结合数据级和模型训练级去偏技术。

研究背景与动机

问题定义

在关系抽取任务中存在严重的实体偏见问题:

  1. 伪相关性:实体提及与关系类型之间存在虚假的统计相关性
  2. 捷径学习:模型过度依赖实体名称而非上下文信息进行预测
  3. 泛化能力差:当实体被替换或去除时,模型性能大幅下降

问题重要性

  • 在TACRED数据集中,超过一半的实例仅通过实体提及就能正确预测
  • SOTA模型如LUKE和IRE在实体替换后F1分数下降30%-50%
  • 大语言模型会忽略矛盾或代表性不足的上下文信息,过度依赖偏见的参数化知识

现有方法局限性

数据层面

  • 现有去偏方法可能引入新的偏见
  • Wang等人的方法导致分布偏见
  • ENTRED的实体替换缺乏语义约束

模型层面

  • DFL可能损害域内性能
  • R-Drop缺乏对实体偏见的细粒度控制
  • CoRE的后处理性质无法完全消除训练期间学到的偏见

核心贡献

  1. 提出DREB基准:首个专门针对实体偏见的去偏关系抽取基准,确保模型无法仅依赖实体提及进行预测
  2. 设计双重评估机制:偏见评估器和困惑度评估器确保低偏见和高自然性
  3. 开发MixDebias方法:结合数据级和模型级去偏的新基线方法
  4. 全面实验评估:在多个数据集上验证方法的有效性和鲁棒性

方法详解

DREB基准构建

整体架构

DREB通过实体替换策略打破实体提及与关系类型的伪相关性:

  1. 实体替换:从Wikidata中查询同类型实体进行替换
  2. 偏见评估:使用神经网络评估替换样本的偏见程度
  3. 自然性保证:通过困惑度评估器确保生成样本的自然性

偏见评估器

偏见评估器建模实体偏见的伪相关性:

  • 特征提取函数φ(x)提取实体偏见特征
  • 神经网络F: φ(x) → y直接建模相关性
  • 输出F(φ(x))反映样本x的固有偏见

困惑度评估器

使用GPT-2计算样本困惑度,确保生成样本的自然性:

logPPL(W)=1ni=1nlogP(wiw1,...,wi1)\log PPL(W) = -\frac{1}{n}\sum_{i=1}^{n}\log P(w_i|w_1,...,w_{i-1})

选择困惑度最低的样本作为最终生成样本。

MixDebias去偏方法

数据级去偏(RDA)

通过实体替换生成增强样本,使用KL散度约束:

LRDA=12(DKL(PPaug)+DKL(PaugP))L_{RDA} = \frac{1}{2}(D_{KL}(P||P_{aug}) + D_{KL}(P_{aug}||P))

其中P和P_aug分别是原始样本和增强样本的概率分布。

模型级去偏(CDA)

使用因果效应估计识别和量化实体偏见:

  1. 偏见概率估计Pbias=PλPcontextP_{bias} = P - \lambda P_{context}
  2. 去偏焦点损失LCDA=(1Pbiasj)logPjL_{CDA} = -(1-P_{bias}^j)\log P^j

联合损失函数

LMixDebias=LCDA+βLRDAL_{MixDebias} = L_{CDA} + \beta L_{RDA}

=(1(PjλPcontextj))logPj+β2(DKL(PPaug)+DKL(PaugP))= -(1-(P^j-\lambda P_{context}^j))\log P^j + \frac{\beta}{2}(D_{KL}(P||P_{aug}) + D_{KL}(P_{aug}||P))

技术创新点

  1. 双重质量控制:同时考虑偏见程度和自然性
  2. 分布保持:DREB保持与原始数据集相同的关系分布
  3. 多层次去偏:数据级和模型级方法的有机结合
  4. 动态增强:训练时动态生成增强样本

实验设置

数据集

  • TACRED:广泛使用的关系抽取数据集
  • TACREV:TACRED的修订版本,解决标注和噪声问题
  • Re-TACRED:重新设计关系类型的数据集

评价指标

  1. F1分数:精确率和召回率的调和平均
  2. 偏见缓解效率(BME)BME=αF1originF1~origin+(1α)F1DREBF1~DREBBME = \alpha \cdot \frac{F1_{origin}}{\tilde{F1}_{origin}} + (1-\alpha) \cdot \frac{F1_{DREB}}{\tilde{F1}_{DREB}} 其中α=0.5

对比方法

基础模型

  • LUKE:基于Transformer的实体感知模型
  • IRE:引入类型化实体标记的改进基线

去偏方法

  • Focal Loss:减少简单样本影响
  • R-Drop:通过dropout一致性提升泛化
  • DFL:基于偏见模型调整损失函数
  • PoE:专家乘积模型
  • CoRE:因果图去偏方法

实现细节

  • 超参数β∈0.0,1.0,λ∈-0.6,0.6
  • 最优设置:β=0.8,λ=0.2
  • 使用标准的关系抽取训练流程

实验结果

主要结果

模型TACREDTACREVRe-TACRED
F1_originF1_DREBF1_originF1_DREBF1_originF1_DREB
LUKE70.8244.4080.1650.6088.9239.40
+MixDebias69.9362.4480.9172.9387.9577.71
IRE71.2750.9479.3657.2087.4346.25
+MixDebias71.9970.0280.9779.1587.2782.17

关键发现

  1. 显著性能提升:MixDebias在DREB上的性能提升最为显著,F1分数提升15-40个百分点
  2. 原始性能保持:在原始数据集上保持或略微提升性能
  3. BME指标领先:在综合评估指标BME上远超其他方法
  4. 一致性表现:在三个数据集上均表现出色

消融实验

组件TACREDTACREVRe-TACRED
F1_originF1_DREBF1_originF1_DREBF1_originF1_DREB
完整MixDebias69.9362.4480.9172.9387.9577.71
-CDA69.6662.0680.6371.9988.4578.26
-RDA69.6845.7779.3251.9188.6939.72

关键洞察

  • RDA是更关键的组件,移除后性能大幅下降
  • CDA提供补充效果,进一步优化去偏效果
  • 两个组件相互补充,共同实现最佳性能

超参数分析

  • β参数:控制KL散度权重,β=0.8时效果最佳
  • λ参数:控制因果效应估计,λ=0.2时达到最优
  • 在噪声数据集(TACRED、TACREV)上,适当的β值还能提升原始数据集性能

泛化能力分析

通过仅实体输入设置的标签概率分布可视化显示:

  • 基线模型概率集中在接近1的值附近
  • MixDebias后概率分布更加均匀
  • 实体提及与关系类型的伪相关性显著降低

相关工作

数据层面去偏

  • Wang等人的过滤评估设置
  • ENTRED的类型约束和随机实体替换
  • 存在分布偏见和语义约束不足问题

模型层面去偏

  • DFL的损失函数调整
  • R-Drop的输出分布一致性
  • CoRE的因果图方法
  • 各方法在保持原始性能和去偏效果间的权衡问题

本文优势

  • 首个专门的去偏基准
  • 数据和模型层面的综合方法
  • 严格的质量控制机制

结论与讨论

主要结论

  1. DREB基准有效性:成功打破实体提及与关系类型的伪相关性
  2. MixDebias方法优越性:在去偏效果和原始性能保持间达到最佳平衡
  3. 实体偏见普遍性:现有SOTA模型普遍存在严重的实体偏见问题

局限性

  1. 计算开销:动态生成增强样本增加训练时间
  2. 实体资源依赖:需要外部知识库(Wikidata)支持
  3. 语言局限性:主要在英语数据集上验证
  4. 关系类型覆盖:仅在句子级关系抽取上测试

未来方向

  1. 跨语言扩展:将方法扩展到其他语言
  2. 文档级关系抽取:适应更复杂的关系抽取场景
  3. 计算效率优化:减少训练时的计算开销
  4. 理论分析:提供更深入的理论保证

深度评价

优点

技术创新性

  1. 问题识别准确:准确识别并量化了关系抽取中的实体偏见问题
  2. 方法设计合理:双重评估机制确保基准质量,多层次去偏策略科学有效
  3. 实验设计严谨:全面的对比实验、消融研究和可视化分析

学术贡献

  1. 基准贡献:DREB填补了关系抽取去偏评估的空白
  2. 方法创新:MixDebias提供了新的去偏范式
  3. 实证价值:揭示了现有方法的局限性,为后续研究提供方向

实验充分性

  1. 多数据集验证:在三个主流数据集上验证
  2. 多角度分析:性能对比、消融研究、超参数分析、可视化等
  3. 统计显著性:结果具有统计学意义

不足

方法局限性

  1. 计算复杂度:训练时需要动态生成增强样本,增加计算开销
  2. 外部依赖:依赖Wikidata等外部资源,可能影响方法的通用性
  3. 超参数敏感性:β和λ参数需要仔细调优

实验设置

  1. 语言单一性:仅在英语数据集上验证,缺乏跨语言验证
  2. 任务范围限制:仅考虑句子级关系抽取
  3. 基线选择:可以包含更多最新的去偏方法进行对比

理论分析不足

  1. 理论保证缺失:缺乏方法有效性的理论分析
  2. 收敛性分析:未提供损失函数的收敛性保证
  3. 泛化界限:缺乏泛化能力的理论界限分析

影响力评估

学术影响

  1. 开创性工作:在关系抽取去偏领域具有开创性意义
  2. 基准价值:DREB有望成为该领域的标准评估基准
  3. 方法启发:为后续去偏研究提供新思路

实用价值

  1. 工业应用:对提升关系抽取系统的实际部署效果有重要意义
  2. 公平性改善:有助于减少NLP系统中的偏见问题
  3. 可复现性:作者承诺公开代码和数据

适用场景

  1. 关系抽取系统评估:为关系抽取模型提供更可靠的评估
  2. 去偏方法开发:为开发新的去偏方法提供测试平台
  3. 公平AI研究:为公平性AI研究提供具体案例和工具

参考文献

论文引用了关系抽取和去偏领域的重要工作,包括:

  • TACRED系列数据集 (Zhang et al., 2017; Alt et al., 2020; Stoica et al., 2021)
  • 实体偏见相关研究 (Wang et al., 2022, 2023; Peng et al., 2020)
  • 去偏方法 (Mahabadi et al., 2020; Liang et al., 2021)
  • 基础模型 (Yamada et al., 2020; Zhou & Chen, 2022)

总体评价:这是一篇高质量的研究论文,准确识别并有效解决了关系抽取中的重要问题。DREB基准和MixDebias方法都具有较强的创新性和实用价值。尽管存在一些局限性,但其贡献显著,有望推动关系抽取去偏研究的发展。