2025-11-20T05:28:14.865591

Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark

He, Chu, Wu et al.

Benchmarks are crucial for evaluating machine learning algorithm performance, facilitating comparison and identifying superior solutions. However, biases within datasets can lead models to learn shortcut patterns, resulting in inaccurate assessments and hindering real-world applicability. This paper addresses the issue of entity bias in relation extraction tasks, where models tend to rely on entity mentions rather than context. We propose a debiased relation extraction benchmark DREB that breaks the pseudo-correlation between entity mentions and relation types through entity replacement. DREB utilizes Bias Evaluator and PPL Evaluator to ensure low bias and high naturalness, providing a reliable and accurate assessment of model generalization in entity bias scenarios. To establish a new baseline on DREB, we introduce MixDebias, a debiasing method combining data-level and model training-level techniques. MixDebias effectively improves model performance on DREB while maintaining performance on the original dataset. Extensive experiments demonstrate the effectiveness and robustness of MixDebias compared to existing methods, highlighting its potential for improving the generalization ability of relation extraction models. We will release DREB and MixDebias publicly.

academic

Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark

基本信息

论文ID: 2501.01349
标题: Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark
作者: Liang He, Yougang Chu, Zhen Wu, Jianbing Zhang, Xinyu Dai, Jiajun Chen (南京大学)
分类: cs.AI
发表时间: 2025年1月2日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2501.01349

摘要

基准数据集对评估机器学习算法性能至关重要，但数据集中的偏见会导致模型学习捷径模式，导致评估不准确并阻碍实际应用。本文解决关系抽取任务中的实体偏见问题，即模型倾向于依赖实体提及而非上下文。作者提出了去偏关系抽取基准DREB，通过实体替换打破实体提及与关系类型之间的伪相关性。DREB利用偏见评估器和困惑度评估器确保低偏见和高自然性。为在DREB上建立新基线，作者引入MixDebias方法，结合数据级和模型训练级去偏技术。

研究背景与动机

问题定义

在关系抽取任务中存在严重的实体偏见问题：

伪相关性：实体提及与关系类型之间存在虚假的统计相关性
捷径学习：模型过度依赖实体名称而非上下文信息进行预测
泛化能力差：当实体被替换或去除时，模型性能大幅下降

问题重要性

在TACRED数据集中，超过一半的实例仅通过实体提及就能正确预测
SOTA模型如LUKE和IRE在实体替换后F1分数下降30%-50%
大语言模型会忽略矛盾或代表性不足的上下文信息，过度依赖偏见的参数化知识

现有方法局限性

数据层面：

现有去偏方法可能引入新的偏见
Wang等人的方法导致分布偏见
ENTRED的实体替换缺乏语义约束

模型层面：

DFL可能损害域内性能
R-Drop缺乏对实体偏见的细粒度控制
CoRE的后处理性质无法完全消除训练期间学到的偏见

核心贡献

提出DREB基准：首个专门针对实体偏见的去偏关系抽取基准，确保模型无法仅依赖实体提及进行预测
设计双重评估机制：偏见评估器和困惑度评估器确保低偏见和高自然性
开发MixDebias方法：结合数据级和模型级去偏的新基线方法
全面实验评估：在多个数据集上验证方法的有效性和鲁棒性

方法详解

DREB基准构建

整体架构

DREB通过实体替换策略打破实体提及与关系类型的伪相关性：

实体替换：从Wikidata中查询同类型实体进行替换
偏见评估：使用神经网络评估替换样本的偏见程度
自然性保证：通过困惑度评估器确保生成样本的自然性

偏见评估器

偏见评估器建模实体偏见的伪相关性：

特征提取函数φ(x)提取实体偏见特征
神经网络F: φ(x) → y直接建模相关性
输出F(φ(x))反映样本x的固有偏见

困惑度评估器

使用GPT-2计算样本困惑度，确保生成样本的自然性：

$\log PPL(W) = -\frac{1}{n}\sum_{i=1}^{n}\log P(w_i|w_1,...,w_{i-1})$

选择困惑度最低的样本作为最终生成样本。

MixDebias去偏方法

数据级去偏(RDA)

通过实体替换生成增强样本，使用KL散度约束：

$L_{RDA} = \frac{1}{2}(D_{KL}(P||P_{aug}) + D_{KL}(P_{aug}||P))$

其中P和P_aug分别是原始样本和增强样本的概率分布。

模型级去偏(CDA)

使用因果效应估计识别和量化实体偏见：

偏见概率估计： $P_{bias} = P - \lambda P_{context}$
去偏焦点损失： $L_{CDA} = -(1-P_{bias}^j)\log P^j$

联合损失函数

$L_{MixDebias} = L_{CDA} + \beta L_{RDA}$

$= -(1-(P^j-\lambda P_{context}^j))\log P^j + \frac{\beta}{2}(D_{KL}(P||P_{aug}) + D_{KL}(P_{aug}||P))$

技术创新点

双重质量控制：同时考虑偏见程度和自然性
分布保持：DREB保持与原始数据集相同的关系分布
多层次去偏：数据级和模型级方法的有机结合
动态增强：训练时动态生成增强样本

实验设置

数据集

TACRED：广泛使用的关系抽取数据集
TACREV：TACRED的修订版本，解决标注和噪声问题
Re-TACRED：重新设计关系类型的数据集

评价指标

F1分数：精确率和召回率的调和平均
偏见缓解效率(BME)： $BME = \alpha \cdot \frac{F1_{origin}}{\tilde{F1}_{origin}} + (1-\alpha) \cdot \frac{F1_{DREB}}{\tilde{F1}_{DREB}}$ 其中α=0.5

对比方法

基础模型：

LUKE：基于Transformer的实体感知模型
IRE：引入类型化实体标记的改进基线

去偏方法：

Focal Loss：减少简单样本影响
R-Drop：通过dropout一致性提升泛化
DFL：基于偏见模型调整损失函数
PoE：专家乘积模型
CoRE：因果图去偏方法

实现细节

超参数β∈0.0,1.0，λ∈-0.6,0.6
最优设置：β=0.8，λ=0.2
使用标准的关系抽取训练流程

实验结果

主要结果

模型	TACRED		TACREV		Re-TACRED
	F1_origin	F1_DREB	F1_origin	F1_DREB	F1_origin	F1_DREB
LUKE	70.82	44.40	80.16	50.60	88.92	39.40
+MixDebias	69.93	62.44	80.91	72.93	87.95	77.71
IRE	71.27	50.94	79.36	57.20	87.43	46.25
+MixDebias	71.99	70.02	80.97	79.15	87.27	82.17

关键发现

显著性能提升：MixDebias在DREB上的性能提升最为显著，F1分数提升15-40个百分点
原始性能保持：在原始数据集上保持或略微提升性能
BME指标领先：在综合评估指标BME上远超其他方法
一致性表现：在三个数据集上均表现出色

消融实验

组件	TACRED		TACREV		Re-TACRED
	F1_origin	F1_DREB	F1_origin	F1_DREB	F1_origin	F1_DREB
完整MixDebias	69.93	62.44	80.91	72.93	87.95	77.71
-CDA	69.66	62.06	80.63	71.99	88.45	78.26
-RDA	69.68	45.77	79.32	51.91	88.69	39.72