2025-11-24T13:49:17.165773

Confidence Calibration in Large Language Model-Based Entity Matching

Kamsteeg, Cardenas-Cartagena, van Beers et al.

This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.

academic

Confidence Calibration in Large Language Model-Based Entity Matching

基本信息

论文ID: 2509.19557
标题: Confidence Calibration in Large Language Model-Based Entity Matching
作者: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro
分类: cs.CL cs.LG
发表时间: 2025年10月15日 (arXiv v2)
机构: Bernoulli Institute, University of Groningen, The Netherlands; Independent Researcher
论文链接: https://arxiv.org/abs/2509.19557

摘要

本研究探索了大型语言模型与实体匹配中置信度校准的交叉领域。通过实证研究，比较了RoBERTa在实体匹配任务中的基线置信度与使用温度缩放、蒙特卡洛Dropout和集成方法校准后的置信度。使用Abt-Buy、DBLP-ACM、iTunes-Amazon和Company数据集进行实验。结果表明，改进的RoBERTa模型表现出轻微的过度自信，期望校准误差(ECE)在不同数据集上的范围为0.0043到0.0552。研究发现使用温度缩放可以缓解这种过度自信，将ECE分数最多降低23.83%。

研究背景与动机

问题定义

实体匹配(Entity Matching, EM)是实体解析的关键子任务，旨在确定来自不同数据源的数据条目对是否指向同一现实世界实体。这是一个二分类问题，需要判断实体对是"匹配"还是"不匹配"。

重要性

多领域应用价值：在医疗领域可改善患者护理，在历史人口重建中连接出生、婚姻和死亡记录，在执法中对调查和犯罪预防至关重要
透明度需求：模型除了给出预测结果外，还需要提供可靠的置信度分数，以便用户了解模型的可靠性
下游任务指导：精确的置信度分数可以指导后续任务的决策

现有方法局限性

过度自信问题：现代大型语言模型在其他NLP任务中表现出过度自信，难以准确表达预测的不确定性
研究空白：虽然LLMs在置信度校准方面已有研究，但在实体匹配领域的应用尚未被充分探索
缺乏系统评估：缺乏针对实体匹配任务的置信度校准方法的系统性比较研究

研究动机

提供模型预测透明度，帮助理解模型内部工作机制，识别模型弱点并改进性能。当明确知道模型在哪些具体情况下不确定时，更容易发现改进方向。

核心贡献

首次系统性研究：在实体匹配领域首次系统性地研究了LLMs的置信度校准问题
多种校准方法比较：全面比较了温度缩放、蒙特卡洛Dropout和集成方法在实体匹配中的置信度校准效果
多数据集验证：在6个不同领域和结构的数据集上验证方法的有效性和泛化能力
实用性指导：提供了实际应用中置信度校准的最佳实践建议，特别是温度缩放方法的优势

方法详解

任务定义

输入：来自不同数据源的实体对
输出：二分类标签("匹配"/"不匹配")和对应的置信度分数
目标：使置信度分数准确反映预测正确的真实概率

模型架构

基础架构

预训练RoBERTa：使用HuggingFace的RoBERTa-base模型作为编码器
全连接层：在RoBERTa之后添加单层全连接网络
Sigmoid输出层：产生0-1之间的置信度分数
数据序列化：采用Li等人(2020)的方法将结构化数据转换为文本序列

置信度校准方法

1. 温度缩放(Temperature Scaling)

在Sigmoid输出后应用温度参数T对logits进行缩放
通过网格搜索在验证集上优化温度参数：T ∈ {0.1, 0.2, ..., 10.0}
选择使ECE最小的温度值
优点：轻量级、易实现、不改变F1分数

2. 蒙特卡洛Dropout

在推理时对全连接层应用dropout(概率p)
执行10次前向传播并对输出求平均
网格搜索最优dropout概率：p ∈ {0.05, 0.10, ..., 0.95}
在保持F1分数不降低的前提下选择最小ECE的p值

3. 集成方法

训练5个不同随机初始化的全连接层
对5个模型的输出取平均作为最终预测
仅对全连接层和Sigmoid层进行集成以减少计算开销

技术创新点

轻量级实现：蒙特卡洛Dropout和集成方法仅应用于全连接层，最小化计算成本
多指标优化：根据应用场景需求，可选择优化ECE、MCE或RMSCE
统计显著性验证：使用配对t检验(温度缩放、蒙特卡洛Dropout)和非配对t检验(集成方法)评估改进的显著性

实验设置

数据集

使用6个不同领域的实体匹配数据集：

数据集	领域	训练集	验证集	测试集
Abt-Buy	产品	5,743 (10.72%)	1,916 (10.75%)	1,916 (10.75%)
DBLP-ACM-S/D	引用	7,417 (17.96%)	2,473 (17.96%)	2,473 (17.96%)
iTunes-Amazon-S/D	歌曲	321 (24.30%)	109 (27.78%)	109 (27.78%)
Company	公司	67,596 (24.94%)	22,533 (25.30%)	22,503 (25.06%)

注：S/D表示结构化/脏数据版本，括号内为正样本比例

评价指标

期望校准误差(ECE)：主要指标，测量预测概率与经验概率的平均差异
最大校准误差(MCE)：测量最坏情况下的偏差，适用于高风险应用
均方根校准误差(RMSCE)：更强调较大误差的影响
F1分数：确保校准改进不以分类性能为代价
可视化分析：置信度直方图和可靠性图表

对比方法

基线方法：未校准的RoBERTa Sigmoid输出
校准方法：温度缩放、蒙特卡洛Dropout、集成方法

实现细节

训练轮数：40轮(遵循Li等人2020的设置)
模型选择：选择验证集F1分数最高的检查点
重复实验：每个实验重复5次并报告均值和标准差
分箱数量：√|D| (D为数据集大小)

实验结果

主要结果

基线性能分析

RoBERTa模型在所有数据集上表现出轻微过度自信：

ECE范围：0.0043-0.0552，DBLP-ACM数据集最低，Company数据集最高
置信度分布：模型倾向于产生极高或极低的预测概率
F1性能：DBLP-ACM数据集达到98%以上，Company数据集约82%

校准方法效果对比

数据集	基线ECE	温度缩放ECE	MC Dropout ECE	集成ECE
Abt-Buy	0.0193±0.0018	0.0147±0.0017	0.0193±0.0016	0.0173±0.0005
DBLP-ACM-S	0.0041±0.0010	0.0036±0.0011	0.0038±0.0010	0.0057±0.0023
Company	0.0552±0.0099	0.0424±0.0102	0.0543±0.0085	-

温度缩放表现最佳：

在Abt-Buy数据集上ECE显著降低23.83%
在4个数据集上取得显著改进
不影响F1分数性能

消融实验

温度参数分析

最优温度值：通常大于1.0(平均1.72±0.51)，表明基线模型确实过度自信
参数稳定性：每个数据集和运行都存在明确的最优温度值

Dropout概率分析

最优概率范围：0.5-1.0之间，部分数据集甚至超过0.8
泛化性问题：不同数据集间最优dropout概率变化较大，缺乏一致性

案例分析

置信度直方图显示：

正确预测：主要集中在高置信度区间
错误预测：分布更分散，但仍有相当比例的高置信度错误预测
重叠问题：正确和错误预测的置信度分布存在显著重叠，表明校准不足

实验发现

过度自信普遍存在：所有数据集上RoBERTa都表现出不同程度的过度自信
温度缩放最有效：相比其他方法，温度缩放在改善ECE方面表现最佳
计算效率优势：温度缩放计算开销最小，易于部署
性能保持：校准方法基本不影响分类性能

结论与讨论

主要结论

过度自信确认：RoBERTa在实体匹配任务中确实存在过度自信问题，ECE分数0.0043-0.0552
温度缩放最优：温度缩放是最有效的校准方法，可将ECE降低高达23.83%
性能保持：置信度校准不会损害分类性能
实用性强：温度缩放方法简单易实现，适合实际部署

局限性

模型规模限制：研究集中在相对较小的RoBERTa模型，未涉及更大规模的现代LLMs
评估指标局限：ECE、MCE、RMSCE等指标在某些情况下可能无法准确反映校准质量
计算约束：由于计算限制，集成方法未在Company数据集上完成实验
方法单一性：未探索多种校准方法的组合使用

未来方向

大模型扩展：将研究扩展到GPT-4等更大规模的语言模型
方法组合：探索温度缩放与其他方法的组合，如Ensembles+Temperature Scaling
方差利用：利用蒙特卡洛Dropout和集成方法产生的方差信息改进校准
新评估指标：开发更准确反映校准质量的评估指标

深度评价

优点

研究价值高：填补了实体匹配领域置信度校准研究的空白
实验设计严谨：多数据集、多方法、多指标的全面比较
统计严格性：使用适当的统计检验验证结果显著性
实用性强：提供了可直接应用的方法和参数选择指导
写作清晰：论文结构合理，技术细节描述准确

不足

模型覆盖有限：仅研究RoBERTa一种模型架构
理论分析不足：缺乏对为什么温度缩放效果最好的深入理论解释
数据集规模：部分数据集(如iTunes-Amazon)规模较小，可能影响结果的泛化性
计算资源限制：影响了某些实验的完整性

影响力

学术贡献：为实体匹配领域引入了重要的置信度校准研究方向
实用价值：温度缩放方法简单有效，易于在实际系统中部署
可复现性：实验设置详细，易于复现和扩展
启发性：为后续研究提供了重要基础和方向指导

适用场景

高风险应用：医疗记录匹配等需要可靠置信度估计的场景
人机协作：需要模型提供不确定性信息辅助人工决策的应用
质量控制：通过置信度分数识别需要人工审核的困难样本
模型优化：利用置信度信息改进模型训练和数据收集策略

参考文献

Guo, C., et al. (2017). On Calibration of Modern Neural Networks. ICML.
Li, Y., et al. (2020). Deep Entity Matching with Pre-Trained Language Models. VLDB.
Desai, S., & Durrett, G. (2020). Calibration of Pre-trained Transformers. EMNLP.
Brunner, U., & Stockinger, K. (2020). Entity Matching with Transformer Architectures. EDBT.
Peeters, R., & Bizer, C. (2024). Entity Matching using Large Language Models. arXiv.

总结：本文在实体匹配领域的置信度校准研究中做出了重要贡献，提供了系统性的方法比较和实用的解决方案。温度缩放方法的优异表现为实际应用提供了有价值的指导。尽管存在一些局限性，但该研究为后续工作奠定了坚实基础，具有重要的学术和实用价值。