This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.
academic- 论文ID: 2509.19557
- 标题: Confidence Calibration in Large Language Model-Based Entity Matching
- 作者: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro
- 分类: cs.CL cs.LG
- 发表时间: 2025年10月15日 (arXiv v2)
- 机构: Bernoulli Institute, University of Groningen, The Netherlands; Independent Researcher
- 论文链接: https://arxiv.org/abs/2509.19557
本研究探索了大型语言模型与实体匹配中置信度校准的交叉领域。通过实证研究,比较了RoBERTa在实体匹配任务中的基线置信度与使用温度缩放、蒙特卡洛Dropout和集成方法校准后的置信度。使用Abt-Buy、DBLP-ACM、iTunes-Amazon和Company数据集进行实验。结果表明,改进的RoBERTa模型表现出轻微的过度自信,期望校准误差(ECE)在不同数据集上的范围为0.0043到0.0552。研究发现使用温度缩放可以缓解这种过度自信,将ECE分数最多降低23.83%。
实体匹配(Entity Matching, EM)是实体解析的关键子任务,旨在确定来自不同数据源的数据条目对是否指向同一现实世界实体。这是一个二分类问题,需要判断实体对是"匹配"还是"不匹配"。
- 多领域应用价值:在医疗领域可改善患者护理,在历史人口重建中连接出生、婚姻和死亡记录,在执法中对调查和犯罪预防至关重要
- 透明度需求:模型除了给出预测结果外,还需要提供可靠的置信度分数,以便用户了解模型的可靠性
- 下游任务指导:精确的置信度分数可以指导后续任务的决策
- 过度自信问题:现代大型语言模型在其他NLP任务中表现出过度自信,难以准确表达预测的不确定性
- 研究空白:虽然LLMs在置信度校准方面已有研究,但在实体匹配领域的应用尚未被充分探索
- 缺乏系统评估:缺乏针对实体匹配任务的置信度校准方法的系统性比较研究
提供模型预测透明度,帮助理解模型内部工作机制,识别模型弱点并改进性能。当明确知道模型在哪些具体情况下不确定时,更容易发现改进方向。
- 首次系统性研究:在实体匹配领域首次系统性地研究了LLMs的置信度校准问题
- 多种校准方法比较:全面比较了温度缩放、蒙特卡洛Dropout和集成方法在实体匹配中的置信度校准效果
- 多数据集验证:在6个不同领域和结构的数据集上验证方法的有效性和泛化能力
- 实用性指导:提供了实际应用中置信度校准的最佳实践建议,特别是温度缩放方法的优势
- 输入:来自不同数据源的实体对
- 输出:二分类标签("匹配"/"不匹配")和对应的置信度分数
- 目标:使置信度分数准确反映预测正确的真实概率
- 预训练RoBERTa:使用HuggingFace的RoBERTa-base模型作为编码器
- 全连接层:在RoBERTa之后添加单层全连接网络
- Sigmoid输出层:产生0-1之间的置信度分数
- 数据序列化:采用Li等人(2020)的方法将结构化数据转换为文本序列
1. 温度缩放(Temperature Scaling)
- 在Sigmoid输出后应用温度参数T对logits进行缩放
- 通过网格搜索在验证集上优化温度参数:T ∈ {0.1, 0.2, ..., 10.0}
- 选择使ECE最小的温度值
- 优点:轻量级、易实现、不改变F1分数
2. 蒙特卡洛Dropout
- 在推理时对全连接层应用dropout(概率p)
- 执行10次前向传播并对输出求平均
- 网格搜索最优dropout概率:p ∈ {0.05, 0.10, ..., 0.95}
- 在保持F1分数不降低的前提下选择最小ECE的p值
3. 集成方法
- 训练5个不同随机初始化的全连接层
- 对5个模型的输出取平均作为最终预测
- 仅对全连接层和Sigmoid层进行集成以减少计算开销
- 轻量级实现:蒙特卡洛Dropout和集成方法仅应用于全连接层,最小化计算成本
- 多指标优化:根据应用场景需求,可选择优化ECE、MCE或RMSCE
- 统计显著性验证:使用配对t检验(温度缩放、蒙特卡洛Dropout)和非配对t检验(集成方法)评估改进的显著性
使用6个不同领域的实体匹配数据集:
| 数据集 | 领域 | 训练集 | 验证集 | 测试集 |
|---|
| Abt-Buy | 产品 | 5,743 (10.72%) | 1,916 (10.75%) | 1,916 (10.75%) |
| DBLP-ACM-S/D | 引用 | 7,417 (17.96%) | 2,473 (17.96%) | 2,473 (17.96%) |
| iTunes-Amazon-S/D | 歌曲 | 321 (24.30%) | 109 (27.78%) | 109 (27.78%) |
| Company | 公司 | 67,596 (24.94%) | 22,533 (25.30%) | 22,503 (25.06%) |
注:S/D表示结构化/脏数据版本,括号内为正样本比例
- 期望校准误差(ECE):主要指标,测量预测概率与经验概率的平均差异
- 最大校准误差(MCE):测量最坏情况下的偏差,适用于高风险应用
- 均方根校准误差(RMSCE):更强调较大误差的影响
- F1分数:确保校准改进不以分类性能为代价
- 可视化分析:置信度直方图和可靠性图表
- 基线方法:未校准的RoBERTa Sigmoid输出
- 校准方法:温度缩放、蒙特卡洛Dropout、集成方法
- 训练轮数:40轮(遵循Li等人2020的设置)
- 模型选择:选择验证集F1分数最高的检查点
- 重复实验:每个实验重复5次并报告均值和标准差
- 分箱数量:√|D| (D为数据集大小)
RoBERTa模型在所有数据集上表现出轻微过度自信:
- ECE范围:0.0043-0.0552,DBLP-ACM数据集最低,Company数据集最高
- 置信度分布:模型倾向于产生极高或极低的预测概率
- F1性能:DBLP-ACM数据集达到98%以上,Company数据集约82%
| 数据集 | 基线ECE | 温度缩放ECE | MC Dropout ECE | 集成ECE |
|---|
| Abt-Buy | 0.0193±0.0018 | 0.0147±0.0017 | 0.0193±0.0016 | 0.0173±0.0005 |
| DBLP-ACM-S | 0.0041±0.0010 | 0.0036±0.0011 | 0.0038±0.0010 | 0.0057±0.0023 |
| Company | 0.0552±0.0099 | 0.0424±0.0102 | 0.0543±0.0085 | - |
温度缩放表现最佳:
- 在Abt-Buy数据集上ECE显著降低23.83%
- 在4个数据集上取得显著改进
- 不影响F1分数性能
- 最优温度值:通常大于1.0(平均1.72±0.51),表明基线模型确实过度自信
- 参数稳定性:每个数据集和运行都存在明确的最优温度值
- 最优概率范围:0.5-1.0之间,部分数据集甚至超过0.8
- 泛化性问题:不同数据集间最优dropout概率变化较大,缺乏一致性
置信度直方图显示:
- 正确预测:主要集中在高置信度区间
- 错误预测:分布更分散,但仍有相当比例的高置信度错误预测
- 重叠问题:正确和错误预测的置信度分布存在显著重叠,表明校准不足
- 过度自信普遍存在:所有数据集上RoBERTa都表现出不同程度的过度自信
- 温度缩放最有效:相比其他方法,温度缩放在改善ECE方面表现最佳
- 计算效率优势:温度缩放计算开销最小,易于部署
- 性能保持:校准方法基本不影响分类性能
- BERT系列模型:Brunner和Stockinger(2020)发现BERT、RoBERTa等模型相比传统方法F1提升达35.9%
- DITTO系统:Li等人(2020)结合LLMs与优化技术的实体匹配系统
- 解码器模型:GPT-3、ChatGPT、GPT-4在实体匹配中的应用研究
- 早期发现:Guo等人(2017)发现现代神经网络普遍存在校准问题
- BERT/RoBERTa研究:Desai和Durrett(2020)、Xiao等人(2022)在多个NLP任务上的校准研究
- 校准方法:温度缩放、蒙特卡洛Dropout、集成方法的发展历程
- 领域首创:首次将置信度校准系统性应用于实体匹配任务
- 方法对比:全面比较多种校准方法的效果
- 实用指导:提供实际应用的最佳实践建议
- 过度自信确认:RoBERTa在实体匹配任务中确实存在过度自信问题,ECE分数0.0043-0.0552
- 温度缩放最优:温度缩放是最有效的校准方法,可将ECE降低高达23.83%
- 性能保持:置信度校准不会损害分类性能
- 实用性强:温度缩放方法简单易实现,适合实际部署
- 模型规模限制:研究集中在相对较小的RoBERTa模型,未涉及更大规模的现代LLMs
- 评估指标局限:ECE、MCE、RMSCE等指标在某些情况下可能无法准确反映校准质量
- 计算约束:由于计算限制,集成方法未在Company数据集上完成实验
- 方法单一性:未探索多种校准方法的组合使用
- 大模型扩展:将研究扩展到GPT-4等更大规模的语言模型
- 方法组合:探索温度缩放与其他方法的组合,如Ensembles+Temperature Scaling
- 方差利用:利用蒙特卡洛Dropout和集成方法产生的方差信息改进校准
- 新评估指标:开发更准确反映校准质量的评估指标
- 研究价值高:填补了实体匹配领域置信度校准研究的空白
- 实验设计严谨:多数据集、多方法、多指标的全面比较
- 统计严格性:使用适当的统计检验验证结果显著性
- 实用性强:提供了可直接应用的方法和参数选择指导
- 写作清晰:论文结构合理,技术细节描述准确
- 模型覆盖有限:仅研究RoBERTa一种模型架构
- 理论分析不足:缺乏对为什么温度缩放效果最好的深入理论解释
- 数据集规模:部分数据集(如iTunes-Amazon)规模较小,可能影响结果的泛化性
- 计算资源限制:影响了某些实验的完整性
- 学术贡献:为实体匹配领域引入了重要的置信度校准研究方向
- 实用价值:温度缩放方法简单有效,易于在实际系统中部署
- 可复现性:实验设置详细,易于复现和扩展
- 启发性:为后续研究提供了重要基础和方向指导
- 高风险应用:医疗记录匹配等需要可靠置信度估计的场景
- 人机协作:需要模型提供不确定性信息辅助人工决策的应用
- 质量控制:通过置信度分数识别需要人工审核的困难样本
- 模型优化:利用置信度信息改进模型训练和数据收集策略
- Guo, C., et al. (2017). On Calibration of Modern Neural Networks. ICML.
- Li, Y., et al. (2020). Deep Entity Matching with Pre-Trained Language Models. VLDB.
- Desai, S., & Durrett, G. (2020). Calibration of Pre-trained Transformers. EMNLP.
- Brunner, U., & Stockinger, K. (2020). Entity Matching with Transformer Architectures. EDBT.
- Peeters, R., & Bizer, C. (2024). Entity Matching using Large Language Models. arXiv.
总结:本文在实体匹配领域的置信度校准研究中做出了重要贡献,提供了系统性的方法比较和实用的解决方案。温度缩放方法的优异表现为实际应用提供了有价值的指导。尽管存在一些局限性,但该研究为后续工作奠定了坚实基础,具有重要的学术和实用价值。