2025-11-24T13:49:17.165773

Confidence Calibration in Large Language Model-Based Entity Matching

Kamsteeg, Cardenas-Cartagena, van Beers et al.

This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.

academic

Calibración de Confianza en Coincidencia de Entidades Basada en Modelos de Lenguaje de Gran Escala

Información Básica

ID del Artículo: 2509.19557
Título: Confidence Calibration in Large Language Model-Based Entity Matching
Autores: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro
Clasificación: cs.CL cs.LG
Fecha de Publicación: 15 de octubre de 2025 (arXiv v2)
Institución: Instituto Bernoulli, Universidad de Groningen, Países Bajos; Investigador Independiente
Enlace del Artículo: https://arxiv.org/abs/2509.19557

Resumen

Este estudio explora la intersección entre modelos de lenguaje de gran escala y la calibración de confianza en la coincidencia de entidades. Mediante un estudio empírico, se comparan las líneas base de confianza de RoBERTa en tareas de coincidencia de entidades con la confianza calibrada utilizando escalado de temperatura, Dropout de Montecarlo y métodos de conjunto. Los experimentos se realizan utilizando los conjuntos de datos Abt-Buy, DBLP-ACM, iTunes-Amazon y Company. Los resultados muestran que el modelo RoBERTa mejorado exhibe una ligera sobreconfianza, con el error de calibración esperado (ECE) oscilando entre 0.0043 y 0.0552 en diferentes conjuntos de datos. El estudio encuentra que el uso del escalado de temperatura puede mitigar esta sobreconfianza, reduciendo las puntuaciones de ECE hasta en un 23.83%.

Antecedentes de Investigación y Motivación

Definición del Problema

La coincidencia de entidades (Entity Matching, EM) es una subtarea clave de la resolución de entidades, cuyo objetivo es determinar si pares de entradas de datos de diferentes fuentes de datos se refieren a la misma entidad del mundo real. Se trata de un problema de clasificación binaria que requiere juzgar si los pares de entidades son "coincidentes" o "no coincidentes".

Importancia

Valor de Aplicación Multidisciplinario: En el ámbito médico puede mejorar la atención al paciente, en la reconstrucción histórica de poblaciones conecta registros de nacimiento, matrimonio y defunción, y es crucial en la aplicación de la ley para investigaciones y prevención del crimen
Requisito de Transparencia: Los modelos, además de proporcionar resultados de predicción, deben proporcionar puntuaciones de confianza confiables para que los usuarios comprendan la fiabilidad del modelo
Orientación de Tareas Posteriores: Las puntuaciones de confianza precisas pueden guiar la toma de decisiones en tareas posteriores

Limitaciones de Métodos Existentes

Problema de Sobreconfianza: Los modelos de lenguaje de gran escala modernos exhiben sobreconfianza en otras tareas de PNL, lo que dificulta expresar con precisión la incertidumbre de las predicciones
Brecha de Investigación: Aunque hay investigación sobre calibración de confianza en LLMs, su aplicación en el dominio de la coincidencia de entidades aún no ha sido explorada suficientemente
Falta de Evaluación Sistemática: Falta una comparación sistemática de métodos de calibración de confianza para tareas de coincidencia de entidades

Motivación de la Investigación

Proporcionar transparencia en las predicciones del modelo, ayudar a comprender el mecanismo interno del modelo, identificar debilidades del modelo y mejorar el rendimiento. Cuando se sabe explícitamente en qué situaciones específicas el modelo es incierto, es más fácil descubrir direcciones de mejora.

Contribuciones Principales

Primer Estudio Sistemático: Primer estudio sistemático de calibración de confianza de LLMs en el dominio de la coincidencia de entidades
Comparación de Múltiples Métodos de Calibración: Comparación exhaustiva del escalado de temperatura, Dropout de Montecarlo y métodos de conjunto para calibración de confianza en coincidencia de entidades
Validación en Múltiples Conjuntos de Datos: Validación de la efectividad y capacidad de generalización de métodos en 6 conjuntos de datos de diferentes dominios y estructuras
Orientación Práctica: Proporciona recomendaciones de mejores prácticas para calibración de confianza en aplicaciones reales, particularmente las ventajas del método de escalado de temperatura

Explicación Detallada del Método

Definición de la Tarea

Entrada: Pares de entidades de diferentes fuentes de datos
Salida: Etiqueta de clasificación binaria ("coincidencia"/"no coincidencia") y puntuación de confianza correspondiente
Objetivo: Hacer que la puntuación de confianza refleje con precisión la probabilidad real de que la predicción sea correcta

Arquitectura del Modelo

Arquitectura Base

RoBERTa Preentrenado: Utiliza el modelo RoBERTa-base de HuggingFace como codificador
Capa Completamente Conectada: Se añade una red completamente conectada de una sola capa después de RoBERTa
Capa de Salida Sigmoid: Produce una puntuación de confianza entre 0 y 1
Serialización de Datos: Adopta el método de Li et al. (2020) para convertir datos estructurados en secuencias de texto

Métodos de Calibración de Confianza

1. Escalado de Temperatura (Temperature Scaling)

Aplica un parámetro de temperatura T para escalar los logits después de la salida Sigmoid
Optimiza el parámetro de temperatura mediante búsqueda en cuadrícula en el conjunto de validación: T ∈ {0.1, 0.2, ..., 10.0}
Selecciona el valor de temperatura que minimiza el ECE
Ventajas: Ligero, fácil de implementar, no cambia la puntuación F1

2. Dropout de Montecarlo

Aplica dropout (probabilidad p) a la capa completamente conectada durante la inferencia
Realiza 10 propagaciones hacia adelante y promedia las salidas
Búsqueda en cuadrícula de la probabilidad de dropout óptima: p ∈ {0.05, 0.10, ..., 0.95}
Selecciona el valor p que minimiza el ECE sin reducir la puntuación F1

3. Método de Conjunto

Entrena 5 capas completamente conectadas con diferentes inicializaciones aleatorias
Toma el promedio de las salidas de los 5 modelos como predicción final
Solo aplica conjunto a las capas completamente conectadas y Sigmoid para reducir el costo computacional

Puntos de Innovación Técnica

Implementación Ligera: Dropout de Montecarlo y métodos de conjunto se aplican solo a la capa completamente conectada, minimizando el costo computacional
Optimización Multicriterio: Según los requisitos de la aplicación, se puede elegir optimizar ECE, MCE o RMSCE
Verificación de Significancia Estadística: Utiliza pruebas t pareadas (escalado de temperatura, Dropout de Montecarlo) y pruebas t no pareadas (método de conjunto) para evaluar la significancia de las mejoras

Configuración Experimental

Conjuntos de Datos

Se utilizan 6 conjuntos de datos de coincidencia de entidades de diferentes dominios:

Conjunto de Datos	Dominio	Conjunto de Entrenamiento	Conjunto de Validación	Conjunto de Prueba
Abt-Buy	Productos	5,743 (10.72%)	1,916 (10.75%)	1,916 (10.75%)
DBLP-ACM-S/D	Citas	7,417 (17.96%)	2,473 (17.96%)	2,473 (17.96%)
iTunes-Amazon-S/D	Canciones	321 (24.30%)	109 (27.78%)	109 (27.78%)
Company	Empresas	67,596 (24.94%)	22,533 (25.30%)	22,503 (25.06%)

Nota: S/D indica versiones de datos estructurados/sucios, los porcentajes entre paréntesis representan la proporción de muestras positivas

Métricas de Evaluación

Error de Calibración Esperado (ECE): Métrica principal que mide la diferencia promedio entre la probabilidad predicha y la probabilidad empírica
Error de Calibración Máximo (MCE): Mide la desviación en el peor caso, adecuado para aplicaciones de alto riesgo
Error de Calibración de Raíz Cuadrada Media (RMSCE): Enfatiza más el impacto de errores mayores
Puntuación F1: Asegura que las mejoras de calibración no se hagan a costa del rendimiento de clasificación
Análisis de Visualización: Histogramas de confianza y gráficos de confiabilidad

Métodos de Comparación

Método Base: Salida Sigmoid de RoBERTa sin calibrar
Métodos de Calibración: Escalado de temperatura, Dropout de Montecarlo, método de conjunto

Detalles de Implementación

Épocas de Entrenamiento: 40 épocas (siguiendo la configuración de Li et al. 2020)
Selección de Modelo: Selecciona el punto de control con la puntuación F1 más alta en el conjunto de validación
Experimentos Repetidos: Cada experimento se repite 5 veces y se reportan la media y desviación estándar
Número de Contenedores: √|D| (donde D es el tamaño del conjunto de datos)

Resultados Experimentales

Resultados Principales

Análisis de Rendimiento Base

El modelo RoBERTa exhibe ligera sobreconfianza en todos los conjuntos de datos:

Rango de ECE: 0.0043-0.0552, siendo el más bajo en el conjunto de datos DBLP-ACM y el más alto en el conjunto de datos Company
Distribución de Confianza: El modelo tiende a producir probabilidades de predicción muy altas o muy bajas
Rendimiento F1: Alcanza más del 98% en el conjunto de datos DBLP-ACM, aproximadamente 82% en el conjunto de datos Company

Comparación de Efectos de Métodos de Calibración

Conjunto de Datos	ECE Base	ECE Escalado de Temperatura	ECE MC Dropout	ECE Conjunto
Abt-Buy	0.0193±0.0018	0.0147±0.0017	0.0193±0.0016	0.0173±0.0005
DBLP-ACM-S	0.0041±0.0010	0.0036±0.0011	0.0038±0.0010	0.0057±0.0023
Company	0.0552±0.0099	0.0424±0.0102	0.0543±0.0085	-

El Escalado de Temperatura Muestra el Mejor Rendimiento:

Reduce significativamente el ECE en un 23.83% en el conjunto de datos Abt-Buy
Logra mejoras significativas en 4 conjuntos de datos
No afecta el rendimiento de la puntuación F1

Experimentos de Ablación

Análisis del Parámetro de Temperatura

Valores de Temperatura Óptimos: Típicamente mayores que 1.0 (promedio 1.72±0.51), indicando que el modelo base es efectivamente sobreconfiado
Estabilidad del Parámetro: Existe un valor de temperatura óptimo claro para cada conjunto de datos y ejecución

Análisis de Probabilidad de Dropout

Rango de Probabilidad Óptima: Entre 0.5-1.0, algunos conjuntos de datos incluso superan 0.8
Problema de Generalización: La probabilidad de dropout óptima varía considerablemente entre conjuntos de datos, careciendo de consistencia

Análisis de Casos

Los histogramas de confianza muestran:

Predicciones Correctas: Se concentran principalmente en el intervalo de alta confianza
Predicciones Incorrectas: Distribución más dispersa, pero aún con una proporción considerable de predicciones incorrectas de alta confianza
Problema de Superposición: Existe una superposición significativa entre las distribuciones de confianza de predicciones correctas e incorrectas, indicando calibración insuficiente

Hallazgos Experimentales

Sobreconfianza Generalizada: RoBERTa exhibe diferentes grados de sobreconfianza en todos los conjuntos de datos
Escalado de Temperatura Más Efectivo: En comparación con otros métodos, el escalado de temperatura muestra el mejor rendimiento en la mejora del ECE
Ventaja de Eficiencia Computacional: El escalado de temperatura tiene el menor costo computacional y es fácil de desplegar
Mantenimiento del Rendimiento: Los métodos de calibración básicamente no afectan el rendimiento de clasificación

Trabajo Relacionado

LLMs en Coincidencia de Entidades

Modelos de la Serie BERT: Brunner y Stockinger (2020) encontraron que BERT, RoBERTa y otros modelos mejoran el F1 en un 35.9% en comparación con métodos tradicionales
Sistema DITTO: Li et al. (2020) combinan LLMs con técnicas de optimización para coincidencia de entidades
Modelos Decodificadores: Investigación sobre la aplicación de GPT-3, ChatGPT y GPT-4 en coincidencia de entidades

Calibración de Confianza en LLMs

Hallazgos Tempranos: Guo et al. (2017) descubrieron que las redes neuronales modernas tienen problemas de calibración generalizados
Investigación en BERT/RoBERTa: Desai y Durrett (2020), Xiao et al. (2022) en múltiples tareas de PNL
Métodos de Calibración: Evolución del escalado de temperatura, Dropout de Montecarlo y métodos de conjunto

Puntos de Innovación de Este Artículo

Primer en el Dominio: Primera aplicación sistemática de calibración de confianza a tareas de coincidencia de entidades
Comparación de Métodos: Comparación exhaustiva de la efectividad de múltiples métodos de calibración
Orientación Práctica: Proporciona recomendaciones de mejores prácticas para aplicaciones reales

Conclusiones y Discusión

Conclusiones Principales

Confirmación de Sobreconfianza: RoBERTa efectivamente exhibe un problema de sobreconfianza en tareas de coincidencia de entidades, con puntuaciones de ECE de 0.0043-0.0552
Escalado de Temperatura Óptimo: El escalado de temperatura es el método de calibración más efectivo, reduciendo las puntuaciones de ECE hasta en un 23.83%
Mantenimiento del Rendimiento: La calibración de confianza no daña el rendimiento de clasificación
Fuerte Practicidad: El método de escalado de temperatura es simple de implementar y adecuado para despliegue real

Limitaciones

Limitación del Tamaño del Modelo: La investigación se concentra en modelos RoBERTa relativamente pequeños, sin involucrar LLMs modernos más grandes
Limitaciones de Métricas de Evaluación: Las métricas ECE, MCE, RMSCE pueden no reflejar con precisión la calidad de calibración en algunos casos
Restricciones Computacionales: Debido a limitaciones computacionales, el método de conjunto no se completó en el conjunto de datos Company
Singularidad del Método: No se explora el uso combinado de múltiples métodos de calibración

Direcciones Futuras

Extensión a Modelos Grandes: Extender la investigación a modelos de lenguaje más grandes como GPT-4
Combinación de Métodos: Explorar la combinación de escalado de temperatura con otros métodos, como Ensembles+Temperature Scaling
Utilización de Varianza: Utilizar la información de varianza generada por Dropout de Montecarlo y métodos de conjunto para mejorar la calibración
Nuevas Métricas de Evaluación: Desarrollar métricas de evaluación que reflejen más precisamente la calidad de calibración

Evaluación Profunda

Fortalezas

Alto Valor de Investigación: Llena el vacío en la investigación de calibración de confianza en el dominio de la coincidencia de entidades
Diseño Experimental Riguroso: Comparación exhaustiva con múltiples conjuntos de datos, múltiples métodos y múltiples métricas
Rigor Estadístico: Utiliza pruebas estadísticas apropiadas para verificar la significancia de los resultados
Fuerte Practicidad: Proporciona métodos directamente aplicables y orientación en la selección de parámetros
Escritura Clara: Estructura razonable del artículo, descripción precisa de detalles técnicos

Deficiencias

Cobertura Limitada de Modelos: Solo investiga una arquitectura de modelo RoBERTa
Análisis Teórico Insuficiente: Falta explicación teórica profunda de por qué el escalado de temperatura funciona mejor
Tamaño del Conjunto de Datos: Algunos conjuntos de datos (como iTunes-Amazon) son relativamente pequeños, lo que puede afectar la generalización de resultados
Limitaciones de Recursos Computacionales: Afecta la completitud de algunos experimentos

Impacto

Contribución Académica: Introduce una importante dirección de investigación de calibración de confianza en el dominio de la coincidencia de entidades
Valor Práctico: El método de escalado de temperatura es simple y efectivo, fácil de desplegar en sistemas reales
Reproducibilidad: La configuración experimental es detallada y fácil de reproducir y extender
Inspiración: Proporciona base importante y orientación de dirección para investigación posterior

Escenarios de Aplicación

Aplicaciones de Alto Riesgo: Coincidencia de registros médicos y otros escenarios que requieren estimación confiable de confianza
Colaboración Humano-Máquina: Aplicaciones que requieren que el modelo proporcione información de incertidumbre para asistir en toma de decisiones humanas
Control de Calidad: Identificar muestras difíciles que requieren revisión manual a través de puntuaciones de confianza
Optimización de Modelos: Utilizar información de confianza para mejorar estrategias de entrenamiento de modelos y recopilación de datos

Referencias

Guo, C., et al. (2017). On Calibration of Modern Neural Networks. ICML.
Li, Y., et al. (2020). Deep Entity Matching with Pre-Trained Language Models. VLDB.
Desai, S., & Durrett, G. (2020). Calibration of Pre-trained Transformers. EMNLP.
Brunner, U., & Stockinger, K. (2020). Entity Matching with Transformer Architectures. EDBT.
Peeters, R., & Bizer, C. (2024). Entity Matching using Large Language Models. arXiv.

Resumen: Este artículo realiza contribuciones importantes en la investigación de calibración de confianza en el dominio de la coincidencia de entidades, proporcionando comparación sistemática de métodos y soluciones prácticas. El excelente rendimiento del método de escalado de temperatura proporciona orientación valiosa para aplicaciones prácticas. A pesar de algunas limitaciones, esta investigación establece una base sólida para trabajo posterior, con importante valor académico y práctico.