2025-11-24T13:49:17.165773

Confidence Calibration in Large Language Model-Based Entity Matching

Kamsteeg, Cardenas-Cartagena, van Beers et al.
This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.
academic

Calibración de Confianza en Coincidencia de Entidades Basada en Modelos de Lenguaje de Gran Escala

Información Básica

  • ID del Artículo: 2509.19557
  • Título: Confidence Calibration in Large Language Model-Based Entity Matching
  • Autores: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro
  • Clasificación: cs.CL cs.LG
  • Fecha de Publicación: 15 de octubre de 2025 (arXiv v2)
  • Institución: Instituto Bernoulli, Universidad de Groningen, Países Bajos; Investigador Independiente
  • Enlace del Artículo: https://arxiv.org/abs/2509.19557

Resumen

Este estudio explora la intersección entre modelos de lenguaje de gran escala y la calibración de confianza en la coincidencia de entidades. Mediante un estudio empírico, se comparan las líneas base de confianza de RoBERTa en tareas de coincidencia de entidades con la confianza calibrada utilizando escalado de temperatura, Dropout de Montecarlo y métodos de conjunto. Los experimentos se realizan utilizando los conjuntos de datos Abt-Buy, DBLP-ACM, iTunes-Amazon y Company. Los resultados muestran que el modelo RoBERTa mejorado exhibe una ligera sobreconfianza, con el error de calibración esperado (ECE) oscilando entre 0.0043 y 0.0552 en diferentes conjuntos de datos. El estudio encuentra que el uso del escalado de temperatura puede mitigar esta sobreconfianza, reduciendo las puntuaciones de ECE hasta en un 23.83%.

Antecedentes de Investigación y Motivación

Definición del Problema

La coincidencia de entidades (Entity Matching, EM) es una subtarea clave de la resolución de entidades, cuyo objetivo es determinar si pares de entradas de datos de diferentes fuentes de datos se refieren a la misma entidad del mundo real. Se trata de un problema de clasificación binaria que requiere juzgar si los pares de entidades son "coincidentes" o "no coincidentes".

Importancia

  1. Valor de Aplicación Multidisciplinario: En el ámbito médico puede mejorar la atención al paciente, en la reconstrucción histórica de poblaciones conecta registros de nacimiento, matrimonio y defunción, y es crucial en la aplicación de la ley para investigaciones y prevención del crimen
  2. Requisito de Transparencia: Los modelos, además de proporcionar resultados de predicción, deben proporcionar puntuaciones de confianza confiables para que los usuarios comprendan la fiabilidad del modelo
  3. Orientación de Tareas Posteriores: Las puntuaciones de confianza precisas pueden guiar la toma de decisiones en tareas posteriores

Limitaciones de Métodos Existentes

  1. Problema de Sobreconfianza: Los modelos de lenguaje de gran escala modernos exhiben sobreconfianza en otras tareas de PNL, lo que dificulta expresar con precisión la incertidumbre de las predicciones
  2. Brecha de Investigación: Aunque hay investigación sobre calibración de confianza en LLMs, su aplicación en el dominio de la coincidencia de entidades aún no ha sido explorada suficientemente
  3. Falta de Evaluación Sistemática: Falta una comparación sistemática de métodos de calibración de confianza para tareas de coincidencia de entidades

Motivación de la Investigación

Proporcionar transparencia en las predicciones del modelo, ayudar a comprender el mecanismo interno del modelo, identificar debilidades del modelo y mejorar el rendimiento. Cuando se sabe explícitamente en qué situaciones específicas el modelo es incierto, es más fácil descubrir direcciones de mejora.

Contribuciones Principales

  1. Primer Estudio Sistemático: Primer estudio sistemático de calibración de confianza de LLMs en el dominio de la coincidencia de entidades
  2. Comparación de Múltiples Métodos de Calibración: Comparación exhaustiva del escalado de temperatura, Dropout de Montecarlo y métodos de conjunto para calibración de confianza en coincidencia de entidades
  3. Validación en Múltiples Conjuntos de Datos: Validación de la efectividad y capacidad de generalización de métodos en 6 conjuntos de datos de diferentes dominios y estructuras
  4. Orientación Práctica: Proporciona recomendaciones de mejores prácticas para calibración de confianza en aplicaciones reales, particularmente las ventajas del método de escalado de temperatura

Explicación Detallada del Método

Definición de la Tarea

  • Entrada: Pares de entidades de diferentes fuentes de datos
  • Salida: Etiqueta de clasificación binaria ("coincidencia"/"no coincidencia") y puntuación de confianza correspondiente
  • Objetivo: Hacer que la puntuación de confianza refleje con precisión la probabilidad real de que la predicción sea correcta

Arquitectura del Modelo

Arquitectura Base

  1. RoBERTa Preentrenado: Utiliza el modelo RoBERTa-base de HuggingFace como codificador
  2. Capa Completamente Conectada: Se añade una red completamente conectada de una sola capa después de RoBERTa
  3. Capa de Salida Sigmoid: Produce una puntuación de confianza entre 0 y 1
  4. Serialización de Datos: Adopta el método de Li et al. (2020) para convertir datos estructurados en secuencias de texto

Métodos de Calibración de Confianza

1. Escalado de Temperatura (Temperature Scaling)

  • Aplica un parámetro de temperatura T para escalar los logits después de la salida Sigmoid
  • Optimiza el parámetro de temperatura mediante búsqueda en cuadrícula en el conjunto de validación: T ∈ {0.1, 0.2, ..., 10.0}
  • Selecciona el valor de temperatura que minimiza el ECE
  • Ventajas: Ligero, fácil de implementar, no cambia la puntuación F1

2. Dropout de Montecarlo

  • Aplica dropout (probabilidad p) a la capa completamente conectada durante la inferencia
  • Realiza 10 propagaciones hacia adelante y promedia las salidas
  • Búsqueda en cuadrícula de la probabilidad de dropout óptima: p ∈ {0.05, 0.10, ..., 0.95}
  • Selecciona el valor p que minimiza el ECE sin reducir la puntuación F1

3. Método de Conjunto

  • Entrena 5 capas completamente conectadas con diferentes inicializaciones aleatorias
  • Toma el promedio de las salidas de los 5 modelos como predicción final
  • Solo aplica conjunto a las capas completamente conectadas y Sigmoid para reducir el costo computacional

Puntos de Innovación Técnica

  1. Implementación Ligera: Dropout de Montecarlo y métodos de conjunto se aplican solo a la capa completamente conectada, minimizando el costo computacional
  2. Optimización Multicriterio: Según los requisitos de la aplicación, se puede elegir optimizar ECE, MCE o RMSCE
  3. Verificación de Significancia Estadística: Utiliza pruebas t pareadas (escalado de temperatura, Dropout de Montecarlo) y pruebas t no pareadas (método de conjunto) para evaluar la significancia de las mejoras

Configuración Experimental

Conjuntos de Datos

Se utilizan 6 conjuntos de datos de coincidencia de entidades de diferentes dominios:

Conjunto de DatosDominioConjunto de EntrenamientoConjunto de ValidaciónConjunto de Prueba
Abt-BuyProductos5,743 (10.72%)1,916 (10.75%)1,916 (10.75%)
DBLP-ACM-S/DCitas7,417 (17.96%)2,473 (17.96%)2,473 (17.96%)
iTunes-Amazon-S/DCanciones321 (24.30%)109 (27.78%)109 (27.78%)
CompanyEmpresas67,596 (24.94%)22,533 (25.30%)22,503 (25.06%)

Nota: S/D indica versiones de datos estructurados/sucios, los porcentajes entre paréntesis representan la proporción de muestras positivas

Métricas de Evaluación

  1. Error de Calibración Esperado (ECE): Métrica principal que mide la diferencia promedio entre la probabilidad predicha y la probabilidad empírica
  2. Error de Calibración Máximo (MCE): Mide la desviación en el peor caso, adecuado para aplicaciones de alto riesgo
  3. Error de Calibración de Raíz Cuadrada Media (RMSCE): Enfatiza más el impacto de errores mayores
  4. Puntuación F1: Asegura que las mejoras de calibración no se hagan a costa del rendimiento de clasificación
  5. Análisis de Visualización: Histogramas de confianza y gráficos de confiabilidad

Métodos de Comparación

  • Método Base: Salida Sigmoid de RoBERTa sin calibrar
  • Métodos de Calibración: Escalado de temperatura, Dropout de Montecarlo, método de conjunto

Detalles de Implementación

  • Épocas de Entrenamiento: 40 épocas (siguiendo la configuración de Li et al. 2020)
  • Selección de Modelo: Selecciona el punto de control con la puntuación F1 más alta en el conjunto de validación
  • Experimentos Repetidos: Cada experimento se repite 5 veces y se reportan la media y desviación estándar
  • Número de Contenedores: √|D| (donde D es el tamaño del conjunto de datos)

Resultados Experimentales

Resultados Principales

Análisis de Rendimiento Base

El modelo RoBERTa exhibe ligera sobreconfianza en todos los conjuntos de datos:

  • Rango de ECE: 0.0043-0.0552, siendo el más bajo en el conjunto de datos DBLP-ACM y el más alto en el conjunto de datos Company
  • Distribución de Confianza: El modelo tiende a producir probabilidades de predicción muy altas o muy bajas
  • Rendimiento F1: Alcanza más del 98% en el conjunto de datos DBLP-ACM, aproximadamente 82% en el conjunto de datos Company

Comparación de Efectos de Métodos de Calibración

Conjunto de DatosECE BaseECE Escalado de TemperaturaECE MC DropoutECE Conjunto
Abt-Buy0.0193±0.00180.0147±0.00170.0193±0.00160.0173±0.0005
DBLP-ACM-S0.0041±0.00100.0036±0.00110.0038±0.00100.0057±0.0023
Company0.0552±0.00990.0424±0.01020.0543±0.0085-

El Escalado de Temperatura Muestra el Mejor Rendimiento:

  • Reduce significativamente el ECE en un 23.83% en el conjunto de datos Abt-Buy
  • Logra mejoras significativas en 4 conjuntos de datos
  • No afecta el rendimiento de la puntuación F1

Experimentos de Ablación

Análisis del Parámetro de Temperatura

  • Valores de Temperatura Óptimos: Típicamente mayores que 1.0 (promedio 1.72±0.51), indicando que el modelo base es efectivamente sobreconfiado
  • Estabilidad del Parámetro: Existe un valor de temperatura óptimo claro para cada conjunto de datos y ejecución

Análisis de Probabilidad de Dropout

  • Rango de Probabilidad Óptima: Entre 0.5-1.0, algunos conjuntos de datos incluso superan 0.8
  • Problema de Generalización: La probabilidad de dropout óptima varía considerablemente entre conjuntos de datos, careciendo de consistencia

Análisis de Casos

Los histogramas de confianza muestran:

  • Predicciones Correctas: Se concentran principalmente en el intervalo de alta confianza
  • Predicciones Incorrectas: Distribución más dispersa, pero aún con una proporción considerable de predicciones incorrectas de alta confianza
  • Problema de Superposición: Existe una superposición significativa entre las distribuciones de confianza de predicciones correctas e incorrectas, indicando calibración insuficiente

Hallazgos Experimentales

  1. Sobreconfianza Generalizada: RoBERTa exhibe diferentes grados de sobreconfianza en todos los conjuntos de datos
  2. Escalado de Temperatura Más Efectivo: En comparación con otros métodos, el escalado de temperatura muestra el mejor rendimiento en la mejora del ECE
  3. Ventaja de Eficiencia Computacional: El escalado de temperatura tiene el menor costo computacional y es fácil de desplegar
  4. Mantenimiento del Rendimiento: Los métodos de calibración básicamente no afectan el rendimiento de clasificación

Trabajo Relacionado

LLMs en Coincidencia de Entidades

  • Modelos de la Serie BERT: Brunner y Stockinger (2020) encontraron que BERT, RoBERTa y otros modelos mejoran el F1 en un 35.9% en comparación con métodos tradicionales
  • Sistema DITTO: Li et al. (2020) combinan LLMs con técnicas de optimización para coincidencia de entidades
  • Modelos Decodificadores: Investigación sobre la aplicación de GPT-3, ChatGPT y GPT-4 en coincidencia de entidades

Calibración de Confianza en LLMs

  • Hallazgos Tempranos: Guo et al. (2017) descubrieron que las redes neuronales modernas tienen problemas de calibración generalizados
  • Investigación en BERT/RoBERTa: Desai y Durrett (2020), Xiao et al. (2022) en múltiples tareas de PNL
  • Métodos de Calibración: Evolución del escalado de temperatura, Dropout de Montecarlo y métodos de conjunto

Puntos de Innovación de Este Artículo

  • Primer en el Dominio: Primera aplicación sistemática de calibración de confianza a tareas de coincidencia de entidades
  • Comparación de Métodos: Comparación exhaustiva de la efectividad de múltiples métodos de calibración
  • Orientación Práctica: Proporciona recomendaciones de mejores prácticas para aplicaciones reales

Conclusiones y Discusión

Conclusiones Principales

  1. Confirmación de Sobreconfianza: RoBERTa efectivamente exhibe un problema de sobreconfianza en tareas de coincidencia de entidades, con puntuaciones de ECE de 0.0043-0.0552
  2. Escalado de Temperatura Óptimo: El escalado de temperatura es el método de calibración más efectivo, reduciendo las puntuaciones de ECE hasta en un 23.83%
  3. Mantenimiento del Rendimiento: La calibración de confianza no daña el rendimiento de clasificación
  4. Fuerte Practicidad: El método de escalado de temperatura es simple de implementar y adecuado para despliegue real

Limitaciones

  1. Limitación del Tamaño del Modelo: La investigación se concentra en modelos RoBERTa relativamente pequeños, sin involucrar LLMs modernos más grandes
  2. Limitaciones de Métricas de Evaluación: Las métricas ECE, MCE, RMSCE pueden no reflejar con precisión la calidad de calibración en algunos casos
  3. Restricciones Computacionales: Debido a limitaciones computacionales, el método de conjunto no se completó en el conjunto de datos Company
  4. Singularidad del Método: No se explora el uso combinado de múltiples métodos de calibración

Direcciones Futuras

  1. Extensión a Modelos Grandes: Extender la investigación a modelos de lenguaje más grandes como GPT-4
  2. Combinación de Métodos: Explorar la combinación de escalado de temperatura con otros métodos, como Ensembles+Temperature Scaling
  3. Utilización de Varianza: Utilizar la información de varianza generada por Dropout de Montecarlo y métodos de conjunto para mejorar la calibración
  4. Nuevas Métricas de Evaluación: Desarrollar métricas de evaluación que reflejen más precisamente la calidad de calibración

Evaluación Profunda

Fortalezas

  1. Alto Valor de Investigación: Llena el vacío en la investigación de calibración de confianza en el dominio de la coincidencia de entidades
  2. Diseño Experimental Riguroso: Comparación exhaustiva con múltiples conjuntos de datos, múltiples métodos y múltiples métricas
  3. Rigor Estadístico: Utiliza pruebas estadísticas apropiadas para verificar la significancia de los resultados
  4. Fuerte Practicidad: Proporciona métodos directamente aplicables y orientación en la selección de parámetros
  5. Escritura Clara: Estructura razonable del artículo, descripción precisa de detalles técnicos

Deficiencias

  1. Cobertura Limitada de Modelos: Solo investiga una arquitectura de modelo RoBERTa
  2. Análisis Teórico Insuficiente: Falta explicación teórica profunda de por qué el escalado de temperatura funciona mejor
  3. Tamaño del Conjunto de Datos: Algunos conjuntos de datos (como iTunes-Amazon) son relativamente pequeños, lo que puede afectar la generalización de resultados
  4. Limitaciones de Recursos Computacionales: Afecta la completitud de algunos experimentos

Impacto

  1. Contribución Académica: Introduce una importante dirección de investigación de calibración de confianza en el dominio de la coincidencia de entidades
  2. Valor Práctico: El método de escalado de temperatura es simple y efectivo, fácil de desplegar en sistemas reales
  3. Reproducibilidad: La configuración experimental es detallada y fácil de reproducir y extender
  4. Inspiración: Proporciona base importante y orientación de dirección para investigación posterior

Escenarios de Aplicación

  1. Aplicaciones de Alto Riesgo: Coincidencia de registros médicos y otros escenarios que requieren estimación confiable de confianza
  2. Colaboración Humano-Máquina: Aplicaciones que requieren que el modelo proporcione información de incertidumbre para asistir en toma de decisiones humanas
  3. Control de Calidad: Identificar muestras difíciles que requieren revisión manual a través de puntuaciones de confianza
  4. Optimización de Modelos: Utilizar información de confianza para mejorar estrategias de entrenamiento de modelos y recopilación de datos

Referencias

  1. Guo, C., et al. (2017). On Calibration of Modern Neural Networks. ICML.
  2. Li, Y., et al. (2020). Deep Entity Matching with Pre-Trained Language Models. VLDB.
  3. Desai, S., & Durrett, G. (2020). Calibration of Pre-trained Transformers. EMNLP.
  4. Brunner, U., & Stockinger, K. (2020). Entity Matching with Transformer Architectures. EDBT.
  5. Peeters, R., & Bizer, C. (2024). Entity Matching using Large Language Models. arXiv.

Resumen: Este artículo realiza contribuciones importantes en la investigación de calibración de confianza en el dominio de la coincidencia de entidades, proporcionando comparación sistemática de métodos y soluciones prácticas. El excelente rendimiento del método de escalado de temperatura proporciona orientación valiosa para aplicaciones prácticas. A pesar de algunas limitaciones, esta investigación establece una base sólida para trabajo posterior, con importante valor académico y práctico.