2025-11-24T13:49:17.165773

Confidence Calibration in Large Language Model-Based Entity Matching

Kamsteeg, Cardenas-Cartagena, van Beers et al.
This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.
academic

Étalonnage de la Confiance dans l'Appariement d'Entités Basé sur les Modèles de Langage de Grande Taille

Informations Fondamentales

  • ID de l'article : 2509.19557
  • Titre : Confidence Calibration in Large Language Model-Based Entity Matching
  • Auteurs : Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro
  • Classification : cs.CL cs.LG
  • Date de publication : 15 octobre 2025 (arXiv v2)
  • Institutions : Institut Bernoulli, Université de Groningen, Pays-Bas ; Chercheur Indépendant
  • Lien de l'article : https://arxiv.org/abs/2509.19557

Résumé

Cette étude explore l'intersection entre les modèles de langage de grande taille et l'étalonnage de la confiance dans l'appariement d'entités. Par une étude empirique, nous comparons la confiance de base de RoBERTa dans les tâches d'appariement d'entités avec la confiance étalonnée à l'aide de la mise à l'échelle de température, du Dropout Monte-Carlo et des méthodes d'ensemble. Les expériences sont menées sur les ensembles de données Abt-Buy, DBLP-ACM, iTunes-Amazon et Company. Les résultats montrent que le modèle RoBERTa amélioré présente une légère surconfiance, avec une erreur d'étalonnage attendue (ECE) variant de 0,0043 à 0,0552 selon les ensembles de données. L'étude révèle que l'utilisation de la mise à l'échelle de température peut atténuer cette surconfiance, réduisant les scores ECE jusqu'à 23,83 %.

Contexte de Recherche et Motivation

Définition du Problème

L'appariement d'entités (Entity Matching, EM) est une sous-tâche clé de la résolution d'entités, visant à déterminer si les paires d'entrées de données provenant de différentes sources de données font référence à la même entité du monde réel. Il s'agit d'un problème de classification binaire nécessitant de juger si les paires d'entités sont « appariées » ou « non appariées ».

Importance

  1. Valeur multi-domaines : Amélioration des soins aux patients dans le domaine médical, liaison des registres de naissance, mariage et décès dans la reconstruction historique des populations, importance cruciale pour les enquêtes et la prévention de la criminalité dans l'application de la loi
  2. Besoin de transparence : Les modèles doivent fournir des scores de confiance fiables en plus des résultats de prédiction, permettant aux utilisateurs de comprendre la fiabilité du modèle
  3. Orientation des tâches en aval : Les scores de confiance précis peuvent guider les décisions des tâches ultérieures

Limitations des Approches Existantes

  1. Problème de surconfiance : Les modèles de langage de grande taille modernes présentent une surconfiance dans d'autres tâches de traitement du langage naturel, ayant du mal à exprimer avec précision l'incertitude des prédictions
  2. Lacune de recherche : Bien que les LLMs aient été étudiés en matière d'étalonnage de confiance, leur application au domaine de l'appariement d'entités n'a pas été suffisamment explorée
  3. Absence d'évaluation systématique : Manque d'études comparatives systématiques des méthodes d'étalonnage de confiance pour les tâches d'appariement d'entités

Motivation de la Recherche

Fournir la transparence des prédictions du modèle, aider à comprendre les mécanismes internes du modèle, identifier les faiblesses du modèle et améliorer les performances. Lorsqu'on sait explicitement dans quelles situations spécifiques le modèle est incertain, il est plus facile de découvrir les directions d'amélioration.

Contributions Principales

  1. Première étude systématique : Première étude systématique de l'étalonnage de confiance des LLMs dans le domaine de l'appariement d'entités
  2. Comparaison de multiples méthodes d'étalonnage : Comparaison complète de l'efficacité de la mise à l'échelle de température, du Dropout Monte-Carlo et des méthodes d'ensemble pour l'étalonnage de confiance dans l'appariement d'entités
  3. Validation multi-ensembles de données : Validation de l'efficacité et de la capacité de généralisation des méthodes sur 6 ensembles de données de différents domaines et structures
  4. Orientation pratique : Fourniture de recommandations de bonnes pratiques pour l'étalonnage de confiance dans les applications réelles, en particulier les avantages de la méthode de mise à l'échelle de température

Explication Détaillée des Méthodes

Définition de la Tâche

  • Entrée : Paires d'entités provenant de différentes sources de données
  • Sortie : Étiquette de classification binaire (« appariée »/« non appariée ») et score de confiance correspondant
  • Objectif : Faire en sorte que le score de confiance reflète avec précision la probabilité réelle que la prédiction soit correcte

Architecture du Modèle

Architecture de Base

  1. RoBERTa pré-entraîné : Utilisation du modèle RoBERTa-base de HuggingFace comme encodeur
  2. Couche entièrement connectée : Ajout d'un réseau entièrement connecté à une seule couche après RoBERTa
  3. Couche de sortie Sigmoid : Production d'un score de confiance entre 0 et 1
  4. Sérialisation des données : Conversion des données structurées en séquences de texte selon la méthode de Li et al. (2020)

Méthodes d'Étalonnage de Confiance

1. Mise à l'Échelle de Température (Temperature Scaling)

  • Application d'un paramètre de température T pour mettre à l'échelle les logits après la sortie Sigmoid
  • Optimisation du paramètre de température par recherche en grille sur l'ensemble de validation : T ∈ {0,1, 0,2, ..., 10,0}
  • Sélection de la valeur de température minimisant l'ECE
  • Avantages : léger, facile à mettre en œuvre, ne modifie pas le score F1

2. Dropout Monte-Carlo

  • Application du dropout (probabilité p) à la couche entièrement connectée lors de l'inférence
  • Exécution de 10 passages avant et moyenne des sorties
  • Recherche en grille de la probabilité de dropout optimale : p ∈ {0,05, 0,10, ..., 0,95}
  • Sélection de la valeur p minimisant l'ECE tout en maintenant le score F1

3. Méthode d'Ensemble

  • Entraînement de 5 couches entièrement connectées avec différentes initialisations aléatoires
  • Moyenne des sorties des 5 modèles comme prédiction finale
  • Application de l'ensemble uniquement aux couches entièrement connectées et Sigmoid pour réduire les coûts de calcul

Points d'Innovation Technique

  1. Implémentation légère : Le Dropout Monte-Carlo et les méthodes d'ensemble s'appliquent uniquement à la couche entièrement connectée, minimisant les coûts de calcul
  2. Optimisation multi-métriques : Possibilité de choisir d'optimiser l'ECE, MCE ou RMSCE selon les besoins de l'application
  3. Vérification de la signification statistique : Utilisation du test t apparié (mise à l'échelle de température, Dropout Monte-Carlo) et du test t non apparié (méthode d'ensemble) pour évaluer la signification des améliorations

Configuration Expérimentale

Ensembles de Données

Utilisation de 6 ensembles de données d'appariement d'entités de différents domaines :

Ensemble de DonnéesDomaineEnsemble d'EntraînementEnsemble de ValidationEnsemble de Test
Abt-BuyProduits5 743 (10,72 %)1 916 (10,75 %)1 916 (10,75 %)
DBLP-ACM-S/DCitations7 417 (17,96 %)2 473 (17,96 %)2 473 (17,96 %)
iTunes-Amazon-S/DChansons321 (24,30 %)109 (27,78 %)109 (27,78 %)
CompanyEntreprises67 596 (24,94 %)22 533 (25,30 %)22 503 (25,06 %)

Remarque : S/D désigne les versions structurées/brutes, les pourcentages entre parenthèses représentent la proportion d'échantillons positifs

Métriques d'Évaluation

  1. Erreur d'Étalonnage Attendue (ECE) : Métrique principale, mesurant la différence moyenne entre la probabilité de prédiction et la probabilité empirique
  2. Erreur d'Étalonnage Maximale (MCE) : Mesurant l'écart dans le pire des cas, appropriée pour les applications à haut risque
  3. Erreur Quadratique Moyenne d'Étalonnage (RMSCE) : Mettant davantage l'accent sur l'impact des erreurs plus importantes
  4. Score F1 : Assurant que l'amélioration de l'étalonnage ne se fait pas au détriment des performances de classification
  5. Analyse Visuelle : Histogrammes de confiance et graphiques de fiabilité

Méthodes de Comparaison

  • Méthode de base : Sortie Sigmoid RoBERTa non étalonnée
  • Méthodes d'étalonnage : Mise à l'échelle de température, Dropout Monte-Carlo, méthode d'ensemble

Détails d'Implémentation

  • Nombre d'épochs : 40 (suivant la configuration de Li et al. 2020)
  • Sélection du modèle : Sélection du point de contrôle avec le score F1 le plus élevé sur l'ensemble de validation
  • Répétition des expériences : Chaque expérience répétée 5 fois avec rapports de moyenne et écart-type
  • Nombre de bacs : √|D| (D étant la taille de l'ensemble de données)

Résultats Expérimentaux

Résultats Principaux

Analyse des Performances de Base

Le modèle RoBERTa présente une légère surconfiance sur tous les ensembles de données :

  • Plage ECE : 0,0043-0,0552, la plus basse sur l'ensemble de données DBLP-ACM, la plus élevée sur l'ensemble Company
  • Distribution de confiance : Le modèle tend à produire des probabilités de prédiction extrêmement élevées ou extrêmement basses
  • Performance F1 : Atteint plus de 98 % sur l'ensemble de données DBLP-ACM, environ 82 % sur l'ensemble Company

Comparaison de l'Efficacité des Méthodes d'Étalonnage

Ensemble de DonnéesECE de BaseECE Mise à l'Échelle de TempératureECE MC DropoutECE Ensemble
Abt-Buy0,0193±0,00180,0147±0,00170,0193±0,00160,0173±0,0005
DBLP-ACM-S0,0041±0,00100,0036±0,00110,0038±0,00100,0057±0,0023
Company0,0552±0,00990,0424±0,01020,0543±0,0085-

La mise à l'échelle de température offre les meilleures performances :

  • Réduction significative de l'ECE de 23,83 % sur l'ensemble de données Abt-Buy
  • Améliorations significatives sur 4 ensembles de données
  • N'affecte pas les performances du score F1

Études d'Ablation

Analyse du Paramètre de Température

  • Valeurs de température optimales : Généralement supérieures à 1,0 (moyenne 1,72±0,51), indiquant que le modèle de base est effectivement surconfiant
  • Stabilité des paramètres : Existence d'une valeur de température optimale claire pour chaque ensemble de données et exécution

Analyse de la Probabilité de Dropout

  • Plage de probabilité optimale : Entre 0,5 et 1,0, certains ensembles de données dépassant même 0,8
  • Problème de généralisation : Variation importante de la probabilité de dropout optimale entre les ensembles de données, manque de cohérence

Analyse de Cas

Les histogrammes de confiance montrent :

  • Prédictions correctes : Principalement concentrées dans les intervalles de confiance élevée
  • Prédictions incorrectes : Distribution plus dispersée, mais avec une proportion considérable de prédictions incorrectes à haute confiance
  • Problème de chevauchement : Chevauchement significatif entre les distributions de confiance des prédictions correctes et incorrectes, indiquant un étalonnage insuffisant

Découvertes Expérimentales

  1. Surconfiance universelle : RoBERTa présente différents degrés de surconfiance sur tous les ensembles de données
  2. Efficacité maximale de la mise à l'échelle de température : Comparée aux autres méthodes, la mise à l'échelle de température offre les meilleures performances pour améliorer l'ECE
  3. Avantages d'efficacité computationnelle : La mise à l'échelle de température a le coût de calcul le plus faible et est facile à déployer
  4. Maintien des performances : Les méthodes d'étalonnage n'affectent pratiquement pas les performances de classification

Travaux Connexes

LLMs dans l'Appariement d'Entités

  • Modèles de la série BERT : Brunner et Stockinger (2020) ont constaté que BERT, RoBERTa et autres modèles offrent une amélioration F1 de 35,9 % par rapport aux méthodes traditionnelles
  • Système DITTO : Système d'appariement d'entités de Li et al. (2020) combinant LLMs et techniques d'optimisation
  • Modèles de décodeur : Recherches sur l'application de GPT-3, ChatGPT, GPT-4 dans l'appariement d'entités

Étalonnage de Confiance des LLMs

  • Découvertes précoces : Guo et al. (2017) ont découvert que les réseaux de neurones modernes présentent universellement des problèmes d'étalonnage
  • Recherche BERT/RoBERTa : Études d'étalonnage de Desai et Durrett (2020), Xiao et al. (2022) sur plusieurs tâches de traitement du langage naturel
  • Méthodes d'étalonnage : Historique du développement de la mise à l'échelle de température, du Dropout Monte-Carlo et des méthodes d'ensemble

Points d'Innovation de cet Article

  • Première dans le domaine : Première application systématique de l'étalonnage de confiance à la tâche d'appariement d'entités
  • Comparaison de méthodes : Comparaison complète de l'efficacité de plusieurs méthodes d'étalonnage
  • Orientation pratique : Fourniture de recommandations de bonnes pratiques pour les applications réelles

Conclusions et Discussion

Conclusions Principales

  1. Confirmation de la surconfiance : RoBERTa présente effectivement un problème de surconfiance dans les tâches d'appariement d'entités, avec des scores ECE de 0,0043 à 0,0552
  2. Optimalité de la mise à l'échelle de température : La mise à l'échelle de température est la méthode d'étalonnage la plus efficace, pouvant réduire l'ECE jusqu'à 23,83 %
  3. Maintien des performances : L'étalonnage de confiance ne compromet pas les performances de classification
  4. Forte applicabilité pratique : La méthode de mise à l'échelle de température est simple à mettre en œuvre et adaptée au déploiement réel

Limitations

  1. Limitation de la taille du modèle : La recherche se concentre sur le modèle RoBERTa relativement petit, sans impliquer les LLMs modernes de plus grande taille
  2. Limitations des métriques d'évaluation : Les métriques ECE, MCE, RMSCE peuvent ne pas refléter avec précision la qualité d'étalonnage dans certains cas
  3. Contraintes de calcul : En raison des limitations de calcul, les expériences de méthode d'ensemble n'ont pas été complétées sur l'ensemble de données Company
  4. Unicité des méthodes : Exploration insuffisante de l'utilisation combinée de plusieurs méthodes d'étalonnage

Directions Futures

  1. Extension aux grands modèles : Extension de la recherche à des modèles de langage de plus grande taille tels que GPT-4
  2. Combinaison de méthodes : Exploration de la combinaison de la mise à l'échelle de température avec d'autres méthodes, telles que Ensembles+Temperature Scaling
  3. Utilisation de la variance : Utilisation des informations de variance générées par le Dropout Monte-Carlo et les méthodes d'ensemble pour améliorer l'étalonnage
  4. Nouvelles métriques d'évaluation : Développement de métriques d'évaluation reflétant plus précisément la qualité d'étalonnage

Évaluation Approfondie

Points Forts

  1. Valeur de recherche élevée : Comble le vide de la recherche sur l'étalonnage de confiance dans le domaine de l'appariement d'entités
  2. Conception expérimentale rigoureuse : Comparaison complète multi-ensembles de données, multi-méthodes et multi-métriques
  3. Rigueur statistique : Utilisation de tests statistiques appropriés pour vérifier la signification des résultats
  4. Forte applicabilité pratique : Fourniture de méthodes directement applicables et d'orientation pour la sélection des paramètres
  5. Rédaction claire : Structure logique de l'article, description précise des détails techniques

Insuffisances

  1. Couverture limitée des modèles : Étude d'une seule architecture de modèle, RoBERTa
  2. Analyse théorique insuffisante : Manque d'explication théorique approfondie sur les raisons pour lesquelles la mise à l'échelle de température est la plus efficace
  3. Taille des ensembles de données : Certains ensembles de données (comme iTunes-Amazon) sont de taille relativement petite, ce qui peut affecter la généralisation des résultats
  4. Limitations des ressources de calcul : Affectant l'intégrité de certaines expériences

Impact

  1. Contribution académique : Introduction d'une direction de recherche importante sur l'étalonnage de confiance dans le domaine de l'appariement d'entités
  2. Valeur pratique : La méthode de mise à l'échelle de température est simple et efficace, facile à déployer dans les systèmes réels
  3. Reproductibilité : Configuration expérimentale détaillée, facile à reproduire et à étendre
  4. Caractère inspirant : Fourniture d'une base importante et d'orientation pour les recherches ultérieures

Scénarios d'Application

  1. Applications à haut risque : Appariement de dossiers médicaux et autres scénarios nécessitant une estimation fiable de la confiance
  2. Collaboration homme-machine : Applications nécessitant que le modèle fournisse des informations d'incertitude pour assister les décisions humaines
  3. Contrôle de qualité : Identification des échantillons difficiles nécessitant un examen manuel par les scores de confiance
  4. Optimisation du modèle : Utilisation des informations de confiance pour améliorer l'entraînement du modèle et les stratégies de collecte de données

Références

  1. Guo, C., et al. (2017). On Calibration of Modern Neural Networks. ICML.
  2. Li, Y., et al. (2020). Deep Entity Matching with Pre-Trained Language Models. VLDB.
  3. Desai, S., & Durrett, G. (2020). Calibration of Pre-trained Transformers. EMNLP.
  4. Brunner, U., & Stockinger, K. (2020). Entity Matching with Transformer Architectures. EDBT.
  5. Peeters, R., & Bizer, C. (2024). Entity Matching using Large Language Models. arXiv.

Résumé : Cet article apporte une contribution importante à la recherche sur l'étalonnage de confiance dans le domaine de l'appariement d'entités, fournissant une comparaison systématique des méthodes et une solution pratique. Les performances exceptionnelles de la méthode de mise à l'échelle de température fournissent une orientation précieuse pour les applications réelles. Malgré certaines limitations, cette recherche jette une base solide pour les travaux ultérieurs et possède une valeur académique et pratique importante.