2025-11-24T13:49:17.165773

Confidence Calibration in Large Language Model-Based Entity Matching

Kamsteeg, Cardenas-Cartagena, van Beers et al.
This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.
academic

Konfidenzkalibration bei Entity Matching mit großen Sprachmodellen

Grundinformationen

  • Paper-ID: 2509.19557
  • Titel: Confidence Calibration in Large Language Model-Based Entity Matching
  • Autoren: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro
  • Klassifizierung: cs.CL cs.LG
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv v2)
  • Institution: Bernoulli Institute, University of Groningen, Niederlande; Unabhängiger Forscher
  • Paper-Link: https://arxiv.org/abs/2509.19557

Zusammenfassung

Diese Forschungsarbeit untersucht die Schnittstelle zwischen großen Sprachmodellen und Konfidenzkalibration im Entity Matching. Durch empirische Studien werden die Baseline-Konfidenzwerte von RoBERTa bei Entity-Matching-Aufgaben mit kalibrierten Konfidenzwerten verglichen, die mittels Temperatur-Skalierung, Monte-Carlo-Dropout und Ensemble-Methoden erreicht werden. Experimente werden mit den Datensätzen Abt-Buy, DBLP-ACM, iTunes-Amazon und Company durchgeführt. Die Ergebnisse zeigen, dass das verbesserte RoBERTa-Modell eine leichte Überconfidence aufweist, wobei der Expected Calibration Error (ECE) über verschiedene Datensätze hinweg zwischen 0,0043 und 0,0552 liegt. Die Forschung zeigt, dass die Temperatur-Skalierung diese Überconfidence abschwächen kann und die ECE-Werte um bis zu 23,83% reduziert.

Forschungshintergrund und Motivation

Problemdefinition

Entity Matching (EM) ist eine Schlüsseluntergabe der Entity Resolution und zielt darauf ab, zu bestimmen, ob Datensätze aus verschiedenen Datenquellen auf die gleiche reale Entität verweisen. Dies ist ein binäres Klassifizierungsproblem, das erfordert, dass Entitätspaare als „Übereinstimmung" oder „Nichtübereinstimmung" klassifiziert werden.

Bedeutung

  1. Mehrdomänen-Anwendungswert: Im Gesundheitswesen kann die Patientenversorgung verbessert werden, in der historischen Bevölkerungsrekonstruktion können Geburts-, Heirats- und Sterbeurkunden verknüpft werden, und in der Strafverfolgung ist es für Ermittlungen und Verbrechensbekämpfung von entscheidender Bedeutung
  2. Transparenzanforderungen: Modelle müssen neben Vorhersageergebnissen zuverlässige Konfidenzwerte bereitstellen, damit Benutzer die Zuverlässigkeit des Modells verstehen können
  3. Anleitung für nachgelagerte Aufgaben: Präzise Konfidenzwerte können Entscheidungen bei nachgelagerten Aufgaben lenken

Einschränkungen bestehender Methoden

  1. Überconfidence-Problem: Moderne große Sprachmodelle zeigen in anderen NLP-Aufgaben Überconfidence und können Unsicherheit bei Vorhersagen nicht genau ausdrücken
  2. Forschungslücke: Obwohl LLMs in der Konfidenzkalibration erforscht wurden, ist die Anwendung im Entity-Matching-Bereich noch nicht ausreichend untersucht
  3. Mangel an systematischer Bewertung: Es fehlt eine systematische Vergleichsstudie von Konfidenzkalibrationsmethoden für Entity-Matching-Aufgaben

Forschungsmotivation

Bereitstellung von Modellvorhersage-Transparenz, Verständnis der internen Funktionsweise von Modellen, Identifizierung von Modellschwächen und Verbesserung der Leistung. Wenn klar bekannt ist, in welchen spezifischen Situationen das Modell unsicher ist, können Verbesserungsmöglichkeiten leichter identifiziert werden.

Kernbeiträge

  1. Erste systematische Studie: Erste systematische Untersuchung der Konfidenzkalibration von LLMs im Entity-Matching-Bereich
  2. Vergleich mehrerer Kalibrationsmethoden: Umfassender Vergleich der Konfidenzkalibrationswirkung von Temperatur-Skalierung, Monte-Carlo-Dropout und Ensemble-Methoden im Entity Matching
  3. Validierung über mehrere Datensätze: Validierung der Wirksamkeit und Generalisierungsfähigkeit der Methoden über 6 Datensätze verschiedener Domänen und Strukturen
  4. Praktische Richtlinien: Bereitstellung von Best-Practice-Empfehlungen für die Konfidenzkalibration in praktischen Anwendungen, insbesondere die Vorteile der Temperatur-Skalierungsmethode

Methodische Details

Aufgabendefinition

  • Eingabe: Entitätspaare aus verschiedenen Datenquellen
  • Ausgabe: Binäres Klassifizierungsetikett („Übereinstimmung"/„Nichtübereinstimmung") und entsprechende Konfidenzwerte
  • Ziel: Sicherstellen, dass Konfidenzwerte die echte Wahrscheinlichkeit korrekter Vorhersagen genau widerspiegeln

Modellarchitektur

Grundarchitektur

  1. Vortrainiertes RoBERTa: Verwendung des RoBERTa-base-Modells von HuggingFace als Encoder
  2. Vollständig verbundene Schicht: Hinzufügen eines einschichtigen vollständig verbundenen Netzwerks nach RoBERTa
  3. Sigmoid-Ausgabeschicht: Erzeugt Konfidenzwerte zwischen 0 und 1
  4. Datenserialisierung: Verwendung der Methode von Li et al. (2020) zur Umwandlung strukturierter Daten in Textsequenzen

Konfidenzkalibrationsmethoden

1. Temperatur-Skalierung (Temperature Scaling)

  • Anwendung eines Temperaturparameters T zur Skalierung von Logits nach der Sigmoid-Ausgabe
  • Optimierung des Temperaturparameters durch Gittersuche auf dem Validierungssatz: T ∈ {0,1, 0,2, ..., 10,0}
  • Auswahl des Temperaturwerts, der ECE minimiert
  • Vorteile: Leichtgewichtig, einfach zu implementieren, ändert F1-Wert nicht

2. Monte-Carlo-Dropout

  • Anwendung von Dropout (Wahrscheinlichkeit p) auf die vollständig verbundene Schicht während der Inferenz
  • Durchführung von 10 Vorwärtsdurchläufen und Mittelwertbildung der Ausgaben
  • Gittersuche für optimale Dropout-Wahrscheinlichkeit: p ∈ {0,05, 0,10, ..., 0,95}
  • Auswahl von p mit minimalem ECE unter der Bedingung, dass der F1-Wert nicht sinkt

3. Ensemble-Methode

  • Training von 5 vollständig verbundenen Schichten mit unterschiedlichen zufälligen Initialisierungen
  • Mittelwertbildung der Ausgaben von 5 Modellen als endgültige Vorhersage
  • Ensemble nur auf vollständig verbundener Schicht und Sigmoid-Schicht zur Reduzierung des Rechenaufwands

Technische Innovationen

  1. Leichtgewichtige Implementierung: Monte-Carlo-Dropout und Ensemble-Methoden werden nur auf die vollständig verbundene Schicht angewendet, um Rechenkosten zu minimieren
  2. Multi-Metrik-Optimierung: Je nach Anforderungen der Anwendung können ECE, MCE oder RMSCE optimiert werden
  3. Validierung statistischer Signifikanz: Verwendung von gepaarten t-Tests (Temperatur-Skalierung, Monte-Carlo-Dropout) und ungepaarten t-Tests (Ensemble-Methode) zur Bewertung der Signifikanz von Verbesserungen

Experimentelle Einrichtung

Datensätze

Verwendung von 6 Entity-Matching-Datensätzen verschiedener Domänen:

DatensatzDomäneTrainingsmengeValidierungsmengeTestmenge
Abt-BuyProdukte5.743 (10,72%)1.916 (10,75%)1.916 (10,75%)
DBLP-ACM-S/DZitate7.417 (17,96%)2.473 (17,96%)2.473 (17,96%)
iTunes-Amazon-S/DLieder321 (24,30%)109 (27,78%)109 (27,78%)
CompanyUnternehmen67.596 (24,94%)22.533 (25,30%)22.503 (25,06%)

Anmerkung: S/D bezeichnet strukturierte/fehlerhafte Datenvarianten, Zahlen in Klammern sind positive Stichprobenanteile

Bewertungsmetriken

  1. Expected Calibration Error (ECE): Hauptmetrik, misst die durchschnittliche Differenz zwischen Vorhersagewahrscheinlichkeit und empirischer Wahrscheinlichkeit
  2. Maximum Calibration Error (MCE): Misst die Abweichung im schlimmsten Fall, geeignet für Hochrisiko-Anwendungen
  3. Root Mean Square Calibration Error (RMSCE): Betont größere Fehler stärker
  4. F1-Wert: Stellt sicher, dass Kalibrierungsverbesserungen nicht auf Kosten der Klassifizierungsleistung gehen
  5. Visuelle Analyse: Konfidenzhistogramme und Zuverlässigkeitsdiagramme

Vergleichsmethoden

  • Baseline-Methode: Unkalibrierte RoBERTa-Sigmoid-Ausgabe
  • Kalibrationsmethoden: Temperatur-Skalierung, Monte-Carlo-Dropout, Ensemble-Methode

Implementierungsdetails

  • Trainingsrunden: 40 Runden (gemäß Li et al. 2020)
  • Modellauswahl: Auswahl des Kontrollpunkts mit dem höchsten F1-Wert auf dem Validierungssatz
  • Wiederholte Experimente: Jedes Experiment wird 5-mal wiederholt und Mittelwert und Standardabweichung werden angegeben
  • Anzahl der Behälter: √|D| (D ist die Datensatzgröße)

Experimentelle Ergebnisse

Hauptergebnisse

Baseline-Leistungsanalyse

Das RoBERTa-Modell zeigt auf allen Datensätzen leichte Überconfidence:

  • ECE-Bereich: 0,0043-0,0552, am niedrigsten beim DBLP-ACM-Datensatz, am höchsten beim Company-Datensatz
  • Konfidenzverteilung: Das Modell neigt dazu, extrem hohe oder extrem niedrige Vorhersagewahrscheinlichkeiten zu erzeugen
  • F1-Leistung: DBLP-ACM-Datensatz erreicht über 98%, Company-Datensatz etwa 82%

Vergleich der Kalibrationsmethodenwirkung

DatensatzBaseline-ECETemperatur-Skalierung-ECEMC-Dropout-ECEEnsemble-ECE
Abt-Buy0,0193±0,00180,0147±0,00170,0193±0,00160,0173±0,0005
DBLP-ACM-S0,0041±0,00100,0036±0,00110,0038±0,00100,0057±0,0023
Company0,0552±0,00990,0424±0,01020,0543±0,0085-

Temperatur-Skalierung zeigt beste Leistung:

  • ECE-Reduktion von 23,83% auf dem Abt-Buy-Datensatz
  • Signifikante Verbesserungen auf 4 Datensätzen
  • Keine Auswirkung auf F1-Leistung

Ablationsstudien

Temperaturparameter-Analyse

  • Optimale Temperaturwerte: Typischerweise größer als 1,0 (Durchschnitt 1,72±0,51), was darauf hindeutet, dass das Baseline-Modell tatsächlich überconfident ist
  • Parameterstabilität: Für jeden Datensatz und jede Ausführung gibt es einen klaren optimalen Temperaturwert

Dropout-Wahrscheinlichkeits-Analyse

  • Optimaler Wahrscheinlichkeitsbereich: Zwischen 0,5-1,0, bei einigen Datensätzen sogar über 0,8
  • Generalisierungsproblem: Die optimale Dropout-Wahrscheinlichkeit variiert stark zwischen verschiedenen Datensätzen und zeigt mangelnde Konsistenz

Fallstudien

Konfidenzhistogramme zeigen:

  • Korrekte Vorhersagen: Konzentrieren sich hauptsächlich auf den Hochkonfidenz-Bereich
  • Fehlerhafte Vorhersagen: Verteilung ist stärker gestreut, aber ein erheblicher Anteil weist immer noch hohe Konfidenzwerte auf
  • Überlappungsproblem: Signifikante Überlappung zwischen Konfidenzverteilungen korrekter und fehlerhafter Vorhersagen deutet auf unzureichende Kalibrierung hin

Experimentelle Erkenntnisse

  1. Überconfidence ist weit verbreitet: RoBERTa zeigt auf allen Datensätzen unterschiedliche Grade von Überconfidence
  2. Temperatur-Skalierung ist am wirksamsten: Im Vergleich zu anderen Methoden zeigt die Temperatur-Skalierung die beste Leistung bei der Verbesserung des ECE
  3. Rechnerische Effizienzvorteile: Temperatur-Skalierung hat die geringsten Rechenkosten und ist leicht bereitzustellen
  4. Leistungserhaltung: Kalibrationsmethoden beeinflussen die Klassifizierungsleistung grundsätzlich nicht

Verwandte Arbeiten

LLMs im Entity Matching

  • BERT-Serie-Modelle: Brunner und Stockinger (2020) fanden, dass BERT, RoBERTa und andere Modelle im Vergleich zu traditionellen Methoden F1-Verbesserungen von 35,9% erreichen
  • DITTO-System: Li et al. (2020) kombinieren LLMs mit Optimierungstechniken für Entity Matching
  • Decoder-Modelle: Forschung zur Anwendung von GPT-3, ChatGPT und GPT-4 im Entity Matching

Konfidenzkalibration von LLMs

  • Frühe Erkenntnisse: Guo et al. (2017) fanden, dass moderne neuronale Netze weit verbreitete Kalibrierungsprobleme haben
  • BERT/RoBERTa-Forschung: Desai und Durrett (2020), Xiao et al. (2022) führten Kalibrierungsstudien auf mehreren NLP-Aufgaben durch
  • Kalibrationsmethoden: Entwicklung von Temperatur-Skalierung, Monte-Carlo-Dropout und Ensemble-Methoden

Innovationen dieses Papers

  • Domänenpremiere: Erste systematische Anwendung der Konfidenzkalibration auf Entity-Matching-Aufgaben
  • Methodenvergleich: Umfassender Vergleich mehrerer Kalibrationsmethoden
  • Praktische Richtlinien: Best-Practice-Empfehlungen für praktische Anwendungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Überconfidence bestätigt: RoBERTa zeigt tatsächlich Überconfidence-Probleme bei Entity-Matching-Aufgaben, mit ECE-Werten von 0,0043-0,0552
  2. Temperatur-Skalierung ist optimal: Temperatur-Skalierung ist die wirksamste Kalibrationsmethode und kann ECE-Werte um bis zu 23,83% reduzieren
  3. Leistungserhaltung: Konfidenzkalibration beeinträchtigt nicht die Klassifizierungsleistung
  4. Starke Praktikabilität: Die Temperatur-Skalierungsmethode ist einfach zu implementieren und eignet sich für praktische Bereitstellung

Einschränkungen

  1. Modellgrößenbeschränkung: Forschung konzentriert sich auf relativ kleine RoBERTa-Modelle, ohne größere moderne LLMs einzubeziehen
  2. Einschränkungen der Bewertungsmetriken: ECE, MCE, RMSCE und andere Metriken können in bestimmten Fällen die Kalibrierungsqualität möglicherweise nicht genau widerspiegeln
  3. Rechnerische Einschränkungen: Aufgrund von Rechenbeschränkungen wurden Ensemble-Methoden-Experimente auf dem Company-Datensatz nicht abgeschlossen
  4. Methodische Einseitigkeit: Kombinierte Verwendung mehrerer Kalibrationsmethoden wurde nicht untersucht

Zukünftige Richtungen

  1. Erweiterung auf große Modelle: Ausweitung der Forschung auf größere Sprachmodelle wie GPT-4
  2. Methodenkombination: Erforschung von Kombinationen von Temperatur-Skalierung und anderen Methoden, wie Ensembles + Temperatur-Skalierung
  3. Varianznutzung: Nutzung von Varianzinformationen aus Monte-Carlo-Dropout und Ensemble-Methoden zur Verbesserung der Kalibrierung
  4. Neue Bewertungsmetriken: Entwicklung von Bewertungsmetriken, die die Kalibrierungsqualität genauer widerspiegeln

Tiefgreifende Bewertung

Stärken

  1. Hoher Forschungswert: Füllt die Forschungslücke bei der Konfidenzkalibration im Entity-Matching-Bereich
  2. Strenge Experimentgestaltung: Umfassender Vergleich über mehrere Datensätze, Methoden und Metriken
  3. Statistische Strenge: Verwendung angemessener statistischer Tests zur Validierung der Signifikanz von Ergebnissen
  4. Starke Praktikabilität: Bereitstellung von direkt anwendbaren Methoden und Richtlinien zur Parameterauswahl
  5. Klare Schreibweise: Angemessene Papierstruktur und genaue Beschreibung technischer Details

Mängel

  1. Begrenzte Modellabdeckung: Nur RoBERTa-Modellarchitektur wird untersucht
  2. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum Temperatur-Skalierung am besten funktioniert
  3. Datensatzgröße: Einige Datensätze (wie iTunes-Amazon) sind relativ klein und können die Generalisierbarkeit der Ergebnisse beeinflussen
  4. Rechnerische Ressourcenbeschränkungen: Beeinflussen die Vollständigkeit bestimmter Experimente

Auswirkungen

  1. Akademischer Beitrag: Führt eine wichtige Forschungsrichtung zur Konfidenzkalibration im Entity-Matching-Bereich ein
  2. Praktischer Wert: Die Temperatur-Skalierungsmethode ist einfach und effektiv und kann leicht in praktischen Systemen bereitgestellt werden
  3. Reproduzierbarkeit: Detaillierte Experimenteinrichtung ermöglicht einfache Reproduktion und Erweiterung
  4. Inspirationswirkung: Bietet wichtige Grundlagen und Richtlinien für nachfolgende Forschung

Anwendungsszenarien

  1. Hochrisiko-Anwendungen: Szenarien wie medizinische Datensatzabstimmung, die zuverlässige Konfidenzschätzungen erfordern
  2. Mensch-Maschine-Zusammenarbeit: Anwendungen, die Unsicherheitsinformationen des Modells zur Unterstützung menschlicher Entscheidungsfindung benötigen
  3. Qualitätskontrolle: Identifizierung schwieriger Stichproben, die manueller Überprüfung bedürfen, durch Konfidenzwerte
  4. Modelloptimierung: Nutzung von Konfidenzinformationen zur Verbesserung des Modelltrainings und der Datenerfassungsstrategie

Literaturverzeichnis

  1. Guo, C., et al. (2017). On Calibration of Modern Neural Networks. ICML.
  2. Li, Y., et al. (2020). Deep Entity Matching with Pre-Trained Language Models. VLDB.
  3. Desai, S., & Durrett, G. (2020). Calibration of Pre-trained Transformers. EMNLP.
  4. Brunner, U., & Stockinger, K. (2020). Entity Matching with Transformer Architectures. EDBT.
  5. Peeters, R., & Bizer, C. (2024). Entity Matching using Large Language Models. arXiv.

Zusammenfassung: Dieses Paper leistet wichtige Beiträge zur Konfidenzkalibrations-Forschung im Entity-Matching-Bereich und bietet systematische Methodenvergleiche und praktische Lösungen. Die hervorragende Leistung der Temperatur-Skalierungsmethode bietet wertvolle Richtlinien für praktische Anwendungen. Trotz einiger Einschränkungen legt diese Forschung eine solide Grundlage für nachfolgende Arbeiten und hat wichtige akademische und praktische Werte.