2025-11-24T13:49:17.165773

Confidence Calibration in Large Language Model-Based Entity Matching

Kamsteeg, Cardenas-Cartagena, van Beers et al.

This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.

academic

बड़े भाषा मॉडल-आधारित इकाई मिलान में आत्मविश्वास अंशांकन

मूल जानकारी

पेपर ID: 2509.19557
शीर्षक: Confidence Calibration in Large Language Model-Based Entity Matching
लेखक: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro
वर्गीकरण: cs.CL cs.LG
प्रकाशन समय: 15 अक्टूबर 2025 (arXiv v2)
संस्थान: Bernoulli Institute, University of Groningen, The Netherlands; Independent Researcher
पेपर लिंक: https://arxiv.org/abs/2509.19557

सारांश

यह अनुसंधान बड़े भाषा मॉडल और इकाई मिलान में आत्मविश्वास अंशांकन के अंतर-क्षेत्रीय संबंध की खोज करता है। अनुभवजन्य अध्ययन के माध्यम से, इकाई मिलान कार्यों में RoBERTa के आधारभूत आत्मविश्वास की तुलना तापमान स्केलिंग, मोंटे कार्लो ड्रॉपआउट और समूह विधियों के साथ अंशांकित आत्मविश्वास से की गई है। Abt-Buy, DBLP-ACM, iTunes-Amazon और Company डेटासेट का उपयोग करके प्रयोग किए गए। परिणाम दर्शाते हैं कि सुधारे गए RoBERTa मॉडल में हल्का अत्यधिक आत्मविश्वास दिखाई देता है, अपेक्षित अंशांकन त्रुटि (ECE) विभिन्न डेटासेट पर 0.0043 से 0.0552 तक होती है। अनुसंधान से पता चलता है कि तापमान स्केलिंग का उपयोग करके इस अत्यधिक आत्मविश्वास को कम किया जा सकता है, ECE स्कोर को 23.83% तक कम किया जा सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इकाई मिलान (Entity Matching, EM) इकाई समाधान का एक महत्वपूर्ण उप-कार्य है, जिसका उद्देश्य विभिन्न डेटा स्रोतों से डेटा प्रविष्टि जोड़े को यह निर्धारित करना है कि क्या वे एक ही वास्तविक दुनिया की इकाई की ओर इशारा करते हैं। यह एक द्विआधारी वर्गीकरण समस्या है जिसमें इकाई जोड़े को "मेल खाता है" या "मेल नहीं खाता है" में वर्गीकृत करने की आवश्यकता होती है।

महत्व

बहु-क्षेत्रीय अनुप्रयोग मूल्य: चिकित्सा क्षेत्र में रोगी देखभाल में सुधार, ऐतिहासिक जनसंख्या पुनर्निर्माण में जन्म, विवाह और मृत्यु के रिकॉर्ड को जोड़ना, कानून प्रवर्तन में जांच और अपराध रोकथाम के लिए महत्वपूर्ण
पारदर्शिता की आवश्यकता: मॉडल को भविष्यवाणी परिणाम देने के अलावा विश्वसनीय आत्मविश्वास स्कोर भी प्रदान करने की आवश्यकता है ताकि उपयोगकर्ता मॉडल की विश्वसनीयता को समझ सकें
डाउनस्ट्रीम कार्य मार्गदर्शन: सटीक आत्मविश्वास स्कोर बाद के कार्यों के निर्णय में मार्गदर्शन कर सकते हैं

मौजूदा विधियों की सीमाएं

अत्यधिक आत्मविश्वास की समस्या: आधुनिक बड़े भाषा मॉडल अन्य NLP कार्यों में अत्यधिक आत्मविश्वास दिखाते हैं, भविष्यवाणी की अनिश्चितता को सटीक रूप से व्यक्त करना कठिन है
अनुसंधान अंतराल: हालांकि LLMs आत्मविश्वास अंशांकन के संदर्भ में शोध किया गया है, लेकिन इकाई मिलान क्षेत्र में इसका अनुप्रयोग अभी तक पर्याप्त रूप से अन्वेषित नहीं किया गया है
व्यवस्थित मूल्यांकन की कमी: इकाई मिलान कार्य के लिए आत्मविश्वास अंशांकन विधियों की व्यवस्थित तुलना अनुसंधान की कमी है

अनुसंधान प्रेरणा

मॉडल भविष्यवाणी पारदर्शिता प्रदान करना, मॉडल के आंतरिक कार्य तंत्र को समझने में सहायता करना, मॉडल की कमजोरियों की पहचान करना और प्रदर्शन में सुधार करना। जब स्पष्ट रूप से पता हो कि मॉडल किन विशिष्ट परिस्थितियों में अनिश्चित है, तो सुधार की दिशा खोजना आसान हो जाता है।

मुख्य योगदान

पहला व्यवस्थित अनुसंधान: इकाई मिलान क्षेत्र में LLMs के आत्मविश्वास अंशांकन का पहला व्यवस्थित अनुसंधान
कई अंशांकन विधियों की तुलना: तापमान स्केलिंग, मोंटे कार्लो ड्रॉपआउट और समूह विधियों की इकाई मिलान में आत्मविश्वास अंशांकन प्रभाव की व्यापक तुलना
बहु-डेटासेट सत्यापन: 6 विभिन्न क्षेत्रों और संरचनाओं के डेटासेट पर विधियों की प्रभावशीलता और सामान्यीकरण क्षमता का सत्यापन
व्यावहारिक मार्गदर्शन: वास्तविक अनुप्रयोग में आत्मविश्वास अंशांकन के लिए सर्वोत्तम प्रथाओं की सिफारिशें, विशेष रूप से तापमान स्केलिंग विधि के लाभ

विधि विस्तार

कार्य परिभाषा

इनपुट: विभिन्न डेटा स्रोतों से इकाई जोड़े
आउटपुट: द्विआधारी वर्गीकरण लेबल ("मेल खाता है"/"मेल नहीं खाता है") और संबंधित आत्मविश्वास स्कोर
लक्ष्य: आत्मविश्वास स्कोर को भविष्यवाणी की सटीकता की वास्तविक संभावना को सटीक रूप से प्रतिबिंबित करना

मॉडल आर्किटेक्चर

मूल आर्किटेक्चर

पूर्व-प्रशिक्षित RoBERTa: एन्कोडर के रूप में HuggingFace के RoBERTa-base मॉडल का उपयोग
पूर्ण कनेक्टेड परत: RoBERTa के बाद एकल परत पूर्ण कनेक्टेड नेटवर्क जोड़ना
Sigmoid आउटपुट परत: 0-1 के बीच आत्मविश्वास स्कोर उत्पन्न करना
डेटा क्रमबद्धता: Li et al. (2020) की विधि का उपयोग करके संरचित डेटा को पाठ अनुक्रम में परिवर्तित करना

आत्मविश्वास अंशांकन विधियां

1. तापमान स्केलिंग (Temperature Scaling)

Sigmoid आउटपुट के बाद तापमान पैरामीटर T के साथ logits को स्केल करना
सत्यापन सेट पर ग्रिड खोज के माध्यम से तापमान पैरामीटर को अनुकूलित करना: T ∈ {0.1, 0.2, ..., 10.0}
ECE को न्यूनतम करने वाला तापमान मान चुनना
लाभ: हल्का, आसानी से लागू करने योग्य, F1 स्कोर को नहीं बदलता

2. मोंटे कार्लो ड्रॉपआउट

अनुमान समय पर पूर्ण कनेक्टेड परत पर ड्रॉपआउट (संभावना p) लागू करना
10 बार फॉरवर्ड प्रचार करना और आउटपुट का औसत लेना
ग्रिड खोज सर्वोत्तम ड्रॉपआउट संभावना: p ∈ {0.05, 0.10, ..., 0.95}
F1 स्कोर में कमी न आने की शर्त पर न्यूनतम ECE वाली p मान चुनना

3. समूह विधि

5 विभिन्न यादृच्छिक आरंभीकरण के साथ पूर्ण कनेक्टेड परत को प्रशिक्षित करना
5 मॉडल के आउटपुट का औसत लेना अंतिम भविष्यवाणी के रूप में
केवल पूर्ण कनेक्टेड परत और Sigmoid परत पर समूह बनाना कम्प्यूटेशनल लागत को कम करने के लिए

तकनीकी नवाचार बिंदु

हल्का कार्यान्वयन: मोंटे कार्लो ड्रॉपआउट और समूह विधियां केवल पूर्ण कनेक्टेड परत पर लागू होती हैं, कम्प्यूटेशनल लागत को कम करती हैं
बहु-मेट्रिक अनुकूलन: अनुप्रयोग परिदृश्य की आवश्यकताओं के अनुसार, ECE, MCE या RMSCE को अनुकूलित करने का विकल्प
सांख्यिकीय महत्व सत्यापन: युग्मित t-परीक्षण (तापमान स्केलिंग, मोंटे कार्लो ड्रॉपआउट) और अयुग्मित t-परीक्षण (समूह विधि) का उपयोग करके सुधार की महत्ता का मूल्यांकन

प्रयोग सेटअप

डेटासेट

6 विभिन्न क्षेत्रों के इकाई मिलान डेटासेट का उपयोग:

डेटासेट	क्षेत्र	प्रशिक्षण सेट	सत्यापन सेट	परीक्षण सेट
Abt-Buy	उत्पाद	5,743 (10.72%)	1,916 (10.75%)	1,916 (10.75%)
DBLP-ACM-S/D	उद्धरण	7,417 (17.96%)	2,473 (17.96%)	2,473 (17.96%)
iTunes-Amazon-S/D	गीत	321 (24.30%)	109 (27.78%)	109 (27.78%)
Company	कंपनी	67,596 (24.94%)	22,533 (25.30%)	22,503 (25.06%)

नोट: S/D संरचित/गंदे डेटा संस्करण को दर्शाता है, कोष्ठक में सकारात्मक नमूनों का अनुपात है

मूल्यांकन मेट्रिक्स

अपेक्षित अंशांकन त्रुटि (ECE): मुख्य मेट्रिक, भविष्यवाणी संभावना और अनुभवजन्य संभावना के बीच औसत अंतर को मापता है
अधिकतम अंशांकन त्रुटि (MCE): सबसे खराब स्थिति में विचलन को मापता है, उच्च जोखिम वाले अनुप्रयोगों के लिए उपयुक्त
मूल माध्य वर्ग अंशांकन त्रुटि (RMSCE): बड़ी त्रुटियों के प्रभाव पर अधिक जोर देता है
F1 स्कोर: यह सुनिश्चित करना कि अंशांकन सुधार वर्गीकरण प्रदर्शन की कीमत पर न हो
दृश्य विश्लेषण: आत्मविश्वास हिस्टोग्राम और विश्वसनीयता ग्राफ

तुलनात्मक विधियां

आधारभूत विधि: अंशांकित RoBERTa Sigmoid आउटपुट
अंशांकन विधियां: तापमान स्केलिंग, मोंटे कार्लो ड्रॉपआउट, समूह विधि

कार्यान्वयन विवरण

प्रशिक्षण दौर: 40 दौर (Li et al. 2020 की सेटिंग का पालन)
मॉडल चयन: सत्यापन सेट F1 स्कोर सर्वोच्च चेकपॉइंट चुनना
दोहराए गए प्रयोग: प्रत्येक प्रयोग 5 बार दोहराया गया और माध्य और मानक विचलन की रिपोर्ट की गई
बिनिंग संख्या: √|D| (D डेटासेट का आकार है)

प्रयोग परिणाम

मुख्य परिणाम

आधारभूत प्रदर्शन विश्लेषण

RoBERTa मॉडल सभी डेटासेट पर हल्का अत्यधिक आत्मविश्वास दिखाता है:

ECE श्रेणी: 0.0043-0.0552, DBLP-ACM डेटासेट सबसे कम, Company डेटासेट सबसे अधिक
आत्मविश्वास वितरण: मॉडल अत्यधिक उच्च या अत्यधिक निम्न भविष्यवाणी संभावना उत्पन्न करने की प्रवृत्ति रखता है
F1 प्रदर्शन: DBLP-ACM डेटासेट 98% से अधिक तक पहुंचता है, Company डेटासेट लगभग 82%

अंशांकन विधि प्रभाव तुलना

डेटासेट	आधारभूत ECE	तापमान स्केलिंग ECE	MC ड्रॉपआउट ECE	समूह ECE
Abt-Buy	0.0193±0.0018	0.0147±0.0017	0.0193±0.0016	0.0173±0.0005
DBLP-ACM-S	0.0041±0.0010	0.0036±0.0011	0.0038±0.0010	0.0057±0.0023
Company	0.0552±0.0099	0.0424±0.0102	0.0543±0.0085	-

तापमान स्केलिंग सर्वोत्तम प्रदर्शन करता है:

Abt-Buy डेटासेट पर ECE में 23.83% का महत्वपूर्ण कमी
4 डेटासेट पर महत्वपूर्ण सुधार प्राप्त किया
F1 स्कोर प्रदर्शन को प्रभावित नहीं करता

विलोपन प्रयोग

तापमान पैरामीटर विश्लेषण

सर्वोत्तम तापमान मान: आमतौर पर 1.0 से अधिक (औसत 1.72±0.51), यह दर्शाता है कि आधारभूत मॉडल वास्तव में अत्यधिक आत्मविश्वास रखता है
पैरामीटर स्थिरता: प्रत्येक डेटासेट और रन के लिए एक स्पष्ट सर्वोत्तम तापमान मान मौजूद है

ड्रॉपआउट संभावना विश्लेषण

सर्वोत्तम संभावना श्रेणी: 0.5-1.0 के बीच, कुछ डेटासेट 0.8 से भी अधिक
सामान्यीकरण समस्या: विभिन्न डेटासेट के बीच सर्वोत्तम ड्रॉपआउट संभावना में बड़ा परिवर्तन, सामंजस्य की कमी

केस विश्लेषण

आत्मविश्वास हिस्टोग्राम दिखाता है:

सही भविष्यवाणियां: मुख्य रूप से उच्च आत्मविश्वास अंतराल में केंद्रित
गलत भविष्यवाणियां: वितरण अधिक बिखरा हुआ है, लेकिन फिर भी उच्च आत्मविश्वास गलत भविष्यवाणियों का एक महत्वपूर्ण अनुपात है
ओवरलैप समस्या: सही और गलत भविष्यवाणियों के आत्मविश्वास वितरण में महत्वपूर्ण ओवरलैप है, अंशांकन की कमी को दर्शाता है

प्रयोग निष्कर्ष

अत्यधिक आत्मविश्वास सार्वभौमिक है: सभी डेटासेट पर RoBERTa विभिन्न डिग्री में अत्यधिक आत्मविश्वास दिखाता है
तापमान स्केलिंग सबसे प्रभावी है: अन्य विधियों की तुलना में, तापमान स्केलिंग ECE में सुधार के मामले में सर्वोत्तम प्रदर्शन करता है
कम्प्यूटेशनल दक्षता लाभ: तापमान स्केलिंग में सबसे कम कम्प्यूटेशनल ओवरहेड है, तैनाती में आसान
प्रदर्शन संरक्षण: अंशांकन विधियां मूलतः वर्गीकरण प्रदर्शन को प्रभावित नहीं करती हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

अत्यधिक आत्मविश्वास की पुष्टि: RoBERTa इकाई मिलान कार्य में वास्तव में अत्यधिक आत्मविश्वास की समस्या से ग्रस्त है, ECE स्कोर 0.0043-0.0552
तापमान स्केलिंग सर्वोत्तम है: तापमान स्केलिंग सबसे प्रभावी अंशांकन विधि है, ECE को 23.83% तक कम कर सकता है
प्रदर्शन संरक्षण: आत्मविश्वास अंशांकन वर्गीकरण प्रदर्शन को नुकसान नहीं पहुंचाता है
व्यावहारिकता मजबूत: तापमान स्केलिंग विधि सरल और लागू करने में आसान है, वास्तविक तैनाती के लिए उपयुक्त है

सीमाएं

मॉडल आकार सीमा: अनुसंधान अपेक्षाकृत छोटे RoBERTa मॉडल पर केंद्रित है, बड़े आधुनिक LLMs को शामिल नहीं करता है
मूल्यांकन मेट्रिक सीमा: ECE, MCE, RMSCE आदि मेट्रिक्स कुछ परिस्थितियों में अंशांकन गुणवत्ता को सटीक रूप से प्रतिबिंबित नहीं कर सकते हैं
कम्प्यूटेशनल बाधा: कम्प्यूटेशनल सीमाओं के कारण, समूह विधि Company डेटासेट पर पूरी नहीं हुई
विधि एकरूपता: कई अंशांकन विधियों के संयुक्त उपयोग की खोज नहीं की गई है

भविष्य की दिशाएं

बड़े मॉडल विस्तार: अनुसंधान को GPT-4 जैसे बड़े भाषा मॉडल तक विस्तारित करना
विधि संयोजन: तापमान स्केलिंग और अन्य विधियों के संयोजन की खोज, जैसे Ensembles+Temperature Scaling
विचरण उपयोग: मोंटे कार्लो ड्रॉपआउट और समूह विधियों द्वारा उत्पन्न विचरण जानकारी का उपयोग करके अंशांकन में सुधार
नई मूल्यांकन मेट्रिक्स: अंशांकन गुणवत्ता को अधिक सटीक रूप से प्रतिबिंबित करने वाली मूल्यांकन मेट्रिक्स विकसित करना

गहन मूल्यांकन

शक्तियां

उच्च अनुसंधान मूल्य: इकाई मिलान क्षेत्र में आत्मविश्वास अंशांकन अनुसंधान के अंतराल को भरता है
कठोर प्रयोग डिजाइन: बहु-डेटासेट, बहु-विधि, बहु-मेट्रिक की व्यापक तुलना
सांख्यिकीय कठोरता: परिणामों की महत्ता को सत्यापित करने के लिए उपयुक्त सांख्यिकीय परीक्षण का उपयोग
व्यावहारिकता मजबूत: सीधे लागू की जा सकने वाली विधियां और पैरामीटर चयन मार्गदर्शन प्रदान करता है
स्पष्ट लेखन: पेपर संरचना तार्किक है, तकनीकी विवरण सटीक रूप से वर्णित हैं

कमियां

सीमित मॉडल कवरेज: केवल RoBERTa एक मॉडल आर्किटेक्चर का अध्ययन किया गया है
अपर्याप्त सैद्धांतिक विश्लेषण: तापमान स्केलिंग सर्वोत्तम क्यों काम करता है इसकी गहन सैद्धांतिक व्याख्या की कमी है
डेटासेट आकार: कुछ डेटासेट (जैसे iTunes-Amazon) आकार में छोटे हैं, परिणामों की सामान्यीकरण क्षमता को प्रभावित कर सकते हैं
कम्प्यूटेशनल संसाधन सीमा: कुछ प्रयोगों की पूर्णता को प्रभावित करता है

प्रभाव

शैक्षणिक योगदान: इकाई मिलान क्षेत्र में आत्मविश्वास अंशांकन अनुसंधान की महत्वपूर्ण दिशा का परिचय देता है
व्यावहारिक मूल्य: तापमान स्केलिंग विधि सरल और प्रभावी है, वास्तविक सिस्टम में तैनाती में आसान है
पुनरुत्पादनीयता: प्रयोग सेटअप विस्तृत है, पुनरुत्पादन और विस्तार में आसान है
प्रेरणादायक: बाद के अनुसंधान के लिए महत्वपूर्ण आधार और दिशा मार्गदर्शन प्रदान करता है

लागू परिदृश्य

उच्च जोखिम वाले अनुप्रयोग: चिकित्सा रिकॉर्ड मिलान जैसे विश्वसनीय आत्मविश्वास अनुमान की आवश्यकता वाले परिदृश्य
मानव-मशीन सहयोग: मॉडल को अनिश्चितता जानकारी प्रदान करने की आवश्यकता वाले अनुप्रयोग मानव निर्णय में सहायता के लिए
गुणवत्ता नियंत्रण: आत्मविश्वास स्कोर के माध्यम से कठिन नमूनों की पहचान करना जिन्हें मानव समीक्षा की आवश्यकता है
मॉडल अनुकूलन: मॉडल प्रशिक्षण और डेटा संग्रह रणनीति में सुधार के लिए आत्मविश्वास जानकारी का उपयोग

संदर्भ

Guo, C., et al. (2017). On Calibration of Modern Neural Networks. ICML.
Li, Y., et al. (2020). Deep Entity Matching with Pre-Trained Language Models. VLDB.
Desai, S., & Durrett, G. (2020). Calibration of Pre-trained Transformers. EMNLP.
Brunner, U., & Stockinger, K. (2020). Entity Matching with Transformer Architectures. EDBT.
Peeters, R., & Bizer, C. (2024). Entity Matching using Large Language Models. arXiv.

सारांश: यह पेपर इकाई मिलान क्षेत्र में आत्मविश्वास अंशांकन अनुसंधान में महत्वपूर्ण योगदान देता है, विधि तुलना और व्यावहारिक समाधान का व्यवस्थित प्रदान करता है। तापमान स्केलिंग विधि का उत्कृष्ट प्रदर्शन वास्तविक अनुप्रयोग के लिए मूल्यवान मार्गदर्शन प्रदान करता है। हालांकि कुछ सीमाएं हैं, लेकिन यह अनुसंधान बाद के कार्यों के लिए एक ठोस आधार स्थापित करता है, महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखता है।