This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.
- पेपर ID: 2509.19557
- शीर्षक: Confidence Calibration in Large Language Model-Based Entity Matching
- लेखक: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro
- वर्गीकरण: cs.CL cs.LG
- प्रकाशन समय: 15 अक्टूबर 2025 (arXiv v2)
- संस्थान: Bernoulli Institute, University of Groningen, The Netherlands; Independent Researcher
- पेपर लिंक: https://arxiv.org/abs/2509.19557
यह अनुसंधान बड़े भाषा मॉडल और इकाई मिलान में आत्मविश्वास अंशांकन के अंतर-क्षेत्रीय संबंध की खोज करता है। अनुभवजन्य अध्ययन के माध्यम से, इकाई मिलान कार्यों में RoBERTa के आधारभूत आत्मविश्वास की तुलना तापमान स्केलिंग, मोंटे कार्लो ड्रॉपआउट और समूह विधियों के साथ अंशांकित आत्मविश्वास से की गई है। Abt-Buy, DBLP-ACM, iTunes-Amazon और Company डेटासेट का उपयोग करके प्रयोग किए गए। परिणाम दर्शाते हैं कि सुधारे गए RoBERTa मॉडल में हल्का अत्यधिक आत्मविश्वास दिखाई देता है, अपेक्षित अंशांकन त्रुटि (ECE) विभिन्न डेटासेट पर 0.0043 से 0.0552 तक होती है। अनुसंधान से पता चलता है कि तापमान स्केलिंग का उपयोग करके इस अत्यधिक आत्मविश्वास को कम किया जा सकता है, ECE स्कोर को 23.83% तक कम किया जा सकता है।
इकाई मिलान (Entity Matching, EM) इकाई समाधान का एक महत्वपूर्ण उप-कार्य है, जिसका उद्देश्य विभिन्न डेटा स्रोतों से डेटा प्रविष्टि जोड़े को यह निर्धारित करना है कि क्या वे एक ही वास्तविक दुनिया की इकाई की ओर इशारा करते हैं। यह एक द्विआधारी वर्गीकरण समस्या है जिसमें इकाई जोड़े को "मेल खाता है" या "मेल नहीं खाता है" में वर्गीकृत करने की आवश्यकता होती है।
- बहु-क्षेत्रीय अनुप्रयोग मूल्य: चिकित्सा क्षेत्र में रोगी देखभाल में सुधार, ऐतिहासिक जनसंख्या पुनर्निर्माण में जन्म, विवाह और मृत्यु के रिकॉर्ड को जोड़ना, कानून प्रवर्तन में जांच और अपराध रोकथाम के लिए महत्वपूर्ण
- पारदर्शिता की आवश्यकता: मॉडल को भविष्यवाणी परिणाम देने के अलावा विश्वसनीय आत्मविश्वास स्कोर भी प्रदान करने की आवश्यकता है ताकि उपयोगकर्ता मॉडल की विश्वसनीयता को समझ सकें
- डाउनस्ट्रीम कार्य मार्गदर्शन: सटीक आत्मविश्वास स्कोर बाद के कार्यों के निर्णय में मार्गदर्शन कर सकते हैं
- अत्यधिक आत्मविश्वास की समस्या: आधुनिक बड़े भाषा मॉडल अन्य NLP कार्यों में अत्यधिक आत्मविश्वास दिखाते हैं, भविष्यवाणी की अनिश्चितता को सटीक रूप से व्यक्त करना कठिन है
- अनुसंधान अंतराल: हालांकि LLMs आत्मविश्वास अंशांकन के संदर्भ में शोध किया गया है, लेकिन इकाई मिलान क्षेत्र में इसका अनुप्रयोग अभी तक पर्याप्त रूप से अन्वेषित नहीं किया गया है
- व्यवस्थित मूल्यांकन की कमी: इकाई मिलान कार्य के लिए आत्मविश्वास अंशांकन विधियों की व्यवस्थित तुलना अनुसंधान की कमी है
मॉडल भविष्यवाणी पारदर्शिता प्रदान करना, मॉडल के आंतरिक कार्य तंत्र को समझने में सहायता करना, मॉडल की कमजोरियों की पहचान करना और प्रदर्शन में सुधार करना। जब स्पष्ट रूप से पता हो कि मॉडल किन विशिष्ट परिस्थितियों में अनिश्चित है, तो सुधार की दिशा खोजना आसान हो जाता है।
- पहला व्यवस्थित अनुसंधान: इकाई मिलान क्षेत्र में LLMs के आत्मविश्वास अंशांकन का पहला व्यवस्थित अनुसंधान
- कई अंशांकन विधियों की तुलना: तापमान स्केलिंग, मोंटे कार्लो ड्रॉपआउट और समूह विधियों की इकाई मिलान में आत्मविश्वास अंशांकन प्रभाव की व्यापक तुलना
- बहु-डेटासेट सत्यापन: 6 विभिन्न क्षेत्रों और संरचनाओं के डेटासेट पर विधियों की प्रभावशीलता और सामान्यीकरण क्षमता का सत्यापन
- व्यावहारिक मार्गदर्शन: वास्तविक अनुप्रयोग में आत्मविश्वास अंशांकन के लिए सर्वोत्तम प्रथाओं की सिफारिशें, विशेष रूप से तापमान स्केलिंग विधि के लाभ
- इनपुट: विभिन्न डेटा स्रोतों से इकाई जोड़े
- आउटपुट: द्विआधारी वर्गीकरण लेबल ("मेल खाता है"/"मेल नहीं खाता है") और संबंधित आत्मविश्वास स्कोर
- लक्ष्य: आत्मविश्वास स्कोर को भविष्यवाणी की सटीकता की वास्तविक संभावना को सटीक रूप से प्रतिबिंबित करना
- पूर्व-प्रशिक्षित RoBERTa: एन्कोडर के रूप में HuggingFace के RoBERTa-base मॉडल का उपयोग
- पूर्ण कनेक्टेड परत: RoBERTa के बाद एकल परत पूर्ण कनेक्टेड नेटवर्क जोड़ना
- Sigmoid आउटपुट परत: 0-1 के बीच आत्मविश्वास स्कोर उत्पन्न करना
- डेटा क्रमबद्धता: Li et al. (2020) की विधि का उपयोग करके संरचित डेटा को पाठ अनुक्रम में परिवर्तित करना
1. तापमान स्केलिंग (Temperature Scaling)
- Sigmoid आउटपुट के बाद तापमान पैरामीटर T के साथ logits को स्केल करना
- सत्यापन सेट पर ग्रिड खोज के माध्यम से तापमान पैरामीटर को अनुकूलित करना: T ∈ {0.1, 0.2, ..., 10.0}
- ECE को न्यूनतम करने वाला तापमान मान चुनना
- लाभ: हल्का, आसानी से लागू करने योग्य, F1 स्कोर को नहीं बदलता
2. मोंटे कार्लो ड्रॉपआउट
- अनुमान समय पर पूर्ण कनेक्टेड परत पर ड्रॉपआउट (संभावना p) लागू करना
- 10 बार फॉरवर्ड प्रचार करना और आउटपुट का औसत लेना
- ग्रिड खोज सर्वोत्तम ड्रॉपआउट संभावना: p ∈ {0.05, 0.10, ..., 0.95}
- F1 स्कोर में कमी न आने की शर्त पर न्यूनतम ECE वाली p मान चुनना
3. समूह विधि
- 5 विभिन्न यादृच्छिक आरंभीकरण के साथ पूर्ण कनेक्टेड परत को प्रशिक्षित करना
- 5 मॉडल के आउटपुट का औसत लेना अंतिम भविष्यवाणी के रूप में
- केवल पूर्ण कनेक्टेड परत और Sigmoid परत पर समूह बनाना कम्प्यूटेशनल लागत को कम करने के लिए
- हल्का कार्यान्वयन: मोंटे कार्लो ड्रॉपआउट और समूह विधियां केवल पूर्ण कनेक्टेड परत पर लागू होती हैं, कम्प्यूटेशनल लागत को कम करती हैं
- बहु-मेट्रिक अनुकूलन: अनुप्रयोग परिदृश्य की आवश्यकताओं के अनुसार, ECE, MCE या RMSCE को अनुकूलित करने का विकल्प
- सांख्यिकीय महत्व सत्यापन: युग्मित t-परीक्षण (तापमान स्केलिंग, मोंटे कार्लो ड्रॉपआउट) और अयुग्मित t-परीक्षण (समूह विधि) का उपयोग करके सुधार की महत्ता का मूल्यांकन
6 विभिन्न क्षेत्रों के इकाई मिलान डेटासेट का उपयोग:
| डेटासेट | क्षेत्र | प्रशिक्षण सेट | सत्यापन सेट | परीक्षण सेट |
|---|
| Abt-Buy | उत्पाद | 5,743 (10.72%) | 1,916 (10.75%) | 1,916 (10.75%) |
| DBLP-ACM-S/D | उद्धरण | 7,417 (17.96%) | 2,473 (17.96%) | 2,473 (17.96%) |
| iTunes-Amazon-S/D | गीत | 321 (24.30%) | 109 (27.78%) | 109 (27.78%) |
| Company | कंपनी | 67,596 (24.94%) | 22,533 (25.30%) | 22,503 (25.06%) |
नोट: S/D संरचित/गंदे डेटा संस्करण को दर्शाता है, कोष्ठक में सकारात्मक नमूनों का अनुपात है
- अपेक्षित अंशांकन त्रुटि (ECE): मुख्य मेट्रिक, भविष्यवाणी संभावना और अनुभवजन्य संभावना के बीच औसत अंतर को मापता है
- अधिकतम अंशांकन त्रुटि (MCE): सबसे खराब स्थिति में विचलन को मापता है, उच्च जोखिम वाले अनुप्रयोगों के लिए उपयुक्त
- मूल माध्य वर्ग अंशांकन त्रुटि (RMSCE): बड़ी त्रुटियों के प्रभाव पर अधिक जोर देता है
- F1 स्कोर: यह सुनिश्चित करना कि अंशांकन सुधार वर्गीकरण प्रदर्शन की कीमत पर न हो
- दृश्य विश्लेषण: आत्मविश्वास हिस्टोग्राम और विश्वसनीयता ग्राफ
- आधारभूत विधि: अंशांकित RoBERTa Sigmoid आउटपुट
- अंशांकन विधियां: तापमान स्केलिंग, मोंटे कार्लो ड्रॉपआउट, समूह विधि
- प्रशिक्षण दौर: 40 दौर (Li et al. 2020 की सेटिंग का पालन)
- मॉडल चयन: सत्यापन सेट F1 स्कोर सर्वोच्च चेकपॉइंट चुनना
- दोहराए गए प्रयोग: प्रत्येक प्रयोग 5 बार दोहराया गया और माध्य और मानक विचलन की रिपोर्ट की गई
- बिनिंग संख्या: √|D| (D डेटासेट का आकार है)
RoBERTa मॉडल सभी डेटासेट पर हल्का अत्यधिक आत्मविश्वास दिखाता है:
- ECE श्रेणी: 0.0043-0.0552, DBLP-ACM डेटासेट सबसे कम, Company डेटासेट सबसे अधिक
- आत्मविश्वास वितरण: मॉडल अत्यधिक उच्च या अत्यधिक निम्न भविष्यवाणी संभावना उत्पन्न करने की प्रवृत्ति रखता है
- F1 प्रदर्शन: DBLP-ACM डेटासेट 98% से अधिक तक पहुंचता है, Company डेटासेट लगभग 82%
| डेटासेट | आधारभूत ECE | तापमान स्केलिंग ECE | MC ड्रॉपआउट ECE | समूह ECE |
|---|
| Abt-Buy | 0.0193±0.0018 | 0.0147±0.0017 | 0.0193±0.0016 | 0.0173±0.0005 |
| DBLP-ACM-S | 0.0041±0.0010 | 0.0036±0.0011 | 0.0038±0.0010 | 0.0057±0.0023 |
| Company | 0.0552±0.0099 | 0.0424±0.0102 | 0.0543±0.0085 | - |
तापमान स्केलिंग सर्वोत्तम प्रदर्शन करता है:
- Abt-Buy डेटासेट पर ECE में 23.83% का महत्वपूर्ण कमी
- 4 डेटासेट पर महत्वपूर्ण सुधार प्राप्त किया
- F1 स्कोर प्रदर्शन को प्रभावित नहीं करता
- सर्वोत्तम तापमान मान: आमतौर पर 1.0 से अधिक (औसत 1.72±0.51), यह दर्शाता है कि आधारभूत मॉडल वास्तव में अत्यधिक आत्मविश्वास रखता है
- पैरामीटर स्थिरता: प्रत्येक डेटासेट और रन के लिए एक स्पष्ट सर्वोत्तम तापमान मान मौजूद है
- सर्वोत्तम संभावना श्रेणी: 0.5-1.0 के बीच, कुछ डेटासेट 0.8 से भी अधिक
- सामान्यीकरण समस्या: विभिन्न डेटासेट के बीच सर्वोत्तम ड्रॉपआउट संभावना में बड़ा परिवर्तन, सामंजस्य की कमी
आत्मविश्वास हिस्टोग्राम दिखाता है:
- सही भविष्यवाणियां: मुख्य रूप से उच्च आत्मविश्वास अंतराल में केंद्रित
- गलत भविष्यवाणियां: वितरण अधिक बिखरा हुआ है, लेकिन फिर भी उच्च आत्मविश्वास गलत भविष्यवाणियों का एक महत्वपूर्ण अनुपात है
- ओवरलैप समस्या: सही और गलत भविष्यवाणियों के आत्मविश्वास वितरण में महत्वपूर्ण ओवरलैप है, अंशांकन की कमी को दर्शाता है
- अत्यधिक आत्मविश्वास सार्वभौमिक है: सभी डेटासेट पर RoBERTa विभिन्न डिग्री में अत्यधिक आत्मविश्वास दिखाता है
- तापमान स्केलिंग सबसे प्रभावी है: अन्य विधियों की तुलना में, तापमान स्केलिंग ECE में सुधार के मामले में सर्वोत्तम प्रदर्शन करता है
- कम्प्यूटेशनल दक्षता लाभ: तापमान स्केलिंग में सबसे कम कम्प्यूटेशनल ओवरहेड है, तैनाती में आसान
- प्रदर्शन संरक्षण: अंशांकन विधियां मूलतः वर्गीकरण प्रदर्शन को प्रभावित नहीं करती हैं
- BERT श्रृंखला मॉडल: Brunner और Stockinger (2020) ने पाया कि BERT, RoBERTa आदि मॉडल पारंपरिक विधियों की तुलना में F1 में 35.9% सुधार लाते हैं
- DITTO सिस्टम: Li et al. (2020) LLMs को अनुकूलन तकनीकों के साथ जोड़ने वाली इकाई मिलान प्रणाली
- डिकोडर मॉडल: GPT-3, ChatGPT, GPT-4 इकाई मिलान में अनुप्रयोग अनुसंधान
- प्रारंभिक खोज: Guo et al. (2017) ने आधुनिक तंत्रिका नेटवर्क में व्यापक अंशांकन समस्या की खोज की
- BERT/RoBERTa अनुसंधान: Desai और Durrett (2020), Xiao et al. (2022) कई NLP कार्यों पर अंशांकन अनुसंधान
- अंशांकन विधियां: तापमान स्केलिंग, मोंटे कार्लो ड्रॉपआउट, समूह विधि का विकास इतिहास
- क्षेत्र प्रथम: पहली बार आत्मविश्वास अंशांकन को इकाई मिलान कार्य पर व्यवस्थित रूप से लागू किया
- विधि तुलना: कई अंशांकन विधियों के प्रभाव की व्यापक तुलना
- व्यावहारिक मार्गदर्शन: वास्तविक अनुप्रयोग के लिए सर्वोत्तम प्रथाओं की सिफारिशें
- अत्यधिक आत्मविश्वास की पुष्टि: RoBERTa इकाई मिलान कार्य में वास्तव में अत्यधिक आत्मविश्वास की समस्या से ग्रस्त है, ECE स्कोर 0.0043-0.0552
- तापमान स्केलिंग सर्वोत्तम है: तापमान स्केलिंग सबसे प्रभावी अंशांकन विधि है, ECE को 23.83% तक कम कर सकता है
- प्रदर्शन संरक्षण: आत्मविश्वास अंशांकन वर्गीकरण प्रदर्शन को नुकसान नहीं पहुंचाता है
- व्यावहारिकता मजबूत: तापमान स्केलिंग विधि सरल और लागू करने में आसान है, वास्तविक तैनाती के लिए उपयुक्त है
- मॉडल आकार सीमा: अनुसंधान अपेक्षाकृत छोटे RoBERTa मॉडल पर केंद्रित है, बड़े आधुनिक LLMs को शामिल नहीं करता है
- मूल्यांकन मेट्रिक सीमा: ECE, MCE, RMSCE आदि मेट्रिक्स कुछ परिस्थितियों में अंशांकन गुणवत्ता को सटीक रूप से प्रतिबिंबित नहीं कर सकते हैं
- कम्प्यूटेशनल बाधा: कम्प्यूटेशनल सीमाओं के कारण, समूह विधि Company डेटासेट पर पूरी नहीं हुई
- विधि एकरूपता: कई अंशांकन विधियों के संयुक्त उपयोग की खोज नहीं की गई है
- बड़े मॉडल विस्तार: अनुसंधान को GPT-4 जैसे बड़े भाषा मॉडल तक विस्तारित करना
- विधि संयोजन: तापमान स्केलिंग और अन्य विधियों के संयोजन की खोज, जैसे Ensembles+Temperature Scaling
- विचरण उपयोग: मोंटे कार्लो ड्रॉपआउट और समूह विधियों द्वारा उत्पन्न विचरण जानकारी का उपयोग करके अंशांकन में सुधार
- नई मूल्यांकन मेट्रिक्स: अंशांकन गुणवत्ता को अधिक सटीक रूप से प्रतिबिंबित करने वाली मूल्यांकन मेट्रिक्स विकसित करना
- उच्च अनुसंधान मूल्य: इकाई मिलान क्षेत्र में आत्मविश्वास अंशांकन अनुसंधान के अंतराल को भरता है
- कठोर प्रयोग डिजाइन: बहु-डेटासेट, बहु-विधि, बहु-मेट्रिक की व्यापक तुलना
- सांख्यिकीय कठोरता: परिणामों की महत्ता को सत्यापित करने के लिए उपयुक्त सांख्यिकीय परीक्षण का उपयोग
- व्यावहारिकता मजबूत: सीधे लागू की जा सकने वाली विधियां और पैरामीटर चयन मार्गदर्शन प्रदान करता है
- स्पष्ट लेखन: पेपर संरचना तार्किक है, तकनीकी विवरण सटीक रूप से वर्णित हैं
- सीमित मॉडल कवरेज: केवल RoBERTa एक मॉडल आर्किटेक्चर का अध्ययन किया गया है
- अपर्याप्त सैद्धांतिक विश्लेषण: तापमान स्केलिंग सर्वोत्तम क्यों काम करता है इसकी गहन सैद्धांतिक व्याख्या की कमी है
- डेटासेट आकार: कुछ डेटासेट (जैसे iTunes-Amazon) आकार में छोटे हैं, परिणामों की सामान्यीकरण क्षमता को प्रभावित कर सकते हैं
- कम्प्यूटेशनल संसाधन सीमा: कुछ प्रयोगों की पूर्णता को प्रभावित करता है
- शैक्षणिक योगदान: इकाई मिलान क्षेत्र में आत्मविश्वास अंशांकन अनुसंधान की महत्वपूर्ण दिशा का परिचय देता है
- व्यावहारिक मूल्य: तापमान स्केलिंग विधि सरल और प्रभावी है, वास्तविक सिस्टम में तैनाती में आसान है
- पुनरुत्पादनीयता: प्रयोग सेटअप विस्तृत है, पुनरुत्पादन और विस्तार में आसान है
- प्रेरणादायक: बाद के अनुसंधान के लिए महत्वपूर्ण आधार और दिशा मार्गदर्शन प्रदान करता है
- उच्च जोखिम वाले अनुप्रयोग: चिकित्सा रिकॉर्ड मिलान जैसे विश्वसनीय आत्मविश्वास अनुमान की आवश्यकता वाले परिदृश्य
- मानव-मशीन सहयोग: मॉडल को अनिश्चितता जानकारी प्रदान करने की आवश्यकता वाले अनुप्रयोग मानव निर्णय में सहायता के लिए
- गुणवत्ता नियंत्रण: आत्मविश्वास स्कोर के माध्यम से कठिन नमूनों की पहचान करना जिन्हें मानव समीक्षा की आवश्यकता है
- मॉडल अनुकूलन: मॉडल प्रशिक्षण और डेटा संग्रह रणनीति में सुधार के लिए आत्मविश्वास जानकारी का उपयोग
- Guo, C., et al. (2017). On Calibration of Modern Neural Networks. ICML.
- Li, Y., et al. (2020). Deep Entity Matching with Pre-Trained Language Models. VLDB.
- Desai, S., & Durrett, G. (2020). Calibration of Pre-trained Transformers. EMNLP.
- Brunner, U., & Stockinger, K. (2020). Entity Matching with Transformer Architectures. EDBT.
- Peeters, R., & Bizer, C. (2024). Entity Matching using Large Language Models. arXiv.
सारांश: यह पेपर इकाई मिलान क्षेत्र में आत्मविश्वास अंशांकन अनुसंधान में महत्वपूर्ण योगदान देता है, विधि तुलना और व्यावहारिक समाधान का व्यवस्थित प्रदान करता है। तापमान स्केलिंग विधि का उत्कृष्ट प्रदर्शन वास्तविक अनुप्रयोग के लिए मूल्यवान मार्गदर्शन प्रदान करता है। हालांकि कुछ सीमाएं हैं, लेकिन यह अनुसंधान बाद के कार्यों के लिए एक ठोस आधार स्थापित करता है, महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखता है।