Benchmarks are crucial for evaluating machine learning algorithm performance, facilitating comparison and identifying superior solutions. However, biases within datasets can lead models to learn shortcut patterns, resulting in inaccurate assessments and hindering real-world applicability. This paper addresses the issue of entity bias in relation extraction tasks, where models tend to rely on entity mentions rather than context. We propose a debiased relation extraction benchmark DREB that breaks the pseudo-correlation between entity mentions and relation types through entity replacement. DREB utilizes Bias Evaluator and PPL Evaluator to ensure low bias and high naturalness, providing a reliable and accurate assessment of model generalization in entity bias scenarios. To establish a new baseline on DREB, we introduce MixDebias, a debiasing method combining data-level and model training-level techniques. MixDebias effectively improves model performance on DREB while maintaining performance on the original dataset. Extensive experiments demonstrate the effectiveness and robustness of MixDebias compared to existing methods, highlighting its potential for improving the generalization ability of relation extraction models. We will release DREB and MixDebias publicly.
- पेपर ID: 2501.01349
- शीर्षक: Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark
- लेखक: Liang He, Yougang Chu, Zhen Wu, Jianbing Zhang, Xinyu Dai, Jiajun Chen (नानजिंग विश्वविद्यालय)
- वर्गीकरण: cs.AI
- प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.01349
बेंचमार्क डेटासेट मशीन लर्निंग एल्गोरिदम के प्रदर्शन का मूल्यांकन करने के लिए महत्वपूर्ण हैं, लेकिन डेटासेट में पूर्वाग्रह मॉडल को शॉर्टकट पैटर्न सीखने के लिए प्रेरित करते हैं, जिससे अनुचित मूल्यांकन और व्यावहारिक अनुप्रयोग में बाधा आती है। यह पेपर संबंध निष्कर्षण कार्य में इकाई पूर्वाग्रह समस्या को संबोधित करता है, अर्थात् मॉडल संदर्भ के बजाय इकाई उल्लेख पर निर्भर होते हैं। लेखकों ने विकृत संबंध निष्कर्षण बेंचमार्क DREB का प्रस्ताव दिया है, जो इकाई प्रतिस्थापन के माध्यम से इकाई उल्लेख और संबंध प्रकार के बीच छद्म सहसंबंध को तोड़ता है। DREB पूर्वाग्रह मूल्यांकनकर्ता और भ्रम मूल्यांकनकर्ता का उपयोग करके कम पूर्वाग्रह और उच्च प्राकृतिकता सुनिश्चित करता है। DREB पर नई बेसलाइन स्थापित करने के लिए, लेखकों ने MixDebias विधि प्रस्तुत की है, जो डेटा-स्तर और मॉडल प्रशिक्षण-स्तर विकृति तकनीकों को जोड़ती है।
संबंध निष्कर्षण कार्य में गंभीर इकाई पूर्वाग्रह समस्या मौजूद है:
- छद्म सहसंबंध: इकाई उल्लेख और संबंध प्रकार के बीच झूठा सांख्यिकीय सहसंबंध
- शॉर्टकट सीखना: मॉडल संदर्भ जानकारी के बजाय इकाई नामों पर अत्यधिक निर्भर होते हैं
- कमजोर सामान्यीकरण क्षमता: जब इकाइयों को प्रतिस्थापित या हटाया जाता है, तो मॉडल प्रदर्शन में भारी गिरावट आती है
- TACRED डेटासेट में, आधे से अधिक उदाहरण केवल इकाई उल्लेख के माध्यम से सही ढंग से भविष्यवाणी की जा सकती हैं
- LUKE और IRE जैसे SOTA मॉडल इकाई प्रतिस्थापन के बाद F1 स्कोर में 30%-50% की गिरावट दिखाते हैं
- बड़े भाषा मॉडल विरोधाभासी या कम प्रतिनिधित्व वाली संदर्भ जानकारी को नजरअंदाज करते हैं, पूर्वाग्रहपूर्ण पैरामीटरीकृत ज्ञान पर अत्यधिक निर्भर होते हैं
डेटा स्तर:
- मौजूदा विकृति विधियां नए पूर्वाग्रह पेश कर सकती हैं
- Wang आदि की विधि वितरण पूर्वाग्रह का कारण बनती है
- ENTRED की इकाई प्रतिस्थापन में शब्दार्थ बाधा की कमी है
मॉडल स्तर:
- DFL डोमेन-अंतर्गत प्रदर्शन को नुकसान पहुंचा सकता है
- R-Drop इकाई पूर्वाग्रह पर सूक्ष्म-दानेदार नियंत्रण की कमी है
- CoRE की पोस्ट-प्रोसेसिंग प्रकृति प्रशिक्षण के दौरान सीखे गए पूर्वाग्रह को पूरी तरह से समाप्त नहीं कर सकती है
- DREB बेंचमार्क का प्रस्ताव: इकाई पूर्वाग्रह के लिए समर्पित पहला विकृत संबंध निष्कर्षण बेंचमार्क, जो मॉडल को केवल इकाई उल्लेख पर निर्भर होने से रोकता है
- दोहरी मूल्यांकन तंत्र डिजाइन: पूर्वाग्रह मूल्यांकनकर्ता और भ्रम मूल्यांकनकर्ता कम पूर्वाग्रह और उच्च प्राकृतिकता सुनिश्चित करते हैं
- MixDebias विधि विकास: डेटा-स्तर और मॉडल-स्तर विकृति को जोड़ने वाली नई बेसलाइन विधि
- व्यापक प्रायोगिक मूल्यांकन: कई डेटासेट पर विधि की प्रभावशीलता और मजबूती को सत्यापित करना
DREB इकाई प्रतिस्थापन रणनीति के माध्यम से इकाई उल्लेख और संबंध प्रकार के बीच छद्म सहसंबंध को तोड़ता है:
- इकाई प्रतिस्थापन: Wikidata से समान प्रकार की इकाइयों को प्रतिस्थापित करने के लिए क्वेरी करना
- पूर्वाग्रह मूल्यांकन: प्रतिस्थापित नमूनों की पूर्वाग्रह डिग्री का मूल्यांकन करने के लिए तंत्रिका नेटवर्क का उपयोग करना
- प्राकृतिकता सुनिश्चितता: भ्रम मूल्यांकनकर्ता के माध्यम से उत्पन्न नमूनों की प्राकृतिकता सुनिश्चित करना
पूर्वाग्रह मूल्यांकनकर्ता इकाई पूर्वाग्रह के छद्म सहसंबंध को मॉडल करता है:
- विशेषता निष्कर्षण फ़ंक्शन φ(x) इकाई पूर्वाग्रह विशेषताओं को निकालता है
- तंत्रिका नेटवर्क F: φ(x) → y सीधे सहसंबंध को मॉडल करता है
- आउटपुट F(φ(x)) नमूना x के अंतर्निहित पूर्वाग्रह को प्रतिबिंबित करता है
उत्पन्न नमूनों की प्राकृतिकता सुनिश्चित करने के लिए GPT-2 का उपयोग करके नमूना भ्रम की गणना करना:
logPPL(W)=−n1∑i=1nlogP(wi∣w1,...,wi−1)
सबसे कम भ्रम वाले नमूनों को अंतिम उत्पन्न नमूनों के रूप में चुना जाता है।
इकाई प्रतिस्थापन के माध्यम से संवर्धित नमूने उत्पन्न करना, KL विचलन बाधा का उपयोग करना:
LRDA=21(DKL(P∣∣Paug)+DKL(Paug∣∣P))
जहां P और P_aug क्रमशः मूल नमूने और संवर्धित नमूनों की संभाव्यता वितरण हैं।
इकाई पूर्वाग्रह की पहचान और परिमाणन के लिए कारणात्मक प्रभाव अनुमान का उपयोग करना:
- पूर्वाग्रह संभाव्यता अनुमान: Pbias=P−λPcontext
- विकृत फोकल हानि: LCDA=−(1−Pbiasj)logPj
LMixDebias=LCDA+βLRDA
=−(1−(Pj−λPcontextj))logPj+2β(DKL(P∣∣Paug)+DKL(Paug∣∣P))
- दोहरी गुणवत्ता नियंत्रण: पूर्वाग्रह डिग्री और प्राकृतिकता दोनों पर विचार करना
- वितरण संरक्षण: DREB मूल डेटासेट के समान संबंध वितरण को बनाए रखता है
- बहु-स्तरीय विकृति: डेटा-स्तर और मॉडल-स्तर विधियों का जैविक संयोजन
- गतिशील संवर्धन: प्रशिक्षण के समय गतिशील रूप से संवर्धित नमूने उत्पन्न करना
- TACRED: व्यापक रूप से उपयोग किया जाने वाला संबंध निष्कर्षण डेटासेट
- TACREV: TACRED का संशोधित संस्करण, एनोटेशन और शोर समस्याओं को हल करता है
- Re-TACRED: संबंध प्रकारों को पुनः डिजाइन किया गया डेटासेट
- F1 स्कोर: सटीकता और रिकॉल का हार्मोनिक माध्य
- पूर्वाग्रह शमन दक्षता (BME):
BME=α⋅F1~originF1origin+(1−α)⋅F1~DREBF1DREB
जहां α=0.5
आधार मॉडल:
- LUKE: Transformer-आधारित इकाई-जागरूक मॉडल
- IRE: टाइप किए गए इकाई टैग पेश करने वाली सुधारी गई बेसलाइन
विकृति विधियां:
- Focal Loss: सरल नमूनों के प्रभाव को कम करना
- R-Drop: ड्रॉपआउट सामंजस्य के माध्यम से सामान्यीकरण में सुधार
- DFL: पूर्वाग्रह मॉडल के आधार पर हानि फ़ंक्शन समायोजन
- PoE: विशेषज्ञ उत्पाद मॉडल
- CoRE: कारणात्मक ग्राफ विकृति विधि
- हाइपरपैरामीटर β∈0.0,1.0, λ∈-0.6,0.6
- इष्टतम सेटिंग: β=0.8, λ=0.2
- मानक संबंध निष्कर्षण प्रशिक्षण प्रवाह का उपयोग करना
| मॉडल | TACRED | | TACREV | | Re-TACRED | |
|---|
| F1_origin | F1_DREB | F1_origin | F1_DREB | F1_origin | F1_DREB |
| LUKE | 70.82 | 44.40 | 80.16 | 50.60 | 88.92 | 39.40 |
| +MixDebias | 69.93 | 62.44 | 80.91 | 72.93 | 87.95 | 77.71 |
| IRE | 71.27 | 50.94 | 79.36 | 57.20 | 87.43 | 46.25 |
| +MixDebias | 71.99 | 70.02 | 80.97 | 79.15 | 87.27 | 82.17 |
- महत्वपूर्ण प्रदर्शन सुधार: MixDebias DREB पर सबसे महत्वपूर्ण प्रदर्शन सुधार दिखाता है, F1 स्कोर में 15-40 प्रतिशत अंक की वृद्धि
- मूल प्रदर्शन संरक्षण: मूल डेटासेट पर प्रदर्शन को बनाए रखना या थोड़ा सुधार करना
- BME मेट्रिक नेतृत्व: व्यापक मूल्यांकन मेट्रिक BME पर अन्य विधियों से बहुत आगे
- सुसंगत प्रदर्शन: तीनों डेटासेट पर उत्कृष्ट प्रदर्शन
| घटक | TACRED | | TACREV | | Re-TACRED | |
|---|
| F1_origin | F1_DREB | F1_origin | F1_DREB | F1_origin | F1_DREB |
| पूर्ण MixDebias | 69.93 | 62.44 | 80.91 | 72.93 | 87.95 | 77.71 |
| -CDA | 69.66 | 62.06 | 80.63 | 71.99 | 88.45 | 78.26 |
| -RDA | 69.68 | 45.77 | 79.32 | 51.91 | 88.69 | 39.72 |
मुख्य अंतर्दृष्टि:
- RDA अधिक महत्वपूर्ण घटक है, हटाने के बाद प्रदर्शन में भारी गिरावट आती है
- CDA पूरक प्रभाव प्रदान करता है, विकृति प्रभाव को और अनुकूलित करता है
- दोनों घटक एक दूसरे को पूरक करते हैं, सर्वोत्तम प्रदर्शन को साकार करते हैं
- β पैरामीटर: KL विचलन वजन को नियंत्रित करता है, β=0.8 पर सर्वोत्तम प्रभाव
- λ पैरामीटर: कारणात्मक प्रभाव अनुमान को नियंत्रित करता है, λ=0.2 पर इष्टतम प्राप्त करता है
- शोर डेटासेट (TACRED, TACREV) पर, उपयुक्त β मान मूल डेटासेट प्रदर्शन को भी बेहतर बना सकता है
केवल इकाई इनपुट सेटिंग के लेबल संभाव्यता वितरण दृश्य के माध्यम से:
- बेसलाइन मॉडल संभाव्यता 1 के पास केंद्रित है
- MixDebias के बाद संभाव्यता वितरण अधिक समान है
- इकाई उल्लेख और संबंध प्रकार के बीच छद्म सहसंबंध में महत्वपूर्ण कमी
- Wang आदि की फ़िल्टर मूल्यांकन सेटिंग
- ENTRED की प्रकार बाधा और यादृच्छिक इकाई प्रतिस्थापन
- वितरण पूर्वाग्रह और शब्दार्थ बाधा अपर्याप्तता समस्याएं
- DFL की हानि फ़ंक्शन समायोजन
- R-Drop का आउटपुट वितरण सामंजस्य
- CoRE की कारणात्मक ग्राफ विधि
- मूल प्रदर्शन संरक्षण और विकृति प्रभाव के बीच प्रत्येक विधि का व्यापार-बंद
- पहला समर्पित विकृति बेंचमार्क
- डेटा और मॉडल स्तर की व्यापक विधि
- कठोर गुणवत्ता नियंत्रण तंत्र
- DREB बेंचमार्क प्रभावशीलता: इकाई उल्लेख और संबंध प्रकार के बीच छद्म सहसंबंध को सफलतापूर्वक तोड़ता है
- MixDebias विधि श्रेष्ठता: विकृति प्रभाव और मूल प्रदर्शन संरक्षण के बीच सर्वोत्तम संतुलन प्राप्त करता है
- इकाई पूर्वाग्रह सार्वभौमिकता: मौजूदा SOTA मॉडल में आमतौर पर गंभीर इकाई पूर्वाग्रह समस्याएं होती हैं
- कम्प्यूटेशनल ओवरहेड: गतिशील रूप से संवर्धित नमूने उत्पन्न करना प्रशिक्षण समय बढ़ाता है
- इकाई संसाधन निर्भरता: बाहरी ज्ञान आधार (Wikidata) समर्थन की आवश्यकता है
- भाषा सीमा: मुख्य रूप से अंग्रेजी डेटासेट पर सत्यापित
- संबंध प्रकार कवरेज: केवल वाक्य-स्तरीय संबंध निष्कर्षण पर परीक्षण किया गया
- क्रॉस-भाषा विस्तार: विधि को अन्य भाषाओं में विस्तारित करना
- दस्तावेज-स्तरीय संबंध निष्कर्षण: अधिक जटिल संबंध निष्कर्षण परिदृश्यों को अनुकूलित करना
- कम्प्यूटेशनल दक्षता अनुकूलन: प्रशिक्षण के दौरान कम्प्यूटेशनल ओवरहेड को कम करना
- सैद्धांतिक विश्लेषण: गहन सैद्धांतिक गारंटी प्रदान करना
- समस्या पहचान सटीकता: संबंध निष्कर्षण में इकाई पूर्वाग्रह समस्या को सटीक रूप से पहचानना और परिमाणन करना
- विधि डिजाइन तर्कसंगतता: दोहरी मूल्यांकन तंत्र बेंचमार्क गुणवत्ता सुनिश्चित करता है, बहु-स्तरीय विकृति रणनीति वैज्ञानिक रूप से प्रभावी है
- प्रायोगिक डिजाइन कठोरता: व्यापक तुलनात्मक प्रयोग, विलोपन अध्ययन और दृश्य विश्लेषण
- बेंचमार्क योगदान: DREB संबंध निष्कर्षण विकृति मूल्यांकन में अंतराल को भरता है
- विधि नवाचार: MixDebias नई विकृति प्रतिमा प्रदान करता है
- अनुभवजन्य मूल्य: मौजूदा विधियों की सीमाओं को प्रकट करता है, बाद के अनुसंधान के लिए दिशा प्रदान करता है
- बहु-डेटासेट सत्यापन: तीन मुख्य डेटासेट पर सत्यापन
- बहु-कोण विश्लेषण: प्रदर्शन तुलना, विलोपन अध्ययन, हाइपरपैरामीटर विश्लेषण, दृश्य आदि
- सांख्यिकीय महत्व: परिणाम सांख्यिकीय रूप से महत्वपूर्ण हैं
- कम्प्यूटेशनल जटिलता: प्रशिक्षण के समय गतिशील रूप से संवर्धित नमूने उत्पन्न करने की आवश्यकता है, कम्प्यूटेशनल ओवरहेड बढ़ाता है
- बाहरी निर्भरता: Wikidata जैसे बाहरी संसाधनों पर निर्भर है, विधि की सार्वभौमिकता को प्रभावित कर सकता है
- हाइपरपैरामीटर संवेदनशीलता: β और λ पैरामीटर को सावधानीपूर्वक ट्यून करने की आवश्यकता है
- भाषा एकलता: केवल अंग्रेजी डेटासेट पर सत्यापन, क्रॉस-भाषा सत्यापन की कमी
- कार्य रेंज सीमा: केवल वाक्य-स्तरीय संबंध निष्कर्षण पर विचार करता है
- बेसलाइन चयन: अधिक नवीनतम विकृति विधियों को तुलना में शामिल किया जा सकता है
- सैद्धांतिक गारंटी की कमी: विधि प्रभावशीलता का सैद्धांतिक विश्लेषण की कमी
- अभिसरण विश्लेषण: हानि फ़ंक्शन के अभिसरण की गारंटी प्रदान नहीं की गई
- सामान्यीकरण सीमा: सामान्यीकरण क्षमता की सैद्धांतिक सीमा विश्लेषण की कमी
- अग्रणी कार्य: संबंध निष्कर्षण विकृति क्षेत्र में अग्रणी महत्व है
- बेंचमार्क मूल्य: DREB इस क्षेत्र का मानक मूल्यांकन बेंचमार्क बनने की संभावना है
- विधि प्रेरणा: बाद के विकृति अनुसंधान के लिए नई सोच प्रदान करता है
- औद्योगिक अनुप्रयोग: संबंध निष्कर्षण प्रणाली के वास्तविक तैनाती प्रभाव में सुधार के लिए महत्वपूर्ण है
- निष्पक्षता सुधार: NLP प्रणाली में पूर्वाग्रह समस्याओं को कम करने में सहायता करता है
- पुनरुत्पादनीयता: लेखकों ने कोड और डेटा सार्वजनिक करने का वचन दिया है
- संबंध निष्कर्षण प्रणाली मूल्यांकन: संबंध निष्कर्षण मॉडल के लिए अधिक विश्वसनीय मूल्यांकन प्रदान करता है
- विकृति विधि विकास: नई विकृति विधियों को विकसित करने के लिए परीक्षण मंच प्रदान करता है
- निष्पक्ष AI अनुसंधान: निष्पक्ष AI अनुसंधान के लिए ठोस केस और उपकरण प्रदान करता है
पेपर संबंध निष्कर्षण और विकृति क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
- TACRED श्रृंखला डेटासेट (Zhang et al., 2017; Alt et al., 2020; Stoica et al., 2021)
- इकाई पूर्वाग्रह संबंधित अनुसंधान (Wang et al., 2022, 2023; Peng et al., 2020)
- विकृति विधियां (Mahabadi et al., 2020; Liang et al., 2021)
- आधार मॉडल (Yamada et al., 2020; Zhou & Chen, 2022)
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो संबंध निष्कर्षण में एक महत्वपूर्ण समस्या को सटीक रूप से पहचानता है और प्रभावी ढंग से हल करता है। DREB बेंचमार्क और MixDebias विधि दोनों में मजबूत नवाचार और व्यावहारिक मूल्य है। हालांकि कुछ सीमाएं हैं, लेकिन इसका योगदान महत्वपूर्ण है और संबंध निष्कर्षण विकृति अनुसंधान के विकास को आगे बढ़ाने की संभावना है।