2025-11-20T05:28:14.865591

Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark

He, Chu, Wu et al.

Benchmarks are crucial for evaluating machine learning algorithm performance, facilitating comparison and identifying superior solutions. However, biases within datasets can lead models to learn shortcut patterns, resulting in inaccurate assessments and hindering real-world applicability. This paper addresses the issue of entity bias in relation extraction tasks, where models tend to rely on entity mentions rather than context. We propose a debiased relation extraction benchmark DREB that breaks the pseudo-correlation between entity mentions and relation types through entity replacement. DREB utilizes Bias Evaluator and PPL Evaluator to ensure low bias and high naturalness, providing a reliable and accurate assessment of model generalization in entity bias scenarios. To establish a new baseline on DREB, we introduce MixDebias, a debiasing method combining data-level and model training-level techniques. MixDebias effectively improves model performance on DREB while maintaining performance on the original dataset. Extensive experiments demonstrate the effectiveness and robustness of MixDebias compared to existing methods, highlighting its potential for improving the generalization ability of relation extraction models. We will release DREB and MixDebias publicly.

academic

संबंध निष्कर्षण पुनर्विचार: विकृत बेंचमार्क के साथ सामान्यीकरण के लिए शॉर्टकट से परे

मूल जानकारी

पेपर ID: 2501.01349
शीर्षक: Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark
लेखक: Liang He, Yougang Chu, Zhen Wu, Jianbing Zhang, Xinyu Dai, Jiajun Chen (नानजिंग विश्वविद्यालय)
वर्गीकरण: cs.AI
प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2501.01349

सारांश

बेंचमार्क डेटासेट मशीन लर्निंग एल्गोरिदम के प्रदर्शन का मूल्यांकन करने के लिए महत्वपूर्ण हैं, लेकिन डेटासेट में पूर्वाग्रह मॉडल को शॉर्टकट पैटर्न सीखने के लिए प्रेरित करते हैं, जिससे अनुचित मूल्यांकन और व्यावहारिक अनुप्रयोग में बाधा आती है। यह पेपर संबंध निष्कर्षण कार्य में इकाई पूर्वाग्रह समस्या को संबोधित करता है, अर्थात् मॉडल संदर्भ के बजाय इकाई उल्लेख पर निर्भर होते हैं। लेखकों ने विकृत संबंध निष्कर्षण बेंचमार्क DREB का प्रस्ताव दिया है, जो इकाई प्रतिस्थापन के माध्यम से इकाई उल्लेख और संबंध प्रकार के बीच छद्म सहसंबंध को तोड़ता है। DREB पूर्वाग्रह मूल्यांकनकर्ता और भ्रम मूल्यांकनकर्ता का उपयोग करके कम पूर्वाग्रह और उच्च प्राकृतिकता सुनिश्चित करता है। DREB पर नई बेसलाइन स्थापित करने के लिए, लेखकों ने MixDebias विधि प्रस्तुत की है, जो डेटा-स्तर और मॉडल प्रशिक्षण-स्तर विकृति तकनीकों को जोड़ती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

संबंध निष्कर्षण कार्य में गंभीर इकाई पूर्वाग्रह समस्या मौजूद है:

छद्म सहसंबंध: इकाई उल्लेख और संबंध प्रकार के बीच झूठा सांख्यिकीय सहसंबंध
शॉर्टकट सीखना: मॉडल संदर्भ जानकारी के बजाय इकाई नामों पर अत्यधिक निर्भर होते हैं
कमजोर सामान्यीकरण क्षमता: जब इकाइयों को प्रतिस्थापित या हटाया जाता है, तो मॉडल प्रदर्शन में भारी गिरावट आती है

समस्या की महत्ता

TACRED डेटासेट में, आधे से अधिक उदाहरण केवल इकाई उल्लेख के माध्यम से सही ढंग से भविष्यवाणी की जा सकती हैं
LUKE और IRE जैसे SOTA मॉडल इकाई प्रतिस्थापन के बाद F1 स्कोर में 30%-50% की गिरावट दिखाते हैं
बड़े भाषा मॉडल विरोधाभासी या कम प्रतिनिधित्व वाली संदर्भ जानकारी को नजरअंदाज करते हैं, पूर्वाग्रहपूर्ण पैरामीटरीकृत ज्ञान पर अत्यधिक निर्भर होते हैं

मौजूदा विधियों की सीमाएं

डेटा स्तर:

मौजूदा विकृति विधियां नए पूर्वाग्रह पेश कर सकती हैं
Wang आदि की विधि वितरण पूर्वाग्रह का कारण बनती है
ENTRED की इकाई प्रतिस्थापन में शब्दार्थ बाधा की कमी है

मॉडल स्तर:

DFL डोमेन-अंतर्गत प्रदर्शन को नुकसान पहुंचा सकता है
R-Drop इकाई पूर्वाग्रह पर सूक्ष्म-दानेदार नियंत्रण की कमी है
CoRE की पोस्ट-प्रोसेसिंग प्रकृति प्रशिक्षण के दौरान सीखे गए पूर्वाग्रह को पूरी तरह से समाप्त नहीं कर सकती है

मुख्य योगदान

DREB बेंचमार्क का प्रस्ताव: इकाई पूर्वाग्रह के लिए समर्पित पहला विकृत संबंध निष्कर्षण बेंचमार्क, जो मॉडल को केवल इकाई उल्लेख पर निर्भर होने से रोकता है
दोहरी मूल्यांकन तंत्र डिजाइन: पूर्वाग्रह मूल्यांकनकर्ता और भ्रम मूल्यांकनकर्ता कम पूर्वाग्रह और उच्च प्राकृतिकता सुनिश्चित करते हैं
MixDebias विधि विकास: डेटा-स्तर और मॉडल-स्तर विकृति को जोड़ने वाली नई बेसलाइन विधि
व्यापक प्रायोगिक मूल्यांकन: कई डेटासेट पर विधि की प्रभावशीलता और मजबूती को सत्यापित करना

विधि विवरण

DREB बेंचमार्क निर्माण

समग्र आर्किटेक्चर

DREB इकाई प्रतिस्थापन रणनीति के माध्यम से इकाई उल्लेख और संबंध प्रकार के बीच छद्म सहसंबंध को तोड़ता है:

इकाई प्रतिस्थापन: Wikidata से समान प्रकार की इकाइयों को प्रतिस्थापित करने के लिए क्वेरी करना
पूर्वाग्रह मूल्यांकन: प्रतिस्थापित नमूनों की पूर्वाग्रह डिग्री का मूल्यांकन करने के लिए तंत्रिका नेटवर्क का उपयोग करना
प्राकृतिकता सुनिश्चितता: भ्रम मूल्यांकनकर्ता के माध्यम से उत्पन्न नमूनों की प्राकृतिकता सुनिश्चित करना

पूर्वाग्रह मूल्यांकनकर्ता

पूर्वाग्रह मूल्यांकनकर्ता इकाई पूर्वाग्रह के छद्म सहसंबंध को मॉडल करता है:

विशेषता निष्कर्षण फ़ंक्शन φ(x) इकाई पूर्वाग्रह विशेषताओं को निकालता है
तंत्रिका नेटवर्क F: φ(x) → y सीधे सहसंबंध को मॉडल करता है
आउटपुट F(φ(x)) नमूना x के अंतर्निहित पूर्वाग्रह को प्रतिबिंबित करता है

भ्रम मूल्यांकनकर्ता

उत्पन्न नमूनों की प्राकृतिकता सुनिश्चित करने के लिए GPT-2 का उपयोग करके नमूना भ्रम की गणना करना:

$\log PPL(W) = -\frac{1}{n}\sum_{i=1}^{n}\log P(w_i|w_1,...,w_{i-1})$

सबसे कम भ्रम वाले नमूनों को अंतिम उत्पन्न नमूनों के रूप में चुना जाता है।

MixDebias विकृति विधि

डेटा-स्तर विकृति (RDA)

इकाई प्रतिस्थापन के माध्यम से संवर्धित नमूने उत्पन्न करना, KL विचलन बाधा का उपयोग करना:

$L_{RDA} = \frac{1}{2}(D_{KL}(P||P_{aug}) + D_{KL}(P_{aug}||P))$

जहां P और P_aug क्रमशः मूल नमूने और संवर्धित नमूनों की संभाव्यता वितरण हैं।

मॉडल-स्तर विकृति (CDA)

इकाई पूर्वाग्रह की पहचान और परिमाणन के लिए कारणात्मक प्रभाव अनुमान का उपयोग करना:

पूर्वाग्रह संभाव्यता अनुमान: $P_{bias} = P - \lambda P_{context}$
विकृत फोकल हानि: $L_{CDA} = -(1-P_{bias}^j)\log P^j$

संयुक्त हानि फ़ंक्शन

$L_{MixDebias} = L_{CDA} + \beta L_{RDA}$

$= -(1-(P^j-\lambda P_{context}^j))\log P^j + \frac{\beta}{2}(D_{KL}(P||P_{aug}) + D_{KL}(P_{aug}||P))$

तकनीकी नवाचार बिंदु

दोहरी गुणवत्ता नियंत्रण: पूर्वाग्रह डिग्री और प्राकृतिकता दोनों पर विचार करना
वितरण संरक्षण: DREB मूल डेटासेट के समान संबंध वितरण को बनाए रखता है
बहु-स्तरीय विकृति: डेटा-स्तर और मॉडल-स्तर विधियों का जैविक संयोजन
गतिशील संवर्धन: प्रशिक्षण के समय गतिशील रूप से संवर्धित नमूने उत्पन्न करना

प्रायोगिक सेटअप

डेटासेट

TACRED: व्यापक रूप से उपयोग किया जाने वाला संबंध निष्कर्षण डेटासेट
TACREV: TACRED का संशोधित संस्करण, एनोटेशन और शोर समस्याओं को हल करता है
Re-TACRED: संबंध प्रकारों को पुनः डिजाइन किया गया डेटासेट

मूल्यांकन मेट्रिक्स

F1 स्कोर: सटीकता और रिकॉल का हार्मोनिक माध्य
पूर्वाग्रह शमन दक्षता (BME): $BME = \alpha \cdot \frac{F1_{origin}}{\tilde{F1}_{origin}} + (1-\alpha) \cdot \frac{F1_{DREB}}{\tilde{F1}_{DREB}}$ जहां α=0.5

तुलना विधियां

आधार मॉडल:

LUKE: Transformer-आधारित इकाई-जागरूक मॉडल
IRE: टाइप किए गए इकाई टैग पेश करने वाली सुधारी गई बेसलाइन

विकृति विधियां:

Focal Loss: सरल नमूनों के प्रभाव को कम करना
R-Drop: ड्रॉपआउट सामंजस्य के माध्यम से सामान्यीकरण में सुधार
DFL: पूर्वाग्रह मॉडल के आधार पर हानि फ़ंक्शन समायोजन
PoE: विशेषज्ञ उत्पाद मॉडल
CoRE: कारणात्मक ग्राफ विकृति विधि

कार्यान्वयन विवरण

हाइपरपैरामीटर β∈0.0,1.0, λ∈-0.6,0.6
इष्टतम सेटिंग: β=0.8, λ=0.2
मानक संबंध निष्कर्षण प्रशिक्षण प्रवाह का उपयोग करना

प्रायोगिक परिणाम

मुख्य परिणाम

मॉडल	TACRED		TACREV		Re-TACRED
	F1_origin	F1_DREB	F1_origin	F1_DREB	F1_origin	F1_DREB
LUKE	70.82	44.40	80.16	50.60	88.92	39.40
+MixDebias	69.93	62.44	80.91	72.93	87.95	77.71
IRE	71.27	50.94	79.36	57.20	87.43	46.25
+MixDebias	71.99	70.02	80.97	79.15	87.27	82.17

मुख्य निष्कर्ष

महत्वपूर्ण प्रदर्शन सुधार: MixDebias DREB पर सबसे महत्वपूर्ण प्रदर्शन सुधार दिखाता है, F1 स्कोर में 15-40 प्रतिशत अंक की वृद्धि
मूल प्रदर्शन संरक्षण: मूल डेटासेट पर प्रदर्शन को बनाए रखना या थोड़ा सुधार करना
BME मेट्रिक नेतृत्व: व्यापक मूल्यांकन मेट्रिक BME पर अन्य विधियों से बहुत आगे
सुसंगत प्रदर्शन: तीनों डेटासेट पर उत्कृष्ट प्रदर्शन

विलोपन प्रयोग

घटक	TACRED		TACREV		Re-TACRED
	F1_origin	F1_DREB	F1_origin	F1_DREB	F1_origin	F1_DREB
पूर्ण MixDebias	69.93	62.44	80.91	72.93	87.95	77.71
-CDA	69.66	62.06	80.63	71.99	88.45	78.26
-RDA	69.68	45.77	79.32	51.91	88.69	39.72

मुख्य अंतर्दृष्टि:

RDA अधिक महत्वपूर्ण घटक है, हटाने के बाद प्रदर्शन में भारी गिरावट आती है
CDA पूरक प्रभाव प्रदान करता है, विकृति प्रभाव को और अनुकूलित करता है
दोनों घटक एक दूसरे को पूरक करते हैं, सर्वोत्तम प्रदर्शन को साकार करते हैं

हाइपरपैरामीटर विश्लेषण

β पैरामीटर: KL विचलन वजन को नियंत्रित करता है, β=0.8 पर सर्वोत्तम प्रभाव
λ पैरामीटर: कारणात्मक प्रभाव अनुमान को नियंत्रित करता है, λ=0.2 पर इष्टतम प्राप्त करता है
शोर डेटासेट (TACRED, TACREV) पर, उपयुक्त β मान मूल डेटासेट प्रदर्शन को भी बेहतर बना सकता है

सामान्यीकरण क्षमता विश्लेषण

केवल इकाई इनपुट सेटिंग के लेबल संभाव्यता वितरण दृश्य के माध्यम से:

बेसलाइन मॉडल संभाव्यता 1 के पास केंद्रित है
MixDebias के बाद संभाव्यता वितरण अधिक समान है
इकाई उल्लेख और संबंध प्रकार के बीच छद्म सहसंबंध में महत्वपूर्ण कमी

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

DREB बेंचमार्क प्रभावशीलता: इकाई उल्लेख और संबंध प्रकार के बीच छद्म सहसंबंध को सफलतापूर्वक तोड़ता है
MixDebias विधि श्रेष्ठता: विकृति प्रभाव और मूल प्रदर्शन संरक्षण के बीच सर्वोत्तम संतुलन प्राप्त करता है
इकाई पूर्वाग्रह सार्वभौमिकता: मौजूदा SOTA मॉडल में आमतौर पर गंभीर इकाई पूर्वाग्रह समस्याएं होती हैं

सीमाएं

कम्प्यूटेशनल ओवरहेड: गतिशील रूप से संवर्धित नमूने उत्पन्न करना प्रशिक्षण समय बढ़ाता है
इकाई संसाधन निर्भरता: बाहरी ज्ञान आधार (Wikidata) समर्थन की आवश्यकता है
भाषा सीमा: मुख्य रूप से अंग्रेजी डेटासेट पर सत्यापित
संबंध प्रकार कवरेज: केवल वाक्य-स्तरीय संबंध निष्कर्षण पर परीक्षण किया गया

भविष्य की दिशाएं

क्रॉस-भाषा विस्तार: विधि को अन्य भाषाओं में विस्तारित करना
दस्तावेज-स्तरीय संबंध निष्कर्षण: अधिक जटिल संबंध निष्कर्षण परिदृश्यों को अनुकूलित करना
कम्प्यूटेशनल दक्षता अनुकूलन: प्रशिक्षण के दौरान कम्प्यूटेशनल ओवरहेड को कम करना
सैद्धांतिक विश्लेषण: गहन सैद्धांतिक गारंटी प्रदान करना

गहन मूल्यांकन

शक्तियां

तकनीकी नवाचार

समस्या पहचान सटीकता: संबंध निष्कर्षण में इकाई पूर्वाग्रह समस्या को सटीक रूप से पहचानना और परिमाणन करना
विधि डिजाइन तर्कसंगतता: दोहरी मूल्यांकन तंत्र बेंचमार्क गुणवत्ता सुनिश्चित करता है, बहु-स्तरीय विकृति रणनीति वैज्ञानिक रूप से प्रभावी है
प्रायोगिक डिजाइन कठोरता: व्यापक तुलनात्मक प्रयोग, विलोपन अध्ययन और दृश्य विश्लेषण

शैक्षणिक योगदान

बेंचमार्क योगदान: DREB संबंध निष्कर्षण विकृति मूल्यांकन में अंतराल को भरता है
विधि नवाचार: MixDebias नई विकृति प्रतिमा प्रदान करता है
अनुभवजन्य मूल्य: मौजूदा विधियों की सीमाओं को प्रकट करता है, बाद के अनुसंधान के लिए दिशा प्रदान करता है

प्रायोगिक पर्याप्तता

बहु-डेटासेट सत्यापन: तीन मुख्य डेटासेट पर सत्यापन
बहु-कोण विश्लेषण: प्रदर्शन तुलना, विलोपन अध्ययन, हाइपरपैरामीटर विश्लेषण, दृश्य आदि
सांख्यिकीय महत्व: परिणाम सांख्यिकीय रूप से महत्वपूर्ण हैं

कमियां

विधि सीमाएं

कम्प्यूटेशनल जटिलता: प्रशिक्षण के समय गतिशील रूप से संवर्धित नमूने उत्पन्न करने की आवश्यकता है, कम्प्यूटेशनल ओवरहेड बढ़ाता है
बाहरी निर्भरता: Wikidata जैसे बाहरी संसाधनों पर निर्भर है, विधि की सार्वभौमिकता को प्रभावित कर सकता है
हाइपरपैरामीटर संवेदनशीलता: β और λ पैरामीटर को सावधानीपूर्वक ट्यून करने की आवश्यकता है

प्रायोगिक सेटअप

भाषा एकलता: केवल अंग्रेजी डेटासेट पर सत्यापन, क्रॉस-भाषा सत्यापन की कमी
कार्य रेंज सीमा: केवल वाक्य-स्तरीय संबंध निष्कर्षण पर विचार करता है
बेसलाइन चयन: अधिक नवीनतम विकृति विधियों को तुलना में शामिल किया जा सकता है

सैद्धांतिक विश्लेषण अपर्याप्तता

सैद्धांतिक गारंटी की कमी: विधि प्रभावशीलता का सैद्धांतिक विश्लेषण की कमी
अभिसरण विश्लेषण: हानि फ़ंक्शन के अभिसरण की गारंटी प्रदान नहीं की गई
सामान्यीकरण सीमा: सामान्यीकरण क्षमता की सैद्धांतिक सीमा विश्लेषण की कमी

प्रभाव मूल्यांकन

शैक्षणिक प्रभाव

अग्रणी कार्य: संबंध निष्कर्षण विकृति क्षेत्र में अग्रणी महत्व है
बेंचमार्क मूल्य: DREB इस क्षेत्र का मानक मूल्यांकन बेंचमार्क बनने की संभावना है
विधि प्रेरणा: बाद के विकृति अनुसंधान के लिए नई सोच प्रदान करता है

व्यावहारिक मूल्य

औद्योगिक अनुप्रयोग: संबंध निष्कर्षण प्रणाली के वास्तविक तैनाती प्रभाव में सुधार के लिए महत्वपूर्ण है
निष्पक्षता सुधार: NLP प्रणाली में पूर्वाग्रह समस्याओं को कम करने में सहायता करता है
पुनरुत्पादनीयता: लेखकों ने कोड और डेटा सार्वजनिक करने का वचन दिया है

लागू परिदृश्य

संबंध निष्कर्षण प्रणाली मूल्यांकन: संबंध निष्कर्षण मॉडल के लिए अधिक विश्वसनीय मूल्यांकन प्रदान करता है
विकृति विधि विकास: नई विकृति विधियों को विकसित करने के लिए परीक्षण मंच प्रदान करता है
निष्पक्ष AI अनुसंधान: निष्पक्ष AI अनुसंधान के लिए ठोस केस और उपकरण प्रदान करता है

संदर्भ

पेपर संबंध निष्कर्षण और विकृति क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

TACRED श्रृंखला डेटासेट (Zhang et al., 2017; Alt et al., 2020; Stoica et al., 2021)
इकाई पूर्वाग्रह संबंधित अनुसंधान (Wang et al., 2022, 2023; Peng et al., 2020)
विकृति विधियां (Mahabadi et al., 2020; Liang et al., 2021)
आधार मॉडल (Yamada et al., 2020; Zhou & Chen, 2022)

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो संबंध निष्कर्षण में एक महत्वपूर्ण समस्या को सटीक रूप से पहचानता है और प्रभावी ढंग से हल करता है। DREB बेंचमार्क और MixDebias विधि दोनों में मजबूत नवाचार और व्यावहारिक मूल्य है। हालांकि कुछ सीमाएं हैं, लेकिन इसका योगदान महत्वपूर्ण है और संबंध निष्कर्षण विकृति अनुसंधान के विकास को आगे बढ़ाने की संभावना है।