2025-11-17T20:07:13.334490

Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning

Yuan, Chen, Zhang

Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.

academic

शोरगुल वाले लेबल का पता लगाने के लिए द्वैत निम्न-रैंक अनुकूलन: शोर-मजबूत सीखने के लिए एक प्रभावी विधि

मूल जानकारी

पेपर ID: 2510.10208
शीर्षक: शोरगुल वाले लेबल को हटाएं, फिर फसल काटें: द्वैत निम्न-रैंक अनुकूलन शोर-मजबूत सीखने के लिए एक प्रभावी शोरगुल वाले लेबल डिटेक्टर है
लेखक: बो युआन, युलिन चेन, यिन झांग (झेजियांग विश्वविद्यालय)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन समय: 11 अक्टूबर 2024
पेपर लिंक: https://arxiv.org/abs/2510.10208v1

सारांश

पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग (PEFT) बड़े भाषा मॉडल विभिन्न डाउनस्ट्रीम कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन वास्तविक परिदृश्यों में प्रशिक्षण डेटा में अनिवार्य रूप से शोरगुल वाले लेबल होते हैं। मौजूदा शोरगुल वाले लेबल सीखने की विधियां आमतौर पर कम नुकसान वाले नमूनों को प्रशिक्षण के लिए चुनती हैं, लेकिन यह चयन अगले दौर की नुकसान गणना को प्रभावित करता है, और अशुद्ध प्रारंभिक चयन एक दुष्चक्र का कारण बनता है। यह पेपर Delora फ्रेमवर्क प्रस्तावित करता है, जो नमूना चयन और मॉडल प्रशिक्षण को अलग करके इस चक्र को तोड़ता है। यह फ्रेमवर्क स्वच्छ LoRA और शोरगुल LoRA का परिचय देता है जो शोरगुल वाले लेबल डिटेक्टर का निर्माण करते हैं, स्मृति प्रभाव का उपयोग करके स्वच्छ LoRA को स्वच्छ डेटा को याद रखने के लिए, शोरगुल LoRA को गलत लेबल वाले डेटा को याद रखने के लिए, और सीखने योग्य थ्रेशोल्ड के रूप में नमूनों का चयन करने के लिए। प्रयोगात्मक परिणाम शोरगुल वाले लेबल डिटेक्शन और पाठ वर्गीकरण कार्यों पर Delora की प्रभावशीलता प्रदर्शित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मूल समस्या: बड़े भाषा मॉडल के पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग प्रक्रिया में प्रशिक्षण डेटा में अनिवार्य शोरगुल वाले लेबल समस्या को कैसे संभाला जाए
महत्व: वास्तविक दुनिया के डेटा संग्रह प्रक्रिया में अनिवार्य रूप से एनोटेशन त्रुटियां होती हैं, जो मॉडल प्रदर्शन और सामान्यीकरण क्षमता को गंभीरता से प्रभावित करती हैं
मौजूदा विधियों की सीमाएं:
- पारंपरिक कम नुकसान चयन रणनीति में "दुष्चक्र" समस्या है: नमूना चयन नुकसान गणना को प्रभावित करता है, नुकसान गणना नमूना चयन को प्रभावित करती है
- मैनुअल थ्रेशोल्ड सेटिंग पर निर्भर, व्यावहारिकता सीमित है
- उच्च शोर परिदृश्यों में अस्थिर प्रदर्शन

अनुसंधान प्रेरणा

लेखकों ने मौजूदा विधियों की मौलिक समस्या को देखा कि नमूना चयन और मॉडल प्रशिक्षण के बीच युग्मन संबंध है, और एक महत्वपूर्ण अंतर्दृष्टि प्रस्तावित की: क्या हम नमूना चयन और मॉडल प्रशिक्षण को अलग कर सकते हैं, जिससे वे परस्पर स्वतंत्र हों? यह विचार इस पेपर के मूल फ्रेमवर्क डिजाइन को प्रेरित करता है।

मूल योगदान

अलग-अलग फ्रेमवर्क प्रस्तावित करें: पहली बार शोरगुल वाले लेबल सीखने के कार्य को स्वतंत्र नमूना चयन और मॉडल प्रशिक्षण के दो चरणों में विघटित करें, दुष्चक्र को प्रभावी ढंग से रोकें
नवीन द्वैत-LoRA डिटेक्टर: स्वच्छ LoRA और शोरगुल LoRA का परिचय दें जो क्रमशः स्वच्छ नमूनों और शोरगुल नमूनों को याद रखते हैं, एक सीखने योग्य शोरगुल वाले लेबल डिटेक्टर का निर्माण करें
गतिशील बाधा तंत्र: स्मृति प्रभाव के आधार पर गतिशील नियमितकरण रणनीति डिजाइन करें, विभिन्न LoRA के पैरामीटर अपडेट पैटर्न को नियंत्रित करें
व्यापक प्रयोगात्मक सत्यापन: सिंथेटिक और वास्तविक शोर डेटासेट पर विधि की प्रभावशीलता को सत्यापित करें, शोरगुल वाले लेबल डिटेक्शन और पाठ वर्गीकरण कार्यों पर महत्वपूर्ण सुधार प्राप्त करें

विधि विवरण

कार्य परिभाषा

प्रशिक्षण डेटासेट $D=\{(x_i, y_i)\}_{i=1}^N$ दिया गया है, जहां $y \in \{1, \ldots, K\}$ अवलोकित लेबल है, जो गलत हो सकता है। लक्ष्य एक मजबूत वर्गीकरणकर्ता सीखना है जो शोरगुल वाले लेबल की उपस्थिति में अच्छी सामान्यीकरण क्षमता प्राप्त कर सके।

मॉडल आर्किटेक्चर

Delora फ्रेमवर्क में दो मूल चरण हैं:

चरण 1: शोरगुल वाले लेबल डिटेक्टर प्रशिक्षण

द्वैत-LoRA डिजाइन:

स्वच्छ LoRA ( $\Delta w_c$ ): आदर्श पैरामीटर, स्वच्छ नमूनों को याद रखने के लिए उपयोग किया जाता है
शोरगुल LoRA ( $\Delta w_n$ ): शोर पैरामीटर, गलत लेबल वाले नमूनों को याद रखने के लिए उपयोग किया जाता है

सीखने योग्य थ्रेशोल्ड तंत्र: $i$ -वें प्रशिक्षण नमूने के लिए, सीखने योग्य थ्रेशोल्ड को इस प्रकार परिभाषित किया जाता है: $\phi_i = CE(f(x_i, w_0 + \Delta w_n), y_i)$

नमूना चयन मानदंड: $D_c = \{(x_i, y_i) | CE(f(x_i, w_0 + \Delta w_c), y_i) < \phi_i\}$

गतिशील बाधा अनुकूलन: $L_{LoRA} = \tau_1(t)\Delta\sigma_c + \tau_2(t)\Delta\sigma_n$

जहां:

$\tau_1(t) = t^{h_1}$ (बढ़ता हुआ फ़ंक्शन, स्वच्छ LoRA को बाधित करता है)
$\tau_2(t) = t^{-h_2}$ (घटता हुआ फ़ंक्शन, शोरगुल LoRA को बाधित करता है)
$\Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c||$ (पैरामीटर परिवर्तन की मात्रा)

डिटेक्टर अनुकूलन उद्देश्य: स्वच्छ संभावना का उपयोग करके द्विआधारी वर्गीकरण: $p_i^c = \frac{e^{CE(f(x_i,w_0+\Delta w_c),y_i)}}{e^{CE(f(x_i,w_0+\Delta w_c),y_i)} + e^{CE(f(x_i,w_0+\Delta w_n),y_i)}}$

कुल अनुकूलन उद्देश्य: $L = L_{ce} + L_{LoRA} + L_{Detector}$

चरण 2: वर्गीकरणकर्ता मॉडल प्रशिक्षण

स्वच्छ नमूने: क्रॉस-एंट्रॉपी नुकसान का उपयोग करके सीधे प्रशिक्षित
शोरगुल नमूने: GPT-4o द्वारा पुनः लेबल किए जाते हैं, मजबूत सीखने के लिए विपरीत क्रॉस-एंट्रॉपी नुकसान का उपयोग करके

तकनीकी नवाचार बिंदु

अलग-अलग डिजाइन: नमूना चयन और मॉडल प्रशिक्षण को पूरी तरह से अलग करें, पारस्परिक प्रभाव से बचें
स्मृति प्रभाव का उपयोग: गहरे नेटवर्क के पहले स्वच्छ नमूनों को याद रखने और फिर शोरगुल नमूनों को याद रखने की विशेषता का कुशलतापूर्वक उपयोग करें
सीखने योग्य थ्रेशोल्ड: शोरगुल LoRA पूर्वानुमान को डेटा-संचालित थ्रेशोल्ड के रूप में उपयोग करें, मैनुअल ट्यूनिंग की आवश्यकता नहीं है
पैरामीटर-स्तरीय कार्यात्मक पृथक्करण: पैरामीटर स्तर पर कार्यात्मक पृथक्करण को लागू करें, विशिष्ट आर्किटेक्चर से स्वतंत्र

प्रयोगात्मक सेटअप

डेटासेट

सिंथेटिक शोर डेटासेट:

Trec, SST-2, SST-5, 20ng, AGNews
शोर प्रकार: सममित शोर (S), असममित शोर (A), उदाहरण-संबंधित शोर (I)
शोर दर: 20%, 40%

वास्तविक शोर डेटासेट:

Hausa (शोर दर 50.37%)
Yorùbá (शोर दर 33.28%)
AlleNoise (शोर दर 15.00%)

मूल्यांकन मेट्रिक्स

शोर डिटेक्शन चरण: सटीकता (Precision) और रिकॉल (Recall)
वर्गीकरण चरण: परीक्षण सटीकता (Test Accuracy)

तुलना विधियां

आधार मॉडल: Llama3.1-8B-Instruct
शोर सीखने की विधियां: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
डिटेक्शन विधियां: LLMs-detection, Small-loss strategy

कार्यान्वयन विवरण

बैकबोन मॉडल: LLaMA-3.1-8B-Instruct
LoRA रैंक: r=32
प्रशिक्षण एपोक: डिटेक्टर 8, वर्गीकरणकर्ता 6
वार्मअप एपोक: 2
सीखने की दर: 1e-4, 5e-4

प्रयोगात्मक परिणाम

मुख्य परिणाम

शोरगुल वाले लेबल डिटेक्शन प्रदर्शन: Trec डेटासेट पर, Delora ने आधार विधियों की तुलना में महत्वपूर्ण सुधार दिखाया:

20% सममित शोर: सटीकता 99.47% बनाम 81.15% (Small-loss)
40% असममित शोर: रिकॉल 97.27% बनाम 96.20% (Small-loss)

पाठ वर्गीकरण प्रदर्शन:

डेटासेट	शोर सेटिंग	आधार	NoiseAL	Delora
Trec	20%S	95.20	97.30	98.46
Trec	40%A	87.40	95.95	97.40
SST-5	20%S	54.08	55.00	57.39

वास्तविक शोर डेटासेट परिणाम:

डेटासेट	शोर दर	NoiseAL	Delora	सुधार
Hausa	50.37%	52.34	60.12	+7.78%
Yorùbá	33.28%	72.13	78.56	+6.43%

विलोपन प्रयोग

Trec डेटासेट पर विलोपन अध्ययन से पता चलता है:

शोरगुल वाले लेबल डिटेक्टर (NLD) को हटाना: प्रदर्शन में भारी गिरावट (98.46→95.20)
वर्गीकरणकर्ता प्रशिक्षण (CT) को हटाना: प्रदर्शन में महत्वपूर्ण कमी
विभिन्न अनुकूलन उद्देश्यों को हटाना ( $L_{LoRA}$ , $L_{Detector}$ , $L_{ce}$ ): सभी प्रदर्शन में गिरावट का कारण बनते हैं
शोरगुल नमूने पुनः-लेबलिंग को हटाना: प्रदर्शन में लगभग 4% की गिरावट

स्मृति प्रभाव विश्लेषण

प्रयोग ने विभिन्न LoRA के स्मृति पैटर्न को सत्यापित किया:

स्वच्छ LoRA: स्वच्छ नमूनों की स्मृति को बढ़ाता है, शोरगुल नमूनों की स्मृति को कम करता है
शोरगुल LoRA: विपरीत पैटर्न प्रदर्शित करता है, मुख्य रूप से शोरगुल नमूनों के नकारात्मक प्रभाव को अवशोषित करता है
आधार मॉडल: पहले स्वच्छ नमूनों को याद रखने और फिर शोरगुल नमूनों को याद रखने की स्मृति प्रभाव का पालन करता है

दक्षता विश्लेषण

आधार एकल-LoRA विधि की तुलना में:

पैरामीटर वृद्धि: +13.6MB
मेमोरी वृद्धि: +3.2GB
प्रदर्शन सुधार: +3.26%~+10%

पैरामीटर दक्षता और मेमोरी दक्षता विश्लेषण से पता चलता है कि Delora सटीकता-पैरामीटर-मेमोरी त्रि-आयामी ट्रेड-ऑफ स्पेस में एक बेहतर पेरेटो सीमांत तक पहुंचता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

नमूना चयन और मॉडल प्रशिक्षण को अलग करना शोरगुल वाले लेबल सीखने में दुष्चक्र समस्या को प्रभावी ढंग से रोक सकता है
द्वैत-LoRA डिजाइन स्मृति प्रभाव के साथ मिलकर स्वच्छ और शोरगुल नमूनों को प्रभावी ढंग से अलग कर सकता है
यह विधि विभिन्न शोर सेटिंग्स और वास्तविक डेटासेट पर उत्कृष्ट प्रदर्शन करती है, अच्छी सामान्यीकरण क्षमता है

सीमाएं

स्केल सीमा: संसाधन बाधाओं के कारण, बड़े भाषा मॉडल (जैसे Llama-3.2 70B) पर सत्यापन नहीं किया गया
कार्य सीमा: प्रयोग केवल पाठ वर्गीकरण कार्यों तक सीमित हैं, पाठ जनरेशन जैसे अन्य कार्यों की खोज नहीं की गई
कम्प्यूटेशनल ओवरहेड: द्वैत-LoRA डिजाइन अतिरिक्त पैरामीटर और कम्प्यूटेशनल लागत जोड़ता है

भविष्य की दिशाएं

बड़े भाषा मॉडल तक विस्तार करें
पाठ जनरेशन कार्यों में अनुप्रयोग की खोज करें
कम्प्यूटेशनल दक्षता और पैरामीटर दक्षता को और अनुकूलित करें

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार:
- पहली बार नमूना चयन और मॉडल प्रशिक्षण को अलग करने का फ्रेमवर्क प्रस्तावित करें, दुष्चक्र समस्या को मौलिक रूप से हल करें
- द्वैत-LoRA डिजाइन स्मृति प्रभाव का कुशलतापूर्वक उपयोग करता है, पैरामीटर-स्तरीय कार्यात्मक पृथक्करण को लागू करता है
ठोस सैद्धांतिक आधार:
- गहरे नेटवर्क स्मृति प्रभाव के सिद्धांत पर समर्थन
- गणितीय सूत्र व्युत्पत्ति स्पष्ट, अनुकूलन उद्देश्य उचित
व्यापक प्रयोग:
- विभिन्न शोर प्रकार और शोर दर को कवर करता है
- सिंथेटिक और वास्तविक शोर डेटासेट शामिल हैं
- विस्तृत विलोपन प्रयोग और विश्लेषण
उच्च व्यावहारिक मूल्य:
- मैनुअल थ्रेशोल्ड सेटिंग की आवश्यकता नहीं है
- विभिन्न वर्गीकरणकर्ता मॉडल के लिए अनुकूलनीय
- उच्च शोर परिदृश्यों में उत्कृष्ट प्रदर्शन

कमजोरियां

कम्प्यूटेशनल जटिलता:
- द्वि-चरणीय प्रशिक्षण प्रशिक्षण समय बढ़ाता है
- द्वैत-LoRA डिजाइन पैरामीटर मात्रा और मेमोरी खपत बढ़ाता है
हाइपरपैरामीटर संवेदनशीलता:
- गतिशील बाधा फ़ंक्शन में $h_1$ और $h_2$ को विभिन्न शोर दरों के लिए समायोजित करने की आवश्यकता है
- स्व-अनुकूलन हाइपरपैरामीटर चयन रणनीति की कमी
अपर्याप्त सैद्धांतिक विश्लेषण:
- विधि अभिसरण के लिए सैद्धांतिक गारंटी की कमी
- शोर डिटेक्शन सटीकता के लिए सैद्धांतिक सीमा प्रदान नहीं की गई
सीमित प्रयोज्यता:
- मुख्य रूप से पाठ वर्गीकरण कार्यों पर केंद्रित
- अन्य NLP कार्यों पर प्रभावशीलता सत्यापित नहीं की गई

प्रभाव

शैक्षणिक योगदान:
- शोरगुल वाले लेबल सीखने के क्षेत्र के लिए नई समस्या-समाधान सोच प्रदान करता है
- मजबूत सीखने में PEFT विधियों के अनुप्रयोग को आगे बढ़ाता है
व्यावहारिक मूल्य:
- पाठ वर्गीकरण कार्यों में सीधे लागू किया जा सकता है
- वास्तविक दुनिया के शोरगुल डेटा को संभालने के लिए प्रभावी उपकरण प्रदान करता है
पुनरुत्पादनशीलता:
- विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है
- एल्गोरिथम विवरण स्पष्ट, पुनरुत्पादन में आसान

लागू परिदृश्य

पाठ वर्गीकरण कार्य: विशेष रूप से कम एनोटेशन गुणवत्ता वाले बड़े पैमाने पर पाठ वर्गीकरण परिदृश्यों के लिए उपयुक्त
संसाधन-सीमित वातावरण: PEFT विशेषता इसे सीमित कम्प्यूटेशनल संसाधन वाले अनुप्रयोग परिदृश्यों के लिए उपयुक्त बनाती है
उच्च शोर वातावरण: विशेष रूप से उच्च शोर दर (>40%) के परिदृश्यों में उत्कृष्ट प्रदर्शन
बहुभाषी अनुप्रयोग: कम-संसाधन भाषाओं के पाठ वर्गीकरण कार्यों में अनुप्रयोग क्षमता है

संदर्भ

यह पेपर शोरगुल वाले लेबल सीखने और पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग के क्षेत्र के महत्वपूर्ण साहित्य का हवाला देता है, जिसमें शामिल हैं:

Han et al. (2018) - Co-Teaching विधि
Hu et al. (2022) - LoRA विधि
Kim et al. (2024) - CleaR विधि
Yuan et al. (2024) - NoiseAL विधि

समग्र मूल्यांकन: यह शोरगुल वाले लेबल सीखने के क्षेत्र में एक उच्च-गुणवत्ता वाला अनुसंधान पत्र है जो एक नवीन समाधान प्रस्तावित करता है। चतुर अलग-अलग डिजाइन और द्वैत-LoRA तंत्र के माध्यम से, यह मौजूदा विधियों की मूल समस्या को प्रभावी ढंग से हल करता है। प्रयोगात्मक सत्यापन व्यापक है, परिणाम विश्वसनीय हैं। हालांकि कुछ सीमाएं हैं, लेकिन इसकी नवाचार और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाती है।