Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.
- Papier-ID: 2510.10208
- Titel: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
- Autoren: Bo Yuan, Yulin Chen, Yin Zhang (Zhejiang-Universität)
- Klassifizierung: cs.CL (Computerlinguistik)
- Veröffentlichungsdatum: 11. Oktober 2024
- Papier-Link: https://arxiv.org/abs/2510.10208v1
Die parametereffiziente Feinabstimmung (PEFT) großer Sprachmodelle zeigt hervorragende Leistungen bei verschiedenen nachgelagerten Aufgaben, doch Trainingsdaten in realen Szenarien enthalten unvermeidlich verrauschte Labels. Bestehende Lernmethoden für verrauschte Labels wählen typischerweise Proben mit kleinem Verlust zum Trainieren aus, doch diese Auswahl beeinflusst die Verlustberechnung in der nächsten Runde, und ungenaue initiale Auswahl führt zu einem Teufelskreis. Dieses Papier schlägt das Delora-Framework vor, das diesen Kreislauf durch Entkopplung von Probenauswahl und Modelltraining durchbricht. Das Framework führt saubere LoRA und verrauschte LoRA ein, um einen Detektor für verrauschte Labels zu konstruieren. Es nutzt Gedächtniseffekte, um saubere LoRA reine Daten merken zu lassen und verrauschte LoRA fehlerhafte Daten merken zu lassen, als lernbarer Schwellenwert zur Probenauswahl. Experimentelle Ergebnisse zeigen die Effektivität von Delora bei der Erkennung verrauschter Labels und bei Textklassifizierungsaufgaben.
- Kernproblem: Wie man mit unvermeidlich verrauschten Labels in Trainingsdaten während der parametereffizienten Feinabstimmung großer Sprachmodelle umgeht
- Bedeutung: Der Datenerfassungsprozess in der realen Welt enthält notwendigerweise Annotationsfehler, die die Modellleistung und Generalisierungsfähigkeit erheblich beeinträchtigen
- Einschränkungen bestehender Methoden:
- Traditionelle Strategien zur Auswahl kleiner Verluste weisen ein "Teufelskreis"-Problem auf: Probenauswahl beeinflusst die Verlustberechnung, und die Verlustberechnung beeinflusst wiederum die Probenauswahl
- Abhängigkeit von manuell eingestellten Schwellenwerten, begrenzte praktische Anwendbarkeit
- Instabile Leistung bei hochrauschigen Szenarien
Die Autoren beobachteten, dass das grundlegende Problem bestehender Methoden in der Koppelung zwischen Probenauswahl und Modelltraining liegt. Sie schlugen eine Schlüsseleinsicht vor: Kann man Probenauswahl und Modelltraining entkoppeln, um sie unabhängig zu machen? Diese Überlegung inspirierte das Kernrahmen-Design dieses Papiers.
- Entkoppeltes Framework: Erstmalige Zerlegung der Lernaufgabe für verrauschte Labels in zwei unabhängige Phasen – Probenauswahl und Modelltraining – um effektiv den Teufelskreis zu vermeiden
- Innovativer Dual-LoRA-Detektor: Einführung von sauberer LoRA und verrauschter LoRA zur separaten Speicherung sauberer und verrauschter Proben, um einen lernbaren Detektor für verrauschte Labels zu konstruieren
- Dynamischer Beschränkungsmechanismus: Entwurf einer dynamischen Regularisierungsstrategie basierend auf Gedächtniseffekten zur Kontrolle der Parameteraktualisierungsmuster verschiedener LoRAs
- Umfangreiche experimentelle Validierung: Validierung der Methodeneffektivität auf synthetischen und echten verrauschten Datensätzen mit signifikanten Verbesserungen bei der Erkennung verrauschter Labels und Textklassifizierungsaufgaben
Gegeben ein Trainingsdatensatz D={(xi,yi)}i=1N, wobei y∈{1,…,K} das beobachtete Label ist, das möglicherweise fehlerhaft ist. Das Ziel ist, einen robusten Klassifizierer zu lernen, der gute Generalisierungsleistung auch bei Vorhandensein verrauschter Labels erreicht.
Das Delora-Framework umfasst zwei Kernphasen:
Dual-LoRA-Design:
- Saubere LoRA (Δwc): Ideale Parameter zur Speicherung sauberer Proben
- Verrauschte LoRA (Δwn): Rauschparameter zur Speicherung fehlerhaft beschrifteter Proben
Lernbarer Schwellenwertmechanismus:
Für die i-te Trainprobe ist der lernbare Schwellenwert definiert als:
ϕi=CE(f(xi,w0+Δwn),yi)
Probenauswahlkriterium:
Dc={(xi,yi)∣CE(f(xi,w0+Δwc),yi)<ϕi}
Dynamische Beschränkungsoptimierung:
LLoRA=τ1(t)Δσc+τ2(t)Δσn
wobei:
- τ1(t)=th1 (steigende Funktion zur Beschränkung der sauberen LoRA)
- τ2(t)=t−h2 (fallende Funktion zur Beschränkung der verrauschten LoRA)
- \Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c|| (Parameteränderungsmenge)
Optimierungsziel des Detektors:
Verwendung der Reinheitswahrscheinlichkeit für Binärklassifizierung:
pic=eCE(f(xi,w0+Δwc),yi)+eCE(f(xi,w0+Δwn),yi)eCE(f(xi,w0+Δwc),yi)
Gesamtes Optimierungsziel: L=Lce+LLoRA+LDetector
- Saubere Proben: Direktes Training mit Kreuzentropieverlust
- Verrauschte Proben: Nach Neuannotation durch GPT-4o mit umgekehrtem Kreuzentropieverlust für robustes Lernen
- Entkoppeltes Design: Vollständige Trennung von Probenauswahl und Modelltraining zur Vermeidung gegenseitiger Beeinflussung
- Nutzung von Gedächtniseffekten: Geschickte Nutzung der Eigenschaft, dass tiefe Netzwerke zuerst saubere Proben und dann verrauschte Proben speichern
- Lernbarer Schwellenwert: Verwendung der Vorhersage durch verrauschte LoRA als datengesteuerten Schwellenwert ohne manuelle Parametereinstellung
- Funktionale Trennung auf Parameterebene: Realisierung funktionaler Trennung auf Parameterebene, unabhängig von spezifischer Architektur
Synthetische verrauschte Datensätze:
- Trec, SST-2, SST-5, 20ng, AGNews
- Rauschtypen: symmetrisches Rauschen (S), asymmetrisches Rauschen (A), instanzabhängiges Rauschen (I)
- Rauschrate: 20%, 40%
Echte verrauschte Datensätze:
- Hausa (Rauschrate 50,37%)
- Yorùbá (Rauschrate 33,28%)
- AlleNoise (Rauschrate 15,00%)
- Phase der Rausch-Erkennung: Präzision (Precision) und Recall
- Klassifizierungsphase: Test-Genauigkeit (Test Accuracy)
- Basismodell: Llama3.1-8B-Instruct
- Rausch-Lernmethoden: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
- Erkennungsmethoden: LLMs-detection, Small-loss strategy
- Backbone-Modell: LLaMA-3.1-8B-Instruct
- LoRA-Rang: r=32
- Trainingsrunden: 8 Runden für Detektor, 6 Runden für Klassifizierer
- Aufwärmrunden: 2 Runden
- Lernrate: 1e-4, 5e-4
Leistung der Erkennung verrauschter Labels:
Auf dem Trec-Datensatz zeigt Delora signifikante Verbesserungen gegenüber Baseline-Methoden:
- 20% symmetrisches Rauschen: Präzision 99,47% vs. 81,15% (Small-loss)
- 40% asymmetrisches Rauschen: Recall 97,27% vs. 96,20% (Small-loss)
Leistung der Textklassifizierung:
| Datensatz | Rausch-Einstellung | Base | NoiseAL | Delora |
|---|
| Trec | 20%S | 95,20 | 97,30 | 98,46 |
| Trec | 40%A | 87,40 | 95,95 | 97,40 |
| SST-5 | 20%S | 54,08 | 55,00 | 57,39 |
Ergebnisse auf echten verrauschten Datensätzen:
| Datensatz | Rauschrate | NoiseAL | Delora | Verbesserung |
|---|
| Hausa | 50,37% | 52,34 | 60,12 | +7,78% |
| Yorùbá | 33,28% | 72,13 | 78,56 | +6,43% |
Ablationsstudien auf dem Trec-Datensatz zeigen:
- Entfernung des Detektors für verrauschte Labels (NLD): Leistung sinkt deutlich (98,46→95,20)
- Entfernung des Klassifizierer-Trainings (CT): Leistung sinkt erheblich
- Entfernung verschiedener Optimierungsziele (LLoRA, LDetector, Lce): Alle führen zu Leistungsabfall
- Entfernung der Neuannotation verrauschter Proben: Leistungsabfall um etwa 4%
Experimente validieren die Gedächtnismuster verschiedener LoRAs:
- Saubere LoRA: Verstärkt die Speicherung sauberer Proben, reduziert die Speicherung verrauschter Proben
- Verrauschte LoRA: Zeigt gegensätzliches Muster, absorbiert hauptsächlich negative Auswirkungen verrauschter Proben
- Basismodell: Folgt dem Gedächtniseffekt, zuerst saubere Proben zu speichern, dann verrauschte Proben
Im Vergleich zur grundlegenden Single-LoRA-Methode:
- Parameteranstieg: +13,6MB
- Speicheranstieg: +3,2GB
- Leistungsverbesserung: +3,26%~+10%
Die Analyse der Parameter- und Speichereffizienz zeigt, dass Delora eine bessere Pareto-Front im dreidimensionalen Raum von Genauigkeit-Parameter-Speicher erreicht.
- Probenauswahlmethoden: Co-Teaching, SelfMix und andere auf kleinen Verlusten basierende Mechanismen
- Schwellenwerteinstellung: Feste vs. dynamische Schwellenwertstrategien
- Einschränkungen: Abhängigkeit vom Trainingsmodell, anfällig für Teufelskreise
- Hauptmethoden: LoRA, Adapter, Prompt Tuning
- Rauschrobustheit: CleaR und andere Methoden erforschen PEFT-Leistung in rauschigen Umgebungen
- Beitrag dieses Papiers: Nutzung der begrenzten Kapazität von PEFT zur separaten Speicherung sauberer und verrauschter Proben
- Die Entkopplung von Probenauswahl und Modelltraining kann effektiv den Teufelskreis beim Lernen mit verrauschten Labels vermeiden
- Das Dual-LoRA-Design in Kombination mit Gedächtniseffekten kann effektiv zwischen sauberen und verrauschten Proben unterscheiden
- Die Methode zeigt hervorragende Leistung bei verschiedenen Rauscheinstellungen und echten Datensätzen mit guter Generalisierungsfähigkeit
- Skalierungsbeschränkung: Aufgrund von Ressourcenbeschränkungen nicht auf größeren Sprachmodellen (wie Llama-3.2 70B) validiert
- Aufgabenbeschränkung: Experimente beschränkt auf Textklassifizierungsaufgaben, keine Erkundung anderer Aufgaben wie Textgenerierung
- Rechenkomplexität: Das Dual-LoRA-Design erhöht zusätzliche Parameter und Rechenkosten
- Erweiterung auf größere Sprachmodelle
- Erkundung der Anwendung bei Textgenerierungsaufgaben
- Weitere Optimierung der Rechen- und Parametereffizienz
- Starke Innovativität:
- Erstmalige Vorschlag eines Frameworks zur Entkopplung von Probenauswahl und Modelltraining, löst grundlegend das Teufelskreis-Problem
- Dual-LoRA-Design nutzt geschickt Gedächtniseffekte zur Realisierung funktionaler Trennung auf Parameterebene
- Solide theoretische Grundlagen:
- Theoretische Unterstützung basierend auf Gedächtniseffekten tiefer Netzwerke
- Klare mathematische Herleitung, vernünftige Optimierungsziele
- Umfangreiche Experimente:
- Abdeckung verschiedener Rauschtypen und Rauschquoten
- Einbeziehung synthetischer und echter verrauschter Datensätze
- Detaillierte Ablationsstudien und Analysen
- Hoher praktischer Wert:
- Keine manuelle Schwellenwerteinstellung erforderlich
- Adaptierbar an verschiedene Klassifizierermodelle
- Hervorragende Leistung in hochrauschigen Szenarien
- Rechenkomplexität:
- Zweistufiges Training erhöht die Trainingszeit
- Dual-LoRA-Design erhöht Parametermenge und Speicherverbrauch
- Empfindlichkeit gegenüber Hyperparametern:
- Die dynamischen Beschränkungsfunktionen h1 und h2 müssen für verschiedene Rauschquoten angepasst werden
- Mangel an adaptiver Hyperparameter-Auswahlstrategie
- Unzureichende theoretische Analyse:
- Mangel an theoretischen Garantien für Konvergenz der Methode
- Keine theoretischen Grenzen für die Genauigkeit der Rausch-Erkennung
- Begrenzte Anwendbarkeit:
- Hauptsächlich auf Textklassifizierungsaufgaben ausgerichtet
- Effektivität bei anderen NLP-Aufgaben nicht validiert
- Akademischer Beitrag:
- Bietet neue Lösungsansätze für das Lernfeld mit verrauschten Labels
- Fördert die Anwendung von PEFT-Methoden beim robusten Lernen
- Praktischer Wert:
- Direkt anwendbar auf praktische Textklassifizierungsaufgaben
- Bietet effektive Werkzeuge zur Verarbeitung echter verrauschter Daten
- Reproduzierbarkeit:
- Detaillierte Implementierungsdetails und Hyperparameter-Einstellungen
- Klare Algorithmusbeschreibung, leicht zu reproduzieren
- Textklassifizierungsaufgaben: Besonders geeignet für großflächige Textklassifizierungsszenarien mit niedriger Annotationsqualität
- Ressourcenbegrenzte Umgebungen: PEFT-Eigenschaften machen es geeignet für Anwendungen mit begrenzten Rechenressourcen
- Hochrauschige Umgebungen: Zeigt besonders hervorragende Leistung in Szenarien mit hoher Rauschquote (>40%)
- Mehrsprachige Anwendungen: Hat Anwendungspotenzial bei Textklassifizierungsaufgaben in ressourcenarmem Sprachen
Dieses Papier zitiert wichtige Literatur aus den Bereichen Lernen mit verrauschten Labels und parametereffiziente Feinabstimmung, einschließlich:
- Han et al. (2018) - Co-Teaching-Methode
- Hu et al. (2022) - LoRA-Methode
- Kim et al. (2024) - CleaR-Methode
- Yuan et al. (2024) - NoiseAL-Methode
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung im Bereich des Lernens mit verrauschten Labels bietet. Durch geschicktes Entkoppelungsdesign und Dual-LoRA-Mechanismus werden die Kernprobleme bestehender Methoden effektiv gelöst. Die experimentelle Validierung ist umfassend und die Ergebnisse überzeugend. Trotz einiger Einschränkungen machen seine Innovativität und praktischer Wert es zu einem wichtigen Beitrag in diesem Bereich.