2025-11-17T20:07:13.334490

Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning

Yuan, Chen, Zhang

Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.

academic

Weed Out, Then Harvest: Dual Low-Rank Adaptation ist ein effektiver Detektor für verrauschte Labels beim rauschrobusten Lernen

Grundinformationen

Papier-ID: 2510.10208
Titel: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
Autoren: Bo Yuan, Yulin Chen, Yin Zhang (Zhejiang-Universität)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 11. Oktober 2024
Papier-Link: https://arxiv.org/abs/2510.10208v1

Zusammenfassung

Die parametereffiziente Feinabstimmung (PEFT) großer Sprachmodelle zeigt hervorragende Leistungen bei verschiedenen nachgelagerten Aufgaben, doch Trainingsdaten in realen Szenarien enthalten unvermeidlich verrauschte Labels. Bestehende Lernmethoden für verrauschte Labels wählen typischerweise Proben mit kleinem Verlust zum Trainieren aus, doch diese Auswahl beeinflusst die Verlustberechnung in der nächsten Runde, und ungenaue initiale Auswahl führt zu einem Teufelskreis. Dieses Papier schlägt das Delora-Framework vor, das diesen Kreislauf durch Entkopplung von Probenauswahl und Modelltraining durchbricht. Das Framework führt saubere LoRA und verrauschte LoRA ein, um einen Detektor für verrauschte Labels zu konstruieren. Es nutzt Gedächtniseffekte, um saubere LoRA reine Daten merken zu lassen und verrauschte LoRA fehlerhafte Daten merken zu lassen, als lernbarer Schwellenwert zur Probenauswahl. Experimentelle Ergebnisse zeigen die Effektivität von Delora bei der Erkennung verrauschter Labels und bei Textklassifizierungsaufgaben.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Wie man mit unvermeidlich verrauschten Labels in Trainingsdaten während der parametereffizienten Feinabstimmung großer Sprachmodelle umgeht
Bedeutung: Der Datenerfassungsprozess in der realen Welt enthält notwendigerweise Annotationsfehler, die die Modellleistung und Generalisierungsfähigkeit erheblich beeinträchtigen
Einschränkungen bestehender Methoden:
- Traditionelle Strategien zur Auswahl kleiner Verluste weisen ein "Teufelskreis"-Problem auf: Probenauswahl beeinflusst die Verlustberechnung, und die Verlustberechnung beeinflusst wiederum die Probenauswahl
- Abhängigkeit von manuell eingestellten Schwellenwerten, begrenzte praktische Anwendbarkeit
- Instabile Leistung bei hochrauschigen Szenarien

Forschungsmotivation

Die Autoren beobachteten, dass das grundlegende Problem bestehender Methoden in der Koppelung zwischen Probenauswahl und Modelltraining liegt. Sie schlugen eine Schlüsseleinsicht vor: Kann man Probenauswahl und Modelltraining entkoppeln, um sie unabhängig zu machen? Diese Überlegung inspirierte das Kernrahmen-Design dieses Papiers.

Kernbeiträge

Entkoppeltes Framework: Erstmalige Zerlegung der Lernaufgabe für verrauschte Labels in zwei unabhängige Phasen – Probenauswahl und Modelltraining – um effektiv den Teufelskreis zu vermeiden
Innovativer Dual-LoRA-Detektor: Einführung von sauberer LoRA und verrauschter LoRA zur separaten Speicherung sauberer und verrauschter Proben, um einen lernbaren Detektor für verrauschte Labels zu konstruieren
Dynamischer Beschränkungsmechanismus: Entwurf einer dynamischen Regularisierungsstrategie basierend auf Gedächtniseffekten zur Kontrolle der Parameteraktualisierungsmuster verschiedener LoRAs
Umfangreiche experimentelle Validierung: Validierung der Methodeneffektivität auf synthetischen und echten verrauschten Datensätzen mit signifikanten Verbesserungen bei der Erkennung verrauschter Labels und Textklassifizierungsaufgaben

Methodische Details

Aufgabendefinition

Gegeben ein Trainingsdatensatz $D=\{(x_i, y_i)\}_{i=1}^N$ , wobei $y \in \{1, \ldots, K\}$ das beobachtete Label ist, das möglicherweise fehlerhaft ist. Das Ziel ist, einen robusten Klassifizierer zu lernen, der gute Generalisierungsleistung auch bei Vorhandensein verrauschter Labels erreicht.

Modellarchitektur

Das Delora-Framework umfasst zwei Kernphasen:

Phase 1: Training des Detektors für verrauschte Labels

Dual-LoRA-Design:

Saubere LoRA ( $\Delta w_c$ ): Ideale Parameter zur Speicherung sauberer Proben
Verrauschte LoRA ( $\Delta w_n$ ): Rauschparameter zur Speicherung fehlerhaft beschrifteter Proben

Lernbarer Schwellenwertmechanismus: Für die $i$ -te Trainprobe ist der lernbare Schwellenwert definiert als: $\phi_i = CE(f(x_i, w_0 + \Delta w_n), y_i)$

Probenauswahlkriterium: $D_c = \{(x_i, y_i) | CE(f(x_i, w_0 + \Delta w_c), y_i) < \phi_i\}$

Dynamische Beschränkungsoptimierung: $L_{LoRA} = \tau_1(t)\Delta\sigma_c + \tau_2(t)\Delta\sigma_n$

wobei:

$\tau_1(t) = t^{h_1}$ (steigende Funktion zur Beschränkung der sauberen LoRA)
$\tau_2(t) = t^{-h_2}$ (fallende Funktion zur Beschränkung der verrauschten LoRA)
$\Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c||$ (Parameteränderungsmenge)

Optimierungsziel des Detektors: Verwendung der Reinheitswahrscheinlichkeit für Binärklassifizierung: $p_i^c = \frac{e^{CE(f(x_i,w_0+\Delta w_c),y_i)}}{e^{CE(f(x_i,w_0+\Delta w_c),y_i)} + e^{CE(f(x_i,w_0+\Delta w_n),y_i)}}$

Gesamtes Optimierungsziel: $L = L_{ce} + L_{LoRA} + L_{Detector}$

Phase 2: Training des Klassifizierungsmodells

Saubere Proben: Direktes Training mit Kreuzentropieverlust
Verrauschte Proben: Nach Neuannotation durch GPT-4o mit umgekehrtem Kreuzentropieverlust für robustes Lernen

Technische Innovationen

Entkoppeltes Design: Vollständige Trennung von Probenauswahl und Modelltraining zur Vermeidung gegenseitiger Beeinflussung
Nutzung von Gedächtniseffekten: Geschickte Nutzung der Eigenschaft, dass tiefe Netzwerke zuerst saubere Proben und dann verrauschte Proben speichern
Lernbarer Schwellenwert: Verwendung der Vorhersage durch verrauschte LoRA als datengesteuerten Schwellenwert ohne manuelle Parametereinstellung
Funktionale Trennung auf Parameterebene: Realisierung funktionaler Trennung auf Parameterebene, unabhängig von spezifischer Architektur

Experimentelle Einrichtung

Datensätze

Synthetische verrauschte Datensätze:

Trec, SST-2, SST-5, 20ng, AGNews
Rauschtypen: symmetrisches Rauschen (S), asymmetrisches Rauschen (A), instanzabhängiges Rauschen (I)
Rauschrate: 20%, 40%

Echte verrauschte Datensätze:

Hausa (Rauschrate 50,37%)
Yorùbá (Rauschrate 33,28%)
AlleNoise (Rauschrate 15,00%)

Bewertungsmetriken

Phase der Rausch-Erkennung: Präzision (Precision) und Recall
Klassifizierungsphase: Test-Genauigkeit (Test Accuracy)

Vergleichsmethoden

Basismodell: Llama3.1-8B-Instruct
Rausch-Lernmethoden: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
Erkennungsmethoden: LLMs-detection, Small-loss strategy

Implementierungsdetails

Backbone-Modell: LLaMA-3.1-8B-Instruct
LoRA-Rang: r=32
Trainingsrunden: 8 Runden für Detektor, 6 Runden für Klassifizierer
Aufwärmrunden: 2 Runden
Lernrate: 1e-4, 5e-4

Experimentelle Ergebnisse

Hauptergebnisse

Leistung der Erkennung verrauschter Labels: Auf dem Trec-Datensatz zeigt Delora signifikante Verbesserungen gegenüber Baseline-Methoden:

20% symmetrisches Rauschen: Präzision 99,47% vs. 81,15% (Small-loss)
40% asymmetrisches Rauschen: Recall 97,27% vs. 96,20% (Small-loss)

Leistung der Textklassifizierung:

Datensatz	Rausch-Einstellung	Base	NoiseAL	Delora
Trec	20%S	95,20	97,30	98,46
Trec	40%A	87,40	95,95	97,40
SST-5	20%S	54,08	55,00	57,39

Ergebnisse auf echten verrauschten Datensätzen:

Datensatz	Rauschrate	NoiseAL	Delora	Verbesserung
Hausa	50,37%	52,34	60,12	+7,78%
Yorùbá	33,28%	72,13	78,56	+6,43%

Ablationsstudien

Ablationsstudien auf dem Trec-Datensatz zeigen:

Entfernung des Detektors für verrauschte Labels (NLD): Leistung sinkt deutlich (98,46→95,20)
Entfernung des Klassifizierer-Trainings (CT): Leistung sinkt erheblich
Entfernung verschiedener Optimierungsziele ( $L_{LoRA}$ , $L_{Detector}$ , $L_{ce}$ ): Alle führen zu Leistungsabfall
Entfernung der Neuannotation verrauschter Proben: Leistungsabfall um etwa 4%

Analyse der Gedächtniseffekte

Experimente validieren die Gedächtnismuster verschiedener LoRAs:

Saubere LoRA: Verstärkt die Speicherung sauberer Proben, reduziert die Speicherung verrauschter Proben
Verrauschte LoRA: Zeigt gegensätzliches Muster, absorbiert hauptsächlich negative Auswirkungen verrauschter Proben
Basismodell: Folgt dem Gedächtniseffekt, zuerst saubere Proben zu speichern, dann verrauschte Proben

Effizienzanalyse

Im Vergleich zur grundlegenden Single-LoRA-Methode:

Parameteranstieg: +13,6MB
Speicheranstieg: +3,2GB
Leistungsverbesserung: +3,26%~+10%

Die Analyse der Parameter- und Speichereffizienz zeigt, dass Delora eine bessere Pareto-Front im dreidimensionalen Raum von Genauigkeit-Parameter-Speicher erreicht.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Die Entkopplung von Probenauswahl und Modelltraining kann effektiv den Teufelskreis beim Lernen mit verrauschten Labels vermeiden
Das Dual-LoRA-Design in Kombination mit Gedächtniseffekten kann effektiv zwischen sauberen und verrauschten Proben unterscheiden
Die Methode zeigt hervorragende Leistung bei verschiedenen Rauscheinstellungen und echten Datensätzen mit guter Generalisierungsfähigkeit

Einschränkungen

Skalierungsbeschränkung: Aufgrund von Ressourcenbeschränkungen nicht auf größeren Sprachmodellen (wie Llama-3.2 70B) validiert
Aufgabenbeschränkung: Experimente beschränkt auf Textklassifizierungsaufgaben, keine Erkundung anderer Aufgaben wie Textgenerierung
Rechenkomplexität: Das Dual-LoRA-Design erhöht zusätzliche Parameter und Rechenkosten

Zukünftige Richtungen

Erweiterung auf größere Sprachmodelle
Erkundung der Anwendung bei Textgenerierungsaufgaben
Weitere Optimierung der Rechen- und Parametereffizienz

Tiefgreifende Bewertung

Stärken

Starke Innovativität:
- Erstmalige Vorschlag eines Frameworks zur Entkopplung von Probenauswahl und Modelltraining, löst grundlegend das Teufelskreis-Problem
- Dual-LoRA-Design nutzt geschickt Gedächtniseffekte zur Realisierung funktionaler Trennung auf Parameterebene
Solide theoretische Grundlagen:
- Theoretische Unterstützung basierend auf Gedächtniseffekten tiefer Netzwerke
- Klare mathematische Herleitung, vernünftige Optimierungsziele
Umfangreiche Experimente:
- Abdeckung verschiedener Rauschtypen und Rauschquoten
- Einbeziehung synthetischer und echter verrauschter Datensätze
- Detaillierte Ablationsstudien und Analysen
Hoher praktischer Wert:
- Keine manuelle Schwellenwerteinstellung erforderlich
- Adaptierbar an verschiedene Klassifizierermodelle
- Hervorragende Leistung in hochrauschigen Szenarien

Schwächen

Rechenkomplexität:
- Zweistufiges Training erhöht die Trainingszeit
- Dual-LoRA-Design erhöht Parametermenge und Speicherverbrauch
Empfindlichkeit gegenüber Hyperparametern:
- Die dynamischen Beschränkungsfunktionen $h_1$ und $h_2$ müssen für verschiedene Rauschquoten angepasst werden
- Mangel an adaptiver Hyperparameter-Auswahlstrategie
Unzureichende theoretische Analyse:
- Mangel an theoretischen Garantien für Konvergenz der Methode
- Keine theoretischen Grenzen für die Genauigkeit der Rausch-Erkennung
Begrenzte Anwendbarkeit:
- Hauptsächlich auf Textklassifizierungsaufgaben ausgerichtet
- Effektivität bei anderen NLP-Aufgaben nicht validiert

Auswirkungen

Akademischer Beitrag:
- Bietet neue Lösungsansätze für das Lernfeld mit verrauschten Labels
- Fördert die Anwendung von PEFT-Methoden beim robusten Lernen
Praktischer Wert:
- Direkt anwendbar auf praktische Textklassifizierungsaufgaben
- Bietet effektive Werkzeuge zur Verarbeitung echter verrauschter Daten
Reproduzierbarkeit:
- Detaillierte Implementierungsdetails und Hyperparameter-Einstellungen
- Klare Algorithmusbeschreibung, leicht zu reproduzieren

Anwendungsszenarien

Textklassifizierungsaufgaben: Besonders geeignet für großflächige Textklassifizierungsszenarien mit niedriger Annotationsqualität
Ressourcenbegrenzte Umgebungen: PEFT-Eigenschaften machen es geeignet für Anwendungen mit begrenzten Rechenressourcen
Hochrauschige Umgebungen: Zeigt besonders hervorragende Leistung in Szenarien mit hoher Rauschquote (>40%)
Mehrsprachige Anwendungen: Hat Anwendungspotenzial bei Textklassifizierungsaufgaben in ressourcenarmem Sprachen

Referenzen

Dieses Papier zitiert wichtige Literatur aus den Bereichen Lernen mit verrauschten Labels und parametereffiziente Feinabstimmung, einschließlich:

Han et al. (2018) - Co-Teaching-Methode
Hu et al. (2022) - LoRA-Methode
Kim et al. (2024) - CleaR-Methode
Yuan et al. (2024) - NoiseAL-Methode

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung im Bereich des Lernens mit verrauschten Labels bietet. Durch geschicktes Entkoppelungsdesign und Dual-LoRA-Mechanismus werden die Kernprobleme bestehender Methoden effektiv gelöst. Die experimentelle Validierung ist umfassend und die Ergebnisse überzeugend. Trotz einiger Einschränkungen machen seine Innovativität und praktischer Wert es zu einem wichtigen Beitrag in diesem Bereich.