2025-11-17T20:07:13.334490

Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning

Yuan, Chen, Zhang
Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.
academic

Elimina le Erbacce, Poi Raccogli: L'Adattamento Dual Low-Rank è un Rilevatore Efficace di Etichette Rumorose per l'Apprendimento Robusto al Rumore

Informazioni Fondamentali

  • ID Articolo: 2510.10208
  • Titolo: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
  • Autori: Bo Yuan, Yulin Chen, Yin Zhang (Università di Zhejiang)
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: 11 ottobre 2024
  • Link Articolo: https://arxiv.org/abs/2510.10208v1

Riassunto

L'ottimizzazione parametrica efficiente (PEFT) dei modelli linguistici di grandi dimensioni dimostra prestazioni eccellenti in vari compiti a valle, tuttavia i dati di addestramento negli scenari reali contengono inevitabilmente etichette rumorose. I metodi di apprendimento con etichette rumorose esistenti generalmente selezionano campioni a bassa perdita per l'addestramento, ma questa selezione influisce sul calcolo della perdita nel turno successivo, e una selezione iniziale imprecisa crea un ciclo vizioso. Questo articolo propone il framework Delora, che rompe questo ciclo disaccoppiando la selezione dei campioni e l'addestramento del modello. Il framework introduce LoRA pulita e LoRA rumorosa per costruire un rilevatore di etichette rumorose, sfruttando l'effetto memoria affinché LoRA pulita memorizzi i dati puliti e LoRA rumorosa memorizzi i dati etichettati erroneamente, come soglia apprendibile per la selezione dei campioni. I risultati sperimentali dimostrano l'efficacia di Delora nel rilevamento di etichette rumorose e nei compiti di classificazione del testo.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Come affrontare il problema inevitabile delle etichette rumorose nei dati di addestramento durante l'ottimizzazione parametrica efficiente dei modelli linguistici di grandi dimensioni
  2. Importanza: Il processo di raccolta dati nel mondo reale contiene necessariamente errori di annotazione, che influiscono gravemente sulle prestazioni del modello e sulla capacità di generalizzazione
  3. Limitazioni dei Metodi Esistenti:
    • La strategia tradizionale di selezione a bassa perdita presenta il problema del "ciclo vizioso": la selezione dei campioni influisce sul calcolo della perdita, e il calcolo della perdita influisce sulla selezione dei campioni
    • Dipende dall'impostazione manuale della soglia, con praticità limitata
    • Le prestazioni sono instabili in scenari ad alto rumore

Motivazione della Ricerca

Gli autori osservano che il problema fondamentale dei metodi esistenti risiede nella relazione di accoppiamento tra la selezione dei campioni e l'addestramento del modello, proponendo un'intuizione chiave: è possibile disaccoppiare la selezione dei campioni dall'addestramento del modello, rendendoli indipendenti? Questo ragionamento ha ispirato il design del framework centrale di questo articolo.

Contributi Fondamentali

  1. Propone un Framework Disaccoppiato: Per la prima volta, decompone il compito di apprendimento con etichette rumorose in due fasi indipendenti di selezione dei campioni e addestramento del modello, evitando efficacemente il ciclo vizioso
  2. Rilevatore Dual-LoRA Innovativo: Introduce LoRA pulita e LoRA rumorosa per memorizzare rispettivamente campioni puliti e campioni rumorosi, costruendo un rilevatore di etichette rumorose apprendibile
  3. Meccanismo di Vincoli Dinamici: Progetta una strategia di regolarizzazione dinamica basata sull'effetto memoria, controllando il modello di aggiornamento dei parametri di diversi LoRA
  4. Verifica Sperimentale Ampia: Verifica l'efficacia del metodo su set di dati con rumore sintetico e reale, ottenendo miglioramenti significativi sia nel rilevamento di etichette rumorose che nei compiti di classificazione del testo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un set di dati di addestramento D={(xi,yi)}i=1ND=\{(x_i, y_i)\}_{i=1}^N, dove y{1,,K}y \in \{1, \ldots, K\} è l'etichetta osservata, potenzialmente errata. L'obiettivo è imparare un classificatore robusto che possa raggiungere buone prestazioni di generalizzazione in presenza di etichette rumorose.

Architettura del Modello

Il framework Delora contiene due fasi fondamentali:

Fase 1: Addestramento del Rilevatore di Etichette Rumorose

Design Dual-LoRA:

  • LoRA Pulita (Δwc\Delta w_c): Parametri ideali, utilizzati per memorizzare campioni puliti
  • LoRA Rumorosa (Δwn\Delta w_n): Parametri rumorosi, utilizzati per memorizzare campioni etichettati erroneamente

Meccanismo di Soglia Apprendibile: Per l'ii-esimo campione di addestramento, la soglia apprendibile è definita come: ϕi=CE(f(xi,w0+Δwn),yi)\phi_i = CE(f(x_i, w_0 + \Delta w_n), y_i)

Criterio di selezione dei campioni: Dc={(xi,yi)CE(f(xi,w0+Δwc),yi)<ϕi}D_c = \{(x_i, y_i) | CE(f(x_i, w_0 + \Delta w_c), y_i) < \phi_i\}

Ottimizzazione con Vincoli Dinamici: LLoRA=τ1(t)Δσc+τ2(t)ΔσnL_{LoRA} = \tau_1(t)\Delta\sigma_c + \tau_2(t)\Delta\sigma_n

Dove:

  • τ1(t)=th1\tau_1(t) = t^{h_1} (funzione crescente, vincola LoRA pulita)
  • τ2(t)=th2\tau_2(t) = t^{-h_2} (funzione decrescente, vincola LoRA rumorosa)
  • \Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c|| (quantità di variazione dei parametri)

Obiettivo di Ottimizzazione del Rilevatore: Utilizza la probabilità di pulizia per la classificazione binaria: pic=eCE(f(xi,w0+Δwc),yi)eCE(f(xi,w0+Δwc),yi)+eCE(f(xi,w0+Δwn),yi)p_i^c = \frac{e^{CE(f(x_i,w_0+\Delta w_c),y_i)}}{e^{CE(f(x_i,w_0+\Delta w_c),y_i)} + e^{CE(f(x_i,w_0+\Delta w_n),y_i)}}

Obiettivo di ottimizzazione totale: L=Lce+LLoRA+LDetectorL = L_{ce} + L_{LoRA} + L_{Detector}

Fase 2: Addestramento del Classificatore

  • Campioni Puliti: Addestramento diretto utilizzando perdita di entropia incrociata
  • Campioni Rumorosi: Rietichettati utilizzando GPT-4o, addestramento robusto utilizzando perdita di entropia incrociata inversa

Punti di Innovazione Tecnica

  1. Design Disaccoppiato: Separa completamente la selezione dei campioni dall'addestramento del modello, evitando influenze reciproche
  2. Utilizzo dell'Effetto Memoria: Sfrutta abilmente la caratteristica che le reti profonde memorizzano prima i campioni puliti e poi i campioni rumorosi
  3. Soglia Apprendibile: Utilizza la previsione di LoRA rumorosa come soglia guidata dai dati, senza necessità di regolazione manuale
  4. Separazione Funzionale a Livello di Parametri: Realizza la separazione funzionale a livello di parametri, indipendente dall'architettura specifica

Configurazione Sperimentale

Set di Dati

Set di Dati con Rumore Sintetico:

  • Trec, SST-2, SST-5, 20ng, AGNews
  • Tipi di rumore: rumore simmetrico (S), rumore asimmetrico (A), rumore correlato all'istanza (I)
  • Tassi di rumore: 20%, 40%

Set di Dati con Rumore Reale:

  • Hausa (tasso di rumore 50,37%)
  • Yorùbá (tasso di rumore 33,28%)
  • AlleNoise (tasso di rumore 15,00%)

Metriche di Valutazione

  • Fase di Rilevamento del Rumore: Precisione (Precision) e Richiamo (Recall)
  • Fase di Classificazione: Accuratezza del Test (Test Accuracy)

Metodi di Confronto

  • Modello Base: Llama3.1-8B-Instruct
  • Metodi di Apprendimento con Rumore: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
  • Metodi di Rilevamento: LLMs-detection, Small-loss strategy

Dettagli di Implementazione

  • Modello Backbone: LLaMA-3.1-8B-Instruct
  • Rango LoRA: r=32
  • Epoche di Addestramento: 8 per il rilevatore, 6 per il classificatore
  • Epoche di Riscaldamento: 2
  • Tasso di Apprendimento: 1e-4, 5e-4

Risultati Sperimentali

Risultati Principali

Prestazioni di Rilevamento di Etichette Rumorose: Sul set di dati Trec, Delora mostra miglioramenti significativi rispetto ai metodi di base:

  • Rumore simmetrico 20%: Precisione 99,47% vs 81,15% (Small-loss)
  • Rumore asimmetrico 40%: Richiamo 97,27% vs 96,20% (Small-loss)

Prestazioni di Classificazione del Testo:

Set di DatiImpostazione RumoreBaseNoiseALDelora
Trec20%S95,2097,3098,46
Trec40%A87,4095,9597,40
SST-520%S54,0855,0057,39

Risultati su Set di Dati con Rumore Reale:

Set di DatiTasso di RumoreNoiseALDeloraMiglioramento
Hausa50,37%52,3460,12+7,78%
Yorùbá33,28%72,1378,56+6,43%

Esperimenti di Ablazione

Lo studio di ablazione sul set di dati Trec mostra:

  • Rimozione del Rilevatore di Etichette Rumorose (NLD): Calo significativo delle prestazioni (98,46→95,20)
  • Rimozione dell'Addestramento del Classificatore (CT): Riduzione significativa delle prestazioni
  • Rimozione di vari obiettivi di ottimizzazione (LLoRAL_{LoRA}, LDetectorL_{Detector}, LceL_{ce}): Tutti causano calo delle prestazioni
  • Rimozione della rietichettatura dei campioni rumorosi: Calo delle prestazioni di circa il 4%

Analisi dell'Effetto Memoria

L'esperimento verifica i modelli di memoria di diversi LoRA:

  • LoRA Pulita: Potenzia la memoria dei campioni puliti, riduce la memoria dei campioni rumorosi
  • LoRA Rumorosa: Mostra il modello opposto, assorbe principalmente gli effetti negativi dei campioni rumorosi
  • Modello Base: Segue l'effetto memoria di memorizzazione prima dei campioni puliti e poi dei campioni rumorosi

Analisi dell'Efficienza

Rispetto al metodo base con singolo LoRA:

  • Aumento dei Parametri: +13,6MB
  • Aumento della Memoria: +3,2GB
  • Miglioramento delle Prestazioni: +3,26%~+10%

L'analisi dell'efficienza parametrica e della memoria mostra che Delora raggiunge una frontiera di Pareto più ottimale nello spazio tridimensionale di accuratezza-parametri-memoria.

Lavori Correlati

Apprendimento con Etichette Rumorose

  • Metodi di Selezione dei Campioni: Co-Teaching, SelfMix e altri basati sul meccanismo di bassa perdita
  • Impostazione della Soglia: Strategia di soglia fissa vs soglia dinamica
  • Limitazioni: Dipendono dal modello durante l'addestramento, facilmente intrappolati in cicli viziosi

Ottimizzazione Parametrica Efficiente

  • Metodi Principali: LoRA, Adapter, Prompt tuning
  • Robustezza al Rumore: Metodi come CleaR esplorano le prestazioni di PEFT in ambienti rumorosi
  • Contributo di questo Articolo: Sfrutta la capacità limitata di PEFT per memorizzare separatamente campioni puliti e rumorosi

Conclusioni e Discussione

Conclusioni Principali

  1. Il disaccoppiamento della selezione dei campioni e dell'addestramento del modello può evitare efficacemente il problema del ciclo vizioso nell'apprendimento con etichette rumorose
  2. Il design Dual-LoRA combinato con l'effetto memoria può distinguere efficacemente i campioni puliti dai campioni rumorosi
  3. Il metodo mostra prestazioni eccellenti in varie impostazioni di rumore e su set di dati reali, con buona capacità di generalizzazione

Limitazioni

  1. Limitazioni di Scala: Vincolato dalle risorse, non verificato su modelli linguistici più grandi (come Llama-3.2 70B)
  2. Limitazioni dei Compiti: Gli esperimenti sono limitati ai compiti di classificazione del testo, non esplorano altri compiti come la generazione di testo
  3. Costi Computazionali: Il design Dual-LoRA aggiunge parametri e costi computazionali aggiuntivi

Direzioni Future

  1. Estensione a modelli linguistici di scala più grande
  2. Esplorazione dell'applicazione nei compiti di generazione di testo
  3. Ulteriore ottimizzazione dell'efficienza computazionale e parametrica

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività:
    • Propone per la prima volta un framework che disaccoppia la selezione dei campioni e l'addestramento del modello, risolvendo fondamentalmente il problema del ciclo vizioso
    • Il design Dual-LoRA sfrutta abilmente l'effetto memoria, realizzando la separazione funzionale a livello di parametri
  2. Fondamenti Teorici Solidi:
    • Supportato dalla teoria dell'effetto memoria delle reti profonde
    • Derivazione chiara delle formule matematiche, obiettivi di ottimizzazione ragionevoli
  3. Esperimenti Completi:
    • Copertura di vari tipi di rumore e tassi di rumore
    • Include set di dati con rumore sintetico e reale
    • Esperimenti di ablazione e analisi dettagliati
  4. Alto Valore Pratico:
    • Non richiede impostazione manuale della soglia
    • Adattabile a diversi modelli di classificazione
    • Prestazioni eccellenti in scenari ad alto rumore

Punti Deboli

  1. Complessità Computazionale:
    • L'addestramento in due fasi aumenta il tempo di addestramento
    • Il design Dual-LoRA aumenta la quantità di parametri e il consumo di memoria
  2. Sensibilità ai Iperparametri:
    • Le funzioni di vincolo dinamico con h1h_1 e h2h_2 necessitano di regolazione per diversi tassi di rumore
    • Mancanza di strategie di selezione adattive degli iperparametri
  3. Analisi Teorica Insufficiente:
    • Mancanza di garanzie teoriche sulla convergenza del metodo
    • Non fornisce limiti teorici per l'accuratezza del rilevamento del rumore
  4. Limitazioni dell'Ambito di Applicazione:
    • Principalmente orientato ai compiti di classificazione del testo
    • L'efficacia su altri compiti NLP non è verificata

Impatto

  1. Contributi Accademici:
    • Fornisce una nuova prospettiva di soluzione al campo dell'apprendimento con etichette rumorose
    • Promuove l'applicazione dei metodi PEFT nell'apprendimento robusto
  2. Valore Pratico:
    • Applicabile direttamente ai compiti di classificazione del testo reale
    • Fornisce uno strumento efficace per affrontare i dati rumorosi nel mondo reale
  3. Riproducibilità:
    • Fornisce dettagli di implementazione e impostazioni di iperparametri dettagliati
    • Descrizione dell'algoritmo chiara, facile da riprodurre

Scenari Applicabili

  1. Compiti di Classificazione del Testo: Particolarmente adatto a scenari di classificazione del testo su larga scala con qualità di annotazione non elevata
  2. Ambienti con Risorse Limitate: La caratteristica PEFT lo rende adatto a scenari di applicazione con risorse computazionali limitate
  3. Ambienti ad Alto Rumore: Prestazioni particolarmente eccellenti in scenari con tassi di rumore elevati (>40%)
  4. Applicazioni Multilingue: Ha potenziale di applicazione nei compiti di classificazione del testo in lingue a basse risorse

Bibliografia

Questo articolo cita importanti letterature nei campi dell'apprendimento con etichette rumorose e dell'ottimizzazione parametrica efficiente, incluse:

  • Han et al. (2018) - Metodo Co-Teaching
  • Hu et al. (2022) - Metodo LoRA
  • Kim et al. (2024) - Metodo CleaR
  • Yuan et al. (2024) - Metodo NoiseAL

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa nel campo dell'apprendimento con etichette rumorose. Attraverso un design intelligente di disaccoppiamento e il meccanismo Dual-LoRA, risolve efficacemente i problemi fondamentali dei metodi esistenti. La verifica sperimentale è completa e i risultati sono convincenti. Nonostante alcune limitazioni, la sua innovatività e il valore pratico lo rendono un importante contributo a questo campo.