2025-11-17T20:07:13.334490

Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning

Yuan, Chen, Zhang

Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.

academic

Elimina le Erbacce, Poi Raccogli: L'Adattamento Dual Low-Rank è un Rilevatore Efficace di Etichette Rumorose per l'Apprendimento Robusto al Rumore

Informazioni Fondamentali

ID Articolo: 2510.10208
Titolo: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
Autori: Bo Yuan, Yulin Chen, Yin Zhang (Università di Zhejiang)
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione: 11 ottobre 2024
Link Articolo: https://arxiv.org/abs/2510.10208v1

Riassunto

L'ottimizzazione parametrica efficiente (PEFT) dei modelli linguistici di grandi dimensioni dimostra prestazioni eccellenti in vari compiti a valle, tuttavia i dati di addestramento negli scenari reali contengono inevitabilmente etichette rumorose. I metodi di apprendimento con etichette rumorose esistenti generalmente selezionano campioni a bassa perdita per l'addestramento, ma questa selezione influisce sul calcolo della perdita nel turno successivo, e una selezione iniziale imprecisa crea un ciclo vizioso. Questo articolo propone il framework Delora, che rompe questo ciclo disaccoppiando la selezione dei campioni e l'addestramento del modello. Il framework introduce LoRA pulita e LoRA rumorosa per costruire un rilevatore di etichette rumorose, sfruttando l'effetto memoria affinché LoRA pulita memorizzi i dati puliti e LoRA rumorosa memorizzi i dati etichettati erroneamente, come soglia apprendibile per la selezione dei campioni. I risultati sperimentali dimostrano l'efficacia di Delora nel rilevamento di etichette rumorose e nei compiti di classificazione del testo.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Come affrontare il problema inevitabile delle etichette rumorose nei dati di addestramento durante l'ottimizzazione parametrica efficiente dei modelli linguistici di grandi dimensioni
Importanza: Il processo di raccolta dati nel mondo reale contiene necessariamente errori di annotazione, che influiscono gravemente sulle prestazioni del modello e sulla capacità di generalizzazione
Limitazioni dei Metodi Esistenti:
- La strategia tradizionale di selezione a bassa perdita presenta il problema del "ciclo vizioso": la selezione dei campioni influisce sul calcolo della perdita, e il calcolo della perdita influisce sulla selezione dei campioni
- Dipende dall'impostazione manuale della soglia, con praticità limitata
- Le prestazioni sono instabili in scenari ad alto rumore

Motivazione della Ricerca

Gli autori osservano che il problema fondamentale dei metodi esistenti risiede nella relazione di accoppiamento tra la selezione dei campioni e l'addestramento del modello, proponendo un'intuizione chiave: è possibile disaccoppiare la selezione dei campioni dall'addestramento del modello, rendendoli indipendenti? Questo ragionamento ha ispirato il design del framework centrale di questo articolo.

Contributi Fondamentali

Propone un Framework Disaccoppiato: Per la prima volta, decompone il compito di apprendimento con etichette rumorose in due fasi indipendenti di selezione dei campioni e addestramento del modello, evitando efficacemente il ciclo vizioso
Rilevatore Dual-LoRA Innovativo: Introduce LoRA pulita e LoRA rumorosa per memorizzare rispettivamente campioni puliti e campioni rumorosi, costruendo un rilevatore di etichette rumorose apprendibile
Meccanismo di Vincoli Dinamici: Progetta una strategia di regolarizzazione dinamica basata sull'effetto memoria, controllando il modello di aggiornamento dei parametri di diversi LoRA
Verifica Sperimentale Ampia: Verifica l'efficacia del metodo su set di dati con rumore sintetico e reale, ottenendo miglioramenti significativi sia nel rilevamento di etichette rumorose che nei compiti di classificazione del testo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un set di dati di addestramento $D=\{(x_i, y_i)\}_{i=1}^N$ , dove $y \in \{1, \ldots, K\}$ è l'etichetta osservata, potenzialmente errata. L'obiettivo è imparare un classificatore robusto che possa raggiungere buone prestazioni di generalizzazione in presenza di etichette rumorose.

Architettura del Modello

Il framework Delora contiene due fasi fondamentali:

Fase 1: Addestramento del Rilevatore di Etichette Rumorose

Design Dual-LoRA:

LoRA Pulita ( $\Delta w_c$ ): Parametri ideali, utilizzati per memorizzare campioni puliti
LoRA Rumorosa ( $\Delta w_n$ ): Parametri rumorosi, utilizzati per memorizzare campioni etichettati erroneamente

Meccanismo di Soglia Apprendibile: Per l' $i$ -esimo campione di addestramento, la soglia apprendibile è definita come: $\phi_i = CE(f(x_i, w_0 + \Delta w_n), y_i)$

Criterio di selezione dei campioni: $D_c = \{(x_i, y_i) | CE(f(x_i, w_0 + \Delta w_c), y_i) < \phi_i\}$

Ottimizzazione con Vincoli Dinamici: $L_{LoRA} = \tau_1(t)\Delta\sigma_c + \tau_2(t)\Delta\sigma_n$

Dove:

$\tau_1(t) = t^{h_1}$ (funzione crescente, vincola LoRA pulita)
$\tau_2(t) = t^{-h_2}$ (funzione decrescente, vincola LoRA rumorosa)
$\Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c||$ (quantità di variazione dei parametri)

Obiettivo di Ottimizzazione del Rilevatore: Utilizza la probabilità di pulizia per la classificazione binaria: $p_i^c = \frac{e^{CE(f(x_i,w_0+\Delta w_c),y_i)}}{e^{CE(f(x_i,w_0+\Delta w_c),y_i)} + e^{CE(f(x_i,w_0+\Delta w_n),y_i)}}$

Obiettivo di ottimizzazione totale: $L = L_{ce} + L_{LoRA} + L_{Detector}$

Fase 2: Addestramento del Classificatore

Campioni Puliti: Addestramento diretto utilizzando perdita di entropia incrociata
Campioni Rumorosi: Rietichettati utilizzando GPT-4o, addestramento robusto utilizzando perdita di entropia incrociata inversa

Punti di Innovazione Tecnica

Design Disaccoppiato: Separa completamente la selezione dei campioni dall'addestramento del modello, evitando influenze reciproche
Utilizzo dell'Effetto Memoria: Sfrutta abilmente la caratteristica che le reti profonde memorizzano prima i campioni puliti e poi i campioni rumorosi
Soglia Apprendibile: Utilizza la previsione di LoRA rumorosa come soglia guidata dai dati, senza necessità di regolazione manuale
Separazione Funzionale a Livello di Parametri: Realizza la separazione funzionale a livello di parametri, indipendente dall'architettura specifica

Configurazione Sperimentale

Set di Dati

Set di Dati con Rumore Sintetico:

Trec, SST-2, SST-5, 20ng, AGNews
Tipi di rumore: rumore simmetrico (S), rumore asimmetrico (A), rumore correlato all'istanza (I)
Tassi di rumore: 20%, 40%

Set di Dati con Rumore Reale:

Hausa (tasso di rumore 50,37%)
Yorùbá (tasso di rumore 33,28%)
AlleNoise (tasso di rumore 15,00%)

Metriche di Valutazione

Fase di Rilevamento del Rumore: Precisione (Precision) e Richiamo (Recall)
Fase di Classificazione: Accuratezza del Test (Test Accuracy)

Metodi di Confronto

Modello Base: Llama3.1-8B-Instruct
Metodi di Apprendimento con Rumore: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
Metodi di Rilevamento: LLMs-detection, Small-loss strategy

Dettagli di Implementazione

Modello Backbone: LLaMA-3.1-8B-Instruct
Rango LoRA: r=32
Epoche di Addestramento: 8 per il rilevatore, 6 per il classificatore
Epoche di Riscaldamento: 2
Tasso di Apprendimento: 1e-4, 5e-4

Risultati Sperimentali

Risultati Principali

Prestazioni di Rilevamento di Etichette Rumorose: Sul set di dati Trec, Delora mostra miglioramenti significativi rispetto ai metodi di base:

Rumore simmetrico 20%: Precisione 99,47% vs 81,15% (Small-loss)
Rumore asimmetrico 40%: Richiamo 97,27% vs 96,20% (Small-loss)

Prestazioni di Classificazione del Testo:

Set di Dati	Impostazione Rumore	Base	NoiseAL	Delora
Trec	20%S	95,20	97,30	98,46
Trec	40%A	87,40	95,95	97,40
SST-5	20%S	54,08	55,00	57,39

Risultati su Set di Dati con Rumore Reale:

Set di Dati	Tasso di Rumore	NoiseAL	Delora	Miglioramento
Hausa	50,37%	52,34	60,12	+7,78%
Yorùbá	33,28%	72,13	78,56	+6,43%

Esperimenti di Ablazione

Lo studio di ablazione sul set di dati Trec mostra:

Rimozione del Rilevatore di Etichette Rumorose (NLD): Calo significativo delle prestazioni (98,46→95,20)
Rimozione dell'Addestramento del Classificatore (CT): Riduzione significativa delle prestazioni
Rimozione di vari obiettivi di ottimizzazione ( $L_{LoRA}$ , $L_{Detector}$ , $L_{ce}$ ): Tutti causano calo delle prestazioni
Rimozione della rietichettatura dei campioni rumorosi: Calo delle prestazioni di circa il 4%

Analisi dell'Effetto Memoria

L'esperimento verifica i modelli di memoria di diversi LoRA:

LoRA Pulita: Potenzia la memoria dei campioni puliti, riduce la memoria dei campioni rumorosi
LoRA Rumorosa: Mostra il modello opposto, assorbe principalmente gli effetti negativi dei campioni rumorosi
Modello Base: Segue l'effetto memoria di memorizzazione prima dei campioni puliti e poi dei campioni rumorosi

Analisi dell'Efficienza

Rispetto al metodo base con singolo LoRA:

Aumento dei Parametri: +13,6MB
Aumento della Memoria: +3,2GB
Miglioramento delle Prestazioni: +3,26%~+10%

L'analisi dell'efficienza parametrica e della memoria mostra che Delora raggiunge una frontiera di Pareto più ottimale nello spazio tridimensionale di accuratezza-parametri-memoria.

Lavori Correlati

Apprendimento con Etichette Rumorose

Metodi di Selezione dei Campioni: Co-Teaching, SelfMix e altri basati sul meccanismo di bassa perdita
Impostazione della Soglia: Strategia di soglia fissa vs soglia dinamica
Limitazioni: Dipendono dal modello durante l'addestramento, facilmente intrappolati in cicli viziosi

Ottimizzazione Parametrica Efficiente

Metodi Principali: LoRA, Adapter, Prompt tuning
Robustezza al Rumore: Metodi come CleaR esplorano le prestazioni di PEFT in ambienti rumorosi
Contributo di questo Articolo: Sfrutta la capacità limitata di PEFT per memorizzare separatamente campioni puliti e rumorosi

Conclusioni e Discussione

Conclusioni Principali

Il disaccoppiamento della selezione dei campioni e dell'addestramento del modello può evitare efficacemente il problema del ciclo vizioso nell'apprendimento con etichette rumorose
Il design Dual-LoRA combinato con l'effetto memoria può distinguere efficacemente i campioni puliti dai campioni rumorosi
Il metodo mostra prestazioni eccellenti in varie impostazioni di rumore e su set di dati reali, con buona capacità di generalizzazione

Limitazioni

Limitazioni di Scala: Vincolato dalle risorse, non verificato su modelli linguistici più grandi (come Llama-3.2 70B)
Limitazioni dei Compiti: Gli esperimenti sono limitati ai compiti di classificazione del testo, non esplorano altri compiti come la generazione di testo
Costi Computazionali: Il design Dual-LoRA aggiunge parametri e costi computazionali aggiuntivi

Direzioni Future

Estensione a modelli linguistici di scala più grande
Esplorazione dell'applicazione nei compiti di generazione di testo
Ulteriore ottimizzazione dell'efficienza computazionale e parametrica

Valutazione Approfondita

Punti di Forza

Forte Innovatività:
- Propone per la prima volta un framework che disaccoppia la selezione dei campioni e l'addestramento del modello, risolvendo fondamentalmente il problema del ciclo vizioso
- Il design Dual-LoRA sfrutta abilmente l'effetto memoria, realizzando la separazione funzionale a livello di parametri
Fondamenti Teorici Solidi:
- Supportato dalla teoria dell'effetto memoria delle reti profonde
- Derivazione chiara delle formule matematiche, obiettivi di ottimizzazione ragionevoli
Esperimenti Completi:
- Copertura di vari tipi di rumore e tassi di rumore
- Include set di dati con rumore sintetico e reale
- Esperimenti di ablazione e analisi dettagliati
Alto Valore Pratico:
- Non richiede impostazione manuale della soglia
- Adattabile a diversi modelli di classificazione
- Prestazioni eccellenti in scenari ad alto rumore

Punti Deboli

Complessità Computazionale:
- L'addestramento in due fasi aumenta il tempo di addestramento
- Il design Dual-LoRA aumenta la quantità di parametri e il consumo di memoria
Sensibilità ai Iperparametri:
- Le funzioni di vincolo dinamico con $h_1$ e $h_2$ necessitano di regolazione per diversi tassi di rumore
- Mancanza di strategie di selezione adattive degli iperparametri
Analisi Teorica Insufficiente:
- Mancanza di garanzie teoriche sulla convergenza del metodo
- Non fornisce limiti teorici per l'accuratezza del rilevamento del rumore
Limitazioni dell'Ambito di Applicazione:
- Principalmente orientato ai compiti di classificazione del testo
- L'efficacia su altri compiti NLP non è verificata

Impatto

Contributi Accademici:
- Fornisce una nuova prospettiva di soluzione al campo dell'apprendimento con etichette rumorose
- Promuove l'applicazione dei metodi PEFT nell'apprendimento robusto
Valore Pratico:
- Applicabile direttamente ai compiti di classificazione del testo reale
- Fornisce uno strumento efficace per affrontare i dati rumorosi nel mondo reale
Riproducibilità:
- Fornisce dettagli di implementazione e impostazioni di iperparametri dettagliati
- Descrizione dell'algoritmo chiara, facile da riprodurre

Scenari Applicabili

Compiti di Classificazione del Testo: Particolarmente adatto a scenari di classificazione del testo su larga scala con qualità di annotazione non elevata
Ambienti con Risorse Limitate: La caratteristica PEFT lo rende adatto a scenari di applicazione con risorse computazionali limitate
Ambienti ad Alto Rumore: Prestazioni particolarmente eccellenti in scenari con tassi di rumore elevati (>40%)
Applicazioni Multilingue: Ha potenziale di applicazione nei compiti di classificazione del testo in lingue a basse risorse

Bibliografia

Questo articolo cita importanti letterature nei campi dell'apprendimento con etichette rumorose e dell'ottimizzazione parametrica efficiente, incluse:

Han et al. (2018) - Metodo Co-Teaching
Hu et al. (2022) - Metodo LoRA
Kim et al. (2024) - Metodo CleaR
Yuan et al. (2024) - Metodo NoiseAL

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa nel campo dell'apprendimento con etichette rumorose. Attraverso un design intelligente di disaccoppiamento e il meccanismo Dual-LoRA, risolve efficacemente i problemi fondamentali dei metodi esistenti. La verifica sperimentale è completa e i risultati sono convincenti. Nonostante alcune limitazioni, la sua innovatività e il valore pratico lo rendono un importante contributo a questo campo.