Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.
- ID Articolo: 2510.10208
- Titolo: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
- Autori: Bo Yuan, Yulin Chen, Yin Zhang (Università di Zhejiang)
- Classificazione: cs.CL (Linguistica Computazionale)
- Data di Pubblicazione: 11 ottobre 2024
- Link Articolo: https://arxiv.org/abs/2510.10208v1
L'ottimizzazione parametrica efficiente (PEFT) dei modelli linguistici di grandi dimensioni dimostra prestazioni eccellenti in vari compiti a valle, tuttavia i dati di addestramento negli scenari reali contengono inevitabilmente etichette rumorose. I metodi di apprendimento con etichette rumorose esistenti generalmente selezionano campioni a bassa perdita per l'addestramento, ma questa selezione influisce sul calcolo della perdita nel turno successivo, e una selezione iniziale imprecisa crea un ciclo vizioso. Questo articolo propone il framework Delora, che rompe questo ciclo disaccoppiando la selezione dei campioni e l'addestramento del modello. Il framework introduce LoRA pulita e LoRA rumorosa per costruire un rilevatore di etichette rumorose, sfruttando l'effetto memoria affinché LoRA pulita memorizzi i dati puliti e LoRA rumorosa memorizzi i dati etichettati erroneamente, come soglia apprendibile per la selezione dei campioni. I risultati sperimentali dimostrano l'efficacia di Delora nel rilevamento di etichette rumorose e nei compiti di classificazione del testo.
- Problema Centrale: Come affrontare il problema inevitabile delle etichette rumorose nei dati di addestramento durante l'ottimizzazione parametrica efficiente dei modelli linguistici di grandi dimensioni
- Importanza: Il processo di raccolta dati nel mondo reale contiene necessariamente errori di annotazione, che influiscono gravemente sulle prestazioni del modello e sulla capacità di generalizzazione
- Limitazioni dei Metodi Esistenti:
- La strategia tradizionale di selezione a bassa perdita presenta il problema del "ciclo vizioso": la selezione dei campioni influisce sul calcolo della perdita, e il calcolo della perdita influisce sulla selezione dei campioni
- Dipende dall'impostazione manuale della soglia, con praticità limitata
- Le prestazioni sono instabili in scenari ad alto rumore
Gli autori osservano che il problema fondamentale dei metodi esistenti risiede nella relazione di accoppiamento tra la selezione dei campioni e l'addestramento del modello, proponendo un'intuizione chiave: è possibile disaccoppiare la selezione dei campioni dall'addestramento del modello, rendendoli indipendenti? Questo ragionamento ha ispirato il design del framework centrale di questo articolo.
- Propone un Framework Disaccoppiato: Per la prima volta, decompone il compito di apprendimento con etichette rumorose in due fasi indipendenti di selezione dei campioni e addestramento del modello, evitando efficacemente il ciclo vizioso
- Rilevatore Dual-LoRA Innovativo: Introduce LoRA pulita e LoRA rumorosa per memorizzare rispettivamente campioni puliti e campioni rumorosi, costruendo un rilevatore di etichette rumorose apprendibile
- Meccanismo di Vincoli Dinamici: Progetta una strategia di regolarizzazione dinamica basata sull'effetto memoria, controllando il modello di aggiornamento dei parametri di diversi LoRA
- Verifica Sperimentale Ampia: Verifica l'efficacia del metodo su set di dati con rumore sintetico e reale, ottenendo miglioramenti significativi sia nel rilevamento di etichette rumorose che nei compiti di classificazione del testo
Dato un set di dati di addestramento D={(xi,yi)}i=1N, dove y∈{1,…,K} è l'etichetta osservata, potenzialmente errata. L'obiettivo è imparare un classificatore robusto che possa raggiungere buone prestazioni di generalizzazione in presenza di etichette rumorose.
Il framework Delora contiene due fasi fondamentali:
Design Dual-LoRA:
- LoRA Pulita (Δwc): Parametri ideali, utilizzati per memorizzare campioni puliti
- LoRA Rumorosa (Δwn): Parametri rumorosi, utilizzati per memorizzare campioni etichettati erroneamente
Meccanismo di Soglia Apprendibile:
Per l'i-esimo campione di addestramento, la soglia apprendibile è definita come:
ϕi=CE(f(xi,w0+Δwn),yi)
Criterio di selezione dei campioni:
Dc={(xi,yi)∣CE(f(xi,w0+Δwc),yi)<ϕi}
Ottimizzazione con Vincoli Dinamici:
LLoRA=τ1(t)Δσc+τ2(t)Δσn
Dove:
- τ1(t)=th1 (funzione crescente, vincola LoRA pulita)
- τ2(t)=t−h2 (funzione decrescente, vincola LoRA rumorosa)
- \Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c|| (quantità di variazione dei parametri)
Obiettivo di Ottimizzazione del Rilevatore:
Utilizza la probabilità di pulizia per la classificazione binaria:
pic=eCE(f(xi,w0+Δwc),yi)+eCE(f(xi,w0+Δwn),yi)eCE(f(xi,w0+Δwc),yi)
Obiettivo di ottimizzazione totale: L=Lce+LLoRA+LDetector
- Campioni Puliti: Addestramento diretto utilizzando perdita di entropia incrociata
- Campioni Rumorosi: Rietichettati utilizzando GPT-4o, addestramento robusto utilizzando perdita di entropia incrociata inversa
- Design Disaccoppiato: Separa completamente la selezione dei campioni dall'addestramento del modello, evitando influenze reciproche
- Utilizzo dell'Effetto Memoria: Sfrutta abilmente la caratteristica che le reti profonde memorizzano prima i campioni puliti e poi i campioni rumorosi
- Soglia Apprendibile: Utilizza la previsione di LoRA rumorosa come soglia guidata dai dati, senza necessità di regolazione manuale
- Separazione Funzionale a Livello di Parametri: Realizza la separazione funzionale a livello di parametri, indipendente dall'architettura specifica
Set di Dati con Rumore Sintetico:
- Trec, SST-2, SST-5, 20ng, AGNews
- Tipi di rumore: rumore simmetrico (S), rumore asimmetrico (A), rumore correlato all'istanza (I)
- Tassi di rumore: 20%, 40%
Set di Dati con Rumore Reale:
- Hausa (tasso di rumore 50,37%)
- Yorùbá (tasso di rumore 33,28%)
- AlleNoise (tasso di rumore 15,00%)
- Fase di Rilevamento del Rumore: Precisione (Precision) e Richiamo (Recall)
- Fase di Classificazione: Accuratezza del Test (Test Accuracy)
- Modello Base: Llama3.1-8B-Instruct
- Metodi di Apprendimento con Rumore: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
- Metodi di Rilevamento: LLMs-detection, Small-loss strategy
- Modello Backbone: LLaMA-3.1-8B-Instruct
- Rango LoRA: r=32
- Epoche di Addestramento: 8 per il rilevatore, 6 per il classificatore
- Epoche di Riscaldamento: 2
- Tasso di Apprendimento: 1e-4, 5e-4
Prestazioni di Rilevamento di Etichette Rumorose:
Sul set di dati Trec, Delora mostra miglioramenti significativi rispetto ai metodi di base:
- Rumore simmetrico 20%: Precisione 99,47% vs 81,15% (Small-loss)
- Rumore asimmetrico 40%: Richiamo 97,27% vs 96,20% (Small-loss)
Prestazioni di Classificazione del Testo:
| Set di Dati | Impostazione Rumore | Base | NoiseAL | Delora |
|---|
| Trec | 20%S | 95,20 | 97,30 | 98,46 |
| Trec | 40%A | 87,40 | 95,95 | 97,40 |
| SST-5 | 20%S | 54,08 | 55,00 | 57,39 |
Risultati su Set di Dati con Rumore Reale:
| Set di Dati | Tasso di Rumore | NoiseAL | Delora | Miglioramento |
|---|
| Hausa | 50,37% | 52,34 | 60,12 | +7,78% |
| Yorùbá | 33,28% | 72,13 | 78,56 | +6,43% |
Lo studio di ablazione sul set di dati Trec mostra:
- Rimozione del Rilevatore di Etichette Rumorose (NLD): Calo significativo delle prestazioni (98,46→95,20)
- Rimozione dell'Addestramento del Classificatore (CT): Riduzione significativa delle prestazioni
- Rimozione di vari obiettivi di ottimizzazione (LLoRA, LDetector, Lce): Tutti causano calo delle prestazioni
- Rimozione della rietichettatura dei campioni rumorosi: Calo delle prestazioni di circa il 4%
L'esperimento verifica i modelli di memoria di diversi LoRA:
- LoRA Pulita: Potenzia la memoria dei campioni puliti, riduce la memoria dei campioni rumorosi
- LoRA Rumorosa: Mostra il modello opposto, assorbe principalmente gli effetti negativi dei campioni rumorosi
- Modello Base: Segue l'effetto memoria di memorizzazione prima dei campioni puliti e poi dei campioni rumorosi
Rispetto al metodo base con singolo LoRA:
- Aumento dei Parametri: +13,6MB
- Aumento della Memoria: +3,2GB
- Miglioramento delle Prestazioni: +3,26%~+10%
L'analisi dell'efficienza parametrica e della memoria mostra che Delora raggiunge una frontiera di Pareto più ottimale nello spazio tridimensionale di accuratezza-parametri-memoria.
- Metodi di Selezione dei Campioni: Co-Teaching, SelfMix e altri basati sul meccanismo di bassa perdita
- Impostazione della Soglia: Strategia di soglia fissa vs soglia dinamica
- Limitazioni: Dipendono dal modello durante l'addestramento, facilmente intrappolati in cicli viziosi
- Metodi Principali: LoRA, Adapter, Prompt tuning
- Robustezza al Rumore: Metodi come CleaR esplorano le prestazioni di PEFT in ambienti rumorosi
- Contributo di questo Articolo: Sfrutta la capacità limitata di PEFT per memorizzare separatamente campioni puliti e rumorosi
- Il disaccoppiamento della selezione dei campioni e dell'addestramento del modello può evitare efficacemente il problema del ciclo vizioso nell'apprendimento con etichette rumorose
- Il design Dual-LoRA combinato con l'effetto memoria può distinguere efficacemente i campioni puliti dai campioni rumorosi
- Il metodo mostra prestazioni eccellenti in varie impostazioni di rumore e su set di dati reali, con buona capacità di generalizzazione
- Limitazioni di Scala: Vincolato dalle risorse, non verificato su modelli linguistici più grandi (come Llama-3.2 70B)
- Limitazioni dei Compiti: Gli esperimenti sono limitati ai compiti di classificazione del testo, non esplorano altri compiti come la generazione di testo
- Costi Computazionali: Il design Dual-LoRA aggiunge parametri e costi computazionali aggiuntivi
- Estensione a modelli linguistici di scala più grande
- Esplorazione dell'applicazione nei compiti di generazione di testo
- Ulteriore ottimizzazione dell'efficienza computazionale e parametrica
- Forte Innovatività:
- Propone per la prima volta un framework che disaccoppia la selezione dei campioni e l'addestramento del modello, risolvendo fondamentalmente il problema del ciclo vizioso
- Il design Dual-LoRA sfrutta abilmente l'effetto memoria, realizzando la separazione funzionale a livello di parametri
- Fondamenti Teorici Solidi:
- Supportato dalla teoria dell'effetto memoria delle reti profonde
- Derivazione chiara delle formule matematiche, obiettivi di ottimizzazione ragionevoli
- Esperimenti Completi:
- Copertura di vari tipi di rumore e tassi di rumore
- Include set di dati con rumore sintetico e reale
- Esperimenti di ablazione e analisi dettagliati
- Alto Valore Pratico:
- Non richiede impostazione manuale della soglia
- Adattabile a diversi modelli di classificazione
- Prestazioni eccellenti in scenari ad alto rumore
- Complessità Computazionale:
- L'addestramento in due fasi aumenta il tempo di addestramento
- Il design Dual-LoRA aumenta la quantità di parametri e il consumo di memoria
- Sensibilità ai Iperparametri:
- Le funzioni di vincolo dinamico con h1 e h2 necessitano di regolazione per diversi tassi di rumore
- Mancanza di strategie di selezione adattive degli iperparametri
- Analisi Teorica Insufficiente:
- Mancanza di garanzie teoriche sulla convergenza del metodo
- Non fornisce limiti teorici per l'accuratezza del rilevamento del rumore
- Limitazioni dell'Ambito di Applicazione:
- Principalmente orientato ai compiti di classificazione del testo
- L'efficacia su altri compiti NLP non è verificata
- Contributi Accademici:
- Fornisce una nuova prospettiva di soluzione al campo dell'apprendimento con etichette rumorose
- Promuove l'applicazione dei metodi PEFT nell'apprendimento robusto
- Valore Pratico:
- Applicabile direttamente ai compiti di classificazione del testo reale
- Fornisce uno strumento efficace per affrontare i dati rumorosi nel mondo reale
- Riproducibilità:
- Fornisce dettagli di implementazione e impostazioni di iperparametri dettagliati
- Descrizione dell'algoritmo chiara, facile da riprodurre
- Compiti di Classificazione del Testo: Particolarmente adatto a scenari di classificazione del testo su larga scala con qualità di annotazione non elevata
- Ambienti con Risorse Limitate: La caratteristica PEFT lo rende adatto a scenari di applicazione con risorse computazionali limitate
- Ambienti ad Alto Rumore: Prestazioni particolarmente eccellenti in scenari con tassi di rumore elevati (>40%)
- Applicazioni Multilingue: Ha potenziale di applicazione nei compiti di classificazione del testo in lingue a basse risorse
Questo articolo cita importanti letterature nei campi dell'apprendimento con etichette rumorose e dell'ottimizzazione parametrica efficiente, incluse:
- Han et al. (2018) - Metodo Co-Teaching
- Hu et al. (2022) - Metodo LoRA
- Kim et al. (2024) - Metodo CleaR
- Yuan et al. (2024) - Metodo NoiseAL
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa nel campo dell'apprendimento con etichette rumorose. Attraverso un design intelligente di disaccoppiamento e il meccanismo Dual-LoRA, risolve efficacemente i problemi fondamentali dei metodi esistenti. La verifica sperimentale è completa e i risultati sono convincenti. Nonostante alcune limitazioni, la sua innovatività e il valore pratico lo rendono un importante contributo a questo campo.