Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.
- ID del Artículo: 2510.10208
- Título: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
- Autores: Bo Yuan, Yulin Chen, Yin Zhang (Universidad de Zhejiang)
- Clasificación: cs.CL (Lingüística Computacional)
- Fecha de Publicación: 11 de octubre de 2024
- Enlace del Artículo: https://arxiv.org/abs/2510.10208v1
El ajuste fino eficiente en parámetros (PEFT) de modelos de lenguaje grande demuestra un desempeño excepcional en diversas tareas posteriores, pero los datos de entrenamiento en escenarios reales inevitablemente contienen etiquetas ruidosas. Los métodos existentes de aprendizaje con etiquetas ruidosas típicamente seleccionan muestras de pérdida baja para el entrenamiento, pero esta selección afecta el cálculo de pérdida en la siguiente ronda, y la selección inicial inexacta crea un ciclo vicioso. Este artículo propone el marco Delora, que rompe este ciclo mediante el desacoplamiento de la selección de muestras y el entrenamiento del modelo. El marco introduce LoRA limpia y LoRA ruidosa para construir un detector de etiquetas ruidosas, aprovechando el efecto de memoria para que LoRA limpia memorice datos limpios y LoRA ruidosa memorice datos etiquetados incorrectamente, actuando como un umbral aprendible para la selección de muestras. Los resultados experimentales demuestran la efectividad de Delora en la detección de etiquetas ruidosas y tareas de clasificación de texto.
- Problema Central: Cómo manejar el problema inevitable de etiquetas ruidosas en los datos de entrenamiento durante el ajuste fino eficiente en parámetros de modelos de lenguaje grande
- Importancia: El proceso de recopilación de datos del mundo real necesariamente contiene errores de anotación, lo que afecta gravemente el desempeño del modelo y la capacidad de generalización
- Limitaciones de Métodos Existentes:
- Las estrategias tradicionales de selección de pérdida baja sufren del problema del "ciclo vicioso": la selección de muestras afecta el cálculo de pérdida, y el cálculo de pérdida afecta la selección de muestras
- Dependen del establecimiento manual de umbrales, limitando la practicidad
- El desempeño es inestable en escenarios de alto ruido
Los autores observan que el problema fundamental de los métodos existentes radica en la relación acoplada entre la selección de muestras y el entrenamiento del modelo, proponiendo una idea clave: ¿Es posible desacoplar la selección de muestras del entrenamiento del modelo, haciéndolos independientes entre sí? Esta reflexión inspiró el diseño del marco central de este artículo.
- Marco de Desacoplamiento Propuesto: Por primera vez, descompone la tarea de aprendizaje con etiquetas ruidosas en dos etapas independientes: selección de muestras y entrenamiento del modelo, evitando efectivamente el ciclo vicioso
- Detector Dual de LoRA Innovador: Introduce LoRA limpia y LoRA ruidosa para memorizar respectivamente muestras limpias y muestras ruidosas, construyendo un detector de etiquetas ruidosas aprendible
- Mecanismo de Restricción Dinámica: Diseña una estrategia de regularización dinámica basada en el efecto de memoria, controlando los patrones de actualización de parámetros de diferentes LoRAs
- Verificación Experimental Amplia: Verifica la efectividad del método en conjuntos de datos con ruido sintético y real, logrando mejoras significativas tanto en tareas de detección de etiquetas ruidosas como en clasificación de texto
Dado un conjunto de datos de entrenamiento D={(xi,yi)}i=1N, donde y∈{1,…,K} es la etiqueta observada, que puede ser incorrecta. El objetivo es aprender un clasificador robusto que logre un buen desempeño de generalización en presencia de etiquetas ruidosas.
El marco Delora contiene dos etapas principales:
Diseño Dual de LoRA:
- LoRA Limpia (Δwc): Parámetros ideales, utilizados para memorizar muestras limpias
- LoRA Ruidosa (Δwn): Parámetros ruidosos, utilizados para memorizar muestras etiquetadas incorrectamente
Mecanismo de Umbral Aprendible:
Para la muestra de entrenamiento i-ésima, el umbral aprendible se define como:
ϕi=CE(f(xi,w0+Δwn),yi)
Criterio de selección de muestras:
Dc={(xi,yi)∣CE(f(xi,w0+Δwc),yi)<ϕi}
Optimización con Restricción Dinámica:
LLoRA=τ1(t)Δσc+τ2(t)Δσn
Donde:
- τ1(t)=th1 (función creciente, restringe LoRA limpia)
- τ2(t)=t−h2 (función decreciente, restringe LoRA ruidosa)
- \Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c|| (cantidad de cambio de parámetros)
Objetivo de Optimización del Detector:
Utiliza probabilidad limpia para clasificación binaria:
pic=eCE(f(xi,w0+Δwc),yi)+eCE(f(xi,w0+Δwn),yi)eCE(f(xi,w0+Δwc),yi)
Objetivo de optimización total: L=Lce+LLoRA+LDetector
- Muestras Limpias: Entrenadas directamente utilizando pérdida de entropía cruzada
- Muestras Ruidosas: Re-etiquetadas utilizando GPT-4o, entrenadas con pérdida de entropía cruzada inversa para aprendizaje robusto
- Diseño Desacoplado: Separa completamente la selección de muestras y el entrenamiento del modelo, evitando influencias mutuas
- Aprovechamiento del Efecto de Memoria: Utiliza ingeniosamente la característica de que las redes profundas memorizan primero muestras limpias y luego muestras ruidosas
- Umbral Aprendible: Utiliza la predicción de LoRA ruidosa como umbral impulsado por datos, sin necesidad de ajuste manual de parámetros
- Separación Funcional a Nivel de Parámetros: Logra separación funcional a nivel de parámetros, independiente de la arquitectura específica
Conjuntos de Datos con Ruido Sintético:
- Trec, SST-2, SST-5, 20ng, AGNews
- Tipos de ruido: ruido simétrico (S), ruido asimétrico (A), ruido relacionado con instancias (I)
- Tasas de ruido: 20%, 40%
Conjuntos de Datos con Ruido Real:
- Hausa (tasa de ruido 50.37%)
- Yorùbá (tasa de ruido 33.28%)
- AlleNoise (tasa de ruido 15.00%)
- Etapa de Detección de Ruido: Precisión (Precision) y Exhaustividad (Recall)
- Etapa de Clasificación: Precisión en Prueba (Test Accuracy)
- Modelo Base: Llama3.1-8B-Instruct
- Métodos de Aprendizaje con Ruido: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
- Métodos de Detección: LLMs-detection, Small-loss strategy
- Modelo Backbone: LLaMA-3.1-8B-Instruct
- Rango de LoRA: r=32
- Épocas de Entrenamiento: 8 para detector, 6 para clasificador
- Épocas de Precalentamiento: 2
- Tasa de Aprendizaje: 1e-4, 5e-4
Desempeño de Detección de Etiquetas Ruidosas:
En el conjunto de datos Trec, Delora muestra mejoras significativas respecto a métodos de referencia:
- Ruido simétrico 20%: Precisión 99.47% vs 81.15% (Small-loss)
- Ruido asimétrico 40%: Exhaustividad 97.27% vs 96.20% (Small-loss)
Desempeño de Clasificación de Texto:
| Conjunto de Datos | Configuración de Ruido | Base | NoiseAL | Delora |
|---|
| Trec | 20%S | 95.20 | 97.30 | 98.46 |
| Trec | 40%A | 87.40 | 95.95 | 97.40 |
| SST-5 | 20%S | 54.08 | 55.00 | 57.39 |
Resultados en Conjuntos de Datos con Ruido Real:
| Conjunto de Datos | Tasa de Ruido | NoiseAL | Delora | Mejora |
|---|
| Hausa | 50.37% | 52.34 | 60.12 | +7.78% |
| Yorùbá | 33.28% | 72.13 | 78.56 | +6.43% |
El estudio de ablación en el conjunto de datos Trec muestra:
- Eliminar el Detector de Etiquetas Ruidosas (NLD): desempeño cae significativamente (98.46→95.20)
- Eliminar el Entrenamiento del Clasificador (CT): desempeño disminuye notablemente
- Eliminar cada objetivo de optimización (LLoRA, LDetector, Lce): todos resultan en degradación del desempeño
- Eliminar re-etiquetado de muestras ruidosas: desempeño cae aproximadamente 4%
Los experimentos verifican los patrones de memoria de diferentes LoRAs:
- LoRA Limpia: Mejora la memoria de muestras limpias, reduce la memoria de muestras ruidosas
- LoRA Ruidosa: Exhibe el patrón opuesto, absorbiendo principalmente los efectos negativos de muestras ruidosas
- Modelo Base: Sigue el efecto de memoria de memorizar primero muestras limpias y luego muestras ruidosas
Comparado con el método de LoRA único base:
- Aumento de Parámetros: +13.6MB
- Aumento de Memoria: +3.2GB
- Mejora de Desempeño: +3.26%~+10%
El análisis de eficiencia de parámetros y memoria muestra que Delora alcanza una frontera de Pareto más óptima en el espacio tridimensional de precisión-parámetros-memoria.
- Métodos de Selección de Muestras: Co-Teaching, SelfMix y otros basados en mecanismo de pérdida baja
- Establecimiento de Umbrales: Estrategias de umbral fijo vs dinámico
- Limitaciones: Dependen del modelo durante el entrenamiento, fácilmente atrapados en ciclos viciosos
- Métodos Principales: LoRA, Adapter, Prompt tuning
- Robustez ante Ruido: Métodos como CleaR exploran el desempeño de PEFT en entornos ruidosos
- Contribución de Este Artículo: Utiliza la capacidad limitada de PEFT para memorizar separadamente muestras limpias y ruidosas
- El desacoplamiento de la selección de muestras y el entrenamiento del modelo puede evitar efectivamente el problema del ciclo vicioso en el aprendizaje con etiquetas ruidosas
- El diseño dual de LoRA combinado con el efecto de memoria puede distinguir efectivamente entre muestras limpias y ruidosas
- El método demuestra un desempeño excepcional en múltiples configuraciones de ruido y conjuntos de datos reales, con buena capacidad de generalización
- Limitaciones de Escala: Restringido por limitaciones de recursos, no verificado en modelos de lenguaje más grandes (como Llama-3.2 70B)
- Limitaciones de Tareas: Los experimentos se limitan a tareas de clasificación de texto, sin explorar otras tareas como generación de texto
- Costo Computacional: El diseño dual de LoRA añade parámetros y costo computacional adicional
- Extensión a modelos de lenguaje de mayor escala
- Exploración de aplicaciones en tareas de generación de texto
- Optimización adicional de eficiencia computacional y eficiencia de parámetros
- Innovación Fuerte:
- Propone por primera vez un marco que desacopla la selección de muestras y el entrenamiento del modelo, resolviendo fundamentalmente el problema del ciclo vicioso
- El diseño dual de LoRA aprovecha ingeniosamente el efecto de memoria, logrando separación funcional a nivel de parámetros
- Fundamentos Teóricos Sólidos:
- Respaldado por teoría del efecto de memoria de redes profundas
- Derivación clara de fórmulas matemáticas, objetivos de optimización razonables
- Experimentación Completa:
- Cubre múltiples tipos de ruido y tasas de ruido
- Incluye conjuntos de datos con ruido sintético y real
- Experimentos de ablación y análisis detallados
- Alto Valor Práctico:
- No requiere establecimiento manual de umbrales
- Adaptable a diferentes modelos clasificadores
- Desempeño excepcional en escenarios de alto ruido
- Complejidad Computacional:
- El entrenamiento de dos etapas aumenta el tiempo de entrenamiento
- El diseño dual de LoRA aumenta la cantidad de parámetros y consumo de memoria
- Sensibilidad a Hiperparámetros:
- Los parámetros h1 y h2 en la función de restricción dinámica requieren ajuste para diferentes tasas de ruido
- Falta de estrategia de selección de hiperparámetros adaptativa
- Análisis Teórico Insuficiente:
- Falta de garantías teóricas sobre la convergencia del método
- No proporciona límites teóricos para la precisión de detección de ruido
- Limitaciones de Rango de Aplicación:
- Enfocado principalmente en tareas de clasificación de texto
- La efectividad en otras tareas de PNL no ha sido verificada
- Contribución Académica:
- Proporciona nuevas perspectivas de solución para el campo del aprendizaje con etiquetas ruidosas
- Impulsa la aplicación de métodos PEFT en aprendizaje robusto
- Valor Práctico:
- Aplicable directamente a tareas reales de clasificación de texto
- Proporciona herramientas efectivas para manejar datos ruidosos del mundo real
- Reproducibilidad:
- Proporciona detalles de implementación detallados y configuración de hiperparámetros
- Descripción clara del algoritmo, facilitando la reproducción
- Tareas de Clasificación de Texto: Especialmente adecuado para escenarios de clasificación de texto a gran escala con baja calidad de anotación
- Entornos con Recursos Limitados: Las características de PEFT lo hacen adecuado para escenarios de aplicación con recursos computacionales limitados
- Entornos de Alto Ruido: Desempeño particularmente destacado en escenarios con tasa de ruido alta (>40%)
- Aplicaciones Multilingües: Tiene potencial de aplicación en tareas de clasificación de texto en idiomas de bajo recurso
Este artículo cita literatura importante en los campos del aprendizaje con etiquetas ruidosas y ajuste fino eficiente en parámetros, incluyendo:
- Han et al. (2018) - Método Co-Teaching
- Hu et al. (2022) - Método LoRA
- Kim et al. (2024) - Método CleaR
- Yuan et al. (2024) - Método NoiseAL
Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora en el campo del aprendizaje con etiquetas ruidosas. Mediante un diseño ingenioso de desacoplamiento y el mecanismo dual de LoRA, resuelve efectivamente el problema central de los métodos existentes. La verificación experimental es completa y los resultados son convincentes. A pesar de algunas limitaciones, su innovación y valor práctico lo convierten en una contribución importante en este campo.