2025-11-17T20:07:13.334490

Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning

Yuan, Chen, Zhang

Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.

academic

Eliminar Maleza, Luego Cosechar: La Adaptación Dual de Bajo Rango es un Detector Efectivo de Etiquetas Ruidosas para el Aprendizaje Robusto ante Ruido

Información Básica

ID del Artículo: 2510.10208
Título: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
Autores: Bo Yuan, Yulin Chen, Yin Zhang (Universidad de Zhejiang)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 11 de octubre de 2024
Enlace del Artículo: https://arxiv.org/abs/2510.10208v1

Resumen

El ajuste fino eficiente en parámetros (PEFT) de modelos de lenguaje grande demuestra un desempeño excepcional en diversas tareas posteriores, pero los datos de entrenamiento en escenarios reales inevitablemente contienen etiquetas ruidosas. Los métodos existentes de aprendizaje con etiquetas ruidosas típicamente seleccionan muestras de pérdida baja para el entrenamiento, pero esta selección afecta el cálculo de pérdida en la siguiente ronda, y la selección inicial inexacta crea un ciclo vicioso. Este artículo propone el marco Delora, que rompe este ciclo mediante el desacoplamiento de la selección de muestras y el entrenamiento del modelo. El marco introduce LoRA limpia y LoRA ruidosa para construir un detector de etiquetas ruidosas, aprovechando el efecto de memoria para que LoRA limpia memorice datos limpios y LoRA ruidosa memorice datos etiquetados incorrectamente, actuando como un umbral aprendible para la selección de muestras. Los resultados experimentales demuestran la efectividad de Delora en la detección de etiquetas ruidosas y tareas de clasificación de texto.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: Cómo manejar el problema inevitable de etiquetas ruidosas en los datos de entrenamiento durante el ajuste fino eficiente en parámetros de modelos de lenguaje grande
Importancia: El proceso de recopilación de datos del mundo real necesariamente contiene errores de anotación, lo que afecta gravemente el desempeño del modelo y la capacidad de generalización
Limitaciones de Métodos Existentes:
- Las estrategias tradicionales de selección de pérdida baja sufren del problema del "ciclo vicioso": la selección de muestras afecta el cálculo de pérdida, y el cálculo de pérdida afecta la selección de muestras
- Dependen del establecimiento manual de umbrales, limitando la practicidad
- El desempeño es inestable en escenarios de alto ruido

Motivación de la Investigación

Los autores observan que el problema fundamental de los métodos existentes radica en la relación acoplada entre la selección de muestras y el entrenamiento del modelo, proponiendo una idea clave: ¿Es posible desacoplar la selección de muestras del entrenamiento del modelo, haciéndolos independientes entre sí? Esta reflexión inspiró el diseño del marco central de este artículo.

Contribuciones Principales

Marco de Desacoplamiento Propuesto: Por primera vez, descompone la tarea de aprendizaje con etiquetas ruidosas en dos etapas independientes: selección de muestras y entrenamiento del modelo, evitando efectivamente el ciclo vicioso
Detector Dual de LoRA Innovador: Introduce LoRA limpia y LoRA ruidosa para memorizar respectivamente muestras limpias y muestras ruidosas, construyendo un detector de etiquetas ruidosas aprendible
Mecanismo de Restricción Dinámica: Diseña una estrategia de regularización dinámica basada en el efecto de memoria, controlando los patrones de actualización de parámetros de diferentes LoRAs
Verificación Experimental Amplia: Verifica la efectividad del método en conjuntos de datos con ruido sintético y real, logrando mejoras significativas tanto en tareas de detección de etiquetas ruidosas como en clasificación de texto

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de datos de entrenamiento $D=\{(x_i, y_i)\}_{i=1}^N$ , donde $y \in \{1, \ldots, K\}$ es la etiqueta observada, que puede ser incorrecta. El objetivo es aprender un clasificador robusto que logre un buen desempeño de generalización en presencia de etiquetas ruidosas.

Arquitectura del Modelo

El marco Delora contiene dos etapas principales:

Etapa 1: Entrenamiento del Detector de Etiquetas Ruidosas

Diseño Dual de LoRA:

LoRA Limpia ( $\Delta w_c$ ): Parámetros ideales, utilizados para memorizar muestras limpias
LoRA Ruidosa ( $\Delta w_n$ ): Parámetros ruidosos, utilizados para memorizar muestras etiquetadas incorrectamente

Mecanismo de Umbral Aprendible: Para la muestra de entrenamiento $i$ -ésima, el umbral aprendible se define como: $\phi_i = CE(f(x_i, w_0 + \Delta w_n), y_i)$

Criterio de selección de muestras: $D_c = \{(x_i, y_i) | CE(f(x_i, w_0 + \Delta w_c), y_i) < \phi_i\}$

Optimización con Restricción Dinámica: $L_{LoRA} = \tau_1(t)\Delta\sigma_c + \tau_2(t)\Delta\sigma_n$

Donde:

$\tau_1(t) = t^{h_1}$ (función creciente, restringe LoRA limpia)
$\tau_2(t) = t^{-h_2}$ (función decreciente, restringe LoRA ruidosa)
$\Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c||$ (cantidad de cambio de parámetros)

Objetivo de Optimización del Detector: Utiliza probabilidad limpia para clasificación binaria: $p_i^c = \frac{e^{CE(f(x_i,w_0+\Delta w_c),y_i)}}{e^{CE(f(x_i,w_0+\Delta w_c),y_i)} + e^{CE(f(x_i,w_0+\Delta w_n),y_i)}}$

Objetivo de optimización total: $L = L_{ce} + L_{LoRA} + L_{Detector}$

Etapa 2: Entrenamiento del Modelo Clasificador

Muestras Limpias: Entrenadas directamente utilizando pérdida de entropía cruzada
Muestras Ruidosas: Re-etiquetadas utilizando GPT-4o, entrenadas con pérdida de entropía cruzada inversa para aprendizaje robusto

Puntos de Innovación Técnica

Diseño Desacoplado: Separa completamente la selección de muestras y el entrenamiento del modelo, evitando influencias mutuas
Aprovechamiento del Efecto de Memoria: Utiliza ingeniosamente la característica de que las redes profundas memorizan primero muestras limpias y luego muestras ruidosas
Umbral Aprendible: Utiliza la predicción de LoRA ruidosa como umbral impulsado por datos, sin necesidad de ajuste manual de parámetros
Separación Funcional a Nivel de Parámetros: Logra separación funcional a nivel de parámetros, independiente de la arquitectura específica

Configuración Experimental

Conjuntos de Datos

Conjuntos de Datos con Ruido Sintético:

Trec, SST-2, SST-5, 20ng, AGNews
Tipos de ruido: ruido simétrico (S), ruido asimétrico (A), ruido relacionado con instancias (I)
Tasas de ruido: 20%, 40%

Conjuntos de Datos con Ruido Real:

Hausa (tasa de ruido 50.37%)
Yorùbá (tasa de ruido 33.28%)
AlleNoise (tasa de ruido 15.00%)

Métricas de Evaluación

Etapa de Detección de Ruido: Precisión (Precision) y Exhaustividad (Recall)
Etapa de Clasificación: Precisión en Prueba (Test Accuracy)

Métodos de Comparación

Modelo Base: Llama3.1-8B-Instruct
Métodos de Aprendizaje con Ruido: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
Métodos de Detección: LLMs-detection, Small-loss strategy

Detalles de Implementación

Modelo Backbone: LLaMA-3.1-8B-Instruct
Rango de LoRA: r=32
Épocas de Entrenamiento: 8 para detector, 6 para clasificador
Épocas de Precalentamiento: 2
Tasa de Aprendizaje: 1e-4, 5e-4

Resultados Experimentales

Resultados Principales

Desempeño de Detección de Etiquetas Ruidosas: En el conjunto de datos Trec, Delora muestra mejoras significativas respecto a métodos de referencia:

Ruido simétrico 20%: Precisión 99.47% vs 81.15% (Small-loss)
Ruido asimétrico 40%: Exhaustividad 97.27% vs 96.20% (Small-loss)

Desempeño de Clasificación de Texto:

Conjunto de Datos	Configuración de Ruido	Base	NoiseAL	Delora
Trec	20%S	95.20	97.30	98.46
Trec	40%A	87.40	95.95	97.40
SST-5	20%S	54.08	55.00	57.39

Resultados en Conjuntos de Datos con Ruido Real:

Conjunto de Datos	Tasa de Ruido	NoiseAL	Delora	Mejora
Hausa	50.37%	52.34	60.12	+7.78%
Yorùbá	33.28%	72.13	78.56	+6.43%

Experimentos de Ablación

El estudio de ablación en el conjunto de datos Trec muestra:

Eliminar el Detector de Etiquetas Ruidosas (NLD): desempeño cae significativamente (98.46→95.20)
Eliminar el Entrenamiento del Clasificador (CT): desempeño disminuye notablemente
Eliminar cada objetivo de optimización ( $L_{LoRA}$ , $L_{Detector}$ , $L_{ce}$ ): todos resultan en degradación del desempeño
Eliminar re-etiquetado de muestras ruidosas: desempeño cae aproximadamente 4%

Análisis del Efecto de Memoria

Los experimentos verifican los patrones de memoria de diferentes LoRAs:

LoRA Limpia: Mejora la memoria de muestras limpias, reduce la memoria de muestras ruidosas
LoRA Ruidosa: Exhibe el patrón opuesto, absorbiendo principalmente los efectos negativos de muestras ruidosas
Modelo Base: Sigue el efecto de memoria de memorizar primero muestras limpias y luego muestras ruidosas

Análisis de Eficiencia

Comparado con el método de LoRA único base:

Aumento de Parámetros: +13.6MB
Aumento de Memoria: +3.2GB
Mejora de Desempeño: +3.26%~+10%

El análisis de eficiencia de parámetros y memoria muestra que Delora alcanza una frontera de Pareto más óptima en el espacio tridimensional de precisión-parámetros-memoria.

Trabajo Relacionado

Aprendizaje con Etiquetas Ruidosas

Métodos de Selección de Muestras: Co-Teaching, SelfMix y otros basados en mecanismo de pérdida baja
Establecimiento de Umbrales: Estrategias de umbral fijo vs dinámico
Limitaciones: Dependen del modelo durante el entrenamiento, fácilmente atrapados en ciclos viciosos

Ajuste Fino Eficiente en Parámetros

Métodos Principales: LoRA, Adapter, Prompt tuning
Robustez ante Ruido: Métodos como CleaR exploran el desempeño de PEFT en entornos ruidosos
Contribución de Este Artículo: Utiliza la capacidad limitada de PEFT para memorizar separadamente muestras limpias y ruidosas

Conclusiones y Discusión

Conclusiones Principales

El desacoplamiento de la selección de muestras y el entrenamiento del modelo puede evitar efectivamente el problema del ciclo vicioso en el aprendizaje con etiquetas ruidosas
El diseño dual de LoRA combinado con el efecto de memoria puede distinguir efectivamente entre muestras limpias y ruidosas
El método demuestra un desempeño excepcional en múltiples configuraciones de ruido y conjuntos de datos reales, con buena capacidad de generalización

Limitaciones

Limitaciones de Escala: Restringido por limitaciones de recursos, no verificado en modelos de lenguaje más grandes (como Llama-3.2 70B)
Limitaciones de Tareas: Los experimentos se limitan a tareas de clasificación de texto, sin explorar otras tareas como generación de texto
Costo Computacional: El diseño dual de LoRA añade parámetros y costo computacional adicional

Direcciones Futuras

Extensión a modelos de lenguaje de mayor escala
Exploración de aplicaciones en tareas de generación de texto
Optimización adicional de eficiencia computacional y eficiencia de parámetros

Evaluación Profunda

Fortalezas

Innovación Fuerte:
- Propone por primera vez un marco que desacopla la selección de muestras y el entrenamiento del modelo, resolviendo fundamentalmente el problema del ciclo vicioso
- El diseño dual de LoRA aprovecha ingeniosamente el efecto de memoria, logrando separación funcional a nivel de parámetros
Fundamentos Teóricos Sólidos:
- Respaldado por teoría del efecto de memoria de redes profundas
- Derivación clara de fórmulas matemáticas, objetivos de optimización razonables
Experimentación Completa:
- Cubre múltiples tipos de ruido y tasas de ruido
- Incluye conjuntos de datos con ruido sintético y real
- Experimentos de ablación y análisis detallados
Alto Valor Práctico:
- No requiere establecimiento manual de umbrales
- Adaptable a diferentes modelos clasificadores
- Desempeño excepcional en escenarios de alto ruido

Deficiencias

Complejidad Computacional:
- El entrenamiento de dos etapas aumenta el tiempo de entrenamiento
- El diseño dual de LoRA aumenta la cantidad de parámetros y consumo de memoria
Sensibilidad a Hiperparámetros:
- Los parámetros $h_1$ y $h_2$ en la función de restricción dinámica requieren ajuste para diferentes tasas de ruido
- Falta de estrategia de selección de hiperparámetros adaptativa
Análisis Teórico Insuficiente:
- Falta de garantías teóricas sobre la convergencia del método
- No proporciona límites teóricos para la precisión de detección de ruido
Limitaciones de Rango de Aplicación:
- Enfocado principalmente en tareas de clasificación de texto
- La efectividad en otras tareas de PNL no ha sido verificada

Impacto

Contribución Académica:
- Proporciona nuevas perspectivas de solución para el campo del aprendizaje con etiquetas ruidosas
- Impulsa la aplicación de métodos PEFT en aprendizaje robusto
Valor Práctico:
- Aplicable directamente a tareas reales de clasificación de texto
- Proporciona herramientas efectivas para manejar datos ruidosos del mundo real
Reproducibilidad:
- Proporciona detalles de implementación detallados y configuración de hiperparámetros
- Descripción clara del algoritmo, facilitando la reproducción

Escenarios de Aplicación

Tareas de Clasificación de Texto: Especialmente adecuado para escenarios de clasificación de texto a gran escala con baja calidad de anotación
Entornos con Recursos Limitados: Las características de PEFT lo hacen adecuado para escenarios de aplicación con recursos computacionales limitados
Entornos de Alto Ruido: Desempeño particularmente destacado en escenarios con tasa de ruido alta (>40%)
Aplicaciones Multilingües: Tiene potencial de aplicación en tareas de clasificación de texto en idiomas de bajo recurso

Referencias

Este artículo cita literatura importante en los campos del aprendizaje con etiquetas ruidosas y ajuste fino eficiente en parámetros, incluyendo:

Han et al. (2018) - Método Co-Teaching
Hu et al. (2022) - Método LoRA
Kim et al. (2024) - Método CleaR
Yuan et al. (2024) - Método NoiseAL

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora en el campo del aprendizaje con etiquetas ruidosas. Mediante un diseño ingenioso de desacoplamiento y el mecanismo dual de LoRA, resuelve efectivamente el problema central de los métodos existentes. La verificación experimental es completa y los resultados son convincentes. A pesar de algunas limitaciones, su innovación y valor práctico lo convierten en una contribución importante en este campo.