2025-11-17T20:07:13.334490

Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning

Yuan, Chen, Zhang
Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.
academic

Eliminar Maleza, Luego Cosechar: La Adaptación Dual de Bajo Rango es un Detector Efectivo de Etiquetas Ruidosas para el Aprendizaje Robusto ante Ruido

Información Básica

  • ID del Artículo: 2510.10208
  • Título: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
  • Autores: Bo Yuan, Yulin Chen, Yin Zhang (Universidad de Zhejiang)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 11 de octubre de 2024
  • Enlace del Artículo: https://arxiv.org/abs/2510.10208v1

Resumen

El ajuste fino eficiente en parámetros (PEFT) de modelos de lenguaje grande demuestra un desempeño excepcional en diversas tareas posteriores, pero los datos de entrenamiento en escenarios reales inevitablemente contienen etiquetas ruidosas. Los métodos existentes de aprendizaje con etiquetas ruidosas típicamente seleccionan muestras de pérdida baja para el entrenamiento, pero esta selección afecta el cálculo de pérdida en la siguiente ronda, y la selección inicial inexacta crea un ciclo vicioso. Este artículo propone el marco Delora, que rompe este ciclo mediante el desacoplamiento de la selección de muestras y el entrenamiento del modelo. El marco introduce LoRA limpia y LoRA ruidosa para construir un detector de etiquetas ruidosas, aprovechando el efecto de memoria para que LoRA limpia memorice datos limpios y LoRA ruidosa memorice datos etiquetados incorrectamente, actuando como un umbral aprendible para la selección de muestras. Los resultados experimentales demuestran la efectividad de Delora en la detección de etiquetas ruidosas y tareas de clasificación de texto.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Cómo manejar el problema inevitable de etiquetas ruidosas en los datos de entrenamiento durante el ajuste fino eficiente en parámetros de modelos de lenguaje grande
  2. Importancia: El proceso de recopilación de datos del mundo real necesariamente contiene errores de anotación, lo que afecta gravemente el desempeño del modelo y la capacidad de generalización
  3. Limitaciones de Métodos Existentes:
    • Las estrategias tradicionales de selección de pérdida baja sufren del problema del "ciclo vicioso": la selección de muestras afecta el cálculo de pérdida, y el cálculo de pérdida afecta la selección de muestras
    • Dependen del establecimiento manual de umbrales, limitando la practicidad
    • El desempeño es inestable en escenarios de alto ruido

Motivación de la Investigación

Los autores observan que el problema fundamental de los métodos existentes radica en la relación acoplada entre la selección de muestras y el entrenamiento del modelo, proponiendo una idea clave: ¿Es posible desacoplar la selección de muestras del entrenamiento del modelo, haciéndolos independientes entre sí? Esta reflexión inspiró el diseño del marco central de este artículo.

Contribuciones Principales

  1. Marco de Desacoplamiento Propuesto: Por primera vez, descompone la tarea de aprendizaje con etiquetas ruidosas en dos etapas independientes: selección de muestras y entrenamiento del modelo, evitando efectivamente el ciclo vicioso
  2. Detector Dual de LoRA Innovador: Introduce LoRA limpia y LoRA ruidosa para memorizar respectivamente muestras limpias y muestras ruidosas, construyendo un detector de etiquetas ruidosas aprendible
  3. Mecanismo de Restricción Dinámica: Diseña una estrategia de regularización dinámica basada en el efecto de memoria, controlando los patrones de actualización de parámetros de diferentes LoRAs
  4. Verificación Experimental Amplia: Verifica la efectividad del método en conjuntos de datos con ruido sintético y real, logrando mejoras significativas tanto en tareas de detección de etiquetas ruidosas como en clasificación de texto

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de datos de entrenamiento D={(xi,yi)}i=1ND=\{(x_i, y_i)\}_{i=1}^N, donde y{1,,K}y \in \{1, \ldots, K\} es la etiqueta observada, que puede ser incorrecta. El objetivo es aprender un clasificador robusto que logre un buen desempeño de generalización en presencia de etiquetas ruidosas.

Arquitectura del Modelo

El marco Delora contiene dos etapas principales:

Etapa 1: Entrenamiento del Detector de Etiquetas Ruidosas

Diseño Dual de LoRA:

  • LoRA Limpia (Δwc\Delta w_c): Parámetros ideales, utilizados para memorizar muestras limpias
  • LoRA Ruidosa (Δwn\Delta w_n): Parámetros ruidosos, utilizados para memorizar muestras etiquetadas incorrectamente

Mecanismo de Umbral Aprendible: Para la muestra de entrenamiento ii-ésima, el umbral aprendible se define como: ϕi=CE(f(xi,w0+Δwn),yi)\phi_i = CE(f(x_i, w_0 + \Delta w_n), y_i)

Criterio de selección de muestras: Dc={(xi,yi)CE(f(xi,w0+Δwc),yi)<ϕi}D_c = \{(x_i, y_i) | CE(f(x_i, w_0 + \Delta w_c), y_i) < \phi_i\}

Optimización con Restricción Dinámica: LLoRA=τ1(t)Δσc+τ2(t)ΔσnL_{LoRA} = \tau_1(t)\Delta\sigma_c + \tau_2(t)\Delta\sigma_n

Donde:

  • τ1(t)=th1\tau_1(t) = t^{h_1} (función creciente, restringe LoRA limpia)
  • τ2(t)=th2\tau_2(t) = t^{-h_2} (función decreciente, restringe LoRA ruidosa)
  • \Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c|| (cantidad de cambio de parámetros)

Objetivo de Optimización del Detector: Utiliza probabilidad limpia para clasificación binaria: pic=eCE(f(xi,w0+Δwc),yi)eCE(f(xi,w0+Δwc),yi)+eCE(f(xi,w0+Δwn),yi)p_i^c = \frac{e^{CE(f(x_i,w_0+\Delta w_c),y_i)}}{e^{CE(f(x_i,w_0+\Delta w_c),y_i)} + e^{CE(f(x_i,w_0+\Delta w_n),y_i)}}

Objetivo de optimización total: L=Lce+LLoRA+LDetectorL = L_{ce} + L_{LoRA} + L_{Detector}

Etapa 2: Entrenamiento del Modelo Clasificador

  • Muestras Limpias: Entrenadas directamente utilizando pérdida de entropía cruzada
  • Muestras Ruidosas: Re-etiquetadas utilizando GPT-4o, entrenadas con pérdida de entropía cruzada inversa para aprendizaje robusto

Puntos de Innovación Técnica

  1. Diseño Desacoplado: Separa completamente la selección de muestras y el entrenamiento del modelo, evitando influencias mutuas
  2. Aprovechamiento del Efecto de Memoria: Utiliza ingeniosamente la característica de que las redes profundas memorizan primero muestras limpias y luego muestras ruidosas
  3. Umbral Aprendible: Utiliza la predicción de LoRA ruidosa como umbral impulsado por datos, sin necesidad de ajuste manual de parámetros
  4. Separación Funcional a Nivel de Parámetros: Logra separación funcional a nivel de parámetros, independiente de la arquitectura específica

Configuración Experimental

Conjuntos de Datos

Conjuntos de Datos con Ruido Sintético:

  • Trec, SST-2, SST-5, 20ng, AGNews
  • Tipos de ruido: ruido simétrico (S), ruido asimétrico (A), ruido relacionado con instancias (I)
  • Tasas de ruido: 20%, 40%

Conjuntos de Datos con Ruido Real:

  • Hausa (tasa de ruido 50.37%)
  • Yorùbá (tasa de ruido 33.28%)
  • AlleNoise (tasa de ruido 15.00%)

Métricas de Evaluación

  • Etapa de Detección de Ruido: Precisión (Precision) y Exhaustividad (Recall)
  • Etapa de Clasificación: Precisión en Prueba (Test Accuracy)

Métodos de Comparación

  • Modelo Base: Llama3.1-8B-Instruct
  • Métodos de Aprendizaje con Ruido: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
  • Métodos de Detección: LLMs-detection, Small-loss strategy

Detalles de Implementación

  • Modelo Backbone: LLaMA-3.1-8B-Instruct
  • Rango de LoRA: r=32
  • Épocas de Entrenamiento: 8 para detector, 6 para clasificador
  • Épocas de Precalentamiento: 2
  • Tasa de Aprendizaje: 1e-4, 5e-4

Resultados Experimentales

Resultados Principales

Desempeño de Detección de Etiquetas Ruidosas: En el conjunto de datos Trec, Delora muestra mejoras significativas respecto a métodos de referencia:

  • Ruido simétrico 20%: Precisión 99.47% vs 81.15% (Small-loss)
  • Ruido asimétrico 40%: Exhaustividad 97.27% vs 96.20% (Small-loss)

Desempeño de Clasificación de Texto:

Conjunto de DatosConfiguración de RuidoBaseNoiseALDelora
Trec20%S95.2097.3098.46
Trec40%A87.4095.9597.40
SST-520%S54.0855.0057.39

Resultados en Conjuntos de Datos con Ruido Real:

Conjunto de DatosTasa de RuidoNoiseALDeloraMejora
Hausa50.37%52.3460.12+7.78%
Yorùbá33.28%72.1378.56+6.43%

Experimentos de Ablación

El estudio de ablación en el conjunto de datos Trec muestra:

  • Eliminar el Detector de Etiquetas Ruidosas (NLD): desempeño cae significativamente (98.46→95.20)
  • Eliminar el Entrenamiento del Clasificador (CT): desempeño disminuye notablemente
  • Eliminar cada objetivo de optimización (LLoRAL_{LoRA}, LDetectorL_{Detector}, LceL_{ce}): todos resultan en degradación del desempeño
  • Eliminar re-etiquetado de muestras ruidosas: desempeño cae aproximadamente 4%

Análisis del Efecto de Memoria

Los experimentos verifican los patrones de memoria de diferentes LoRAs:

  • LoRA Limpia: Mejora la memoria de muestras limpias, reduce la memoria de muestras ruidosas
  • LoRA Ruidosa: Exhibe el patrón opuesto, absorbiendo principalmente los efectos negativos de muestras ruidosas
  • Modelo Base: Sigue el efecto de memoria de memorizar primero muestras limpias y luego muestras ruidosas

Análisis de Eficiencia

Comparado con el método de LoRA único base:

  • Aumento de Parámetros: +13.6MB
  • Aumento de Memoria: +3.2GB
  • Mejora de Desempeño: +3.26%~+10%

El análisis de eficiencia de parámetros y memoria muestra que Delora alcanza una frontera de Pareto más óptima en el espacio tridimensional de precisión-parámetros-memoria.

Trabajo Relacionado

Aprendizaje con Etiquetas Ruidosas

  • Métodos de Selección de Muestras: Co-Teaching, SelfMix y otros basados en mecanismo de pérdida baja
  • Establecimiento de Umbrales: Estrategias de umbral fijo vs dinámico
  • Limitaciones: Dependen del modelo durante el entrenamiento, fácilmente atrapados en ciclos viciosos

Ajuste Fino Eficiente en Parámetros

  • Métodos Principales: LoRA, Adapter, Prompt tuning
  • Robustez ante Ruido: Métodos como CleaR exploran el desempeño de PEFT en entornos ruidosos
  • Contribución de Este Artículo: Utiliza la capacidad limitada de PEFT para memorizar separadamente muestras limpias y ruidosas

Conclusiones y Discusión

Conclusiones Principales

  1. El desacoplamiento de la selección de muestras y el entrenamiento del modelo puede evitar efectivamente el problema del ciclo vicioso en el aprendizaje con etiquetas ruidosas
  2. El diseño dual de LoRA combinado con el efecto de memoria puede distinguir efectivamente entre muestras limpias y ruidosas
  3. El método demuestra un desempeño excepcional en múltiples configuraciones de ruido y conjuntos de datos reales, con buena capacidad de generalización

Limitaciones

  1. Limitaciones de Escala: Restringido por limitaciones de recursos, no verificado en modelos de lenguaje más grandes (como Llama-3.2 70B)
  2. Limitaciones de Tareas: Los experimentos se limitan a tareas de clasificación de texto, sin explorar otras tareas como generación de texto
  3. Costo Computacional: El diseño dual de LoRA añade parámetros y costo computacional adicional

Direcciones Futuras

  1. Extensión a modelos de lenguaje de mayor escala
  2. Exploración de aplicaciones en tareas de generación de texto
  3. Optimización adicional de eficiencia computacional y eficiencia de parámetros

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte:
    • Propone por primera vez un marco que desacopla la selección de muestras y el entrenamiento del modelo, resolviendo fundamentalmente el problema del ciclo vicioso
    • El diseño dual de LoRA aprovecha ingeniosamente el efecto de memoria, logrando separación funcional a nivel de parámetros
  2. Fundamentos Teóricos Sólidos:
    • Respaldado por teoría del efecto de memoria de redes profundas
    • Derivación clara de fórmulas matemáticas, objetivos de optimización razonables
  3. Experimentación Completa:
    • Cubre múltiples tipos de ruido y tasas de ruido
    • Incluye conjuntos de datos con ruido sintético y real
    • Experimentos de ablación y análisis detallados
  4. Alto Valor Práctico:
    • No requiere establecimiento manual de umbrales
    • Adaptable a diferentes modelos clasificadores
    • Desempeño excepcional en escenarios de alto ruido

Deficiencias

  1. Complejidad Computacional:
    • El entrenamiento de dos etapas aumenta el tiempo de entrenamiento
    • El diseño dual de LoRA aumenta la cantidad de parámetros y consumo de memoria
  2. Sensibilidad a Hiperparámetros:
    • Los parámetros h1h_1 y h2h_2 en la función de restricción dinámica requieren ajuste para diferentes tasas de ruido
    • Falta de estrategia de selección de hiperparámetros adaptativa
  3. Análisis Teórico Insuficiente:
    • Falta de garantías teóricas sobre la convergencia del método
    • No proporciona límites teóricos para la precisión de detección de ruido
  4. Limitaciones de Rango de Aplicación:
    • Enfocado principalmente en tareas de clasificación de texto
    • La efectividad en otras tareas de PNL no ha sido verificada

Impacto

  1. Contribución Académica:
    • Proporciona nuevas perspectivas de solución para el campo del aprendizaje con etiquetas ruidosas
    • Impulsa la aplicación de métodos PEFT en aprendizaje robusto
  2. Valor Práctico:
    • Aplicable directamente a tareas reales de clasificación de texto
    • Proporciona herramientas efectivas para manejar datos ruidosos del mundo real
  3. Reproducibilidad:
    • Proporciona detalles de implementación detallados y configuración de hiperparámetros
    • Descripción clara del algoritmo, facilitando la reproducción

Escenarios de Aplicación

  1. Tareas de Clasificación de Texto: Especialmente adecuado para escenarios de clasificación de texto a gran escala con baja calidad de anotación
  2. Entornos con Recursos Limitados: Las características de PEFT lo hacen adecuado para escenarios de aplicación con recursos computacionales limitados
  3. Entornos de Alto Ruido: Desempeño particularmente destacado en escenarios con tasa de ruido alta (>40%)
  4. Aplicaciones Multilingües: Tiene potencial de aplicación en tareas de clasificación de texto en idiomas de bajo recurso

Referencias

Este artículo cita literatura importante en los campos del aprendizaje con etiquetas ruidosas y ajuste fino eficiente en parámetros, incluyendo:

  • Han et al. (2018) - Método Co-Teaching
  • Hu et al. (2022) - Método LoRA
  • Kim et al. (2024) - Método CleaR
  • Yuan et al. (2024) - Método NoiseAL

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora en el campo del aprendizaje con etiquetas ruidosas. Mediante un diseño ingenioso de desacoplamiento y el mecanismo dual de LoRA, resuelve efectivamente el problema central de los métodos existentes. La verificación experimental es completa y los resultados son convincentes. A pesar de algunas limitaciones, su innovación y valor práctico lo convierten en una contribución importante en este campo.