Label corruption, where training samples are mislabeled due to non-expert annotation or adversarial attacks, significantly degrades model performance. Acquiring large, perfectly labeled datasets is costly, and retraining models from scratch is computationally expensive. To address this, we introduce Scaled Activation Projection (SAP), a novel SVD (Singular Value Decomposition)-based corrective machine unlearning algorithm. SAP mitigates label noise by identifying a small subset of trusted samples using cross-entropy loss and projecting model weights onto a clean activation space estimated using SVD on these trusted samples. This process suppresses the noise introduced in activations due to the mislabeled samples. In our experiments, we demonstrate SAP's effectiveness on synthetic noise with different settings and real-world label noise. SAP applied to the CIFAR dataset with 25% synthetic corruption show upto 6% generalization improvements. Additionally, SAP can improve the generalization over noise robust training approaches on CIFAR dataset by ~3.2% on average. Further, we observe generalization improvements of 2.31% for a Vision Transformer model trained on naturally corrupted Clothing1M.
- ID del Artículo: 2403.08618
- Título: SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness
- Autores: Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy (Universidad de Purdue)
- Clasificación: cs.LG cs.AI stat.ML
- Fecha de Publicación: 2 de enero de 2025 (arXiv v2)
- Enlace del Artículo: https://arxiv.org/abs/2403.08618
- Enlace del Código: https://github.com/sangamesh-kodge/SAP.git
El ruido en las etiquetas es un problema importante en el aprendizaje profundo. Las muestras de entrenamiento etiquetadas incorrectamente, causadas por anotaciones no profesionales o ataques adversariales, reducen significativamente el rendimiento del modelo. La adquisición de conjuntos de datos perfectamente etiquetados a gran escala es costosa, y reentrenar modelos desde cero requiere un gasto computacional enorme. Para abordar esto, este artículo propone Proyección de Activación Escalada (SAP, por sus siglas en inglés), un algoritmo de desaprendizaje correctivo de máquinas basado en Descomposición en Valores Singulares (SVD). SAP mitiga el ruido de etiquetas identificando un pequeño conjunto de muestras confiables mediante pérdida de entropía cruzada y proyectando los pesos del modelo hacia un espacio de activación limpia estimado a partir de estas muestras confiables usando SVD. Los experimentos demuestran que SAP puede lograr mejoras de generalización de hasta el 6% en el conjunto de datos CIFAR con corrupción sintética del 25%, mejoras promedio de aproximadamente el 3.2% sobre métodos de entrenamiento robusto ante ruido, y mejoras de generalización del 2.31% en modelos Vision Transformer en el conjunto de datos Clothing1M con corrupción natural.
- Problema del Ruido en Etiquetas: Los errores de etiquetado son omnipresentes en conjuntos de datos a gran escala, pudiendo originarse de:
- Errores de anotación humana
- Errores de sistemas de anotación automática (como modelos de lenguaje grande)
- Ataques maliciosos de envenenamiento de datos
- Limitaciones de Soluciones Existentes:
- Métodos de Limpieza de Datos: Requieren reentrenamiento del modelo, con alto costo computacional
- Entrenamiento Robusto ante Ruido: Aunque mejora la robustez, no puede eliminar completamente la brecha de rendimiento
- Desaprendizaje de Máquinas Tradicional: Requiere distinguir explícitamente entre muestras etiquetadas incorrectamente y muestras difíciles de aprender, lo que es difícil en aplicaciones prácticas
- Motivación de la Investigación:
- Evitar el alto costo computacional del reentrenamiento desde cero
- No requerir identificación explícita de muestras etiquetadas incorrectamente
- Lograr mitigación eficiente del ruido mediante una única actualización de pesos
- Propuesta del Algoritmo SAP: Algoritmo de desaprendizaje correctivo basado en SVD que mitiga el ruido de etiquetas mediante proyección de activación
- Selección Automatizada de Muestras Confiables: Identifica automáticamente muestras confiables usando pérdida de entropía cruzada, evitando anotación manual
- Actualización de Pesos en Un Solo Paso: Logra corrección eficiente del modelo mediante un único cálculo de SVD y proyección de pesos
- Verificación Experimental Amplia: Valida la efectividad en escenarios de ruido sintético y del mundo real, soportando múltiples arquitecturas de modelos
Dado un conjunto de datos de entrenamiento DTr que contiene ruido en etiquetas, el objetivo es corregir los parámetros del modelo ya entrenado θ∗ de modo que su rendimiento de generalización en el conjunto de prueba sea comparable al de un modelo entrenado con datos limpios, sin necesidad de reentrenamiento.
Para una capa lineal aout=ainWT, SAP proyecta las activaciones de entrada mediante la matriz de alineación de activación Wp:
a^out=(ainWp)WT=ain(WWpT)T=ainW^T
La regla de actualización de pesos es: W^=WWpT
Se seleccionan NTrust muestras con las pérdidas más bajas usando entropía cruzada como conjunto confiable:
DTrust=argminS∑(xi,yi)∈SL(θ∗,xi,yi)
donde S={Si⊆DTr∣∣Si∣=NTrust}
- Capas Lineales: Rlinear=[(aiin)i=1NTrust]
- Capas de Convolución: Se convierte la convolución en multiplicación matricial mediante operación unfold, Rconv=[(unfold(aiin)T)i=1NTrust]
Se realiza descomposición SVD de la matriz de representación: Rl=UlΣlVlT
Se calcula el peso de importancia:
λi=(α−1)σ~i+1ασ~i
donde σ~i=σi2/∑j=1dσj2 es el valor singular normalizado, y α es el coeficiente de escalado.
Se construye la matriz de proyección: Wp=UΛUT, donde Λ=diag(λ1,λ2,...,λd)
- Procesamiento Automatizado: Sin necesidad de identificar manualmente muestras erróneas, selecciona automáticamente muestras confiables a través de la función de pérdida
- Actualización Eficiente: Completa la actualización de pesos mediante un único cálculo de SVD y multiplicación matricial, evitando optimización iterativa
- Proyección en Espacio de Activación: Suprime el impacto de activaciones ruidosas mediante proyección hacia un espacio de activación limpia
- Independencia de Arquitectura: Aplicable a capas lineales y de convolución, soportando múltiples arquitecturas de red
- Conjuntos de Datos con Ruido Sintético:
- CIFAR-10/CIFAR-100
- Tres tipos de ruido: ruido simétrico, asimétrico y jerárquico
- Intensidades de ruido: 10% y 25%
- Conjuntos de Datos con Ruido del Mundo Real:
- Precisión en el conjunto de prueba
- Comparación de rendimiento con métodos de referencia
- Magnitud de mejora de generalización
- Retrain: Modelo ideal entrenado en datos limpios
- Vanilla: Modelo base entrenado en datos ruidosos
- Finetune: Ajuste fino en pequeño conjunto de datos limpios
- SSD: Algoritmo de desaprendizaje basado en inhibición sináptica selectiva
- SCRUB: Algoritmo de desaprendizaje de máquinas de última generación
- Número de muestras confiables: 1000
- Rango de búsqueda del coeficiente de escalado α: 2000, 300000
- Arquitecturas de modelos: VGG11, ResNet18, ResNet50, ViT-B/16
- Optimizador: SGD, tasa de aprendizaje 0.01, decaimiento de pesos 5×10^-4
Los resultados en los conjuntos de datos CIFAR-10 y CIFAR-100 demuestran:
| Conjunto de Datos | Intensidad de Ruido | Vanilla | SAP | Magnitud de Mejora |
|---|
| CIFAR-10 | 25% | 76.68±0.48 | 82.27±0.15 | +5.59% |
| CIFAR-100 | 25% | 50.64±0.60 | 53.31±0.78 | +2.67% |
SAP supera a otros métodos de desaprendizaje en todas las configuraciones de ruido, con mejoras promedio de 1.36% (CIFAR-10) y 0.39% (CIFAR-100).
SAP puede mejorar aún más el rendimiento de métodos robustos ante ruido existentes:
| Método | Línea Base CIFAR-10 | SAP Mejorado | Magnitud de Mejora |
|---|
| MixUp | 83.12±0.44 | 86.45±0.52 | +3.33% |
| SAM | 83.29±0.28 | 87.29±0.08 | +4.0% |
| Promedio | 83.69 | 87.14 | +3.45% |
Resultados en conjuntos de datos con ruido real:
| Conjunto de Datos | Modelo | Vanilla | SAP | Magnitud de Mejora |
|---|
| Clothing1M | ResNet50 | 67.48±0.64 | 69.64±0.57 | +2.16% |
| Clothing1M | ViT-B/16 | 69.12±0.45 | 71.43±0.60 | +2.31% |
Los experimentos muestran que los beneficios se estabilizan después de aumentar las muestras confiables a 1000, por lo que se seleccionan 1000 muestras para equilibrar rendimiento y eficiencia computacional.
α=30000 muestra el mejor rendimiento en múltiples configuraciones de ruido sintético. Valores de α demasiado grandes o demasiado pequeños reducen el rendimiento.
- Eficiencia Computacional: SAP requiere solo 16 búsquedas de hiperparámetros, mientras que SCRUB requiere 675
- Robustez: Muestra rendimiento estable en diferentes tipos e intensidades de ruido
- Escalabilidad: Se aplica exitosamente a conjuntos de datos a gran escala y modelos Transformer
- Optimización del Límite de Decisión: Los experimentos de visualización muestran que SAP suaviza el límite de decisión, reduciendo el sobreajuste
- Métodos de Limpieza de Datos:
- Filtrado de datos: Eliminación de muestras etiquetadas incorrectamente
- Selección de muestras: Selección dinámica de muestras de entrenamiento
- Corrección de etiquetas: Corrección de etiquetas erróneas
- Entrenamiento Robusto ante Ruido:
- Técnicas de regularización: Dropout, suavizado de etiquetas
- Funciones de pérdida robustas: Entropía cruzada simétrica, MAE
- Aumento de datos: MixUp, MentorMix
- Desaprendizaje Correctivo de Máquinas:
- El desaprendizaje tradicional se enfoca en protección de privacidad
- El desaprendizaje correctivo se enfoca en mejorar el rendimiento de generalización
En comparación con métodos existentes, SAP tiene las siguientes ventajas:
- No requiere identificación explícita de muestras erróneas
- La actualización única evita la inestabilidad de la optimización iterativa
- Ajuste de hiperparámetros simple y alta eficiencia computacional
- Validación de Efectividad: SAP mejora significativamente el rendimiento de generalización del modelo en escenarios de ruido sintético y del mundo real
- Ventajas de Eficiencia: La actualización de pesos única y el ajuste simple de hiperparámetros otorgan a SAP ventajas computacionales significativas
- Aplicabilidad Amplia: Soporta múltiples arquitecturas de red y escalas de conjuntos de datos
- Valor Práctico: Puede combinarse con métodos robustos ante ruido existentes para mejorar aún más el rendimiento
- Suposición de Muestras Confiables: Depende de la suposición de que las muestras con baja pérdida están efectivamente etiquetadas correctamente
- Sensibilidad de Hiperparámetros: La selección del coeficiente de escalado α tiene un impacto importante en el rendimiento
- Restricción de Tipos de Ruido: Se enfoca principalmente en ruido de etiquetas, con capacidad limitada para manejar otros tipos de ruido
- Análisis Teórico Insuficiente: Carece de garantías teóricas sobre la efectividad del método
- Análisis Teórico: Establecer fundamentos teóricos para la efectividad de SAP
- Selección de Parámetros Adaptativa: Desarrollar métodos para seleccionar automáticamente el α óptimo
- Extensión de Aplicaciones: Explorar aplicaciones en otros tipos de ruido y tareas
- Combinación con Otras Técnicas: Investigar la combinación con aumento de datos, entrenamiento adversarial y otras técnicas
- Innovación del Método:
- Primera aplicación de SVD al desaprendizaje correctivo de máquinas
- La idea de proyección de activación es novedosa y efectiva
- La selección automatizada de muestras confiables evita intervención manual
- Suficiencia Experimental:
- Cubre múltiples tipos de ruido y conjuntos de datos
- Comparación con múltiples métodos de referencia
- Incluye experimentos de ablación y análisis de sensibilidad de parámetros
- Valor Práctico:
- Alta eficiencia computacional, fácil de desplegar
- Puede combinarse con métodos existentes
- Soporta múltiples arquitecturas de red
- Poder Convincente de Resultados:
- Mejoras de rendimiento consistentes
- Validación de significancia estadística
- Análisis de visualización mejora la comprensión
- Fundamentos Teóricos Débiles:
- Carece de análisis teórico sobre la efectividad del método
- No explica por qué la proyección SVD suprime efectivamente el ruido
- Limitaciones de Suposiciones:
- La suposición de que muestras con baja pérdida están correctamente etiquetadas puede no siempre ser válida
- Las suposiciones sobre la distribución del ruido son relativamente fuertes
- Ajuste de Parámetros:
- La selección de α carece de orientación teórica
- Diferentes conjuntos de datos pueden requerir diferentes valores de α
- Limitaciones de Comparación:
- La comparación con métodos robustos ante ruido más recientes no es suficientemente exhaustiva
- Carece de comparación directa con métodos de limpieza de datos
- Contribución Académica:
- Proporciona una nueva dirección de investigación para el campo del desaprendizaje de máquinas
- La idea de proyección de activación puede inspirar otras aplicaciones
- Aplicación Práctica:
- Proporciona una herramienta práctica para manejar ruido de etiquetas en el mundo real
- Puede integrarse en flujos de entrenamiento existentes
- Reproducibilidad:
- Proporciona implementación de código completa
- Descripción detallada de la configuración experimental
- Escenarios donde la calidad de etiquetado del conjunto de datos es baja
- Situaciones donde no es posible reetiquetar datos
- Aplicaciones que requieren corrección rápida de modelos ya entrenados
- Entornos con recursos computacionales limitados
El artículo cita trabajos importantes en campos relacionados, incluyendo:
- Desaprendizaje de máquinas: Métodos SCRUB, SSD, etc.
- Tratamiento del ruido en etiquetas: MixUp, MentorMix, SAM, etc.
- Limpieza de datos: Confident Learning, etc.
- Teoría fundamental: Descomposición SVD, análisis de activación, etc.
Evaluación General: El método SAP propuesto en este artículo tiene un valor importante en el tratamiento del ruido en etiquetas. Mediante un diseño ingenioso de proyección de activación, logra una corrección eficiente del modelo. Aunque tiene deficiencias en análisis teórico, la verificación experimental es suficiente y el valor práctico es significativo, proporcionando una contribución valiosa al campo relacionado.