Label corruption, where training samples are mislabeled due to non-expert annotation or adversarial attacks, significantly degrades model performance. Acquiring large, perfectly labeled datasets is costly, and retraining models from scratch is computationally expensive. To address this, we introduce Scaled Activation Projection (SAP), a novel SVD (Singular Value Decomposition)-based corrective machine unlearning algorithm. SAP mitigates label noise by identifying a small subset of trusted samples using cross-entropy loss and projecting model weights onto a clean activation space estimated using SVD on these trusted samples. This process suppresses the noise introduced in activations due to the mislabeled samples. In our experiments, we demonstrate SAP's effectiveness on synthetic noise with different settings and real-world label noise. SAP applied to the CIFAR dataset with 25% synthetic corruption show upto 6% generalization improvements. Additionally, SAP can improve the generalization over noise robust training approaches on CIFAR dataset by ~3.2% on average. Further, we observe generalization improvements of 2.31% for a Vision Transformer model trained on naturally corrupted Clothing1M.
- ID статьи: 2403.08618
- Название: SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness
- Авторы: Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy (Purdue University)
- Классификация: cs.LG cs.AI stat.ML
- Дата публикации: 2 января 2025 г. (arXiv v2)
- Ссылка на статью: https://arxiv.org/abs/2403.08618
- Ссылка на код: https://github.com/sangamesh-kodge/SAP.git
Повреждение меток является серьёзной проблемой в глубоком обучении. Неправильная разметка обучающих выборок, вызванная непрофессиональной аннотацией или враждебными атаками, значительно снижает производительность модели. Получение крупномасштабных идеально размеченных наборов данных обходится дорого, а переобучение модели с нуля требует огромных вычислительных затрат. В этой работе предлагается масштабированная проекция активации (SAP) — алгоритм корректирующего машинного разучивания, основанный на сингулярном разложении (SVD). SAP смягчает влияние шума меток путём идентификации небольшого количества надёжных выборок с использованием потерь кросс-энтропии и проецирования весов модели в пространство чистых активаций, оценённое на основе этих надёжных выборок с помощью SVD. Экспериментальные результаты показывают, что SAP достигает улучшения обобщения до 6% на наборах данных CIFAR при 25% синтетического повреждения, в среднем улучшает примерно на 3,2% методы обучения, устойчивые к шуму, и достигает улучшения обобщения на 2,31% для модели Vision Transformer на естественно повреждённом наборе данных Clothing1M.
- Проблема шума меток: Ошибки меток широко распространены в крупномасштабных наборах данных, которые могут возникать из-за:
- Ошибок ручной аннотации
- Ошибок автоматических систем разметки (например, больших языковых моделей)
- Враждебных атак отравления данных
- Ограничения существующих решений:
- Методы очистки данных: Требуют переобучения модели, высокие вычислительные затраты
- Обучение, устойчивое к шуму: Хотя повышает устойчивость, не может полностью устранить разрыв в производительности
- Традиционное машинное разучивание: Требует явного различия между неправильно размеченными и сложными для обучения выборками, что затруднительно в практических приложениях
- Исследовательская мотивация:
- Избежать высоких вычислительных затрат переобучения с нуля
- Не требовать явной идентификации неправильно размеченных выборок
- Достичь эффективного смягчения шума посредством единовременного обновления весов
- Предложение алгоритма SAP: Алгоритм корректирующего машинного разучивания на основе SVD, смягчающий влияние шума меток через проекцию активации
- Автоматизированный выбор надёжных выборок: Использование потерь кросс-энтропии для автоматической идентификации надёжных выборок, избегая ручной разметки
- Одношаговое обновление весов: Эффективная корректировка модели посредством одного вычисления SVD и проекции весов
- Обширная экспериментальная проверка: Проверка эффективности в сценариях синтетического и реального шума, поддержка различных архитектур моделей
Дан набор обучающих данных DTr с шумом меток, целью является корректировка параметров уже обученной модели θ∗ таким образом, чтобы её производительность обобщения на тестовом наборе приближалась к модели, обученной на чистых данных, без необходимости переобучения.
Для линейного слоя aout=ainWT SAP проецирует входные активации посредством матрицы выравнивания активации Wp:
a^out=(ainWp)WT=ain(WWpT)T=ainW^T
Правило обновления весов: W^=WWpT
Использование потерь кросс-энтропии для выбора NTrust выборок с наименьшими потерями в качестве надёжного набора:
DTrust=argminS∑(xi,yi)∈SL(θ∗,xi,yi)
где S={Si⊆DTr∣∣Si∣=NTrust}
- Линейный слой: Rlinear=[(aiin)i=1NTrust]
- Сверточный слой: Преобразование свёртки в матричное умножение посредством операции unfold, Rconv=[(unfold(aiin)T)i=1NTrust]
Выполнение SVD-разложения матрицы представлений: Rl=UlΣlVlT
Вычисление весов важности:
λi=(α−1)σ~i+1ασ~i
где σ~i=σi2/∑j=1dσj2 — нормализованные сингулярные значения, α — коэффициент масштабирования.
Построение матрицы проекции: Wp=UΛUT, где Λ=diag(λ1,λ2,...,λd)
- Автоматизированная обработка: Без необходимости ручной идентификации ошибочных выборок, автоматический выбор надёжных выборок через функцию потерь
- Эффективное обновление: Завершение обновления весов посредством одного вычисления SVD и матричного умножения, избегая итеративной оптимизации
- Проекция в пространство активации: Подавление влияния активаций с шумом путём проекции в пространство чистых активаций
- Независимость от архитектуры: Применимость к линейным и сверточным слоям, поддержка различных архитектур сетей
- Наборы данных с синтетическим шумом:
- CIFAR-10/CIFAR-100
- Три типа шума: симметричный, асимметричный, иерархический
- Уровни шума: 10% и 25%
- Наборы данных с реальным шумом:
- Точность на тестовом наборе
- Сравнение производительности с методами-базовыми линиями
- Величина улучшения обобщения
- Retrain: Идеальная модель, переобученная на чистых данных
- Vanilla: Базовая модель, обученная на данных с шумом
- Finetune: Тонкая настройка на небольшом количестве чистых данных
- SSD: Алгоритм разучивания на основе избирательного синаптического подавления
- SCRUB: Современный алгоритм машинного разучивания
- Количество надёжных выборок: 1000
- Диапазон поиска коэффициента масштабирования α: 2000, 300000
- Архитектуры моделей: VGG11, ResNet18, ResNet50, ViT-B/16
- Оптимизатор: SGD, скорость обучения 0.01, затухание весов 5×10^-4
Результаты на наборах данных CIFAR-10 и CIFAR-100 показывают:
| Набор данных | Уровень шума | Vanilla | SAP | Улучшение |
|---|
| CIFAR-10 | 25% | 76.68±0.48 | 82.27±0.15 | +5.59% |
| CIFAR-100 | 25% | 50.64±0.60 | 53.31±0.78 | +2.67% |
SAP превосходит другие методы разучивания при всех настройках шума, с средним улучшением 1.36% (CIFAR-10) и 0.39% (CIFAR-100).
SAP может дополнительно повысить производительность существующих методов, устойчивых к шуму:
| Метод | Базовая линия CIFAR-10 | Усиление SAP | Улучшение |
|---|
| MixUp | 83.12±0.44 | 86.45±0.52 | +3.33% |
| SAM | 83.29±0.28 | 87.29±0.08 | +4.0% |
| Среднее | 83.69 | 87.14 | +3.45% |
Результаты на наборах данных с реальным шумом:
| Набор данных | Модель | Vanilla | SAP | Улучшение |
|---|
| Clothing1M | ResNet50 | 67.48±0.64 | 69.64±0.57 | +2.16% |
| Clothing1M | ViT-B/16 | 69.12±0.45 | 71.43±0.60 | +2.31% |
Эксперименты показывают, что увеличение количества надёжных выборок до 1000 приводит к убывающей отдаче, поэтому выбор 1000 выборок обеспечивает баланс между производительностью и вычислительной эффективностью.
α=30000 показывает лучшую производительность при различных настройках синтетического шума, слишком большие или слишком малые значения α снижают производительность.
- Вычислительная эффективность: SAP требует только 16 поисков гиперпараметров, в то время как SCRUB требует 675
- Устойчивость: Стабильная производительность при различных типах и уровнях шума
- Масштабируемость: Успешное применение к крупномасштабным наборам данных и моделям Transformer
- Оптимизация границы решения: Визуализационные эксперименты показывают, что SAP может сгладить границу решения и снизить переобучение
- Методы очистки данных:
- Фильтрация данных: удаление неправильно размеченных выборок
- Выбор выборок: динамический выбор обучающих выборок
- Коррекция меток: исправление неправильных меток
- Обучение, устойчивое к шуму:
- Методы регуляризации: Dropout, сглаживание меток
- Устойчивые функции потерь: симметричная кросс-энтропия, MAE
- Увеличение данных: MixUp, MentorMix
- Корректирующее машинное разучивание:
- Традиционное разучивание сосредоточено на защите конфиденциальности
- Корректирующее разучивание сосредоточено на повышении производительности обобщения
По сравнению с существующими методами SAP имеет следующие преимущества:
- Не требует явной идентификации ошибочных выборок
- Единовременное обновление избегает нестабильности итеративной оптимизации
- Простая настройка гиперпараметров, высокая вычислительная эффективность
- Проверка эффективности: SAP значительно повышает производительность обобщения модели в сценариях синтетического и реального шума
- Преимущества эффективности: Единовременное обновление весов и простая настройка гиперпараметров обеспечивают SAP значительные вычислительные преимущества
- Широкая применимость: Поддержка различных архитектур сетей и масштабов наборов данных
- Практическая ценность: Может использоваться в сочетании с существующими методами, устойчивыми к шуму, для дальнейшего повышения производительности
- Предположение о надёжных выборках: Зависит от предположения, что выборки с низкими потерями действительно правильно размечены
- Чувствительность гиперпараметров: Выбор коэффициента масштабирования α оказывает значительное влияние на производительность
- Ограничения типов шума: Главным образом ориентирован на шум меток, ограниченная способность обработки других типов шума
- Недостаток теоретического анализа: Отсутствие теоретических гарантий эффективности метода
- Теоретический анализ: Установление теоретической основы эффективности SAP
- Адаптивный выбор параметров: Разработка методов автоматического выбора оптимального α
- Расширение приложений: Исследование применения в других типах шума и задачах
- Комбинирование с другими техниками: Исследование комбинирования с увеличением данных, враждебным обучением и другими техниками
- Инновационность метода:
- Первое применение SVD к корректирующему машинному разучиванию
- Новая и эффективная идея проекции активации
- Автоматизированный выбор надёжных выборок избегает ручного вмешательства
- Полнота экспериментов:
- Охват различных типов и наборов данных с шумом
- Сравнение с несколькими методами-базовыми линиями
- Включение абляционных исследований и анализа чувствительности параметров
- Практическая ценность:
- Высокая вычислительная эффективность, лёгкое развёртывание
- Может использоваться в сочетании с существующими методами
- Поддержка различных архитектур сетей
- Убедительность результатов:
- Последовательное повышение производительности
- Проверка статистической значимости
- Визуализационный анализ повышает понимание
- Слабая теоретическая основа:
- Отсутствие теоретического анализа эффективности метода
- Не объясняется, почему проекция SVD эффективно подавляет шум
- Ограничения предположений:
- Предположение о правильной разметке выборок с низкими потерями может не всегда быть верным
- Сильные предположения о распределении шума
- Настройка параметров:
- Выбор α лишён теоретического руководства
- Различные наборы данных могут требовать различных значений α
- Ограничения сравнения:
- Недостаточное сравнение с новейшими методами, устойчивыми к шуму
- Отсутствие прямого сравнения с методами очистки данных
- Академический вклад:
- Предоставление нового направления исследований в области машинного разучивания
- Идея проекции активации может вдохновить другие приложения
- Практическое применение:
- Предоставление практического инструмента для обработки шума меток в реальном мире
- Может быть интегрирован в существующие процессы обучения
- Воспроизводимость:
- Предоставление полной реализации кода
- Подробное описание экспериментальной установки
- Сценарии с низким качеством меток в наборах данных
- Ситуации, когда переразметка данных невозможна
- Приложения, требующие быстрой корректировки уже обученных моделей
- Среды с ограниченными вычислительными ресурсами
Статья цитирует важные работы в соответствующих областях, включая:
- Машинное разучивание: методы SCRUB, SSD и другие
- Обработка шума меток: MixUp, MentorMix, SAM и другие
- Очистка данных: Confident Learning и другие
- Фундаментальная теория: SVD-разложение, анализ активации и другие
Общая оценка: Предложенный в данной работе метод SAP имеет важное значение для обработки шума меток, достигая эффективной корректировки модели посредством умного проектирования проекции активации. Хотя в теоретическом анализе имеются некоторые недостатки, экспериментальная проверка полна, практическая ценность значительна, и работа предоставляет ценный вклад в соответствующую область.