2025-11-13T21:49:11.069891

SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness

Kodge, Ravikumar, Saha et al.
Label corruption, where training samples are mislabeled due to non-expert annotation or adversarial attacks, significantly degrades model performance. Acquiring large, perfectly labeled datasets is costly, and retraining models from scratch is computationally expensive. To address this, we introduce Scaled Activation Projection (SAP), a novel SVD (Singular Value Decomposition)-based corrective machine unlearning algorithm. SAP mitigates label noise by identifying a small subset of trusted samples using cross-entropy loss and projecting model weights onto a clean activation space estimated using SVD on these trusted samples. This process suppresses the noise introduced in activations due to the mislabeled samples. In our experiments, we demonstrate SAP's effectiveness on synthetic noise with different settings and real-world label noise. SAP applied to the CIFAR dataset with 25% synthetic corruption show upto 6% generalization improvements. Additionally, SAP can improve the generalization over noise robust training approaches on CIFAR dataset by ~3.2% on average. Further, we observe generalization improvements of 2.31% for a Vision Transformer model trained on naturally corrupted Clothing1M.
academic

SAP: Корректирующее машинное разучивание с масштабированной проекцией активации для устойчивости к шуму меток

Основная информация

  • ID статьи: 2403.08618
  • Название: SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness
  • Авторы: Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy (Purdue University)
  • Классификация: cs.LG cs.AI stat.ML
  • Дата публикации: 2 января 2025 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2403.08618
  • Ссылка на код: https://github.com/sangamesh-kodge/SAP.git

Аннотация

Повреждение меток является серьёзной проблемой в глубоком обучении. Неправильная разметка обучающих выборок, вызванная непрофессиональной аннотацией или враждебными атаками, значительно снижает производительность модели. Получение крупномасштабных идеально размеченных наборов данных обходится дорого, а переобучение модели с нуля требует огромных вычислительных затрат. В этой работе предлагается масштабированная проекция активации (SAP) — алгоритм корректирующего машинного разучивания, основанный на сингулярном разложении (SVD). SAP смягчает влияние шума меток путём идентификации небольшого количества надёжных выборок с использованием потерь кросс-энтропии и проецирования весов модели в пространство чистых активаций, оценённое на основе этих надёжных выборок с помощью SVD. Экспериментальные результаты показывают, что SAP достигает улучшения обобщения до 6% на наборах данных CIFAR при 25% синтетического повреждения, в среднем улучшает примерно на 3,2% методы обучения, устойчивые к шуму, и достигает улучшения обобщения на 2,31% для модели Vision Transformer на естественно повреждённом наборе данных Clothing1M.

Исследовательский контекст и мотивация

Определение проблемы

  1. Проблема шума меток: Ошибки меток широко распространены в крупномасштабных наборах данных, которые могут возникать из-за:
    • Ошибок ручной аннотации
    • Ошибок автоматических систем разметки (например, больших языковых моделей)
    • Враждебных атак отравления данных
  2. Ограничения существующих решений:
    • Методы очистки данных: Требуют переобучения модели, высокие вычислительные затраты
    • Обучение, устойчивое к шуму: Хотя повышает устойчивость, не может полностью устранить разрыв в производительности
    • Традиционное машинное разучивание: Требует явного различия между неправильно размеченными и сложными для обучения выборками, что затруднительно в практических приложениях
  3. Исследовательская мотивация:
    • Избежать высоких вычислительных затрат переобучения с нуля
    • Не требовать явной идентификации неправильно размеченных выборок
    • Достичь эффективного смягчения шума посредством единовременного обновления весов

Основные вклады

  1. Предложение алгоритма SAP: Алгоритм корректирующего машинного разучивания на основе SVD, смягчающий влияние шума меток через проекцию активации
  2. Автоматизированный выбор надёжных выборок: Использование потерь кросс-энтропии для автоматической идентификации надёжных выборок, избегая ручной разметки
  3. Одношаговое обновление весов: Эффективная корректировка модели посредством одного вычисления SVD и проекции весов
  4. Обширная экспериментальная проверка: Проверка эффективности в сценариях синтетического и реального шума, поддержка различных архитектур моделей

Подробное описание метода

Определение задачи

Дан набор обучающих данных DTrD_{Tr} с шумом меток, целью является корректировка параметров уже обученной модели θθ^* таким образом, чтобы её производительность обобщения на тестовом наборе приближалась к модели, обученной на чистых данных, без необходимости переобучения.

Архитектура модели

1. Механизм обновления весов

Для линейного слоя aout=ainWTa_{out} = a_{in}W^T SAP проецирует входные активации посредством матрицы выравнивания активации WpW_p:

a^out=(ainWp)WT=ain(WWpT)T=ainW^T\hat{a}_{out} = (a_{in}W_p)W^T = a_{in}(WW_p^T)^T = a_{in}\hat{W}^T

Правило обновления весов: W^=WWpT\hat{W} = WW_p^T

2. Оценка надёжных данных

Использование потерь кросс-энтропии для выбора NTrustN_{Trust} выборок с наименьшими потерями в качестве надёжного набора:

DTrust=argminS(xi,yi)SL(θ,xi,yi)D_{Trust} = \arg\min_S \sum_{(x_i,y_i) \in S} L(θ^*, x_i, y_i)

где S={SiDTrSi=NTrust}S = \{S_i \subseteq D_{Tr} | |S_i| = N_{Trust}\}

3. Построение матрицы представлений

  • Линейный слой: Rlinear=[(aiin)i=1NTrust]R_{linear} = [(a_i^{in})_{i=1}^{N_{Trust}}]
  • Сверточный слой: Преобразование свёртки в матричное умножение посредством операции unfold, Rconv=[(unfold(aiin)T)i=1NTrust]R_{conv} = [(unfold(a_i^{in})^T)_{i=1}^{N_{Trust}}]

4. SVD-разложение и масштабирование важности

Выполнение SVD-разложения матрицы представлений: Rl=UlΣlVlTR^l = U^l Σ^l V^{lT}

Вычисление весов важности: λi=ασ~i(α1)σ~i+1λ_i = \frac{α\tilde{σ}_i}{(α-1)\tilde{σ}_i + 1}

где σ~i=σi2/j=1dσj2\tilde{σ}_i = σ_i^2 / \sum_{j=1}^d σ_j^2 — нормализованные сингулярные значения, αα — коэффициент масштабирования.

5. Матрица выравнивания активации

Построение матрицы проекции: Wp=UΛUTW_p = UΛU^T, где Λ=diag(λ1,λ2,...,λd)Λ = diag(λ_1, λ_2, ..., λ_d)

Технические инновации

  1. Автоматизированная обработка: Без необходимости ручной идентификации ошибочных выборок, автоматический выбор надёжных выборок через функцию потерь
  2. Эффективное обновление: Завершение обновления весов посредством одного вычисления SVD и матричного умножения, избегая итеративной оптимизации
  3. Проекция в пространство активации: Подавление влияния активаций с шумом путём проекции в пространство чистых активаций
  4. Независимость от архитектуры: Применимость к линейным и сверточным слоям, поддержка различных архитектур сетей

Экспериментальная установка

Наборы данных

  1. Наборы данных с синтетическим шумом:
    • CIFAR-10/CIFAR-100
    • Три типа шума: симметричный, асимметричный, иерархический
    • Уровни шума: 10% и 25%
  2. Наборы данных с реальным шумом:
    • Mini-WebVision
    • Clothing1M

Метрики оценки

  • Точность на тестовом наборе
  • Сравнение производительности с методами-базовыми линиями
  • Величина улучшения обобщения

Методы сравнения

  • Retrain: Идеальная модель, переобученная на чистых данных
  • Vanilla: Базовая модель, обученная на данных с шумом
  • Finetune: Тонкая настройка на небольшом количестве чистых данных
  • SSD: Алгоритм разучивания на основе избирательного синаптического подавления
  • SCRUB: Современный алгоритм машинного разучивания

Детали реализации

  • Количество надёжных выборок: 1000
  • Диапазон поиска коэффициента масштабирования α: 2000, 300000
  • Архитектуры моделей: VGG11, ResNet18, ResNet50, ViT-B/16
  • Оптимизатор: SGD, скорость обучения 0.01, затухание весов 5×10^-4

Экспериментальные результаты

Основные результаты

Эксперименты с синтетическим шумом

Результаты на наборах данных CIFAR-10 и CIFAR-100 показывают:

Набор данныхУровень шумаVanillaSAPУлучшение
CIFAR-1025%76.68±0.4882.27±0.15+5.59%
CIFAR-10025%50.64±0.6053.31±0.78+2.67%

SAP превосходит другие методы разучивания при всех настройках шума, с средним улучшением 1.36% (CIFAR-10) и 0.39% (CIFAR-100).

Усиление обучения, устойчивого к шуму

SAP может дополнительно повысить производительность существующих методов, устойчивых к шуму:

МетодБазовая линия CIFAR-10Усиление SAPУлучшение
MixUp83.12±0.4486.45±0.52+3.33%
SAM83.29±0.2887.29±0.08+4.0%
Среднее83.6987.14+3.45%

Реальный шум

Результаты на наборах данных с реальным шумом:

Набор данныхМодельVanillaSAPУлучшение
Clothing1MResNet5067.48±0.6469.64±0.57+2.16%
Clothing1MViT-B/1669.12±0.4571.43±0.60+2.31%

Абляционные исследования

Влияние количества надёжных выборок

Эксперименты показывают, что увеличение количества надёжных выборок до 1000 приводит к убывающей отдаче, поэтому выбор 1000 выборок обеспечивает баланс между производительностью и вычислительной эффективностью.

Влияние коэффициента масштабирования α

α=30000 показывает лучшую производительность при различных настройках синтетического шума, слишком большие или слишком малые значения α снижают производительность.

Экспериментальные выводы

  1. Вычислительная эффективность: SAP требует только 16 поисков гиперпараметров, в то время как SCRUB требует 675
  2. Устойчивость: Стабильная производительность при различных типах и уровнях шума
  3. Масштабируемость: Успешное применение к крупномасштабным наборам данных и моделям Transformer
  4. Оптимизация границы решения: Визуализационные эксперименты показывают, что SAP может сгладить границу решения и снизить переобучение

Связанные работы

Классификация методов обработки шума меток

  1. Методы очистки данных:
    • Фильтрация данных: удаление неправильно размеченных выборок
    • Выбор выборок: динамический выбор обучающих выборок
    • Коррекция меток: исправление неправильных меток
  2. Обучение, устойчивое к шуму:
    • Методы регуляризации: Dropout, сглаживание меток
    • Устойчивые функции потерь: симметричная кросс-энтропия, MAE
    • Увеличение данных: MixUp, MentorMix
  3. Корректирующее машинное разучивание:
    • Традиционное разучивание сосредоточено на защите конфиденциальности
    • Корректирующее разучивание сосредоточено на повышении производительности обобщения

Преимущества данной работы

По сравнению с существующими методами SAP имеет следующие преимущества:

  • Не требует явной идентификации ошибочных выборок
  • Единовременное обновление избегает нестабильности итеративной оптимизации
  • Простая настройка гиперпараметров, высокая вычислительная эффективность

Заключение и обсуждение

Основные выводы

  1. Проверка эффективности: SAP значительно повышает производительность обобщения модели в сценариях синтетического и реального шума
  2. Преимущества эффективности: Единовременное обновление весов и простая настройка гиперпараметров обеспечивают SAP значительные вычислительные преимущества
  3. Широкая применимость: Поддержка различных архитектур сетей и масштабов наборов данных
  4. Практическая ценность: Может использоваться в сочетании с существующими методами, устойчивыми к шуму, для дальнейшего повышения производительности

Ограничения

  1. Предположение о надёжных выборках: Зависит от предположения, что выборки с низкими потерями действительно правильно размечены
  2. Чувствительность гиперпараметров: Выбор коэффициента масштабирования α оказывает значительное влияние на производительность
  3. Ограничения типов шума: Главным образом ориентирован на шум меток, ограниченная способность обработки других типов шума
  4. Недостаток теоретического анализа: Отсутствие теоретических гарантий эффективности метода

Направления будущих исследований

  1. Теоретический анализ: Установление теоретической основы эффективности SAP
  2. Адаптивный выбор параметров: Разработка методов автоматического выбора оптимального α
  3. Расширение приложений: Исследование применения в других типах шума и задачах
  4. Комбинирование с другими техниками: Исследование комбинирования с увеличением данных, враждебным обучением и другими техниками

Глубокая оценка

Преимущества

  1. Инновационность метода:
    • Первое применение SVD к корректирующему машинному разучиванию
    • Новая и эффективная идея проекции активации
    • Автоматизированный выбор надёжных выборок избегает ручного вмешательства
  2. Полнота экспериментов:
    • Охват различных типов и наборов данных с шумом
    • Сравнение с несколькими методами-базовыми линиями
    • Включение абляционных исследований и анализа чувствительности параметров
  3. Практическая ценность:
    • Высокая вычислительная эффективность, лёгкое развёртывание
    • Может использоваться в сочетании с существующими методами
    • Поддержка различных архитектур сетей
  4. Убедительность результатов:
    • Последовательное повышение производительности
    • Проверка статистической значимости
    • Визуализационный анализ повышает понимание

Недостатки

  1. Слабая теоретическая основа:
    • Отсутствие теоретического анализа эффективности метода
    • Не объясняется, почему проекция SVD эффективно подавляет шум
  2. Ограничения предположений:
    • Предположение о правильной разметке выборок с низкими потерями может не всегда быть верным
    • Сильные предположения о распределении шума
  3. Настройка параметров:
    • Выбор α лишён теоретического руководства
    • Различные наборы данных могут требовать различных значений α
  4. Ограничения сравнения:
    • Недостаточное сравнение с новейшими методами, устойчивыми к шуму
    • Отсутствие прямого сравнения с методами очистки данных

Влияние

  1. Академический вклад:
    • Предоставление нового направления исследований в области машинного разучивания
    • Идея проекции активации может вдохновить другие приложения
  2. Практическое применение:
    • Предоставление практического инструмента для обработки шума меток в реальном мире
    • Может быть интегрирован в существующие процессы обучения
  3. Воспроизводимость:
    • Предоставление полной реализации кода
    • Подробное описание экспериментальной установки

Применимые сценарии

  1. Сценарии с низким качеством меток в наборах данных
  2. Ситуации, когда переразметка данных невозможна
  3. Приложения, требующие быстрой корректировки уже обученных моделей
  4. Среды с ограниченными вычислительными ресурсами

Библиография

Статья цитирует важные работы в соответствующих областях, включая:

  • Машинное разучивание: методы SCRUB, SSD и другие
  • Обработка шума меток: MixUp, MentorMix, SAM и другие
  • Очистка данных: Confident Learning и другие
  • Фундаментальная теория: SVD-разложение, анализ активации и другие

Общая оценка: Предложенный в данной работе метод SAP имеет важное значение для обработки шума меток, достигая эффективной корректировки модели посредством умного проектирования проекции активации. Хотя в теоретическом анализе имеются некоторые недостатки, экспериментальная проверка полна, практическая ценность значительна, и работа предоставляет ценный вклад в соответствующую область.