2025-11-13T21:49:11.069891

SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness

Kodge, Ravikumar, Saha et al.

Label corruption, where training samples are mislabeled due to non-expert annotation or adversarial attacks, significantly degrades model performance. Acquiring large, perfectly labeled datasets is costly, and retraining models from scratch is computationally expensive. To address this, we introduce Scaled Activation Projection (SAP), a novel SVD (Singular Value Decomposition)-based corrective machine unlearning algorithm. SAP mitigates label noise by identifying a small subset of trusted samples using cross-entropy loss and projecting model weights onto a clean activation space estimated using SVD on these trusted samples. This process suppresses the noise introduced in activations due to the mislabeled samples. In our experiments, we demonstrate SAP's effectiveness on synthetic noise with different settings and real-world label noise. SAP applied to the CIFAR dataset with 25% synthetic corruption show upto 6% generalization improvements. Additionally, SAP can improve the generalization over noise robust training approaches on CIFAR dataset by ~3.2% on average. Further, we observe generalization improvements of 2.31% for a Vision Transformer model trained on naturally corrupted Clothing1M.

academic

SAP: Корректирующее машинное разучивание с масштабированной проекцией активации для устойчивости к шуму меток

Основная информация

ID статьи: 2403.08618
Название: SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness
Авторы: Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy (Purdue University)
Классификация: cs.LG cs.AI stat.ML
Дата публикации: 2 января 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2403.08618
Ссылка на код: https://github.com/sangamesh-kodge/SAP.git

Аннотация

Повреждение меток является серьёзной проблемой в глубоком обучении. Неправильная разметка обучающих выборок, вызванная непрофессиональной аннотацией или враждебными атаками, значительно снижает производительность модели. Получение крупномасштабных идеально размеченных наборов данных обходится дорого, а переобучение модели с нуля требует огромных вычислительных затрат. В этой работе предлагается масштабированная проекция активации (SAP) — алгоритм корректирующего машинного разучивания, основанный на сингулярном разложении (SVD). SAP смягчает влияние шума меток путём идентификации небольшого количества надёжных выборок с использованием потерь кросс-энтропии и проецирования весов модели в пространство чистых активаций, оценённое на основе этих надёжных выборок с помощью SVD. Экспериментальные результаты показывают, что SAP достигает улучшения обобщения до 6% на наборах данных CIFAR при 25% синтетического повреждения, в среднем улучшает примерно на 3,2% методы обучения, устойчивые к шуму, и достигает улучшения обобщения на 2,31% для модели Vision Transformer на естественно повреждённом наборе данных Clothing1M.

Исследовательский контекст и мотивация

Определение проблемы

Проблема шума меток: Ошибки меток широко распространены в крупномасштабных наборах данных, которые могут возникать из-за:
- Ошибок ручной аннотации
- Ошибок автоматических систем разметки (например, больших языковых моделей)
- Враждебных атак отравления данных
Ограничения существующих решений:
- Методы очистки данных: Требуют переобучения модели, высокие вычислительные затраты
- Обучение, устойчивое к шуму: Хотя повышает устойчивость, не может полностью устранить разрыв в производительности
- Традиционное машинное разучивание: Требует явного различия между неправильно размеченными и сложными для обучения выборками, что затруднительно в практических приложениях
Исследовательская мотивация:
- Избежать высоких вычислительных затрат переобучения с нуля
- Не требовать явной идентификации неправильно размеченных выборок
- Достичь эффективного смягчения шума посредством единовременного обновления весов

Основные вклады

Предложение алгоритма SAP: Алгоритм корректирующего машинного разучивания на основе SVD, смягчающий влияние шума меток через проекцию активации
Автоматизированный выбор надёжных выборок: Использование потерь кросс-энтропии для автоматической идентификации надёжных выборок, избегая ручной разметки
Одношаговое обновление весов: Эффективная корректировка модели посредством одного вычисления SVD и проекции весов
Обширная экспериментальная проверка: Проверка эффективности в сценариях синтетического и реального шума, поддержка различных архитектур моделей

Подробное описание метода

Определение задачи

Дан набор обучающих данных $D_{Tr}$ с шумом меток, целью является корректировка параметров уже обученной модели $θ^*$ таким образом, чтобы её производительность обобщения на тестовом наборе приближалась к модели, обученной на чистых данных, без необходимости переобучения.

Архитектура модели

1. Механизм обновления весов

Для линейного слоя $a_{out} = a_{in}W^T$ SAP проецирует входные активации посредством матрицы выравнивания активации $W_p$ :

$\hat{a}_{out} = (a_{in}W_p)W^T = a_{in}(WW_p^T)^T = a_{in}\hat{W}^T$

Правило обновления весов: $\hat{W} = WW_p^T$

2. Оценка надёжных данных

Использование потерь кросс-энтропии для выбора $N_{Trust}$ выборок с наименьшими потерями в качестве надёжного набора:

$D_{Trust} = \arg\min_S \sum_{(x_i,y_i) \in S} L(θ^*, x_i, y_i)$

где $S = \{S_i \subseteq D_{Tr} | |S_i| = N_{Trust}\}$

3. Построение матрицы представлений

Линейный слой: $R_{linear} = [(a_i^{in})_{i=1}^{N_{Trust}}]$
Сверточный слой: Преобразование свёртки в матричное умножение посредством операции unfold, $R_{conv} = [(unfold(a_i^{in})^T)_{i=1}^{N_{Trust}}]$

4. SVD-разложение и масштабирование важности

Выполнение SVD-разложения матрицы представлений: $R^l = U^l Σ^l V^{lT}$

Вычисление весов важности: $λ_i = \frac{α\tilde{σ}_i}{(α-1)\tilde{σ}_i + 1}$

где $\tilde{σ}_i = σ_i^2 / \sum_{j=1}^d σ_j^2$ — нормализованные сингулярные значения, $α$ — коэффициент масштабирования.

5. Матрица выравнивания активации

Построение матрицы проекции: $W_p = UΛU^T$ , где $Λ = diag(λ_1, λ_2, ..., λ_d)$

Технические инновации

Автоматизированная обработка: Без необходимости ручной идентификации ошибочных выборок, автоматический выбор надёжных выборок через функцию потерь
Эффективное обновление: Завершение обновления весов посредством одного вычисления SVD и матричного умножения, избегая итеративной оптимизации
Проекция в пространство активации: Подавление влияния активаций с шумом путём проекции в пространство чистых активаций
Независимость от архитектуры: Применимость к линейным и сверточным слоям, поддержка различных архитектур сетей

Экспериментальная установка

Наборы данных

Наборы данных с синтетическим шумом:
- CIFAR-10/CIFAR-100
- Три типа шума: симметричный, асимметричный, иерархический
- Уровни шума: 10% и 25%
Наборы данных с реальным шумом:
- Mini-WebVision
- Clothing1M

Метрики оценки

Точность на тестовом наборе
Сравнение производительности с методами-базовыми линиями
Величина улучшения обобщения

Методы сравнения

Retrain: Идеальная модель, переобученная на чистых данных
Vanilla: Базовая модель, обученная на данных с шумом
Finetune: Тонкая настройка на небольшом количестве чистых данных
SSD: Алгоритм разучивания на основе избирательного синаптического подавления
SCRUB: Современный алгоритм машинного разучивания

Детали реализации

Количество надёжных выборок: 1000
Диапазон поиска коэффициента масштабирования α: 2000, 300000
Архитектуры моделей: VGG11, ResNet18, ResNet50, ViT-B/16
Оптимизатор: SGD, скорость обучения 0.01, затухание весов 5×10^-4

Экспериментальные результаты

Основные результаты

Эксперименты с синтетическим шумом

Результаты на наборах данных CIFAR-10 и CIFAR-100 показывают:

Набор данных	Уровень шума	Vanilla	SAP	Улучшение
CIFAR-10	25%	76.68±0.48	82.27±0.15	+5.59%
CIFAR-100	25%	50.64±0.60	53.31±0.78	+2.67%

SAP превосходит другие методы разучивания при всех настройках шума, с средним улучшением 1.36% (CIFAR-10) и 0.39% (CIFAR-100).

Усиление обучения, устойчивого к шуму

SAP может дополнительно повысить производительность существующих методов, устойчивых к шуму:

Метод	Базовая линия CIFAR-10	Усиление SAP	Улучшение
MixUp	83.12±0.44	86.45±0.52	+3.33%
SAM	83.29±0.28	87.29±0.08	+4.0%
Среднее	83.69	87.14	+3.45%

Реальный шум

Результаты на наборах данных с реальным шумом:

Набор данных	Модель	Vanilla	SAP	Улучшение
Clothing1M	ResNet50	67.48±0.64	69.64±0.57	+2.16%
Clothing1M	ViT-B/16	69.12±0.45	71.43±0.60	+2.31%

Абляционные исследования

Влияние количества надёжных выборок

Эксперименты показывают, что увеличение количества надёжных выборок до 1000 приводит к убывающей отдаче, поэтому выбор 1000 выборок обеспечивает баланс между производительностью и вычислительной эффективностью.

Влияние коэффициента масштабирования α

α=30000 показывает лучшую производительность при различных настройках синтетического шума, слишком большие или слишком малые значения α снижают производительность.

Экспериментальные выводы

Вычислительная эффективность: SAP требует только 16 поисков гиперпараметров, в то время как SCRUB требует 675
Устойчивость: Стабильная производительность при различных типах и уровнях шума
Масштабируемость: Успешное применение к крупномасштабным наборам данных и моделям Transformer
Оптимизация границы решения: Визуализационные эксперименты показывают, что SAP может сгладить границу решения и снизить переобучение

Связанные работы

Классификация методов обработки шума меток

Методы очистки данных:
- Фильтрация данных: удаление неправильно размеченных выборок
- Выбор выборок: динамический выбор обучающих выборок
- Коррекция меток: исправление неправильных меток
Обучение, устойчивое к шуму:
- Методы регуляризации: Dropout, сглаживание меток
- Устойчивые функции потерь: симметричная кросс-энтропия, MAE
- Увеличение данных: MixUp, MentorMix
Корректирующее машинное разучивание:
- Традиционное разучивание сосредоточено на защите конфиденциальности
- Корректирующее разучивание сосредоточено на повышении производительности обобщения

Преимущества данной работы

По сравнению с существующими методами SAP имеет следующие преимущества:

Не требует явной идентификации ошибочных выборок
Единовременное обновление избегает нестабильности итеративной оптимизации
Простая настройка гиперпараметров, высокая вычислительная эффективность

Заключение и обсуждение

Основные выводы

Проверка эффективности: SAP значительно повышает производительность обобщения модели в сценариях синтетического и реального шума
Преимущества эффективности: Единовременное обновление весов и простая настройка гиперпараметров обеспечивают SAP значительные вычислительные преимущества
Широкая применимость: Поддержка различных архитектур сетей и масштабов наборов данных
Практическая ценность: Может использоваться в сочетании с существующими методами, устойчивыми к шуму, для дальнейшего повышения производительности

Ограничения

Предположение о надёжных выборках: Зависит от предположения, что выборки с низкими потерями действительно правильно размечены
Чувствительность гиперпараметров: Выбор коэффициента масштабирования α оказывает значительное влияние на производительность
Ограничения типов шума: Главным образом ориентирован на шум меток, ограниченная способность обработки других типов шума
Недостаток теоретического анализа: Отсутствие теоретических гарантий эффективности метода

Направления будущих исследований

Теоретический анализ: Установление теоретической основы эффективности SAP
Адаптивный выбор параметров: Разработка методов автоматического выбора оптимального α
Расширение приложений: Исследование применения в других типах шума и задачах
Комбинирование с другими техниками: Исследование комбинирования с увеличением данных, враждебным обучением и другими техниками

Глубокая оценка

Преимущества

Инновационность метода:
- Первое применение SVD к корректирующему машинному разучиванию
- Новая и эффективная идея проекции активации
- Автоматизированный выбор надёжных выборок избегает ручного вмешательства
Полнота экспериментов:
- Охват различных типов и наборов данных с шумом
- Сравнение с несколькими методами-базовыми линиями
- Включение абляционных исследований и анализа чувствительности параметров
Практическая ценность:
- Высокая вычислительная эффективность, лёгкое развёртывание
- Может использоваться в сочетании с существующими методами
- Поддержка различных архитектур сетей
Убедительность результатов:
- Последовательное повышение производительности
- Проверка статистической значимости
- Визуализационный анализ повышает понимание

Недостатки

Слабая теоретическая основа:
- Отсутствие теоретического анализа эффективности метода
- Не объясняется, почему проекция SVD эффективно подавляет шум
Ограничения предположений:
- Предположение о правильной разметке выборок с низкими потерями может не всегда быть верным
- Сильные предположения о распределении шума
Настройка параметров:
- Выбор α лишён теоретического руководства
- Различные наборы данных могут требовать различных значений α
Ограничения сравнения:
- Недостаточное сравнение с новейшими методами, устойчивыми к шуму
- Отсутствие прямого сравнения с методами очистки данных

Влияние

Академический вклад:
- Предоставление нового направления исследований в области машинного разучивания
- Идея проекции активации может вдохновить другие приложения
Практическое применение:
- Предоставление практического инструмента для обработки шума меток в реальном мире
- Может быть интегрирован в существующие процессы обучения
Воспроизводимость:
- Предоставление полной реализации кода
- Подробное описание экспериментальной установки

Применимые сценарии

Сценарии с низким качеством меток в наборах данных
Ситуации, когда переразметка данных невозможна
Приложения, требующие быстрой корректировки уже обученных моделей
Среды с ограниченными вычислительными ресурсами

Библиография

Статья цитирует важные работы в соответствующих областях, включая:

Машинное разучивание: методы SCRUB, SSD и другие
Обработка шума меток: MixUp, MentorMix, SAM и другие
Очистка данных: Confident Learning и другие
Фундаментальная теория: SVD-разложение, анализ активации и другие

Общая оценка: Предложенный в данной работе метод SAP имеет важное значение для обработки шума меток, достигая эффективной корректировки модели посредством умного проектирования проекции активации. Хотя в теоретическом анализе имеются некоторые недостатки, экспериментальная проверка полна, практическая ценность значительна, и работа предоставляет ценный вклад в соответствующую область.