2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.
Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic

Удаление Бэкдоров путем Линейной Декомпозиции Задач

Основная информация

  • ID статьи: 2510.14845
  • Название: Backdoor Unlearning by Linear Task Decomposition
  • Авторы: Amel Abdelraheem, Alessandro Favero, Gérôme Bovet, Pascal Frossard
  • Классификация: cs.LG cs.CV
  • Дата публикации/конференция: препринт arXiv (подано 16 октября 2025 г.)
  • Ссылка на статью: https://arxiv.org/abs/2510.14845

Аннотация

Фундаментальные модели произвели революцию в компьютерном зрении, обеспечив широкую обобщаемость на разнообразные задачи. Однако они остаются чрезвычайно уязвимы к состязательным возмущениям и целевым атакам с бэкдорами. Смягчение таких уязвимостей остается открытой проблемой, особенно учитывая, что крупномасштабный характер моделей исключает переобучение для обеспечения безопасности. Существующие подходы к удалению бэкдоров полагаются на дорогостоящую тонкую настройку для переопределения вредоносного поведения и часто могут снизить производительность на других несвязанных задачах. Это поднимает вопрос о том, можно ли удалить бэкдоры без ущерба для общих возможностей моделей. В данной работе мы рассматриваем этот вопрос и изучаем, как бэкдоры кодируются в пространстве весов модели, обнаруживая, что они разделены от других благоприятных задач. В частности, это разделение позволяет изолировать и стереть влияние бэкдора на модель с минимальным воздействием на чистую производительность. Опираясь на это понимание, мы представляем простой метод забывания, который использует такое разделение. Благодаря обширным экспериментам с моделями на основе CLIP и распространенными состязательными триггерами мы показываем, что при наличии знания об атаке наш метод достигает приблизительно идеального забывания, сохраняя в среднем 96% чистой точности. Кроме того, мы демонстрируем, что даже когда атака и ее наличие неизвестны, наш метод успешно забывает бэкдоры путем надлежащей оценки с использованием обратно спроектированных триггеров. В целом, наш метод постоянно дает лучшие компромиссы между забыванием и чистой точностью по сравнению с современными защитами.

Предпосылки и мотивация исследования

Определение проблемы

Данное исследование направлено на защиту от атак с бэкдорами в крупных фундаментальных моделях. Атаки с бэкдорами работают путем внедрения небольшого количества образцов с определенными триггерами в данные обучения, заставляя модель производить предопределенное вредоносное поведение при встрече с входными данными, содержащими этот триггер, при этом показывая нормальное поведение на обычных входных данных.

Важность проблемы

  1. Угроза безопасности: Атаки с бэкдорами представляют серьезную угрозу для критически важных приложений, таких как автономное вождение и медицинская диагностика
  2. Проблема масштаба: Стоимость обучения крупных фундаментальных моделей чрезвычайно высока, полное переобучение для устранения бэкдоров практически невозможно
  3. Требование универсальности: Существующие методы защиты часто повреждают производительность модели на других задачах, вызывая проблему катастрофического забывания

Ограничения существующих методов

  1. Методы переобучения: Вычислительные затраты слишком высоки, неприменимы к крупномасштабным моделям
  2. Методы тонкой настройки: Легко приводят к катастрофическому забыванию, снижая производительность модели на чистых задачах
  3. Традиционное машинное забывание: Ограниченная эффективность при удалении бэкдоров, особенно плохая производительность в малых масштабах

Мотивация исследования

Авторы основывают свой подход на теории разделения весов, предполагая, что поведение бэкдора в пространстве весов модели отделено от нормальных задач, и поэтому может быть точно удалено с помощью линейных операций без влияния на нормальные функции.

Основные вклады

  1. Теоретическое понимание: Впервые применена теория разделения весов к анализу бэкдоров, доказано, что знание о бэкдорах и чистые знания разделены в пространстве весов моделей Transformer, подобных CLIP
  2. Метод TBAR: Предложен метод Trigger removal by Backdoor ARithmetic (TBAR) — легкий метод забывания бэкдоров на основе арифметики векторов задач
  3. Превосходная производительность: При известном триггере достигается 99% скорость удаления бэкдоров при сохранении 96% чистой точности, требуя на два порядка меньше данных, чем существующие методы
  4. Сценарий неизвестной атаки: При объединении с методом обратного проектирования успешно удаляет бэкдоры в условиях неизвестной атаки, сохраняя более 90% чистой точности

Подробное описание метода

Определение задачи

Дана инфицированная бэкдором модель θb, цель состоит в удалении вредоносного поведения (снижение скорости успеха атаки ASR до нуля) при максимальном сохранении производительности модели на чистых данных (чистая точность CA).

Основное предположение: разделение весов

Авторы предлагают основное предположение: веса визуальных фундаментальных моделей удовлетворяют свойству разделения весов для распространенных атак с бэкдорами, а именно:

f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)

где:

  • τc: вектор чистой задачи
  • τt: вектор задачи триггера
  • Dc: область чистых изображений
  • Dt: область изображений с триггером

Процедура алгоритма TBAR

1. Оценка вектора триггера

Тонкая настройка инфицированной модели на малом наборе для забывания (содержащем только образцы с триггерами):

τ̂t = θb+t - θb

2. Удаление бэкдора

Удаление бэкдора путем отрицания задачи:

θ̂c = θb - ατ̂t

где α — скалярный коэффициент, контролирующий интенсивность забывания.

3. Оптимизация коэффициента

Определение оптимального значения α с использованием малого набора валидации путем поиска по сетке.

Расширение для сценария неизвестной атаки

Объединение с методом обратного проектирования DECREE:

  1. Использование DECREE для восстановления прокси-триггера из инфицированной модели
  2. Вывод целевой метки путем зондирования ответа модели
  3. Построение набора образцов с прокси-триггером
  4. Применение TBAR для удаления бэкдора

Экспериментальная установка

Наборы данных

  1. Классификация одной задачи: SUN397, CIFAR100, ImageNet-1K
  2. Крупномасштабные изображение-текст: подмножество из 500k Conceptual Captions 3M (CC3M)

Типы атак с бэкдорами

  • BadNet: вставка блока случайного шума 16×16 в случайное место
  • Blended: наложение гауссовского возмущения на все изображение (соотношение 8:2)
  • WaNet: применение тонких преобразований деформации изображения
  • BadCLIP: атака с патчем, оптимизированная для CLIP
  • SIG: синусоидальное возмущение вдоль горизонтальной оси
  • BadMerging: атака, разработанная для выживания после слияния моделей

Метрики оценки

  • Чистая точность (CA): точность модели на чистых данных
  • Скорость успеха атаки (ASR): доля образцов с триггером, предсказанных как целевая метка
  • Ошибка разделения весов (ξ): измеряет разницу между предсказаниями комбинации векторов задач и их отдельного применения

Методы сравнения

  • Тонкая настройка на чистых данных: CleanCLIP, RoCLIP, стандартная тонкая настройка CLIP
  • Машинное забывание: восхождение по градиенту (Gradient Ascent)
  • Обратное проектирование: DECREE

Результаты экспериментов

Основные результаты

Эксперименты классификации одной задачи

Результаты на CLIP ViT-B/32 показывают:

  • SUN397: ASR снизилась с 91.40% до 1.25%, CA сохранена на уровне 94.96%
  • CIFAR100: ASR снизилась с 99.96% до 0.02%, CA сохранена на уровне 96.44%
  • ImageNet-1K: ASR снизилась с 93.56% до 1.96%, CA сохранена на уровне 94.97%

Эксперименты крупномасштабного изображение-текста

Результаты на наборе данных CC3M:

  • Эффективность данных: TBAR требует только 1.5k образцов, в то время как базовые методы требуют 100k образцов
  • Преимущество производительности: превосходит существующие методы защиты на всех типах атак
  • Атака BadCLIP: ASR снизилась с 99.98% до 0.77%, CA сохранена на уровне 56.58%

Проверка разделения весов

Путем визуализации ошибки разделения весов ξ(αc, αt) подтверждено, что чистая задача и задача триггера действительно разделены в пространстве весов, что подтверждает правильность основного предположения.

Эксперименты переноса

Использование вектора TBAR, обученного на ImageNet-1K, остается эффективным на CIFAR100 и SUN397:

  • CIFAR100: при общем триггере и целевой метке скорость удаления ASR достигает 99.98%
  • SUN397: при только общем триггере скорость удаления ASR все еще достигает 98.91%

Сценарий неизвестной атаки

Результаты объединения с DECREE показывают:

  • BadNet: ASR снизилась с 84.48% до 0.33%, CA сохранена на уровне 60.29%
  • WaNet: ASR снизилась с 93.12% до 0.64%, CA сохранена на уровне 56.85%

Абляционные эксперименты

Влияние размера набора для забывания

Эксперименты показывают, что увеличение размера набора для забывания (от 300 до 30k) дает ограниченное улучшение производительности, что указывает на то, что точное определение того, что нужно забыть, важнее, чем размер данных.

Соотношение чистых и триггерных данных

Использование различных пропорций смешивания чистых и триггерных данных показывает, что чистые триггерные данные дают лучший компромисс между CA и ASR.

Связанные работы

Атаки с отравлением данных

Атаки с бэкдорами являются разновидностью атак с отравлением данных, внедряя скрытые уязвимости в модели путем изменения небольшого количества данных обучения. Многомодальные модели, такие как CLIP, становятся основной целью атак из-за их широкого применения.

Машинное забывание

Машинное забывание направлено на выборочное удаление определенного изученного поведения, разделяясь на точное и приблизительное забывание. Существующие методы имеют ограниченную эффективность при удалении бэкдоров.

Интерполяция весов и арифметика задач

Арифметика задач кодирует изученные задачи как векторы в пространстве весов, позволяя добавлять, удалять и комбинировать задачи с помощью линейных операций. Свойство разделения весов является теоретической основой эффективности этих операций.

Выводы и обсуждение

Основные выводы

  1. Теоретическая проверка: Подтверждено разделение поведения бэкдора и нормальных задач в пространстве весов
  2. Эффективность метода: TBAR демонстрирует превосходную производительность на различных атаках и установках
  3. Практическая ценность: Значительно снижает требования к данным и вычислениям для защиты от бэкдоров

Ограничения

  1. Зависимость от предположения: Метод основан на предположении о разделении весов, которое может быть неприменимо ко всем архитектурам моделей
  2. Типы атак: Главным образом проверен на стандартных атаках, устойчивость к более сложным атакам требует дальнейшего исследования
  3. Зависимость от DECREE: Сценарий неизвестной атаки зависит от способности обнаружения DECREE, эффективность ограничена для некоторых атак (например, BadCLIP)

Направления будущих исследований

  1. Расширение на другие архитектуры моделей и парадигмы предварительного обучения
  2. Исследование защиты от более сложных адаптивных атак
  3. Изучение применения разделения весов в других задачах безопасности

Глубокая оценка

Преимущества

  1. Теоретическая инновация: Впервые систематически применена теория разделения весов к защите от бэкдоров, предоставляя новую теоретическую перспективу
  2. Простота метода: Метод TBAR простой и эффективный, легко реализуется и развертывается
  3. Полнота экспериментов: Охватывает множество типов атак, наборов данных и архитектур моделей, экспериментальный дизайн полный
  4. Практическая ценность: Значительно снижает требования к данным, имеет важное значение для практического развертывания

Недостатки

  1. Теоретические ограничения: Универсальность предположения о разделении весов требует дополнительного теоретического анализа
  2. Адаптивность атак: Недостаточно рассмотрены адаптивные атаки, направленные на этот метод защиты
  3. Анализ вычислений: Отсутствует подробный анализ и сравнение вычислительной сложности

Влияние

  1. Академическая ценность: Предоставляет новые идеи для исследований защиты от бэкдоров, может вдохновить больше методов защиты на основе пространства весов
  2. Практическая ценность: Имеет важные перспективы применения при развертывании крупномасштабных моделей
  3. Воспроизводимость: Предоставляет подробные экспериментальные установки и детали реализации, облегчая воспроизведение

Применимые сценарии

  1. Развертывание крупномасштабных моделей: Особенно подходит для крупных фундаментальных моделей, которые невозможно переобучить
  2. Среды с ограниченными ресурсами: Сценарии с ограниченными данными и вычислительными ресурсами
  3. Многозадачные модели: Сценарии приложений, требующие сохранения производительности на нескольких задачах

Библиография

Статья цитирует важные работы в этой области, включая:

  • Ilharco et al. (2022): основополагающая работа по арифметике задач
  • Ortiz-Jimenez et al. (2024): теоретическая основа разделения весов
  • Bansal et al. (2023): базовый метод защиты от бэкдоров CLIP
  • Carlini & Terzis (2021): классическое исследование атак с бэкдорами CLIP