2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic

Машинное разучивание встречает устойчивость к противодействию через ограниченные вмешательства в LLM

Основная информация

  • ID статьи: 2510.03567
  • Название: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
  • Авторы: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
  • Классификация: cs.LG cs.CL cs.CR cs.CY math.OC
  • Конференция: 39-я конференция по нейронным системам обработки информации (NeurIPS 2025) Семинар: Ограниченная оптимизация для машинного обучения (COML)
  • Ссылка на статью: https://arxiv.org/abs/2510.03567

Аннотация

С широким распространением больших языковых моделей (LLM) возникает необходимость в большей персонализации для обеспечения защиты конфиденциальности и безопасной генерации. В данной статье авторы решают эту задачу с двух ключевых аспектов: разучивание конфиденциальной информации и устойчивость к атакам типа jailbreak. Исследователи предлагают различные формулировки ограниченной оптимизации, которые унифицированно решают обе проблемы путём поиска минимально возможного вмешательства в веса LLM, делая заданный набор словаря недостижимым или повышая устойчивость LLM к специализированным атакам путём перемещения части весов в более безопасные области. Метод не требует оракульного классификатора, который обычно недоступен или представляет вычислительные затраты. Примечательно, что авторы обнаруживают, что предложенный простейший метод точечного ограничения превосходит более сложное вмешательство типа max-min как по производительности, так и по вычислительной стоимости.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование решает две основные проблемы:

  1. Проблема машинного разучивания: как удалить определённую информацию (конкретный набор словаря) из пространства генерации языковой модели с минимальными вычислительными затратами
  2. Проблема устойчивости к противодействию: как сделать языковую модель более устойчивой к атакам типа jailbreak, приводящим к опасному или токсичному контенту

Значимость

С развёртыванием LLM в приложениях, критичных по безопасности (таких как модерация онлайн-контента, обработка конфиденциальных данных), обеспечение безопасности выходных данных генеративных моделей становится ключевым требованием. Существующие методы демонстрируют компромисс между вычислительной эффективностью и эффективностью защиты.

Ограничения существующих методов

  1. Тонкая настройка и расширение модели: высокие вычислительные затраты
  2. Защита на основе подсказок: уязвима к противодействующим манипуляциям
  3. Лёгкие методы на основе зондов: ограничены доступными данными обучения, неэффективны против противодействующих атак
  4. Методы разучивания: в основном полагаются на частичное переобучение через рамки учитель-ученик или итеративную тонкую настройку, требуя высоких вычислительных затрат

Исследовательская мотивация

Авторы вдохновлены принципиальными методами устойчивости в регрессии и предлагают унифицированный фреймворк, одновременно решающий проблемы устойчивости к противодействию и разучивания, используя тот факт, что информация неявно хранится в путях скрытого пространства.

Основные вклады

  1. Унифицированный фреймворк: предложены и решены различные задачи ограниченной оптимизации, обеспечивающие LLM одновременно устойчивостью к противодействующим атакам и способностью разучивать ненужный контент
  2. Отсутствие необходимости во внешних классификаторах: преодоление зависимости от искусственных зондов путём введения непрерывной релаксации в пространстве подсказок и выполнения прямого вмешательства в концептуальные вложения
  3. Повышение производительности: демонстрация улучшений по сравнению с современными алгоритмами защиты и установление нового уровня производительности для экономичного разучивания на LLM
  4. Вычислительная эффективность: простейший метод точечного ограничения превосходит сложное вмешательство типа max-min как по производительности, так и по вычислительной стоимости

Подробное описание методологии

Определение задачи

Дана обученная языковая модель ℓ : Σ → Σ, рассматриваются две основные задачи, связанные с безопасностью:

  1. Как удалить определённую информацию (набор словаря) из пространства генерации ℓ с минимальными вычислительными затратами
  2. Как сделать ℓ более устойчивой к атакам типа jailbreak, приводящим к опасному или токсичному контенту

Три метода ограниченного вмешательства

1. К безопасной области (TSR)

Поиск минимального возмущения весов для максимизации вероятности безопасного ответа на jailbreak-подсказки:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

где функция потерь безопасности определяется как:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

Преимущества: не требует примеров опасной генерации, может быть решена методом проективного градиентного спуска Недостатки: ограничение на безопасную генерацию является мягким ограничением, более слабая производительность

2. От опасной области (ARR)

Применение задачи типа max-min:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

Функция потерь вредоносного контента определяется как:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

Характеристики: рассматривает сценарий наихудшего входного сигнала, использует вероятностную релаксацию для обработки дискретных структур Недостатки: требует знания набора вредоносных концепций, может быть чрезмерно консервативным

3. Область точечного ограничения (PCR)

Простая стратегия точечного ограничения, основанная на минимальном вмешательстве, делающая активации MLP LLM неравными вложениям опасного выхода для jailbreak-подсказок:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

Преимущества: полузакрытое решение на основе условий KKT, высокая вычислительная эффективность, лучшая производительность Недостатки: требует предопределённого набора запрещённых концепций C

Закрытое решение

Для случая одного ограничения закрытое решение имеет вид:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

Случай множественных ограничений обрабатывается итеративным алгоритмом, решающим наиболее нарушенное ограничение.

Экспериментальная установка

Наборы данных

  1. Пользовательский набор данных послушания: содержит 100 запрещённых ключевых слов (таких как "abuse", "attack", "bomb" и другие слова, связанные с насилием и преступлениями)
  2. HarmBench: стандартный набор тестов для оценки защиты LLM

Метрики оценки

  1. Коэффициент успеха атаки (ASR): измеряет успешность противодействующей атаки (чем ниже, тем лучше)
  2. Уровень отказа: доля случаев, когда модель полностью отказывает в ответе (чем выше, тем лучше)
  3. Перплексия: измеряет уровень разучивания путём сравнения перплексии последовательности до и после вмешательства

Методы сравнения

  • SmoothLLM: современный алгоритм защиты от противодействия
  • Self-reminder: метод защиты с самонапоминанием
  • Базовая линия без защиты: исходная модель

Тестируемые модели

  • Llama-3.1 8B Instruct
  • Mistral 7B v0.2
  • Gemma 2B-IT

Результаты экспериментов

Основные результаты

Результаты устойчивости к противодействию

Коэффициент успеха атаки на наборе данных HarmBench:

МодельБез защитыТочечное ограничение (данная работа)SmoothLLMSelf-Reminder
Llama-3.1 8B11.00.07.2450.8
Mistral 7B30.05.8818.928.5
Gemma 2B-IT22.02.5088.22519.58

Анализ моделей отказа:

МодельДанный метод (%)SmoothLLM (%)Self-Reminder (%)
Llama-3.1 8B100.087.524.3
Gemma 2B-IT97.41036.9
Mistral 7B26.737.520

Результаты машинного разучивания

Анализ перплексии запрещённых слов (более высокая перплексия указывает на лучшее разучивание):

МодельНабор данныхБазовая линияВмешательство точечного ограничения
Gemma-2B-ITПослушание8.81612.72
Gemma-2B-ITHarmBench16.75718.157
Mistral-7BПослушание8.62713.74
Llama-3-8BПослушание6.487.735

Вычислительная эффективность

Среднее время на один тестовый пример:

МодельВремя атаки (сек)Метод PCR (сек)SmoothLLM (сек)
LLaMA 3 8B38.8920.1636.12
Mistral-7B27.4317.2840.17
Gemma 2B14.37510.4411.62

Важные находки

  1. Оптимальность метода точечного ограничения: простейший метод PCR превосходит более сложные методы TSR и ARR как по производительности, так и по вычислительной эффективности
  2. Эффективность унифицированного фреймворка: один метод может одновременно решать проблемы разучивания и устойчивости
  3. Влияние количества слоёв: вмешательство в большее количество слоёв MLP приводит к лучшей производительности
  4. Явное вычислительное преимущество: значительное снижение вычислительных затрат по сравнению с существующими методами

Связанные работы

Методы безопасной генерации

  1. Методы тонкой настройки: высокие вычислительные затраты
  2. Инженерия подсказок: уязвима к противодействующим манипуляциям
  3. Квантификация неопределённости: вычислительная сложность
  4. Расширение модели: высокие требования к ресурсам

Лёгкие методы

  1. Зонды в пространстве активации: ограничены доступными данными обучения
  2. Обнаружение противодействия: анализ статистических характеристик возмущённых входных сигналов

Машинное разучивание

  1. Рамки учитель-ученик: частичное переобучение, высокие вычислительные затраты
  2. Итеративная тонкая настройка: аналогичные вычислительные вызовы

Заключение и обсуждение

Основные выводы

  1. Предложен унифицированный фреймворк ограниченной оптимизации для одновременного решения проблем разучивания и устойчивости LLM
  2. Метод точечного ограничения достигает оптимального баланса между простотой и эффективностью
  3. Отсутствие необходимости во внешних классификаторах снижает вычислительные затраты и сложность реализации
  4. Превосходит существующие современные методы на множественных тестовых наборах

Ограничения

  1. Зависимость от набора концепций: методы PCR и ARR требуют предопределённого набора запрещённых концепций
  2. Метрики оценки: оценка разучивания в основном основана на перплексии, что может быть недостаточно полным
  3. Способность к обобщению: необходимо дальнейшее подтверждение способности к обобщению на различные типы атак и модели
  4. Теоретический анализ: отсутствует глубокий анализ теоретических гарантий метода

Направления будущих исследований

  1. Разработка адаптивных методов, не требующих предопределённого набора концепций
  2. Исследование более полных метрик оценки разучивания
  3. Изучение масштабируемости метода на более крупные модели
  4. Предоставление теоретических гарантий сходимости и безопасности

Глубокая оценка

Преимущества

  1. Важность проблемы: решает две ключевые проблемы безопасного развёртывания LLM
  2. Методологическая инновация: впервые объединяет разучивание и устойчивость в рамках ограниченной оптимизации
  3. Практическая ценность: предоставляет вычислительно эффективное решение
  4. Полнота экспериментов: всесторонняя оценка на множественных моделях и наборах данных
  5. Теоретическая основа: предоставляет закрытое решение на основе условий KKT

Недостатки

  1. Недостаточный теоретический анализ: отсутствует анализ сходимости и оптимальности метода
  2. Ограничения оценки: оценка разучивания в основном зависит от единственной метрики перплексии
  3. Разнообразие атак: в основном сосредоточен на конкретных типах jailbreak-атак, эффект на другие типы атак неизвестен
  4. Долгосрочное воздействие: необходимо дальнейшее исследование влияния вмешательства в веса на долгосрочную производительность модели

Влияние

  1. Академический вклад: предоставляет новую унифицированную перспективу для исследований безопасности LLM
  2. Практическая ценность: предоставляет экономичное решение для безопасности организациям с ограниченными ресурсами
  3. Воспроизводимость: предоставляет подробное описание алгоритма и детали реализации
  4. Расширяемость: фреймворк может быть расширен на другие задачи, связанные с безопасностью

Применимые сценарии

  1. Образование: предотвращение генерации неприемлемого контента
  2. Здравоохранение: защита конфиденциальной медицинской информации
  3. Онлайн-платформы: модерация безопасности контента
  4. Корпоративные приложения: защита конфиденциальной информации

Библиография

Статья ссылается на множество важных работ в связанных областях, включая последние исследования в области противодействующего обучения, машинного разучивания и безопасности LLM, обеспечивая прочную теоретическую основу и сравнительные тесты для данного исследования.


Общая оценка: Это статья с важным вкладом в область безопасности LLM, которая через унифицированный фреймворк ограниченной оптимизации одновременно решает проблемы разучивания и устойчивости, предоставляя вычислительно эффективное решение. Несмотря на некоторые недостатки в теоретическом анализе и оценке, её практическая ценность и инновационность делают её важным прогрессом в данной области.