Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic
Машинное разучивание встречает устойчивость к противодействию через ограниченные вмешательства в LLM
Название: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Авторы: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
Классификация: cs.LG cs.CL cs.CR cs.CY math.OC
Конференция: 39-я конференция по нейронным системам обработки информации (NeurIPS 2025) Семинар: Ограниченная оптимизация для машинного обучения (COML)
С широким распространением больших языковых моделей (LLM) возникает необходимость в большей персонализации для обеспечения защиты конфиденциальности и безопасной генерации. В данной статье авторы решают эту задачу с двух ключевых аспектов: разучивание конфиденциальной информации и устойчивость к атакам типа jailbreak. Исследователи предлагают различные формулировки ограниченной оптимизации, которые унифицированно решают обе проблемы путём поиска минимально возможного вмешательства в веса LLM, делая заданный набор словаря недостижимым или повышая устойчивость LLM к специализированным атакам путём перемещения части весов в более безопасные области. Метод не требует оракульного классификатора, который обычно недоступен или представляет вычислительные затраты. Примечательно, что авторы обнаруживают, что предложенный простейший метод точечного ограничения превосходит более сложное вмешательство типа max-min как по производительности, так и по вычислительной стоимости.
Проблема машинного разучивания: как удалить определённую информацию (конкретный набор словаря) из пространства генерации языковой модели с минимальными вычислительными затратами
Проблема устойчивости к противодействию: как сделать языковую модель более устойчивой к атакам типа jailbreak, приводящим к опасному или токсичному контенту
С развёртыванием LLM в приложениях, критичных по безопасности (таких как модерация онлайн-контента, обработка конфиденциальных данных), обеспечение безопасности выходных данных генеративных моделей становится ключевым требованием. Существующие методы демонстрируют компромисс между вычислительной эффективностью и эффективностью защиты.
Тонкая настройка и расширение модели: высокие вычислительные затраты
Защита на основе подсказок: уязвима к противодействующим манипуляциям
Лёгкие методы на основе зондов: ограничены доступными данными обучения, неэффективны против противодействующих атак
Методы разучивания: в основном полагаются на частичное переобучение через рамки учитель-ученик или итеративную тонкую настройку, требуя высоких вычислительных затрат
Авторы вдохновлены принципиальными методами устойчивости в регрессии и предлагают унифицированный фреймворк, одновременно решающий проблемы устойчивости к противодействию и разучивания, используя тот факт, что информация неявно хранится в путях скрытого пространства.
Унифицированный фреймворк: предложены и решены различные задачи ограниченной оптимизации, обеспечивающие LLM одновременно устойчивостью к противодействующим атакам и способностью разучивать ненужный контент
Отсутствие необходимости во внешних классификаторах: преодоление зависимости от искусственных зондов путём введения непрерывной релаксации в пространстве подсказок и выполнения прямого вмешательства в концептуальные вложения
Повышение производительности: демонстрация улучшений по сравнению с современными алгоритмами защиты и установление нового уровня производительности для экономичного разучивания на LLM
Вычислительная эффективность: простейший метод точечного ограничения превосходит сложное вмешательство типа max-min как по производительности, так и по вычислительной стоимости
Преимущества: не требует примеров опасной генерации, может быть решена методом проективного градиентного спуска
Недостатки: ограничение на безопасную генерацию является мягким ограничением, более слабая производительность
Характеристики: рассматривает сценарий наихудшего входного сигнала, использует вероятностную релаксацию для обработки дискретных структур
Недостатки: требует знания набора вредоносных концепций, может быть чрезмерно консервативным
Простая стратегия точечного ограничения, основанная на минимальном вмешательстве, делающая активации MLP LLM неравными вложениям опасного выхода для jailbreak-подсказок:
min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n
Преимущества: полузакрытое решение на основе условий KKT, высокая вычислительная эффективность, лучшая производительность
Недостатки: требует предопределённого набора запрещённых концепций C
Пользовательский набор данных послушания: содержит 100 запрещённых ключевых слов (таких как "abuse", "attack", "bomb" и другие слова, связанные с насилием и преступлениями)
HarmBench: стандартный набор тестов для оценки защиты LLM
Оптимальность метода точечного ограничения: простейший метод PCR превосходит более сложные методы TSR и ARR как по производительности, так и по вычислительной эффективности
Эффективность унифицированного фреймворка: один метод может одновременно решать проблемы разучивания и устойчивости
Влияние количества слоёв: вмешательство в большее количество слоёв MLP приводит к лучшей производительности
Явное вычислительное преимущество: значительное снижение вычислительных затрат по сравнению с существующими методами
Статья ссылается на множество важных работ в связанных областях, включая последние исследования в области противодействующего обучения, машинного разучивания и безопасности LLM, обеспечивая прочную теоретическую основу и сравнительные тесты для данного исследования.
Общая оценка: Это статья с важным вкладом в область безопасности LLM, которая через унифицированный фреймворк ограниченной оптимизации одновременно решает проблемы разучивания и устойчивости, предоставляя вычислительно эффективное решение. Несмотря на некоторые недостатки в теоретическом анализе и оценке, её практическая ценность и инновационность делают её важным прогрессом в данной области.