2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche

With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.

academic

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

基本信息

论文ID: 2510.03567
标题: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
作者: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
分类: cs.LG cs.CL cs.CR cs.CY math.OC
发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
论文链接: https://arxiv.org/abs/2510.03567

摘要

随着大型语言模型(LLMs)的广泛采用，需要更多定制化来确保隐私保护和安全生成。本文从两个关键方面解决这一目标：敏感信息的遗忘和对越狱攻击的鲁棒性。研究者提出了各种约束优化公式，通过寻找对LLM权重的最小可能干预来统一解决这两个方面，使给定词汇集不可达或通过将部分权重转移到更安全的区域来增强LLM对定制攻击的鲁棒性。该方法不需要通常不可用或代表计算开销的预言分类器。令人惊讶的是，作者发现提出的最简单的点约束干预方法比最大-最小干预具有更好的性能，同时计算成本更低。

研究背景与动机

问题定义

本研究要解决两个核心问题：

机器遗忘问题：如何以最小的计算成本从语言模型的生成空间中删除某些信息（特定词汇集）
对抗鲁棒性问题：如何使语言模型对导致危险或有毒内容的越狱对抗攻击更加鲁棒

重要性

随着LLMs在安全敏感应用（如在线内容审核、机密数据处理）中的部署，确保生成模型输出的安全性成为关键要求。现有方法在计算效率和防御效果之间存在权衡问题。

现有方法局限性

微调和模型增强：计算开销大
基于提示的防御：脆弱且容易受到对抗操作影响
轻量级探针方法：受限于有限的训练数据，对对抗攻击无效
遗忘方法：主要通过师生框架的部分重训练或迭代微调，计算成本高

研究动机

作者受到回归中原则性鲁棒性方法的启发，提出一个统一框架同时解决对抗鲁棒性和遗忘问题，利用信息在潜在空间路径中的隐式存储这一事实。

核心贡献

统一框架：提出并解决了各种约束优化问题，使LLMs同时具备对抗攻击鲁棒性和遗忘不需要内容的能力
无需外部分类器：通过在提示空间上引入连续松弛并执行直接约束概念嵌入的干预，克服了对人工探针的需求
性能提升：与最先进的防御算法相比展示了性能提升，并为LLMs上的经济遗忘设定了新的最先进水平
计算效率：最简单的点约束方法在性能和计算成本方面都优于复杂的最大-最小干预

方法详解

任务定义

给定训练好的语言模型 ℓ : Σ → Σ，考虑两个基本的安全相关任务：

如何以最小计算成本从ℓ的生成空间中删除某些信息（词汇集）
如何使ℓ对导致危险或有毒内容的越狱对抗攻击更加鲁棒

三种约束干预方法

1. 朝向安全区域 (TSR)

寻找最小权重扰动以最大化对越狱提示的安全响应概率：

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

其中安全损失函数定义为：

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

优点：不需要危险生成的样例，可通过投影梯度下降求解缺点：对安全生成的约束是软约束，性能较弱

2. 远离风险区域 (ARR)

采用最大-最小问题：

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

有害损失函数定义为：

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

特点：考虑最坏情况输入场景，使用概率松弛处理离散结构缺点：需要有害概念集的知识，可能过于保守

3. 点约束区域 (PCR)

基于最小干预的简单点约束策略，使LLM MLP激活对于越狱提示不等于危险输出嵌入：

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

优点：基于KKT条件的半闭式解，计算效率高，性能最佳缺点：需要禁用概念集C

闭式解

对于单约束情况，闭式解为：

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

多约束情况采用迭代算法处理最违反的约束。

实验设置

数据集

自定义服从数据集：包含100个禁用关键词（如"abuse", "attack", "bomb"等暴力、犯罪相关词汇）
HarmBench：标准LLM防御基准测试集

评价指标

攻击成功率 (ASR)：衡量对抗攻击的成功程度（越低越好）
拒绝水平：模型完全拒绝响应的比例（越高越好）
困惑度：通过比较干预前后给定序列的困惑度来衡量遗忘水平

对比方法

SmoothLLM：最先进的对抗防御算法
Self-reminder：自提醒防御方法
无防护基线：原始模型

测试模型

Llama-3.1 8B Instruct
Mistral 7B v0.2
Gemma 2B-IT

实验结果

主要结果

对抗鲁棒性结果

在HarmBench数据集上的攻击成功率：

模型	无防护	点约束(本文)	SmoothLLM	Self-Reminder
Llama-3.1 8B	11.0	0.0	7.245	0.8
Mistral 7B	30.0	5.88	18.9	28.5
Gemma 2B-IT	22.0	2.508	8.225	19.58

拒绝模式分析：

模型	本文方法(%)	SmoothLLM(%)	Self-Reminder(%)
Llama-3.1 8B	100.0	87.5	24.3
Gemma 2B-IT	97.4	10	36.9
Mistral 7B	26.7	37.5	20

机器遗忘结果

禁用词困惑度分析（困惑度越高表示遗忘效果越好）：

模型	数据集	基线	点约束干预
Gemma-2B-IT	Obedience	8.816	12.72
Gemma-2B-IT	HarmBench	16.757	18.157
Mistral-7B	Obedience	8.627	13.74
Llama-3-8B	Obedience	6.48	7.735

计算效率

每个测试用例的平均时间：

模型	攻击时间(s)	PCR方法(s)	SmoothLLM(s)
LLaMA 3 8B	38.89	20.16	36.12
Mistral-7B	27.43	17.28	40.17
Gemma 2B	14.375	10.44	11.62

重要发现

点约束方法最优：最简单的PCR方法在性能和计算效率方面都优于更复杂的TSR和ARR方法
统一框架有效：同一方法可以同时处理遗忘和鲁棒性问题
层数影响：更多MLP层的干预带来更好的性能
计算优势明显：相比现有方法显著降低计算开销

结论与讨论

主要结论

提出了统一处理LLM遗忘和鲁棒性的约束优化框架
点约束方法在简单性和有效性之间达到最佳平衡
无需外部分类器，降低了计算开销和实现复杂度
在多个基准上超越现有最先进方法

局限性

概念集依赖：PCR和ARR方法需要预定义的禁用概念集
评估指标：遗忘评估主要基于困惑度，可能不够全面
泛化能力：在不同类型的攻击和模型上的泛化能力需要进一步验证
理论分析：缺乏对方法理论保证的深入分析

未来方向

开发不需要预定义概念集的自适应方法
探索更全面的遗忘评估指标
研究方法在更大规模模型上的扩展性
提供理论收敛性和安全性保证

深度评价

优点

问题重要性：解决了LLM安全部署中的两个关键问题
方法创新：首次将遗忘和鲁棒性统一在约束优化框架中
实用价值：提供了计算高效的解决方案
实验充分：在多个模型和数据集上进行了全面评估
理论基础：基于KKT条件提供闭式解

不足

理论分析不足：缺乏对方法收敛性和最优性的理论分析
评估局限：遗忘评估主要依赖困惑度单一指标
攻击多样性：主要针对特定类型的越狱攻击，对其他攻击类型的效果未知
长期影响：权重干预对模型长期性能的影响需要进一步研究

影响力

学术贡献：为LLM安全研究提供了新的统一视角
实用价值：为资源有限的组织提供了经济的安全解决方案
可复现性：提供了详细的算法描述和实现细节
扩展性：框架可扩展到其他安全相关任务

适用场景

教育领域：防止生成不当内容
医疗保健：保护敏感医疗信息
在线平台：内容安全审核
企业应用：机密信息保护

参考文献

论文引用了多个相关领域的重要工作，包括对抗训练、机器遗忘、LLM安全等方向的最新研究成果，为本研究提供了坚实的理论基础和对比基准。

总体评价：这是一篇在LLM安全领域具有重要贡献的论文，通过统一的约束优化框架同时解决了遗忘和鲁棒性问题，提供了计算高效的解决方案。尽管存在一些理论分析和评估方面的不足，但其实用价值和创新性使其成为该领域的重要进展。