2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

基本信息

  • 论文ID: 2510.03567
  • 标题: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
  • 作者: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
  • 分类: cs.LG cs.CL cs.CR cs.CY math.OC
  • 发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
  • 论文链接: https://arxiv.org/abs/2510.03567

摘要

随着大型语言模型(LLMs)的广泛采用,需要更多定制化来确保隐私保护和安全生成。本文从两个关键方面解决这一目标:敏感信息的遗忘和对越狱攻击的鲁棒性。研究者提出了各种约束优化公式,通过寻找对LLM权重的最小可能干预来统一解决这两个方面,使给定词汇集不可达或通过将部分权重转移到更安全的区域来增强LLM对定制攻击的鲁棒性。该方法不需要通常不可用或代表计算开销的预言分类器。令人惊讶的是,作者发现提出的最简单的点约束干预方法比最大-最小干预具有更好的性能,同时计算成本更低。

研究背景与动机

问题定义

本研究要解决两个核心问题:

  1. 机器遗忘问题:如何以最小的计算成本从语言模型的生成空间中删除某些信息(特定词汇集)
  2. 对抗鲁棒性问题:如何使语言模型对导致危险或有毒内容的越狱对抗攻击更加鲁棒

重要性

随着LLMs在安全敏感应用(如在线内容审核、机密数据处理)中的部署,确保生成模型输出的安全性成为关键要求。现有方法在计算效率和防御效果之间存在权衡问题。

现有方法局限性

  1. 微调和模型增强:计算开销大
  2. 基于提示的防御:脆弱且容易受到对抗操作影响
  3. 轻量级探针方法:受限于有限的训练数据,对对抗攻击无效
  4. 遗忘方法:主要通过师生框架的部分重训练或迭代微调,计算成本高

研究动机

作者受到回归中原则性鲁棒性方法的启发,提出一个统一框架同时解决对抗鲁棒性和遗忘问题,利用信息在潜在空间路径中的隐式存储这一事实。

核心贡献

  1. 统一框架:提出并解决了各种约束优化问题,使LLMs同时具备对抗攻击鲁棒性和遗忘不需要内容的能力
  2. 无需外部分类器:通过在提示空间上引入连续松弛并执行直接约束概念嵌入的干预,克服了对人工探针的需求
  3. 性能提升:与最先进的防御算法相比展示了性能提升,并为LLMs上的经济遗忘设定了新的最先进水平
  4. 计算效率:最简单的点约束方法在性能和计算成本方面都优于复杂的最大-最小干预

方法详解

任务定义

给定训练好的语言模型 ℓ : Σ → Σ,考虑两个基本的安全相关任务:

  1. 如何以最小计算成本从ℓ的生成空间中删除某些信息(词汇集)
  2. 如何使ℓ对导致危险或有毒内容的越狱对抗攻击更加鲁棒

三种约束干预方法

1. 朝向安全区域 (TSR)

寻找最小权重扰动以最大化对越狱提示的安全响应概率:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

其中安全损失函数定义为:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

优点:不需要危险生成的样例,可通过投影梯度下降求解 缺点:对安全生成的约束是软约束,性能较弱

2. 远离风险区域 (ARR)

采用最大-最小问题:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

有害损失函数定义为:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

特点:考虑最坏情况输入场景,使用概率松弛处理离散结构 缺点:需要有害概念集的知识,可能过于保守

3. 点约束区域 (PCR)

基于最小干预的简单点约束策略,使LLM MLP激活对于越狱提示不等于危险输出嵌入:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

优点:基于KKT条件的半闭式解,计算效率高,性能最佳 缺点:需要禁用概念集C

闭式解

对于单约束情况,闭式解为:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

多约束情况采用迭代算法处理最违反的约束。

实验设置

数据集

  1. 自定义服从数据集:包含100个禁用关键词(如"abuse", "attack", "bomb"等暴力、犯罪相关词汇)
  2. HarmBench:标准LLM防御基准测试集

评价指标

  1. 攻击成功率 (ASR):衡量对抗攻击的成功程度(越低越好)
  2. 拒绝水平:模型完全拒绝响应的比例(越高越好)
  3. 困惑度:通过比较干预前后给定序列的困惑度来衡量遗忘水平

对比方法

  • SmoothLLM:最先进的对抗防御算法
  • Self-reminder:自提醒防御方法
  • 无防护基线:原始模型

测试模型

  • Llama-3.1 8B Instruct
  • Mistral 7B v0.2
  • Gemma 2B-IT

实验结果

主要结果

对抗鲁棒性结果

在HarmBench数据集上的攻击成功率:

模型无防护点约束(本文)SmoothLLMSelf-Reminder
Llama-3.1 8B11.00.07.2450.8
Mistral 7B30.05.8818.928.5
Gemma 2B-IT22.02.5088.22519.58

拒绝模式分析:

模型本文方法(%)SmoothLLM(%)Self-Reminder(%)
Llama-3.1 8B100.087.524.3
Gemma 2B-IT97.41036.9
Mistral 7B26.737.520

机器遗忘结果

禁用词困惑度分析(困惑度越高表示遗忘效果越好):

模型数据集基线点约束干预
Gemma-2B-ITObedience8.81612.72
Gemma-2B-ITHarmBench16.75718.157
Mistral-7BObedience8.62713.74
Llama-3-8BObedience6.487.735

计算效率

每个测试用例的平均时间:

模型攻击时间(s)PCR方法(s)SmoothLLM(s)
LLaMA 3 8B38.8920.1636.12
Mistral-7B27.4317.2840.17
Gemma 2B14.37510.4411.62

重要发现

  1. 点约束方法最优:最简单的PCR方法在性能和计算效率方面都优于更复杂的TSR和ARR方法
  2. 统一框架有效:同一方法可以同时处理遗忘和鲁棒性问题
  3. 层数影响:更多MLP层的干预带来更好的性能
  4. 计算优势明显:相比现有方法显著降低计算开销

相关工作

安全生成方法

  1. 微调方法:计算开销大
  2. 提示工程:易受对抗操作影响
  3. 不确定性量化:计算复杂
  4. 模型增强:资源需求高

轻量级方法

  1. 激活空间探针:受训练数据限制
  2. 对抗检测:分析扰动输入的统计特征

机器遗忘

  1. 师生框架:部分重训练,计算成本高
  2. 迭代微调:同样面临计算挑战

结论与讨论

主要结论

  1. 提出了统一处理LLM遗忘和鲁棒性的约束优化框架
  2. 点约束方法在简单性和有效性之间达到最佳平衡
  3. 无需外部分类器,降低了计算开销和实现复杂度
  4. 在多个基准上超越现有最先进方法

局限性

  1. 概念集依赖:PCR和ARR方法需要预定义的禁用概念集
  2. 评估指标:遗忘评估主要基于困惑度,可能不够全面
  3. 泛化能力:在不同类型的攻击和模型上的泛化能力需要进一步验证
  4. 理论分析:缺乏对方法理论保证的深入分析

未来方向

  1. 开发不需要预定义概念集的自适应方法
  2. 探索更全面的遗忘评估指标
  3. 研究方法在更大规模模型上的扩展性
  4. 提供理论收敛性和安全性保证

深度评价

优点

  1. 问题重要性:解决了LLM安全部署中的两个关键问题
  2. 方法创新:首次将遗忘和鲁棒性统一在约束优化框架中
  3. 实用价值:提供了计算高效的解决方案
  4. 实验充分:在多个模型和数据集上进行了全面评估
  5. 理论基础:基于KKT条件提供闭式解

不足

  1. 理论分析不足:缺乏对方法收敛性和最优性的理论分析
  2. 评估局限:遗忘评估主要依赖困惑度单一指标
  3. 攻击多样性:主要针对特定类型的越狱攻击,对其他攻击类型的效果未知
  4. 长期影响:权重干预对模型长期性能的影响需要进一步研究

影响力

  1. 学术贡献:为LLM安全研究提供了新的统一视角
  2. 实用价值:为资源有限的组织提供了经济的安全解决方案
  3. 可复现性:提供了详细的算法描述和实现细节
  4. 扩展性:框架可扩展到其他安全相关任务

适用场景

  1. 教育领域:防止生成不当内容
  2. 医疗保健:保护敏感医疗信息
  3. 在线平台:内容安全审核
  4. 企业应用:机密信息保护

参考文献

论文引用了多个相关领域的重要工作,包括对抗训练、机器遗忘、LLM安全等方向的最新研究成果,为本研究提供了坚实的理论基础和对比基准。


总体评价:这是一篇在LLM安全领域具有重要贡献的论文,通过统一的约束优化框架同时解决了遗忘和鲁棒性问题,提供了计算高效的解决方案。尽管存在一些理论分析和评估方面的不足,但其实用价值和创新性使其成为该领域的重要进展。