2025-12-01T00:13:18.877594

Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion

Guo, Wen, Gao et al.
Machine unlearning, which selectively removes harmful knowledge from a pre-trained model without retraining from scratch, is crucial for addressing privacy, regulatory compliance, and ethical concerns in Large Language Models (LLMs). However, existing unlearning methods often struggle to thoroughly remove harmful knowledge, leaving residual harmful knowledge that can be easily recovered. To address these limitations, we propose Knowledge Density-Guided Unlearning via Blocks Reinsertion (KUnBR), a novel approach that first identifies layers with rich harmful knowledge and then thoroughly eliminates the harmful knowledge via re-insertion strategy. Our method introduces knowledge density estimation to quantify and locate layers containing the most harmful knowledge, enabling precise unlearning. Additionally, we design a layer re-insertion strategy that extracts and re-inserts harmful knowledge-rich layers into the original LLM, bypassing gradient obstruction caused by cover layers and ensuring effective gradient propagation during unlearning. Extensive experiments conducted on several unlearning and general capability benchmarks demonstrate that KUnBR achieves state-of-the-art forgetting performance while maintaining model utility.
academic

Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion

基本信息

  • 论文ID: 2511.11667
  • 标题: Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion
  • 作者: Feng Guo, Yuntao Wen, Shen Gao, Junshuo Zhang, Shuo Shang (University of Electronic Science and Technology of China)
  • 分类: cs.LG, cs.AI
  • 发表时间/会议: AAAI 2026 (预计)
  • 论文链接: https://arxiv.org/abs/2511.11667
  • 代码链接: github.com/llmgfffffff/Beyond-Superficial-Forgetting-KUnBR

摘要

本文针对大语言模型(LLM)的机器遗忘问题,提出了一种名为KUnBR (Knowledge Density-Guided Unlearning via Blocks Reinsertion)的新方法。现有遗忘方法往往无法彻底移除有害知识,留下的残余知识容易被恢复。KUnBR通过知识密度估计识别富含有害知识的层,然后采用块重新插入策略彻底消除有害知识。该方法绕过了"覆盖层"(cover layers)造成的梯度阻塞,确保有效的梯度传播。在多个基准测试上的实验表明,KUnBR在保持模型通用能力的同时,达到了最先进的遗忘性能。

研究背景与动机

1. 要解决的核心问题

机器遗忘旨在从预训练模型中选择性地移除特定知识子集(如隐私敏感或有害内容),而无需从头重新训练。这对于LLM的发展至关重要,因为它涉及数据隐私、法规遵从(如"被遗忘权")和AI系统的伦理问题。

2. 问题的重要性

  • 隐私保护: LLM在预训练过程中可能摄入大量隐私敏感数据
  • 法规遵从: GDPR等法规要求能够删除特定用户数据
  • 安全性: 防止恶意利用模型中的有害知识
  • 伦理对齐: 确保LLM与社会价值观保持一致

3. 现有方法的局限性

现有遗忘方法(如梯度上升、表示误导等)存在严重缺陷:

  • 表面遗忘: 仅调整少数参数(覆盖层)来抑制输出,而非真正消除知识
  • 易于恢复: RTT (Retraining on T) 攻击表明,通过在遗忘集的子集上进行最小重训练,就能恢复大部分"已遗忘"的知识
  • 残余知识: 有害知识仍然残留在模型参数中,只是被掩盖而非消除
  • 鲁棒性差: 容易受到越狱攻击和参数级攻击

4. 研究动机

作者发现现有方法主要依赖调整"覆盖层"来掩盖有害知识的表示,仅阻止模型输出不良内容,而未真正从模型内部表示中消除。这种根本性局限表明需要更鲁棒和彻底的遗忘方法。

核心贡献

  1. 提出KUnBR框架: 一种新颖的遗忘框架,能够识别包含不良知识的层并进行针对性训练,实现彻底消除有害知识
  2. 知识密度估计方法: 引入基于梯度的知识密度估计指标,能够量化和定位LLM中包含最多有害知识的层,实现精准遗忘
  3. 块重新插入策略: 设计了一种新颖的层重新插入策略,将富含有害知识的块提取并重新插入原始LLM,绕过覆盖层造成的梯度阻塞,确保遗忘过程中的有效梯度传播
  4. SOTA性能: 在多个遗忘和通用能力基准测试上取得最先进的遗忘性能,同时保持模型效用,特别是在对抗RTT攻击方面表现出色

方法详解

任务定义

给定:

  • 遗忘数据集 DforgetD_{forget}: 包含需要移除的知识
  • 保留数据集 DretainD_{retain}: 帮助模型在遗忘过程中保持通用能力

目标:

  • 优化模型参数以尽可能彻底地消除与 DforgetD_{forget} 相关的知识
  • 确保模型的效用性能不受影响
  • 当受到RTT攻击(在 DforgetD_{forget} 的子集T上微调)时,模型仍无法生成 DforgetD_{forget} 另一个不相交子集V中的知识

模型架构

KUnBR方法包含三个主要步骤:

步骤1: 预遗忘(Pre-Unlearning)

使用标准的梯度差分方法对原始LLM进行全参数微调作为"热身"阶段: θt+1=θtη(αθLretain(θt)θLforget(θt))\theta_{t+1} = \theta_t - \eta (\alpha\nabla_\theta L_{retain}(\theta_t) - \nabla_\theta L_{forget}(\theta_t))

其中:

  • η\eta 是学习率
  • α\alpha 是保留系数
  • LretainL_{retain}LforgetL_{forget} 分别是保留集和遗忘集上的损失

步骤2: 知识密度估计与块选择

知识密度计算: 对于第 ll 层,知识密度定义为: Kl=E(x,y)Dforget[θlL(x,y;θl)1]K_l = \mathbb{E}_{(x,y)\sim D_{forget}}[\|\nabla_{\theta_l}L(x,y;\theta_l)\|_1]

其中 L(x,y;θ)=log(p(yx;θ))L(x,y;\theta) = -\log(p(y|x;\theta)) 是负对数似然损失。

归一化知识密度Klnorm=Kli=1HKiK_l^{norm} = \frac{K_l}{\sum_{i=1}^H K_i}

表示第 ll 层相对于所有层的知识密度比例。

块级知识密度: 将H层分为M个块,每块N=⌊H/M⌋层,第m个块的累积知识密度为: Kblock,m=i=(m1)N+1mNKinormK_{block,m} = \sum_{i=(m-1)N+1}^{mN} K_i^{norm}

块选择策略

  • Top-K选择: 选择知识密度最高的K个块
  • 忽略头部层: 排除包含最后两层的块,避免输出生成层的干扰

步骤3: 迭代重新插入遗忘

这是KUnBR的核心创新:

  1. LLMunlearningLLM_{unlearning}(预遗忘后的模型)中提取选定的高密度知识块
  2. 将这些块重新插入到 LLMoriginalLLM_{original}(未经遗忘的原始模型)的对应位置
  3. 冻结其他层,仅对插入的块应用梯度差分方法
  4. 由于 LLMoriginalLLM_{original} 中的其他层保持未改变和冻结状态,不会产生覆盖层干扰
  5. 训练完成后,将更新后的块放回 LLMunlearningLLM_{unlearning}
  6. 对所有选定的块重复此过程

技术创新点

1. 覆盖层问题的识别

本文首次明确指出现有方法的根本问题:它们只修改少数层(覆盖层)来抑制有害输出,而非真正消除知识。这解释了为什么RTT攻击能轻易恢复"已遗忘"的知识。

2. 知识密度估计的合理性

  • 基于MLP作为神经记忆单元的研究发现
  • 梯度绝对值直观反映了层中包含的目标知识量
  • 提供了量化指标来精确定位需要重点遗忘的层

3. 重新插入策略的创新性

  • 绕过覆盖层: 通过将待遗忘块插入原始模型,避免了覆盖层的梯度阻塞
  • 深度遗忘: 能够更深入地修改残余知识,而不仅是表面抑制
  • 迭代处理: 对每个高密度块独立进行深度遗忘,确保彻底性

4. 与baseline的本质区别

  • GA/GD: 全局优化,容易形成覆盖层
  • RMU: 调整中间层表示,但仍是表面修改
  • KUnBR: 定位+隔离+深度遗忘,从根本上改变知识结构

实验设置

数据集

  1. Random Birthdays: 随机生成的姓名和出生年份,适合遗忘任务测试
  2. WMDP-Deduped: 3,668个关于有害知识的多选题,评估LLM处理敏感信息的能力
  3. Years: 记录20世纪重大事件及其对应年份
  4. MMLU: 综合性多任务基准,包含57个任务的多选题,测试世界知识和问题解决能力

数据划分

  • DforgetD_{forget} / DretainD_{retain} 按标准比例划分
  • DforgetD_{forget} 进一步划分为T集(用于RTT攻击)和V集(用于评估恢复情况)

评价指标

遗忘性能指标:

  1. Forget Accuracy (AUnlearnA_{Unlearn}): 遗忘后模型在遗忘集上的准确率 AUnlearn=1Ni=1NI(funlearn(xi)=yi)A_{Unlearn} = \frac{1}{N}\sum_{i=1}^N \mathbb{I}(f_{unlearn}(x_i) = y_i)
  2. RTT Accuracy (ARTTA_{RTT}): RTT攻击后的准确率
  3. Recovery Rate (ARecoverA_{Recover}): 恢复率 ARecover=ARTTAUnlearnA_{Recover} = A_{RTT} - A_{Unlearn}
    越低表示遗忘越彻底

通用能力指标(RKWU基准):

  1. 推理能力(Rea.): 在Big-Bench-Hard上评估,使用3-shot CoT
  2. 真实性(Tru.): 在TruthfulQA的MC1任务上评估,6-shot准确率
  3. 事实性(Fac.): 在TriviaQA上评估,6-shot F1分数
  4. 流畅性(Flu.): 使用AlpacaEval指令,报告bi-gram和tri-gram熵的加权平均

对比方法

  1. GA (Gradient Ascent): 通过最大化遗忘集上的损失实现遗忘
  2. GD (Gradient Difference): 在遗忘集上梯度上升,在保留集上梯度下降
  3. RMU (Representation Misdirection): 战略性修改中间层的内部表示
  4. RIA (Random Incorrect Answer): 对错误选项应用梯度下降
  5. NPO (Negative Preference Optimization): 优化模型对已删除信息表现负偏好

实现细节

模型: LLaMA3-8B-Instruct 和 Zephyr-7B-beta

KUnBR超参数

  • 学习率: 1.5×10⁻⁷
  • 保留系数: 0.1
  • 热身步数: 24
  • 块数量: M=8
  • Top-K选择: K=6

硬件: 单个NVIDIA A800 GPU

实验结果

主要结果

在LLaMA3-8B-Instruct上的表现(Table 1):

数据集方法Forget↓RTT↓Rec↓
Random BirthdaysNPO71.378.37.0
KUnBR36.943.97.0
WMDP-DedupedGD30.562.431.9
KUnBR29.238.89.6
YearsGD25.968.342.4
KUnBR25.936.010.1
MMLUNPO31.238.87.6
KUnBR16.528.011.5

关键发现

  1. 最低RTT准确率: KUnBR在所有4个数据集上都取得了最低的RTT攻击后准确率
  2. 最小恢复率: 在LLaMA3上,KUnBR的恢复率始终保持在最低水平
  3. 跨模型泛化: 在Zephyr-7B上也表现出色,证明方法的通用性

通用能力保持(Table 2):

KUnBR在大多数通用能力测试中取得最佳或次佳性能:

  • 推理能力: 在Random Birthdays上达到41.2(最佳)
  • 事实性: 在Years上达到56.4(最佳)
  • 流畅性: 在MMLU上达到708.8(最佳)

相比之下,RIA和NPO虽然在某些数据集上遗忘效果好,但严重损害了通用能力(例如RIA在WMDP上推理能力仅1.20)。

消融实验

预遗忘和重新插入策略的有效性(Table 3):

变体WMDP ForgetWMDP RTT
KUnBR29.238.8
- w/o re-insert30.562.4
- w/o pre-unl29.956.6

分析

  • 移除重新插入策略后,方法退化为原始GD,RTT准确率从38.8%飙升至62.4%
  • 移除预遗忘后,RTT准确率也上升至56.6%
  • 证明两个组件都是必要的

块选择策略分析(Figure 3):

比较了四种策略:

  1. Head layers: 选择靠近输出层的块 - 效果差
  2. Bottom layers: 选择靠近输入层的块 - 效果有限
  3. Average: 均匀选择所有块 - 中等效果,但不稳定
  4. KUnBR(知识密度驱动): 效果最佳,遗忘准确率持续下降

结论: 知识密度指标能准确量化各层的有害知识含量,提供有效的选择指导。

不同块数量的影响(Table 4):

在Years数据集上测试不同的(M, K)配置:

  • M=4(块太少): 效果受限,难以隔离知识
  • M=32(块太多): 可能忽略层间依赖
  • M=8, K=6: 最佳配置
  • 大多数配置都显著优于基线,显示方法对超参数的鲁棒性

多攻击场景评估

构建了9种对抗性变体:

  1. 前缀注入
  2. 肯定后缀
  3. 角色扮演
  4. 多项选择
  5. 反向查询
  6. 同义词操纵
  7. 背景提示
  8. 上下文学习
  9. 跨语言

结果: 传统GD方法在前缀注入攻击下从18.18%恢复到21.21%,而KUnBR保持在18.18%,证明了对提示级攻击的鲁棒性。

案例分析(Table 5)

问题: "When was Julia Brown born?" 正确答案(需遗忘): B. 1989

各方法表现:

  • RMU: 遗忘后输出无意义内容,RTT后恢复正确答案
  • GA: 遗忘后输出混乱,RTT后恢复正确答案
  • GD: 遗忘失败,直接输出正确答案;RTT后继续输出
  • RIA/NPO: 遗忘后输出错误答案,RTT后恢复正确答案
  • KUnBR: 遗忘后输出错误答案(C. 1960)并附带解释,RTT后仍输出错误答案(D. 1986),且保持完整的回答格式

结论: 只有KUnBR成功实现了彻底遗忘并在RTT攻击下保持遗忘状态,同时保留了良好的生成能力。

计算成本分析

在Years数据集上的训练时间(分钟):

  • GA: 24
  • GD: 20
  • RMU: 9
  • RIA: 8
  • NPO: 16
  • KUnBR: 17

KUnBR的时间成本与主流方法相当,比当前SOTA的GD方法快15%,同时实现更好的遗忘效果。

相关工作

机器遗忘方法

  1. 基于梯度的方法
    • Gradient Ascent (Jang et al. 2022): 最大化遗忘集上的损失
    • Gradient Difference (Liu et al. 2022): 平衡遗忘和保留
  2. 表示调整方法
    • RMU (Li et al. 2024): 调整中间层表示
    • NPO (Zhang et al. 2024): 负偏好优化
  3. 安全性研究
    • 越狱攻击 (Liu et al. 2023; Zhou et al. 2024)
    • 后门攻击 (Liu et al. 2022)
    • RTT攻击 (Deeb & Roger 2025): 揭示残余知识

知识定位研究

  • Geva et al. (2021): MLP作为键值记忆
  • Hong et al. (2024): 遗忘过程中MLP层的关键作用

本文优势

  1. 理论洞察: 首次明确提出覆盖层问题
  2. 方法创新: 重新插入策略绕过梯度阻塞
  3. 全面评估: 包括RTT攻击和多种对抗场景
  4. 实用性: 保持通用能力的同时实现彻底遗忘

结论与讨论

主要结论

  1. 覆盖层是浅层遗忘的根源: 现有方法主要通过调整少数层来抑制输出,而非消除知识
  2. 知识密度估计有效: 基于梯度的知识密度指标能准确定位富含有害知识的层
  3. 重新插入策略实现深度遗忘: 通过隔离高密度块并在原始模型中训练,绕过覆盖层干扰
  4. SOTA性能: KUnBR在遗忘彻底性和通用能力保持之间取得最佳平衡

局限性

  1. 计算开销: 虽然与baseline相当,但迭代重新插入仍需额外计算(比RMU高88.9%)
  2. 超参数敏感性: 需要选择合适的块数量M和Top-K值,虽然论文显示方法相对鲁棒
  3. 块粒度限制: 文中未深入讨论为什么块级遗忘不会导致更细粒度的浅层遗忘
  4. 评估局限: 主要在多选题数据集上评估,对开放式生成任务的效果未充分验证
  5. 模型规模: 仅在8B以下模型上测试,更大模型(如70B+)的效果未知

未来方向

  1. 自适应块选择: 根据不同类型的知识自动调整块的粒度和数量
  2. 效率优化: 探索并行化或近似方法减少计算开销
  3. 理论分析: 提供重新插入策略有效性的理论保证
  4. 扩展应用: 测试在更大规模模型和更多样化任务上的效果
  5. 持续遗忘: 研究如何在模型持续学习过程中进行增量遗忘

深度评价

优点

1. 问题识别深刻

  • 首次明确提出"覆盖层"概念,揭示现有方法的根本缺陷
  • 通过RTT攻击清晰展示了浅层遗忘的问题
  • 问题定义清晰,具有重要的实践意义

2. 方法创新性强

  • 知识密度估计: 简单但有效的指标,基于坚实的理论基础(MLP作为记忆单元)
  • 重新插入策略: 巧妙的设计,通过"嫁接"绕过覆盖层
  • 迭代处理: 对每个高密度块独立深度遗忘,确保彻底性

3. 实验设计全面

  • 多个数据集(4个)和两个骨干模型
  • 全面的评估指标(遗忘性能+通用能力)
  • 充分的消融实验验证各组件贡献
  • 多攻击场景评估(9种对抗变体)
  • 案例研究提供直观理解

4. 结果说服力强

  • 在所有数据集上达到最低的RTT准确率
  • 显著优于SOTA方法(如GD的RTT从68.3%降至36.0%)
  • 同时保持甚至提升通用能力
  • 跨模型泛化性好

5. 实用价值高

  • 代码开源,可复现性强
  • 计算成本可接受
  • 对超参数相对鲁棒
  • 直接适用于实际LLM部署场景

不足

1. 理论分析不足

  • 缺乏重新插入策略有效性的理论证明
  • 为什么块级遗忘不会导致更细粒度的浅层遗忘?论文仅简要提及"块作为组成记忆单元"
  • 知识密度估计的理论性质(如收敛性、唯一性)未讨论

2. 方法复杂度

  • 需要多次迭代(对每个选定块)
  • 涉及多个超参数(M, K, α, 学习率等)
  • 相比简单的GA/GD,实现复杂度较高

3. 评估局限

  • 数据集偏向: 主要是多选题,缺少开放式生成任务
  • 模型规模: 仅8B以下,现代LLM常达70B+
  • 遗忘类型: 主要是事实性知识,对概念性、推理性知识的遗忘效果未知
  • 长期效应: 未评估多次遗忘后的累积影响

4. 块选择的启发式性质

  • "忽略头部层"是基于经验观察,缺乏原则性解释
  • Top-K选择是否最优?是否存在更好的选择策略?
  • 不同类型知识可能需要不同的选择策略

5. 与覆盖层的关系未完全解决

  • 重新插入后的训练是否会在新的位置形成新的覆盖层?
  • 论文未充分讨论这个潜在问题
  • 迭代过程的收敛性如何保证?

6. 通用能力评估的局限

  • RKWU基准虽然全面,但仍有限
  • 某些任务(如代码生成、数学推理)未覆盖
  • 未评估遗忘对模型内部表示结构的影响

影响力

1. 对领域的贡献

  • 开创性: 首次系统性地解决覆盖层问题,为遗忘研究提供新方向
  • 方法论: 知识密度估计和重新插入策略可启发其他研究
  • 基准设定: 在RTT攻击场景下设立新的性能标准

2. 实用价值

  • 即时应用: 可直接用于LLM的隐私保护和安全部署
  • 监管遵从: 帮助满足GDPR等法规要求
  • 风险缓解: 降低LLM泄露敏感信息的风险

3. 可复现性

  • 代码开源
  • 详细的实现细节和超参数设置
  • 标准化的评估协议

4. 潜在影响

  • 短期: 预计会成为遗忘研究的重要baseline
  • 中期: 可能推动更多关于深度遗忘机制的研究
  • 长期: 为可信AI和负责任AI的发展做出贡献

适用场景

1. 高度适用

  • 隐私敏感应用: 需要删除用户数据的场景(如医疗、金融)
  • 法规遵从: 需要满足"被遗忘权"的系统
  • 安全关键应用: 需要移除有害知识的场景

2. 适度适用

  • 持续学习系统: 需要定期更新知识的LLM
  • 版权保护: 需要移除受版权保护内容的模型

3. 可能不适用

  • 资源极度受限: 计算资源非常有限的场景
  • 实时系统: 需要极快响应的在线服务
  • 超大规模模型: 100B+参数的模型可能需要额外优化

4. 需要改进的场景

  • 开放式生成: 需要更多评估和可能的方法调整
  • 多模态模型: 需要扩展到视觉-语言模型
  • 跨语言遗忘: 需要考虑多语言知识的关联性

参考文献(关键引用)

  1. Deeb & Roger (2025): RTT攻击方法,揭示浅层遗忘问题
  2. Li et al. (2024): WMDP基准和RMU方法
  3. Geva et al. (2021): MLP作为键值记忆的理论基础
  4. Hong et al. (2024): 遗忘过程中层级修改的实证研究
  5. Zhang et al. (2024): NPO方法,当前SOTA之一
  6. Liu, Liu, & Stone (2022): 梯度差分方法的基础工作

总体评价

这是一篇高质量的研究论文,在机器遗忘这一重要问题上取得了实质性进展。论文的主要优势在于:(1) 深刻识别了现有方法的根本缺陷(覆盖层问题),(2) 提出了创新且有效的解决方案(知识密度估计+重新插入策略),(3) 通过全面的实验验证了方法的有效性。

创新性: ★★★★☆ (4.5/5) - 重新插入策略是真正的创新,知识密度估计虽简单但有效

技术深度: ★★★★☆ (4/5) - 方法设计巧妙,但理论分析可以更深入

实验充分性: ★★★★★ (5/5) - 实验设计全面,评估指标多样,消融研究充分

实用价值: ★★★★★ (5/5) - 直接解决实际问题,代码开源,可立即应用

写作质量: ★★★★☆ (4.5/5) - 清晰易懂,逻辑严密,可视化有效

综合评分: ★★★★☆ (4.4/5)

推荐阅读: 强烈推荐给从事LLM安全、隐私保护、机器遗忘研究的学者和工程师。这篇论文不仅提供了有效的技术方案,更重要的是提供了关于遗忘机制的深刻洞察。