2025-12-01T00:13:18.877594

Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion

Guo, Wen, Gao et al.

Machine unlearning, which selectively removes harmful knowledge from a pre-trained model without retraining from scratch, is crucial for addressing privacy, regulatory compliance, and ethical concerns in Large Language Models (LLMs). However, existing unlearning methods often struggle to thoroughly remove harmful knowledge, leaving residual harmful knowledge that can be easily recovered. To address these limitations, we propose Knowledge Density-Guided Unlearning via Blocks Reinsertion (KUnBR), a novel approach that first identifies layers with rich harmful knowledge and then thoroughly eliminates the harmful knowledge via re-insertion strategy. Our method introduces knowledge density estimation to quantify and locate layers containing the most harmful knowledge, enabling precise unlearning. Additionally, we design a layer re-insertion strategy that extracts and re-inserts harmful knowledge-rich layers into the original LLM, bypassing gradient obstruction caused by cover layers and ensuring effective gradient propagation during unlearning. Extensive experiments conducted on several unlearning and general capability benchmarks demonstrate that KUnBR achieves state-of-the-art forgetting performance while maintaining model utility.

academic

Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion

基本信息

论文ID: 2511.11667
标题: Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion
作者: Feng Guo, Yuntao Wen, Shen Gao, Junshuo Zhang, Shuo Shang (University of Electronic Science and Technology of China)
分类: cs.LG, cs.AI
发表时间/会议: AAAI 2026 (预计)
论文链接: https://arxiv.org/abs/2511.11667
代码链接: github.com/llmgfffffff/Beyond-Superficial-Forgetting-KUnBR

摘要

本文针对大语言模型(LLM)的机器遗忘问题，提出了一种名为KUnBR (Knowledge Density-Guided Unlearning via Blocks Reinsertion)的新方法。现有遗忘方法往往无法彻底移除有害知识，留下的残余知识容易被恢复。KUnBR通过知识密度估计识别富含有害知识的层，然后采用块重新插入策略彻底消除有害知识。该方法绕过了"覆盖层"(cover layers)造成的梯度阻塞，确保有效的梯度传播。在多个基准测试上的实验表明，KUnBR在保持模型通用能力的同时，达到了最先进的遗忘性能。

研究背景与动机

1. 要解决的核心问题

机器遗忘旨在从预训练模型中选择性地移除特定知识子集（如隐私敏感或有害内容），而无需从头重新训练。这对于LLM的发展至关重要，因为它涉及数据隐私、法规遵从（如"被遗忘权"）和AI系统的伦理问题。

2. 问题的重要性

隐私保护: LLM在预训练过程中可能摄入大量隐私敏感数据
法规遵从: GDPR等法规要求能够删除特定用户数据
安全性: 防止恶意利用模型中的有害知识
伦理对齐: 确保LLM与社会价值观保持一致

3. 现有方法的局限性

现有遗忘方法（如梯度上升、表示误导等）存在严重缺陷：

表面遗忘: 仅调整少数参数（覆盖层）来抑制输出，而非真正消除知识
易于恢复: RTT (Retraining on T) 攻击表明，通过在遗忘集的子集上进行最小重训练，就能恢复大部分"已遗忘"的知识
残余知识: 有害知识仍然残留在模型参数中，只是被掩盖而非消除
鲁棒性差: 容易受到越狱攻击和参数级攻击

4. 研究动机

作者发现现有方法主要依赖调整"覆盖层"来掩盖有害知识的表示，仅阻止模型输出不良内容，而未真正从模型内部表示中消除。这种根本性局限表明需要更鲁棒和彻底的遗忘方法。

核心贡献

提出KUnBR框架: 一种新颖的遗忘框架，能够识别包含不良知识的层并进行针对性训练，实现彻底消除有害知识
知识密度估计方法: 引入基于梯度的知识密度估计指标，能够量化和定位LLM中包含最多有害知识的层，实现精准遗忘
块重新插入策略: 设计了一种新颖的层重新插入策略，将富含有害知识的块提取并重新插入原始LLM，绕过覆盖层造成的梯度阻塞，确保遗忘过程中的有效梯度传播
SOTA性能: 在多个遗忘和通用能力基准测试上取得最先进的遗忘性能，同时保持模型效用，特别是在对抗RTT攻击方面表现出色

方法详解

任务定义

给定：

遗忘数据集 $D_{forget}$ : 包含需要移除的知识
保留数据集 $D_{retain}$ : 帮助模型在遗忘过程中保持通用能力

目标：

优化模型参数以尽可能彻底地消除与 $D_{forget}$ 相关的知识
确保模型的效用性能不受影响
当受到RTT攻击（在 $D_{forget}$ 的子集T上微调）时，模型仍无法生成 $D_{forget}$ 另一个不相交子集V中的知识

模型架构

KUnBR方法包含三个主要步骤：

步骤1: 预遗忘（Pre-Unlearning）

使用标准的梯度差分方法对原始LLM进行全参数微调作为"热身"阶段： $\theta_{t+1} = \theta_t - \eta (\alpha\nabla_\theta L_{retain}(\theta_t) - \nabla_\theta L_{forget}(\theta_t))$

其中：

$\eta$ 是学习率
$\alpha$ 是保留系数
$L_{retain}$ 和 $L_{forget}$ 分别是保留集和遗忘集上的损失

步骤2: 知识密度估计与块选择

知识密度计算：对于第 $l$ 层，知识密度定义为： $K_l = \mathbb{E}_{(x,y)\sim D_{forget}}[\|\nabla_{\theta_l}L(x,y;\theta_l)\|_1]$

其中 $L(x,y;\theta) = -\log(p(y|x;\theta))$ 是负对数似然损失。

归一化知识密度： $K_l^{norm} = \frac{K_l}{\sum_{i=1}^H K_i}$

表示第 $l$ 层相对于所有层的知识密度比例。

块级知识密度：将H层分为M个块，每块N=⌊H/M⌋层，第m个块的累积知识密度为： $K_{block,m} = \sum_{i=(m-1)N+1}^{mN} K_i^{norm}$

块选择策略：

Top-K选择: 选择知识密度最高的K个块
忽略头部层: 排除包含最后两层的块，避免输出生成层的干扰

步骤3: 迭代重新插入遗忘

这是KUnBR的核心创新：

从 $LLM_{unlearning}$ （预遗忘后的模型）中提取选定的高密度知识块
将这些块重新插入到 $LLM_{original}$ （未经遗忘的原始模型）的对应位置
冻结其他层，仅对插入的块应用梯度差分方法
由于 $LLM_{original}$ 中的其他层保持未改变和冻结状态，不会产生覆盖层干扰
训练完成后，将更新后的块放回 $LLM_{unlearning}$
对所有选定的块重复此过程

技术创新点

1. 覆盖层问题的识别

本文首次明确指出现有方法的根本问题：它们只修改少数层（覆盖层）来抑制有害输出，而非真正消除知识。这解释了为什么RTT攻击能轻易恢复"已遗忘"的知识。

2. 知识密度估计的合理性

基于MLP作为神经记忆单元的研究发现
梯度绝对值直观反映了层中包含的目标知识量
提供了量化指标来精确定位需要重点遗忘的层

3. 重新插入策略的创新性

绕过覆盖层: 通过将待遗忘块插入原始模型，避免了覆盖层的梯度阻塞
深度遗忘: 能够更深入地修改残余知识，而不仅是表面抑制
迭代处理: 对每个高密度块独立进行深度遗忘，确保彻底性

4. 与baseline的本质区别

GA/GD: 全局优化，容易形成覆盖层
RMU: 调整中间层表示，但仍是表面修改
KUnBR: 定位+隔离+深度遗忘，从根本上改变知识结构

实验设置

数据集

Random Birthdays: 随机生成的姓名和出生年份，适合遗忘任务测试
WMDP-Deduped: 3,668个关于有害知识的多选题，评估LLM处理敏感信息的能力
Years: 记录20世纪重大事件及其对应年份
MMLU: 综合性多任务基准，包含57个任务的多选题，测试世界知识和问题解决能力

数据划分：

$D_{forget}$ / $D_{retain}$ 按标准比例划分
$D_{forget}$ 进一步划分为T集（用于RTT攻击）和V集（用于评估恢复情况）

评价指标

遗忘性能指标：

Forget Accuracy ( $A_{Unlearn}$ ): 遗忘后模型在遗忘集上的准确率 $A_{Unlearn} = \frac{1}{N}\sum_{i=1}^N \mathbb{I}(f_{unlearn}(x_i) = y_i)$
RTT Accuracy ( $A_{RTT}$ ): RTT攻击后的准确率
Recovery Rate ( $A_{Recover}$ ): 恢复率 $A_{Recover} = A_{RTT} - A_{Unlearn}$
越低表示遗忘越彻底

通用能力指标（RKWU基准）：

推理能力(Rea.): 在Big-Bench-Hard上评估，使用3-shot CoT
真实性(Tru.): 在TruthfulQA的MC1任务上评估，6-shot准确率
事实性(Fac.): 在TriviaQA上评估，6-shot F1分数
流畅性(Flu.): 使用AlpacaEval指令，报告bi-gram和tri-gram熵的加权平均

对比方法

GA (Gradient Ascent): 通过最大化遗忘集上的损失实现遗忘
GD (Gradient Difference): 在遗忘集上梯度上升，在保留集上梯度下降
RMU (Representation Misdirection): 战略性修改中间层的内部表示
RIA (Random Incorrect Answer): 对错误选项应用梯度下降
NPO (Negative Preference Optimization): 优化模型对已删除信息表现负偏好

实现细节

模型: LLaMA3-8B-Instruct 和 Zephyr-7B-beta

KUnBR超参数：

学习率: 1.5×10⁻⁷
保留系数: 0.1
热身步数: 24
块数量: M=8
Top-K选择: K=6

硬件: 单个NVIDIA A800 GPU

实验结果

主要结果

在LLaMA3-8B-Instruct上的表现（Table 1）：

数据集	方法	Forget↓	RTT↓	Rec↓
Random Birthdays	NPO	71.3	78.3	7.0
	KUnBR	36.9	43.9	7.0
WMDP-Deduped	GD	30.5	62.4	31.9
	KUnBR	29.2	38.8	9.6
Years	GD	25.9	68.3	42.4
	KUnBR	25.9	36.0	10.1
MMLU	NPO	31.2	38.8	7.6
	KUnBR	16.5	28.0	11.5