2025-11-11T15:40:09.573035

PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning

Kawakami, Egashira, Miyai et al.

In recent years, unlearning techniques, which are methods for inducing a model to "forget" previously learned information, have attracted attention as a way to address privacy and copyright concerns in large language models (LLMs) and large multimodal models (LMMs). While several unlearning benchmarks have been established for LLMs, a practical evaluation framework for unlearning in LMMs has been less explored. Specifically, existing unlearning benchmark for LMMs considers only scenarios in which the model is required to unlearn fine-tuned knowledge through a single unlearning operation. In this study, we introduce PULSE protocol for realistic unlearning scenarios for LMMs by introducing two critical perspectives: (i) Pre-trained knowledge Unlearning for analyzing the effect across different knowledge acquisition phases and (ii) Long-term Sustainability Evaluation to address sequential requests. We then evaluate existing unlearning methods along these dimensions. Our results reveal that, although some techniques can successfully unlearn knowledge acquired through fine-tuning, they struggle to eliminate information learned during pre-training. Moreover, methods that effectively unlearn a batch of target data in a single operation exhibit substantial performance degradation when the same data are split and unlearned sequentially.

academic

PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning

基本信息

论文ID: 2507.01271
标题: PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning
作者: Tatsuki Kawakami, Kazuki Egashira, Atsuyuki Miyai, Go Irie, Kiyoharu Aizawa (东京大学)
分类: cs.LG cs.AI
发表时间/会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop
论文链接: https://arxiv.org/abs/2507.01271

摘要

近年来，机器遗忘技术作为解决大型语言模型(LLMs)和大型多模态模型(LMMs)中隐私和版权问题的方法受到关注。虽然已经为LLMs建立了多个遗忘基准，但对LMMs的实用遗忘评估框架探索较少。现有LMMs遗忘基准仅考虑通过单次遗忘操作来遗忘微调知识的场景。本研究通过引入两个关键视角来介绍PULSE协议：(i) 预训练知识遗忘，用于分析不同知识获取阶段的影响；(ii) 长期可持续性评估，以应对连续请求。研究结果表明，虽然一些技术能成功遗忘通过微调获得的知识，但在消除预训练期间学到的信息方面存在困难。此外，在单次操作中有效遗忘批量目标数据的方法，在数据分批连续遗忘时表现出显著的性能下降。

研究背景与动机

问题定义

随着大型多模态模型在各种任务中取得巨大成功，其训练数据可能包含个人信息和版权内容，引发了隐私和知识产权侵权的担忧。机器遗忘技术旨在让模型"忘记"之前学习的信息，同时保持在其他任务上的性能。

问题重要性

隐私保护需求：随着数据隐私法规的加强，需要能够从已训练模型中删除特定个人信息的技术
版权保护：需要处理训练数据中可能包含的版权内容
实际应用需求：现实场景中可能需要连续多次遗忘操作

现有方法局限性

评估范围有限：现有LMMs遗忘基准(如MLLMU-Bench)仅考虑微调知识的遗忘
单次操作假设：只评估一次性遗忘操作，忽略了连续遗忘请求的场景
缺乏预训练知识评估：未考虑遗忘预训练阶段获得的知识

研究动机

本文旨在建立更实用和全面的LMMs遗忘评估框架，填补现有评估方法在预训练知识遗忘和可持续性方面的空白。

核心贡献

提出PULSE协议：设计了评估LMMs中(i)预训练知识遗忘和(ii)长期可持续性评估的新协议
揭示预训练知识遗忘困难：通过PULSE协议发现，现有遗忘技术在针对预训练期间获得的知识时效果不佳
发现可持续性问题：证明当前方法在面对多次连续遗忘请求时会显著降低模型性能
提供实用评估基础：为LMMs遗忘技术的未来设计提供重要洞察

方法详解

任务定义

设 $D_{unlearn}$ 表示需要遗忘的数据， $D_{retain}$ 表示需要保留的数据。遗忘方法的评估包含两个方面：

有效性(Effectiveness)：在遗忘目标 $D_{unlearn}$ 上的遗忘性能
泛化性(Generality)：在无关数据 $D_{retain}$ 上的准确率保持

PULSE协议架构

1. 微调知识遗忘 (Fine-tuned Knowledge Unlearning)

遵循标准做法，选择微调知识的子集作为 $D_{unlearn}$
模型在单次操作中遗忘该子集
评估遗忘效果和泛化性能保持

2. 预训练知识遗忘 (Pre-trained Knowledge Unlearning)

将预训练期间获得的知识作为 $D_{unlearn}$
基于模型实际行为识别模型"已知"的个体
比直接从预训练数据采样更实用，适用于预训练语料未完全公开的情况

3. 可持续性评估 (Long-term Sustainability Evaluation)

将 $D_{unlearn}$ 分为多个子集
按顺序对这些子集进行连续遗忘操作
跟踪每次操作后模型的泛化性和有效性变化

技术创新点

多维度评估框架：首次在LMMs中同时考虑知识来源类型和操作可持续性
实用性导向设计：基于现实应用场景设计评估协议
跨模态一致性要求：要求模型在多模态和纯文本任务中都不泄露目标信息

实验设置

数据集

使用MLLMU-Bench公开发布的数据集：

每个个体包含1张人脸图像和10个问答对
5个多模态任务，5个纯文本任务
问题涉及个人详细信息（如职业、居住地）

实验配置：

微调知识遗忘：100个虚构个体，50个用于 $D_{unlearn}$ ，50个用于 $D_{retain}$
预训练知识遗忘：从153个真实名人中选择45个高准确率个体，20个用于 $D_{unlearn}$ ，25个用于 $D_{retain}$
可持续性评估：50个个体分为5个子集，进行5次连续遗忘操作

评价指标

有效性指标： $D_{unlearn}$ 上的准确率（越低越好）
泛化性指标：
- $D_{retain}$ 上的准确率（越高越好）
- MMBench评分（评估多模态能力）

对比方法

Gradient Ascent (GA)：使用 $D_{unlearn}$ 作为遗忘数据，参数更新方向与标准梯度下降相反
GA with KL Regularization (GA+KLR)：添加KL散度惩罚项，保持更新模型接近原始模型
Negative Preference Optimization (NPO)：将遗忘数据作为负例的偏好调优方法

实现细节

基础模型：LLaVA-v1.5-13B
微调方法：LoRA (Low-Rank Adaptation)
参数更新：在微调和遗忘过程中都使用LoRA

实验结果

主要结果

预训练知识遗忘性能

所有方法在 $D_{unlearn}$ 上的准确率都有所下降，表明遗忘在一定程度上有效
关键发现：
- 遗忘微调知识：MMBench能力最多损失约10%
- 遗忘预训练知识：MMBench能力损失超过90%
- $D_{retain}$ 准确率也显著下降，表明难以选择性遗忘

可持续性评估结果

随着遗忘操作次数增加，不仅 $D_{unlearn}$ 性能下降，泛化性指标也逐渐恶化
5次遗忘操作后，泛化性几乎完全丧失
表明当前主流遗忘方法无法在LMM遗忘中保持可持续性

深入分析

任务模态差异

当参数更新包括投影矩阵和语言模型时：

多模态任务准确率：78.0% → 9.6%
纯文本任务准确率：76.8% → 35.2%

重要发现：纯文本任务对遗忘更具抗性，可能仅"破坏了图像与知识的对齐"而非真正遗忘目标信息。

参数更新策略影响

仅更新LLM：MMBench性能显著下降
同时更新投影矩阵和LLM：MMBench性能轻微下降
假设：允许更新投影矩阵通过破坏模态间对齐使遗忘更容易

实验发现

预训练知识更难遗忘：可能因为预训练期间模型学习了目标个体与其他实体的关系
连续遗忘导致灾难性遗忘：重复遗忘更新了对保留任务也至关重要的参数
模态间不一致性：现有方法可能无法确保跨模态的一致遗忘效果

相关工作

遗忘方法学

Gradient Ascent变种：GA、GA+正则化、NPO等方法在LLMs和LMMs中显示出一定效果
LMM特定方法：SIU仅限于多模态任务，不适用于纯文本任务评估

遗忘基准

LLMs基准：MUSE、TOFU等提供了全面的评估框架
LMMs基准：MLLMU-Bench提供了基础但不够全面的评估
本文贡献：首次在LMMs中提供预训练知识遗忘和可持续性评估

结论与讨论

主要结论

现有遗忘方法在处理预训练知识时效果不佳，会导致模型泛化性严重下降
连续遗忘操作会导致性能逐步恶化，当前方法不适合实际部署
多模态和纯文本任务在遗忘效果上存在不一致性

局限性

数据集规模：实验使用的数据集相对较小，可能不能完全反映大规模应用场景
方法覆盖：仅评估了三种主流遗忘方法，未涵盖所有现有技术
评估指标：可能需要更细粒度的评估指标来全面衡量遗忘效果

未来方向

开发专门针对预训练知识的遗忘方法
设计能够维持长期可持续性的遗忘技术
研究跨模态一致遗忘的方法
探索更精细的参数更新策略

深度评价

优点

问题识别准确：准确识别了现有LMM遗忘评估的关键缺陷
评估框架完整：PULSE协议填补了重要的评估空白
实验设计合理：实验设置贴近实际应用场景
发现具有洞察性：揭示了预训练知识遗忘和可持续性的重要问题
写作清晰：论文结构清晰，技术描述准确

不足

方法创新有限：主要贡献在评估协议而非新的遗忘方法
解决方案缺失：指出了问题但未提供有效的解决方案
理论分析不足：对观察到现象的理论解释相对简单
实验规模限制：受限于现有数据集，实验规模相对较小

影响力

学术价值：为LMM遗忘研究提供了重要的评估基准
实用价值：揭示的问题对实际应用具有重要指导意义
推动作用：可能推动更实用遗忘方法的研发
可复现性：实验设置清晰，基于公开数据集，具有良好的可复现性

适用场景

研究评估：为LMM遗忘方法的评估提供标准协议
方法开发：为新遗忘方法的设计提供评估基准
实际部署：为实际应用中的遗忘需求提供性能预期
政策制定：为相关隐私保护政策提供技术参考

参考文献

论文引用了多个重要的相关工作，包括：

MUSE、TOFU等LLM遗忘基准
MLLMU-Bench等LMM遗忘基准
LLaVA等多模态模型
LoRA等参数高效微调方法

总体评价：这是一篇高质量的评估研究论文，虽然在方法创新方面相对有限，但在问题识别和评估框架建立方面做出了重要贡献。论文揭示的预训练知识遗忘困难和可持续性问题对该领域的发展具有重要指导意义，为未来研究指明了关键方向。