In recent years, unlearning techniques, which are methods for inducing a model to "forget" previously learned information, have attracted attention as a way to address privacy and copyright concerns in large language models (LLMs) and large multimodal models (LMMs). While several unlearning benchmarks have been established for LLMs, a practical evaluation framework for unlearning in LMMs has been less explored. Specifically, existing unlearning benchmark for LMMs considers only scenarios in which the model is required to unlearn fine-tuned knowledge through a single unlearning operation. In this study, we introduce PULSE protocol for realistic unlearning scenarios for LMMs by introducing two critical perspectives: (i) Pre-trained knowledge Unlearning for analyzing the effect across different knowledge acquisition phases and (ii) Long-term Sustainability Evaluation to address sequential requests. We then evaluate existing unlearning methods along these dimensions. Our results reveal that, although some techniques can successfully unlearn knowledge acquired through fine-tuning, they struggle to eliminate information learned during pre-training. Moreover, methods that effectively unlearn a batch of target data in a single operation exhibit substantial performance degradation when the same data are split and unlearned sequentially.
academic- 论文ID: 2507.01271
- 标题: PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning
- 作者: Tatsuki Kawakami, Kazuki Egashira, Atsuyuki Miyai, Go Irie, Kiyoharu Aizawa (东京大学)
- 分类: cs.LG cs.AI
- 发表时间/会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop
- 论文链接: https://arxiv.org/abs/2507.01271
近年来,机器遗忘技术作为解决大型语言模型(LLMs)和大型多模态模型(LMMs)中隐私和版权问题的方法受到关注。虽然已经为LLMs建立了多个遗忘基准,但对LMMs的实用遗忘评估框架探索较少。现有LMMs遗忘基准仅考虑通过单次遗忘操作来遗忘微调知识的场景。本研究通过引入两个关键视角来介绍PULSE协议:(i) 预训练知识遗忘,用于分析不同知识获取阶段的影响;(ii) 长期可持续性评估,以应对连续请求。研究结果表明,虽然一些技术能成功遗忘通过微调获得的知识,但在消除预训练期间学到的信息方面存在困难。此外,在单次操作中有效遗忘批量目标数据的方法,在数据分批连续遗忘时表现出显著的性能下降。
随着大型多模态模型在各种任务中取得巨大成功,其训练数据可能包含个人信息和版权内容,引发了隐私和知识产权侵权的担忧。机器遗忘技术旨在让模型"忘记"之前学习的信息,同时保持在其他任务上的性能。
- 隐私保护需求:随着数据隐私法规的加强,需要能够从已训练模型中删除特定个人信息的技术
- 版权保护:需要处理训练数据中可能包含的版权内容
- 实际应用需求:现实场景中可能需要连续多次遗忘操作
- 评估范围有限:现有LMMs遗忘基准(如MLLMU-Bench)仅考虑微调知识的遗忘
- 单次操作假设:只评估一次性遗忘操作,忽略了连续遗忘请求的场景
- 缺乏预训练知识评估:未考虑遗忘预训练阶段获得的知识
本文旨在建立更实用和全面的LMMs遗忘评估框架,填补现有评估方法在预训练知识遗忘和可持续性方面的空白。
- 提出PULSE协议:设计了评估LMMs中(i)预训练知识遗忘和(ii)长期可持续性评估的新协议
- 揭示预训练知识遗忘困难:通过PULSE协议发现,现有遗忘技术在针对预训练期间获得的知识时效果不佳
- 发现可持续性问题:证明当前方法在面对多次连续遗忘请求时会显著降低模型性能
- 提供实用评估基础:为LMMs遗忘技术的未来设计提供重要洞察
设Dunlearn表示需要遗忘的数据,Dretain表示需要保留的数据。遗忘方法的评估包含两个方面:
- 有效性(Effectiveness):在遗忘目标Dunlearn上的遗忘性能
- 泛化性(Generality):在无关数据Dretain上的准确率保持
- 遵循标准做法,选择微调知识的子集作为Dunlearn
- 模型在单次操作中遗忘该子集
- 评估遗忘效果和泛化性能保持
- 将预训练期间获得的知识作为Dunlearn
- 基于模型实际行为识别模型"已知"的个体
- 比直接从预训练数据采样更实用,适用于预训练语料未完全公开的情况
- 将Dunlearn分为多个子集
- 按顺序对这些子集进行连续遗忘操作
- 跟踪每次操作后模型的泛化性和有效性变化
- 多维度评估框架:首次在LMMs中同时考虑知识来源类型和操作可持续性
- 实用性导向设计:基于现实应用场景设计评估协议
- 跨模态一致性要求:要求模型在多模态和纯文本任务中都不泄露目标信息
使用MLLMU-Bench公开发布的数据集:
- 每个个体包含1张人脸图像和10个问答对
- 5个多模态任务,5个纯文本任务
- 问题涉及个人详细信息(如职业、居住地)
实验配置:
- 微调知识遗忘:100个虚构个体,50个用于Dunlearn,50个用于Dretain
- 预训练知识遗忘:从153个真实名人中选择45个高准确率个体,20个用于Dunlearn,25个用于Dretain
- 可持续性评估:50个个体分为5个子集,进行5次连续遗忘操作
- 有效性指标:Dunlearn上的准确率(越低越好)
- 泛化性指标:
- Dretain上的准确率(越高越好)
- MMBench评分(评估多模态能力)
- Gradient Ascent (GA):使用Dunlearn作为遗忘数据,参数更新方向与标准梯度下降相反
- GA with KL Regularization (GA+KLR):添加KL散度惩罚项,保持更新模型接近原始模型
- Negative Preference Optimization (NPO):将遗忘数据作为负例的偏好调优方法
- 基础模型:LLaVA-v1.5-13B
- 微调方法:LoRA (Low-Rank Adaptation)
- 参数更新:在微调和遗忘过程中都使用LoRA
- 所有方法在Dunlearn上的准确率都有所下降,表明遗忘在一定程度上有效
- 关键发现:
- 遗忘微调知识:MMBench能力最多损失约10%
- 遗忘预训练知识:MMBench能力损失超过90%
- Dretain准确率也显著下降,表明难以选择性遗忘
- 随着遗忘操作次数增加,不仅Dunlearn性能下降,泛化性指标也逐渐恶化
- 5次遗忘操作后,泛化性几乎完全丧失
- 表明当前主流遗忘方法无法在LMM遗忘中保持可持续性
当参数更新包括投影矩阵和语言模型时:
- 多模态任务准确率:78.0% → 9.6%
- 纯文本任务准确率:76.8% → 35.2%
重要发现:纯文本任务对遗忘更具抗性,可能仅"破坏了图像与知识的对齐"而非真正遗忘目标信息。
- 仅更新LLM:MMBench性能显著下降
- 同时更新投影矩阵和LLM:MMBench性能轻微下降
- 假设:允许更新投影矩阵通过破坏模态间对齐使遗忘更容易
- 预训练知识更难遗忘:可能因为预训练期间模型学习了目标个体与其他实体的关系
- 连续遗忘导致灾难性遗忘:重复遗忘更新了对保留任务也至关重要的参数
- 模态间不一致性:现有方法可能无法确保跨模态的一致遗忘效果
- Gradient Ascent变种:GA、GA+正则化、NPO等方法在LLMs和LMMs中显示出一定效果
- LMM特定方法:SIU仅限于多模态任务,不适用于纯文本任务评估
- LLMs基准:MUSE、TOFU等提供了全面的评估框架
- LMMs基准:MLLMU-Bench提供了基础但不够全面的评估
- 本文贡献:首次在LMMs中提供预训练知识遗忘和可持续性评估
- 现有遗忘方法在处理预训练知识时效果不佳,会导致模型泛化性严重下降
- 连续遗忘操作会导致性能逐步恶化,当前方法不适合实际部署
- 多模态和纯文本任务在遗忘效果上存在不一致性
- 数据集规模:实验使用的数据集相对较小,可能不能完全反映大规模应用场景
- 方法覆盖:仅评估了三种主流遗忘方法,未涵盖所有现有技术
- 评估指标:可能需要更细粒度的评估指标来全面衡量遗忘效果
- 开发专门针对预训练知识的遗忘方法
- 设计能够维持长期可持续性的遗忘技术
- 研究跨模态一致遗忘的方法
- 探索更精细的参数更新策略
- 问题识别准确:准确识别了现有LMM遗忘评估的关键缺陷
- 评估框架完整:PULSE协议填补了重要的评估空白
- 实验设计合理:实验设置贴近实际应用场景
- 发现具有洞察性:揭示了预训练知识遗忘和可持续性的重要问题
- 写作清晰:论文结构清晰,技术描述准确
- 方法创新有限:主要贡献在评估协议而非新的遗忘方法
- 解决方案缺失:指出了问题但未提供有效的解决方案
- 理论分析不足:对观察到现象的理论解释相对简单
- 实验规模限制:受限于现有数据集,实验规模相对较小
- 学术价值:为LMM遗忘研究提供了重要的评估基准
- 实用价值:揭示的问题对实际应用具有重要指导意义
- 推动作用:可能推动更实用遗忘方法的研发
- 可复现性:实验设置清晰,基于公开数据集,具有良好的可复现性
- 研究评估:为LMM遗忘方法的评估提供标准协议
- 方法开发:为新遗忘方法的设计提供评估基准
- 实际部署:为实际应用中的遗忘需求提供性能预期
- 政策制定:为相关隐私保护政策提供技术参考
论文引用了多个重要的相关工作,包括:
- MUSE、TOFU等LLM遗忘基准
- MLLMU-Bench等LMM遗忘基准
- LLaVA等多模态模型
- LoRA等参数高效微调方法
总体评价:这是一篇高质量的评估研究论文,虽然在方法创新方面相对有限,但在问题识别和评估框架建立方面做出了重要贡献。论文揭示的预训练知识遗忘困难和可持续性问题对该领域的发展具有重要指导意义,为未来研究指明了关键方向。