2025-11-11T15:40:09.573035

PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning

Kawakami, Egashira, Miyai et al.

In recent years, unlearning techniques, which are methods for inducing a model to "forget" previously learned information, have attracted attention as a way to address privacy and copyright concerns in large language models (LLMs) and large multimodal models (LMMs). While several unlearning benchmarks have been established for LLMs, a practical evaluation framework for unlearning in LMMs has been less explored. Specifically, existing unlearning benchmark for LMMs considers only scenarios in which the model is required to unlearn fine-tuned knowledge through a single unlearning operation. In this study, we introduce PULSE protocol for realistic unlearning scenarios for LMMs by introducing two critical perspectives: (i) Pre-trained knowledge Unlearning for analyzing the effect across different knowledge acquisition phases and (ii) Long-term Sustainability Evaluation to address sequential requests. We then evaluate existing unlearning methods along these dimensions. Our results reveal that, although some techniques can successfully unlearn knowledge acquired through fine-tuning, they struggle to eliminate information learned during pre-training. Moreover, methods that effectively unlearn a batch of target data in a single operation exhibit substantial performance degradation when the same data are split and unlearned sequentially.

academic

PULSE: Praktische Evaluierungsszenarien für das Vergessen großer multimodaler Modelle

Grundinformationen

Papier-ID: 2507.01271
Titel: PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning
Autoren: Tatsuki Kawakami, Kazuki Egashira, Atsuyuki Miyai, Go Irie, Kiyoharu Aizawa (Universität Tokio)
Klassifizierung: cs.LG cs.AI
Veröffentlichungszeit/Konferenz: 39. Konferenz über neuronale Informationsverarbeitungssysteme (NeurIPS 2025) Workshop
Papierlink: https://arxiv.org/abs/2507.01271

Zusammenfassung

In letzter Zeit hat sich die Technologie des maschinellen Vergessens als Methode zur Lösung von Datenschutz- und Urheberrechtsproblemen in großen Sprachmodellen (LLMs) und großen multimodalen Modellen (LMMs) etabliert. Während mehrere Vergessen-Benchmarks für LLMs entwickelt wurden, wurde die praktische Evaluierungsrahmen für das Vergessen von LMMs weniger erforscht. Bestehende LMM-Vergessen-Benchmarks berücksichtigen nur Szenarien, in denen durch Feinabstimmung erworbenes Wissen durch eine einzige Vergessen-Operation vergessen wird. Diese Forschung führt das PULSE-Protokoll durch zwei Schlüsselperspektiven ein: (i) Vergessen von Vortrainings-Wissen zur Analyse der Auswirkungen verschiedener Wissensakquisitionsphasen; (ii) Bewertung der langfristigen Nachhaltigkeit zur Bewältigung aufeinanderfolgender Anfragen. Die Ergebnisse zeigen, dass einige Techniken erfolgreich durch Feinabstimmung erworbenes Wissen vergessen können, aber Schwierigkeiten beim Löschen von Informationen haben, die während des Vortrainings gelernt wurden. Darüber hinaus zeigen Methoden, die effektiv Batch-Zieldaten in einer einzigen Operation vergessen, erhebliche Leistungseinbußen beim aufeinanderfolgenden Vergessen von Daten in Batches.

Forschungshintergrund und Motivation

Problemdefinition

Mit dem großen Erfolg großer multimodaler Modelle in verschiedenen Aufgaben können die Trainingsdaten persönliche Informationen und urheberrechtlich geschützte Inhalte enthalten, was Bedenken hinsichtlich Datenschutz und Verletzung von Intellektuellem Eigentum aufwirft. Die Technologie des maschinellen Vergessens zielt darauf ab, dass Modelle zuvor gelernte Informationen "vergessen", während die Leistung bei anderen Aufgaben erhalten bleibt.

Bedeutung des Problems

Datenschutzanforderungen: Mit strengeren Datenschutzbestimmungen ist eine Technologie erforderlich, die spezifische persönliche Informationen aus trainierten Modellen löschen kann
Urheberrechtsschutz: Notwendigkeit, mit urheberrechtlich geschützten Inhalten in Trainingsdaten umzugehen
Praktische Anforderungen: In realen Szenarien können mehrere aufeinanderfolgende Vergessen-Operationen erforderlich sein

Einschränkungen bestehender Methoden

Begrenzte Evaluierungsreichweite: Bestehende LMM-Vergessen-Benchmarks (wie MLLMU-Bench) berücksichtigen nur das Vergessen von Feinabstimmungs-Wissen
Annahme einer einmaligen Operation: Evaluiert nur einmalige Vergessen-Operationen und ignoriert Szenarien mit aufeinanderfolgenden Vergessen-Anfragen
Fehlende Bewertung des Vortrainings-Wissens: Berücksichtigt nicht das Vergessen von Wissen, das in der Vortrainingsphase erworben wurde

Forschungsmotivation

Dieses Papier zielt darauf ab, einen praktischeren und umfassenderen Evaluierungsrahmen für das Vergessen von LMMs zu etablieren und Lücken in bestehenden Evaluierungsmethoden bei der Vergessen von Vortrainings-Wissen und Nachhaltigkeit zu schließen.

Kernbeiträge

Vorschlag des PULSE-Protokolls: Entwurf eines neuen Protokolls zur Bewertung von (i) Vergessen von Vortrainings-Wissen und (ii) Bewertung der langfristigen Nachhaltigkeit in LMMs
Offenlegung der Schwierigkeiten beim Vergessen von Vortrainings-Wissen: Das PULSE-Protokoll zeigt, dass bestehende Vergessen-Techniken bei Wissen, das während des Vortrainings erworben wurde, schlecht funktionieren
Entdeckung von Nachhaltigkeitsproblemen: Nachweis, dass aktuelle Methoden bei mehreren aufeinanderfolgenden Vergessen-Anfragen erhebliche Leistungseinbußen aufweisen
Bereitstellung einer praktischen Evaluierungsgrundlage: Wichtige Erkenntnisse für die zukünftige Gestaltung von LMM-Vergessen-Techniken

Methodische Erklärung

Aufgabendefinition

Sei $D_{unlearn}$ die Daten, die vergessen werden sollen, und $D_{retain}$ die Daten, die beibehalten werden sollen. Die Bewertung der Vergessen-Methode umfasst zwei Aspekte:

Effektivität: Vergessen-Leistung auf dem Ziel $D_{unlearn}$
Verallgemeinerung: Beibehaltung der Genauigkeit auf nicht verwandten Daten $D_{retain}$

PULSE-Protokoll-Architektur

1. Vergessen von Feinabstimmungs-Wissen (Fine-tuned Knowledge Unlearning)

Befolgt Standardpraxis durch Auswahl einer Teilmenge des Feinabstimmungs-Wissens als $D_{unlearn}$
Das Modell vergisst diese Teilmenge in einer einzigen Operation
Bewertung der Vergessen-Effektivität und Beibehaltung der Verallgemeinerungsleistung

2. Vergessen von Vortrainings-Wissen (Pre-trained Knowledge Unlearning)

Nimmt Wissen, das während des Vortrainings erworben wurde, als $D_{unlearn}$
Identifiziert auf Grundlage des tatsächlichen Modellverhaltens Individuen, die das Modell "kennt"
Praktischer als direkte Stichprobenentnahme aus Vortrainingsdaten, anwendbar, wenn das Vortrainingskorpus nicht vollständig öffentlich ist

3. Bewertung der langfristigen Nachhaltigkeit (Long-term Sustainability Evaluation)

Teilt $D_{unlearn}$ in mehrere Teilmengen auf
Führt aufeinanderfolgende Vergessen-Operationen auf diese Teilmengen durch
Verfolgt Änderungen in Verallgemeinerung und Effektivität des Modells nach jeder Operation

Technische Innovationen

Mehrdimensionales Evaluierungsrahmen: Erstmals Berücksichtigung von Wissensquellentyp und Operationsnachhaltigkeit in LMMs
Praktisch orientiertes Design: Evaluierungsprotokoll basierend auf realen Anwendungsszenarien
Anforderungen zur modalitätsübergreifenden Konsistenz: Erfordert, dass das Modell in multimodalen und reinen Textaufgaben keine Zielinformationen preisgibt

Experimentelle Einrichtung

Datensätze

Verwendung von öffentlich veröffentlichten Datensätzen aus MLLMU-Bench:

Jedes Individuum enthält 1 Gesichtsbild und 10 Frage-Antwort-Paare
5 multimodale Aufgaben, 5 reine Textaufgaben
Fragen betreffen persönliche Details (z.B. Beruf, Wohnort)

Experimentelle Konfiguration:

Vergessen von Feinabstimmungs-Wissen: 100 fiktive Individuen, 50 für $D_{unlearn}$ , 50 für $D_{retain}$
Vergessen von Vortrainings-Wissen: 45 Individuen mit hoher Genauigkeit aus 153 echten Prominenten ausgewählt, 20 für $D_{unlearn}$ , 25 für $D_{retain}$
Bewertung der Nachhaltigkeit: 50 Individuen in 5 Teilmengen aufgeteilt, 5 aufeinanderfolgende Vergessen-Operationen durchgeführt

Bewertungsmetriken

Effektivitätsmetriken: Genauigkeit auf $D_{unlearn}$ (je niedriger desto besser)
Verallgemeinerungsmetriken:
- Genauigkeit auf $D_{retain}$ (je höher desto besser)
- MMBench-Bewertung (Bewertung multimodaler Fähigkeiten)

Vergleichsmethoden

Gradient Ascent (GA): Verwendet $D_{unlearn}$ als Vergessen-Daten, Parameteraktualisierungsrichtung entgegengesetzt zur standardmäßigen Gradientenabstieg
GA mit KL-Regularisierung (GA+KLR): Fügt KL-Divergenz-Strafterm hinzu, um aktualisiertes Modell nahe am ursprünglichen Modell zu halten
Negative Preference Optimization (NPO): Vergessen-Daten als negative Beispiele in Präferenz-Optimierungsmethode

Implementierungsdetails

Basismodell: LLaVA-v1.5-13B
Feinabstimmungsmethode: LoRA (Low-Rank Adaptation)
Parameteraktualisierung: LoRA wird sowohl bei Feinabstimmung als auch bei Vergessen-Prozessen verwendet

Experimentelle Ergebnisse

Hauptergebnisse

Leistung beim Vergessen von Vortrainings-Wissen

Alle Methoden zeigen reduzierte Genauigkeit auf $D_{unlearn}$ , was auf gewisse Effektivität des Vergessens hindeutet
Schlüsselfunde:
- Vergessen von Feinabstimmungs-Wissen: MMBench-Fähigkeit verliert maximal etwa 10%
- Vergessen von Vortrainings-Wissen: MMBench-Fähigkeit verliert über 90%
- $D_{retain}$ -Genauigkeit sinkt auch erheblich, was darauf hindeutet, dass selektives Vergessen schwierig ist

Bewertungsergebnisse der Nachhaltigkeit

Mit zunehmender Anzahl von Vergessen-Operationen verschlechtert sich nicht nur die $D_{unlearn}$ -Leistung, sondern auch die Verallgemeinerungsmetriken
Nach 5 Vergessen-Operationen ist die Verallgemeinerung praktisch vollständig verloren
Zeigt, dass aktuelle Mainstream-Vergessen-Methoden keine Nachhaltigkeit beim LMM-Vergessen aufrechterhalten können

Tiefgehende Analyse

Unterschiede zwischen Aufgaben-Modalitäten

Wenn Parameteraktualisierungen Projektionsmatrix und Sprachmodell einschließen:

Multimodale Aufgaben-Genauigkeit: 78,0% → 9,6%
Reine Text-Aufgaben-Genauigkeit: 76,8% → 35,2%

Wichtiger Fund: Reine Text-Aufgaben zeigen größere Resistenz gegen Vergessen, möglicherweise nur "Ausrichtung zwischen Bild und Wissen zerstört" statt echtes Vergessen von Zielinformationen.

Auswirkungen der Parameteraktualisierungsstrategie

Nur LLM aktualisieren: Erheblicher Rückgang der MMBench-Leistung
Gleichzeitige Aktualisierung von Projektionsmatrix und LLM: Geringer Rückgang der MMBench-Leistung
Hypothese: Erlaubnis zur Aktualisierung der Projektionsmatrix macht Vergessen durch Zerstörung der Modalitäts-Ausrichtung einfacher

Experimentelle Erkenntnisse

Vortrainings-Wissen ist schwerer zu vergessen: Möglicherweise weil das Modell während des Vortrainings Beziehungen zwischen Zielindividuen und anderen Entitäten gelernt hat
Aufeinanderfolgendes Vergessen führt zu katastrophalem Vergessen: Wiederholte Vergessen-Aktualisierungen ändern Parameter, die auch für beibehaltene Aufgaben entscheidend sind
Modalitäts-Inkonsistenz: Bestehende Methoden können möglicherweise keine konsistente Vergessen-Wirkung über Modalitäten hinweg gewährleisten

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Bestehende Vergessen-Methoden funktionieren schlecht bei der Behandlung von Vortrainings-Wissen und führen zu ernsthaften Verallgemeinerungsverlust
Aufeinanderfolgende Vergessen-Operationen führen zu schrittweisem Leistungsabbau; aktuelle Methoden sind für praktische Bereitstellung ungeeignet
Multimodale und reine Text-Aufgaben zeigen Inkonsistenzen in der Vergessen-Effektivität

Einschränkungen

Datensatzgröße: Verwendete Datensätze sind relativ klein und können möglicherweise großflächige Anwendungsszenarien nicht vollständig widerspiegeln
Methodenabdeckung: Nur drei Mainstream-Vergessen-Methoden bewertet, nicht alle bestehenden Techniken abgedeckt
Bewertungsmetriken: Möglicherweise sind feiner abgestufte Bewertungsmetriken erforderlich, um Vergessen-Effektivität umfassend zu messen

Zukünftige Richtungen

Entwicklung von Vergessen-Methoden speziell für Vortrainings-Wissen
Gestaltung von Vergessen-Techniken, die langfristige Nachhaltigkeit aufrechterhalten
Erforschung von Methoden für konsistentes modalitätsübergreifendes Vergessen
Erkundung feiner abgestufter Parameteraktualisierungsstrategien

Tiefgehende Bewertung

Stärken

Genaue Problemidentifikation: Präzise Identifikation von Schlüsselmängeln in bestehenden LMM-Vergessen-Evaluierungen
Vollständiger Evaluierungsrahmen: PULSE-Protokoll füllt wichtige Evaluierungslücken
Angemessenes Experimentdesign: Experimentelle Einrichtung entspricht realen Anwendungsszenarien
Aufschlussreiche Erkenntnisse: Offenlegung wichtiger Probleme beim Vergessen von Vortrainings-Wissen und Nachhaltigkeit
Klare Schreibweise: Klare Papierstruktur, genaue technische Beschreibung

Mängel

Begrenzte Methoden-Innovation: Hauptbeitrag liegt in Evaluierungsprotokoll statt neuer Vergessen-Methoden
Fehlende Lösungen: Zeigt Probleme auf, bietet aber keine effektiven Lösungen
Unzureichende theoretische Analyse: Theoretische Erklärung beobachteter Phänomene ist relativ einfach
Experimentelle Skalierungsbeschränkungen: Begrenzt durch bestehende Datensätze, relativ kleine Experimentgröße

Auswirkungen

Akademischer Wert: Bietet wichtigen Evaluierungs-Benchmark für LMM-Vergessen-Forschung
Praktischer Wert: Offenbarte Probleme haben wichtige Leitungsbedeutung für praktische Anwendungen
Fördereffekt: Kann Entwicklung praktischerer Vergessen-Methoden fördern
Reproduzierbarkeit: Klare experimentelle Einrichtung, basierend auf öffentlichen Datensätzen, gute Reproduzierbarkeit

Anwendungsszenarien

Forschungsbewertung: Bietet Standardprotokoll für Bewertung von LMM-Vergessen-Methoden
Methodenentwicklung: Bietet Evaluierungs-Benchmark für Gestaltung neuer Vergessen-Methoden
Praktische Bereitstellung: Bietet Leistungserwartungen für Vergessen-Anforderungen in praktischen Anwendungen
Politikgestaltung: Bietet technische Referenzen für relevante Datenschutzrichtlinien

Literaturverzeichnis

Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

MUSE, TOFU und andere LLM-Vergessen-Benchmarks
MLLMU-Bench und andere LMM-Vergessen-Benchmarks
LLaVA und andere multimodale Modelle
LoRA und andere Parameter-effiziente Feinabstimmungsmethoden

Gesamtbewertung: Dies ist ein hochqualitatives Evaluierungs-Forschungspapier, das zwar in Methoden-Innovation relativ begrenzt ist, aber wichtige Beiträge bei Problemidentifikation und Evaluierungsrahmen-Etablierung leistet. Die vom Papier offenbarten Schwierigkeiten beim Vergessen von Vortrainings-Wissen und Nachhaltigkeitsprobleme haben wichtige Leitungsbedeutung für die Entwicklung dieses Feldes und weisen wichtige Richtungen für zukünftige Forschung auf.