In recent years, unlearning techniques, which are methods for inducing a model to "forget" previously learned information, have attracted attention as a way to address privacy and copyright concerns in large language models (LLMs) and large multimodal models (LMMs). While several unlearning benchmarks have been established for LLMs, a practical evaluation framework for unlearning in LMMs has been less explored. Specifically, existing unlearning benchmark for LMMs considers only scenarios in which the model is required to unlearn fine-tuned knowledge through a single unlearning operation. In this study, we introduce PULSE protocol for realistic unlearning scenarios for LMMs by introducing two critical perspectives: (i) Pre-trained knowledge Unlearning for analyzing the effect across different knowledge acquisition phases and (ii) Long-term Sustainability Evaluation to address sequential requests. We then evaluate existing unlearning methods along these dimensions. Our results reveal that, although some techniques can successfully unlearn knowledge acquired through fine-tuning, they struggle to eliminate information learned during pre-training. Moreover, methods that effectively unlearn a batch of target data in a single operation exhibit substantial performance degradation when the same data are split and unlearned sequentially.
- Papier-ID: 2507.01271
- Titel: PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning
- Autoren: Tatsuki Kawakami, Kazuki Egashira, Atsuyuki Miyai, Go Irie, Kiyoharu Aizawa (Universität Tokio)
- Klassifizierung: cs.LG cs.AI
- Veröffentlichungszeit/Konferenz: 39. Konferenz über neuronale Informationsverarbeitungssysteme (NeurIPS 2025) Workshop
- Papierlink: https://arxiv.org/abs/2507.01271
In letzter Zeit hat sich die Technologie des maschinellen Vergessens als Methode zur Lösung von Datenschutz- und Urheberrechtsproblemen in großen Sprachmodellen (LLMs) und großen multimodalen Modellen (LMMs) etabliert. Während mehrere Vergessen-Benchmarks für LLMs entwickelt wurden, wurde die praktische Evaluierungsrahmen für das Vergessen von LMMs weniger erforscht. Bestehende LMM-Vergessen-Benchmarks berücksichtigen nur Szenarien, in denen durch Feinabstimmung erworbenes Wissen durch eine einzige Vergessen-Operation vergessen wird. Diese Forschung führt das PULSE-Protokoll durch zwei Schlüsselperspektiven ein: (i) Vergessen von Vortrainings-Wissen zur Analyse der Auswirkungen verschiedener Wissensakquisitionsphasen; (ii) Bewertung der langfristigen Nachhaltigkeit zur Bewältigung aufeinanderfolgender Anfragen. Die Ergebnisse zeigen, dass einige Techniken erfolgreich durch Feinabstimmung erworbenes Wissen vergessen können, aber Schwierigkeiten beim Löschen von Informationen haben, die während des Vortrainings gelernt wurden. Darüber hinaus zeigen Methoden, die effektiv Batch-Zieldaten in einer einzigen Operation vergessen, erhebliche Leistungseinbußen beim aufeinanderfolgenden Vergessen von Daten in Batches.
Mit dem großen Erfolg großer multimodaler Modelle in verschiedenen Aufgaben können die Trainingsdaten persönliche Informationen und urheberrechtlich geschützte Inhalte enthalten, was Bedenken hinsichtlich Datenschutz und Verletzung von Intellektuellem Eigentum aufwirft. Die Technologie des maschinellen Vergessens zielt darauf ab, dass Modelle zuvor gelernte Informationen "vergessen", während die Leistung bei anderen Aufgaben erhalten bleibt.
- Datenschutzanforderungen: Mit strengeren Datenschutzbestimmungen ist eine Technologie erforderlich, die spezifische persönliche Informationen aus trainierten Modellen löschen kann
- Urheberrechtsschutz: Notwendigkeit, mit urheberrechtlich geschützten Inhalten in Trainingsdaten umzugehen
- Praktische Anforderungen: In realen Szenarien können mehrere aufeinanderfolgende Vergessen-Operationen erforderlich sein
- Begrenzte Evaluierungsreichweite: Bestehende LMM-Vergessen-Benchmarks (wie MLLMU-Bench) berücksichtigen nur das Vergessen von Feinabstimmungs-Wissen
- Annahme einer einmaligen Operation: Evaluiert nur einmalige Vergessen-Operationen und ignoriert Szenarien mit aufeinanderfolgenden Vergessen-Anfragen
- Fehlende Bewertung des Vortrainings-Wissens: Berücksichtigt nicht das Vergessen von Wissen, das in der Vortrainingsphase erworben wurde
Dieses Papier zielt darauf ab, einen praktischeren und umfassenderen Evaluierungsrahmen für das Vergessen von LMMs zu etablieren und Lücken in bestehenden Evaluierungsmethoden bei der Vergessen von Vortrainings-Wissen und Nachhaltigkeit zu schließen.
- Vorschlag des PULSE-Protokolls: Entwurf eines neuen Protokolls zur Bewertung von (i) Vergessen von Vortrainings-Wissen und (ii) Bewertung der langfristigen Nachhaltigkeit in LMMs
- Offenlegung der Schwierigkeiten beim Vergessen von Vortrainings-Wissen: Das PULSE-Protokoll zeigt, dass bestehende Vergessen-Techniken bei Wissen, das während des Vortrainings erworben wurde, schlecht funktionieren
- Entdeckung von Nachhaltigkeitsproblemen: Nachweis, dass aktuelle Methoden bei mehreren aufeinanderfolgenden Vergessen-Anfragen erhebliche Leistungseinbußen aufweisen
- Bereitstellung einer praktischen Evaluierungsgrundlage: Wichtige Erkenntnisse für die zukünftige Gestaltung von LMM-Vergessen-Techniken
Sei Dunlearn die Daten, die vergessen werden sollen, und Dretain die Daten, die beibehalten werden sollen. Die Bewertung der Vergessen-Methode umfasst zwei Aspekte:
- Effektivität: Vergessen-Leistung auf dem Ziel Dunlearn
- Verallgemeinerung: Beibehaltung der Genauigkeit auf nicht verwandten Daten Dretain
- Befolgt Standardpraxis durch Auswahl einer Teilmenge des Feinabstimmungs-Wissens als Dunlearn
- Das Modell vergisst diese Teilmenge in einer einzigen Operation
- Bewertung der Vergessen-Effektivität und Beibehaltung der Verallgemeinerungsleistung
- Nimmt Wissen, das während des Vortrainings erworben wurde, als Dunlearn
- Identifiziert auf Grundlage des tatsächlichen Modellverhaltens Individuen, die das Modell "kennt"
- Praktischer als direkte Stichprobenentnahme aus Vortrainingsdaten, anwendbar, wenn das Vortrainingskorpus nicht vollständig öffentlich ist
- Teilt Dunlearn in mehrere Teilmengen auf
- Führt aufeinanderfolgende Vergessen-Operationen auf diese Teilmengen durch
- Verfolgt Änderungen in Verallgemeinerung und Effektivität des Modells nach jeder Operation
- Mehrdimensionales Evaluierungsrahmen: Erstmals Berücksichtigung von Wissensquellentyp und Operationsnachhaltigkeit in LMMs
- Praktisch orientiertes Design: Evaluierungsprotokoll basierend auf realen Anwendungsszenarien
- Anforderungen zur modalitätsübergreifenden Konsistenz: Erfordert, dass das Modell in multimodalen und reinen Textaufgaben keine Zielinformationen preisgibt
Verwendung von öffentlich veröffentlichten Datensätzen aus MLLMU-Bench:
- Jedes Individuum enthält 1 Gesichtsbild und 10 Frage-Antwort-Paare
- 5 multimodale Aufgaben, 5 reine Textaufgaben
- Fragen betreffen persönliche Details (z.B. Beruf, Wohnort)
Experimentelle Konfiguration:
- Vergessen von Feinabstimmungs-Wissen: 100 fiktive Individuen, 50 für Dunlearn, 50 für Dretain
- Vergessen von Vortrainings-Wissen: 45 Individuen mit hoher Genauigkeit aus 153 echten Prominenten ausgewählt, 20 für Dunlearn, 25 für Dretain
- Bewertung der Nachhaltigkeit: 50 Individuen in 5 Teilmengen aufgeteilt, 5 aufeinanderfolgende Vergessen-Operationen durchgeführt
- Effektivitätsmetriken: Genauigkeit auf Dunlearn (je niedriger desto besser)
- Verallgemeinerungsmetriken:
- Genauigkeit auf Dretain (je höher desto besser)
- MMBench-Bewertung (Bewertung multimodaler Fähigkeiten)
- Gradient Ascent (GA): Verwendet Dunlearn als Vergessen-Daten, Parameteraktualisierungsrichtung entgegengesetzt zur standardmäßigen Gradientenabstieg
- GA mit KL-Regularisierung (GA+KLR): Fügt KL-Divergenz-Strafterm hinzu, um aktualisiertes Modell nahe am ursprünglichen Modell zu halten
- Negative Preference Optimization (NPO): Vergessen-Daten als negative Beispiele in Präferenz-Optimierungsmethode
- Basismodell: LLaVA-v1.5-13B
- Feinabstimmungsmethode: LoRA (Low-Rank Adaptation)
- Parameteraktualisierung: LoRA wird sowohl bei Feinabstimmung als auch bei Vergessen-Prozessen verwendet
- Alle Methoden zeigen reduzierte Genauigkeit auf Dunlearn, was auf gewisse Effektivität des Vergessens hindeutet
- Schlüsselfunde:
- Vergessen von Feinabstimmungs-Wissen: MMBench-Fähigkeit verliert maximal etwa 10%
- Vergessen von Vortrainings-Wissen: MMBench-Fähigkeit verliert über 90%
- Dretain-Genauigkeit sinkt auch erheblich, was darauf hindeutet, dass selektives Vergessen schwierig ist
- Mit zunehmender Anzahl von Vergessen-Operationen verschlechtert sich nicht nur die Dunlearn-Leistung, sondern auch die Verallgemeinerungsmetriken
- Nach 5 Vergessen-Operationen ist die Verallgemeinerung praktisch vollständig verloren
- Zeigt, dass aktuelle Mainstream-Vergessen-Methoden keine Nachhaltigkeit beim LMM-Vergessen aufrechterhalten können
Wenn Parameteraktualisierungen Projektionsmatrix und Sprachmodell einschließen:
- Multimodale Aufgaben-Genauigkeit: 78,0% → 9,6%
- Reine Text-Aufgaben-Genauigkeit: 76,8% → 35,2%
Wichtiger Fund: Reine Text-Aufgaben zeigen größere Resistenz gegen Vergessen, möglicherweise nur "Ausrichtung zwischen Bild und Wissen zerstört" statt echtes Vergessen von Zielinformationen.
- Nur LLM aktualisieren: Erheblicher Rückgang der MMBench-Leistung
- Gleichzeitige Aktualisierung von Projektionsmatrix und LLM: Geringer Rückgang der MMBench-Leistung
- Hypothese: Erlaubnis zur Aktualisierung der Projektionsmatrix macht Vergessen durch Zerstörung der Modalitäts-Ausrichtung einfacher
- Vortrainings-Wissen ist schwerer zu vergessen: Möglicherweise weil das Modell während des Vortrainings Beziehungen zwischen Zielindividuen und anderen Entitäten gelernt hat
- Aufeinanderfolgendes Vergessen führt zu katastrophalem Vergessen: Wiederholte Vergessen-Aktualisierungen ändern Parameter, die auch für beibehaltene Aufgaben entscheidend sind
- Modalitäts-Inkonsistenz: Bestehende Methoden können möglicherweise keine konsistente Vergessen-Wirkung über Modalitäten hinweg gewährleisten
- Gradient Ascent-Varianten: GA, GA+Regularisierung, NPO und andere Methoden zeigen gewisse Effektivität in LLMs und LMMs
- LMM-spezifische Methoden: SIU beschränkt sich auf multimodale Aufgaben, nicht anwendbar auf Bewertung reiner Text-Aufgaben
- LLM-Benchmarks: MUSE, TOFU und andere bieten umfassende Evaluierungsrahmen
- LMM-Benchmarks: MLLMU-Bench bietet grundlegende aber nicht ausreichend umfassende Bewertung
- Beitrag dieses Papiers: Erstmals Vergessen von Vortrainings-Wissen und Nachhaltigkeitsbewertung in LMMs
- Bestehende Vergessen-Methoden funktionieren schlecht bei der Behandlung von Vortrainings-Wissen und führen zu ernsthaften Verallgemeinerungsverlust
- Aufeinanderfolgende Vergessen-Operationen führen zu schrittweisem Leistungsabbau; aktuelle Methoden sind für praktische Bereitstellung ungeeignet
- Multimodale und reine Text-Aufgaben zeigen Inkonsistenzen in der Vergessen-Effektivität
- Datensatzgröße: Verwendete Datensätze sind relativ klein und können möglicherweise großflächige Anwendungsszenarien nicht vollständig widerspiegeln
- Methodenabdeckung: Nur drei Mainstream-Vergessen-Methoden bewertet, nicht alle bestehenden Techniken abgedeckt
- Bewertungsmetriken: Möglicherweise sind feiner abgestufte Bewertungsmetriken erforderlich, um Vergessen-Effektivität umfassend zu messen
- Entwicklung von Vergessen-Methoden speziell für Vortrainings-Wissen
- Gestaltung von Vergessen-Techniken, die langfristige Nachhaltigkeit aufrechterhalten
- Erforschung von Methoden für konsistentes modalitätsübergreifendes Vergessen
- Erkundung feiner abgestufter Parameteraktualisierungsstrategien
- Genaue Problemidentifikation: Präzise Identifikation von Schlüsselmängeln in bestehenden LMM-Vergessen-Evaluierungen
- Vollständiger Evaluierungsrahmen: PULSE-Protokoll füllt wichtige Evaluierungslücken
- Angemessenes Experimentdesign: Experimentelle Einrichtung entspricht realen Anwendungsszenarien
- Aufschlussreiche Erkenntnisse: Offenlegung wichtiger Probleme beim Vergessen von Vortrainings-Wissen und Nachhaltigkeit
- Klare Schreibweise: Klare Papierstruktur, genaue technische Beschreibung
- Begrenzte Methoden-Innovation: Hauptbeitrag liegt in Evaluierungsprotokoll statt neuer Vergessen-Methoden
- Fehlende Lösungen: Zeigt Probleme auf, bietet aber keine effektiven Lösungen
- Unzureichende theoretische Analyse: Theoretische Erklärung beobachteter Phänomene ist relativ einfach
- Experimentelle Skalierungsbeschränkungen: Begrenzt durch bestehende Datensätze, relativ kleine Experimentgröße
- Akademischer Wert: Bietet wichtigen Evaluierungs-Benchmark für LMM-Vergessen-Forschung
- Praktischer Wert: Offenbarte Probleme haben wichtige Leitungsbedeutung für praktische Anwendungen
- Fördereffekt: Kann Entwicklung praktischerer Vergessen-Methoden fördern
- Reproduzierbarkeit: Klare experimentelle Einrichtung, basierend auf öffentlichen Datensätzen, gute Reproduzierbarkeit
- Forschungsbewertung: Bietet Standardprotokoll für Bewertung von LMM-Vergessen-Methoden
- Methodenentwicklung: Bietet Evaluierungs-Benchmark für Gestaltung neuer Vergessen-Methoden
- Praktische Bereitstellung: Bietet Leistungserwartungen für Vergessen-Anforderungen in praktischen Anwendungen
- Politikgestaltung: Bietet technische Referenzen für relevante Datenschutzrichtlinien
Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:
- MUSE, TOFU und andere LLM-Vergessen-Benchmarks
- MLLMU-Bench und andere LMM-Vergessen-Benchmarks
- LLaVA und andere multimodale Modelle
- LoRA und andere Parameter-effiziente Feinabstimmungsmethoden
Gesamtbewertung: Dies ist ein hochqualitatives Evaluierungs-Forschungspapier, das zwar in Methoden-Innovation relativ begrenzt ist, aber wichtige Beiträge bei Problemidentifikation und Evaluierungsrahmen-Etablierung leistet. Die vom Papier offenbarten Schwierigkeiten beim Vergessen von Vortrainings-Wissen und Nachhaltigkeitsprobleme haben wichtige Leitungsbedeutung für die Entwicklung dieses Feldes und weisen wichtige Richtungen für zukünftige Forschung auf.