In recent years, unlearning techniques, which are methods for inducing a model to "forget" previously learned information, have attracted attention as a way to address privacy and copyright concerns in large language models (LLMs) and large multimodal models (LMMs). While several unlearning benchmarks have been established for LLMs, a practical evaluation framework for unlearning in LMMs has been less explored. Specifically, existing unlearning benchmark for LMMs considers only scenarios in which the model is required to unlearn fine-tuned knowledge through a single unlearning operation. In this study, we introduce PULSE protocol for realistic unlearning scenarios for LMMs by introducing two critical perspectives: (i) Pre-trained knowledge Unlearning for analyzing the effect across different knowledge acquisition phases and (ii) Long-term Sustainability Evaluation to address sequential requests. We then evaluate existing unlearning methods along these dimensions. Our results reveal that, although some techniques can successfully unlearn knowledge acquired through fine-tuning, they struggle to eliminate information learned during pre-training. Moreover, methods that effectively unlearn a batch of target data in a single operation exhibit substantial performance degradation when the same data are split and unlearned sequentially.
PULSE: Escenarios Prácticos de Evaluación para el Desaprendizaje de Modelos Multimodales Grandes
- ID del Artículo: 2507.01271
- Título: PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning
- Autores: Tatsuki Kawakami, Kazuki Egashira, Atsuyuki Miyai, Go Irie, Kiyoharu Aizawa (Universidad de Tokio)
- Clasificación: cs.LG cs.AI
- Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2025) Workshop
- Enlace del Artículo: https://arxiv.org/abs/2507.01271
En años recientes, la técnica de desaprendizaje automático ha recibido atención como método para abordar cuestiones de privacidad y derechos de autor en modelos de lenguaje grandes (LLMs) y modelos multimodales grandes (LMMs). Aunque se han establecido múltiples puntos de referencia de desaprendizaje para LLMs, se ha explorado menos un marco de evaluación práctica de desaprendizaje para LMMs. Los puntos de referencia existentes de desaprendizaje de LMMs solo consideran escenarios de desaprendizaje de conocimiento adquirido mediante ajuste fino a través de una única operación de desaprendizaje. Este estudio introduce el protocolo PULSE mediante la incorporación de dos perspectivas clave: (i) desaprendizaje de conocimiento preentrenado, para analizar el impacto de diferentes fases de adquisición de conocimiento; (ii) evaluación de sostenibilidad a largo plazo, para abordar solicitudes continuas. Los resultados muestran que, aunque algunas técnicas logran desaprender exitosamente el conocimiento adquirido mediante ajuste fino, enfrentan dificultades al eliminar información aprendida durante el preentrenamiento. Además, los métodos que desaprenden efectivamente lotes de datos objetivo en operaciones únicas muestran una degradación significativa del rendimiento cuando se desaprenden datos de manera continua en lotes.
Con el enorme éxito de los modelos multimodales grandes en diversas tareas, sus datos de entrenamiento pueden contener información personal y contenido protegido por derechos de autor, lo que genera preocupaciones sobre privacidad e infracción de propiedad intelectual. La técnica de desaprendizaje automático tiene como objetivo permitir que el modelo "olvide" información previamente aprendida, mientras mantiene el rendimiento en otras tareas.
- Necesidad de Protección de Privacidad: Con la intensificación de regulaciones de privacidad de datos, se requieren técnicas capaces de eliminar información personal específica de modelos ya entrenados
- Protección de Derechos de Autor: Necesidad de abordar contenido protegido por derechos de autor que puede estar incluido en datos de entrenamiento
- Requisitos de Aplicación Práctica: Los escenarios reales pueden requerir múltiples operaciones de desaprendizaje continuo
- Alcance de Evaluación Limitado: Los puntos de referencia existentes de desaprendizaje de LMMs (como MLLMU-Bench) solo consideran el desaprendizaje de conocimiento adquirido mediante ajuste fino
- Suposición de Operación Única: Solo evalúan operaciones de desaprendizaje únicas, ignorando escenarios de solicitudes de desaprendizaje continuo
- Falta de Evaluación de Conocimiento Preentrenado: No consideran el desaprendizaje de conocimiento adquirido durante la fase de preentrenamiento
Este trabajo tiene como objetivo establecer un marco de evaluación de desaprendizaje de LMMs más práctico y completo, cerrando las brechas en los métodos de evaluación existentes respecto al desaprendizaje de conocimiento preentrenado y la sostenibilidad.
- Propuesta del Protocolo PULSE: Diseño de un nuevo protocolo para evaluar (i) desaprendizaje de conocimiento preentrenado y (ii) evaluación de sostenibilidad a largo plazo en LMMs
- Revelación de Dificultades en Desaprendizaje de Conocimiento Preentrenado: Mediante el protocolo PULSE, se descubre que las técnicas de desaprendizaje existentes funcionan mal cuando se dirigen al conocimiento adquirido durante el preentrenamiento
- Descubrimiento de Problemas de Sostenibilidad: Se demuestra que los métodos actuales muestran degradación significativa del rendimiento cuando enfrentan múltiples solicitudes de desaprendizaje continuo
- Provisión de Base de Evaluación Práctica: Proporciona información importante para el diseño futuro de técnicas de desaprendizaje de LMMs
Sea Dunlearn los datos que deben desaprenderse y Dretain los datos que deben retenerse. La evaluación de métodos de desaprendizaje incluye dos aspectos:
- Efectividad: Rendimiento de desaprendizaje en el objetivo Dunlearn
- Generalidad: Mantenimiento de precisión en datos no relacionados Dretain
- Sigue la práctica estándar, seleccionando un subconjunto de conocimiento ajustado finamente como Dunlearn
- El modelo desaprende este subconjunto en una única operación
- Evalúa el efecto de desaprendizaje y el mantenimiento del rendimiento de generalización
- Utiliza el conocimiento adquirido durante el preentrenamiento como Dunlearn
- Identifica individuos que el modelo "conoce" basándose en el comportamiento real del modelo
- Más práctico que muestreo directo de datos de preentrenamiento, aplicable cuando el corpus de preentrenamiento no está completamente disponible públicamente
- Divide Dunlearn en múltiples subconjuntos
- Realiza operaciones de desaprendizaje continuo secuencialmente en estos subconjuntos
- Rastrea cambios en la generalización y efectividad del modelo después de cada operación
- Marco de Evaluación Multidimensional: Primera consideración simultánea del tipo de fuente de conocimiento y sostenibilidad operacional en LMMs
- Diseño Orientado a la Practicidad: Protocolo de evaluación diseñado basándose en escenarios de aplicación real
- Requisito de Consistencia Multimodal: Requiere que el modelo no filtre información objetivo en tareas multimodales y de texto puro
Utiliza conjuntos de datos publicados públicamente de MLLMU-Bench:
- Cada individuo contiene 1 imagen facial y 10 pares de preguntas-respuestas
- 5 tareas multimodales, 5 tareas de texto puro
- Las preguntas involucran información personal detallada (como profesión, lugar de residencia)
Configuración Experimental:
- Desaprendizaje de Conocimiento Ajustado Finamente: 100 individuos ficticios, 50 para Dunlearn, 50 para Dretain
- Desaprendizaje de Conocimiento Preentrenado: Selección de 45 individuos de alta precisión de 153 celebridades reales, 20 para Dunlearn, 25 para Dretain
- Evaluación de Sostenibilidad: 50 individuos divididos en 5 subconjuntos, realizando 5 operaciones de desaprendizaje continuo
- Métricas de Efectividad: Precisión en Dunlearn (cuanto más baja, mejor)
- Métricas de Generalización:
- Precisión en Dretain (cuanto más alta, mejor)
- Puntuación de MMBench (evaluación de capacidad multimodal)
- Gradient Ascent (GA): Utiliza Dunlearn como datos de desaprendizaje, dirección de actualización de parámetros opuesta al descenso de gradiente estándar
- GA con Regularización KL (GA+KLR): Añade término de penalización de divergencia KL, manteniendo el modelo actualizado cerca del modelo original
- Negative Preference Optimization (NPO): Método de optimización de preferencias que trata datos de desaprendizaje como ejemplos negativos
- Modelo Base: LLaVA-v1.5-13B
- Método de Ajuste Fino: LoRA (Low-Rank Adaptation)
- Actualización de Parámetros: Utiliza LoRA tanto en procesos de ajuste fino como de desaprendizaje
- Todos los métodos muestran reducción de precisión en Dunlearn, indicando que el desaprendizaje es efectivo en cierto grado
- Hallazgos Clave:
- Desaprendizaje de conocimiento ajustado finamente: Pérdida de capacidad de MMBench de aproximadamente 10% como máximo
- Desaprendizaje de conocimiento preentrenado: Pérdida de capacidad de MMBench superior al 90%
- La precisión de Dretain también disminuye significativamente, indicando dificultad en desaprendizaje selectivo
- Con el aumento del número de operaciones de desaprendizaje, no solo disminuye el rendimiento de Dunlearn, sino que también se deterioran gradualmente las métricas de generalización
- Después de 5 operaciones de desaprendizaje, la generalización se pierde casi completamente
- Indica que los métodos de desaprendizaje convencionales actuales no pueden mantener sostenibilidad en desaprendizaje de LMM
Cuando la actualización de parámetros incluye matrices de proyección y modelo de lenguaje:
- Precisión de tareas multimodales: 78.0% → 9.6%
- Precisión de tareas de texto puro: 76.8% → 35.2%
Hallazgo Importante: Las tareas de texto puro muestran mayor resistencia al desaprendizaje, posiblemente solo "rompiendo la alineación entre imagen y conocimiento" en lugar de desaprender verdaderamente la información objetivo.
- Solo Actualización de LLM: Disminución significativa del rendimiento de MMBench
- Actualización Simultánea de Matriz de Proyección y LLM: Disminución leve del rendimiento de MMBench
- Hipótesis: Permitir actualización de matriz de proyección facilita el desaprendizaje al romper alineación entre modalidades
- El Conocimiento Preentrenado es Más Difícil de Desaprender: Posiblemente porque durante el preentrenamiento el modelo aprendió relaciones entre el individuo objetivo y otras entidades
- Desaprendizaje Continuo Causa Desaprendizaje Catastrófico: Las actualizaciones de desaprendizaje repetidas modifican parámetros también críticos para tareas de retención
- Inconsistencia Entre Modalidades: Los métodos existentes pueden no garantizar efectos de desaprendizaje consistentes entre modalidades
- Variantes de Gradient Ascent: Métodos como GA, GA+regularización, NPO muestran cierto efecto en LLMs y LMMs
- Métodos Específicos de LMM: SIU se limita a tareas multimodales, no aplicable a evaluación de tareas de texto puro
- Puntos de Referencia de LLMs: MUSE, TOFU proporcionan marcos de evaluación completos
- Puntos de Referencia de LMMs: MLLMU-Bench proporciona evaluación básica pero no suficientemente completa
- Contribución de este Trabajo: Primera provisión de desaprendizaje de conocimiento preentrenado y evaluación de sostenibilidad en LMMs
- Los métodos de desaprendizaje existentes funcionan mal al tratar conocimiento preentrenado, causando degradación severa de la generalización del modelo
- Las operaciones de desaprendizaje continuo causan degradación progresiva del rendimiento; los métodos actuales no son adecuados para despliegue práctico
- Existe inconsistencia en efectos de desaprendizaje entre tareas multimodales y de texto puro
- Escala del Conjunto de Datos: Los conjuntos de datos utilizados en experimentos son relativamente pequeños, posiblemente no reflejando completamente escenarios de aplicación a gran escala
- Cobertura de Métodos: Solo evalúa tres métodos de desaprendizaje convencionales, no cubriendo todas las técnicas existentes
- Métricas de Evaluación: Posiblemente se requieran métricas de evaluación más granulares para medir completamente el efecto de desaprendizaje
- Desarrollo de métodos de desaprendizaje específicamente dirigidos al conocimiento preentrenado
- Diseño de técnicas de desaprendizaje que mantengan sostenibilidad a largo plazo
- Investigación de métodos para desaprendizaje consistente entre modalidades
- Exploración de estrategias de actualización de parámetros más refinadas
- Identificación Precisa del Problema: Identifica con precisión defectos clave en evaluación de desaprendizaje de LMM existente
- Marco de Evaluación Completo: El protocolo PULSE cierra brechas importantes en evaluación
- Diseño Experimental Razonable: La configuración experimental se aproxima a escenarios de aplicación práctica
- Hallazgos Perspicaces: Revela problemas importantes en desaprendizaje de conocimiento preentrenado y sostenibilidad
- Escritura Clara: Estructura de artículo clara, descripción técnica precisa
- Innovación de Método Limitada: Las contribuciones principales están en protocolo de evaluación en lugar de nuevos métodos de desaprendizaje
- Falta de Soluciones: Señala problemas pero no proporciona soluciones efectivas
- Análisis Teórico Insuficiente: Las explicaciones teóricas de fenómenos observados son relativamente simples
- Limitaciones de Escala Experimental: Limitado por conjuntos de datos existentes, escala experimental relativamente pequeña
- Valor Académico: Proporciona punto de referencia de evaluación importante para investigación de desaprendizaje de LMM
- Valor Práctico: Los problemas revelados tienen importancia significativa para aplicación práctica
- Efecto Promotor: Puede promover investigación y desarrollo de métodos de desaprendizaje más prácticos
- Reproducibilidad: Configuración experimental clara, basada en conjuntos de datos públicos, con buena reproducibilidad
- Evaluación de Investigación: Proporciona protocolo estándar para evaluación de métodos de desaprendizaje de LMM
- Desarrollo de Métodos: Proporciona punto de referencia de evaluación para diseño de nuevos métodos de desaprendizaje
- Despliegue Práctico: Proporciona expectativas de rendimiento para necesidades de desaprendizaje en aplicación práctica
- Formulación de Políticas: Proporciona referencia técnica para políticas de protección de privacidad relacionadas
El artículo cita múltiples trabajos relacionados importantes, incluyendo:
- Puntos de referencia de desaprendizaje de LLMs como MUSE, TOFU
- Puntos de referencia de desaprendizaje de LMMs como MLLMU-Bench
- Modelos multimodales como LLaVA
- Métodos de ajuste fino eficiente en parámetros como LoRA
Evaluación General: Este es un artículo de investigación de evaluación de alta calidad que, aunque relativamente limitado en innovación de métodos, realiza contribuciones importantes en identificación de problemas y construcción de marco de evaluación. Los problemas revelados en desaprendizaje de conocimiento preentrenado y sostenibilidad tienen importancia significativa para el desarrollo del campo, señalando direcciones clave para investigación futura.