In recent years, unlearning techniques, which are methods for inducing a model to "forget" previously learned information, have attracted attention as a way to address privacy and copyright concerns in large language models (LLMs) and large multimodal models (LMMs). While several unlearning benchmarks have been established for LLMs, a practical evaluation framework for unlearning in LMMs has been less explored. Specifically, existing unlearning benchmark for LMMs considers only scenarios in which the model is required to unlearn fine-tuned knowledge through a single unlearning operation. In this study, we introduce PULSE protocol for realistic unlearning scenarios for LMMs by introducing two critical perspectives: (i) Pre-trained knowledge Unlearning for analyzing the effect across different knowledge acquisition phases and (ii) Long-term Sustainability Evaluation to address sequential requests. We then evaluate existing unlearning methods along these dimensions. Our results reveal that, although some techniques can successfully unlearn knowledge acquired through fine-tuning, they struggle to eliminate information learned during pre-training. Moreover, methods that effectively unlearn a batch of target data in a single operation exhibit substantial performance degradation when the same data are split and unlearned sequentially.
- معرّف الورقة: 2507.01271
- العنوان: PULSE: سيناريوهات التقييم العملية لإلغاء تعلم نماذج متعددة الأنماط الكبيرة
- المؤلفون: Tatsuki Kawakami, Kazuki Egashira, Atsuyuki Miyai, Go Irie, Kiyoharu Aizawa (جامعة طوكيو)
- التصنيف: cs.LG cs.AI
- وقت النشر/المؤتمر: ورشة عمل المؤتمر الدولي التاسع والثلاثون لأنظمة معالجة المعلومات العصبية (NeurIPS 2025)
- رابط الورقة: https://arxiv.org/abs/2507.01271
في الآونة الأخيرة، حظيت تقنيات إلغاء التعلم الآلي باهتمام متزايد كحل لمعالجة مشاكل الخصوصية والملكية الفكرية في نماذج اللغة الكبيرة (LLMs) والنماذج متعددة الأنماط الكبيرة (LMMs). بينما تم إنشاء عدة معايير إلغاء تعلم لـ LLMs، إلا أن الاستكشاف الشامل لأطر التقييم العملي لإلغاء التعلم في LMMs لا يزال محدوداً. تقتصر معايير إلغاء التعلم الحالية في LMMs على سيناريوهات إلغاء المعرفة المكتسبة من خلال الضبط الدقيق عبر عملية إلغاء تعلم واحدة. تقدم هذه الدراسة بروتوكول PULSE من خلال إدخال منظورين رئيسيين: (i) إلغاء تعلم المعرفة المسبقة، لتحليل تأثير مراحل اكتساب المعرفة المختلفة؛ (ii) تقييم الاستدامة طويلة الأجل، للتعامل مع الطلبات المتتالية. تشير النتائج إلى أنه بينما تنجح بعض التقنيات في إلغاء المعرفة المكتسبة من خلال الضبط الدقيق، فإنها تواجه صعوبات في القضاء على المعلومات المتعلمة أثناء مرحلة التدريب المسبق. علاوة على ذلك، تظهر الطرق الفعالة في إلغاء بيانات الهدف بكميات كبيرة في عملية واحدة انخفاضاً ملحوظاً في الأداء عند إلغاء التعلم المتتالي للبيانات المقسمة على دفعات.
مع النجاح الهائل للنماذج متعددة الأنماط الكبيرة في مختلف المهام، قد تحتوي بيانات التدريب على معلومات شخصية ومحتوى محمي بحقوق الطبع والنشر، مما يثير مخاوف بشأن الخصوصية وانتهاك الملكية الفكرية. تهدف تقنيات إلغاء التعلم الآلي إلى جعل النموذج "ينسى" المعلومات المتعلمة سابقاً، مع الحفاظ على الأداء في المهام الأخرى.
- متطلبات حماية الخصوصية: مع تشديد لوائح خصوصية البيانات، هناك حاجة لتقنيات قادرة على حذف معلومات شخصية محددة من النماذج المدربة
- حماية حقوق الطبع والنشر: الحاجة للتعامل مع محتوى محمي بحقوق الطبع والنشر الذي قد يكون موجوداً في بيانات التدريب
- متطلبات التطبيق العملي: قد تتطلب السيناريوهات الواقعية عمليات إلغاء تعلم متعددة ومتتالية
- نطاق التقييم محدود: معايير إلغاء التعلم الحالية في LMMs (مثل MLLMU-Bench) تقتصر على إلغاء المعرفة المكتسبة من الضبط الدقيق
- افتراض العملية الواحدة: تقيّم فقط عمليات إلغاء التعلم لمرة واحدة، متجاهلة سيناريوهات طلبات الإلغاء المتتالية
- غياب تقييم المعرفة المسبقة: لا تأخذ في الاعتبار إلغاء المعرفة المكتسبة أثناء مرحلة التدريب المسبق
تهدف هذه الورقة إلى إنشاء إطار عمل تقييم أكثر عملية وشمولاً لإلغاء التعلم في LMMs، لملء الفجوات في طرق التقييم الحالية فيما يتعلق بإلغاء المعرفة المسبقة والاستدامة.
- اقتراح بروتوكول PULSE: تصميم بروتوكول جديد لتقييم (i) إلغاء تعلم المعرفة المسبقة و(ii) تقييم الاستدامة طويلة الأجل في LMMs
- الكشف عن صعوبات إلغاء المعرفة المسبقة: اكتشاف أن التقنيات الحالية لإلغاء التعلم تؤدي أداءً ضعيفاً عند التعامل مع المعرفة المكتسبة أثناء التدريب المسبق
- اكتشاف مشاكل الاستدامة: إثبات أن الطرق الحالية تظهر انخفاضاً ملحوظاً في الأداء عند مواجهة طلبات إلغاء تعلم متعددة ومتتالية
- توفير أساس تقييم عملي: توفير رؤى مهمة لتصميم تقنيات إلغاء التعلم المستقبلية في LMMs
دع Dunlearn تمثل البيانات المراد إلغاء تعلمها، و Dretain تمثل البيانات المراد الاحتفاظ بها. يتضمن تقييم طرق الإلغاء جانبين:
- الفعالية (Effectiveness): أداء الإلغاء على الهدف Dunlearn
- التعميم (Generality): الحفاظ على الدقة على البيانات غير ذات الصلة Dretain
- اتباع الممارسة القياسية، واختيار مجموعة فرعية من المعرفة المكتسبة من الضبط الدقيق كـ Dunlearn
- إلغاء هذه المجموعة الفرعية من قبل النموذج في عملية واحدة
- تقييم فعالية الإلغاء والحفاظ على أداء التعميم
- استخدام المعرفة المكتسبة أثناء التدريب المسبق كـ Dunlearn
- تحديد الأفراد الذين "يعرفهم" النموذج بناءً على السلوك الفعلي للنموذج
- أكثر عملية من الأخذ المباشر من بيانات التدريب المسبق، مناسب للحالات التي لا تكون فيها مدونة التدريب المسبق مفتوحة بالكامل
- تقسيم Dunlearn إلى عدة مجموعات فرعية
- إجراء عمليات إلغاء تعلم متتالية على هذه المجموعات الفرعية بالترتيب
- تتبع التغييرات في التعميم والفعالية بعد كل عملية
- إطار تقييم متعدد الأبعاد: أول مرة يتم فيها النظر في نوع مصدر المعرفة واستدامة العملية معاً في LMMs
- تصميم موجه نحو العملية: تصميم بروتوكول التقييم بناءً على سيناريوهات التطبيق الواقعية
- متطلبات التناسق عبر الأنماط: يتطلب من النموذج عدم تسريب معلومات الهدف في كل من المهام متعددة الأنماط والمهام النصية البحتة
استخدام مجموعات البيانات المنشورة علناً من MLLMU-Bench:
- كل فرد يحتوي على صورة وجه واحدة و 10 أزواج أسئلة وأجوبة
- 5 مهام متعددة الأنماط، 5 مهام نصية بحتة
- تتعلق الأسئلة بمعلومات شخصية مفصلة (مثل المهنة، مكان الإقامة)
تكوينات التجارب:
- إلغاء تعلم المعرفة المكتسبة من الضبط الدقيق: 100 فرد خيالي، 50 لـ Dunlearn، 50 لـ Dretain
- إلغاء تعلم المعرفة المسبقة: اختيار 45 شخصية حقيقية من 153 شخصية مشهورة بدقة عالية، 20 لـ Dunlearn، 25 لـ Dretain
- تقييم الاستدامة: تقسيم 50 فرداً إلى 5 مجموعات فرعية، إجراء 5 عمليات إلغاء تعلم متتالية
- مقاييس الفعالية: الدقة على Dunlearn (كلما انخفضت كان أفضل)
- مقاييس التعميم:
- الدقة على Dretain (كلما ارتفعت كان أفضل)
- درجة MMBench (لتقييم القدرات متعددة الأنماط)
- صعود التدرج (Gradient Ascent - GA): استخدام Dunlearn كبيانات إلغاء، مع عكس اتجاه تحديث المعاملات عن الانحدار التدريجي القياسي
- صعود التدرج مع تنظيم KL (GA with KL Regularization - GA+KLR): إضافة حد عقوبة تباعد KL للحفاظ على قرب النموذج المحدث من النموذج الأصلي
- تحسين التفضيل السلبي (Negative Preference Optimization - NPO): طريقة تحسين التفضيل تعامل بيانات الإلغاء كأمثلة سلبية
- النموذج الأساسي: LLaVA-v1.5-13B
- طريقة الضبط الدقيق: LoRA (تكييف الرتبة المنخفضة)
- تحديث المعاملات: استخدام LoRA في كل من عمليات الضبط الدقيق والإلغاء
- تظهر جميع الطرق انخفاضاً في الدقة على Dunlearn، مما يشير إلى فعالية الإلغاء إلى حد ما
- الاكتشافات الرئيسية:
- إلغاء المعرفة المكتسبة من الضبط الدقيق: فقدان قدرات MMBench بحوالي 10% كحد أقصى
- إلغاء المعرفة المسبقة: فقدان قدرات MMBench يتجاوز 90%
- انخفاض كبير في دقة Dretain، مما يشير إلى صعوبة الإلغاء الانتقائي
- مع زيادة عدد عمليات الإلغاء، لا ينخفض الأداء على Dunlearn فحسب، بل تتدهور مقاييس التعميم تدريجياً
- بعد 5 عمليات إلغاء، يتم فقدان القدرة على التعميم بالكامل تقريباً
- يشير إلى أن طرق الإلغاء السائدة الحالية لا يمكنها الحفاظ على الاستدامة في إلغاء تعلم LMM
عند تضمين تحديث المعاملات للمصفوفات الإسقاطية ونموذج اللغة:
- دقة المهام متعددة الأنماط: 78.0% → 9.6%
- دقة المهام النصية البحتة: 76.8% → 35.2%
اكتشاف مهم: المهام النصية البحتة تظهر مقاومة أكبر للإلغاء، قد يكون السبب أن الإلغاء "أفسد فقط المحاذاة بين الصورة والمعرفة" بدلاً من إلغاء المعلومات الهدف بحقيقة.
- تحديث نموذج اللغة فقط: انخفاض ملحوظ في أداء MMBench
- تحديث المصفوفات الإسقاطية ونموذج اللغة معاً: انخفاض طفيف في أداء MMBench
- الافتراض: السماح بتحديث المصفوفات الإسقاطية يجعل الإلغاء أسهل من خلال تدمير المحاذاة بين الأنماط
- المعرفة المسبقة أصعب في الإلغاء: قد يكون السبب أن النموذج تعلم العلاقات بين الفرد الهدف والكيانات الأخرى أثناء التدريب المسبق
- الإلغاء المتتالي يؤدي إلى إلغاء كارثي: تحديثات الإلغاء المتكررة تحدث معاملات حاسمة أيضاً للمهام المراد الاحتفاظ بها
- عدم التناسق بين الأنماط: قد تفشل الطرق الحالية في ضمان تأثير إلغاء متسق عبر الأنماط
- متغيرات صعود التدرج: GA وGA مع التنظيم و NPO وغيرها تظهر فعالية معينة في LLMs و LMMs
- طرق خاصة بـ LMM: SIU مقتصرة على المهام متعددة الأنماط، غير مناسبة لتقييم المهام النصية البحتة
- معايير LLMs: MUSE و TOFU وغيرها توفر أطر تقييم شاملة
- معايير LMMs: MLLMU-Bench توفر تقييماً أساسياً لكن غير شامل
- مساهمة هذه الورقة: أول توفير لتقييم إلغاء المعرفة المسبقة والاستدامة في LMMs
- تؤدي طرق الإلغاء الحالية أداءً ضعيفاً عند التعامل مع المعرفة المسبقة، مما يسبب انخفاضاً حاداً في قدرة التعميم
- عمليات الإلغاء المتتالية تؤدي إلى تدهور تدريجي في الأداء، والطرق الحالية غير مناسبة للنشر العملي
- توجد عدم اتساق في تأثير الإلغاء بين المهام متعددة الأنماط والمهام النصية البحتة
- حجم مجموعة البيانات: مجموعات البيانات المستخدمة في التجارب نسبياً صغيرة، قد لا تعكس بالكامل سيناريوهات التطبيق على نطاق واسع
- تغطية الطرق: تم تقييم ثلاث طرق إلغاء سائدة فقط، لم تغطِ جميع التقنيات الموجودة
- مقاييس التقييم: قد تكون هناك حاجة لمقاييس تقييم أكثر دقة لقياس تأثير الإلغاء بشكل شامل
- تطوير طرق إلغاء متخصصة للمعرفة المسبقة
- تصميم تقنيات إلغاء قادرة على الحفاظ على الاستدامة طويلة الأجل
- البحث عن طرق لضمان إلغاء متسق عبر الأنماط
- استكشاف استراتيجيات تحديث معاملات أكثر دقة
- تحديد المشكلة دقيق: تحديد دقيق للعيوب الرئيسية في تقييم إلغاء التعلم الحالي في LMMs
- إطار تقييم شامل: يملأ بروتوكول PULSE فجوات تقييم مهمة
- تصميم تجريبي معقول: إعداد التجارب قريب من سيناريوهات التطبيق الواقعية
- اكتشافات ذات رؤية: كشف المشاكل المهمة في إلغاء المعرفة المسبقة والاستدامة
- كتابة واضحة: هيكل الورقة واضح، الوصف التقني دقيق
- ابتكار الطريقة محدود: المساهمة الرئيسية في بروتوكول التقييم بدلاً من طرق إلغاء جديدة
- غياب الحلول: تشير إلى المشاكل لكن لا توفر حلولاً فعالة
- تحليل نظري غير كافٍ: التفسير النظري للظواهر المرصودة نسبياً بسيط
- قيود حجم التجارب: محدودة بمجموعات البيانات الموجودة، حجم التجارب نسبياً صغير
- القيمة الأكاديمية: توفير معيار تقييم مهم لبحث إلغاء التعلم في LMMs
- القيمة العملية: المشاكل المكتشفة ذات أهمية توجيهية كبيرة للتطبيق العملي
- دور الدفع: قد تدفع نحو تطوير طرق إلغاء أكثر عملية
- القابلية للتكرار: إعداد التجارب واضح، بناءً على مجموعات بيانات عامة، قابلية جيدة للتكرار
- تقييم البحث: توفير بروتوكول معياري لتقييم طرق إلغاء LMM
- تطوير الطرق: توفير معيار تقييم لتصميم طرق إلغاء جديدة
- النشر العملي: توفير توقعات الأداء لاحتياجات الإلغاء في التطبيقات الفعلية
- صنع السياسات: توفير مراجع تقنية لسياسات حماية الخصوصية ذات الصلة
تستشهد الورقة بعدة أعمال مهمة ذات صلة، بما في ذلك:
- معايير إلغاء التعلم في LLMs مثل MUSE و TOFU
- معايير إلغاء التعلم في LMMs مثل MLLMU-Bench
- نماذج متعددة الأنماط مثل LLaVA
- طرق الضبط الدقيق الفعالة للمعاملات مثل LoRA
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال التقييم، وعلى الرغم من أن الابتكار في الطريقة نسبياً محدود، إلا أنها قدمت مساهمات مهمة في تحديد المشاكل وبناء إطار التقييم. المشاكل المكتشفة في الورقة المتعلقة بصعوبة إلغاء المعرفة المسبقة ومشاكل الاستدامة ذات أهمية توجيهية كبيرة لتطور المجال، وتشير إلى اتجاهات بحثية رئيسية للمستقبل.