In recent years, unlearning techniques, which are methods for inducing a model to "forget" previously learned information, have attracted attention as a way to address privacy and copyright concerns in large language models (LLMs) and large multimodal models (LMMs). While several unlearning benchmarks have been established for LLMs, a practical evaluation framework for unlearning in LMMs has been less explored. Specifically, existing unlearning benchmark for LMMs considers only scenarios in which the model is required to unlearn fine-tuned knowledge through a single unlearning operation. In this study, we introduce PULSE protocol for realistic unlearning scenarios for LMMs by introducing two critical perspectives: (i) Pre-trained knowledge Unlearning for analyzing the effect across different knowledge acquisition phases and (ii) Long-term Sustainability Evaluation to address sequential requests. We then evaluate existing unlearning methods along these dimensions. Our results reveal that, although some techniques can successfully unlearn knowledge acquired through fine-tuning, they struggle to eliminate information learned during pre-training. Moreover, methods that effectively unlearn a batch of target data in a single operation exhibit substantial performance degradation when the same data are split and unlearned sequentially.
- পেপার আইডি: 2507.01271
- শিরোনাম: PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning
- লেখক: Tatsuki Kawakami, Kazuki Egashira, Atsuyuki Miyai, Go Irie, Kiyoharu Aizawa (টোকিও বিশ্ববিদ্যালয়)
- শ্রেণীবিভাগ: cs.LG cs.AI
- প্রকাশনার সময়/সম্মেলন: ৩৯তম নিউরাল ইনফরমেশন প্রসেসিং সিস্টেম সম্মেলন (NeurIPS 2025) কর্মশালা
- পেপার লিঙ্ক: https://arxiv.org/abs/2507.01271
সাম্প্রতিক বছরগুলিতে, মেশিন আনলার্নিং প্রযুক্তি বৃহৎ ভাষা মডেল (LLMs) এবং বৃহৎ মাল্টিমোডাল মডেল (LMMs) এ গোপনীয়তা এবং কপিরাইট সমস্যা সমাধানের পদ্ধতি হিসাবে মনোযোগ আকর্ষণ করেছে। যদিও LLMs এর জন্য একাধিক আনলার্নিং বেঞ্চমার্ক প্রতিষ্ঠিত হয়েছে, LMMs এর জন্য ব্যবহারিক আনলার্নিং মূল্যায়ন কাঠামো অন্বেষণ কম করা হয়েছে। বিদ্যমান LMMs আনলার্নিং বেঞ্চমার্ক শুধুমাত্র একক আনলার্নিং অপারেশনের মাধ্যমে সূক্ষ্ম-সুর করা জ্ঞান ভুলে যাওয়ার পরিস্থিতি বিবেচনা করে। এই গবেষণা দুটি মূল দৃষ্টিভঙ্গি প্রবর্তন করে PULSE প্রোটোকল উপস্থাপন করে: (i) প্রাক-প্রশিক্ষণ জ্ঞান আনলার্নিং, বিভিন্ন জ্ঞান অধিগ্রহণ পর্যায়ের প্রভাব বিশ্লেষণের জন্য; (ii) দীর্ঘমেয়াদী স্থায়িত্ব মূল্যায়ন, ক্রমাগত অনুরোধ মোকাবেলা করার জন্য। গবেষণার ফলাফল দেখায় যে, যদিও কিছু কৌশল সূক্ষ্ম-সুর করার মাধ্যমে অর্জিত জ্ঞান সফলভাবে ভুলে যেতে পারে, প্রাক-প্রশিক্ষণের সময় শেখা তথ্য দূর করার ক্ষেত্রে অসুবিধা রয়েছে। অধিকন্তু, একক অপারেশনে ব্যাচ লক্ষ্য ডেটা কার্যকরভাবে ভুলে যাওয়ার পদ্ধতি, ডেটা ব্যাচ ক্রমাগত আনলার্নিং করার সময় উল্লেখযোগ্য কর্মক্ষমতা হ্রাস প্রদর্শন করে।
বৃহৎ মাল্টিমোডাল মডেলগুলি বিভিন্ন কাজে বিশাল সাফল্য অর্জন করার সাথে সাথে, তাদের প্রশিক্ষণ ডেটা ব্যক্তিগত তথ্য এবং কপিরাইটযুক্ত সামগ্রী অন্তর্ভুক্ত করতে পারে, যা গোপনীয়তা এবং বৌদ্ধিক সম্পত্তি লঙ্ঘনের উদ্বেগ উত্থাপন করে। মেশিন আনলার্নিং প্রযুক্তি মডেলকে পূর্বে শেখা তথ্য "ভুলে যেতে" দেওয়ার লক্ষ্য রাখে, অন্যান্য কাজে কর্মক্ষমতা বজায় রেখে।
- গোপনীয়তা সুরক্ষার প্রয়োজনীয়তা: ডেটা গোপনীয়তা নিয়মের শক্তিশালীকরণের সাথে, প্রশিক্ষিত মডেল থেকে নির্দিষ্ট ব্যক্তিগত তথ্য মুছে ফেলতে সক্ষম প্রযুক্তির প্রয়োজন
- কপিরাইট সুরক্ষা: প্রশিক্ষণ ডেটায় থাকতে পারে এমন কপিরাইটযুক্ত সামগ্রী পরিচালনা করার প্রয়োজন
- ব্যবহারিক প্রয়োগের প্রয়োজনীয়তা: বাস্তব পরিস্থিতিতে ক্রমাগত একাধিক আনলার্নিং অপারেশনের প্রয়োজন হতে পারে
- মূল্যায়নের সীমিত পরিসর: বিদ্যমান LMMs আনলার্নিং বেঞ্চমার্ক (যেমন MLLMU-Bench) শুধুমাত্র সূক্ষ্ম-সুর করা জ্ঞান আনলার্নিং বিবেচনা করে
- একক অপারেশন অনুমান: শুধুমাত্র একক আনলার্নিং অপারেশন মূল্যায়ন করে, ক্রমাগত আনলার্নিং অনুরোধের পরিস্থিতি উপেক্ষা করে
- প্রাক-প্রশিক্ষণ জ্ঞান মূল্যায়নের অভাব: প্রাক-প্রশিক্ষণ পর্যায়ে অর্জিত জ্ঞান বিবেচনা করে না
এই পত্রটি আরও ব্যবহারিক এবং ব্যাপক LMMs আনলার্নিং মূল্যায়ন কাঠামো প্রতিষ্ঠা করার লক্ষ্য রাখে, প্রাক-প্রশিক্ষণ জ্ঞান আনলার্নিং এবং স্থায়িত্বের ক্ষেত্রে বিদ্যমান মূল্যায়ন পদ্ধতির ফাঁক পূরণ করে।
- PULSE প্রোটোকল প্রস্তাব: LMMs এ (i) প্রাক-প্রশিক্ষণ জ্ঞান আনলার্নিং এবং (ii) দীর্ঘমেয়াদী স্থায়িত্ব মূল্যায়ন মূল্যায়নের জন্য নতুন প্রোটোকল ডিজাইন করা
- প্রাক-প্রশিক্ষণ জ্ঞান আনলার্নিং কঠিনতা প্রকাশ: PULSE প্রোটোকলের মাধ্যমে আবিষ্কার করা যে বিদ্যমান আনলার্নিং কৌশল প্রাক-প্রশিক্ষণের সময় অর্জিত জ্ঞানের বিরুদ্ধে কার্যকর নয়
- স্থায়িত্ব সমস্যা আবিষ্কার: প্রমাণ করা যে বর্তমান পদ্ধতি একাধিক ক্রমাগত আনলার্নিং অনুরোধের মুখোমুখি হলে উল্লেখযোগ্যভাবে কর্মক্ষমতা হ্রাস করে
- ব্যবহারিক মূল্যায়ন ভিত্তি প্রদান: LMMs আনলার্নিং প্রযুক্তির ভবিষ্যত ডিজাইনের জন্য গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রদান করা
Dunlearn ভুলে যাওয়ার প্রয়োজনীয় ডেটা এবং Dretain বজায় রাখার প্রয়োজনীয় ডেটা প্রতিনিধিত্ব করে। আনলার্নিং পদ্ধতির মূল্যায়ন দুটি দিক অন্তর্ভুক্ত করে:
- কার্যকারিতা (Effectiveness): লক্ষ্য Dunlearn এ আনলার্নিং কর্মক্ষমতা
- সাধারণীকরণ (Generality): অপ্রাসঙ্গিক ডেটা Dretain এ নির্ভুলতা বজায় রাখা
- মান অনুশীলন অনুসরণ করে, সূক্ষ্ম-সুর করা জ্ঞানের একটি উপসেট Dunlearn হিসাবে নির্বাচন করা
- মডেল একক অপারেশনে এই উপসেট ভুলে যায়
- আনলার্নিং প্রভাব এবং সাধারণীকরণ কর্মক্ষমতা বজায় রাখার মূল্যায়ন করা
- প্রাক-প্রশিক্ষণের সময় অর্জিত জ্ঞান Dunlearn হিসাবে ব্যবহার করা
- মডেল প্রকৃত আচরণের উপর ভিত্তি করে মডেল "জানে" এমন ব্যক্তিদের চিহ্নিত করা
- প্রাক-প্রশিক্ষণ ডেটা থেকে সরাসরি নমুনা করার চেয়ে আরও ব্যবহারিক, প্রাক-প্রশিক্ষণ কর্পাস সম্পূর্ণভাবে প্রকাশ না করা পরিস্থিতিতে প্রযোজ্য
- Dunlearn কে একাধিক উপসেটে বিভক্ত করা
- এই উপসেটগুলিতে ক্রমাগত আনলার্নিং অপারেশন সম্পাদন করা
- প্রতিটি অপারেশনের পরে মডেলের সাধারণীকরণ এবং কার্যকারিতা পরিবর্তন ট্র্যাক করা
- বহুমাত্রিক মূল্যায়ন কাঠামো: LMMs এ জ্ঞান উৎস ধরন এবং অপারেশন স্থায়িত্ব একসাথে বিবেচনা করা প্রথমবার
- ব্যবহারিকতা-ভিত্তিক ডিজাইন: বাস্তব প্রয়োগ পরিস্থিতির উপর ভিত্তি করে মূল্যায়ন প্রোটোকল ডিজাইন করা
- ক্রস-মোডাল সামঞ্জস্য প্রয়োজনীয়তা: মডেল মাল্টিমোডাল এবং বিশুদ্ধ পাঠ্য কাজ উভয়েই লক্ষ্য তথ্য প্রকাশ না করার প্রয়োজন
MLLMU-Bench দ্বারা প্রকাশিত ডেটাসেট ব্যবহার করা:
- প্রতিটি ব্যক্তিতে 1টি মুখের ছবি এবং 10টি প্রশ্নোত্তর জোড়া রয়েছে
- 5টি মাল্টিমোডাল কাজ, 5টি বিশুদ্ধ পাঠ্য কাজ
- প্রশ্নগুলি ব্যক্তিগত বিবরণ জড়িত (যেমন পেশা, বাসস্থান)
পরীক্ষামূলক কনফিগারেশন:
- সূক্ষ্ম-সুর করা জ্ঞান আনলার্নিং: 100টি কল্পিত ব্যক্তি, 50টি Dunlearn এর জন্য, 50টি Dretain এর জন্য
- প্রাক-প্রশিক্ষণ জ্ঞান আনলার্নিং: 153টি বাস্তব সেলিব্রিটি থেকে 45টি উচ্চ নির্ভুলতা ব্যক্তি নির্বাচন করা, 20টি Dunlearn এর জন্য, 25টি Dretain এর জন্য
- স্থায়িত্ব মূল্যায়ন: 50টি ব্যক্তি 5টি উপসেটে বিভক্ত, 5টি ক্রমাগত আনলার্নিং অপারেশন সম্পাদন করা
- কার্যকারিতা মেট্রিক্স: Dunlearn এ নির্ভুলতা (যত কম ভাল)
- সাধারণীকরণ মেট্রিক্স:
- Dretain এ নির্ভুলতা (যত বেশি ভাল)
- MMBench স্কোর (মাল্টিমোডাল ক্ষমতা মূল্যায়ন)
- গ্রেডিয়েন্ট অ্যাসেন্ট (GA): Dunlearn কে আনলার্নিং ডেটা হিসাবে ব্যবহার করা, পরামিতি আপডেট দিক মান গ্রেডিয়েন্ট ডিসেন্টের বিপরীত
- KL নিয়মিতকরণ সহ GA (GA+KLR): KL বিচ্যুতি শাস্তি শব্দ যোগ করা, আপডেট মডেল মূল মডেলের কাছাকাছি রাখা
- নেতিবাচক পছন্দ অপ্টিমাইজেশন (NPO): আনলার্নিং ডেটা নেতিবাচক উদাহরণ হিসাবে পছন্দ সুর করা পদ্ধতি
- ভিত্তি মডেল: LLaVA-v1.5-13B
- সূক্ষ্ম-সুর করার পদ্ধতি: LoRA (Low-Rank Adaptation)
- পরামিতি আপডেট: সূক্ষ্ম-সুর করা এবং আনলার্নিং প্রক্রিয়া উভয়েই LoRA ব্যবহার করা
- সমস্ত পদ্ধতি Dunlearn এ নির্ভুলতা হ্রাস দেখায়, যা নির্দেশ করে যে আনলার্নিং একটি নির্দিষ্ট পরিমাণে কার্যকর
- মূল আবিষ্কার:
- সূক্ষ্ম-সুর করা জ্ঞান আনলার্নিং: MMBench ক্ষমতা সর্বাধিক ~10% হ্রাস
- প্রাক-প্রশিক্ষণ জ্ঞান আনলার্নিং: MMBench ক্ষমতা 90% এর বেশি হ্রাস
- Dretain নির্ভুলতাও উল্লেখযোগ্যভাবে হ্রাস পায়, নির্বাচনী আনলার্নিং কঠিন নির্দেশ করে
- আনলার্নিং অপারেশনের সংখ্যা বৃদ্ধির সাথে, শুধুমাত্র Dunlearn কর্মক্ষমতা নয়, সাধারণীকরণ মেট্রিক্সও ক্রমান্বয়ে খারাপ হয়
- 5টি আনলার্নিং অপারেশনের পরে, সাধারণীকরণ প্রায় সম্পূর্ণভাবে হারিয়ে যায়
- নির্দেশ করে যে বর্তমান প্রধান আনলার্নিং পদ্ধতি LMM আনলার্নিং এ স্থায়িত্ব বজায় রাখতে পারে না
যখন পরামিতি আপডেট প্রজেকশন ম্যাট্রিক্স এবং ভাষা মডেল অন্তর্ভুক্ত করে:
- মাল্টিমোডাল কাজ নির্ভুলতা: 78.0% → 9.6%
- বিশুদ্ধ পাঠ্য কাজ নির্ভুলতা: 76.8% → 35.2%
গুরুত্বপূর্ণ আবিষ্কার: বিশুদ্ধ পাঠ্য কাজ আনলার্নিং এর প্রতি আরও প্রতিরোধী, সম্ভবত শুধুমাত্র "ছবি এবং জ্ঞানের মধ্যে সারিবদ্ধতা ভেঙে দিয়েছে" লক্ষ্য তথ্য সত্যিকারের আনলার্নিং নয়।
- শুধুমাত্র LLM আপডেট করা: MMBench কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস
- প্রজেকশন ম্যাট্রিক্স এবং LLM উভয় আপডেট করা: MMBench কর্মক্ষমতা সামান্য হ্রাস
- অনুমান: প্রজেকশন ম্যাট্রিক্স আপডেট করার অনুমতি মোডাল মধ্যে সারিবদ্ধতা ভেঙে আনলার্নিং সহজ করে
- প্রাক-প্রশিক্ষণ জ্ঞান আনলার্নিং আরও কঠিন: সম্ভবত কারণ প্রাক-প্রশিক্ষণের সময় মডেল লক্ষ্য ব্যক্তি এবং অন্যান্য সত্তার মধ্যে সম্পর্ক শিখেছে
- ক্রমাগত আনলার্নিং বিপর্যয়কর আনলার্নিং সৃষ্টি করে: পুনরাবৃত্ত আনলার্নিং আপডেট করেছে যা সংরক্ষিত কাজের জন্যও গুরুত্বপূর্ণ পরামিতি
- মোডাল মধ্যে অসামঞ্জস্য: বিদ্যমান পদ্ধতি ক্রস-মোডাল সামঞ্জস্যপূর্ণ আনলার্নিং প্রভাব নিশ্চিত করতে পারে না
- গ্রেডিয়েন্ট অ্যাসেন্ট ভেরিয়েন্ট: GA, GA+নিয়মিতকরণ, NPO এবং অন্যান্য পদ্ধতি LLMs এবং LMMs এ নির্দিষ্ট প্রভাব দেখায়
- LMM নির্দিষ্ট পদ্ধতি: SIU শুধুমাত্র মাল্টিমোডাল কাজে সীমাবদ্ধ, বিশুদ্ধ পাঠ্য কাজ মূল্যায়নে প্রযোজ্য নয়
- LLMs বেঞ্চমার্ক: MUSE, TOFU ইত্যাদি ব্যাপক মূল্যায়ন কাঠামো প্রদান করে
- LMMs বেঞ্চমার্ক: MLLMU-Bench মৌলিক কিন্তু অপর্যাপ্ত ব্যাপক মূল্যায়ন প্রদান করে
- এই পত্রের অবদান: প্রথমবার LMMs এ প্রাক-প্রশিক্ষণ জ্ঞান আনলার্নিং এবং স্থায়িত্ব মূল্যায়ন প্রদান করা
- বিদ্যমান আনলার্নিং পদ্ধতি প্রাক-প্রশিক্ষণ জ্ঞান পরিচালনায় দুর্বল, মডেল সাধারণীকরণ গুরুতর হ্রাস করে
- ক্রমাগত আনলার্নিং অপারেশন ক্রমান্বয়ে কর্মক্ষমতা হ্রাস করে, বর্তমান পদ্ধতি ব্যবহারিক স্থাপনার জন্য উপযুক্ত নয়
- মাল্টিমোডাল এবং বিশুদ্ধ পাঠ্য কাজ আনলার্নিং প্রভাবে অসামঞ্জস্য রয়েছে
- ডেটাসেট আকার: পরীক্ষায় ব্যবহৃত ডেটাসেট তুলনামূলকভাবে ছোট, বড় আকারের প্রয়োগ পরিস্থিতি সম্পূর্ণভাবে প্রতিফলিত করতে পারে না
- পদ্ধতি কভারেজ: শুধুমাত্র তিনটি প্রধান আনলার্নিং পদ্ধতি মূল্যায়ন করা, সমস্ত বিদ্যমান প্রযুক্তি অন্তর্ভুক্ত করে না
- মূল্যায়ন মেট্রিক্স: আনলার্নিং প্রভাব সম্পূর্ণভাবে পরিমাপ করার জন্য আরও সূক্ষ্ম-দানাদার মূল্যায়ন মেট্রিক্সের প্রয়োজন হতে পারে
- প্রাক-প্রশিক্ষণ জ্ঞানের জন্য বিশেষভাবে লক্ষ্যবস্তু আনলার্নিং পদ্ধতি বিকাশ করা
- দীর্ঘমেয়াদী স্থায়িত্ব বজায় রাখতে পারে এমন আনলার্নিং প্রযুক্তি ডিজাইন করা
- ক্রস-মোডাল সামঞ্জস্যপূর্ণ আনলার্নিং পদ্ধতি গবেষণা করা
- আরও সূক্ষ্ম পরামিতি আপডেট কৌশল অন্বেষণ করা
- সমস্যা সনাক্তকরণ নির্ভুল: বিদ্যমান LMM আনলার্নিং মূল্যায়নের মূল ত্রুটি নির্ভুলভাবে সনাক্ত করা
- মূল্যায়ন কাঠামো সম্পূর্ণ: PULSE প্রোটোকল গুরুত্বপূর্ণ মূল্যায়ন ফাঁক পূরণ করে
- পরীক্ষামূলক ডিজাইন যুক্তিসঙ্গত: পরীক্ষার সেটআপ বাস্তব প্রয়োগ পরিস্থিতির কাছাকাছি
- আবিষ্কার অন্তর্দৃষ্টিপূর্ণ: প্রাক-প্রশিক্ষণ জ্ঞান আনলার্নিং এবং স্থায়িত্বের গুরুত্বপূর্ণ সমস্যা প্রকাশ করে
- লেখা স্পষ্ট: পত্রের কাঠামো স্পষ্ট, প্রযুক্তিগত বর্ণনা নির্ভুল
- পদ্ধতি উদ্ভাবন সীমিত: প্রধান অবদান মূল্যায়ন প্রোটোকলে, নতুন আনলার্নিং পদ্ধতিতে নয়
- সমাধান অনুপস্থিত: সমস্যা নির্দেশ করে কিন্তু কার্যকর সমাধান প্রদান করে না
- তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: পর্যবেক্ষিত ঘটনার তাত্ত্বিক ব্যাখ্যা তুলনামূলকভাবে সহজ
- পরীক্ষামূলক স্কেল সীমাবদ্ধতা: বিদ্যমান ডেটাসেট দ্বারা সীমাবদ্ধ, পরীক্ষামূলক স্কেল তুলনামূলকভাবে ছোট
- একাডেমিক মূল্য: LMM আনলার্নিং গবেষণার জন্য গুরুত্বপূর্ণ মূল্যায়ন বেঞ্চমার্ক প্রদান করে
- ব্যবহারিক মূল্য: প্রকাশিত সমস্যা ব্যবহারিক প্রয়োগে গুরুত্বপূর্ণ নির্দেশনা মূল্য রাখে
- চালিকা শক্তি: আরও ব্যবহারিক আনলার্নিং পদ্ধতি গবেষণা চালিত করতে পারে
- পুনরুৎপাদনযোগ্যতা: পরীক্ষামূলক সেটআপ স্পষ্ট, জনসাধারণ ডেটাসেটের উপর ভিত্তি করে, ভাল পুনরুৎপাদনযোগ্যতা রয়েছে
- গবেষণা মূল্যায়ন: LMM আনলার্নিং পদ্ধতির মূল্যায়নের জন্য মান প্রোটোকল প্রদান করে
- পদ্ধতি বিকাশ: নতুন আনলার্নিং পদ্ধতির ডিজাইনের জন্য মূল্যায়ন বেঞ্চমার্ক প্রদান করে
- ব্যবহারিক স্থাপনা: ব্যবহারিক প্রয়োগে আনলার্নিং প্রয়োজনের জন্য কর্মক্ষমতা প্রত্যাশা প্রদান করে
- নীতি প্রণয়ন: সম্পর্কিত গোপনীয়তা সুরক্ষা নীতির জন্য প্রযুক্তিগত রেফারেন্স প্রদান করে
পত্রটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
- MUSE, TOFU ইত্যাদি LLM আনলার্নিং বেঞ্চমার্ক
- MLLMU-Bench ইত্যাদি LMM আনলার্নিং বেঞ্চমার্ক
- LLaVA ইত্যাদি মাল্টিমোডাল মডেল
- LoRA ইত্যাদি পরামিতি দক্ষ সূক্ষ্ম-সুর করার পদ্ধতি
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের মূল্যায়ন গবেষণা পত্র, যদিও পদ্ধতি উদ্ভাবনে তুলনামূলকভাবে সীমিত, সমস্যা সনাক্তকরণ এবং মূল্যায়ন কাঠামো প্রতিষ্ঠায় গুরুত্বপূর্ণ অবদান রাখে। পত্রটি প্রকাশ করা প্রাক-প্রশিক্ষণ জ্ঞান আনলার্নিং কঠিনতা এবং স্থায়িত্ব সমস্যা এই ক্ষেত্রের বিকাশে গুরুত্বপূর্ণ নির্দেশনা মূল্য রাখে, ভবিষ্যত গবেষণার জন্য মূল দিকনির্দেশনা নির্দেশ করে।