Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Ham, Choi, Yang et al.
Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.
academic
নিরাপত্তা-সংযুক্ত ওজন যথেষ্ট নয়: প্রত্যাখ্যান-শিক্ষক-নির্দেশিত সূক্ষ্ম সমন্বয় ক্ষতিকর সূক্ষ্ম সমন্বয় আক্রমণের অধীনে নিরাপত্তা এবং ডাউনস্ট্রিম কর্মক্ষমতা বৃদ্ধি করে
শিরোনাম: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
লেখক: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (কোরিয়া উন্নত বিজ্ঞান ও প্রযুক্তি প্রতিষ্ঠান)
শ্রেণীবিভাগ: cs.CL (গণনা এবং ভাষা)
প্রকাশনার সময়: ২০২৫ সালের অক্টোবর ১১ (arXiv প্রি-প্রিন্ট)
Google এবং OpenAI-এর মতো প্রধান AI প্রদানকারীরা সেবা হিসাবে সূক্ষ্ম সমন্বয় (FaaS) চালু করার সাথে সাথে, ব্যবহারকারীরা তাদের নিজস্ব ডেটা দিয়ে বড় ভাষা মডেল (LLM) কাস্টমাইজ করতে পারেন। তবে যখন ব্যবহারকারীর ডেটায় ক্ষতিকর প্রম্পট থাকে, তখন এই সেবা নিরাপত্তা অবক্ষয়ের জন্য সংবেদনশীল হয়, এই হুমকিকে ক্ষতিকর সূক্ষ্ম সমন্বয় আক্রমণ বলা হয়। বিদ্যমান পদ্ধতিগুলি প্রথমে একটি নিরাপত্তা-সংযুক্ত মডেল তৈরি করে এবং তারপর ব্যবহারকারীর ডেটায় সূক্ষ্ম সমন্বয় করে এই সমস্যাটি হ্রাস করার চেষ্টা করে। তবে এই পেপারটি দেখায় যে নিরাপত্তা-সংযুক্ত ওজন ডাউনস্ট্রিম কাজের শিক্ষার জন্য দুর্বল আরম্ভীকরণ প্রদান করে, যার ফলে সাবঅপটিমাল নিরাপত্তা-সংযুক্তি এবং ডাউনস্ট্রিম কাজের কর্মক্ষমতা হয়। এই সমস্যা সমাধানের জন্য, লেখকরা প্রত্যাখ্যান-শিক্ষক (Ref-Teacher) নির্দেশিত সূক্ষ্ম সমন্বয় কাঠামো প্রস্তাব করেছেন, যা নিরাপত্তা-সংযুক্ত Ref-Teacher-এর নির্দেশনায় ভিত্তি মডেলকে সরাসরি সূক্ষ্ম সমন্বয় করে, ব্যবহারকারীর ডেটায় ক্ষতিকর প্রম্পটগুলি ফিল্টার করে এবং নিরাপত্তা-সংযুক্ত জ্ঞানকে ভিত্তি মডেলে পাতন করে নিরাপত্তা এবং কর্মক্ষমতা উভয়ের উন্নতি অর্জন করে।
ক্ষতিকর সূক্ষ্ম সমন্বয় আক্রমণ: যখন ব্যবহারকারী FaaS-এ ক্ষতিকর বিষয়বস্তু সহ ডেটা আপলোড করে সূক্ষ্ম সমন্বয়ের জন্য, এটি মডেলের নিরাপত্তা-সংযুক্তি ধ্বংস করে, মডেলকে ক্ষতিকর বিষয়বস্তু তৈরি করতে সক্ষম করে।
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
ঐতিহ্যবাহী দুই-পর্যায়ের পাইপলাইন (প্রথমে নিরাপত্তা-সংযুক্তি, তারপর সূক্ষ্ম সমন্বয়) মৌলিক ত্রুটি রয়েছে
নিরাপত্তা-সংযুক্ত মডেল ডাউনস্ট্রিম কাজের শিক্ষার জন্য দুর্বল ওজন আরম্ভীকরণ প্রদান করে
সীমিত কাজের কর্মক্ষমতা এবং ক্ষতিগ্রস্ত নিরাপত্তার দিকে পরিচালিত করে
গবেষণা প্রেরণা:
ভিত্তি মডেলে সরাসরি ব্যবহারকারীর ডেটা এবং নিরাপত্তা-সংযুক্ত ডেটা উভয়ের সূক্ষ্ম সমন্বয় ভাল কর্মক্ষমতা অর্জন করতে পারে
তবে এই পদ্ধতি গ্রেডিয়েন্ট দ্বন্দ্ব তৈরি করে, বিশেষত যখন ব্যবহারকারীর ডেটায় ক্ষতিকর প্রম্পট থাকে তখন এটি তীব্র হয়
গ্রেডিয়েন্ট দ্বন্দ্ব হ্রাস করার সময় নিরাপত্তা এবং কাজের কর্মক্ষমতা উভয় বজায় রাখার জন্য একটি নতুন কাঠামো প্রয়োজন
নিরাপত্তা-সংযুক্ত মডেলের মৌলিক সীমাবদ্ধতা আবিষ্কার: প্রমাণ করে যে নিরাপত্তা-সংযুক্ত LLM ডাউনস্ট্রিম শিক্ষার জন্য দুর্বল আরম্ভীকরণ প্রদান করে, যার ফলে সাবঅপটিমাল কাজের কর্মক্ষমতা এবং নিরাপত্তা আপস হয়।
Ref-Teacher নির্দেশিত সূক্ষ্ম সমন্বয় কাঠামো প্রস্তাব: সংযুক্তি পাতন এবং ডেটা ফিল্টারিং দুটি প্রক্রিয়ার মাধ্যমে গ্রেডিয়েন্ট দ্বন্দ্ব হ্রাস করে, নিরাপত্তা এবং কাজের কর্মক্ষমতা উভয়ের উন্নতি অর্জন করে।
ব্যাপক পরীক্ষামূলক যাচাইকরণ: বিভিন্ন সেটিংসে (বিভিন্ন ক্ষতিকর প্রম্পট অনুপাত, ডেটা স্কেল, ডেটাসেট প্রকার, মডেল আর্কিটেকচার) পদ্ধতির কার্যকারিতা এবং শক্তিশালীতা প্রমাণ করে।
ব্যবহারিক FaaS সমাধান: নিরাপদ এবং নির্ভরযোগ্য LLM স্থাপনার জন্য ব্যবহারিক সমাধান প্রদান করে।
প্রত্যাখ্যান বৈশিষ্ট্য বৃদ্ধি: নিয়মিতকরণ পদ প্রয়োগ করে প্রত্যাখ্যান বৈশিষ্ট্যের বৈষম্যমূলক ক্ষমতা শক্তিশালী করা, ক্ষতিকর প্রম্পট বৈশিষ্ট্যকে প্রত্যাখ্যান বৈশিষ্ট্যের সাথে কোসাইন সাদৃশ্য ১-এর কাছাকাছি এবং অক্ষতিকর প্রম্পটকে -১-এর কাছাকাছি করে তোলে।
গতিশীল প্রত্যাখ্যান বৈশিষ্ট্য আপডেট: প্রশিক্ষণ প্রক্রিয়ার সময় নিয়মিত প্রত্যাখ্যান বৈশিষ্ট্য আপডেট করা, পূর্ব-সংযুক্ত মডেলের প্রয়োজন এড়ানো।
দ্বৈত প্রক্রিয়া সহযোগিতা: সংযুক্তি পাতন মসৃণ ক্ষতি পৃষ্ঠ প্রদান করে, ডেটা ফিল্টারিং ক্ষতিকর ডেটা সরায়, উভয়ে গ্রেডিয়েন্ট দ্বন্দ্ব হ্রাস করতে সহযোগিতা করে।
সংযুক্তি পর্যায় সমাধান: নিয়মিতকরণ কৌশলের মাধ্যমে শক্তিশালী নিরাপত্তা-সংযুক্ত ওজন অর্জন
সূক্ষ্ম সমন্বয় পর্যায় সমাধান: মূল পরামিতি হিমায়ন বা নিরাপত্তা নিয়মিতকরণ যোগ করা
পরবর্তী সূক্ষ্ম সমন্বয় পর্যায় সমাধান: পার্থক্য বিশ্লেষণ এবং নিরাপত্তা অবক্ষয় ক্ষতিপূরণের জন্য মডেল ওজন সম্পাদনা
এই পেপারটি বিদ্যমান কাজ থেকে প্রধান পার্থক্য হল নিরাপত্তা-সংযুক্ত মডেলের পরিবর্তে ভিত্তি মডেল সরাসরি সূক্ষ্ম সমন্বয় করা, শিক্ষক নির্দেশনার মাধ্যমে গ্রেডিয়েন্ট দ্বন্দ্ব হ্রাস করা।
এই পেপারটি LLM নিরাপত্তা, ক্ষতিকর সূক্ষ্ম সমন্বয় আক্রমণ, জ্ঞান পাতন ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, সম্পর্কিত গবেষণার জন্য ব্যাপক সাহিত্য ভিত্তি প্রদান করে। বিশেষভাবে মনোযোগের যোগ্য প্রত্যাখ্যান বৈশিষ্ট্য সম্পর্কিত গবেষণা (Arditi et al. 2024) এবং বিদ্যমান ক্ষতিকর সূক্ষ্ম সমন্বয় প্রতিরক্ষা পদ্ধতি (Huang et al. 2024 সিরিজ, Rosati et al. 2024 ইত্যাদি)।