2025-11-11T09:37:09.241544

Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks

Ham, Choi, Yang et al.

Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.

academic

নিরাপত্তা-সংযুক্ত ওজন যথেষ্ট নয়: প্রত্যাখ্যান-শিক্ষক-নির্দেশিত সূক্ষ্ম সমন্বয় ক্ষতিকর সূক্ষ্ম সমন্বয় আক্রমণের অধীনে নিরাপত্তা এবং ডাউনস্ট্রিম কর্মক্ষমতা বৃদ্ধি করে

মৌলিক তথ্য

পেপার আইডি: 2506.07356
শিরোনাম: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
লেখক: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (কোরিয়া উন্নত বিজ্ঞান ও প্রযুক্তি প্রতিষ্ঠান)
শ্রেণীবিভাগ: cs.CL (গণনা এবং ভাষা)
প্রকাশনার সময়: ২০২৫ সালের অক্টোবর ১১ (arXiv প্রি-প্রিন্ট)
পেপার লিংক: https://arxiv.org/abs/2506.07356

সারসংক্ষেপ

Google এবং OpenAI-এর মতো প্রধান AI প্রদানকারীরা সেবা হিসাবে সূক্ষ্ম সমন্বয় (FaaS) চালু করার সাথে সাথে, ব্যবহারকারীরা তাদের নিজস্ব ডেটা দিয়ে বড় ভাষা মডেল (LLM) কাস্টমাইজ করতে পারেন। তবে যখন ব্যবহারকারীর ডেটায় ক্ষতিকর প্রম্পট থাকে, তখন এই সেবা নিরাপত্তা অবক্ষয়ের জন্য সংবেদনশীল হয়, এই হুমকিকে ক্ষতিকর সূক্ষ্ম সমন্বয় আক্রমণ বলা হয়। বিদ্যমান পদ্ধতিগুলি প্রথমে একটি নিরাপত্তা-সংযুক্ত মডেল তৈরি করে এবং তারপর ব্যবহারকারীর ডেটায় সূক্ষ্ম সমন্বয় করে এই সমস্যাটি হ্রাস করার চেষ্টা করে। তবে এই পেপারটি দেখায় যে নিরাপত্তা-সংযুক্ত ওজন ডাউনস্ট্রিম কাজের শিক্ষার জন্য দুর্বল আরম্ভীকরণ প্রদান করে, যার ফলে সাবঅপটিমাল নিরাপত্তা-সংযুক্তি এবং ডাউনস্ট্রিম কাজের কর্মক্ষমতা হয়। এই সমস্যা সমাধানের জন্য, লেখকরা প্রত্যাখ্যান-শিক্ষক (Ref-Teacher) নির্দেশিত সূক্ষ্ম সমন্বয় কাঠামো প্রস্তাব করেছেন, যা নিরাপত্তা-সংযুক্ত Ref-Teacher-এর নির্দেশনায় ভিত্তি মডেলকে সরাসরি সূক্ষ্ম সমন্বয় করে, ব্যবহারকারীর ডেটায় ক্ষতিকর প্রম্পটগুলি ফিল্টার করে এবং নিরাপত্তা-সংযুক্ত জ্ঞানকে ভিত্তি মডেলে পাতন করে নিরাপত্তা এবং কর্মক্ষমতা উভয়ের উন্নতি অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

ক্ষতিকর সূক্ষ্ম সমন্বয় আক্রমণ: যখন ব্যবহারকারী FaaS-এ ক্ষতিকর বিষয়বস্তু সহ ডেটা আপলোড করে সূক্ষ্ম সমন্বয়ের জন্য, এটি মডেলের নিরাপত্তা-সংযুক্তি ধ্বংস করে, মডেলকে ক্ষতিকর বিষয়বস্তু তৈরি করতে সক্ষম করে।
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
- ঐতিহ্যবাহী দুই-পর্যায়ের পাইপলাইন (প্রথমে নিরাপত্তা-সংযুক্তি, তারপর সূক্ষ্ম সমন্বয়) মৌলিক ত্রুটি রয়েছে
- নিরাপত্তা-সংযুক্ত মডেল ডাউনস্ট্রিম কাজের শিক্ষার জন্য দুর্বল ওজন আরম্ভীকরণ প্রদান করে
- সীমিত কাজের কর্মক্ষমতা এবং ক্ষতিগ্রস্ত নিরাপত্তার দিকে পরিচালিত করে
গবেষণা প্রেরণা:
- ভিত্তি মডেলে সরাসরি ব্যবহারকারীর ডেটা এবং নিরাপত্তা-সংযুক্ত ডেটা উভয়ের সূক্ষ্ম সমন্বয় ভাল কর্মক্ষমতা অর্জন করতে পারে
- তবে এই পদ্ধতি গ্রেডিয়েন্ট দ্বন্দ্ব তৈরি করে, বিশেষত যখন ব্যবহারকারীর ডেটায় ক্ষতিকর প্রম্পট থাকে তখন এটি তীব্র হয়
- গ্রেডিয়েন্ট দ্বন্দ্ব হ্রাস করার সময় নিরাপত্তা এবং কাজের কর্মক্ষমতা উভয় বজায় রাখার জন্য একটি নতুন কাঠামো প্রয়োজন

মূল অবদান

নিরাপত্তা-সংযুক্ত মডেলের মৌলিক সীমাবদ্ধতা আবিষ্কার: প্রমাণ করে যে নিরাপত্তা-সংযুক্ত LLM ডাউনস্ট্রিম শিক্ষার জন্য দুর্বল আরম্ভীকরণ প্রদান করে, যার ফলে সাবঅপটিমাল কাজের কর্মক্ষমতা এবং নিরাপত্তা আপস হয়।
Ref-Teacher নির্দেশিত সূক্ষ্ম সমন্বয় কাঠামো প্রস্তাব: সংযুক্তি পাতন এবং ডেটা ফিল্টারিং দুটি প্রক্রিয়ার মাধ্যমে গ্রেডিয়েন্ট দ্বন্দ্ব হ্রাস করে, নিরাপত্তা এবং কাজের কর্মক্ষমতা উভয়ের উন্নতি অর্জন করে।
ব্যাপক পরীক্ষামূলক যাচাইকরণ: বিভিন্ন সেটিংসে (বিভিন্ন ক্ষতিকর প্রম্পট অনুপাত, ডেটা স্কেল, ডেটাসেট প্রকার, মডেল আর্কিটেকচার) পদ্ধতির কার্যকারিতা এবং শক্তিশালীতা প্রমাণ করে।
ব্যবহারিক FaaS সমাধান: নিরাপদ এবং নির্ভরযোগ্য LLM স্থাপনার জন্য ব্যবহারিক সমাধান প্রদান করে।

পদ্ধতি বিস্তারিত

কাজ সংজ্ঞা

ইনপুট: ভিত্তি LLM, ব্যবহারকারীর ডেটা (সম্ভাব্যত ক্ষতিকর প্রম্পট সহ), নিরাপত্তা-সংযুক্ত ডেটা আউটপুট: নিরাপত্তা-সংযুক্তি বজায় রেখে ব্যবহারকারী-নির্দিষ্ট কাজে ভাল পারফরম্যান্স করা কাস্টমাইজড মডেল সীমাবদ্ধতা: ক্ষতিকর সূক্ষ্ম সমন্বয় আক্রমণের অধীনে শক্তিশালীতা বজায় রাখা

মডেল আর্কিটেকচার

১. শিক্ষক প্রস্তুতি পর্যায়

Ref-Teacher মডেল প্রশিক্ষণ করুন যা সক্ষম হতে পারে:

সংযুক্তি পাতনের জন্য নরম প্রত্যাখ্যান লেবেল তৈরি করা
প্রত্যাখ্যান বৈশিষ্ট্য ব্যবহার করে কার্যকরভাবে ক্ষতিকর এবং অক্ষতিকর প্রম্পট পার্থক্য করা

প্রত্যাখ্যান বৈশিষ্ট্য সংজ্ঞা:

R^l = (1/N_us) ∑(i=1 to N_us) f^l(x_us_i) - (1/N_s) ∑(i=1 to N_s) f^l(x_s_i)

প্রশিক্ষণ উদ্দেশ্য:

L_teacher = (1/N) ∑(i=1 to N) [ℓ(x_s_i, y_s_i) + ℓ(x_us_i, y_r_i) + λ{||1 + CS(f^l(x_s_i), R^l)||_2 + ||1 - CS(f^l(x_us_i), R^l)||_2}]

২. সূক্ষ্ম সমন্বয় পর্যায়

Ref-Teacher দুটি পরিপূরক প্রক্রিয়ার মাধ্যমে ভিত্তি মডেলকে নির্দেশনা দেয়:

ডেটা ফিল্টারিং:

ω_i = {0, if CS(R^l, f^l(x_i)) > τ
       1, otherwise}

সংযুক্তি পাতন: KL বিচ্যুতি ক্ষতি ব্যবহার করে Ref-Teacher-এর নরম লেবেল জ্ঞান শিক্ষার্থী মডেলে স্থানান্তর করা

সামগ্রিক উদ্দেশ্য ফাংশন:

L_ft = (1/N_user) ∑(i=1 to N_user) ω_i * ℓ(x_i, y_i) + αT^2 * (1/N_align) ∑(i=1 to N_align) KL(p_Tt,i || p_Ts,i)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

প্রত্যাখ্যান বৈশিষ্ট্য বৃদ্ধি: নিয়মিতকরণ পদ প্রয়োগ করে প্রত্যাখ্যান বৈশিষ্ট্যের বৈষম্যমূলক ক্ষমতা শক্তিশালী করা, ক্ষতিকর প্রম্পট বৈশিষ্ট্যকে প্রত্যাখ্যান বৈশিষ্ট্যের সাথে কোসাইন সাদৃশ্য ১-এর কাছাকাছি এবং অক্ষতিকর প্রম্পটকে -১-এর কাছাকাছি করে তোলে।
গতিশীল প্রত্যাখ্যান বৈশিষ্ট্য আপডেট: প্রশিক্ষণ প্রক্রিয়ার সময় নিয়মিত প্রত্যাখ্যান বৈশিষ্ট্য আপডেট করা, পূর্ব-সংযুক্ত মডেলের প্রয়োজন এড়ানো।
দ্বৈত প্রক্রিয়া সহযোগিতা: সংযুক্তি পাতন মসৃণ ক্ষতি পৃষ্ঠ প্রদান করে, ডেটা ফিল্টারিং ক্ষতিকর ডেটা সরায়, উভয়ে গ্রেডিয়েন্ট দ্বন্দ্ব হ্রাস করতে সহযোগিতা করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

নিরাপত্তা-সংযুক্ত ডেটা: BeaverTails (৫,০০০ ক্ষতিকর প্রম্পট + প্রত্যাখ্যান প্রতিক্রিয়া) + Alpaca (৫,০০০ অক্ষতিকর প্রম্পট + সহায়ক প্রতিক্রিয়া)
ব্যবহারকারীর ডেটা: GSM8K, SST2, AGNEWS, AlpacaEval ইত্যাদি, বিভিন্ন অনুপাতে ক্ষতিকর প্রম্পট মিশ্রিত
মূল্যায়ন ডেটা: BeaverTails পরীক্ষা সেট (১,০০০ নমুনা) নিরাপত্তা মূল্যায়নের জন্য

মূল্যায়ন মেট্রিক্স

ক্ষতিকর স্কোর (HS): ১,০০০ আউটপুটের মধ্যে ক্ষতিকর প্রতিক্রিয়ার অনুপাত (↓ যত কম ততো ভাল)
সূক্ষ্ম সমন্বয় নির্ভুলতা (FA): ডাউনস্ট্রিম কাজের নির্ভুলতা (↑ যত বেশি ততো ভাল)

তুলনা পদ্ধতি

সংযুক্তি পর্যায় পদ্ধতি: RepNoise, Vaccine, Booster
সূক্ষ্ম সমন্বয় পর্যায় পদ্ধতি: LDIFS, Lisa
ভিত্তি পদ্ধতি: SFT (মান তদারকি সূক্ষ্ম সমন্বয়)

বাস্তবায়ন বিবরণ

মডেল: Llama3-8B, Gemma2-9B, Qwen2-7B
প্রশিক্ষণ: LoRA সূক্ষ্ম সমন্বয় (rank=32), AdamW অপটিমাইজার
হাইপারপ্যারামিটার: λ=0.1, α=0.1, T=1, τ=0.9, শিক্ষার হার ৫e-4 (শিক্ষক)/১e-5 (সূক্ষ্ম সমন্বয়)

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

বিভিন্ন ক্ষতিকর প্রম্পট অনুপাতের অধীনে কর্মক্ষমতা

পদ্ধতি	p=0	p=0.1	p=0.3	p=0.5	গড় HS	গড় FA
SFT	2.2	16.2	57.3	71.3	36.8	39.5
Vaccine	1.3	5.4	35.0	57.5	24.8	22.0
Ref-Teacher	0.9	1.0	0.6	0.9	0.9	47.1

বিচ্ছিন্নতা পরীক্ষা

গ্রেডিয়েন্ট দ্বন্দ্ব বিশ্লেষণ

পদ্ধতি	সংযুক্তি পাতন	ডেটা ফিল্টারিং	দ্বন্দ্ব ফ্রিকোয়েন্সি (%)	গড় কোসাইন সাদৃশ্য
ভিত্তি পদ্ধতি	✗	✗	35.09	0.110
+ সংযুক্তি পাতন	✓	✗	32.26	0.131
+ ডেটা ফিল্টারিং	✗	✓	36.11	0.102
সম্পূর্ণ পদ্ধতি	✓	✓	30.02	0.140

উপাদান অবদান বিশ্লেষণ

শুধুমাত্র সংযুক্তি পাতন: HS=2.2, FA=46.2 (ক্ষতিকর ডেটা সমস্যা একা সমাধান করতে পারে না)
শুধুমাত্র ডেটা ফিল্টারিং: HS=0.6, FA=46.5 (ক্ষতি হ্রাস করতে পারে কিন্তু কাজের কর্মক্ষমতা প্রভাবিত করে)
সম্পূর্ণ পদ্ধতি: HS=0.5, FA=49.0 (উভয়ের সহযোগিতা সর্বোত্তম কর্মক্ষমতা অর্জন করে)

সাধারণীকরণ পরীক্ষা

ক্রস-ডেটাসেট সাধারণীকরণ

GSM8K, SST2, AGNEWS, AlpacaEval-এ গড় কর্মক্ষমতা:

Ref-Teacher: HS=1.1, FA=52.8 (সর্বোত্তম)
সেরা ভিত্তি (Booster): HS=10.0, FA=51.3

ক্রস-মডেল আর্কিটেকচার সাধারণীকরণ

Llama3-8B, Gemma2-9B, Qwen2-7B-এ গড় কর্মক্ষমতা:

Ref-Teacher: HS=0.8, FA=60.8 (সর্বোত্তম)
সেরা ভিত্তি (Booster): HS=4.4, FA=57.3

শ্রেণীবিভাগ কর্মক্ষমতা যাচাইকরণ

ক্ষতিকর বিষয়বস্তু সনাক্তকরণে Ref-Teacher-এর F1 স্কোর:

BeaverTails: 93.4%
JailbreakBench: 79.8%
GCG আক্রমণ: 92.9%
AutoDAN আক্রমণ: 82.1%

উপসংহার এবং আলোচনা

প্রধান উপসংহার

নিরাপত্তা-সংযুক্ত ওজন অপর্যাপ্ত: নিরাপত্তা-সংযুক্ত মডেল ডাউনস্ট্রিম কাজের জন্য দুর্বল আরম্ভীকরণ প্রদান করে, কর্মক্ষমতা এবং নিরাপত্তা উভয়ের ক্ষতি করে
সরাসরি সূক্ষ্ম সমন্বয় আরও কার্যকর: ভিত্তি মডেলে নিরাপত্তা-সংযুক্তি এবং কাজের শিক্ষা একযোগে ভাল ফলাফল অর্জন করতে পারে
গ্রেডিয়েন্ট দ্বন্দ্ব মূল চ্যালেঞ্জ: সংযুক্তি পাতন এবং ডেটা ফিল্টারিং সহযোগিতার মাধ্যমে হ্রাস করা প্রয়োজন
ব্যবহারিক শক্তি: পদ্ধতি বিভিন্ন সেটিংসে স্থিতিশীল কর্মক্ষমতা প্রদর্শন করে, FaaS স্থাপনার জন্য উপযুক্ত

সীমাবদ্ধতা

প্রত্যাখ্যান বৈশিষ্ট্যের উপর নির্ভরতা: যদি প্রত্যাখ্যান বৈশিষ্ট্য প্রতিকূল আক্রমণ দ্বারা ধ্বংস হয়, সম্পূর্ণ কাঠামোর নিরাপত্তা ঝুঁকিতে পড়তে পারে
গণনা ওভারহেড: অতিরিক্ত Ref-Teacher মডেল প্রশিক্ষণের প্রয়োজন, গণনা খরচ বৃদ্ধি করে
ডেটা গুণমান নির্ভরতা: পদ্ধতির কার্যকারিতা নিরাপত্তা-সংযুক্ত ডেটার গুণমান এবং কভারেজের উপর নির্ভর করে

ভবিষ্যত দিকনির্দেশনা

শক্তিশালীতা বৃদ্ধি: প্রত্যাখ্যান বৈশিষ্ট্য ম্যানিপুলেশন আক্রমণের বিরুদ্ধে প্রতিরক্ষা পদ্ধতি গবেষণা
দক্ষতা অপটিমাইজেশন: আরও দক্ষ শিক্ষক প্রশিক্ষণ এবং জ্ঞান পাতন কৌশল অন্বেষণ
তাত্ত্বিক বিশ্লেষণ: গ্রেডিয়েন্ট দ্বন্দ্বের গাণিতিক প্রকৃতি এবং হ্রাস প্রক্রিয়া গভীর বোঝা

গভীর মূল্যায়ন

সুবিধা

সমস্যা আবিষ্কার গভীর: প্রথমবারের মতো সিস্টেমেটিকভাবে নিরাপত্তা-সংযুক্ত ওজনের মৌলিক সীমাবদ্ধতা নির্দেশ করে, ক্ষেত্রের জন্য নতুন চিন্তাভাবনা প্রদান করে
পদ্ধতি ডিজাইন দক্ষ: প্রত্যাখ্যান বৈশিষ্ট্য এবং দ্বৈত প্রক্রিয়ার ডিজাইনের মাধ্যমে, গ্রেডিয়েন্ট দ্বন্দ্ব সমস্যা মার্জিতভাবে সমাধান করে
পরীক্ষা ব্যাপক এবং যথেষ্ট: বিভিন্ন সেটিংস, ডেটাসেট এবং মডেল কভার করে, পরীক্ষা ডিজাইন কঠোর, ফলাফল প্রভাবশালী
ব্যবহারিক মূল্য উচ্চ: FaaS পরিস্থিতি সরাসরি লক্ষ্য করে, শক্তিশালী ব্যবহারিক প্রয়োগ মূল্য রয়েছে

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: গ্রেডিয়েন্ট দ্বন্দ্ব ঘটনা এবং হ্রাস প্রক্রিয়ার গভীর তাত্ত্বিক বিশ্লেষণ অভাব
গণনা খরচ বিবেচনা: অতিরিক্ত Ref-Teacher প্রশিক্ষণ নিয়ে আসা গণনা ওভারহেড যথাযথভাবে আলোচনা করা হয়নি
আক্রমণ মডেল সীমিত: প্রধানত ডেটা বিষ বাস্তবায়ন বিবেচনা করে, আরও জটিল প্রতিকূল আক্রমণের বিরুদ্ধে শক্তিশালীতা যাচাইকরণ প্রয়োজন
হাইপারপ্যারামিটার সংবেদনশীলতা: যদিও বিচ্ছিন্নতা পরীক্ষা রয়েছে, মূল হাইপারপ্যারামিটারের সংবেদনশীলতা বিশ্লেষণ যথেষ্ট গভীর নয়

প্রভাব

একাডেমিক অবদান: LLM নিরাপত্তা সূক্ষ্ম সমন্বয়ের জন্য নতুন গবেষণা প্যারাডাইম প্রদান করে, পরবর্তী গবেষণা উদ্দীপিত করতে পারে
শিল্প মূল্য: FaaS-এর ব্যবহারিক নিরাপত্তা সমস্যা সরাসরি সমাধান করে, গুরুত্বপূর্ণ বাণিজ্যিক প্রয়োগ সম্ভাবনা রয়েছে
পুনরুৎপাদনযোগ্যতা: বিস্তারিত পরীক্ষামূলক সেটআপ এবং হাইপারপ্যারামিটার প্রদান করে, পুনরুৎপাদন এবং উন্নতি সুবিধা করে

প্রযোজ্য পরিস্থিতি

FaaS প্ল্যাটফর্ম: AI সেবা প্রদানকারীর সূক্ষ্ম সমন্বয় সেবা নিরাপত্তা সুরক্ষা
কাস্টমাইজড LLM: এন্টারপ্রাইজ অভ্যন্তরীণ LLM কাস্টমাইজেশন স্থাপনার নিরাপত্তা সমাধান
মাল্টি-টাস্ক লার্নিং: একাধিক উদ্দেশ্য অপটিমাইজ করার প্রয়োজন এমন LLM প্রশিক্ষণ পরিস্থিতি
নিরাপত্তা-সমালোচনামূলক অ্যাপ্লিকেশন: নিরাপত্তার প্রতি উচ্চ প্রয়োজনীয়তা সহ LLM প্রয়োগ ক্ষেত্র

সংদর্ভ

এই পেপারটি LLM নিরাপত্তা, ক্ষতিকর সূক্ষ্ম সমন্বয় আক্রমণ, জ্ঞান পাতন ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, সম্পর্কিত গবেষণার জন্য ব্যাপক সাহিত্য ভিত্তি প্রদান করে। বিশেষভাবে মনোযোগের যোগ্য প্রত্যাখ্যান বৈশিষ্ট্য সম্পর্কিত গবেষণা (Arditi et al. 2024) এবং বিদ্যমান ক্ষতিকর সূক্ষ্ম সমন্বয় প্রতিরক্ষা পদ্ধতি (Huang et al. 2024 সিরিজ, Rosati et al. 2024 ইত্যাদি)।