2025-11-11T09:37:09.241544

Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks

Ham, Choi, Yang et al.

Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.

academic

सुरक्षा-संरेखित भार पर्याप्त नहीं हैं: अस्वीकृति-शिक्षक-निर्देशित सूक्ष्म-ट्यूनिंग हानिकारक सूक्ष्म-ट्यूनिंग हमलों के तहत सुरक्षा और डाउनस्ट्रीम प्रदर्शन को बढ़ाती है

मूल जानकारी

पेपर ID: 2506.07356
शीर्षक: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
लेखक: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (कोरिया एडवांस्ड इंस्टीट्यूट ऑफ साइंस एंड टेक्नोलॉजी)
वर्गीकरण: cs.CL (कम्प्यूटेशन और भाषा)
प्रकाशन तिथि: 25 अक्टूबर 11 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2506.07356

सारांश

Google और OpenAI जैसे प्रमुख AI प्रदाताओं द्वारा सूक्ष्म-ट्यूनिंग-ए-ए-सर्विस (FaaS) की शुरुआत के साथ, उपयोगकर्ता अपने डेटा का उपयोग करके बड़े भाषा मॉडल (LLM) को अनुकूलित कर सकते हैं। हालांकि, जब उपयोगकर्ता डेटा में हानिकारक प्रॉम्प्ट होते हैं, तो यह सेवा सुरक्षा में गिरावट के लिए असुरक्षित होती है, जिसे हानिकारक सूक्ष्म-ट्यूनिंग हमला कहा जाता है। मौजूदा तरीके पहले एक सुरक्षा-संरेखित मॉडल बनाकर और फिर उपयोगकर्ता डेटा पर सूक्ष्म-ट्यूनिंग करके इस समस्या को कम करने का प्रयास करते हैं। लेकिन यह पेपर पाता है कि सुरक्षा-संरेखित भार डाउनस्ट्रीम कार्य सीखने के लिए कमजोर प्रारंभिकीकरण प्रदान करते हैं, जिससे उप-इष्टतम सुरक्षा-संरेखण और डाउनस्ट्रीम कार्य प्रदर्शन होता है। इस समस्या को हल करने के लिए, लेखकों ने अस्वीकृति-शिक्षक (Ref-Teacher) निर्देशित सूक्ष्म-ट्यूनिंग फ्रेमवर्क का प्रस्ताव दिया है, जो सुरक्षा-संरेखित Ref-Teacher के निर्देशन में सीधे आधार मॉडल को सूक्ष्म-ट्यूनिंग करता है, उपयोगकर्ता डेटा में हानिकारक प्रॉम्प्ट को फ़िल्टर करके और सुरक्षा-संरेखण ज्ञान को आधार मॉडल में आसवित करके सुरक्षा और प्रदर्शन दोनों में सुधार प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

हानिकारक सूक्ष्म-ट्यूनिंग हमला: जब उपयोगकर्ता FaaS में हानिकारक सामग्री युक्त डेटा अपलोड करते हैं, तो मॉडल के सुरक्षा-संरेखण को नष्ट कर दिया जाता है, जिससे मॉडल हानिकारक सामग्री उत्पन्न करता है।
मौजूदा तरीकों की सीमाएं:
- पारंपरिक दो-चरणीय पाइपलाइन (पहले सुरक्षा-संरेखण, फिर सूक्ष्म-ट्यूनिंग) में मौलिक खामियां हैं
- सुरक्षा-संरेखित मॉडल डाउनस्ट्रीम कार्य सीखने के लिए कमजोर भार प्रारंभिकीकरण प्रदान करते हैं
- सीमित कार्य प्रदर्शन और क्षतिग्रस्त सुरक्षा की ओर ले जाता है
अनुसंधान प्रेरणा:
- आधार मॉडल पर सीधे उपयोगकर्ता डेटा और सुरक्षा-संरेखण डेटा दोनों की सूक्ष्म-ट्यूनिंग बेहतर प्रदर्शन प्राप्त कर सकती है
- लेकिन यह विधि ग्रेडिएंट संघर्ष उत्पन्न करती है, विशेष रूप से जब उपयोगकर्ता डेटा में हानिकारक प्रॉम्प्ट होते हैं तो यह बढ़ जाता है
- ग्रेडिएंट संघर्ष को कम करने के लिए एक नई फ्रेमवर्क की आवश्यकता है, जबकि सुरक्षा और कार्य प्रदर्शन को बनाए रखना है

मुख्य योगदान

सुरक्षा-संरेखित मॉडल की मौलिक सीमाओं की खोज: यह साबित करता है कि सुरक्षा-संरेखित LLM डाउनस्ट्रीम सीखने के लिए कमजोर प्रारंभिकीकरण प्रदान करते हैं, जिससे उप-इष्टतम कार्य प्रदर्शन और सुरक्षा समझौता होता है।
Ref-Teacher निर्देशित सूक्ष्म-ट्यूनिंग फ्रेमवर्क का प्रस्ताव: संरेखण आसवन और डेटा फ़िल्टरिंग के दो तंत्रों के माध्यम से ग्रेडिएंट संघर्ष को कम करता है, सुरक्षा और कार्य प्रदर्शन दोनों में सुधार प्राप्त करता है।
व्यापक प्रायोगिक सत्यापन: विभिन्न सेटिंग्स (विभिन्न हानिकारक प्रॉम्प्ट अनुपात, डेटा स्केल, डेटासेट प्रकार, मॉडल आर्किटेक्चर) के तहत विधि की प्रभावशीलता और मजबूती को साबित करता है।
व्यावहारिक FaaS समाधान: सुरक्षित और विश्वसनीय LLM तैनाती के लिए व्यावहारिक रूप से व्यवहार्य समाधान प्रदान करता है।

विधि विवरण

कार्य परिभाषा

इनपुट: आधार LLM, उपयोगकर्ता डेटा (संभवतः हानिकारक प्रॉम्प्ट युक्त), सुरक्षा-संरेखण डेटा आउटपुट: सुरक्षा-संरेखण को बनाए रखते हुए और उपयोगकर्ता-विशिष्ट कार्य पर अच्छा प्रदर्शन करने वाला अनुकूलित मॉडल बाधा: हानिकारक सूक्ष्म-ट्यूनिंग हमलों के तहत मजबूती बनाए रखना

मॉडल आर्किटेक्चर

1. शिक्षक तैयारी चरण

Ref-Teacher मॉडल को प्रशिक्षित करता है, जो निम्नलिखित में सक्षम हो:

संरेखण आसवन के लिए नरम अस्वीकृति लेबल उत्पन्न करना
हानिकारक और हानिरहित प्रॉम्प्ट को प्रभावी ढंग से अलग करने के लिए अस्वीकृति विशेषताओं का उपयोग करना

अस्वीकृति विशेषता परिभाषा:

R^l = (1/N_us) ∑(i=1 to N_us) f^l(x_us_i) - (1/N_s) ∑(i=1 to N_s) f^l(x_s_i)

प्रशिक्षण उद्देश्य:

L_teacher = (1/N) ∑(i=1 to N) [ℓ(x_s_i, y_s_i) + ℓ(x_us_i, y_r_i) + λ{||1 + CS(f^l(x_s_i), R^l)||_2 + ||1 - CS(f^l(x_us_i), R^l)||_2}]

2. सूक्ष्म-ट्यूनिंग चरण

Ref-Teacher दो पूरक तंत्रों के माध्यम से आधार मॉडल को निर्देशित करता है:

डेटा फ़िल्टरिंग:

ω_i = {0, if CS(R^l, f^l(x_i)) > τ
       1, otherwise}

संरेखण आसवन: KL विचलन हानि का उपयोग करके Ref-Teacher के नरम लेबल ज्ञान को छात्र मॉडल में स्थानांतरित करता है

कुल उद्देश्य फ़ंक्शन:

L_ft = (1/N_user) ∑(i=1 to N_user) ω_i * ℓ(x_i, y_i) + αT^2 * (1/N_align) ∑(i=1 to N_align) KL(p_Tt,i || p_Ts,i)

तकनीकी नवाचार बिंदु

अस्वीकृति विशेषता वृद्धि: नियमितकरण पद के माध्यम से अस्वीकृति विशेषता की विभेदक क्षमता को मजबूत करता है, हानिकारक प्रॉम्प्ट विशेषताओं को अस्वीकृति विशेषता के साथ कोसाइन समानता 1 के करीब रखता है, हानिरहित प्रॉम्प्ट -1 के करीब।
गतिशील अस्वीकृति विशेषता अपडेट: प्रशिक्षण प्रक्रिया के दौरान अस्वीकृति विशेषताओं को नियमित रूप से अपडेट करता है, पूर्व-संरेखित मॉडल की आवश्यकता से बचता है।
दोहरी तंत्र सहयोग: संरेखण आसवन एक सुचारू हानि सतह प्रदान करता है, डेटा फ़िल्टरिंग हानिकारक डेटा को हटाता है, दोनों ग्रेडिएंट संघर्ष को कम करने में सहयोग करते हैं।

प्रायोगिक सेटअप

डेटासेट

सुरक्षा-संरेखण डेटा: BeaverTails (5,000 हानिकारक प्रॉम्प्ट + अस्वीकृति प्रतिक्रिया) + Alpaca (5,000 हानिरहित प्रॉम्प्ट + उपयोगी प्रतिक्रिया)
उपयोगकर्ता डेटा: GSM8K, SST2, AGNEWS, AlpacaEval आदि, विभिन्न अनुपातों में हानिकारक प्रॉम्प्ट मिश्रित
मूल्यांकन डेटा: BeaverTails परीक्षण सेट (1,000 नमूने) सुरक्षा मूल्यांकन के लिए

मूल्यांकन मेट्रिक्स

हानिकारक स्कोर (HS): 1,000 आउटपुट में हानिकारक प्रतिक्रियाओं का अनुपात (↓ जितना कम उतना अच्छा)
सूक्ष्म-ट्यूनिंग सटीकता (FA): डाउनस्ट्रीम कार्य की सटीकता (↑ जितना अधिक उतना अच्छा)

तुलनात्मक विधियां

संरेखण चरण विधियां: RepNoise, Vaccine, Booster
सूक्ष्म-ट्यूनिंग चरण विधियां: LDIFS, Lisa
आधार रेखा विधियां: SFT (मानक पर्यवेक्षित सूक्ष्म-ट्यूनिंग)

कार्यान्वयन विवरण

मॉडल: Llama3-8B, Gemma2-9B, Qwen2-7B
प्रशिक्षण: LoRA सूक्ष्म-ट्यूनिंग (rank=32), AdamW अनुकूलक
हाइपरपैरामीटर: λ=0.1, α=0.1, T=1, τ=0.9, सीखने की दर 5e-4 (शिक्षक)/1e-5 (सूक्ष्म-ट्यूनिंग)

प्रायोगिक परिणाम

मुख्य परिणाम

विभिन्न हानिकारक प्रॉम्प्ट अनुपातों के तहत प्रदर्शन

विधि	p=0	p=0.1	p=0.3	p=0.5	औसत HS	औसत FA
SFT	2.2	16.2	57.3	71.3	36.8	39.5
Vaccine	1.3	5.4	35.0	57.5	24.8	22.0
Ref-Teacher	0.9	1.0	0.6	0.9	0.9	47.1

विलोपन प्रयोग

ग्रेडिएंट संघर्ष विश्लेषण

विधि	संरेखण आसवन	डेटा फ़िल्टरिंग	संघर्ष आवृत्ति (%)	औसत कोसाइन समानता
आधार विधि	✗	✗	35.09	0.110
+संरेखण आसवन	✓	✗	32.26	0.131
+डेटा फ़िल्टरिंग	✗	✓	36.11	0.102
पूर्ण विधि	✓	✓	30.02	0.140

घटक योगदान विश्लेषण

केवल संरेखण आसवन: HS=2.2, FA=46.2 (हानिकारक डेटा समस्या को अकेले हल नहीं कर सकता)
केवल डेटा फ़िल्टरिंग: HS=0.6, FA=46.5 (खतरे को कम कर सकता है लेकिन कार्य प्रदर्शन को प्रभावित करता है)
पूर्ण विधि: HS=0.5, FA=49.0 (दोनों सर्वोत्तम प्रदर्शन के लिए सहयोग करते हैं)

सामान्यीकरण प्रयोग

क्रॉस-डेटासेट सामान्यीकरण

GSM8K, SST2, AGNEWS, AlpacaEval पर औसत प्रदर्शन:

Ref-Teacher: HS=1.1, FA=52.8 (सर्वोत्तम)
सर्वोत्तम आधार रेखा (Booster): HS=10.0, FA=51.3

क्रॉस-मॉडल आर्किटेक्चर सामान्यीकरण

Llama3-8B, Gemma2-9B, Qwen2-7B पर औसत प्रदर्शन:

Ref-Teacher: HS=0.8, FA=60.8 (सर्वोत्तम)
सर्वोत्तम आधार रेखा (Booster): HS=4.4, FA=57.3

वर्गीकरण प्रदर्शन सत्यापन

हानिकारक सामग्री पहचान पर Ref-Teacher का F1 स्कोर:

BeaverTails: 93.4%
JailbreakBench: 79.8%
GCG हमला: 92.9%
AutoDAN हमला: 82.1%

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सुरक्षा-संरेखित भार अपर्याप्त हैं: सुरक्षा-संरेखित मॉडल डाउनस्ट्रीम कार्य के लिए कमजोर प्रारंभिकीकरण प्रदान करते हैं, जिससे प्रदर्शन और सुरक्षा दोनों में नुकसान होता है
सीधी सूक्ष्म-ट्यूनिंग अधिक प्रभावी है: आधार मॉडल पर सुरक्षा-संरेखण और कार्य सीखने को एक साथ करने से बेहतर परिणाम मिल सकते हैं
ग्रेडिएंट संघर्ष मुख्य चुनौती है: संरेखण आसवन और डेटा फ़िल्टरिंग के माध्यम से सहयोग से इसे कम करने की आवश्यकता है
व्यावहारिकता मजबूत है: विधि विभिन्न सेटिंग्स में स्थिर प्रदर्शन करती है, FaaS तैनाती के लिए उपयुक्त है

सीमाएं

अस्वीकृति विशेषता पर निर्भरता: यदि अस्वीकृति विशेषता को प्रतिकूल हमलों द्वारा नष्ट किया जाता है, तो पूरी फ्रेमवर्क की सुरक्षा जोखिम में पड़ सकती है
कम्प्यूटेशनल ओवरहेड: अतिरिक्त Ref-Teacher मॉडल प्रशिक्षण की आवश्यकता है, कम्प्यूटेशनल लागत बढ़ाता है
डेटा गुणवत्ता निर्भरता: विधि प्रभावशीलता सुरक्षा-संरेखण डेटा की गुणवत्ता और कवरेज पर निर्भर करती है

भविष्य की दिशा

मजबूती वृद्धि: अस्वीकृति विशेषता हेराफेरी के खिलाफ रक्षा विधियों का अनुसंधान करना
दक्षता अनुकूलन: अधिक कुशल शिक्षक प्रशिक्षण और ज्ञान आसवन रणनीतियों की खोज करना
सैद्धांतिक विश्लेषण: ग्रेडिएंट संघर्ष की गणितीय प्रकृति और कमी तंत्र को गहराई से समझना

गहन मूल्यांकन

शक्तियां

समस्या खोज गहन: पहली बार सुरक्षा-संरेखित भार की मौलिक सीमाओं को व्यवस्थित रूप से इंगित करता है, क्षेत्र के लिए नए विचार कोण प्रदान करता है
विधि डिजाइन चतुर: अस्वीकृति विशेषता और दोहरी तंत्र डिजाइन के माध्यम से, ग्रेडिएंट संघर्ष समस्या को सुरुचिपूर्ण तरीके से हल करता है
प्रयोग व्यापक पर्याप्त: विभिन्न सेटिंग्स, डेटासेट और मॉडल को कवर करता है, प्रयोग डिजाइन कठोर है, परिणाम प्रेरक हैं
व्यावहारिक मूल्य उच्च: FaaS परिदृश्य को सीधे लक्षित करता है, बहुत मजबूत व्यावहारिक अनुप्रयोग मूल्य है

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: ग्रेडिएंट संघर्ष घटना और कमी तंत्र का गहन सैद्धांतिक विश्लेषण नहीं है
कम्प्यूटेशनल लागत विचार: अतिरिक्त Ref-Teacher प्रशिक्षण द्वारा लाई गई कम्प्यूटेशनल ओवरहेड पर पर्याप्त चर्चा नहीं
सीमित हमला मॉडल: मुख्य रूप से डेटा जहर हमलों पर विचार करता है, अधिक जटिल प्रतिकूल हमलों के लिए मजबूती सत्यापन की आवश्यकता है
हाइपरपैरामीटर संवेदनशीलता: हालांकि विलोपन प्रयोग हैं, लेकिन महत्वपूर्ण हाइपरपैरामीटर के प्रति संवेदनशीलता विश्लेषण पर्याप्त नहीं है

प्रभाव

शैक्षणिक योगदान: LLM सुरक्षा सूक्ष्म-ट्यूनिंग के लिए नया अनुसंधान प्रतिमान प्रदान करता है, बाद के अनुसंधान को प्रेरित कर सकता है
औद्योगिक मूल्य: FaaS की व्यावहारिक सुरक्षा समस्याओं को सीधे हल करता है, महत्वपूर्ण वाणिज्यिक अनुप्रयोग संभावनाएं हैं
पुनरुत्पादनीयता: विस्तृत प्रायोगिक सेटअप और हाइपरपैरामीटर प्रदान करता है, पुनरुत्पादन और सुधार में सुविधा देता है

लागू परिदृश्य

FaaS प्लेटफॉर्म: AI सेवा प्रदाताओं की सूक्ष्म-ट्यूनिंग सेवा सुरक्षा सुरक्षा
अनुकूलित LLM: एंटरप्राइज आंतरिक LLM अनुकूलन तैनाती के लिए सुरक्षा समाधान
बहु-कार्य सीखना: कई उद्देश्यों को एक साथ अनुकूलित करने की आवश्यकता वाले LLM प्रशिक्षण परिदृश्य
सुरक्षा-महत्वपूर्ण अनुप्रयोग: LLM अनुप्रयोग क्षेत्र जहां सुरक्षा आवश्यकताएं अधिक हैं

संदर्भ

यह पेपर LLM सुरक्षा, हानिकारक सूक्ष्म-ट्यूनिंग हमले, ज्ञान आसवन आदि क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, संबंधित अनुसंधान के लिए व्यापक साहित्य आधार प्रदान करता है। विशेष ध्यान देने योग्य कार्यों में अस्वीकृति विशेषता संबंधित अनुसंधान (Arditi et al. 2024) और मौजूदा हानिकारक सूक्ष्म-ट्यूनिंग रक्षा विधियां (Huang et al. 2024 श्रृंखला, Rosati et al. 2024 आदि) शामिल हैं।