Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Ham, Choi, Yang et al.
Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.
academic
सुरक्षा-संरेखित भार पर्याप्त नहीं हैं: अस्वीकृति-शिक्षक-निर्देशित सूक्ष्म-ट्यूनिंग हानिकारक सूक्ष्म-ट्यूनिंग हमलों के तहत सुरक्षा और डाउनस्ट्रीम प्रदर्शन को बढ़ाती है
शीर्षक: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
लेखक: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (कोरिया एडवांस्ड इंस्टीट्यूट ऑफ साइंस एंड टेक्नोलॉजी)
Google और OpenAI जैसे प्रमुख AI प्रदाताओं द्वारा सूक्ष्म-ट्यूनिंग-ए-ए-सर्विस (FaaS) की शुरुआत के साथ, उपयोगकर्ता अपने डेटा का उपयोग करके बड़े भाषा मॉडल (LLM) को अनुकूलित कर सकते हैं। हालांकि, जब उपयोगकर्ता डेटा में हानिकारक प्रॉम्प्ट होते हैं, तो यह सेवा सुरक्षा में गिरावट के लिए असुरक्षित होती है, जिसे हानिकारक सूक्ष्म-ट्यूनिंग हमला कहा जाता है। मौजूदा तरीके पहले एक सुरक्षा-संरेखित मॉडल बनाकर और फिर उपयोगकर्ता डेटा पर सूक्ष्म-ट्यूनिंग करके इस समस्या को कम करने का प्रयास करते हैं। लेकिन यह पेपर पाता है कि सुरक्षा-संरेखित भार डाउनस्ट्रीम कार्य सीखने के लिए कमजोर प्रारंभिकीकरण प्रदान करते हैं, जिससे उप-इष्टतम सुरक्षा-संरेखण और डाउनस्ट्रीम कार्य प्रदर्शन होता है। इस समस्या को हल करने के लिए, लेखकों ने अस्वीकृति-शिक्षक (Ref-Teacher) निर्देशित सूक्ष्म-ट्यूनिंग फ्रेमवर्क का प्रस्ताव दिया है, जो सुरक्षा-संरेखित Ref-Teacher के निर्देशन में सीधे आधार मॉडल को सूक्ष्म-ट्यूनिंग करता है, उपयोगकर्ता डेटा में हानिकारक प्रॉम्प्ट को फ़िल्टर करके और सुरक्षा-संरेखण ज्ञान को आधार मॉडल में आसवित करके सुरक्षा और प्रदर्शन दोनों में सुधार प्राप्त करता है।
हानिकारक सूक्ष्म-ट्यूनिंग हमला: जब उपयोगकर्ता FaaS में हानिकारक सामग्री युक्त डेटा अपलोड करते हैं, तो मॉडल के सुरक्षा-संरेखण को नष्ट कर दिया जाता है, जिससे मॉडल हानिकारक सामग्री उत्पन्न करता है।
मौजूदा तरीकों की सीमाएं:
पारंपरिक दो-चरणीय पाइपलाइन (पहले सुरक्षा-संरेखण, फिर सूक्ष्म-ट्यूनिंग) में मौलिक खामियां हैं
सुरक्षा-संरेखित मॉडल डाउनस्ट्रीम कार्य सीखने के लिए कमजोर भार प्रारंभिकीकरण प्रदान करते हैं
सीमित कार्य प्रदर्शन और क्षतिग्रस्त सुरक्षा की ओर ले जाता है
अनुसंधान प्रेरणा:
आधार मॉडल पर सीधे उपयोगकर्ता डेटा और सुरक्षा-संरेखण डेटा दोनों की सूक्ष्म-ट्यूनिंग बेहतर प्रदर्शन प्राप्त कर सकती है
लेकिन यह विधि ग्रेडिएंट संघर्ष उत्पन्न करती है, विशेष रूप से जब उपयोगकर्ता डेटा में हानिकारक प्रॉम्प्ट होते हैं तो यह बढ़ जाता है
ग्रेडिएंट संघर्ष को कम करने के लिए एक नई फ्रेमवर्क की आवश्यकता है, जबकि सुरक्षा और कार्य प्रदर्शन को बनाए रखना है
सुरक्षा-संरेखित मॉडल की मौलिक सीमाओं की खोज: यह साबित करता है कि सुरक्षा-संरेखित LLM डाउनस्ट्रीम सीखने के लिए कमजोर प्रारंभिकीकरण प्रदान करते हैं, जिससे उप-इष्टतम कार्य प्रदर्शन और सुरक्षा समझौता होता है।
Ref-Teacher निर्देशित सूक्ष्म-ट्यूनिंग फ्रेमवर्क का प्रस्ताव: संरेखण आसवन और डेटा फ़िल्टरिंग के दो तंत्रों के माध्यम से ग्रेडिएंट संघर्ष को कम करता है, सुरक्षा और कार्य प्रदर्शन दोनों में सुधार प्राप्त करता है।
व्यापक प्रायोगिक सत्यापन: विभिन्न सेटिंग्स (विभिन्न हानिकारक प्रॉम्प्ट अनुपात, डेटा स्केल, डेटासेट प्रकार, मॉडल आर्किटेक्चर) के तहत विधि की प्रभावशीलता और मजबूती को साबित करता है।
व्यावहारिक FaaS समाधान: सुरक्षित और विश्वसनीय LLM तैनाती के लिए व्यावहारिक रूप से व्यवहार्य समाधान प्रदान करता है।
इनपुट: आधार LLM, उपयोगकर्ता डेटा (संभवतः हानिकारक प्रॉम्प्ट युक्त), सुरक्षा-संरेखण डेटा
आउटपुट: सुरक्षा-संरेखण को बनाए रखते हुए और उपयोगकर्ता-विशिष्ट कार्य पर अच्छा प्रदर्शन करने वाला अनुकूलित मॉडल
बाधा: हानिकारक सूक्ष्म-ट्यूनिंग हमलों के तहत मजबूती बनाए रखना
अस्वीकृति विशेषता वृद्धि: नियमितकरण पद के माध्यम से अस्वीकृति विशेषता की विभेदक क्षमता को मजबूत करता है, हानिकारक प्रॉम्प्ट विशेषताओं को अस्वीकृति विशेषता के साथ कोसाइन समानता 1 के करीब रखता है, हानिरहित प्रॉम्प्ट -1 के करीब।
गतिशील अस्वीकृति विशेषता अपडेट: प्रशिक्षण प्रक्रिया के दौरान अस्वीकृति विशेषताओं को नियमित रूप से अपडेट करता है, पूर्व-संरेखित मॉडल की आवश्यकता से बचता है।
दोहरी तंत्र सहयोग: संरेखण आसवन एक सुचारू हानि सतह प्रदान करता है, डेटा फ़िल्टरिंग हानिकारक डेटा को हटाता है, दोनों ग्रेडिएंट संघर्ष को कम करने में सहयोग करते हैं।
संरेखण चरण समाधान: नियमितकरण तकनीकों के माध्यम से मजबूत सुरक्षा-संरेखण भार प्राप्त करना
सूक्ष्म-ट्यूनिंग चरण समाधान: महत्वपूर्ण पैरामीटर को फ्रीज करना या सुरक्षा नियमितकरण जोड़ना
पोस्ट-सूक्ष्म-ट्यूनिंग चरण समाधान: अंतर का विश्लेषण करना और सुरक्षा गिरावट की भरपाई के लिए मॉडल भार संपादित करना
इस पेपर का मुख्य अंतर सुरक्षा-संरेखित मॉडल के बजाय सीधे आधार मॉडल को सूक्ष्म-ट्यूनिंग करना है, शिक्षक निर्देशन के माध्यम से ग्रेडिएंट संघर्ष को कम करता है।
सुरक्षा-संरेखित भार अपर्याप्त हैं: सुरक्षा-संरेखित मॉडल डाउनस्ट्रीम कार्य के लिए कमजोर प्रारंभिकीकरण प्रदान करते हैं, जिससे प्रदर्शन और सुरक्षा दोनों में नुकसान होता है
सीधी सूक्ष्म-ट्यूनिंग अधिक प्रभावी है: आधार मॉडल पर सुरक्षा-संरेखण और कार्य सीखने को एक साथ करने से बेहतर परिणाम मिल सकते हैं
ग्रेडिएंट संघर्ष मुख्य चुनौती है: संरेखण आसवन और डेटा फ़िल्टरिंग के माध्यम से सहयोग से इसे कम करने की आवश्यकता है
व्यावहारिकता मजबूत है: विधि विभिन्न सेटिंग्स में स्थिर प्रदर्शन करती है, FaaS तैनाती के लिए उपयुक्त है
यह पेपर LLM सुरक्षा, हानिकारक सूक्ष्म-ट्यूनिंग हमले, ज्ञान आसवन आदि क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, संबंधित अनुसंधान के लिए व्यापक साहित्य आधार प्रदान करता है। विशेष ध्यान देने योग्य कार्यों में अस्वीकृति विशेषता संबंधित अनुसंधान (Arditi et al. 2024) और मौजूदा हानिकारक सूक्ष्म-ट्यूनिंग रक्षा विधियां (Huang et al. 2024 श्रृंखला, Rosati et al. 2024 आदि) शामिल हैं।