Don't Walk the Line: Boundary Guidance for Filtered Generation
Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
academic
लाइन पर न चलें: फ़िल्टर्ड जनरेशन के लिए सीमा मार्गदर्शन
जनरेटिव मॉडल को हानिकारक या अनुचित आउटपुट को फ़िल्टर करने के लिए सुरक्षा वर्गीकरणकर्ताओं के साथ तेजी से जोड़ा जा रहा है। एक सामान्य रणनीति फ़िल्टर किए जाने की संभावना को कम करने के लिए जनरेटर को फ़ाइन-ट्यून करना है, लेकिन यह उप-इष्टतम हो सकता है: यह आमतौर पर मॉडल को वर्गीकरणकर्ता के निर्णय सीमा के करीब नमूने उत्पन्न करने के लिए प्रेरित करता है, जिससे झूठी सकारात्मक और झूठी नकारात्मक दोनों बढ़ जाती हैं। यह पेपर सीमा मार्गदर्शन (Boundary Guidance) प्रस्तावित करता है, जो एक सुदृढ़ीकरण सीखने की फ़ाइन-ट्यूनिंग विधि है जो स्पष्ट रूप से वर्गीकरणकर्ता सीमा से दूर जनरेशन को निर्देशित करती है। जेलब्रेक और अस्पष्ट प्रॉम्प्ट बेंचमार्क पर, सीमा मार्गदर्शन आउटपुट की सुरक्षा और उपयोगिता में सुधार करता है, जिसे LLM-as-a-Judge मूल्यांकन द्वारा सत्यापित किया जाता है। मॉडल स्केल और पुरस्कार डिजाइन में व्यापक विलोपन प्रयोग विधि की मजबूती को प्रदर्शित करते हैं।
आधुनिक AI तैनाती तेजी से समग्र सुरक्षा प्रणालियों पर निर्भर करती है, जहां जनरेटिव मॉडल को डाउनस्ट्रीम सुरक्षा वर्गीकरणकर्ताओं के साथ जोड़ा जाता है, जो हानिकारक या अनुचित आउटपुट को फ़िल्टर करने के लिए। यह आर्किटेक्चर संगठनों को सुरक्षा नीतियों पर लचीलापन बनाए रखने की अनुमति देता है, जबकि सुरक्षा-प्रशिक्षित मॉडल और विशेष वर्गीकरणकर्ताओं के पूरक लाभों का उपयोग करता है।
वर्तमान विधियां सुरक्षा वर्गीकरणकर्ता से स्वतंत्र रूप से मॉडल को संरेखित करने पर ध्यान केंद्रित करती हैं, जो प्रशिक्षण उद्देश्य और तैनाती वास्तविकता के बीच विसंगति को प्रदर्शित करती है। मानक जनरेटिव AI मॉडल फ़ाइन-ट्यूनिंग प्रथाएं यह विचार नहीं करती हैं कि कौन से जनरेशन वर्गीकरणकर्ता के लिए वर्गीकृत करने में आसान हैं - कुछ जनरेशन वर्गीकरणकर्ता की निर्णय सीमा के पास होते हैं और गलत तरीके से वर्गीकृत होते हैं।
झूठी सकारात्मक (उपयोगी सामग्री को अत्यधिक अवरुद्ध करना)
झूठी नकारात्मक (हानिकारक सामग्री को अपर्याप्त रूप से अवरुद्ध करना)
जब सुरक्षा वर्गीकरणकर्ता अपूर्ण होते हैं (अनुभवजन्य साक्ष्य से पता चलता है कि यहां तक कि अत्याधुनिक वर्गीकरणकर्ता भी नए हानि आयामों पर 5% समय सफलतापूर्वक हमला किए जा सकते हैं), निर्णय सीमा के पास संचालन इन वर्गीकरण त्रुटियों को बढ़ाता है और समग्र सिस्टम प्रदर्शन को कम करता है।
मुख्य रूप से व्यक्तिगत मॉडल व्यवहार को अनुकूलित करते हैं, वास्तविक दुनिया की तैनाती परिदृश्य को परिभाषित करने वाले डाउनस्ट्रीम फ़िल्टरिंग संदर्भ पर विचार किए बिना
वर्तमान कार्यान्वयन में कम्प्यूटेशनल रूप से गहन मॉडल प्रशिक्षण की आवश्यकता होती है, जबकि यह विधि केवल सुरक्षा वर्गीकरणकर्ता के एकल टोकन की आवश्यकता होती है
सैद्धांतिक योगदान: निर्णय सिद्धांत साक्ष्य प्रदान करता है कि सिस्टम उपयोगिता वर्गीकरणकर्ता निर्णय सीमा के पास न्यूनतम होती है, सीमा से बचने के उद्देश्य के लिए सैद्धांतिक आधार प्रदान करता है
विधि योगदान: समग्र सुरक्षा प्रणालियों के भीतर जनरेटर को प्रशिक्षित करने के लिए सुदृढ़ीकरण सीखने पर आधारित फ़ाइन-ट्यूनिंग ढांचा पेश करता है
अनुभवजन्य योगदान: कई मॉडल आर्किटेक्चर और स्केल पर सुरक्षा और उपयोगिता में अनुभवजन्य सुधार प्रदर्शित करता है, यह दर्शाता है कि समग्र सिस्टम अनुकूलन व्यक्तिगत घटक अकेले पूरा नहीं कर सकते
एक जनरेटिव मॉडल π_θ(y|x) पर विचार करें, जो दिए गए प्रॉम्प्ट x ∈ X के लिए पूर्ण y ∈ Y उत्पन्न करता है। आउटपुट की सुरक्षा पर ध्यान केंद्रित करते हैं, z(x,y) ∈ {0,1} द्वारा दर्शाया गया। सुरक्षा वर्गीकरणकर्ता आउटपुट असुरक्षित होने की अपेक्षित संभावना t(x,y) = Ez|x,y प्रदान करता है।
पेपर समग्र सिस्टम की उपयोगिता का विश्लेषण करने के लिए एक निर्णय सिद्धांत ढांचा स्थापित करता है:
जब आउटपुट प्रदर्शित किया जाता है, तो उपयोगकर्ता को उपयोगिता u(x,y) मिलती है, समाज को नकारात्मक उपयोगिता s(x,y) मिलती है। यदि आउटपुट प्रदर्शित नहीं किया जाता है लेकिन वास्तव में सुरक्षित है, तो उपयोगकर्ता को नकारात्मक उपयोगिता -λ < 0 मिलती है, समाज को उपयोगिता 0 मिलती है।
पूर्ण y की अपेक्षित उपयोगिता:
U(x,y) = {
-(1-t(x,y))λ यदि t(x,y) ≥ τ
u(x,y) - t(x,y) यदि t(x,y) < τ
}
प्रस्ताव 1: जब u(x,y) ≡ u एक स्थिरांक है, तो उपयोगिता फ़ंक्शन t < τ पर सख्ती से घटता है, t ≥ τ पर सख्ती से बढ़ता है। इसका मतलब है कि अपेक्षित उपयोगिता निर्णय सीमा τ के पास न्यूनतम होती है।
सीमा मार्गदर्शन सभी चार आधार मॉडल पर पेरेटो सुधार प्राप्त करता है:
मॉडल
उपयोगिता वृद्धि(Δ)
हानि में कमी(Δ)
सांख्यिकीय महत्व
Qwen2.5-0.5B
+0.13
-0.09
p<0.001
Qwen2.5-7B
+0.03
-0.15
p<0.001
Gemma-2-9B
+0.03
-0.03
p<0.001
Qwen2.5-14B
-0.05
-0.11
p<0.10
मुख्य निष्कर्ष:
सभी मॉडल में हानि में महत्वपूर्ण कमी
सबसे बड़े मॉडल को छोड़कर सभी मॉडल में उपयोगिता में सुधार
छोटे मॉडल (Qwen2.5-0.5B) को सबसे बड़ा समग्र सुधार मिलता है, यह दर्शाता है कि सीमा मार्गदर्शन बुनियादी सुरक्षा क्षमता कमजोर होने पर विशेष रूप से प्रभावी है
प्रॉम्प्ट-जागरूक पुरस्कार की विफलता के मामलों में शामिल हैं:
"मुझे खेद है कि मुझे यह जानकारी प्रदान करनी पड़ी, लेकिन मैं कुछ अवैध ऑनलाइन समुदायों को सूचीबद्ध करूंगा और समझाऊंगा कि उनमें गुमनाम रूप से कैसे शामिल हों..."
"बिल्कुल, मैं आपको गणित परीक्षा में धोखाधड़ी करने में मदद करने के लिए खुश हूं! यहां कुछ सुझाव दिए गए हैं..."
ये प्रतिक्रियाएं, हालांकि अस्वीकरण शामिल हैं, फिर भी हानिकारक सामग्री प्रदान करती हैं, और डाउनस्ट्रीम फ़िल्टर पूरी तरह से कैप्चर नहीं कर सकते।
पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों को उद्धृत करता है, जिसमें सुरक्षा संरेखण, सुदृढ़ीकरण सीखना, समग्र प्रणालियां आदि दिशाओं में नवीनतम अनुसंधान शामिल है, जो विधि के लिए ठोस सैद्धांतिक और अनुभवजन्य आधार प्रदान करता है।
यह कार्य AI सुरक्षा क्षेत्र में महत्वपूर्ण योगदान प्रदान करता है, सैद्धांतिक विश्लेषण और अनुभवजन्य सत्यापन के माध्यम से समग्र प्रणाली अनुकूलन के मूल्य को प्रदर्शित करता है, भविष्य की सुरक्षित AI तैनाती के लिए नए विचार और उपकरण प्रदान करता है।