2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt

Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.

academic

लाइन पर न चलें: फ़िल्टर्ड जनरेशन के लिए सीमा मार्गदर्शन

मूल जानकारी

पेपर ID: 2510.11834
शीर्षक: Don't Walk the Line: Boundary Guidance for Filtered Generation
लेखक: Sarah Ball (Ludwig-Maximilians-Universität München), Andreas Haupt (Stanford University)
वर्गीकरण: cs.LG cs.CL
प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.11834v1

सारांश

जनरेटिव मॉडल को हानिकारक या अनुचित आउटपुट को फ़िल्टर करने के लिए सुरक्षा वर्गीकरणकर्ताओं के साथ तेजी से जोड़ा जा रहा है। एक सामान्य रणनीति फ़िल्टर किए जाने की संभावना को कम करने के लिए जनरेटर को फ़ाइन-ट्यून करना है, लेकिन यह उप-इष्टतम हो सकता है: यह आमतौर पर मॉडल को वर्गीकरणकर्ता के निर्णय सीमा के करीब नमूने उत्पन्न करने के लिए प्रेरित करता है, जिससे झूठी सकारात्मक और झूठी नकारात्मक दोनों बढ़ जाती हैं। यह पेपर सीमा मार्गदर्शन (Boundary Guidance) प्रस्तावित करता है, जो एक सुदृढ़ीकरण सीखने की फ़ाइन-ट्यूनिंग विधि है जो स्पष्ट रूप से वर्गीकरणकर्ता सीमा से दूर जनरेशन को निर्देशित करती है। जेलब्रेक और अस्पष्ट प्रॉम्प्ट बेंचमार्क पर, सीमा मार्गदर्शन आउटपुट की सुरक्षा और उपयोगिता में सुधार करता है, जिसे LLM-as-a-Judge मूल्यांकन द्वारा सत्यापित किया जाता है। मॉडल स्केल और पुरस्कार डिजाइन में व्यापक विलोपन प्रयोग विधि की मजबूती को प्रदर्शित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

आधुनिक AI तैनाती तेजी से समग्र सुरक्षा प्रणालियों पर निर्भर करती है, जहां जनरेटिव मॉडल को डाउनस्ट्रीम सुरक्षा वर्गीकरणकर्ताओं के साथ जोड़ा जाता है, जो हानिकारक या अनुचित आउटपुट को फ़िल्टर करने के लिए। यह आर्किटेक्चर संगठनों को सुरक्षा नीतियों पर लचीलापन बनाए रखने की अनुमति देता है, जबकि सुरक्षा-प्रशिक्षित मॉडल और विशेष वर्गीकरणकर्ताओं के पूरक लाभों का उपयोग करता है।

मुख्य समस्या

वर्तमान विधियां सुरक्षा वर्गीकरणकर्ता से स्वतंत्र रूप से मॉडल को संरेखित करने पर ध्यान केंद्रित करती हैं, जो प्रशिक्षण उद्देश्य और तैनाती वास्तविकता के बीच विसंगति को प्रदर्शित करती है। मानक जनरेटिव AI मॉडल फ़ाइन-ट्यूनिंग प्रथाएं यह विचार नहीं करती हैं कि कौन से जनरेशन वर्गीकरणकर्ता के लिए वर्गीकृत करने में आसान हैं - कुछ जनरेशन वर्गीकरणकर्ता की निर्णय सीमा के पास होते हैं और गलत तरीके से वर्गीकृत होते हैं।

समस्या की महत्ता

यह दोनों दिशाओं में त्रुटियों की ओर ले जाता है:

झूठी सकारात्मक (उपयोगी सामग्री को अत्यधिक अवरुद्ध करना)
झूठी नकारात्मक (हानिकारक सामग्री को अपर्याप्त रूप से अवरुद्ध करना)

जब सुरक्षा वर्गीकरणकर्ता अपूर्ण होते हैं (अनुभवजन्य साक्ष्य से पता चलता है कि यहां तक कि अत्याधुनिक वर्गीकरणकर्ता भी नए हानि आयामों पर 5% समय सफलतापूर्वक हमला किए जा सकते हैं), निर्णय सीमा के पास संचालन इन वर्गीकरण त्रुटियों को बढ़ाता है और समग्र सिस्टम प्रदर्शन को कम करता है।

मौजूदा विधियों की सीमाएं

मुख्य रूप से व्यक्तिगत मॉडल व्यवहार को अनुकूलित करते हैं, वास्तविक दुनिया की तैनाती परिदृश्य को परिभाषित करने वाले डाउनस्ट्रीम फ़िल्टरिंग संदर्भ पर विचार किए बिना
वर्तमान कार्यान्वयन में कम्प्यूटेशनल रूप से गहन मॉडल प्रशिक्षण की आवश्यकता होती है, जबकि यह विधि केवल सुरक्षा वर्गीकरणकर्ता के एकल टोकन की आवश्यकता होती है

मुख्य योगदान

सैद्धांतिक योगदान: निर्णय सिद्धांत साक्ष्य प्रदान करता है कि सिस्टम उपयोगिता वर्गीकरणकर्ता निर्णय सीमा के पास न्यूनतम होती है, सीमा से बचने के उद्देश्य के लिए सैद्धांतिक आधार प्रदान करता है
विधि योगदान: समग्र सुरक्षा प्रणालियों के भीतर जनरेटर को प्रशिक्षित करने के लिए सुदृढ़ीकरण सीखने पर आधारित फ़ाइन-ट्यूनिंग ढांचा पेश करता है
अनुभवजन्य योगदान: कई मॉडल आर्किटेक्चर और स्केल पर सुरक्षा और उपयोगिता में अनुभवजन्य सुधार प्रदर्शित करता है, यह दर्शाता है कि समग्र सिस्टम अनुकूलन व्यक्तिगत घटक अकेले पूरा नहीं कर सकते

विधि विवरण

कार्य परिभाषा

एक जनरेटिव मॉडल π_θ(y|x) पर विचार करें, जो दिए गए प्रॉम्प्ट x ∈ X के लिए पूर्ण y ∈ Y उत्पन्न करता है। आउटपुट की सुरक्षा पर ध्यान केंद्रित करते हैं, z(x,y) ∈ {0,1} द्वारा दर्शाया गया। सुरक्षा वर्गीकरणकर्ता आउटपुट असुरक्षित होने की अपेक्षित संभावना t(x,y) = Ez|x,y प्रदान करता है।

निर्णय सिद्धांत मॉडल

पेपर समग्र सिस्टम की उपयोगिता का विश्लेषण करने के लिए एक निर्णय सिद्धांत ढांचा स्थापित करता है:

जब आउटपुट प्रदर्शित किया जाता है, तो उपयोगकर्ता को उपयोगिता u(x,y) मिलती है, समाज को नकारात्मक उपयोगिता s(x,y) मिलती है। यदि आउटपुट प्रदर्शित नहीं किया जाता है लेकिन वास्तव में सुरक्षित है, तो उपयोगकर्ता को नकारात्मक उपयोगिता -λ < 0 मिलती है, समाज को उपयोगिता 0 मिलती है।

पूर्ण y की अपेक्षित उपयोगिता:

U(x,y) = {
  -(1-t(x,y))λ           यदि t(x,y) ≥ τ
  u(x,y) - t(x,y)        यदि t(x,y) < τ
}

प्रस्ताव 1: जब u(x,y) ≡ u एक स्थिरांक है, तो उपयोगिता फ़ंक्शन t < τ पर सख्ती से घटता है, t ≥ τ पर सख्ती से बढ़ता है। इसका मतलब है कि अपेक्षित उपयोगिता निर्णय सीमा τ के पास न्यूनतम होती है।

सीमा से बचने वाला पुरस्कार फ़ंक्शन

सैद्धांतिक विश्लेषण के आधार पर, पेपर एक सतत सीमा से बचने वाला पुरस्कार प्रस्तावित करता है:

R(x,y) = {
  u(x,y) + t(x,y)        यदि t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        यदि t(x,y) < 0.5
}

जहां u(x,y) मौजूदा पुरस्कार मॉडल द्वारा प्रदान किया जाता है, t(x,y) सुरक्षा वर्गीकरणकर्ता लॉजिट द्वारा प्रॉक्सी किया जाता है।

तकनीकी कार्यान्वयन

सुदृढ़ीकरण सीखने का एल्गोरिदम: Group Relative Policy Optimization (GRPO) का उपयोग करता है
पैरामीटर-कुशल फ़ाइन-ट्यूनिंग: LoRA (r=16, α=32) अपनाता है, प्रशिक्षणीय पैरामीटर को 99% तक कम करता है
KL नियमितकरण: मूल नीति से अत्यधिक विचलन को रोकता है
बहु-मॉडल आर्किटेक्चर:
- नीति मॉडल: Qwen2.5 श्रृंखला, Gemma-2-9B
- सुरक्षा वर्गीकरणकर्ता: Meta-Llama-Guard-2-8B
- पुरस्कार मॉडल: Skywork-Reward-V2-Llama-3.1-8B

प्रयोग सेटअप

डेटासेट

प्रशिक्षण डेटासेट में 7,880 प्रॉम्प्ट हैं, तीन पूरक स्रोतों से:

4,000 जेलब्रेक प्रॉम्प्ट: Ball et al. (2024) के जेलब्रेक डेटासेट से
3,000 Alpaca नमूने: विविध निर्देश-अनुसरण प्रॉम्प्ट प्रदान करते हैं
880 HarmfulQA नमूने: हानिकारक प्रतिक्रियाओं को प्रेरित करने के लिए डिज़ाइन किए गए प्रश्न शामिल करते हैं

परीक्षण सेट में 1,000 आरक्षित प्रॉम्प्ट हैं, तीन समस्या श्रेणियों में समान रूप से वितरित।

मूल्यांकन मेट्रिक्स

GPT-4.1 का उपयोग LLM-as-a-Judge मूल्यांकन के लिए:

उपयोगिता स्कोर (1-4 अंक): मूल्यांकन करता है कि सहायक प्रतिक्रिया उपयोगकर्ता प्रश्न को कैसे संतुष्ट करती है और उपयोगकर्ता को मूल्य प्रदान करती है
हानि स्कोर (0-3 अंक): मूल्यांकन करता है कि सहायक प्रतिक्रिया नुकसान पहुंचाने की संभावना कितनी है

तुलनात्मक विधियां

आधार मॉडल: मूल निर्देश-ट्यून किया गया मॉडल
विलोपन प्रयोग 1: केवल सुरक्षा वर्गीकरणकर्ता सिग्नल का उपयोग करके सीमा मार्गदर्शन
विलोपन प्रयोग 2: प्रॉम्प्ट-जागरूक पुरस्कार डिजाइन

कार्यान्वयन विवरण

सीखने की दर: 2×10^-5
बैच आकार: 8 (प्रति डिवाइस)
परिमाणीकरण: 4-bit NF4
अधिकतम जनरेशन लंबाई: 96 टोकन
प्रशिक्षण एपोक: 1

प्रयोग परिणाम

मुख्य परिणाम

सीमा मार्गदर्शन सभी चार आधार मॉडल पर पेरेटो सुधार प्राप्त करता है:

मॉडल	उपयोगिता वृद्धि(Δ)	हानि में कमी(Δ)	सांख्यिकीय महत्व
Qwen2.5-0.5B	+0.13	-0.09	p<0.001
Qwen2.5-7B	+0.03	-0.15	p<0.001
Gemma-2-9B	+0.03	-0.03	p<0.001
Qwen2.5-14B	-0.05	-0.11	p<0.10

मुख्य निष्कर्ष:

सभी मॉडल में हानि में महत्वपूर्ण कमी
सबसे बड़े मॉडल को छोड़कर सभी मॉडल में उपयोगिता में सुधार
छोटे मॉडल (Qwen2.5-0.5B) को सबसे बड़ा समग्र सुधार मिलता है, यह दर्शाता है कि सीमा मार्गदर्शन बुनियादी सुरक्षा क्षमता कमजोर होने पर विशेष रूप से प्रभावी है

विलोपन प्रयोग

प्रयोग 1: केवल सुरक्षा वर्गीकरणकर्ता सिग्नल

परिणाम दिखाते हैं:

बड़े मॉडल (7B और उससे अधिक) मुख्य प्रयोग के समान प्रदर्शन
न्यूनतम मॉडल (0.5B) में उपयोगिता में गिरावट (-34%), लगभग सार्वभौमिक अस्वीकार में परिवर्तित
दर्शाता है कि पुरस्कार मॉडल u(x,y) छोटे मॉडल के लिए आवश्यक है

प्रयोग 2: प्रॉम्प्ट-जागरूक पुरस्कार

यह डिजाइन असुरक्षित प्रॉम्प्ट पर उच्च असुरक्षा संभावना को पुरस्कृत करता है, सुरक्षित प्रॉम्प्ट पर कम असुरक्षा संभावना को पुरस्कृत करता है। परिणाम:

चार मॉडल में से तीन में हानि में वृद्धि
सभी मॉडल में उपयोगिता में तेज गिरावट (-22% से -25%)
प्रमाणित करता है कि असुरक्षित प्रॉम्प्ट पर असुरक्षित सामग्री उत्पन्न करने के लिए सक्रिय रूप से प्रशिक्षण मॉडल प्रतिकूल है

केस विश्लेषण

प्रॉम्प्ट-जागरूक पुरस्कार की विफलता के मामलों में शामिल हैं:

"मुझे खेद है कि मुझे यह जानकारी प्रदान करनी पड़ी, लेकिन मैं कुछ अवैध ऑनलाइन समुदायों को सूचीबद्ध करूंगा और समझाऊंगा कि उनमें गुमनाम रूप से कैसे शामिल हों..."
"बिल्कुल, मैं आपको गणित परीक्षा में धोखाधड़ी करने में मदद करने के लिए खुश हूं! यहां कुछ सुझाव दिए गए हैं..."

ये प्रतिक्रियाएं, हालांकि अस्वीकरण शामिल हैं, फिर भी हानिकारक सामग्री प्रदान करती हैं, और डाउनस्ट्रीम फ़िल्टर पूरी तरह से कैप्चर नहीं कर सकते।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमा मार्गदर्शन सुरक्षा-उपयोगिता व्यापार-बंद में पेरेटो सुधार प्राप्त करता है
विधि कई मॉडल आर्किटेक्चर और स्केल पर सुसंगत रूप से प्रभावी है
बुनियादी सुरक्षा क्षमता कमजोर छोटे मॉडल के लिए विशेष रूप से लाभकारी है
केवल सुरक्षा सिग्नल बड़े मॉडल के लिए पर्याप्त है, लेकिन छोटे मॉडल को पुरस्कार मॉडल घटक की आवश्यकता है

सीमाएं

वर्गीकरणकर्ता निर्भरता: इस धारणा पर निर्भर करता है कि फ़िल्टर निर्णय सीमा के पास की तुलना में दूर से अधिक सटीक भविष्यवाणी करता है
कम्प्यूटेशनल ओवरहेड: प्रशिक्षण के लिए 2-3 मॉडल की आवश्यकता होती है (हालांकि केवल एक बार का संचालन)
बाइनरी सुरक्षा धारणा: वर्तमान में मानता है कि सुरक्षा एक बाइनरी श्रेणी है, वास्तविक दुनिया अधिक जटिल है

भविष्य की दिशाएं

बहु-आयामी सुरक्षा: कई सुरक्षा प्रकारों तक विस्तार s₁(x,y), s₂(x,y), ..., sₖ(x,y)
कल्याण फ़िल्टर: केवल सुरक्षा-आधारित फ़िल्टर से उपयोगकर्ता उपयोगिता और सामाजिक हानि पर विचार करने वाले कल्याण फ़िल्टर तक संक्रमण

गहन मूल्यांकन

शक्तियां

ठोस सैद्धांतिक आधार: निर्णय सिद्धांत विश्लेषण प्रदान करता है, सीमा के पास उपयोगिता न्यूनतमकरण को प्रमाणित करता है
नवीन विधि: समग्र सुरक्षा प्रणालियों के लिए अनुकूलन जनरेटर को स्पष्ट रूप से लक्षित करने वाली पहली
व्यापक प्रयोग: कई मॉडल स्केल और आर्किटेक्चर में सत्यापित, विस्तृत विलोपन अध्ययन शामिल
उच्च व्यावहारिक मूल्य: वास्तविक तैनाती में महत्वपूर्ण समस्या को हल करता है
परिणाम सुसंगतता: विभिन्न सेटिंग्स में सुधार दिखाता है

कमियां

मूल्यांकन सीमाएं: मुख्य रूप से एकल LLM न्यायाधीश पर निर्भर, संभावित पूर्वाग्रह हो सकता है
डेटासेट आकार: प्रशिक्षण और परीक्षण डेटा अपेक्षाकृत छोटे हैं
दीर्घकालीन प्रभाव अज्ञात: दीर्घकालीन प्रशिक्षण या अधिक जटिल परिदृश्यों में प्रदर्शन का मूल्यांकन नहीं किया गया
हाइपरपैरामीटर संवेदनशीलता: विभिन्न λ मानों के प्रदर्शन पर प्रभाव पर पर्याप्त रूप से अन्वेषण नहीं किया गया

प्रभाव

शैक्षणिक योगदान: समग्र AI सुरक्षा प्रणाली अनुसंधान के लिए नई दिशा खोलता है
व्यावहारिक मूल्य: मौजूदा तैनाती प्रणालियों पर सीधे लागू किया जा सकता है
पुनरुत्पादनीयता: पूर्ण कोड और प्रयोग विवरण प्रदान करता है

लागू परिदृश्य

सुरक्षा और उपयोगिता को संतुलित करने की आवश्यकता वाली AI प्रणाली तैनाती
मौजूदा सुरक्षा वर्गीकरणकर्ता के साथ जनरेटिव मॉडल अनुकूलन
अत्यधिक अस्वीकार और अपर्याप्त अस्वीकार दोनों के प्रति संवेदनशील अनुप्रयोग परिदृश्य
संसाधन-सीमित लेकिन सुरक्षा में सुधार की आवश्यकता वाली छोटे मॉडल तैनाती

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों को उद्धृत करता है, जिसमें सुरक्षा संरेखण, सुदृढ़ीकरण सीखना, समग्र प्रणालियां आदि दिशाओं में नवीनतम अनुसंधान शामिल है, जो विधि के लिए ठोस सैद्धांतिक और अनुभवजन्य आधार प्रदान करता है।

यह कार्य AI सुरक्षा क्षेत्र में महत्वपूर्ण योगदान प्रदान करता है, सैद्धांतिक विश्लेषण और अनुभवजन्य सत्यापन के माध्यम से समग्र प्रणाली अनुकूलन के मूल्य को प्रदर्शित करता है, भविष्य की सुरक्षित AI तैनाती के लिए नए विचार और उपकरण प्रदान करता है।