2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

academic

मॉडल को उच्च-जोखिम डेटा को समझना (लेकिन उत्पन्न नहीं करना) सिखाना

मूल जानकारी

पेपर ID: 2505.03052
शीर्षक: Teaching Models to Understand (but not Generate) High-risk Data
लेखक: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
वर्गीकरण: cs.CL cs.LG
प्रकाशन सम्मेलन: COLM 2025
पेपर लिंक: https://arxiv.org/abs/2505.03052

सारांश

भाषा मॉडल विकासकर्ता आमतौर पर अपने पूर्व-प्रशिक्षण डेटा से उच्च-जोखिम सामग्री -- जैसे विषाक्त या कॉपीराइट किया गया पाठ -- को फ़िल्टर करते हैं ताकि मॉडल समान आउटपुट उत्पन्न न करें। हालांकि, ऐसे डेटा को पूरी तरह से हटाने से मॉडल की हानिकारक या संवेदनशील सामग्री को पहचानने और उचित प्रतिक्रिया देने की क्षमता सीमित हो जाती है। इस पेपर में, हम Selective Loss to Understand but Not Generate (SLUNG) प्रस्तुत करते हैं, एक पूर्व-प्रशिक्षण प्रतिमान जिसके माध्यम से मॉडल उच्च-जोखिम डेटा को समझना सीखते हैं लेकिन इसे उत्पन्न नहीं करते हैं। अगले-टोकन भविष्यवाणी हानि को समान रूप से लागू करने के बजाय, SLUNG चुनिंदा रूप से उच्च-जोखिम टोकन के उत्पादन को प्रोत्साहित करने से बचता है जबकि यह सुनिश्चित करता है कि वे मॉडल की संदर्भ विंडो के भीतर रहें। जैसे-जैसे मॉडल उच्च-जोखिम वाले टोकन के बाद आने वाले कम-जोखिम वाले टोकन की भविष्यवाणी करना सीखता है, यह उच्च-जोखिम सामग्री को समझने के लिए बाध्य होता है। हमारे प्रयोगों के माध्यम से, हम दिखाते हैं कि SLUNG लगातार उच्च-जोखिम डेटा की समझ में सुधार करता है (उदाहरण के लिए, विषाक्त सामग्री को पहचानने की क्षमता) इसके उत्पादन को बढ़ाए बिना (उदाहरण के लिए, मॉडल प्रतिक्रियाओं की विषाक्तता)। कुल मिलाकर, हमारा SLUNG प्रतिमान मॉडल को उच्च-जोखिम पाठ से लाभ उठाने में सक्षम बनाता है जो अन्यथा फ़िल्टर किया जाता।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या पृष्ठभूमि

वर्तमान भाषा मॉडल विकास में एक मौलिक विरोधाभास मौजूद है: हानिकारक सामग्री (जैसे विषाक्त पाठ, कॉपीराइट सामग्री आदि) उत्पन्न करने से मॉडल को रोकने के लिए, विकासकर्ता आमतौर पर पूर्व-प्रशिक्षण डेटा से इस उच्च-जोखिम सामग्री को फ़िल्टर करते हैं। हालांकि, यह दृष्टिकोण मॉडल की सुरक्षा में सुधार करता है, लेकिन इस प्रकार की सामग्री को पहचानने और उचित प्रतिक्रिया देने की क्षमता को सीमित करता है।

मूल समस्या

डेटा फ़िल्टरिंग के दुष्प्रभाव: उच्च-जोखिम डेटा को पूरी तरह से हटाने से मॉडल की इस प्रकार की सामग्री को समझने की क्षमता में कमी आती है
समझ और उत्पादन का युग्मन: पारंपरिक अगले-टोकन भविष्यवाणी उद्देश्य मूलतः मॉडल की समझ क्षमता और उत्पादन क्षमता को एक साथ जोड़ता है
वास्तविक तैनाती की आवश्यकता: व्यावहारिक अनुप्रयोगों में, मॉडल को हानिकारक अनुरोधों को पहचानने और संभालने में सक्षम होने की आवश्यकता है, लेकिन इसके लिए हानिकारक सामग्री की कुछ समझ आवश्यक है

अनुसंधान प्रेरणा

लेखक "दोनों दुनियाओं का सर्वश्रेष्ठ" प्रभाव प्राप्त करने का प्रस्ताव करते हैं: ऐसे मॉडल को प्रशिक्षित करना जो उच्च-जोखिम डेटा को समझ सकता है लेकिन इस प्रकार की सामग्री उत्पन्न नहीं करेगा। इसके लिए मानक अगले-टोकन भविष्यवाणी उद्देश्य से परे जाने और मॉडल की समझ क्षमता और उत्पादन क्षमता को अलग करने की आवश्यकता है।

मुख्य योगदान

SLUNG ढांचा प्रस्तुत करना: एक नया पूर्व-प्रशिक्षण प्रतिमान जो चुनिंदा हानि फ़ंक्शन के माध्यम से समझ और उत्पादन को अलग करता है
तकनीकी नवाचार: टोकन जोखिम स्तर के आधार पर विभेदित प्रशिक्षण रणनीति डिजाइन करना, जिसमें Masked SLUNG और Unlikelihood SLUNG दो कार्यान्वयन शामिल हैं
प्रायोगिक सत्यापन: विषाक्तता सामग्री समझ और काल्पनिक इकाई सीखने के दो परिदृश्यों में विधि की प्रभावशीलता को सत्यापित करना
सैद्धांतिक योगदान: सुरक्षित और सक्षम भाषा मॉडल विकास के लिए नया ढांचा और विचार प्रदान करना

विधि विवरण

कार्य परिभाषा

पूर्व-प्रशिक्षण दस्तावेज़ $X = (x_1, x_2, ..., x_{|X|})$ दिया गया है, प्रत्येक टोकन के पास संबंधित बाइनरी लेबल $(l_1, l_2, ..., l_{|X|})$ है, जहां $l_i \in \{0,1\}$ यह दर्शाता है कि i-वां टोकन उच्च-जोखिम टोकन है ( $l_i = 1$ ) या कम-जोखिम टोकन ( $l_i = 0$ )।

लक्ष्य एक मॉडल को प्रशिक्षित करना है जो उच्च-जोखिम span को उच्च भ्रम दर प्रदान करता है, जबकि उच्च-जोखिम सामग्री द्वारा संभावित रूप से शर्तबद्ध कम-जोखिम span को कम भ्रम दर बनाए रखता है।

मॉडल आर्किटेक्चर

SLUNG मूल विचार

SLUNG का मुख्य नवाचार विभिन्न जोखिम स्तरों के टोकन के लिए विभिन्न हानि कार्यों का उपयोग करना है:

$L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]$

जहां:

उच्च-जोखिम टोकन ( $l_i = 1$ ) कस्टम हानि फ़ंक्शन $f_\theta(x_i | x_{<i})$ का उपयोग करते हैं
कम-जोखिम टोकन ( $l_i = 0$ ) मानक अधिकतम संभावना उद्देश्य का उपयोग करते हैं
सभी टोकन मॉडल की संदर्भ विंडो में संरक्षित रहते हैं

दो विशिष्ट कार्यान्वयन

1. Masked SLUNG उच्च-जोखिम टोकन के लिए $f_\theta(x_i | x_{<i}) = 0$ सेट करना, अर्थात् इसके उत्पादन हानि को मास्क करना, लेकिन टोकन अभी भी ध्यान तंत्र के लिए दृश्यमान है।

2. Unlikelihood SLUNG
उच्च-जोखिम टोकन पर $f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i}))$ लागू करना, स्पष्ट रूप से मॉडल को उच्च-जोखिम टोकन को उच्च संभावना प्रदान करने के लिए दंडित करना।

तकनीकी नवाचार बिंदु

अलग डिजाइन: पूर्व-प्रशिक्षण चरण में समझ और उत्पादन क्षमता को अलग करने वाला पहला कार्य
संदर्भ संरक्षण: उच्च-जोखिम टोकन हालांकि हानि गणना में भाग नहीं लेते या दंडित नहीं होते, लेकिन अभी भी संदर्भ में हैं, यह सुनिश्चित करते हुए कि मॉडल उनके प्रतिनिधित्व को सीख सकता है
अप्रत्यक्ष सीखने की व्यवस्था: उच्च-जोखिम सामग्री के बाद आने वाले कम-जोखिम टोकन की भविष्यवाणी करके सीखकर, मॉडल को उच्च-जोखिम सामग्री को समझने के लिए बाध्य करना
लचीला ढांचा: किसी भी जोखिम पहचान वर्गीकरण के साथ उपयोग किया जा सकता है

प्रायोगिक सेटअप

प्रयोग एक: विषाक्तता सामग्री समझ

डेटासेट

आधार मॉडल: OLMo 1B (checkpoint 737 से निरंतर पूर्व-प्रशिक्षण)
प्रशिक्षण डेटा: मूल Dolma डेटासेट के अंतिम 40 बिलियन टोकन + इंजेक्ट किए गए विषाक्त Reddit दस्तावेज़ (लगभग 2.12 बिलियन टोकन, 5% का प्रतिनिधित्व करते हैं)
विषाक्तता वर्गीकरण: FastText विषाक्तता वर्गीकरण का उपयोग करके, सामग्री को Not Toxic, Possibly Toxic और Definitely Toxic में विभाजित करना

तुलनात्मक विधियां

Control (OLMo 1B): विषाक्त डेटा के संपर्क में न आने वाला मूल मॉडल
Low-risk Baseline: केवल गैर-विषाक्त Reddit सामग्री पर प्रशिक्षण
Toxic Baseline: सभी डेटा (विषाक्त सामग्री सहित) पर मानक अधिकतम संभावना प्रशिक्षण
Masked SLUNG: Definitely Toxic और Possibly Toxic टोकन के लिए हानि को मास्क करना
Unlikelihood SLUNG: Definitely Toxic टोकन पर unlikelihood हानि लागू करना

प्रयोग दो: काल्पनिक इकाई सीखना

डेटासेट

TOFU डेटासेट: संश्लेषित लेखक प्रोफाइल के साथ प्रश्न-उत्तर जोड़े
प्रशिक्षण सेटअप: केवल उत्तर कॉलम पर सूक्ष्म-ट्यूनिंग, इकाई नाम को उच्च-जोखिम टोकन के रूप में चिह्नित किया गया
उद्देश्य: इकाई से संबंधित तथ्य सीखना लेकिन इकाई नाम उत्पन्न करने से बचना

मूल्यांकन मेट्रिक्स

विषाक्तता प्रयोग

उत्पादन मूल्यांकन: RealToxicityPrompts का उपयोग करके मॉडल के विषाक्त सामग्री उत्पन्न करने की प्रवृत्ति का मूल्यांकन, Perspective API स्कोरिंग के माध्यम से
समझ मूल्यांकन: CivilComments डेटासेट पर रैखिक जांच प्रशिक्षण, मॉडल छिपी हुई स्थिति की विषाक्तता वर्गीकरण क्षमता का मूल्यांकन (AUROC)

इकाई सीखने का प्रयोग

उत्पादन मूल्यांकन: मॉडल आउटपुट में इकाई नाम के अनुपात को मापना
समझ मूल्यांकन: तथ्यात्मक प्रश्नों का सही उत्तर देने की मॉडल की क्षमता का मूल्यांकन करने के लिए GPT-4o का उपयोग करना

प्रायोगिक परिणाम

मुख्य परिणाम

विषाक्तता प्रयोग मुख्य निष्कर्ष

पेरेटो अनुकूलता: SLUNG विधि समझ-उत्पादन व्यापार में पेरेटो सीमांत तक पहुंचती है, विषाक्तता समझ क्षमता में सुधार करते हुए विषाक्तता उत्पादन को कम करती है
समझ क्षमता में सुधार: Masked SLUNG और Unlikelihood SLUNG CivilComments पर क्रमशः लगभग 0.825 और 0.820 AUROC तक पहुंचते हैं, Control आधार रेखा के 0.810 से काफी बेहतर
उत्पादन सुरक्षा: दोनों SLUNG विधियों की विषाक्तता उत्पादन स्कोर लगभग 0.165 पर नियंत्रित रहती है, Toxic Baseline के 0.175 से बहुत कम
निर्देश सूक्ष्म-ट्यूनिंग के बाद प्रभाव जारी रहता है: निर्देश सूक्ष्म-ट्यूनिंग के बाद भी, SLUNG विधि पेरेटो अनुकूलता बनाए रखती है

डेटा स्केल प्रभाव

विषाक्त डेटा को 20M से 320M टोकन तक बढ़ाने के साथ:

Masked SLUNG लगातार सर्वश्रेष्ठ समझ-उत्पादन व्यापार बनाए रखता है
समझ क्षमता डेटा मात्रा के साथ रैखिक रूप से सुधरती है, लेकिन विषाक्तता उत्पादन धीरे-धीरे बढ़ता है
SLUNG की अच्छी स्केलेबिलिटी को प्रमाणित करता है

इकाई सीखने का प्रयोग परिणाम

विधि	नाम उत्पादन दर↓	पूरी तरह सही दर↑	आंशिक सही दर↑
OLMo 1B	57.5%	3.5%	15.5%
Direct training	34.3±9.2%	28.2±0.6%	51.4±0.7%
Masked SLUNG	4.1±1.2%	20.8±1.9%	44.0±2.1%
Unlikelihood SLUNG	1.5±0.7%	22.3±2.1%	43.6±3.2%

विलोपन प्रयोग

भ्रम दर विश्लेषण

सभी विधियों में Dolma दस्तावेज़ों पर भ्रम दर में कोई महत्वपूर्ण अंतर नहीं है, यह दर्शाता है कि SLUNG सामान्य भाषा मॉडलिंग क्षमता को नुकसान नहीं पहुंचाता है
Masked SLUNG गैर-विषाक्त Reddit दस्तावेज़ों पर सबसे कम भ्रम दर रखता है
Unlikelihood SLUNG Reddit डोमेन पर अधिक भ्रम दर रखता है, संभवतः क्योंकि unlikelihood हानि ने उस डोमेन के उत्पादन वितरण को प्रभावित किया

केस विश्लेषण

TOFU प्रयोग में, SLUNG मॉडल ने सर्वनाम ("he", "she") का उपयोग करके या विषय को छोड़कर प्रश्नों का उत्तर देना सीखा, इकाई नाम उत्पन्न करने से सफलतापूर्वक बचते हुए तथ्यात्मक जानकारी को संरक्षित रखा।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

SLUNG भाषा मॉडल समझ और उत्पादन क्षमता को सफलतापूर्वक अलग करता है, सुरक्षित AI विकास के लिए नया प्रतिमान प्रदान करता है
यह विधि विषाक्तता सामग्री और इकाई सीखने के दो अलग-अलग परिदृश्यों में उत्कृष्ट प्रदर्शन करती है, इसकी सार्वभौमिकता को प्रमाणित करती है
SLUNG मॉडल को मूल रूप से फ़िल्टर किए जाने वाले उच्च-जोखिम पाठ से लाभ उठाने में सक्षम बनाता है, डेटा उपयोग दक्षता में सुधार करता है

सीमाएं

कम्प्यूटेशनल बजट सीमा: प्रयोग निरंतर पूर्व-प्रशिक्षण का उपयोग करते हैं न कि शुरुआत से प्रशिक्षण, जो विधि की पूरी क्षमता को कम आंक सकता है
वर्गीकरण निर्भरता: विधि प्रभाव जोखिम पहचान वर्गीकरण की गुणवत्ता पर निर्भर करता है
मूल्यांकन सीमा: मुख्य रूप से 1B पैरामीटर मॉडल पर सत्यापित, बड़े-पैमाने पर मॉडल के प्रभाव की प्रतीक्षा है
डोमेन विशिष्टता: Unlikelihood SLUNG विशिष्ट डोमेन की उत्पादन क्षमता को प्रभावित कर सकता है

भविष्य की दिशा

बड़े-पैमाने पर पूर्व-प्रशिक्षण: पूर्ण पूर्व-प्रशिक्षण सेटिंग में SLUNG प्रभाव का मूल्यांकन करना
हमले प्रतिरोध अनुसंधान: jailbreak हमलों के प्रति SLUNG के प्रतिरोध की क्षमता का अन्वेषण करना
वर्गीकरण सुधार: अधिक सटीक जोखिम पहचान प्रणाली विकसित करना
सैद्धांतिक विश्लेषण: अलग करने की व्यवस्था के सैद्धांतिक आधार को गहराई से समझना

गहन मूल्यांकन

लाभ

मजबूत नवाचार: पूर्व-प्रशिक्षण चरण में समझ और उत्पादन को अलग करने वाला पहला कार्य, विचार नवीन है
उच्च व्यावहारिक मूल्य: AI सुरक्षा क्षेत्र की महत्वपूर्ण समस्या को हल करता है, व्यापक अनुप्रयोग संभावनाएं हैं
पर्याप्त प्रयोग: दो अलग-अलग परिदृश्यों में सत्यापित, कई तुलनात्मक विधियां और विलोपन प्रयोग शामिल हैं
सरल विधि: कार्यान्वयन अपेक्षाकृत सरल है, पुनरुत्पादन और अनुप्रयोग में आसान है
स्पष्ट सिद्धांत: अलग करने की व्यवस्था के सिद्धांत स्पष्ट हैं, गणितीय अभिव्यक्ति कठोर है

कमियां

स्केल सीमा: प्रयोग मुख्य रूप से छोटे-पैमाने पर मॉडल पर किए गए हैं, बड़े मॉडल के प्रभाव अज्ञात हैं
मूल्यांकन सीमा: विषाक्तता पहचान विशिष्ट वर्गीकरण पर निर्भर करती है, संभावित पूर्वाग्रह हो सकता है
दीर्घकालीन प्रभाव: विधि के मॉडल के दीर्घकालीन व्यवहार पर प्रभाव का मूल्यांकन नहीं किया गया है
कम्प्यूटेशनल ओवरहेड: अतिरिक्त जोखिम एनोटेशन की आवश्यकता है, पूर्व-प्रसंस्करण लागत में वृद्धि करता है

प्रभाव

शैक्षणिक योगदान: AI सुरक्षा अनुसंधान के लिए नया विचार प्रदान करता है, बाद के कार्यों को प्रेरित कर सकता है
व्यावहारिक मूल्य: औद्योगिक भाषा मॉडल विकास के लिए सीधा मार्गदर्शन प्रदान करता है
पुनरुत्पादनीयता: लेखक कोड को खुला करने का वादा करते हैं, समुदाय सत्यापन और विस्तार को सुविधाजनक बनाता है

लागू परिदृश्य

सामग्री समीक्षा प्रणाली: हानिकारक सामग्री की पहचान करने की आवश्यकता वाले अनुप्रयोग लेकिन उत्पादन नहीं करना
कॉपीराइट सुरक्षा: कॉपीराइट सामग्री सीखने लेकिन प्रत्यक्ष प्रतिलिपि से बचने के परिदृश्य
संवेदनशील जानकारी हैंडलिंग: गोपनीयता जानकारी को समझने लेकिन प्रकट न करने वाली प्रणाली
शैक्षणिक अनुप्रयोग: अनुचित सामग्री को समझने की आवश्यकता वाले परिदृश्य लेकिन प्रसार नहीं करना

संदर्भ

पेपर कई महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

Longpre et al. (2023): पूर्व-प्रशिक्षण डेटा के मॉडल क्षमता पर प्रभाव के बारे में अनुसंधान
Welleck et al. (2019): Unlikelihood training का मूल कार्य
Soldaini et al. (2024): Dolma डेटासेट निर्माण और फ़िल्टरिंग विधि
Gehman et al. (2020): RealToxicityPrompts मूल्यांकन बेंचमार्क

यह पेपर भाषा मॉडल सुरक्षा प्रशिक्षण के लिए महत्वपूर्ण पद्धति योगदान प्रदान करता है, चतुर हानि फ़ंक्शन डिजाइन के माध्यम से समझ और उत्पादन को अलग करता है, भविष्य के सुरक्षित AI अनुसंधान के लिए आधार तैयार करता है।