Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.
- معرّف الورقة: 2505.03052
- العنوان: Teaching Models to Understand (but not Generate) High-risk Data
- المؤلفون: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
- التصنيف: cs.CL cs.LG
- المؤتمر: COLM 2025
- رابط الورقة: https://arxiv.org/abs/2505.03052
يقوم مطورو نماذج اللغة عادةً بتصفية المحتوى عالي المخاطر -- مثل النصوص السامة أو المحمية بحقوق الطبع -- من بيانات ما قبل التدريب لمنع النماذج من توليد مخرجات مماثلة. ومع ذلك، فإن إزالة هذه البيانات بالكامل تحد من قدرة النماذج على التعرف والاستجابة المناسبة للمحتوى الضار أو الحساس. في هذه الورقة، نقدم الخسارة الانتقائية للفهم لكن ليس التوليد (SLUNG)، وهي نموذج ما قبل تدريب يتعلم من خلاله النموذج فهم البيانات عالية المخاطر دون تعلم توليدها. بدلاً من تطبيق خسارة التنبؤ بالرمز التالي بشكل موحد، يتجنب SLUNG بشكل انتقائي تحفيز توليد الرموز عالية المخاطر مع ضمان بقاؤها ضمن نافذة السياق للنموذج. عندما يتعلم النموذج التنبؤ برموز منخفضة المخاطر التي تتبع الرموز عالية المخاطر، يُجبر على فهم المحتوى عالي المخاطر. من خلال تجاربنا، نوضح أن SLUNG يحسن باستمرار فهم النموذج للبيانات عالية المخاطر (على سبيل المثال، القدرة على التعرف على المحتوى السام) دون زيادة توليده (على سبيل المثال، سمية استجابات النموذج). بشكل عام، يمكّن نموذج SLUNG النماذج من الاستفادة من النصوص عالية المخاطر التي كانت ستُصفى بطريقة أخرى.
يوجد تناقض أساسي في تطوير نماذج اللغة الحالية: لمنع النموذج من توليد محتوى ضار (مثل النصوص السامة والمحتوى المحمي بحقوق الطبع)، يقوم المطورون عادةً بتصفية هذا المحتوى عالي المخاطر من بيانات ما قبل التدريب. ومع ذلك، بينما تحسن هذه الممارسة أمان النموذج، فإنها تحد من قدرة النموذج على التعرف والاستجابة المناسبة للمحتوى الضار أو الحساس.
- الآثار الجانبية لتصفية البيانات: إزالة البيانات عالية المخاطر بالكامل تقلل من قدرة النموذج على فهم هذا النوع من المحتوى
- الاقتران بين الفهم والتوليد: الهدف التقليدي للتنبؤ بالرمز التالي يربط بشكل أساسي بين قدرة الفهم والتوليد للنموذج
- متطلبات النشر الفعلي: في التطبيقات العملية، يحتاج النموذج إلى أن يكون قادراً على التعرف على الطلبات الضارة والتعامل معها، وهذا يتطلب فهماً معيناً للمحتوى الضار
يقترح المؤلفون الحصول على "أفضل ما في العالمين": تدريب نموذج يمكنه فهم البيانات عالية المخاطر دون توليد هذا النوع من المحتوى. يتطلب هذا تجاوز هدف التنبؤ بالرمز التالي القياسي وفصل قدرات الفهم والتوليد للنموذج.
- اقتراح إطار عمل SLUNG: نموذج ما قبل تدريب جديد يحقق فصل الفهم والتوليد من خلال دالة خسارة انتقائية
- الابتكار التقني: تصميم استراتيجية تدريب متمايزة بناءً على مستوى مخاطر الرمز، بما في ذلك تطبيقان: Masked SLUNG و Unlikelihood SLUNG
- التحقق التجريبي: التحقق من فعالية الطريقة في سيناريوهين: فهم المحتوى السام وتعلم الكيانات الخيالية
- المساهمة النظرية: توفير إطار عمل وأفكار جديدة لتطوير نماذج لغة آمنة وقادرة
بالنظر إلى مستند ما قبل التدريب X=(x1,x2,...,x∣X∣)، كل رمز له تسمية ثنائية مقابلة (l1,l2,...,l∣X∣)، حيث li∈{0,1} يشير إلى ما إذا كان الرمز i عالي المخاطر (li=1) أو منخفض المخاطر (li=0).
الهدف هو تدريب نموذج بحيث يخصص ارتباكاً عالياً لنطاقات عالية المخاطر، مع الحفاظ على ارتباك منخفض لنطاقات منخفضة المخاطر التي قد تكون مشروطة بمحتوى عالي المخاطر.
الابتكار الرئيسي لـ SLUNG هو استخدام دوال خسارة مختلفة للرموز ذات مستويات مخاطر مختلفة:
L(θ,X)=−∑i=1∣X∣[1[li=1]fθ(xi∣x<i)+1[li=0]logpθ(xi∣x<i)]
حيث:
- الرموز عالية المخاطر (li=1) تستخدم دالة خسارة مخصصة fθ(xi∣x<i)
- الرموز منخفضة المخاطر (li=0) تستخدم الهدف القياسي للاحتمالية القصوى
- جميع الرموز تبقى في نافذة السياق للنموذج
1. Masked SLUNG
تعيين fθ(xi∣x<i)=0 للرموز عالية المخاطر، أي إخفاء خسارة التوليد الخاصة بها، لكن الرمز يبقى مرئياً لآلية الاهتمام.
2. Unlikelihood SLUNG
تطبيق fθ(xi∣x<i)=log(1−pθ(xi∣x<i)) على الرموز عالية المخاطر، معاقبة صريحة للنموذج على تخصيص احتمالية عالية للرموز عالية المخاطر.
- تصميم الفصل: أول تطبيق لفصل قدرات الفهم والتوليد في مرحلة ما قبل التدريب
- الحفاظ على السياق: بينما لا تشارك الرموز عالية المخاطر في حساب الخسارة أو لا تُعاقب، إلا أنها تبقى في السياق، مما يضمن تعلم النموذج لتمثيلاتها
- آلية التعلم غير المباشر: من خلال تعلم التنبؤ برموز منخفضة المخاطر تتبع المحتوى عالي المخاطر، يُجبر النموذج على فهم المحتوى عالي المخاطر
- إطار عمل مرن: يمكن استخدامه مع أي مصنف كشف مخاطر
- النموذج الأساسي: OLMo 1B (استمرار ما قبل التدريب من checkpoint 737)
- بيانات التدريب: آخر 4 مليارات رمز من مجموعة بيانات Dolma الأصلية + مستندات Reddit سامة مُدرجة (حوالي 2.12 مليار رمز، تمثل 5%)
- تصنيف السمية: استخدام مصنف FastText للسمية، تقسيم المحتوى إلى ثلاث فئات: Not Toxic و Possibly Toxic و Definitely Toxic
- Control (OLMo 1B): النموذج الأصلي الذي لم يتعرض لبيانات سامة
- Low-risk Baseline: التدريب فقط على محتوى Reddit غير السام
- Toxic Baseline: التدريب على جميع البيانات (بما في ذلك المحتوى السام) باستخدام الاحتمالية القصوى القياسية
- Masked SLUNG: إخفاء الخسارة للرموز Definitely Toxic و Possibly Toxic
- Unlikelihood SLUNG: تطبيق خسارة unlikelihood على رموز Definitely Toxic
- مجموعة بيانات TOFU: تحتوي على أزواج أسئلة وأجوبة مع ملفات تعريف مؤلفين اصطناعية
- إعداد التدريب: الضبط الدقيق فقط على عمود الإجابات، مع تسمية أسماء الكيانات كرموز عالية المخاطر
- الهدف: تعلم حقائق متعلقة بالكيان مع تجنب توليد أسماء الكيانات
- تقييم التوليد: استخدام RealToxicityPrompts لتقييم ميل النموذج لتوليد محتوى سام، من خلال درجات Perspective API
- تقييم الفهم: تدريب مسبار خطي على مجموعة بيانات CivilComments، تقييم قدرة الحالات المخفية للنموذج على تصنيف السمية (AUROC)
- تقييم التوليد: قياس نسبة مخرجات النموذج لأسماء الكيانات
- تقييم الفهم: استخدام GPT-4o لتقييم صحة إجابات النموذج على الأسئلة الواقعية
- الأمثلية الباريتية: تحقق طريقة SLUNG الحد الأمامي لـ Pareto في المقايضة بين الفهم والتوليد، محسّنة لقدرة فهم السمية مع تقليل توليد السمية
- تحسن قدرة الفهم: حقق Masked SLUNG و Unlikelihood SLUNG AUROC بحوالي 0.825 و 0.820 على CivilComments على التوالي، متفوقاً بشكل ملحوظ على خط أساس Control البالغ 0.810
- أمان التوليد: كلا طريقتي SLUNG تحافظ على درجة توليد السمية حول 0.165، أقل بكثير من Toxic Baseline البالغة 0.175
- الاستمرارية بعد الضبط الدقيق للتعليمات: بعد الضبط الدقيق للتعليمات، تحافظ طرق SLUNG على الأمثلية الباريتية
مع زيادة بيانات السمية من 20M إلى 320M رمز:
- يحافظ Masked SLUNG باستمرار على أفضل مقايضة بين الفهم والتوليد
- تتحسن قدرة الفهم خطياً مع حجم البيانات، لكن نمو توليد السمية بطيء
- يثبت قابلية التوسع الجيدة لـ SLUNG
| الطريقة | معدل توليد الأسماء↓ | معدل الصحة الكاملة↑ | معدل الصحة الجزئية↑ |
|---|
| OLMo 1B | 57.5% | 3.5% | 15.5% |
| التدريب المباشر | 34.3±9.2% | 28.2±0.6% | 51.4±0.7% |
| Masked SLUNG | 4.1±1.2% | 20.8±1.9% | 44.0±2.1% |
| Unlikelihood SLUNG | 1.5±0.7% | 22.3±2.1% | 43.6±3.2% |
- جميع الطرق لا تظهر فروقات كبيرة في الارتباك على مستندات Dolma، مما يشير إلى أن SLUNG لا يضر بقدرة نمذجة اللغة العامة
- يحقق Masked SLUNG أقل ارتباك على مستندات Reddit غير السامة
- يحقق Unlikelihood SLUNG ارتباكاً أعلى في مجال Reddit، ربما لأن خسارة unlikelihood تؤثر على توزيع التوليد لهذا المجال
في تجربة TOFU، تعلم نموذج SLUNG استخدام الضمائر ("he"، "she") أو حذف الموضوع للإجابة على الأسئلة، بنجاح تجنب توليد أسماء الكيانات مع الحفاظ على المعلومات الواقعية.
- تركز الأعمال الموجودة بشكل أساسي على حل مشكلة المحتوى عالي المخاطر من خلال التصفية
- يستخدم Grattafiori et al. (2024) و Soldaini et al. (2024) وآخرون تصفية على مستوى المستند أو النطاق
- بينما تحسن هذه الطرق الأمان، فإنها تفقد تنوع البيانات
- تدريب Unlikelihood: معاقبة الاحتمالية العالية للتسلسلات السيئة
- التعلم المقارن: تعزيز المرشحين المفضلين من خلال المقارنة
- RLHF: قمع التوليد الضار من خلال ملاحظات الإنسان
- تركز هذه الطرق بشكل أساسي على قمع التوليد، دون تقييم صريح لقدرة الفهم
- فك التشفير الموجه بالمصنف: استخدام مصنف مساعد لتعديل احتمالية التوليد
- طريقة الرمز المراقب: تشريط التوليد من خلال رموز خاصة
- DExperts: استخدام نماذج خبير "جيدة" و"سيئة" لتوجيه التوليد
- حقق SLUNG بنجاح فصل قدرات الفهم والتوليد في نماذج اللغة، مما يوفر نموذجاً جديداً لتطوير الذكاء الاصطناعي الآمن
- تظهر الطريقة أداءً ممتازاً في سيناريوهين مختلفين (المحتوى السام وتعلم الكيانات)، مما يثبت عموميتها
- يمكّن SLUNG النماذج من الاستفادة من النصوص عالية المخاطر التي كانت ستُصفى بطريقة أخرى، محسّناً كفاءة استخدام البيانات
- قيود الميزانية الحسابية: استخدمت التجارب ما قبل التدريب المستمر بدلاً من التدريب من الصفر، قد يقلل من الإمكانات الكاملة للطريقة
- الاعتماد على المصنف: تعتمد فعالية الطريقة على جودة مصنف كشف المخاطر
- نطاق التقييم: تم التحقق بشكل أساسي على نماذج بـ 1B معامل، تأثير النماذج الكبيرة قيد الانتظار
- الخصوصية المجالية: قد يؤثر Unlikelihood SLUNG على قدرة التوليد في مجالات معينة
- ما قبل التدريب على نطاق واسع: تقييم تأثير SLUNG في إعدادات ما قبل التدريب الكاملة
- البحث المضاد للهجوم: استكشاف مقاومة SLUNG لهجمات jailbreak
- تحسين المصنف: تطوير أنظمة كشف مخاطر أكثر دقة
- التحليل النظري: فهم أعمق للأساس النظري لآلية الفصل
- ابتكار قوي: أول تطبيق لفصل الفهم والتوليد في مرحلة ما قبل التدريب، فكرة جديدة
- قيمة عملية عالية: حل مشكلة مهمة في مجال أمان الذكاء الاصطناعي، آفاق تطبيق واسعة
- تجارب شاملة: التحقق في سيناريوهين مختلفين، يتضمن طرق مقارنة متعددة وتجارب استئصال
- طريقة بسيطة: التطبيق نسبياً بسيط، سهل الاستنساخ والتطبيق
- نظرية واضحة: شرح واضح لمبدأ آلية الفصل، تعبير رياضي دقيق
- قيود الحجم: أجريت التجارب بشكل أساسي على نماذج صغيرة الحجم، تأثير النماذج الكبيرة غير معروف
- قيود التقييم: يعتمد كشف السمية على مصنف معين، قد يكون هناك انحياز
- التأثيرات طويلة الأجل: لم يتم تقييم تأثير الطريقة على السلوك طويل الأجل للنموذج
- التكاليف الحسابية: تتطلب تسمية مخاطر إضافية، مما يزيد من تكاليف المعالجة المسبقة
- المساهمة الأكاديمية: توفير أفكار جديدة لبحث أمان الذكاء الاصطناعي، قد تلهم الأعمال اللاحقة
- القيمة العملية: توجيه مباشر لتطوير نماذج اللغة الصناعية
- قابلية الاستنساخ: التزم المؤلفون بفتح المصدر للكود، مما يسهل التحقق والتوسع من قبل المجتمع
- أنظمة مراجعة المحتوى: تطبيقات تحتاج إلى التعرف على المحتوى الضار دون توليده
- حماية حقوق الطبع: سيناريوهات تعلم محتوى محمي بحقوق الطبع مع تجنب النسخ المباشر
- معالجة المعلومات الحساسة: أنظمة تفهم دون تسريب المعلومات الخاصة
- التطبيقات التعليمية: سيناريوهات تحتاج إلى فهم المحتوى غير اللائق للتعليم دون نشره
استشهدت الورقة بأعمال مهمة متعددة، بما في ذلك:
- Longpre et al. (2023): البحث عن تأثير بيانات ما قبل التدريب على قدرات النموذج
- Welleck et al. (2019): العمل الأصلي لتدريب Unlikelihood
- Soldaini et al. (2024): بناء وتصفية مجموعة بيانات Dolma
- Gehman et al. (2020): معيار تقييم RealToxicityPrompts
توفر هذه الورقة مساهمة منهجية مهمة في التدريب الآمن لنماذج اللغة، من خلال تصميم ذكي لدالة الخسارة يحقق فصل الفهم والتوليد، مما يضع الأساس لبحث الذكاء الاصطناعي الآمن في المستقبل.