2025-11-22T06:10:16.346479

Teaching Models to Understand (but not Generate) High-risk Data

Wang, Finlayson, Soldaini et al.

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

academic

تعليم النماذج على الفهم (لكن ليس التوليد) للبيانات عالية المخاطر

المعلومات الأساسية

معرّف الورقة: 2505.03052
العنوان: Teaching Models to Understand (but not Generate) High-risk Data
المؤلفون: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
التصنيف: cs.CL cs.LG
المؤتمر: COLM 2025
رابط الورقة: https://arxiv.org/abs/2505.03052

الملخص

يقوم مطورو نماذج اللغة عادةً بتصفية المحتوى عالي المخاطر -- مثل النصوص السامة أو المحمية بحقوق الطبع -- من بيانات ما قبل التدريب لمنع النماذج من توليد مخرجات مماثلة. ومع ذلك، فإن إزالة هذه البيانات بالكامل تحد من قدرة النماذج على التعرف والاستجابة المناسبة للمحتوى الضار أو الحساس. في هذه الورقة، نقدم الخسارة الانتقائية للفهم لكن ليس التوليد (SLUNG)، وهي نموذج ما قبل تدريب يتعلم من خلاله النموذج فهم البيانات عالية المخاطر دون تعلم توليدها. بدلاً من تطبيق خسارة التنبؤ بالرمز التالي بشكل موحد، يتجنب SLUNG بشكل انتقائي تحفيز توليد الرموز عالية المخاطر مع ضمان بقاؤها ضمن نافذة السياق للنموذج. عندما يتعلم النموذج التنبؤ برموز منخفضة المخاطر التي تتبع الرموز عالية المخاطر، يُجبر على فهم المحتوى عالي المخاطر. من خلال تجاربنا، نوضح أن SLUNG يحسن باستمرار فهم النموذج للبيانات عالية المخاطر (على سبيل المثال، القدرة على التعرف على المحتوى السام) دون زيادة توليده (على سبيل المثال، سمية استجابات النموذج). بشكل عام، يمكّن نموذج SLUNG النماذج من الاستفادة من النصوص عالية المخاطر التي كانت ستُصفى بطريقة أخرى.

السياق البحثي والدافع

خلفية المشكلة

يوجد تناقض أساسي في تطوير نماذج اللغة الحالية: لمنع النموذج من توليد محتوى ضار (مثل النصوص السامة والمحتوى المحمي بحقوق الطبع)، يقوم المطورون عادةً بتصفية هذا المحتوى عالي المخاطر من بيانات ما قبل التدريب. ومع ذلك، بينما تحسن هذه الممارسة أمان النموذج، فإنها تحد من قدرة النموذج على التعرف والاستجابة المناسبة للمحتوى الضار أو الحساس.

المشاكل الأساسية

الآثار الجانبية لتصفية البيانات: إزالة البيانات عالية المخاطر بالكامل تقلل من قدرة النموذج على فهم هذا النوع من المحتوى
الاقتران بين الفهم والتوليد: الهدف التقليدي للتنبؤ بالرمز التالي يربط بشكل أساسي بين قدرة الفهم والتوليد للنموذج
متطلبات النشر الفعلي: في التطبيقات العملية، يحتاج النموذج إلى أن يكون قادراً على التعرف على الطلبات الضارة والتعامل معها، وهذا يتطلب فهماً معيناً للمحتوى الضار

الدافع البحثي

يقترح المؤلفون الحصول على "أفضل ما في العالمين": تدريب نموذج يمكنه فهم البيانات عالية المخاطر دون توليد هذا النوع من المحتوى. يتطلب هذا تجاوز هدف التنبؤ بالرمز التالي القياسي وفصل قدرات الفهم والتوليد للنموذج.

المساهمات الأساسية

اقتراح إطار عمل SLUNG: نموذج ما قبل تدريب جديد يحقق فصل الفهم والتوليد من خلال دالة خسارة انتقائية
الابتكار التقني: تصميم استراتيجية تدريب متمايزة بناءً على مستوى مخاطر الرمز، بما في ذلك تطبيقان: Masked SLUNG و Unlikelihood SLUNG
التحقق التجريبي: التحقق من فعالية الطريقة في سيناريوهين: فهم المحتوى السام وتعلم الكيانات الخيالية
المساهمة النظرية: توفير إطار عمل وأفكار جديدة لتطوير نماذج لغة آمنة وقادرة

شرح الطريقة

تعريف المهمة

بالنظر إلى مستند ما قبل التدريب $X = (x_1, x_2, ..., x_{|X|})$ ، كل رمز له تسمية ثنائية مقابلة $(l_1, l_2, ..., l_{|X|})$ ، حيث $l_i \in \{0,1\}$ يشير إلى ما إذا كان الرمز i عالي المخاطر ( $l_i = 1$ ) أو منخفض المخاطر ( $l_i = 0$ ).

الهدف هو تدريب نموذج بحيث يخصص ارتباكاً عالياً لنطاقات عالية المخاطر، مع الحفاظ على ارتباك منخفض لنطاقات منخفضة المخاطر التي قد تكون مشروطة بمحتوى عالي المخاطر.

بنية النموذج

الفكرة الأساسية لـ SLUNG

الابتكار الرئيسي لـ SLUNG هو استخدام دوال خسارة مختلفة للرموز ذات مستويات مخاطر مختلفة:

$L(\theta, X) = -\sum_{i=1}^{|X|} \left[ \mathbf{1}[l_i=1] f_\theta(x_i | x_{<i}) + \mathbf{1}[l_i=0] \log p_\theta(x_i | x_{<i}) \right]$

حيث:

الرموز عالية المخاطر ( $l_i = 1$ ) تستخدم دالة خسارة مخصصة $f_\theta(x_i | x_{<i})$
الرموز منخفضة المخاطر ( $l_i = 0$ ) تستخدم الهدف القياسي للاحتمالية القصوى
جميع الرموز تبقى في نافذة السياق للنموذج

تطبيقان محددان

1. Masked SLUNG تعيين $f_\theta(x_i | x_{<i}) = 0$ للرموز عالية المخاطر، أي إخفاء خسارة التوليد الخاصة بها، لكن الرمز يبقى مرئياً لآلية الاهتمام.

2. Unlikelihood SLUNG
تطبيق $f_\theta(x_i | x_{<i}) = \log(1 - p_\theta(x_i | x_{<i}))$ على الرموز عالية المخاطر، معاقبة صريحة للنموذج على تخصيص احتمالية عالية للرموز عالية المخاطر.

نقاط الابتكار التقني

تصميم الفصل: أول تطبيق لفصل قدرات الفهم والتوليد في مرحلة ما قبل التدريب
الحفاظ على السياق: بينما لا تشارك الرموز عالية المخاطر في حساب الخسارة أو لا تُعاقب، إلا أنها تبقى في السياق، مما يضمن تعلم النموذج لتمثيلاتها
آلية التعلم غير المباشر: من خلال تعلم التنبؤ برموز منخفضة المخاطر تتبع المحتوى عالي المخاطر، يُجبر النموذج على فهم المحتوى عالي المخاطر
إطار عمل مرن: يمكن استخدامه مع أي مصنف كشف مخاطر

إعداد التجارب

التجربة الأولى: فهم المحتوى السام

مجموعة البيانات

النموذج الأساسي: OLMo 1B (استمرار ما قبل التدريب من checkpoint 737)
بيانات التدريب: آخر 4 مليارات رمز من مجموعة بيانات Dolma الأصلية + مستندات Reddit سامة مُدرجة (حوالي 2.12 مليار رمز، تمثل 5%)
تصنيف السمية: استخدام مصنف FastText للسمية، تقسيم المحتوى إلى ثلاث فئات: Not Toxic و Possibly Toxic و Definitely Toxic

طرق المقارنة

Control (OLMo 1B): النموذج الأصلي الذي لم يتعرض لبيانات سامة
Low-risk Baseline: التدريب فقط على محتوى Reddit غير السام
Toxic Baseline: التدريب على جميع البيانات (بما في ذلك المحتوى السام) باستخدام الاحتمالية القصوى القياسية
Masked SLUNG: إخفاء الخسارة للرموز Definitely Toxic و Possibly Toxic
Unlikelihood SLUNG: تطبيق خسارة unlikelihood على رموز Definitely Toxic

التجربة الثانية: تعلم الكيانات الخيالية

مجموعة البيانات

مجموعة بيانات TOFU: تحتوي على أزواج أسئلة وأجوبة مع ملفات تعريف مؤلفين اصطناعية
إعداد التدريب: الضبط الدقيق فقط على عمود الإجابات، مع تسمية أسماء الكيانات كرموز عالية المخاطر
الهدف: تعلم حقائق متعلقة بالكيان مع تجنب توليد أسماء الكيانات

مقاييس التقييم

تجارب السمية

تقييم التوليد: استخدام RealToxicityPrompts لتقييم ميل النموذج لتوليد محتوى سام، من خلال درجات Perspective API
تقييم الفهم: تدريب مسبار خطي على مجموعة بيانات CivilComments، تقييم قدرة الحالات المخفية للنموذج على تصنيف السمية (AUROC)

تجربة تعلم الكيانات

تقييم التوليد: قياس نسبة مخرجات النموذج لأسماء الكيانات
تقييم الفهم: استخدام GPT-4o لتقييم صحة إجابات النموذج على الأسئلة الواقعية

نتائج التجارب

النتائج الرئيسية

الاكتشافات الأساسية لتجارب السمية

الأمثلية الباريتية: تحقق طريقة SLUNG الحد الأمامي لـ Pareto في المقايضة بين الفهم والتوليد، محسّنة لقدرة فهم السمية مع تقليل توليد السمية
تحسن قدرة الفهم: حقق Masked SLUNG و Unlikelihood SLUNG AUROC بحوالي 0.825 و 0.820 على CivilComments على التوالي، متفوقاً بشكل ملحوظ على خط أساس Control البالغ 0.810
أمان التوليد: كلا طريقتي SLUNG تحافظ على درجة توليد السمية حول 0.165، أقل بكثير من Toxic Baseline البالغة 0.175
الاستمرارية بعد الضبط الدقيق للتعليمات: بعد الضبط الدقيق للتعليمات، تحافظ طرق SLUNG على الأمثلية الباريتية

تأثير حجم البيانات

مع زيادة بيانات السمية من 20M إلى 320M رمز:

يحافظ Masked SLUNG باستمرار على أفضل مقايضة بين الفهم والتوليد
تتحسن قدرة الفهم خطياً مع حجم البيانات، لكن نمو توليد السمية بطيء
يثبت قابلية التوسع الجيدة لـ SLUNG

نتائج تجربة تعلم الكيانات

الطريقة	معدل توليد الأسماء↓	معدل الصحة الكاملة↑	معدل الصحة الجزئية↑
OLMo 1B	57.5%	3.5%	15.5%
التدريب المباشر	34.3±9.2%	28.2±0.6%	51.4±0.7%
Masked SLUNG	4.1±1.2%	20.8±1.9%	44.0±2.1%
Unlikelihood SLUNG	1.5±0.7%	22.3±2.1%	43.6±3.2%

تجارب الاستئصال

تحليل الارتباك

جميع الطرق لا تظهر فروقات كبيرة في الارتباك على مستندات Dolma، مما يشير إلى أن SLUNG لا يضر بقدرة نمذجة اللغة العامة
يحقق Masked SLUNG أقل ارتباك على مستندات Reddit غير السامة
يحقق Unlikelihood SLUNG ارتباكاً أعلى في مجال Reddit، ربما لأن خسارة unlikelihood تؤثر على توزيع التوليد لهذا المجال

تحليل الحالات

في تجربة TOFU، تعلم نموذج SLUNG استخدام الضمائر ("he"، "she") أو حذف الموضوع للإجابة على الأسئلة، بنجاح تجنب توليد أسماء الكيانات مع الحفاظ على المعلومات الواقعية.

الأعمال ذات الصلة

تصفية البيانات ومعالجة البيانات عالية المخاطر

تركز الأعمال الموجودة بشكل أساسي على حل مشكلة المحتوى عالي المخاطر من خلال التصفية
يستخدم Grattafiori et al. (2024) و Soldaini et al. (2024) وآخرون تصفية على مستوى المستند أو النطاق
بينما تحسن هذه الطرق الأمان، فإنها تفقد تنوع البيانات

طرق التدريب لمنع التوليد السيء

تدريب Unlikelihood: معاقبة الاحتمالية العالية للتسلسلات السيئة
التعلم المقارن: تعزيز المرشحين المفضلين من خلال المقارنة
RLHF: قمع التوليد الضار من خلال ملاحظات الإنسان
تركز هذه الطرق بشكل أساسي على قمع التوليد، دون تقييم صريح لقدرة الفهم

طرق فك التشفير

فك التشفير الموجه بالمصنف: استخدام مصنف مساعد لتعديل احتمالية التوليد
طريقة الرمز المراقب: تشريط التوليد من خلال رموز خاصة
DExperts: استخدام نماذج خبير "جيدة" و"سيئة" لتوجيه التوليد

الخلاصة والمناقشة

الاستنتاجات الرئيسية

حقق SLUNG بنجاح فصل قدرات الفهم والتوليد في نماذج اللغة، مما يوفر نموذجاً جديداً لتطوير الذكاء الاصطناعي الآمن
تظهر الطريقة أداءً ممتازاً في سيناريوهين مختلفين (المحتوى السام وتعلم الكيانات)، مما يثبت عموميتها
يمكّن SLUNG النماذج من الاستفادة من النصوص عالية المخاطر التي كانت ستُصفى بطريقة أخرى، محسّناً كفاءة استخدام البيانات

القيود

قيود الميزانية الحسابية: استخدمت التجارب ما قبل التدريب المستمر بدلاً من التدريب من الصفر، قد يقلل من الإمكانات الكاملة للطريقة
الاعتماد على المصنف: تعتمد فعالية الطريقة على جودة مصنف كشف المخاطر
نطاق التقييم: تم التحقق بشكل أساسي على نماذج بـ 1B معامل، تأثير النماذج الكبيرة قيد الانتظار
الخصوصية المجالية: قد يؤثر Unlikelihood SLUNG على قدرة التوليد في مجالات معينة

الاتجاهات المستقبلية

ما قبل التدريب على نطاق واسع: تقييم تأثير SLUNG في إعدادات ما قبل التدريب الكاملة
البحث المضاد للهجوم: استكشاف مقاومة SLUNG لهجمات jailbreak
تحسين المصنف: تطوير أنظمة كشف مخاطر أكثر دقة
التحليل النظري: فهم أعمق للأساس النظري لآلية الفصل

التقييم المتعمق

المميزات

ابتكار قوي: أول تطبيق لفصل الفهم والتوليد في مرحلة ما قبل التدريب، فكرة جديدة
قيمة عملية عالية: حل مشكلة مهمة في مجال أمان الذكاء الاصطناعي، آفاق تطبيق واسعة
تجارب شاملة: التحقق في سيناريوهين مختلفين، يتضمن طرق مقارنة متعددة وتجارب استئصال
طريقة بسيطة: التطبيق نسبياً بسيط، سهل الاستنساخ والتطبيق
نظرية واضحة: شرح واضح لمبدأ آلية الفصل، تعبير رياضي دقيق

أوجه القصور

قيود الحجم: أجريت التجارب بشكل أساسي على نماذج صغيرة الحجم، تأثير النماذج الكبيرة غير معروف
قيود التقييم: يعتمد كشف السمية على مصنف معين، قد يكون هناك انحياز
التأثيرات طويلة الأجل: لم يتم تقييم تأثير الطريقة على السلوك طويل الأجل للنموذج
التكاليف الحسابية: تتطلب تسمية مخاطر إضافية، مما يزيد من تكاليف المعالجة المسبقة

التأثير

المساهمة الأكاديمية: توفير أفكار جديدة لبحث أمان الذكاء الاصطناعي، قد تلهم الأعمال اللاحقة
القيمة العملية: توجيه مباشر لتطوير نماذج اللغة الصناعية
قابلية الاستنساخ: التزم المؤلفون بفتح المصدر للكود، مما يسهل التحقق والتوسع من قبل المجتمع

السيناريوهات القابلة للتطبيق

أنظمة مراجعة المحتوى: تطبيقات تحتاج إلى التعرف على المحتوى الضار دون توليده
حماية حقوق الطبع: سيناريوهات تعلم محتوى محمي بحقوق الطبع مع تجنب النسخ المباشر
معالجة المعلومات الحساسة: أنظمة تفهم دون تسريب المعلومات الخاصة
التطبيقات التعليمية: سيناريوهات تحتاج إلى فهم المحتوى غير اللائق للتعليم دون نشره

المراجع

استشهدت الورقة بأعمال مهمة متعددة، بما في ذلك:

Longpre et al. (2023): البحث عن تأثير بيانات ما قبل التدريب على قدرات النموذج
Welleck et al. (2019): العمل الأصلي لتدريب Unlikelihood
Soldaini et al. (2024): بناء وتصفية مجموعة بيانات Dolma
Gehman et al. (2020): معيار تقييم RealToxicityPrompts

توفر هذه الورقة مساهمة منهجية مهمة في التدريب الآمن لنماذج اللغة، من خلال تصميم ذكي لدالة الخسارة يحقق فصل الفهم والتوليد، مما يضع الأساس لبحث الذكاء الاصطناعي الآمن في المستقبل.