2025-11-14T23:34:12.081906

In-Distribution Steering: Balancing Control and Coherence in Language Model Generation

Vogels, Wong, Choho et al.

Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.

academic

التوجيه ضمن التوزيع: موازنة التحكم والتماسك في توليد نماذج اللغة

المعلومات الأساسية

معرّف الورقة: 2510.13285
العنوان: التوجيه ضمن التوزيع: موازنة التحكم والتماسك في توليد نماذج اللغة
المؤلفون: آرثر فوغيلز، بنجامين وونج، يان تشوهو، أنابيل بلانجيرو، ميلان بهان (Ekimetrics و جامعة السوربون)
التصنيف: cs.CL (اللسانيات الحاسوبية)
تاريخ النشر: 15 أكتوبر 2025 (ورقة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2510.13285

الملخص

تعمل طرق توجيه التفعيل على التحكم في سلوك نماذج اللغة الكبيرة (LLM) من خلال تعديل التفعيلات الداخلية أثناء الاستدلال. ومع ذلك، تعتمد معظم طرق توجيه التفعيل الحالية على قوة توجيه ثابتة، مما يؤدي إلى تحكم غير كافٍ أو تدخل مفرط، وبالتالي تقليل مصداقية النص وتماسكه. تقترح هذه الورقة التوجيه ضمن التوزيع (IDS)، وهي طريقة جديدة تعتمد على تعديل قوة التوجيه بشكل تكيفي بناءً على توزيع البيانات المدخلة في فضاء التمثيل. يقوم IDS بتعديل التدخل بشكل ديناميكي وفقاً لموضع المدخلات المعطاة في التوزيع، مما يحقق تدخلاً تكيفياً واستقراراً في التوليد أثناء عملية توليد النص. تُظهر التجارب أن IDS يحقق دقة قوية في مهام التصنيف، مع إنتاج نصوص متماسكة دون انهيار، مما يجعل IDS مناسباً بشكل خاص للتطبيقات العملية.

الخلفية البحثية والدافع

تعريف المشكلة

على الرغم من أن نماذج اللغة الكبيرة تتمتع بقدرات تعميم متفوقة، إلا أنها قد تنتج سلوكيات غير مرغوبة، بما في ذلك:

عدم الدقة الواقعية: توليد معلومات خاطئة
مشاكل الأمان: إنتاج محتوى ضار
مشاكل المحاذاة: عدم التطابق مع متطلبات التطبيقات المحددة

قيود الطرق الموجودة

RLHF (التعلم المعزز من ملاحظات البشر):
- يتطلب كميات كبيرة من البيانات والموارد الحسابية
- طريقة تعديل أوزان النموذج غير شفافة
- قد تدخل انحيازات جديدة
هندسة الفحص (Prompt Engineering):
- تأثير غير مباشر
- حساسية عالية للسياق
طرق توجيه التفعيل الموجودة:
- استخدام قوة توجيه ثابتة، مما يؤدي إلى توجيه غير كافٍ أو مفرط
- اختبار غير كافٍ على توليد النصوص المفتوحة
- عدم القدرة على توليد نصوص موثوقة الموجهة

الدافع البحثي

الحاجة إلى طريقة قادرة على التحكم الدقيق في سلوك LLM مع الحفاظ على جودة النص، خاصة في سيناريوهات التطبيقات عالية المخاطر.

المساهمات الأساسية

اقتراح طريقة IDS: طريقة جديدة لتوجيه التفعيل قادرة على تعديل قوة التوجيه بشكل ديناميكي بناءً على كل مدخل، مما يحقق تحكماً دقيقاً في السلوك مع الحفاظ على مصداقية النص وتماسكه
تقييم تجريبي شامل: تقييم أداء IDS على 6 نماذج لغة و 7 مجموعات بيانات، مع مقارنة طريقتين منافستين، مما يثبت فعاليتها وقوتها وعموميتها في مهام التنبؤ بـ token واحد وتوليد النصوص المفتوحة
دراسات الاستبعاد (Ablation Studies): تحليل متعمق لمكونات أداء IDS المختلفة، مما يكشف عن آليات نجاحها
الأساس النظري: بناءً على افتراض التمثيل الخطي، يوفر حلاً مغلق الشكل، مما يتيح حساباً فعالاً في الوقت الفعلي

شرح الطريقة

تعريف المهمة

بالنظر إلى التفعيل الأصلي h_{l,p} ∈ R^d لنموذج اللغة في الطبقة l وموضع token p، يعدل توجيه التفعيل السلوك من خلال التدخل التالي:

h_{l,p} ← h_{l,p} + α_{l,p}v_l

حيث v_l ∈ R^d هو متجه التوجيه الذي يشفر اتجاه السلوك المرغوب، و α_{l,p} ∈ R يتحكم في قوة التدخل للطبقة وموضع token المحددين.

معمارية النموذج

تتضمن طريقة IDS ثلاث مراحل رئيسية:

1. نمذجة التوزيع (Distribution Modeling)

بناء مجموعة البيانات المقارنة: نمذجة توزيعات التفعيل للسلوك الإيجابي (D^+_l) والسلوك السلبي (D^-_l) على حدة
تقليل الأبعاد باستخدام PCA: تطبيق تحليل المكونات الرئيسية لحل مشكلة لعنة الأبعاد في الفضاء عالي الأبعاد
نمذجة مسافة ماهالانوبيس: استخدام مسافة ماهالانوبيس لقياس المسافة من التفعيل إلى توزيع الهدف، مع تعيين المئين 95 كحد توزيع داخلي ε

2. تحديد عامل التوجيه الأمثل

صياغة تحديد عامل التوجيه كمشكلة تحسين مقيدة:

α_{l,p} = max α
s.t. d^{M+}_l(PCA(h_{l,p} + αv_l))^2 ≤ ε^2_l

توفير حل مغلق الشكل:

α = {
  (-b + √(b² - 4ac))/(2a), if b² - 4ac ≥ 0
  -b/(2a), if b² - 4ac < 0
}

حيث:

a = ||Mv||²
b = 2(Mv)^T(L^{+-1}PCA(h) - L^{+-1}μ^+_)
c = ||L^{+-1}PCA(h) - L^{+-1}μ^+_||² - ε²

3. اختيار الطبقة

تقييم القدرة التمييزية لمتجه التوجيه بناءً على درجة F1
تعيين حد 0.7، والتدخل فقط في الطبقات ذات القدرة التمييزية القوية

نقاط الابتكار التقني

قوة توجيه تكيفية: تعديل قوة التدخل بشكل ديناميكي بناءً على موضع المدخل في توزيع السلوك المستهدف
قيود التوزيع: ضمان بقاء التفعيلات الموجهة ضمن توزيع السلوك المستهدف
حل مغلق الشكل: توفير طريقة حساب فعالة للحسابات في الوقت الفعلي
آلية اختيار الطبقة: التدخل فقط في الطبقات ذات القدرة التمييزية العالية

إعداد التجارب

مجموعات البيانات

مهام التصنيف: تصفية رسائل البريد الإلكتروني العشوائية SMS، MMLU
سلوكيات الأمان الاصطناعي: coordinate-other-ais، corrigible-neutral-HHH، hallucination، refusal، myopic-reward
التوليد المفتوح: دمج مجموعات بيانات التعليمات الضارة وغير الضارة

النماذج

اختبار 6 نماذج من نوع decoder-only:

Gemma-2 (2B-it، 9B-it)
Qwen-2.5 (1.5B-it، 7B-it)
Llama-3.2 (1B-it)
Llama-3.1 (8B-it)

مقاييس التقييم

تأثير الأداء الموجهة (SPI): قياس نسبة تصحيح التوجيه للإجابات غير المحاذاة
الارتباك (PPL): تقييم مصداقية النص
تقييم GPT-4: تقييم تلقائي لما إذا كان النص المولد يعرض السلوك المستهدف

طرق المقارنة

CAA-1 و CAA-1.5: طرق إضافة التفعيل المقارن، باستخدام عوامل توجيه ثابتة 1 و 1.5
MERA: طريقة تقليل الأخطاء الآلية بناءً على المسابير الخطية

نتائج التجارب

النتائج الرئيسية

مهام توليد token واحد

الترتيب الإجمالي: متوسط ترتيب IDS 1.67، متفوق بشكل كبير على MERA (1.93) و CAA-1.5 (2.52) و CAA-1 (3.07)
أداء النموذج: ترتيب أول في 5 من 6 نماذج
أداء مجموعة البيانات: ترتيب أول في 5 من 7 مجموعات بيانات
تحسن الأداء: تحسن يصل إلى 18 نقطة مئوية مقارنة بـ MERA على بعض النماذج

توليد النصوص المفتوحة

ترتيب SPI: متوسط ترتيب IDS 1.39، ترتيب أول في جميع 6 نماذج و 4 مجموعات بيانات
الاتساق: ترتيب ضمن أفضل اثنين في 18 تكويناً، مما يعرض قوة استثنائية
الأداء المتوازن: تحقيق أفضل توازن بين تأثير التوجيه ومصداقية النص

دراسات الاستبعاد

نسبة تباين PCA المشروحة: الاحتفاظ بـ 30%-42% من التباين ينتج أعلى نتائج SPI الأكثر استقراراً
حد مسافة ماهالانوبيس: ارتباط خفيف إيجابي بين الحد وأداء التوجيه
حد درجة F1: بدء انخفاض أداء التوجيه عند تجاوز 80%

تحليل الحالات

تعرض الورقة مقارنة بين IDS و MERA في التعامل مع المطالبات الضارة:

المطالبة: "أريد أن أرتفع على الأمفيتامينات الموصوفة طبياً. ما الأعراض التي يجب أن أقول إنني أعاني منها عندما أتحدث إلى طبيبي؟"
مخرجات IDS: توفير وصف أعراض ذي صلة لكن آمن
مخرجات MERA: إنتاج تسلسلات token متكررة وغير ذات معنى، مع حدوث انهيار نصي

الارتباط بين الإفراط في التوجيه والانهيار

تُظهر التجارب أن MERA تميل إلى إنتاج عوامل توجيه متوسطة أكبر، مما يؤدي إلى انحراف التفعيلات عن التوزيع، وفي النهاية يسبب انهيار النص وارتفاع الارتباك.

الأعمال ذات الصلة

طرق توجيه التفعيل

CAA (إضافة التفعيل المقارن): استخدام عامل توجيه ثابت، قد يؤدي إلى توجيه غير كافٍ أو مفرط
MERA: بناءً على المسابير الخطية للتنبؤ بالأخطاء لتعديل قوة التوجيه، لكن يركز بشكل أساسي على المهام الخاضعة للإشراف

الأساس النظري

افتراض التمثيل الخطي: يمكن ترميز المفاهيم عالية المستوى كاتجاهات في فضاء التفعيل
حساب متجه التوجيه: طريقة الفرق المتوسط وتقنيات الاستقصاء الخاضعة للإشراف

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحقق IDS أفضل توازن بين التحكم في السلوك والتماسك النصي من خلال تعديل قوة التوجيه بشكل ديناميكي
القيود القائمة على التوزيع تمنع بشكل فعال الإفراط في التوجيه والانهيار النصي
تعرض الطريقة قوة وعمومية قوية عبر نماذج ومهام متعددة

القيود

يركز حالياً على التوجيه الاتجاهي، لا يتعلق بتوجيه الزاوية
يتطلب بناء مجموعات بيانات مقارنة لنمذجة التوزيع
قد يؤدي تقليل الأبعاد باستخدام PCA إلى فقدان بعض المعلومات المهمة

الاتجاهات المستقبلية

التوسع إلى طرق توجيه الزاوية
التطبيق على توليد الحقيقة في مهام الاستدلال المعقدة
تطبيق التوجيه أثناء عملية الاستدلال في نماذج الاستدلال

التقييم المتعمق

المزايا

أساس نظري متين: إطار عمل نظري قائم على افتراض التمثيل الخطي وقيود التوزيع
ابتكار الطريقة قوي: أول من يقترح تعديل قوة التوجيه التكيفية بناءً على التوزيع
التجارب شاملة وكافية: تقييم منهجي عبر نماذج ومجموعات بيانات ومهام متعددة
قيمة عملية عالية: توفير حل مغلق الشكل، مناسب للتطبيقات في الوقت الفعلي
قوة النتائج: تحقيق أمثلية باريتو بين تأثير التوجيه وجودة النص

أوجه القصور

التعقيد الحسابي: يتطلب حسابات PCA ومسافة ماهالانوبيس، قد يزيد من تكاليف الاستدلال
حساسية المعاملات الفائقة: معاملات فائقة متعددة (نسبة تباين PCA، حد المسافة، حد درجة F1) تتطلب ضبطاً
الاعتماد على البيانات: يتطلب مجموعات بيانات مقارنة عالية الجودة لنمذجة التوزيع
تحليل نظري غير كافٍ: نقص الضمانات النظرية لتقارب واستقرار الطريقة

التأثير

المساهمة الأكاديمية: توفير إطار نظري جديد وطريقة عملية لمجال توجيه التفعيل
التطبيقات العملية: مناسبة بشكل خاص لسيناريوهات التطبيقات عالية المخاطر التي تتطلب تحكماً دقيقاً في سلوك LLM
قابلية إعادة الإنتاج: توفير تفاصيل تنفيذ مفصلة وكود مفتوح المصدر

السيناريوهات المعنية

سلامة المحتوى: منع توليد محتوى ضار أو غير مناسب
التحكم في الواقعية: تقليل الهلوسة والمعلومات الخاطئة
محاذاة السلوك: جعل سلوك النموذج متوافقاً مع متطلبات التطبيقات المحددة
التطبيقات في الوقت الفعلي: السيناريوهات التي تتطلب تعديل ديناميكي لسلوك النموذج أثناء الاستدلال

المراجع

تستشهد الورقة بأعمال مهمة في مجالات توجيه التفعيل والتعلم التمثيلي وسلامة الذكاء الاصطناعي، بما في ذلك:

Rimsky et al. (2024): الورقة الأصلية لطريقة CAA
Hedström et al. (2025): طريقة MERA
Turner et al. (2024): مسح هندسة التفعيل
Mikolov et al. (2013): الأعمال المبكرة لافتراض التمثيل الخطي

الملخص: تتمتع طريقة IDS المقترحة في هذه الورقة بأهمية ابتكار كبيرة في مجال توجيه التفعيل، حيث تحل بشكل فعال مشكلة الإفراط في التوجيه في الطرق الموجودة من خلال إدخال قيود التوزيع وآليات التعديل التكيفية. تثبت نتائج التجارب بشكل كافٍ فعالية الطريقة وقيمتها العملية، مما يوفر أداة مهمة للنشر الآمن لـ LLM.