In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
Vogels, Wong, Choho et al.
Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
academic
التوجيه ضمن التوزيع: موازنة التحكم والتماسك في توليد نماذج اللغة
تعمل طرق توجيه التفعيل على التحكم في سلوك نماذج اللغة الكبيرة (LLM) من خلال تعديل التفعيلات الداخلية أثناء الاستدلال. ومع ذلك، تعتمد معظم طرق توجيه التفعيل الحالية على قوة توجيه ثابتة، مما يؤدي إلى تحكم غير كافٍ أو تدخل مفرط، وبالتالي تقليل مصداقية النص وتماسكه. تقترح هذه الورقة التوجيه ضمن التوزيع (IDS)، وهي طريقة جديدة تعتمد على تعديل قوة التوجيه بشكل تكيفي بناءً على توزيع البيانات المدخلة في فضاء التمثيل. يقوم IDS بتعديل التدخل بشكل ديناميكي وفقاً لموضع المدخلات المعطاة في التوزيع، مما يحقق تدخلاً تكيفياً واستقراراً في التوليد أثناء عملية توليد النص. تُظهر التجارب أن IDS يحقق دقة قوية في مهام التصنيف، مع إنتاج نصوص متماسكة دون انهيار، مما يجعل IDS مناسباً بشكل خاص للتطبيقات العملية.
اقتراح طريقة IDS: طريقة جديدة لتوجيه التفعيل قادرة على تعديل قوة التوجيه بشكل ديناميكي بناءً على كل مدخل، مما يحقق تحكماً دقيقاً في السلوك مع الحفاظ على مصداقية النص وتماسكه
تقييم تجريبي شامل: تقييم أداء IDS على 6 نماذج لغة و 7 مجموعات بيانات، مع مقارنة طريقتين منافستين، مما يثبت فعاليتها وقوتها وعموميتها في مهام التنبؤ بـ token واحد وتوليد النصوص المفتوحة
دراسات الاستبعاد (Ablation Studies): تحليل متعمق لمكونات أداء IDS المختلفة، مما يكشف عن آليات نجاحها
الأساس النظري: بناءً على افتراض التمثيل الخطي، يوفر حلاً مغلق الشكل، مما يتيح حساباً فعالاً في الوقت الفعلي
تستشهد الورقة بأعمال مهمة في مجالات توجيه التفعيل والتعلم التمثيلي وسلامة الذكاء الاصطناعي، بما في ذلك:
Rimsky et al. (2024): الورقة الأصلية لطريقة CAA
Hedström et al. (2025): طريقة MERA
Turner et al. (2024): مسح هندسة التفعيل
Mikolov et al. (2013): الأعمال المبكرة لافتراض التمثيل الخطي
الملخص: تتمتع طريقة IDS المقترحة في هذه الورقة بأهمية ابتكار كبيرة في مجال توجيه التفعيل، حيث تحل بشكل فعال مشكلة الإفراط في التوجيه في الطرق الموجودة من خلال إدخال قيود التوزيع وآليات التعديل التكيفية. تثبت نتائج التجارب بشكل كافٍ فعالية الطريقة وقيمتها العملية، مما يوفر أداة مهمة للنشر الآمن لـ LLM.