Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing
Zhang, Ye, Heng et al.
Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
academic
التحكم الدقيق في شدة الخصائص في نماذج اللغة الكبيرة من خلال تحرير التمثيل الموجه
تقترح هذه الورقة طريقة PRE-CONTROL للتحكم الدقيق في شدة الخصائص في نماذج اللغة الكبيرة (LLM). تحقق الطريقة التحكم الدقيق في شدة الخصائص من خلال ثلاثة تصاميم رئيسية: (1) إعادة صياغة التحكم الدقيق في شدة الخصائص كمشكلة تحقيق الهدف بدلاً من مجرد التعظيم؛ (2) تدريب دالة قيمة خفيفة الوزن من خلال التعلم بالفروقات الزمنية للتنبؤ بدرجة شدة الخصائص النهائية من التوليد الجزئي؛ (3) تطبيق التدخل القائم على التدرج على التمثيلات المخفية للملاحة الدقيقة للنموذج إلى هدف شدة خصائص محدد. تظهر التجارب أن الطريقة قادرة على توجيه توليد النصوص إلى شدة خصائص محددة من قبل المستخدم، وتظهر تحسنًا في الكفاءة في المهام اللاحقة مثل تجميع بيانات التفضيل وتقريب الحدود الباريتو وتقطير السلوك المحاذي.
تواجه طرق محاذاة LLM الحالية قيودًا رئيسية: يمكنها فقط توفير إرشادات اتجاهية أو مفتوحة، ولا يمكنها الوصول بشكل موثوق إلى شدة خصائص دقيقة. على سبيل المثال، قد يرغب المستخدم في أن تكون رسالة بريد إلكتروني رسمية بدرجة 3 (على مقياس من 5)، بدلاً من مجرد "أكثر رسمية" أو "أقل رسمية".
يعتبر التحكم الدقيق في شدة الخصائص حاسمًا لبناء أنظمة ذكية اصطناعية تتكيف مع توقعات المستخدمين المتنوعة، خاصة في سيناريوهات المحاذاة متعددة الأهداف حيث توجد تضاربات بين الخصائص المختلفة، مما يتطلب تعديلات على مستوى عددي على مقياس مستمر للعثور على أفضل حل وسط.
تفتقر الطرق الموجودة إلى القدرة على التحكم الدقيق في شدة الخصائص، وتهدف هذه الورقة إلى تحقيق تحكم دقيق ومستمر في شدة الخصائص يتجاوز المحاذاة الاتجاهية البسيطة.
تستشهد الورقة بـ 46 مرجعًا ذا صلة، تغطي الأعمال المهمة في مجالات محاذاة LLM والتحسين متعدد الأهداف وهندسة التمثيل، مما يوفر أساسًا نظريًا قويًا للبحث.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة ابتكارية للتحكم الدقيق في شدة الخصائص، وتظهر أداءً ممتازًا من حيث المساهمة النظرية والقيمة العملية. يتمتع تصميم الطريقة بعقلانية، والتحقق من التجارب شامل، وقد قدمت مساهمة مهمة لمجال التحكم في LLM.