2025-11-22T14:58:15.937648

Precise Attribute Intensity Control in Large Language Models via Targeted Representation Editing

Zhang, Ye, Heng et al.
Precise attribute intensity control--generating Large Language Model (LLM) outputs with specific, user-defined attribute intensities--is crucial for AI systems adaptable to diverse user expectations. Current LLM alignment methods, however, typically provide only directional or open-ended guidance, failing to reliably achieve exact attribute intensities. We address this limitation with three key designs: (1) reformulating precise attribute intensity control as a target-reaching problem, rather than simple maximization; (2) training a lightweight value function via temporal-difference learning to predict final attribute intensity scores from partial generations, thereby steering LLM outputs; and (3) employing gradient-based interventions on hidden representations to navigate the model precisely towards specific attribute intensity targets. Our method enables fine-grained, continuous control over attribute intensities, moving beyond simple directional alignment. Experiments on LLaMA-3.2-3b and Phi-4-mini confirm our method's ability to steer text generation to user-specified attribute intensities with high accuracy. Finally, we demonstrate efficiency enhancements across three downstream tasks: preference data synthesis, Pareto frontier approximation and optimization, and distillation of aligned behaviors for intervention-free inference. Our code is available on https://github.com/Pre-Control/pre-control
academic

التحكم الدقيق في شدة الخصائص في نماذج اللغة الكبيرة من خلال تحرير التمثيل الموجه

المعلومات الأساسية

  • معرّف الورقة: 2510.12121
  • العنوان: التحكم الدقيق في شدة الخصائص في نماذج اللغة الكبيرة من خلال تحرير التمثيل الموجه
  • المؤلفون: Rongzhi Zhang, Liqin Ye, Yuzhao Heng, Xiang Chen, Tong Yu, Lingkai Kong, Sudheer Chava, Chao Zhang
  • التصنيف: cs.AI cs.CL cs.LG
  • وقت النشر/المؤتمر: ورقة بحثية (قيد المراجعة)
  • رابط الورقة: https://arxiv.org/abs/2510.12121

الملخص

تقترح هذه الورقة طريقة PRE-CONTROL للتحكم الدقيق في شدة الخصائص في نماذج اللغة الكبيرة (LLM). تحقق الطريقة التحكم الدقيق في شدة الخصائص من خلال ثلاثة تصاميم رئيسية: (1) إعادة صياغة التحكم الدقيق في شدة الخصائص كمشكلة تحقيق الهدف بدلاً من مجرد التعظيم؛ (2) تدريب دالة قيمة خفيفة الوزن من خلال التعلم بالفروقات الزمنية للتنبؤ بدرجة شدة الخصائص النهائية من التوليد الجزئي؛ (3) تطبيق التدخل القائم على التدرج على التمثيلات المخفية للملاحة الدقيقة للنموذج إلى هدف شدة خصائص محدد. تظهر التجارب أن الطريقة قادرة على توجيه توليد النصوص إلى شدة خصائص محددة من قبل المستخدم، وتظهر تحسنًا في الكفاءة في المهام اللاحقة مثل تجميع بيانات التفضيل وتقريب الحدود الباريتو وتقطير السلوك المحاذي.

الخلفية البحثية والدافع

تعريف المشكلة

تواجه طرق محاذاة LLM الحالية قيودًا رئيسية: يمكنها فقط توفير إرشادات اتجاهية أو مفتوحة، ولا يمكنها الوصول بشكل موثوق إلى شدة خصائص دقيقة. على سبيل المثال، قد يرغب المستخدم في أن تكون رسالة بريد إلكتروني رسمية بدرجة 3 (على مقياس من 5)، بدلاً من مجرد "أكثر رسمية" أو "أقل رسمية".

أهمية المشكلة

يعتبر التحكم الدقيق في شدة الخصائص حاسمًا لبناء أنظمة ذكية اصطناعية تتكيف مع توقعات المستخدمين المتنوعة، خاصة في سيناريوهات المحاذاة متعددة الأهداف حيث توجد تضاربات بين الخصائص المختلفة، مما يتطلب تعديلات على مستوى عددي على مقياس مستمر للعثور على أفضل حل وسط.

قيود الطرق الموجودة

  1. RLHF و DPO: تنتج نماذج ثابتة تلتقط متوسط السلوك المرغوب، وتتطلب إعادة تدريب مكلفة لتعديل الأولويات
  2. طرق الإشارات: تعتمد بالكامل على تفسير النموذج لتعليمات النمط، مما يؤدي إلى نتائج غير متسقة
  3. فك التشفير الموجه: عادة ما تعامل شدة الخصائص كفئات وليس كقيم مستمرة
  4. طرق المحاذاة متعددة الأهداف: تتطلب تدريبًا كبيرًا لتقريب مجموعة باريتو العالمية

الدافع البحثي

تفتقر الطرق الموجودة إلى القدرة على التحكم الدقيق في شدة الخصائص، وتهدف هذه الورقة إلى تحقيق تحكم دقيق ومستمر في شدة الخصائص يتجاوز المحاذاة الاتجاهية البسيطة.

المساهمات الأساسية

  1. إعادة صياغة المشكلة: صياغة التحكم الدقيق في شدة الخصائص كمشكلة تحقيق هدف بدلاً من مجرد التعظيم/التقليل
  2. طريقة دالة القيمة: تدريب دالة قيمة خفيفة الوزن من خلال التعلم بالفروقات الزمنية للتنبؤ بدرجة الخصائص النهائية من التوليد الجزئي
  3. تقنية تحرير التمثيل: تطبيق التدخل القائم على التدرج في التمثيلات المخفية للملاحة الدقيقة إلى هدف شدة خصائص محدد
  4. التطبيق الفعال: إظهار مزايا الكفاءة في تقريب الحدود الباريتو (تقليل التعقيد الزمني من O(m^d) إلى O(n+k)) وتقطير النموذج القابل للتحكم

شرح الطريقة

تعريف المهمة

بالنظر إلى هدف شدة الخصائص τ ∈ 0,1 ودالة المكافأة R(x)، الهدف هو توليد نصوص بدرجة شدة خصائص تطابق قيمة الهدف، وليس مجرد تعظيم المكافأة.

معمارية النموذج

1. إعادة بناء مشكلة تحقيق الهدف

هدف المحاذاة التقليدي:

max_θ E_{x~π_θ}[R(x)]

صياغة تحقيق الهدف في هذه الورقة:

min_θ E_{x~π_θ}[(R̂(x) - τ)²]

حيث R̂(x) هي دالة المكافأة المعايرة إلى 0,1.

2. تدريب دالة القيمة

استخدام TD(λ) لتدريب دالة القيمة V_φ(h_t) للتنبؤ بشدة الخصائص المتوقعة للتسلسل الجزئي:

V_φ(h_t) ≈ E_{x>t~π_θ(·|x≤t)}[R̂(x≤t, x>t)]

حساب العائد المعمم:

G^λ_t = (1-λ)∑_{n=1}^{T-t-1} λ^{n-1}V_φ(s_{t+n}) + λ^{T-t-1}r_T

خسارة دالة القيمة:

L_TD = E_{t,s_t}[(V_φ(s_t) - G^λ_t)²]

3. التدخل في وقت الاختبار

تعديل الحالة المخفية من خلال الانحدار التدريجي:

h_t ← h_t - α∇_{h_t}(V_φ(h_t) - τ)²

في حالة الخصائص المتعددة:

h_t ← h_t - α∇_{h_t}∑_{i=1}^m w_i(V^i_φ(h_t) - τ_i)²

نقاط الابتكار التقني

  1. التصميم الموجه بالهدف: الانتقال من التحسين الاتجاهي إلى تحقيق الهدف الدقيق
  2. آلية التغذية الراجعة الفورية: توفر دالة القيمة تغذية راجعة وسيطة أثناء عملية التوليد
  3. الملاحة في فضاء التمثيل: الملاحة الدقيقة مباشرة في فضاء التمثيل عالي الأبعاد
  4. التنسيق متعدد الخصائص: التحكم المتزامن في خصائص متعددة قد تكون متضاربة

إعداد التجارب

مجموعات البيانات

  1. HelpSteer2: 20,324 عينة تدريب، 1,038 عينة اختبار، تتضمن 5 خصائص (المساعدة، الصحة، التماسك، التعقيد، الإطناب)
  2. Code-UltraFeedback: 10,000 تعليمات معقدة، تتضمن 5 خصائص متعلقة بالبرمجة (التعقيد والكفاءة، النمط، الشرح، اتباع التعليمات، القراءة)

مقاييس التقييم

  1. درجة Self-BLEU: قياس تنوع النصوص المولدة (كلما انخفضت كان أفضل)
  2. مسافة ℓ1 إلى الهدف: تقييم قرب مخرجات النموذج من درجات الخصائص المحددة من قبل المستخدم
  3. معدل النجاح: تكرار مطابقة مخرجات النموذج لتكوين الخصائص المتوقع بدقة

طرق المقارنة

  • Base: النموذج الأساسي يولد مباشرة
  • Prompting: تضمين درجات الخصائص المستهدفة في الإشارة
  • ITI: تدريب طبقة خطية للتنبؤ بالمكافأة وتعديل التفعيلات على طول الاتجاه المتعلم
  • MAT-Steer: تعلم متجهات توجيه متعددة الخصائص متفرقة ومتعامدة
  • RE-Control: تنفيذ التحسين مفتوح النهاية للتدخل في وقت الاختبار

تفاصيل التنفيذ

  • النموذج الأساسي: LLaMA-3.2-3b و Phi-4-mini
  • دالة القيمة: شبكة MLP بـ 4 طبقات
  • نموذج المكافأة: ArmoRM-Llama3-8B
  • طبقة التدخل: آخر طبقة محول
  • المُحسِّن: Adam، تقنية الإيقاف المبكر

نتائج التجارب

النتائج الرئيسية

نتائج التجارب على درجات الهدف الممثلة:

الهدف الإيجابي (HelpSteer2 4,4,4,2,2):

  • LLaMA-3.2-3b: معدل نجاح PRE-CONTROL 7.96% مقابل 5.39% للخط الأساسي الأفضل
  • Phi-4-mini: معدل نجاح PRE-CONTROL 8.31% مقابل 5.70% للخط الأساسي الأفضل

الهدف السلبي (HelpSteer2 3,3,3,2,2):

  • LLaMA-3.2-3b: معدل نجاح PRE-CONTROL 6.60% مقابل 5.84% للخط الأساسي الأفضل
  • Phi-4-mini: معدل نجاح PRE-CONTROL 9.11% مقابل 8.73% للخط الأساسي الأفضل

نتائج Code-UltraFeedback:

  • الهدف الإيجابي 3,3,3,3,3: معدل النجاح يصل إلى 17.46%-26.16%
  • الهدف السلبي 2,2,2,2,2: معدل النجاح يصل إلى 22.34%-30.68%

نتائج التدخل التكراري

يظهر PRE-CONTROL تحسنًا مستمرًا في الأداء عبر عمليات تكرارية متعددة، بينما تصل الطرق الأخرى إلى الاستقرار بعد التكرار الثاني.

تقريب حدود باريتو

  • تحسن الجودة: يزيد الحجم الفائق من 7.54 إلى 12.66
  • تحسن الكفاءة: ينخفض الحمل الحسابي من 3.3 ساعة GPU إلى 0.4 ساعة (تقليل 8 مرات)
  • اكتشاف نقاط أكثر: تزيد النقاط غير المهيمنة من 45 إلى 69

التقطير القابل للتحكم

تحقيق حجم فائق قدره 16.81 باستخدام 15k عينة و 2.1 ساعة GPU، متفوقًا على طريقة Best-of-N بـ 15.27 (تتطلب 50k عينة و 7.8 ساعة GPU).

تحليل الحالات

يظهر التحليل النوعي أن PRE-CONTROL قادر على:

  • التحكم السلبي: تعديل الإجابات المفصلة جدًا 4,4,4,3,3 بدقة إلى نسخة موجزة 3,3,3,2,2
  • التحكم الإيجابي: توسيع الإجابات البسيطة 4,4,4,1,1 إلى نسخة أكثر تفصيلاً 4,4,4,2,2

الأعمال ذات الصلة

محاذاة LLM

  1. نماذج الضبط الدقيق: تتطلب RLHF و DPO تدريبًا متعدد المراحل، كثيفة الموارد
  2. التدخل في وقت الاستدلال: تفتقر هندسة الإشارات وفك التشفير الموجه إلى آليات التحكم الدقيق
  3. المحاذاة متعددة الأهداف: تتطلب الطرق الموجودة إعادة تدريب مكلفة لحقن تفضيلات متعددة الأهداف

هندسة التمثيل

  1. اضطراب التفعيل: تطورت من الطرق المدمجة والتشغيل إلى تعلم متجهات التوجيه
  2. ضبط التمثيل الدقيق: استخدام مصفوفات الإسقاط منخفضة الرتبة لتحرير التفعيلات بكفاءة
  3. القيود: تركز بشكل أساسي على التحكم في الخصائص الثنائية أو الفئوية، وليس الأهداف الدقيقة على مقياس مستمر

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. يحقق PRE-CONTROL التحكم الدقيق في شدة الخصائص في LLM
  2. صياغة تحقيق الهدف أكثر ملاءمة للتحكم الدقيق من طرق التعظيم التقليدية
  3. يوفر الجمع بين دالة القيمة والتدخل التدريجي آلية تحكم فعالة
  4. تظهر الطريقة مزايا كفاءة في تطبيقات لاحقة متعددة

القيود

  1. دالة القيمة كوكيل نموذج المكافأة: قد تفشل شبكة MLP خفيفة الوزن في التقاط جميع تفاصيل إشارة المكافأة الأصلية
  2. التدخل في الطبقة الأخيرة: يطبق التنفيذ الحالي التدخل فقط في طبقة المحول الأخيرة، مما قد لا يستفيد بالكامل من الطبقات التمثيلية للنموذج
  3. الحمل الحسابي: على الرغم من الكفاءة النسبية، لا يزال يتطلب تدريبًا إضافيًا لدالة القيمة وحسابًا في وقت الاستدلال

الاتجاهات المستقبلية

  1. استكشاف معماريات دالة قيمة أكثر تعقيدًا لتقريب أفضل لقدرات نموذج المكافأة
  2. البحث عن استراتيجيات تدخل متعددة الطبقات أو تعديلات على مستوى الانتباه
  3. تطوير آليات تكيفية لاختيار الاستعلام الانتقائي لنموذج المكافأة الكامل في الحالات الصعبة

التقييم المتعمق

المزايا

  1. ابتكار قوي: إعادة صياغة التحكم في الخصائص كمشكلة تحقيق هدف، يتجاوز قيود المحاذاة الاتجاهية التقليدية
  2. منهجية الطريقة: تشكل تدريب دالة القيمة والتعلم بالفروقات الزمنية والتدخل التدريجي نظامًا تقنيًا متكاملاً
  3. التجارب الشاملة: تقييم شامل عبر مجموعتي بيانات ونموذجين، مع تجارب الاستئصال والتحقق من التطبيقات
  4. قيمة عملية عالية: إظهار تحسنات كفاءة كبيرة في تقريب حدود باريتو وتقطير النموذج

أوجه القصور

  1. تحليل نظري غير كافٍ: نقص ضمانات التقارب والتحليل النظري لاستقرار التدخل
  2. الاعتماد على دالة القيمة: تعتمد أداء الطريقة بشكل كبير على جودة دالة القيمة
  3. القدرة على التعميم: تم التحقق فقط على خصائص وأنماط محددة، وتحتاج القدرة على التعميم إلى مزيد من التحقق
  4. التعقيد الحسابي: على الرغم من الكفاءة النسبية، لا يزال يتطلب حسابًا إضافيًا في وقت الاستدلال

التأثير

  1. المساهمة الأكاديمية: توفير نموذج بحثي جديد للتحكم الدقيق في LLM
  2. القيمة العملية: توفير أداة فعالة للأنظمة الذكية الاصطناعية الشخصية وتحسين متعدد الأهداف
  3. إمكانية التكرار: يوفر المؤلفون الكود الكامل وإعدادات التجارب

السيناريوهات المعمول بها

  1. توليد محتوى مخصص: يتطلب التحكم الدقيق في نمط النص والتعقيد وغيرها من الخصائص
  2. التحسين متعدد الأهداف: البحث عن التوازن الأمثل بين الخصائص المتضاربة
  3. محاذاة النموذج: توليد فعال لبيانات التدريب التي تلبي متطلبات خصائص محددة
  4. أنظمة الذكاء الاصطناعي التفاعلية: تعديل ديناميكي لخصائص المخرجات بناءً على ردود فعل المستخدم

المراجع

تستشهد الورقة بـ 46 مرجعًا ذا صلة، تغطي الأعمال المهمة في مجالات محاذاة LLM والتحسين متعدد الأهداف وهندسة التمثيل، مما يوفر أساسًا نظريًا قويًا للبحث.


التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة ابتكارية للتحكم الدقيق في شدة الخصائص، وتظهر أداءً ممتازًا من حيث المساهمة النظرية والقيمة العملية. يتمتع تصميم الطريقة بعقلانية، والتحقق من التجارب شامل، وقد قدمت مساهمة مهمة لمجال التحكم في LLM.