2025-11-25T18:43:18.843313

Test-Time Alignment for Large Language Models via Textual Model Predictive Control

Wang, Chen, Hung et al.

Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.

academic

محاذاة وقت الاختبار للنماذج اللغوية الكبيرة عبر التحكم التنبؤي للنموذج النصي

المعلومات الأساسية

معرّف الورقة: 2502.20795
العنوان: Test-Time Alignment for Large Language Models via Textual Model Predictive Control
المؤلفون: Kuang-Da Wang, Teng-Ruei Chen, Yu-Heng Hung, Guo-Xun Ko, Shuoyang Ding, Yueh-Hua Wu, Yu-Chiang Frank Wang, Chao-Han Huck Yang, Wen-Chih Peng, Ping-Chun Hsieh
المؤسسات: جامعة National Yang Ming Chiao Tung، NVIDIA
التصنيف: cs.CL (اللسانيات الحاسوبية)
تاريخ النشر: فبراير 2025
رابط الورقة: https://arxiv.org/abs/2502.20795v3

الملخص

تتطلب محاذاة النماذج اللغوية الكبيرة مع تفضيلات الإنسان عادة ضبطاً دقيقاً، لكن هذا النهج يستهلك موارد ضخمة، مما يستدعي حلولاً بديلة خفيفة الوزن لمحاذاة وقت الاختبار. تعالج هذه الورقة مشكلة محاذاة وقت الاختبار من منظور اتخاذ القرارات المتسلسلة، وتكشف عن تحديين أساسيين: عندما تُعرّف الإجراءات على مستوى الرمز (كما في فك التشفير الموجه)، تواجه المحاذاة "لعنة الأبعاد"؛ وعندما تُعرّف على مستوى الاستجابة (كما في التحسين التكراري التقليدي)، تواجه "لعنة الأفق الزمني". لحل هذا التوازن، يستلهم المؤلفون من التحكم التنبؤي للنموذج (MPC) في نظرية التحكم، ويقترحون التحكم التنبؤي للنموذج النصي (TMPC)، وهو إطار عمل تخطيط تنبؤي جديد قابل للتطبيق على محاذاة النماذج اللغوية الكبيرة في وقت الاستدلال.

خلفية البحث والدافع

خلفية المشكلة

أهمية مشكلة المحاذاة: على الرغم من أن النماذج اللغوية الكبيرة تُظهر أداءً متفوقاً في مختلف مهام معالجة اللغة الطبيعية، فإن محاذاة مخرجاتها مع تفضيلات الإنسان تظل تحدياً حرجاً، خاصة بالنسبة للنماذج اللغوية الأصغر (مثل تلك التي تحتوي على أقل من 10 مليارات معامل).
قيود الطرق التقليدية:
- طرق المحاذاة في وقت التدريب (مثل RLHF و DPO) كثيفة الموارد وتتطلب إعادة تدريب مكلفة
- طرق محاذاة وقت الاختبار تواجه توازناً أساسياً:
  - فك التشفير الموجه على مستوى الرمز يواجه "لعنة الأفق الزمني"
  - التحسين التكراري على مستوى الاستجابة يواجه "لعنة الأبعاد"
دافع البحث: الحاجة إلى طريقة محاذاة في وقت الاختبار تتجنب إعادة تدريب النموذج المكلفة وتوازن بفعالية بين تعقيد الأفق الزمني وتعقيد فضاء البحث.

المساهمات الأساسية

نمذجة مبتكرة للمشكلة: أول من يصيغ مشكلة محاذاة وقت الاختبار كمشكلة اتخاذ قرارات متسلسلة، مما يوحد الطرق الموجودة ويكشف عن توازناتها الأساسية.
إطار عمل TMPC: يقترح إطار عمل التحكم التنبؤي للنموذج النصي، الذي يكيّف مفاهيم نظرية التحكم لمهام توليد اللغة.
مبدآن أساسيان:
- تحديد الأهداف الفرعية بأثر رجعي (Hindsight Subgoal Identification): اكتشاف خطوات تخطيط ذات معنى من عمليات التراجع
- إعادة التوليد المشروطة بالأهداف الفرعية (Subgoal-Conditioned Re-Generation): التحسين التكراري بناءً على أهداف فرعية تم التحقق منها
التحقق التجريبي الواسع: التحقق من فعالية الطريقة وعموميتها على ثلاث مهام ذات خصائص مختلفة.

شرح الطريقة

تعريف المهمة

نمذجة توليد النصوص كعملية قرار ماركوفية محدودة الوقت (MDP):

فضاء الحالة S: جميع البادئات النصية الممكنة
فضاء الإجراء A: جميع وحدات التوليد الممكنة
دالة الانتقال P: انتقال حتمي
دالة المكافأة R: تغذية راجعة عددية لتقييم جودة المحاذاة
الهدف: إيجاد تسلسل الإجراءات الأمثل $a^* = \arg\max_{a_{0:T-1}} \sum_{t=0}^{T-1} R(s_t, a_t)$

معمارية إطار عمل TMPC

1. تكييف MPC الأساسي

يكيّف TMPC التحكم التنبؤي التقليدي للنموذج لتوليد النصوص:

a^{TMPC}(s) ← G({τ^{(i)}}_{i=1}^K, {J(τ^{(i)})}_{i=1}^K; s)

حيث G هي دالة التجميع، τ هي المسارات، J هي المكافآت المتراكمة.

2. تنفيذ المبادئ الأساسية

تحديد الأهداف الفرعية بأثر رجعي:

بعد توليد عدة استجابات مرشحة، يتم تحليل بأثر رجعي لتحديد نقاط وسيطة عالية الجودة كأهداف فرعية
قاعدة التحديث:

B ← {
  B ∪ ã^{TMPC}_t(s), if |B| < capacity,
  B \ {a ∈ B | R(s,a) < R(s,a')} ∪ {a'}, otherwise
}

إعادة التوليد المشروطة بالأهداف الفرعية:

دالة التجميع:

ã^{TMPC}_t(s) ← G({τ^{(i)}_t}_{i=1}^K, R(·) | s, B) := {a | R(s,a) ≥ α and a ∈ {τ^{(i)}_t}_{i=1}^K}

يتم توليد عمليات تراجع جديدة من خلال الاستفادة الصريحة من الأهداف عالية المكافآت في المخزن المؤقت B كإشارات شرطية

نقاط الابتكار التقني

اكتشاف الحدود الديناميكية: لا تعتمد على حدود انقسام محددة مسبقاً، وتستطيع اكتشاف خطوات تخطيط ذات معنى خاصة بالمهمة
الإلهام من التعلم المعزز الهرمي: تجمع بين أفكار التعلم المعزز الهرمي من خلال تحليل المهام طويلة الأجل إلى أهداف فرعية
التقدم المتراكم المستقر: من خلال البناء على أهداف فرعية تم التحقق منها، تضمن تحسناً مستقراً في الأداء
بدون تدريب إضافي: تستخدم النموذج اللغوي المدرب مسبقاً كنموذج ديناميكي وتوزيع اقتراح، بدون ضبط دقيق

إعداد التجارب

مجموعات البيانات

الترجمة الآلية على مستوى الفقرة:
- معيار WMT'24 Discourse-Level Literary Translation
- أزواج اللغات: الصينية→الإنجليزية، الصينية→الألمانية، الصينية→الروسية
- يتم تقسيم كل مثيل إلى 1024 رمز كحد أقصى
توليد الاستجابات النصية الطويلة:
- مجموعة بيانات Dahoas/full-hh-rlhf
- اختيار 6000 عينة استجابة الأطول للتدريب، و1024 للاختبار
تركيب البرامج:
- مجموعة الاختبار الرسمية لمجموعة بيانات MBPP
- 500 مشكلة (معرفات المهام 11-510)

مقاييس التقييم

الترجمة الآلية: درجة SEGALEcomet، نسبة عدم المحاذاة (NA)
الاستجابات النصية الطويلة: متوسط درجة المكافأة، معدل الفوز مع GPT-4
تركيب البرامج: معدل النجاح (Pass Rate)

طرق المقارنة

طرق محاذاة وقت الاختبار:

ARGS: فك تشفير موجه على مستوى الرمز
RAIN: تقييم ذاتي قائم على البنية الشجرية
RE-Control: تحسين التدرج الذي يعدل التمثيلات الداخلية
GenARM: نموذج مكافأة تلقائي الانحدار
TPO: طريقة تحسين النصوص
أخذ عينات Best-of-N

طرق محاذاة وقت التدريب:

الضبط الدقيق بإشراف (SFT)
تحسين التفضيل المباشر (DPO)
SimPO

تفاصيل التنفيذ

نموذج العمود الفقري: LLaMA-3.1-8B-Instruct
عدد التكرارات: 3-5
عدد عمليات التراجع لكل تكرار: 2-3
عتبة الجودة α: إعدادات خاصة بالمهمة
سعة المخزن المؤقت: 3-6 أهداف فرعية

نتائج التجارب

النتائج الرئيسية

الترجمة الآلية على مستوى الفقرة

على مهام الترجمة الأدبية WMT'24، يحقق TMPC أفضل أداء بين جميع خطوط الأساس لمحاذاة وقت الاختبار:

الاتجاه	درجة TMPC SEGALEcomet	Best-of-60	TPO	نسبة NA
zh→en	94.62	90.97	88.81	0.00
zh→ru	91.53	84.86	92.63	1.19
zh→de	91.73	82.74	87.67	2.40

يتفوق TMPC على اتجاه zh→en حتى على GPT-4o (94.58)
يتفوق بشكل كبير على خط الأساس القوي Best-of-60، لكن بتكلفة حسابية أقل

توليد الاستجابات النصية الطويلة

متوسط المكافأة: 4.60 (TMPC) مقابل 4.18 (Best-of-20) مقابل 3.95 (DPO)
معدل فوز GPT-4: يفوز في المقارنات مع DPO و Best-of-20
يتطلب فقط 10 عمليات توليد (3 تكرارات × 3 عمليات تراجع + 1 توليد أولي)

تركيب البرامج

معدل النجاح: 61% (TMPC) مقابل 50% (Best-of-35) مقابل 48% (TPO)
يستكشف بشكل منهجي مسارات الحل من خلال بناء الصحة الجزئية

تجارب الاستئصال

قوة المعاملات الفائقة: التغييرات في حجم المخزن المؤقت وطول التقسيم لها تأثير أقل من 0.1 نقطة على الأداء
حساسية نموذج المكافأة:
- استخدام نموذج مكافأة أضعف يحافظ على أداء جيدة
- التأثير المحدود لحقن الضوضاء، مما يعكس تأثير الترشيح في المخزن المؤقت للأهداف الفرعية
تحليل التكرار: تتحسن الأداء بشكل مطرد خلال التكرارات الثلاثة الأولى، ثم تنخفض قليلاً بعد ذلك

تحليل الحالات

تعرض الورقة كيف يكتشف TMPC ويستخدم الأهداف الفرعية في مهام مختلفة:

الترجمة الآلية: محاذاة على مستوى الجملة
توليد الاستجابات: كتل نصية متماسكة دلالياً
تركيب البرامج: معالم وظيفية تمر اختبارات الوحدة

الأعمال ذات الصلة

طرق محاذاة التفضيل

طرق وقت التدريب: RLHF و DPO و SimPO و CPO وغيرها، مكلفة حسابياً لكن فعالة
طرق وقت الاختبار: فك التشفير الموجه والتحسين التكراري والبحث الشجري وغيرها، خفيفة الوزن لكن لها قيود متأصلة

تطبيقات نظرية التحكم في معالجة اللغة الطبيعية

يطبق TMPC لأول مرة التحكم التنبؤي للنموذج بشكل منهجي على محاذاة تفضيلات توليد اللغة، مما يملأ فجوة في المجال المتقاطع بين نظرية التحكم ومعالجة اللغة الطبيعية.

التعلم المعزز الهرمي

يستلهم من اكتشاف الأهداف الفرعية والتخطيط الهرمي في HRL، لكن يكيفها مع سيناريو توليد النصوص المنفصل.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

إطار عمل موحد: ينجح في توحيد محاذاة وقت الاختبار كمشكلة اتخاذ قرارات متسلسلة، مما يكشف عن التوازنات الأساسية للطرق الموجودة
توازن فعال: يوازن TMPC بفعالية بين لعنة الأفق الزمني ولعنة الأبعاد
قابلية التطبيق الواسعة: يحقق تحسناً متسقاً على ثلاث مهام ذات خصائص مختلفة

القيود

قيود قدرة النموذج: محدود بقدرة التعبير عن النموذج اللغوي الأساسي
تحول التوزيع: قد يؤدي أداء ضعيفة عندما تكون المخرجات المتوقعة بعيدة عن التوزيع الأصلي للنموذج
الاعتماد على إشارة المكافأة: تعتمد الأداء إلى حد كبير على جودة نموذج المكافأة

الاتجاهات المستقبلية

الدمج مع طرق وقت التدريب: استكشاف الضبط الدقيق الخفيف الوزن أو التحسين المتزامن لنموذج المكافأة
التكيف الأفضل مع التوزيع: تحسين الثوبة تحت تحول التوزيع
اكتشاف الأهداف الفرعية التلقائي: تطوير آليات اكتشاف أهداف فرعية أكثر ذكاءً

التقييم المتعمق

المميزات

مساهمة نظرية كبيرة: أول من يحلل بشكل منهجي التحديات الأساسية لمحاذاة وقت الاختبار، مما يوفر إطار عمل نظري موحد
ابتكار الطريقة قوي: يكيّف بنجاح MPC لتوليد النصوص، مع تصميم ذكي ومبادئ واضحة
التجارب شاملة وكافية: التحقق على ثلاث مهام ذات خصائص مختلفة، مع تجارب استئصال مفصلة وتحليل قوة
قيمة عملية عالية: بدون إعادة تدريب، كفاءة حسابية عالية، سهلة النشر

أوجه القصور

الطبيعة الاستكشافية لاكتشاف الأهداف الفرعية: على الرغم من الفعالية، فإن تحديد الأهداف الفرعية لا يزال يعتمد على طرق استكشافية
الضبط الدقيق الخاص بالمهمة: تتطلب مهام مختلفة تصميم موجهات وضبط معاملات محددة
معالجة التبعيات طويلة الأجل: لا تزال قدرة معالجة التسلسلات الطويلة جداً بحاجة إلى التحقق
غياب الضمانات النظرية: تفتقد ضمانات التقارب أو الأمثلية

التأثير

القيمة الأكاديمية: توفر نموذج بحث جديد لمحاذاة وقت الاختبار، قد تلهم الأعمال اللاحقة
الأهمية العملية: توفر حلاً قابلاً للتطبيق لمحاذاة النماذج اللغوية الكبيرة في بيئات الموارد المحدودة
مساهمة متعددة التخصصات: تعزز الاندماج المتقاطع بين نظرية التحكم ومعالجة اللغة الطبيعية

السيناريوهات القابلة للتطبيق

النشر محدود الموارد: السيناريوهات التي لا يمكن فيها إجراء ضبط دقيق واسع النطاق
تعديل التفضيلات الديناميكية: التطبيقات التي تتطلب التكيف السريع مع تفضيلات مختلفة
الأنظمة متعددة المهام: الأنظمة التي تحتاج إلى التبديل المرن بين استراتيجيات محاذاة مختلفة عبر المهام
التطبيقات الحساسة للأمان: السيناريوهات التي تتطلب فحوصات أمان إضافية في وقت الاستدلال

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:

أبحاث النماذج اللغوية الكبيرة الأساسية (سلسلة GPT و LLaMA و Gemma وغيرها)
طرق محاذاة التفضيل (RLHF و DPO و SimPO وغيرها)
تقنيات محاذاة وقت الاختبار (ARGS و RAIN و RE-Control وغيرها)
أساسيات نظرية التحكم (MPC و MPPI وغيرها)
نظرية التعلم المعزز (التعلم المعزز الهرمي وتحسين المسار وغيرها)

الملخص: هذه ورقة عالية الجودة ذات مساهمات مهمة في كل من الابتكار النظري والتطبيق العملي. ينجح المؤلفون في تكييف إطار عمل MPC من نظرية التحكم مع مشكلة محاذاة التفضيلات في توليد اللغة، ويقترحون طريقة TMPC المبتكرة، ويتحققون من فعاليتها من خلال تجارب شاملة. يوفر هذا العمل اتجاهاً بحثياً جديداً لمحاذاة وقت الاختبار، وله قيمة أكاديمية وعملية مهمة.