Test-Time Alignment for Large Language Models via Textual Model Predictive Control
Wang, Chen, Hung et al.
Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.
academic
محاذاة وقت الاختبار للنماذج اللغوية الكبيرة عبر التحكم التنبؤي للنموذج النصي
تتطلب محاذاة النماذج اللغوية الكبيرة مع تفضيلات الإنسان عادة ضبطاً دقيقاً، لكن هذا النهج يستهلك موارد ضخمة، مما يستدعي حلولاً بديلة خفيفة الوزن لمحاذاة وقت الاختبار. تعالج هذه الورقة مشكلة محاذاة وقت الاختبار من منظور اتخاذ القرارات المتسلسلة، وتكشف عن تحديين أساسيين: عندما تُعرّف الإجراءات على مستوى الرمز (كما في فك التشفير الموجه)، تواجه المحاذاة "لعنة الأبعاد"؛ وعندما تُعرّف على مستوى الاستجابة (كما في التحسين التكراري التقليدي)، تواجه "لعنة الأفق الزمني". لحل هذا التوازن، يستلهم المؤلفون من التحكم التنبؤي للنموذج (MPC) في نظرية التحكم، ويقترحون التحكم التنبؤي للنموذج النصي (TMPC)، وهو إطار عمل تخطيط تنبؤي جديد قابل للتطبيق على محاذاة النماذج اللغوية الكبيرة في وقت الاستدلال.
أهمية مشكلة المحاذاة: على الرغم من أن النماذج اللغوية الكبيرة تُظهر أداءً متفوقاً في مختلف مهام معالجة اللغة الطبيعية، فإن محاذاة مخرجاتها مع تفضيلات الإنسان تظل تحدياً حرجاً، خاصة بالنسبة للنماذج اللغوية الأصغر (مثل تلك التي تحتوي على أقل من 10 مليارات معامل).
قيود الطرق التقليدية:
طرق المحاذاة في وقت التدريب (مثل RLHF و DPO) كثيفة الموارد وتتطلب إعادة تدريب مكلفة
طرق محاذاة وقت الاختبار تواجه توازناً أساسياً:
فك التشفير الموجه على مستوى الرمز يواجه "لعنة الأفق الزمني"
التحسين التكراري على مستوى الاستجابة يواجه "لعنة الأبعاد"
دافع البحث: الحاجة إلى طريقة محاذاة في وقت الاختبار تتجنب إعادة تدريب النموذج المكلفة وتوازن بفعالية بين تعقيد الأفق الزمني وتعقيد فضاء البحث.
يطبق TMPC لأول مرة التحكم التنبؤي للنموذج بشكل منهجي على محاذاة تفضيلات توليد اللغة، مما يملأ فجوة في المجال المتقاطع بين نظرية التحكم ومعالجة اللغة الطبيعية.
تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:
أبحاث النماذج اللغوية الكبيرة الأساسية (سلسلة GPT و LLaMA و Gemma وغيرها)
طرق محاذاة التفضيل (RLHF و DPO و SimPO وغيرها)
تقنيات محاذاة وقت الاختبار (ARGS و RAIN و RE-Control وغيرها)
أساسيات نظرية التحكم (MPC و MPPI وغيرها)
نظرية التعلم المعزز (التعلم المعزز الهرمي وتحسين المسار وغيرها)
الملخص: هذه ورقة عالية الجودة ذات مساهمات مهمة في كل من الابتكار النظري والتطبيق العملي. ينجح المؤلفون في تكييف إطار عمل MPC من نظرية التحكم مع مشكلة محاذاة التفضيلات في توليد اللغة، ويقترحون طريقة TMPC المبتكرة، ويتحققون من فعاليتها من خلال تجارب شاملة. يوفر هذا العمل اتجاهاً بحثياً جديداً لمحاذاة وقت الاختبار، وله قيمة أكاديمية وعملية مهمة.