Test-Time Alignment for Large Language Models via Textual Model Predictive Control
Wang, Chen, Hung et al.
Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.
academic
Alignement au Moment du Test pour les Grands Modèles de Langage via Contrôle Prédictif de Modèle Textuel
L'alignement des grands modèles de langage avec les préférences humaines nécessite généralement un ajustement fin, mais cette approche consomme énormément de ressources. Par conséquent, des solutions d'alignement au moment du test légères sont nécessaires. Cet article aborde le problème de l'alignement au moment du test sous l'angle de la prise de décision séquentielle, révélant deux défis fondamentaux : lorsque les actions sont définies au niveau des tokens (comme le décodage guidé), l'alignement fait face à la « malédiction de la dimensionnalité » ; lorsque les actions sont définies au niveau de la réponse (comme l'optimisation itérative traditionnelle), il fait face à la « malédiction de l'horizon temporel ». Pour résoudre ce compromis, les auteurs s'inspirent du contrôle prédictif de modèle (MPC) issu de la théorie du contrôle et proposent le Contrôle Prédictif de Modèle Textuel (TMPC), un nouveau cadre de planification prédictive applicable à l'alignement des LLM au moment de l'inférence.
Importance du problème d'alignement : Bien que les grands modèles de langage excellent dans diverses tâches de traitement du langage naturel, l'alignement de leurs résultats avec les préférences humaines reste un défi critique, particulièrement pour les LLM de petite taille (moins de 10 milliards de paramètres).
Limitations des méthodes traditionnelles :
Méthodes d'alignement au moment de l'entraînement (comme RLHF, DPO) : intensives en ressources, nécessitant un réentraînement coûteux
Méthodes d'alignement au moment du test : présentent un compromis fondamental :
Le décodage guidé au niveau des tokens fait face à la « malédiction de l'horizon »
L'optimisation itérative au niveau de la réponse fait face à la « malédiction de la dimensionnalité »
Motivation de la recherche : Nécessité d'une méthode d'alignement au moment du test qui évite le réentraînement coûteux du modèle tout en équilibrant efficacement la complexité de l'horizon temporel et de l'espace de recherche.
Modélisation novatrice du problème : Première modélisation du problème d'alignement au moment du test en tant que problème de prise de décision séquentielle, unifiant les méthodes existantes et révélant leurs compromis fondamentaux.
Cadre TMPC : Proposition du cadre de Contrôle Prédictif de Modèle Textuel, adaptant les concepts de la théorie du contrôle aux tâches de génération de langage.
Deux principes fondamentaux :
Identification Rétrospective de Sous-objectifs : découverte d'étapes de planification significatives à partir des retours en arrière
Régénération Conditionnée par Sous-objectifs : amélioration itérative basée sur des sous-objectifs validés
Validation expérimentale étendue : vérification de l'efficacité et de la généralité de la méthode sur trois tâches de caractéristiques différentes.
Après génération de plusieurs réponses candidates, analyse rétrospective pour identifier les points intermédiaires de haute qualité comme sous-objectifs
Règle de mise à jour :
B ← {
B ∪ ã^{TMPC}_t(s), si |B| < capacité,
B \ {a ∈ B | R(s,a) < R(s,a')} ∪ {a'}, sinon
}
Régénération Conditionnée par Sous-objectifs :
Fonction d'agrégation :
ã^{TMPC}_t(s) ← G({τ^{(i)}_t}_{i=1}^K, R(·) | s, B) := {a | R(s,a) ≥ α et a ∈ {τ^{(i)}_t}_{i=1}^K}
Les nouveaux retours en arrière sont générés en utilisant explicitement les objectifs de haute récompense du tampon B comme signaux de conditionnement
Découverte de Frontières Dynamiques : ne dépend pas de frontières de division prédéfinies, capable de découvrir des étapes de planification significatives spécifiques à la tâche
Inspiration de l'Apprentissage par Renforcement Hiérarchique : intègre les idées de l'RL hiérarchique, décomposant les tâches de planification à long terme via des sous-objectifs
Progrès Cumulatif Stable : assure une amélioration stable des performances en construisant sur des sous-objectifs validés
Sans Entraînement Supplémentaire : utilise le LLM pré-entraîné comme modèle de dynamique et distribution de proposition, sans nécessiter d'ajustement fin
Robustesse des Hyperparamètres : les variations de taille de tampon et de longueur de segmentation ont un impact inférieur à 0.1 point sur les performances
Sensibilité du Modèle de Récompense :
L'utilisation d'un modèle de récompense plus faible maintient de bonnes performances
L'impact de l'injection de bruit est limité, démontrant l'effet de filtrage du tampon de sous-objectifs
Analyse Itérative : les performances s'améliorent régulièrement au cours des 3 premières itérations, puis diminuent légèrement
TMPC applique systématiquement pour la première fois le contrôle prédictif de modèle à l'alignement de préférences en génération de langage, comblant un vide dans le domaine interdisciplinaire entre la théorie du contrôle et le TLN.
S'inspire des idées de découverte de sous-objectifs et de planification hiérarchique du HRL, mais les adapte au scénario discret de la génération de texte.
Cadre Unifié : succès dans l'unification de l'alignement au moment du test en tant que problème de prise de décision séquentielle, révélant les compromis fondamentaux des méthodes existantes
Équilibre Efficace : TMPC équilibre efficacement la malédiction de l'horizon temporel et la malédiction de la dimensionnalité
Applicabilité Générale : amélioration cohérente sur trois tâches de caractéristiques différentes
Contribution Théorique Significative : première analyse systématique des défis fondamentaux de l'alignement au moment du test, fournissant un cadre théorique unifié
Innovation Méthodologique Forte : adaptation réussie du MPC à la génération de texte, conception ingénieuse avec principes clairs
Expérimentation Complète et Approfondie : vérification sur trois tâches de caractéristiques différentes, incluant des études d'ablation détaillées et analyses de robustesse
Valeur Pratique Élevée : sans nécessité de réentraînement, efficacité computationnelle élevée, déploiement facile
Nature Heuristique de la Découverte de Sous-objectifs : bien qu'efficace, l'identification de sous-objectifs repose toujours sur des méthodes heuristiques
Ajustement Spécifique à la Tâche : différentes tâches nécessitent des conceptions de prompts et des ajustements de paramètres spécifiques
Traitement des Dépendances à Long Terme : la capacité de traitement des séquences extrêmement longues reste à vérifier
Absence de Garanties Théoriques : manque de garanties théoriques concernant la convergence ou l'optimalité
L'article cite largement les travaux connexes, incluant principalement :
Recherche fondamentale sur les grands modèles de langage (séries GPT, LLaMA, Gemma, etc.)
Méthodes d'alignement de préférences (RLHF, DPO, SimPO, etc.)
Techniques d'alignement au moment du test (ARGS, RAIN, RE-Control, etc.)
Fondamentaux de la théorie du contrôle (MPC, MPPI, etc.)
Théorie de l'apprentissage par renforcement (RL hiérarchique, optimisation de trajectoires, etc.)
Résumé : Ceci est un article de haute qualité avec des contributions importantes tant en innovation théorique qu'en application pratique. Les auteurs ont adapté avec succès le cadre MPC de la théorie du contrôle au problème d'alignement de préférences en génération de langage, proposant la méthode innovante TMPC et validant son efficacité par des expériences complètes. Ce travail ouvre une nouvelle direction de recherche pour l'alignement au moment du test, possédant une valeur académique et une signification pratique importantes.