2025-11-25T18:43:18.843313

Test-Time Alignment for Large Language Models via Textual Model Predictive Control

Wang, Chen, Hung et al.

Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.

academic

Alignement au Moment du Test pour les Grands Modèles de Langage via Contrôle Prédictif de Modèle Textuel

Informations Fondamentales

ID de l'article : 2502.20795
Titre : Test-Time Alignment for Large Language Models via Textual Model Predictive Control
Auteurs : Kuang-Da Wang, Teng-Ruei Chen, Yu-Heng Hung, Guo-Xun Ko, Shuoyang Ding, Yueh-Hua Wu, Yu-Chiang Frank Wang, Chao-Han Huck Yang, Wen-Chih Peng, Ping-Chun Hsieh
Institutions : National Yang Ming Chiao Tung University, NVIDIA
Classification : cs.CL (Linguistique Computationnelle)
Date de publication : Février 2025
Lien de l'article : https://arxiv.org/abs/2502.20795v3

Résumé

L'alignement des grands modèles de langage avec les préférences humaines nécessite généralement un ajustement fin, mais cette approche consomme énormément de ressources. Par conséquent, des solutions d'alignement au moment du test légères sont nécessaires. Cet article aborde le problème de l'alignement au moment du test sous l'angle de la prise de décision séquentielle, révélant deux défis fondamentaux : lorsque les actions sont définies au niveau des tokens (comme le décodage guidé), l'alignement fait face à la « malédiction de la dimensionnalité » ; lorsque les actions sont définies au niveau de la réponse (comme l'optimisation itérative traditionnelle), il fait face à la « malédiction de l'horizon temporel ». Pour résoudre ce compromis, les auteurs s'inspirent du contrôle prédictif de modèle (MPC) issu de la théorie du contrôle et proposent le Contrôle Prédictif de Modèle Textuel (TMPC), un nouveau cadre de planification prédictive applicable à l'alignement des LLM au moment de l'inférence.

Contexte et Motivation de la Recherche

Contexte du Problème

Importance du problème d'alignement : Bien que les grands modèles de langage excellent dans diverses tâches de traitement du langage naturel, l'alignement de leurs résultats avec les préférences humaines reste un défi critique, particulièrement pour les LLM de petite taille (moins de 10 milliards de paramètres).
Limitations des méthodes traditionnelles :
- Méthodes d'alignement au moment de l'entraînement (comme RLHF, DPO) : intensives en ressources, nécessitant un réentraînement coûteux
- Méthodes d'alignement au moment du test : présentent un compromis fondamental :
  - Le décodage guidé au niveau des tokens fait face à la « malédiction de l'horizon »
  - L'optimisation itérative au niveau de la réponse fait face à la « malédiction de la dimensionnalité »
Motivation de la recherche : Nécessité d'une méthode d'alignement au moment du test qui évite le réentraînement coûteux du modèle tout en équilibrant efficacement la complexité de l'horizon temporel et de l'espace de recherche.

Contributions Principales

Modélisation novatrice du problème : Première modélisation du problème d'alignement au moment du test en tant que problème de prise de décision séquentielle, unifiant les méthodes existantes et révélant leurs compromis fondamentaux.
Cadre TMPC : Proposition du cadre de Contrôle Prédictif de Modèle Textuel, adaptant les concepts de la théorie du contrôle aux tâches de génération de langage.
Deux principes fondamentaux :
- Identification Rétrospective de Sous-objectifs : découverte d'étapes de planification significatives à partir des retours en arrière
- Régénération Conditionnée par Sous-objectifs : amélioration itérative basée sur des sous-objectifs validés
Validation expérimentale étendue : vérification de l'efficacité et de la généralité de la méthode sur trois tâches de caractéristiques différentes.

Détails de la Méthode

Définition de la Tâche

Modélisation de la génération de texte en tant que processus de décision markovien (MDP) à horizon fini :

Espace d'états S : tous les préfixes textuels possibles
Espace d'actions A : toutes les unités de génération possibles
Fonction de transition P : transition déterministe
Fonction de récompense R : retour scalaire évaluant la qualité de l'alignement
Objectif : trouver la séquence d'actions optimale $a^* = \arg\max_{a_{0:T-1}} \sum_{t=0}^{T-1} R(s_t, a_t)$

Architecture du Cadre TMPC

1. Adaptation MPC Fondamentale

TMPC adapte le MPC traditionnel à la génération de texte :

a^{TMPC}(s) ← G({τ^{(i)}}_{i=1}^K, {J(τ^{(i)})}_{i=1}^K; s)

où G est une fonction d'agrégation, τ est une trajectoire, et J est la récompense cumulative.

2. Implémentation des Principes Fondamentaux

Identification Rétrospective de Sous-objectifs :

Après génération de plusieurs réponses candidates, analyse rétrospective pour identifier les points intermédiaires de haute qualité comme sous-objectifs
Règle de mise à jour :

B ← {
  B ∪ ã^{TMPC}_t(s), si |B| < capacité,
  B \ {a ∈ B | R(s,a) < R(s,a')} ∪ {a'}, sinon
}

Régénération Conditionnée par Sous-objectifs :

Fonction d'agrégation :

ã^{TMPC}_t(s) ← G({τ^{(i)}_t}_{i=1}^K, R(·) | s, B) := {a | R(s,a) ≥ α et a ∈ {τ^{(i)}_t}_{i=1}^K}

Les nouveaux retours en arrière sont générés en utilisant explicitement les objectifs de haute récompense du tampon B comme signaux de conditionnement

Points d'Innovation Technique

Découverte de Frontières Dynamiques : ne dépend pas de frontières de division prédéfinies, capable de découvrir des étapes de planification significatives spécifiques à la tâche
Inspiration de l'Apprentissage par Renforcement Hiérarchique : intègre les idées de l'RL hiérarchique, décomposant les tâches de planification à long terme via des sous-objectifs
Progrès Cumulatif Stable : assure une amélioration stable des performances en construisant sur des sous-objectifs validés
Sans Entraînement Supplémentaire : utilise le LLM pré-entraîné comme modèle de dynamique et distribution de proposition, sans nécessiter d'ajustement fin

Configuration Expérimentale

Ensembles de Données

Traduction Automatique au Niveau du Paragraphe :
- Benchmark WMT'24 Discourse-Level Literary Translation
- Paires de langues : chinois→anglais, chinois→allemand, chinois→russe
- Chaque instance segmentée en au maximum 1024 tokens
Génération de Réponses Textuelles Longues :
- Ensemble de données Dahoas/full-hh-rlhf
- Sélection de 6K échantillons de réponses les plus longues pour l'entraînement, 1024 pour les tests
Synthèse de Programmes :
- Ensemble de test officiel du dataset MBPP
- 500 problèmes (IDs de tâche 11-510)

Métriques d'Évaluation

Traduction Automatique : score SEGALEcomet, Ratio d'Alignement Nul (NA)
Réponses Textuelles Longues : score de récompense moyen, taux de victoire GPT-4
Synthèse de Programmes : taux de réussite (Pass Rate)

Méthodes de Comparaison

Méthodes d'alignement au moment du test :

ARGS : décodage guidé au niveau des tokens
RAIN : auto-évaluation basée sur structure arborescente
RE-Control : optimisation par gradient modifiant les représentations internes
GenARM : modèle de récompense autorégressif
TPO : méthode d'optimisation textuelle
Échantillonnage Best-of-N

Méthodes d'alignement au moment de l'entraînement :

Ajustement fin supervisé (SFT)
Optimisation de Préférence Directe (DPO)
SimPO

Détails d'Implémentation

Modèle de base : LLaMA-3.1-8B-Instruct
Nombre d'itérations : 3-5
Nombre de retours en arrière par itération : 2-3
Seuil de qualité α : paramétrage spécifique à la tâche
Capacité du tampon : 3-6 sous-objectifs

Résultats Expérimentaux

Résultats Principaux

Traduction Automatique au Niveau du Paragraphe

Sur les tâches de traduction littéraire WMT'24, TMPC surpasse tous les autres baselines d'alignement au moment du test :

Direction	TMPC SEGALEcomet	Best-of-60	TPO	Ratio NA
zh→en	94.62	90.97	88.81	0.00
zh→ru	91.53	84.86	92.63	1.19
zh→de	91.73	82.74	87.67	2.40

TMPC surpasse même GPT-4o (94.58) dans la direction zh→en
Amélioration significative par rapport au baseline fort Best-of-60, avec un coût computationnel inférieur

Génération de Réponses Textuelles Longues

Récompense Moyenne : 4.60 (TMPC) vs 4.18 (Best-of-20) vs 3.95 (DPO)
Taux de Victoire GPT-4 : victoire dans les comparaisons avec DPO et Best-of-20
Nécessite seulement 10 générations (3 itérations × 3 retours en arrière + 1 génération initiale)

Synthèse de Programmes

Taux de Réussite : 61% (TMPC) vs 50% (Best-of-35) vs 48% (TPO)
Exploration systématique des chemins de solution en construisant sur la correction partielle

Études d'Ablation

Robustesse des Hyperparamètres : les variations de taille de tampon et de longueur de segmentation ont un impact inférieur à 0.1 point sur les performances
Sensibilité du Modèle de Récompense :
- L'utilisation d'un modèle de récompense plus faible maintient de bonnes performances
- L'impact de l'injection de bruit est limité, démontrant l'effet de filtrage du tampon de sous-objectifs
Analyse Itérative : les performances s'améliorent régulièrement au cours des 3 premières itérations, puis diminuent légèrement

Analyses de Cas

L'article présente comment TMPC découvre et utilise les sous-objectifs dans différentes tâches :

Traduction Automatique : alignement au niveau des phrases
Génération de Réponses : blocs de texte sémantiquement cohérents
Synthèse de Programmes : jalons fonctionnels passant les tests unitaires

Travaux Connexes

Méthodes d'Alignement de Préférences

Méthodes au moment de l'entraînement : RLHF, DPO, SimPO, CPO, etc., coûteuses en calcul mais très efficaces
Méthodes au moment du test : décodage guidé, optimisation itérative, recherche arborescente, etc., légères mais avec des limitations inhérentes

Applications de la Théorie du Contrôle en Traitement du Langage Naturel

TMPC applique systématiquement pour la première fois le contrôle prédictif de modèle à l'alignement de préférences en génération de langage, comblant un vide dans le domaine interdisciplinaire entre la théorie du contrôle et le TLN.

Apprentissage par Renforcement Hiérarchique

S'inspire des idées de découverte de sous-objectifs et de planification hiérarchique du HRL, mais les adapte au scénario discret de la génération de texte.

Conclusion et Discussion

Conclusions Principales

Cadre Unifié : succès dans l'unification de l'alignement au moment du test en tant que problème de prise de décision séquentielle, révélant les compromis fondamentaux des méthodes existantes
Équilibre Efficace : TMPC équilibre efficacement la malédiction de l'horizon temporel et la malédiction de la dimensionnalité
Applicabilité Générale : amélioration cohérente sur trois tâches de caractéristiques différentes

Limitations

Contraintes de Capacité du Modèle : limitées par la capacité expressive du modèle de langage sous-jacent
Décalage de Distribution : performances potentiellement dégradées lorsque les résultats attendus s'éloignent de la distribution originale du modèle
Dépendance au Signal de Récompense : les performances dépendent largement de la qualité du modèle de récompense

Directions Futures

Combinaison avec Méthodes d'Entraînement : exploration de l'ajustement fin léger ou de l'optimisation collaborative du modèle de récompense
Adaptation de Distribution Plus Forte : amélioration de la robustesse en cas de décalage de distribution
Découverte Automatique de Sous-objectifs : développement de mécanismes plus intelligents d'identification de sous-objectifs

Évaluation Approfondie

Points Forts

Contribution Théorique Significative : première analyse systématique des défis fondamentaux de l'alignement au moment du test, fournissant un cadre théorique unifié
Innovation Méthodologique Forte : adaptation réussie du MPC à la génération de texte, conception ingénieuse avec principes clairs
Expérimentation Complète et Approfondie : vérification sur trois tâches de caractéristiques différentes, incluant des études d'ablation détaillées et analyses de robustesse
Valeur Pratique Élevée : sans nécessité de réentraînement, efficacité computationnelle élevée, déploiement facile

Insuffisances

Nature Heuristique de la Découverte de Sous-objectifs : bien qu'efficace, l'identification de sous-objectifs repose toujours sur des méthodes heuristiques
Ajustement Spécifique à la Tâche : différentes tâches nécessitent des conceptions de prompts et des ajustements de paramètres spécifiques
Traitement des Dépendances à Long Terme : la capacité de traitement des séquences extrêmement longues reste à vérifier
Absence de Garanties Théoriques : manque de garanties théoriques concernant la convergence ou l'optimalité

Impact

Valeur Académique : fournit un nouveau paradigme de recherche pour l'alignement au moment du test, susceptible d'inspirer les travaux ultérieurs
Signification Pratique : propose une solution viable pour l'alignement des LLM dans les environnements aux ressources limitées
Contribution Interdisciplinaire : favorise la fusion croisée entre la théorie du contrôle et le TLN

Scénarios d'Application

Déploiement aux Ressources Limitées : scénarios où l'ajustement fin à grande échelle n'est pas possible
Ajustement Dynamique de Préférences : applications nécessitant une adaptation rapide à différentes préférences
Systèmes Multi-tâches : systèmes nécessitant une commutation flexible de stratégies d'alignement entre différentes tâches
Applications Critiques pour la Sécurité : scénarios nécessitant des vérifications de sécurité supplémentaires au moment de l'inférence

Références

L'article cite largement les travaux connexes, incluant principalement :

Recherche fondamentale sur les grands modèles de langage (séries GPT, LLaMA, Gemma, etc.)
Méthodes d'alignement de préférences (RLHF, DPO, SimPO, etc.)
Techniques d'alignement au moment du test (ARGS, RAIN, RE-Control, etc.)
Fondamentaux de la théorie du contrôle (MPC, MPPI, etc.)
Théorie de l'apprentissage par renforcement (RL hiérarchique, optimisation de trajectoires, etc.)

Résumé : Ceci est un article de haute qualité avec des contributions importantes tant en innovation théorique qu'en application pratique. Les auteurs ont adapté avec succès le cadre MPC de la théorie du contrôle au problème d'alignement de préférences en génération de langage, proposant la méthode innovante TMPC et validant son efficacité par des expériences complètes. Ce travail ouvre une nouvelle direction de recherche pour l'alignement au moment du test, possédant une valeur académique et une signification pratique importantes.