2025-11-25T18:43:18.843313

Test-Time Alignment for Large Language Models via Textual Model Predictive Control

Wang, Chen, Hung et al.
Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.
academic

Alignement au Moment du Test pour les Grands Modèles de Langage via Contrôle Prédictif de Modèle Textuel

Informations Fondamentales

  • ID de l'article : 2502.20795
  • Titre : Test-Time Alignment for Large Language Models via Textual Model Predictive Control
  • Auteurs : Kuang-Da Wang, Teng-Ruei Chen, Yu-Heng Hung, Guo-Xun Ko, Shuoyang Ding, Yueh-Hua Wu, Yu-Chiang Frank Wang, Chao-Han Huck Yang, Wen-Chih Peng, Ping-Chun Hsieh
  • Institutions : National Yang Ming Chiao Tung University, NVIDIA
  • Classification : cs.CL (Linguistique Computationnelle)
  • Date de publication : Février 2025
  • Lien de l'article : https://arxiv.org/abs/2502.20795v3

Résumé

L'alignement des grands modèles de langage avec les préférences humaines nécessite généralement un ajustement fin, mais cette approche consomme énormément de ressources. Par conséquent, des solutions d'alignement au moment du test légères sont nécessaires. Cet article aborde le problème de l'alignement au moment du test sous l'angle de la prise de décision séquentielle, révélant deux défis fondamentaux : lorsque les actions sont définies au niveau des tokens (comme le décodage guidé), l'alignement fait face à la « malédiction de la dimensionnalité » ; lorsque les actions sont définies au niveau de la réponse (comme l'optimisation itérative traditionnelle), il fait face à la « malédiction de l'horizon temporel ». Pour résoudre ce compromis, les auteurs s'inspirent du contrôle prédictif de modèle (MPC) issu de la théorie du contrôle et proposent le Contrôle Prédictif de Modèle Textuel (TMPC), un nouveau cadre de planification prédictive applicable à l'alignement des LLM au moment de l'inférence.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Importance du problème d'alignement : Bien que les grands modèles de langage excellent dans diverses tâches de traitement du langage naturel, l'alignement de leurs résultats avec les préférences humaines reste un défi critique, particulièrement pour les LLM de petite taille (moins de 10 milliards de paramètres).
  2. Limitations des méthodes traditionnelles :
    • Méthodes d'alignement au moment de l'entraînement (comme RLHF, DPO) : intensives en ressources, nécessitant un réentraînement coûteux
    • Méthodes d'alignement au moment du test : présentent un compromis fondamental :
      • Le décodage guidé au niveau des tokens fait face à la « malédiction de l'horizon »
      • L'optimisation itérative au niveau de la réponse fait face à la « malédiction de la dimensionnalité »
  3. Motivation de la recherche : Nécessité d'une méthode d'alignement au moment du test qui évite le réentraînement coûteux du modèle tout en équilibrant efficacement la complexité de l'horizon temporel et de l'espace de recherche.

Contributions Principales

  1. Modélisation novatrice du problème : Première modélisation du problème d'alignement au moment du test en tant que problème de prise de décision séquentielle, unifiant les méthodes existantes et révélant leurs compromis fondamentaux.
  2. Cadre TMPC : Proposition du cadre de Contrôle Prédictif de Modèle Textuel, adaptant les concepts de la théorie du contrôle aux tâches de génération de langage.
  3. Deux principes fondamentaux :
    • Identification Rétrospective de Sous-objectifs : découverte d'étapes de planification significatives à partir des retours en arrière
    • Régénération Conditionnée par Sous-objectifs : amélioration itérative basée sur des sous-objectifs validés
  4. Validation expérimentale étendue : vérification de l'efficacité et de la généralité de la méthode sur trois tâches de caractéristiques différentes.

Détails de la Méthode

Définition de la Tâche

Modélisation de la génération de texte en tant que processus de décision markovien (MDP) à horizon fini :

  • Espace d'états S : tous les préfixes textuels possibles
  • Espace d'actions A : toutes les unités de génération possibles
  • Fonction de transition P : transition déterministe
  • Fonction de récompense R : retour scalaire évaluant la qualité de l'alignement
  • Objectif : trouver la séquence d'actions optimale a=argmaxa0:T1t=0T1R(st,at)a^* = \arg\max_{a_{0:T-1}} \sum_{t=0}^{T-1} R(s_t, a_t)

Architecture du Cadre TMPC

1. Adaptation MPC Fondamentale

TMPC adapte le MPC traditionnel à la génération de texte :

a^{TMPC}(s) ← G({τ^{(i)}}_{i=1}^K, {J(τ^{(i)})}_{i=1}^K; s)

où G est une fonction d'agrégation, τ est une trajectoire, et J est la récompense cumulative.

2. Implémentation des Principes Fondamentaux

Identification Rétrospective de Sous-objectifs :

  • Après génération de plusieurs réponses candidates, analyse rétrospective pour identifier les points intermédiaires de haute qualité comme sous-objectifs
  • Règle de mise à jour :
B ← {
  B ∪ ã^{TMPC}_t(s), si |B| < capacité,
  B \ {a ∈ B | R(s,a) < R(s,a')} ∪ {a'}, sinon
}

Régénération Conditionnée par Sous-objectifs :

  • Fonction d'agrégation :
ã^{TMPC}_t(s) ← G({τ^{(i)}_t}_{i=1}^K, R(·) | s, B) := {a | R(s,a) ≥ α et a ∈ {τ^{(i)}_t}_{i=1}^K}
  • Les nouveaux retours en arrière sont générés en utilisant explicitement les objectifs de haute récompense du tampon B comme signaux de conditionnement

Points d'Innovation Technique

  1. Découverte de Frontières Dynamiques : ne dépend pas de frontières de division prédéfinies, capable de découvrir des étapes de planification significatives spécifiques à la tâche
  2. Inspiration de l'Apprentissage par Renforcement Hiérarchique : intègre les idées de l'RL hiérarchique, décomposant les tâches de planification à long terme via des sous-objectifs
  3. Progrès Cumulatif Stable : assure une amélioration stable des performances en construisant sur des sous-objectifs validés
  4. Sans Entraînement Supplémentaire : utilise le LLM pré-entraîné comme modèle de dynamique et distribution de proposition, sans nécessiter d'ajustement fin

Configuration Expérimentale

Ensembles de Données

  1. Traduction Automatique au Niveau du Paragraphe :
    • Benchmark WMT'24 Discourse-Level Literary Translation
    • Paires de langues : chinois→anglais, chinois→allemand, chinois→russe
    • Chaque instance segmentée en au maximum 1024 tokens
  2. Génération de Réponses Textuelles Longues :
    • Ensemble de données Dahoas/full-hh-rlhf
    • Sélection de 6K échantillons de réponses les plus longues pour l'entraînement, 1024 pour les tests
  3. Synthèse de Programmes :
    • Ensemble de test officiel du dataset MBPP
    • 500 problèmes (IDs de tâche 11-510)

Métriques d'Évaluation

  • Traduction Automatique : score SEGALEcomet, Ratio d'Alignement Nul (NA)
  • Réponses Textuelles Longues : score de récompense moyen, taux de victoire GPT-4
  • Synthèse de Programmes : taux de réussite (Pass Rate)

Méthodes de Comparaison

Méthodes d'alignement au moment du test :

  • ARGS : décodage guidé au niveau des tokens
  • RAIN : auto-évaluation basée sur structure arborescente
  • RE-Control : optimisation par gradient modifiant les représentations internes
  • GenARM : modèle de récompense autorégressif
  • TPO : méthode d'optimisation textuelle
  • Échantillonnage Best-of-N

Méthodes d'alignement au moment de l'entraînement :

  • Ajustement fin supervisé (SFT)
  • Optimisation de Préférence Directe (DPO)
  • SimPO

Détails d'Implémentation

  • Modèle de base : LLaMA-3.1-8B-Instruct
  • Nombre d'itérations : 3-5
  • Nombre de retours en arrière par itération : 2-3
  • Seuil de qualité α : paramétrage spécifique à la tâche
  • Capacité du tampon : 3-6 sous-objectifs

Résultats Expérimentaux

Résultats Principaux

Traduction Automatique au Niveau du Paragraphe

Sur les tâches de traduction littéraire WMT'24, TMPC surpasse tous les autres baselines d'alignement au moment du test :

DirectionTMPC SEGALEcometBest-of-60TPORatio NA
zh→en94.6290.9788.810.00
zh→ru91.5384.8692.631.19
zh→de91.7382.7487.672.40
  • TMPC surpasse même GPT-4o (94.58) dans la direction zh→en
  • Amélioration significative par rapport au baseline fort Best-of-60, avec un coût computationnel inférieur

Génération de Réponses Textuelles Longues

  • Récompense Moyenne : 4.60 (TMPC) vs 4.18 (Best-of-20) vs 3.95 (DPO)
  • Taux de Victoire GPT-4 : victoire dans les comparaisons avec DPO et Best-of-20
  • Nécessite seulement 10 générations (3 itérations × 3 retours en arrière + 1 génération initiale)

Synthèse de Programmes

  • Taux de Réussite : 61% (TMPC) vs 50% (Best-of-35) vs 48% (TPO)
  • Exploration systématique des chemins de solution en construisant sur la correction partielle

Études d'Ablation

  1. Robustesse des Hyperparamètres : les variations de taille de tampon et de longueur de segmentation ont un impact inférieur à 0.1 point sur les performances
  2. Sensibilité du Modèle de Récompense :
    • L'utilisation d'un modèle de récompense plus faible maintient de bonnes performances
    • L'impact de l'injection de bruit est limité, démontrant l'effet de filtrage du tampon de sous-objectifs
  3. Analyse Itérative : les performances s'améliorent régulièrement au cours des 3 premières itérations, puis diminuent légèrement

Analyses de Cas

L'article présente comment TMPC découvre et utilise les sous-objectifs dans différentes tâches :

  • Traduction Automatique : alignement au niveau des phrases
  • Génération de Réponses : blocs de texte sémantiquement cohérents
  • Synthèse de Programmes : jalons fonctionnels passant les tests unitaires

Travaux Connexes

Méthodes d'Alignement de Préférences

  1. Méthodes au moment de l'entraînement : RLHF, DPO, SimPO, CPO, etc., coûteuses en calcul mais très efficaces
  2. Méthodes au moment du test : décodage guidé, optimisation itérative, recherche arborescente, etc., légères mais avec des limitations inhérentes

Applications de la Théorie du Contrôle en Traitement du Langage Naturel

TMPC applique systématiquement pour la première fois le contrôle prédictif de modèle à l'alignement de préférences en génération de langage, comblant un vide dans le domaine interdisciplinaire entre la théorie du contrôle et le TLN.

Apprentissage par Renforcement Hiérarchique

S'inspire des idées de découverte de sous-objectifs et de planification hiérarchique du HRL, mais les adapte au scénario discret de la génération de texte.

Conclusion et Discussion

Conclusions Principales

  1. Cadre Unifié : succès dans l'unification de l'alignement au moment du test en tant que problème de prise de décision séquentielle, révélant les compromis fondamentaux des méthodes existantes
  2. Équilibre Efficace : TMPC équilibre efficacement la malédiction de l'horizon temporel et la malédiction de la dimensionnalité
  3. Applicabilité Générale : amélioration cohérente sur trois tâches de caractéristiques différentes

Limitations

  1. Contraintes de Capacité du Modèle : limitées par la capacité expressive du modèle de langage sous-jacent
  2. Décalage de Distribution : performances potentiellement dégradées lorsque les résultats attendus s'éloignent de la distribution originale du modèle
  3. Dépendance au Signal de Récompense : les performances dépendent largement de la qualité du modèle de récompense

Directions Futures

  1. Combinaison avec Méthodes d'Entraînement : exploration de l'ajustement fin léger ou de l'optimisation collaborative du modèle de récompense
  2. Adaptation de Distribution Plus Forte : amélioration de la robustesse en cas de décalage de distribution
  3. Découverte Automatique de Sous-objectifs : développement de mécanismes plus intelligents d'identification de sous-objectifs

Évaluation Approfondie

Points Forts

  1. Contribution Théorique Significative : première analyse systématique des défis fondamentaux de l'alignement au moment du test, fournissant un cadre théorique unifié
  2. Innovation Méthodologique Forte : adaptation réussie du MPC à la génération de texte, conception ingénieuse avec principes clairs
  3. Expérimentation Complète et Approfondie : vérification sur trois tâches de caractéristiques différentes, incluant des études d'ablation détaillées et analyses de robustesse
  4. Valeur Pratique Élevée : sans nécessité de réentraînement, efficacité computationnelle élevée, déploiement facile

Insuffisances

  1. Nature Heuristique de la Découverte de Sous-objectifs : bien qu'efficace, l'identification de sous-objectifs repose toujours sur des méthodes heuristiques
  2. Ajustement Spécifique à la Tâche : différentes tâches nécessitent des conceptions de prompts et des ajustements de paramètres spécifiques
  3. Traitement des Dépendances à Long Terme : la capacité de traitement des séquences extrêmement longues reste à vérifier
  4. Absence de Garanties Théoriques : manque de garanties théoriques concernant la convergence ou l'optimalité

Impact

  1. Valeur Académique : fournit un nouveau paradigme de recherche pour l'alignement au moment du test, susceptible d'inspirer les travaux ultérieurs
  2. Signification Pratique : propose une solution viable pour l'alignement des LLM dans les environnements aux ressources limitées
  3. Contribution Interdisciplinaire : favorise la fusion croisée entre la théorie du contrôle et le TLN

Scénarios d'Application

  1. Déploiement aux Ressources Limitées : scénarios où l'ajustement fin à grande échelle n'est pas possible
  2. Ajustement Dynamique de Préférences : applications nécessitant une adaptation rapide à différentes préférences
  3. Systèmes Multi-tâches : systèmes nécessitant une commutation flexible de stratégies d'alignement entre différentes tâches
  4. Applications Critiques pour la Sécurité : scénarios nécessitant des vérifications de sécurité supplémentaires au moment de l'inférence

Références

L'article cite largement les travaux connexes, incluant principalement :

  • Recherche fondamentale sur les grands modèles de langage (séries GPT, LLaMA, Gemma, etc.)
  • Méthodes d'alignement de préférences (RLHF, DPO, SimPO, etc.)
  • Techniques d'alignement au moment du test (ARGS, RAIN, RE-Control, etc.)
  • Fondamentaux de la théorie du contrôle (MPC, MPPI, etc.)
  • Théorie de l'apprentissage par renforcement (RL hiérarchique, optimisation de trajectoires, etc.)

Résumé : Ceci est un article de haute qualité avec des contributions importantes tant en innovation théorique qu'en application pratique. Les auteurs ont adapté avec succès le cadre MPC de la théorie du contrôle au problème d'alignement de préférences en génération de langage, proposant la méthode innovante TMPC et validant son efficacité par des expériences complètes. Ce travail ouvre une nouvelle direction de recherche pour l'alignement au moment du test, possédant une valeur académique et une signification pratique importantes.