Test-Time Alignment for Large Language Models via Textual Model Predictive Control
Wang, Chen, Hung et al.
Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.
academic
Alineación en Tiempo de Prueba para Modelos de Lenguaje Grande mediante Control Predictivo de Modelo Textual
La alineación de modelos de lenguaje grande con las preferencias humanas típicamente requiere ajuste fino, pero este enfoque consume recursos enormes, lo que motiva la búsqueda de alternativas ligeras de alineación en tiempo de prueba. Este artículo aborda el problema de alineación en tiempo de prueba desde la perspectiva de la toma de decisiones secuencial, revelando dos desafíos fundamentales: cuando las acciones se definen a nivel de token (como en decodificación guiada), la alineación enfrenta la "maldición de dimensionalidad"; cuando las acciones se definen a nivel de respuesta (como en optimización iterativa tradicional), enfrenta la "maldición de horizonte temporal". Para resolver este equilibrio, los autores se inspiran en el control predictivo de modelo (MPC) de la teoría de control, proponiendo Control Predictivo de Modelo Textual (TMPC), un nuevo marco de planificación predictiva aplicable a la alineación de LLM en tiempo de inferencia.
Importancia del Problema de Alineación: Aunque los modelos de lenguaje grande demuestran un desempeño excepcional en diversas tareas de PNL, alinear su salida con las preferencias humanas sigue siendo un desafío crítico, particularmente para LLM de menor escala (como aquellos con menos de 10B parámetros).
Limitaciones de Métodos Tradicionales:
Métodos de alineación en tiempo de entrenamiento (como RLHF, DPO) requieren muchos recursos y reentrenamiento costoso
Métodos de alineación en tiempo de prueba presentan equilibrios fundamentales:
La decodificación guiada a nivel de token enfrenta la "maldición de horizonte" (curse of horizon)
La optimización iterativa a nivel de respuesta enfrenta la "maldición de dimensionalidad" (curse of dimensionality)
Motivación de Investigación: Se necesita un método de alineación en tiempo de prueba que evite el costoso reentrenamiento del modelo y equilibre efectivamente la complejidad del horizonte temporal y del espacio de búsqueda.
Modelado Novedoso del Problema: Primera formulación del problema de alineación en tiempo de prueba como un problema de toma de decisiones secuencial, unificando métodos existentes y revelando sus equilibrios fundamentales.
Marco TMPC: Propone el marco de Control Predictivo de Modelo Textual, adaptando conceptos de teoría de control a tareas de generación de lenguaje.
Dos Principios Fundamentales:
Identificación Retrospectiva de Subobjetivos (Hindsight Subgoal Identification): Descubrimiento de pasos de planificación significativos a partir de retroalimentación
Regeneración Condicionada por Subobjetivos (Subgoal-Conditioned Re-Generation): Mejora iterativa basada en subobjetivos verificados
Validación Experimental Amplia: Verificación de la efectividad y generalidad del método en tres tareas con características distintas.
Descubrimiento de Límites Dinámicos: No depende de divisiones de límites predefinidas, capaz de descubrir pasos de planificación significativos específicos de la tarea
Inspiración en Aprendizaje por Refuerzo Jerárquico: Incorpora ideas del RL jerárquico, descomponiendo tareas de planificación a largo plazo mediante subobjetivos
Progreso Acumulativo Estable: Mediante construcción sobre subobjetivos verificados, asegura mejoras de desempeño estables
Sin Entrenamiento Adicional: Utiliza LLM preentrenado como modelo de dinámica y distribución de propuestas, sin necesidad de ajuste fino
TMPC aplica sistemáticamente por primera vez el control predictivo de modelo a la alineación de preferencias en generación de lenguaje, llenando un vacío en el campo interdisciplinario de teoría de control y PNL.
Toma prestadas ideas de HRL sobre descubrimiento de subobjetivos y planificación jerárquica, pero las adapta al escenario discreto de generación de texto.
Marco Unificado: Unifica exitosamente la alineación en tiempo de prueba como problema de toma de decisiones secuencial, revelando equilibrios fundamentales de métodos existentes
Equilibrio Efectivo: TMPC equilibra efectivamente la maldición de horizonte temporal y la maldición de dimensionalidad
Aplicabilidad Amplia: Logra mejoras consistentes en tres tareas con características distintas
Restricciones de Capacidad del Modelo: Limitado por la capacidad expresiva del modelo de lenguaje subyacente
Cambio de Distribución: Puede mostrar desempeño deficiente cuando la salida esperada se aleja significativamente de la distribución original del modelo
Dependencia de Señal de Recompensa: El desempeño depende en gran medida de la calidad del modelo de recompensa
Contribución Teórica Significativa: Primer análisis sistemático de desafíos fundamentales en alineación en tiempo de prueba, proporcionando marco teórico unificado
Innovación Metodológica Fuerte: Adaptación exitosa de MPC a generación de texto, con diseño ingenioso y principios claros
Experimentación Completa y Exhaustiva: Validación en tres tareas con características distintas, incluyendo experimentos de ablación detallados y análisis de robustez
Alto Valor Práctico: Sin necesidad de reentrenamiento, alta eficiencia computacional, fácil de desplegar
El artículo cita ampliamente trabajo relacionado, incluyendo principalmente:
Investigación Fundamental en Modelos de Lenguaje Grande (series GPT, LLaMA, Gemma, etc.)
Métodos de Alineación de Preferencias (RLHF, DPO, SimPO, etc.)
Técnicas de Alineación en Tiempo de Prueba (ARGS, RAIN, RE-Control, etc.)
Fundamentos de Teoría de Control (MPC, MPPI, etc.)
Teoría de Aprendizaje por Refuerzo (RL Jerárquico, Optimización de Trayectorias, etc.)
Resumen: Este es un artículo de alta calidad con contribuciones importantes tanto en innovación teórica como en aplicación práctica. Los autores adaptan exitosamente el marco MPC de teoría de control al problema de alineación de preferencias en generación de lenguaje, proponiendo el método innovador TMPC, y verifican su efectividad mediante experimentación exhaustiva. Este trabajo proporciona una nueva dirección de investigación para alineación en tiempo de prueba, con importante valor académico y significado práctico.