2025-11-25T18:43:18.843313

Test-Time Alignment for Large Language Models via Textual Model Predictive Control

Wang, Chen, Hung et al.

Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.

academic

Alineación en Tiempo de Prueba para Modelos de Lenguaje Grande mediante Control Predictivo de Modelo Textual

Información Básica

ID del Artículo: 2502.20795
Título: Test-Time Alignment for Large Language Models via Textual Model Predictive Control
Autores: Kuang-Da Wang, Teng-Ruei Chen, Yu-Heng Hung, Guo-Xun Ko, Shuoyang Ding, Yueh-Hua Wu, Yu-Chiang Frank Wang, Chao-Han Huck Yang, Wen-Chih Peng, Ping-Chun Hsieh
Instituciones: National Yang Ming Chiao Tung University, NVIDIA
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: Febrero de 2025
Enlace del Artículo: https://arxiv.org/abs/2502.20795v3

Resumen

La alineación de modelos de lenguaje grande con las preferencias humanas típicamente requiere ajuste fino, pero este enfoque consume recursos enormes, lo que motiva la búsqueda de alternativas ligeras de alineación en tiempo de prueba. Este artículo aborda el problema de alineación en tiempo de prueba desde la perspectiva de la toma de decisiones secuencial, revelando dos desafíos fundamentales: cuando las acciones se definen a nivel de token (como en decodificación guiada), la alineación enfrenta la "maldición de dimensionalidad"; cuando las acciones se definen a nivel de respuesta (como en optimización iterativa tradicional), enfrenta la "maldición de horizonte temporal". Para resolver este equilibrio, los autores se inspiran en el control predictivo de modelo (MPC) de la teoría de control, proponiendo Control Predictivo de Modelo Textual (TMPC), un nuevo marco de planificación predictiva aplicable a la alineación de LLM en tiempo de inferencia.

Contexto de Investigación y Motivación

Contexto del Problema

Importancia del Problema de Alineación: Aunque los modelos de lenguaje grande demuestran un desempeño excepcional en diversas tareas de PNL, alinear su salida con las preferencias humanas sigue siendo un desafío crítico, particularmente para LLM de menor escala (como aquellos con menos de 10B parámetros).
Limitaciones de Métodos Tradicionales:
- Métodos de alineación en tiempo de entrenamiento (como RLHF, DPO) requieren muchos recursos y reentrenamiento costoso
- Métodos de alineación en tiempo de prueba presentan equilibrios fundamentales:
  - La decodificación guiada a nivel de token enfrenta la "maldición de horizonte" (curse of horizon)
  - La optimización iterativa a nivel de respuesta enfrenta la "maldición de dimensionalidad" (curse of dimensionality)
Motivación de Investigación: Se necesita un método de alineación en tiempo de prueba que evite el costoso reentrenamiento del modelo y equilibre efectivamente la complejidad del horizonte temporal y del espacio de búsqueda.

Contribuciones Principales

Modelado Novedoso del Problema: Primera formulación del problema de alineación en tiempo de prueba como un problema de toma de decisiones secuencial, unificando métodos existentes y revelando sus equilibrios fundamentales.
Marco TMPC: Propone el marco de Control Predictivo de Modelo Textual, adaptando conceptos de teoría de control a tareas de generación de lenguaje.
Dos Principios Fundamentales:
- Identificación Retrospectiva de Subobjetivos (Hindsight Subgoal Identification): Descubrimiento de pasos de planificación significativos a partir de retroalimentación
- Regeneración Condicionada por Subobjetivos (Subgoal-Conditioned Re-Generation): Mejora iterativa basada en subobjetivos verificados
Validación Experimental Amplia: Verificación de la efectividad y generalidad del método en tres tareas con características distintas.

Explicación Detallada del Método

Definición de Tarea

Modelado de generación de texto como un Proceso de Decisión de Markov (MDP) de tiempo finito:

Espacio de Estados S: Todos los prefijos de texto posibles
Espacio de Acciones A: Todas las unidades de generación posibles
Función de Transición P: Transición determinista
Función de Recompensa R: Retroalimentación escalar que evalúa la calidad de alineación
Objetivo: Encontrar la secuencia óptima de acciones $a^* = \arg\max_{a_{0:T-1}} \sum_{t=0}^{T-1} R(s_t, a_t)$

Arquitectura del Marco TMPC

1. Adaptación Básica de MPC

TMPC adapta MPC tradicional a generación de texto:

a^{TMPC}(s) ← G({τ^{(i)}}_{i=1}^K, {J(τ^{(i)})}_{i=1}^K; s)

donde G es la función de agregación, τ son trayectorias, y J es la recompensa acumulada.

2. Implementación de Principios Fundamentales

Identificación Retrospectiva de Subobjetivos:

Después de generar múltiples respuestas candidatas, análisis retrospectivo identifica puntos intermedios de alta calidad como subobjetivos
Regla de actualización:

B ← {
  B ∪ ã^{TMPC}_t(s), si |B| < capacidad,
  B \ {a ∈ B | R(s,a) < R(s,a')} ∪ {a'}, en caso contrario
}

Regeneración Condicionada por Subobjetivos:

Función de agregación:

ã^{TMPC}_t(s) ← G({τ^{(i)}_t}_{i=1}^K, R(·) | s, B) := {a | R(s,a) ≥ α y a ∈ {τ^{(i)}_t}_{i=1}^K}

Nuevas retroalimentaciones se generan explotando explícitamente objetivos de alta recompensa del búfer B como señales de condicionamiento

Puntos de Innovación Técnica

Descubrimiento de Límites Dinámicos: No depende de divisiones de límites predefinidas, capaz de descubrir pasos de planificación significativos específicos de la tarea
Inspiración en Aprendizaje por Refuerzo Jerárquico: Incorpora ideas del RL jerárquico, descomponiendo tareas de planificación a largo plazo mediante subobjetivos
Progreso Acumulativo Estable: Mediante construcción sobre subobjetivos verificados, asegura mejoras de desempeño estables
Sin Entrenamiento Adicional: Utiliza LLM preentrenado como modelo de dinámica y distribución de propuestas, sin necesidad de ajuste fino

Configuración Experimental

Conjuntos de Datos

Traducción Automática a Nivel de Párrafo:
- Benchmark WMT'24 Discourse-Level Literary Translation
- Pares de idiomas: chino→inglés, chino→alemán, chino→ruso
- Cada instancia segmentada en máximo 1024 tokens
Generación de Respuestas de Texto Largo:
- Conjunto de datos Dahoas/full-hh-rlhf
- Selección de 6K muestras de respuesta más larga para entrenamiento, 1024 para prueba
Síntesis de Programas:
- Conjunto de prueba oficial del conjunto de datos MBPP
- 500 problemas (IDs de Tarea 11-510)

Métricas de Evaluación

Traducción Automática: Puntuación SEGALEcomet, Razón de Alineación Nula (NA)
Respuestas de Texto Largo: Puntuación de Recompensa Promedio, Tasa de Victoria GPT-4
Síntesis de Programas: Tasa de Aprobación (Pass Rate)

Métodos de Comparación

Métodos de Alineación en Tiempo de Prueba:

ARGS: Decodificación guiada a nivel de token
RAIN: Autoevaluación basada en estructura de árbol
RE-Control: Optimización de gradiente modificando representaciones internas
GenARM: Modelo de recompensa autorregresivo
TPO: Método de optimización de texto
Muestreo Best-of-N

Métodos de Alineación en Tiempo de Entrenamiento:

Ajuste Fino Supervisado (SFT)
Optimización de Preferencia Directa (DPO)
SimPO

Detalles de Implementación

Modelo Base: LLaMA-3.1-8B-Instruct
Número de Iteraciones: 3-5
Retroalimentaciones por Iteración: 2-3
Umbral de Calidad α: Configuración específica de tarea
Capacidad del Búfer: 3-6 subobjetivos

Resultados Experimentales

Resultados Principales

Traducción Automática a Nivel de Párrafo

En tareas de traducción literaria WMT'24, TMPC muestra el mejor desempeño entre todos los métodos de alineación en tiempo de prueba:

Dirección	TMPC SEGALEcomet	Best-of-60	TPO	Razón NA
zh→en	94.62	90.97	88.81	0.00
zh→ru	91.53	84.86	92.63	1.19
zh→de	91.73	82.74	87.67	2.40

TMPC incluso supera a GPT-4o (94.58) en la dirección zh→en
Significativamente superior a la línea base fuerte Best-of-60, pero con menor costo computacional

Generación de Respuestas de Texto Largo

Recompensa Promedio: 4.60 (TMPC) vs 4.18 (Best-of-20) vs 3.95 (DPO)
Tasa de Victoria GPT-4: Gana en comparaciones con DPO y Best-of-20
Requiere solo 10 generaciones (3 iteraciones × 3 retroalimentaciones + 1 generación inicial)

Síntesis de Programas

Tasa de Aprobación: 61% (TMPC) vs 50% (Best-of-35) vs 48% (TPO)
Explora sistemáticamente rutas de solución construyendo corrección parcial

Experimentos de Ablación

Robustez de Hiperparámetros: Variaciones en tamaño de búfer y longitud de segmentación tienen impacto menor a 0.1 puntos en desempeño
Sensibilidad del Modelo de Recompensa:
- Mantiene buen desempeño incluso con modelos de recompensa más débiles
- Impacto limitado de ruido inyectado, demostrando el efecto de filtrado del búfer de subobjetivos
Análisis de Iteraciones: Desempeño mejora constantemente en las primeras 3 iteraciones, con ligera disminución después

Análisis de Casos

El artículo presenta cómo TMPC descubre y utiliza subobjetivos en diferentes tareas:

Traducción Automática: Alineación a nivel de oración
Generación de Respuestas: Bloques de texto semánticamente coherentes
Síntesis de Programas: Hitos funcionales que pasan pruebas unitarias

Trabajo Relacionado

Métodos de Alineación de Preferencias

Métodos en Tiempo de Entrenamiento: RLHF, DPO, SimPO, CPO, etc., computacionalmente costosos pero efectivos
Métodos en Tiempo de Prueba: Decodificación guiada, optimización iterativa, búsqueda en árbol, etc., ligeros pero con limitaciones inherentes

Aplicación de Teoría de Control en PNL

TMPC aplica sistemáticamente por primera vez el control predictivo de modelo a la alineación de preferencias en generación de lenguaje, llenando un vacío en el campo interdisciplinario de teoría de control y PNL.

Aprendizaje por Refuerzo Jerárquico

Toma prestadas ideas de HRL sobre descubrimiento de subobjetivos y planificación jerárquica, pero las adapta al escenario discreto de generación de texto.

Conclusiones y Discusión

Conclusiones Principales

Marco Unificado: Unifica exitosamente la alineación en tiempo de prueba como problema de toma de decisiones secuencial, revelando equilibrios fundamentales de métodos existentes
Equilibrio Efectivo: TMPC equilibra efectivamente la maldición de horizonte temporal y la maldición de dimensionalidad
Aplicabilidad Amplia: Logra mejoras consistentes en tres tareas con características distintas

Limitaciones

Restricciones de Capacidad del Modelo: Limitado por la capacidad expresiva del modelo de lenguaje subyacente
Cambio de Distribución: Puede mostrar desempeño deficiente cuando la salida esperada se aleja significativamente de la distribución original del modelo
Dependencia de Señal de Recompensa: El desempeño depende en gran medida de la calidad del modelo de recompensa

Direcciones Futuras

Combinación con Métodos en Tiempo de Entrenamiento: Explorar optimización colaborativa de ajuste fino ligero o modelos de recompensa
Mejor Adaptación de Distribución: Mejorar robustez bajo cambio de distribución
Descubrimiento Automático de Subobjetivos: Desarrollar mecanismos más inteligentes de identificación de subobjetivos

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Primer análisis sistemático de desafíos fundamentales en alineación en tiempo de prueba, proporcionando marco teórico unificado
Innovación Metodológica Fuerte: Adaptación exitosa de MPC a generación de texto, con diseño ingenioso y principios claros
Experimentación Completa y Exhaustiva: Validación en tres tareas con características distintas, incluyendo experimentos de ablación detallados y análisis de robustez
Alto Valor Práctico: Sin necesidad de reentrenamiento, alta eficiencia computacional, fácil de desplegar

Insuficiencias

Naturaleza Heurística del Descubrimiento de Subobjetivos: Aunque efectivo, la identificación de subobjetivos aún depende de métodos heurísticos
Ajuste Específico de Tarea: Diferentes tareas requieren diseño de indicaciones específicas y ajuste de parámetros
Manejo de Dependencias a Largo Plazo: Capacidad de procesamiento para secuencias extremadamente largas aún por verificar
Ausencia de Garantías Teóricas: Falta de garantías teóricas de convergencia u optimalidad

Impacto

Valor Académico: Proporciona nuevo paradigma de investigación para alineación en tiempo de prueba, potencialmente inspirando trabajo futuro
Significado Práctico: Proporciona solución viable para alineación de LLM en entornos con recursos limitados
Contribución Interdisciplinaria: Promueve fusión cruzada entre teoría de control y PNL

Escenarios de Aplicabilidad

Despliegue con Recursos Limitados: Escenarios donde no es posible realizar ajuste fino a gran escala
Ajuste Dinámico de Preferencias: Aplicaciones que requieren adaptación rápida a diferentes preferencias
Sistemas Multitarea: Sistemas que necesitan cambiar flexiblemente estrategias de alineación entre diferentes tareas
Aplicaciones Críticas para Seguridad: Escenarios que requieren verificaciones de seguridad adicionales en tiempo de inferencia

Referencias

El artículo cita ampliamente trabajo relacionado, incluyendo principalmente:

Investigación Fundamental en Modelos de Lenguaje Grande (series GPT, LLaMA, Gemma, etc.)
Métodos de Alineación de Preferencias (RLHF, DPO, SimPO, etc.)
Técnicas de Alineación en Tiempo de Prueba (ARGS, RAIN, RE-Control, etc.)
Fundamentos de Teoría de Control (MPC, MPPI, etc.)
Teoría de Aprendizaje por Refuerzo (RL Jerárquico, Optimización de Trayectorias, etc.)

Resumen: Este es un artículo de alta calidad con contribuciones importantes tanto en innovación teórica como en aplicación práctica. Los autores adaptan exitosamente el marco MPC de teoría de control al problema de alineación de preferencias en generación de lenguaje, proponiendo el método innovador TMPC, y verifican su efectividad mediante experimentación exhaustiva. Este trabajo proporciona una nueva dirección de investigación para alineación en tiempo de prueba, con importante valor académico y significado práctico.