2025-11-25T18:43:18.843313

Test-Time Alignment for Large Language Models via Textual Model Predictive Control

Wang, Chen, Hung et al.
Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.
academic

Alineación en Tiempo de Prueba para Modelos de Lenguaje Grande mediante Control Predictivo de Modelo Textual

Información Básica

  • ID del Artículo: 2502.20795
  • Título: Test-Time Alignment for Large Language Models via Textual Model Predictive Control
  • Autores: Kuang-Da Wang, Teng-Ruei Chen, Yu-Heng Hung, Guo-Xun Ko, Shuoyang Ding, Yueh-Hua Wu, Yu-Chiang Frank Wang, Chao-Han Huck Yang, Wen-Chih Peng, Ping-Chun Hsieh
  • Instituciones: National Yang Ming Chiao Tung University, NVIDIA
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: Febrero de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2502.20795v3

Resumen

La alineación de modelos de lenguaje grande con las preferencias humanas típicamente requiere ajuste fino, pero este enfoque consume recursos enormes, lo que motiva la búsqueda de alternativas ligeras de alineación en tiempo de prueba. Este artículo aborda el problema de alineación en tiempo de prueba desde la perspectiva de la toma de decisiones secuencial, revelando dos desafíos fundamentales: cuando las acciones se definen a nivel de token (como en decodificación guiada), la alineación enfrenta la "maldición de dimensionalidad"; cuando las acciones se definen a nivel de respuesta (como en optimización iterativa tradicional), enfrenta la "maldición de horizonte temporal". Para resolver este equilibrio, los autores se inspiran en el control predictivo de modelo (MPC) de la teoría de control, proponiendo Control Predictivo de Modelo Textual (TMPC), un nuevo marco de planificación predictiva aplicable a la alineación de LLM en tiempo de inferencia.

Contexto de Investigación y Motivación

Contexto del Problema

  1. Importancia del Problema de Alineación: Aunque los modelos de lenguaje grande demuestran un desempeño excepcional en diversas tareas de PNL, alinear su salida con las preferencias humanas sigue siendo un desafío crítico, particularmente para LLM de menor escala (como aquellos con menos de 10B parámetros).
  2. Limitaciones de Métodos Tradicionales:
    • Métodos de alineación en tiempo de entrenamiento (como RLHF, DPO) requieren muchos recursos y reentrenamiento costoso
    • Métodos de alineación en tiempo de prueba presentan equilibrios fundamentales:
      • La decodificación guiada a nivel de token enfrenta la "maldición de horizonte" (curse of horizon)
      • La optimización iterativa a nivel de respuesta enfrenta la "maldición de dimensionalidad" (curse of dimensionality)
  3. Motivación de Investigación: Se necesita un método de alineación en tiempo de prueba que evite el costoso reentrenamiento del modelo y equilibre efectivamente la complejidad del horizonte temporal y del espacio de búsqueda.

Contribuciones Principales

  1. Modelado Novedoso del Problema: Primera formulación del problema de alineación en tiempo de prueba como un problema de toma de decisiones secuencial, unificando métodos existentes y revelando sus equilibrios fundamentales.
  2. Marco TMPC: Propone el marco de Control Predictivo de Modelo Textual, adaptando conceptos de teoría de control a tareas de generación de lenguaje.
  3. Dos Principios Fundamentales:
    • Identificación Retrospectiva de Subobjetivos (Hindsight Subgoal Identification): Descubrimiento de pasos de planificación significativos a partir de retroalimentación
    • Regeneración Condicionada por Subobjetivos (Subgoal-Conditioned Re-Generation): Mejora iterativa basada en subobjetivos verificados
  4. Validación Experimental Amplia: Verificación de la efectividad y generalidad del método en tres tareas con características distintas.

Explicación Detallada del Método

Definición de Tarea

Modelado de generación de texto como un Proceso de Decisión de Markov (MDP) de tiempo finito:

  • Espacio de Estados S: Todos los prefijos de texto posibles
  • Espacio de Acciones A: Todas las unidades de generación posibles
  • Función de Transición P: Transición determinista
  • Función de Recompensa R: Retroalimentación escalar que evalúa la calidad de alineación
  • Objetivo: Encontrar la secuencia óptima de acciones a=argmaxa0:T1t=0T1R(st,at)a^* = \arg\max_{a_{0:T-1}} \sum_{t=0}^{T-1} R(s_t, a_t)

Arquitectura del Marco TMPC

1. Adaptación Básica de MPC

TMPC adapta MPC tradicional a generación de texto:

a^{TMPC}(s) ← G({τ^{(i)}}_{i=1}^K, {J(τ^{(i)})}_{i=1}^K; s)

donde G es la función de agregación, τ son trayectorias, y J es la recompensa acumulada.

2. Implementación de Principios Fundamentales

Identificación Retrospectiva de Subobjetivos:

  • Después de generar múltiples respuestas candidatas, análisis retrospectivo identifica puntos intermedios de alta calidad como subobjetivos
  • Regla de actualización:
B ← {
  B ∪ ã^{TMPC}_t(s), si |B| < capacidad,
  B \ {a ∈ B | R(s,a) < R(s,a')} ∪ {a'}, en caso contrario
}

Regeneración Condicionada por Subobjetivos:

  • Función de agregación:
ã^{TMPC}_t(s) ← G({τ^{(i)}_t}_{i=1}^K, R(·) | s, B) := {a | R(s,a) ≥ α y a ∈ {τ^{(i)}_t}_{i=1}^K}
  • Nuevas retroalimentaciones se generan explotando explícitamente objetivos de alta recompensa del búfer B como señales de condicionamiento

Puntos de Innovación Técnica

  1. Descubrimiento de Límites Dinámicos: No depende de divisiones de límites predefinidas, capaz de descubrir pasos de planificación significativos específicos de la tarea
  2. Inspiración en Aprendizaje por Refuerzo Jerárquico: Incorpora ideas del RL jerárquico, descomponiendo tareas de planificación a largo plazo mediante subobjetivos
  3. Progreso Acumulativo Estable: Mediante construcción sobre subobjetivos verificados, asegura mejoras de desempeño estables
  4. Sin Entrenamiento Adicional: Utiliza LLM preentrenado como modelo de dinámica y distribución de propuestas, sin necesidad de ajuste fino

Configuración Experimental

Conjuntos de Datos

  1. Traducción Automática a Nivel de Párrafo:
    • Benchmark WMT'24 Discourse-Level Literary Translation
    • Pares de idiomas: chino→inglés, chino→alemán, chino→ruso
    • Cada instancia segmentada en máximo 1024 tokens
  2. Generación de Respuestas de Texto Largo:
    • Conjunto de datos Dahoas/full-hh-rlhf
    • Selección de 6K muestras de respuesta más larga para entrenamiento, 1024 para prueba
  3. Síntesis de Programas:
    • Conjunto de prueba oficial del conjunto de datos MBPP
    • 500 problemas (IDs de Tarea 11-510)

Métricas de Evaluación

  • Traducción Automática: Puntuación SEGALEcomet, Razón de Alineación Nula (NA)
  • Respuestas de Texto Largo: Puntuación de Recompensa Promedio, Tasa de Victoria GPT-4
  • Síntesis de Programas: Tasa de Aprobación (Pass Rate)

Métodos de Comparación

Métodos de Alineación en Tiempo de Prueba:

  • ARGS: Decodificación guiada a nivel de token
  • RAIN: Autoevaluación basada en estructura de árbol
  • RE-Control: Optimización de gradiente modificando representaciones internas
  • GenARM: Modelo de recompensa autorregresivo
  • TPO: Método de optimización de texto
  • Muestreo Best-of-N

Métodos de Alineación en Tiempo de Entrenamiento:

  • Ajuste Fino Supervisado (SFT)
  • Optimización de Preferencia Directa (DPO)
  • SimPO

Detalles de Implementación

  • Modelo Base: LLaMA-3.1-8B-Instruct
  • Número de Iteraciones: 3-5
  • Retroalimentaciones por Iteración: 2-3
  • Umbral de Calidad α: Configuración específica de tarea
  • Capacidad del Búfer: 3-6 subobjetivos

Resultados Experimentales

Resultados Principales

Traducción Automática a Nivel de Párrafo

En tareas de traducción literaria WMT'24, TMPC muestra el mejor desempeño entre todos los métodos de alineación en tiempo de prueba:

DirecciónTMPC SEGALEcometBest-of-60TPORazón NA
zh→en94.6290.9788.810.00
zh→ru91.5384.8692.631.19
zh→de91.7382.7487.672.40
  • TMPC incluso supera a GPT-4o (94.58) en la dirección zh→en
  • Significativamente superior a la línea base fuerte Best-of-60, pero con menor costo computacional

Generación de Respuestas de Texto Largo

  • Recompensa Promedio: 4.60 (TMPC) vs 4.18 (Best-of-20) vs 3.95 (DPO)
  • Tasa de Victoria GPT-4: Gana en comparaciones con DPO y Best-of-20
  • Requiere solo 10 generaciones (3 iteraciones × 3 retroalimentaciones + 1 generación inicial)

Síntesis de Programas

  • Tasa de Aprobación: 61% (TMPC) vs 50% (Best-of-35) vs 48% (TPO)
  • Explora sistemáticamente rutas de solución construyendo corrección parcial

Experimentos de Ablación

  1. Robustez de Hiperparámetros: Variaciones en tamaño de búfer y longitud de segmentación tienen impacto menor a 0.1 puntos en desempeño
  2. Sensibilidad del Modelo de Recompensa:
    • Mantiene buen desempeño incluso con modelos de recompensa más débiles
    • Impacto limitado de ruido inyectado, demostrando el efecto de filtrado del búfer de subobjetivos
  3. Análisis de Iteraciones: Desempeño mejora constantemente en las primeras 3 iteraciones, con ligera disminución después

Análisis de Casos

El artículo presenta cómo TMPC descubre y utiliza subobjetivos en diferentes tareas:

  • Traducción Automática: Alineación a nivel de oración
  • Generación de Respuestas: Bloques de texto semánticamente coherentes
  • Síntesis de Programas: Hitos funcionales que pasan pruebas unitarias

Trabajo Relacionado

Métodos de Alineación de Preferencias

  1. Métodos en Tiempo de Entrenamiento: RLHF, DPO, SimPO, CPO, etc., computacionalmente costosos pero efectivos
  2. Métodos en Tiempo de Prueba: Decodificación guiada, optimización iterativa, búsqueda en árbol, etc., ligeros pero con limitaciones inherentes

Aplicación de Teoría de Control en PNL

TMPC aplica sistemáticamente por primera vez el control predictivo de modelo a la alineación de preferencias en generación de lenguaje, llenando un vacío en el campo interdisciplinario de teoría de control y PNL.

Aprendizaje por Refuerzo Jerárquico

Toma prestadas ideas de HRL sobre descubrimiento de subobjetivos y planificación jerárquica, pero las adapta al escenario discreto de generación de texto.

Conclusiones y Discusión

Conclusiones Principales

  1. Marco Unificado: Unifica exitosamente la alineación en tiempo de prueba como problema de toma de decisiones secuencial, revelando equilibrios fundamentales de métodos existentes
  2. Equilibrio Efectivo: TMPC equilibra efectivamente la maldición de horizonte temporal y la maldición de dimensionalidad
  3. Aplicabilidad Amplia: Logra mejoras consistentes en tres tareas con características distintas

Limitaciones

  1. Restricciones de Capacidad del Modelo: Limitado por la capacidad expresiva del modelo de lenguaje subyacente
  2. Cambio de Distribución: Puede mostrar desempeño deficiente cuando la salida esperada se aleja significativamente de la distribución original del modelo
  3. Dependencia de Señal de Recompensa: El desempeño depende en gran medida de la calidad del modelo de recompensa

Direcciones Futuras

  1. Combinación con Métodos en Tiempo de Entrenamiento: Explorar optimización colaborativa de ajuste fino ligero o modelos de recompensa
  2. Mejor Adaptación de Distribución: Mejorar robustez bajo cambio de distribución
  3. Descubrimiento Automático de Subobjetivos: Desarrollar mecanismos más inteligentes de identificación de subobjetivos

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Significativa: Primer análisis sistemático de desafíos fundamentales en alineación en tiempo de prueba, proporcionando marco teórico unificado
  2. Innovación Metodológica Fuerte: Adaptación exitosa de MPC a generación de texto, con diseño ingenioso y principios claros
  3. Experimentación Completa y Exhaustiva: Validación en tres tareas con características distintas, incluyendo experimentos de ablación detallados y análisis de robustez
  4. Alto Valor Práctico: Sin necesidad de reentrenamiento, alta eficiencia computacional, fácil de desplegar

Insuficiencias

  1. Naturaleza Heurística del Descubrimiento de Subobjetivos: Aunque efectivo, la identificación de subobjetivos aún depende de métodos heurísticos
  2. Ajuste Específico de Tarea: Diferentes tareas requieren diseño de indicaciones específicas y ajuste de parámetros
  3. Manejo de Dependencias a Largo Plazo: Capacidad de procesamiento para secuencias extremadamente largas aún por verificar
  4. Ausencia de Garantías Teóricas: Falta de garantías teóricas de convergencia u optimalidad

Impacto

  1. Valor Académico: Proporciona nuevo paradigma de investigación para alineación en tiempo de prueba, potencialmente inspirando trabajo futuro
  2. Significado Práctico: Proporciona solución viable para alineación de LLM en entornos con recursos limitados
  3. Contribución Interdisciplinaria: Promueve fusión cruzada entre teoría de control y PNL

Escenarios de Aplicabilidad

  1. Despliegue con Recursos Limitados: Escenarios donde no es posible realizar ajuste fino a gran escala
  2. Ajuste Dinámico de Preferencias: Aplicaciones que requieren adaptación rápida a diferentes preferencias
  3. Sistemas Multitarea: Sistemas que necesitan cambiar flexiblemente estrategias de alineación entre diferentes tareas
  4. Aplicaciones Críticas para Seguridad: Escenarios que requieren verificaciones de seguridad adicionales en tiempo de inferencia

Referencias

El artículo cita ampliamente trabajo relacionado, incluyendo principalmente:

  • Investigación Fundamental en Modelos de Lenguaje Grande (series GPT, LLaMA, Gemma, etc.)
  • Métodos de Alineación de Preferencias (RLHF, DPO, SimPO, etc.)
  • Técnicas de Alineación en Tiempo de Prueba (ARGS, RAIN, RE-Control, etc.)
  • Fundamentos de Teoría de Control (MPC, MPPI, etc.)
  • Teoría de Aprendizaje por Refuerzo (RL Jerárquico, Optimización de Trayectorias, etc.)

Resumen: Este es un artículo de alta calidad con contribuciones importantes tanto en innovación teórica como en aplicación práctica. Los autores adaptan exitosamente el marco MPC de teoría de control al problema de alineación de preferencias en generación de lenguaje, proponiendo el método innovador TMPC, y verifican su efectividad mediante experimentación exhaustiva. Este trabajo proporciona una nueva dirección de investigación para alineación en tiempo de prueba, con importante valor académico y significado práctico.