Test-Time Alignment for Large Language Models via Textual Model Predictive Control
Wang, Chen, Hung et al.
Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.
academic
Выравнивание больших языковых моделей во время тестирования посредством текстового предсказательного управления
Выравнивание больших языковых моделей с предпочтениями человека обычно требует тонкой настройки, что является ресурсоёмким процессом. Таким образом, необходимы лёгкие альтернативы выравнивания во время тестирования. В данной работе авторы рассматривают проблему выравнивания во время тестирования с точки зрения последовательного принятия решений и выявляют два фундаментальных вызова: когда действия определены на уровне токенов (например, направленное декодирование), выравнивание сталкивается с «проклятием размерности»; когда действия определены на уровне ответов (например, традиционная итеративная оптимизация), оно сталкивается с «проклятием временного горизонта». Для решения этого компромисса авторы вдохновляются моделью предсказательного управления (MPC) из теории управления и предлагают текстовое модельное предсказательное управление (TMPC) — новую структуру предсказательного планирования для выравнивания LLM во время вывода.
Важность проблемы выравнивания: Хотя большие языковые модели демонстрируют отличные результаты на различных задачах NLP, выравнивание их выходных данных с предпочтениями человека остаётся критической проблемой, особенно для моделей меньшего размера (менее 10B параметров).
Ограничения традиционных методов:
Методы выравнивания во время обучения (такие как RLHF, DPO) требуют интенсивных ресурсов и дорогостоящей переподготовки
Методы выравнивания во время тестирования имеют фундаментальный компромисс:
Направленное декодирование на уровне токенов сталкивается с «проклятием временного горизонта»
Итеративная оптимизация на уровне ответов сталкивается с «проклятием размерности»
Исследовательская мотивация: Необходим метод выравнивания во время тестирования, который избегает дорогостоящей переподготовки модели и эффективно балансирует сложность временного горизонта и пространства поиска.
Новое моделирование проблемы: Впервые моделирует проблему выравнивания во время тестирования как задачу последовательного принятия решений, объединяя существующие методы и выявляя их фундаментальные компромиссы.
Структура TMPC: Предлагает структуру текстового модельного предсказательного управления, адаптирующую концепции теории управления к задачам генерации языка.
Два основных принципа:
Идентификация подцелей в ретроспективе (Hindsight Subgoal Identification): Обнаружение значимых этапов планирования из откатов
Переген ерация с условием подцели (Subgoal-Conditioned Re-Generation): Итеративное улучшение на основе проверенных подцелей
Обширная экспериментальная проверка: Валидация метода на трёх задачах с различными характеристиками.
Динамическое обнаружение границ: Не зависит от предопределённых жёстких разделений границ, способен обнаруживать значимые этапы планирования, специфичные для задачи
Вдохновение иерархическим обучением с подкреплением: Объединяет идеи иерархического RL посредством разложения подцелей для долгосрочных задач планирования
Стабильный кумулятивный прогресс: Обеспечивает стабильное улучшение производительности путём построения на основе проверенных подцелей
Без дополнительного обучения: Использует предварительно обученную LLM в качестве модели динамики и распределения предложений без необходимости тонкой настройки
TMPC впервые систематически применяет модельное предсказательное управление к выравниванию предпочтений при генерации языка, заполняя пробел в междисциплинарной области теории управления и NLP.
Объединяющая структура: Успешно объединяет выравнивание во время тестирования как задачу последовательного принятия решений, выявляя фундаментальные компромиссы существующих методов
Значительный теоретический вклад: Впервые систематически анализирует фундаментальные вызовы выравнивания во время тестирования, предоставляя объединяющую теоретическую структуру
Сильная методологическая инновация: Успешно адаптирует MPC к генерации текста с ясным и элегантным дизайном
Полные и всесторонние эксперименты: Валидация на трёх задачах с различными характеристиками, включая подробные абляционные исследования и анализ робастности
Высокая практическая ценность: Не требует переподготовки, высокая вычислительная эффективность, простота развёртывания
Академическая ценность: Предоставляет новую исследовательскую парадигму для выравнивания во время тестирования, потенциально вдохновляя последующие работы
Практическое значение: Предоставляет жизнеспособное решение для выравнивания LLM в условиях ограниченных ресурсов
Междисциплинарный вклад: Способствует интеграции теории управления и NLP
Статья цитирует обширный объём связанных работ, включая главным образом:
Фундаментальные исследования больших языковых моделей (серия GPT, LLaMA, Gemma и др.)
Методы выравнивания предпочтений (RLHF, DPO, SimPO и др.)
Методы выравнивания во время тестирования (ARGS, RAIN, RE-Control и др.)
Основы теории управления (MPC, MPPI и др.)
Теория обучения с подкреплением (иерархическое RL, оптимизация траектории и др.)
Резюме: Это высококачественная статья с важными вкладами как в теоретическую инновацию, так и в практическое применение. Авторы успешно адаптируют структуру MPC из теории управления к проблеме выравнивания предпочтений при генерации языка, предлагая инновационный метод TMPC и валидируя его эффективность посредством всесторонних экспериментов. Данная работа предоставляет новое исследовательское направление для выравнивания во время тестирования и имеет важную академическую ценность и практическое значение.