2025-11-25T18:43:18.843313

Test-Time Alignment for Large Language Models via Textual Model Predictive Control

Wang, Chen, Hung et al.

Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.

academic

Выравнивание больших языковых моделей во время тестирования посредством текстового предсказательного управления

Основная информация

ID статьи: 2502.20795
Название: Test-Time Alignment for Large Language Models via Textual Model Predictive Control
Авторы: Kuang-Da Wang, Teng-Ruei Chen, Yu-Heng Hung, Guo-Xun Ko, Shuoyang Ding, Yueh-Hua Wu, Yu-Chiang Frank Wang, Chao-Han Huck Yang, Wen-Chih Peng, Ping-Chun Hsieh
Учреждения: National Yang Ming Chiao Tung University, NVIDIA
Классификация: cs.CL (Вычислительная лингвистика)
Дата публикации: Февраль 2025
Ссылка на статью: https://arxiv.org/abs/2502.20795v3

Аннотация

Выравнивание больших языковых моделей с предпочтениями человека обычно требует тонкой настройки, что является ресурсоёмким процессом. Таким образом, необходимы лёгкие альтернативы выравнивания во время тестирования. В данной работе авторы рассматривают проблему выравнивания во время тестирования с точки зрения последовательного принятия решений и выявляют два фундаментальных вызова: когда действия определены на уровне токенов (например, направленное декодирование), выравнивание сталкивается с «проклятием размерности»; когда действия определены на уровне ответов (например, традиционная итеративная оптимизация), оно сталкивается с «проклятием временного горизонта». Для решения этого компромисса авторы вдохновляются моделью предсказательного управления (MPC) из теории управления и предлагают текстовое модельное предсказательное управление (TMPC) — новую структуру предсказательного планирования для выравнивания LLM во время вывода.

Исследовательский контекст и мотивация

Проблемный контекст

Важность проблемы выравнивания: Хотя большие языковые модели демонстрируют отличные результаты на различных задачах NLP, выравнивание их выходных данных с предпочтениями человека остаётся критической проблемой, особенно для моделей меньшего размера (менее 10B параметров).
Ограничения традиционных методов:
- Методы выравнивания во время обучения (такие как RLHF, DPO) требуют интенсивных ресурсов и дорогостоящей переподготовки
- Методы выравнивания во время тестирования имеют фундаментальный компромисс:
  - Направленное декодирование на уровне токенов сталкивается с «проклятием временного горизонта»
  - Итеративная оптимизация на уровне ответов сталкивается с «проклятием размерности»
Исследовательская мотивация: Необходим метод выравнивания во время тестирования, который избегает дорогостоящей переподготовки модели и эффективно балансирует сложность временного горизонта и пространства поиска.

Основные вклады

Новое моделирование проблемы: Впервые моделирует проблему выравнивания во время тестирования как задачу последовательного принятия решений, объединяя существующие методы и выявляя их фундаментальные компромиссы.
Структура TMPC: Предлагает структуру текстового модельного предсказательного управления, адаптирующую концепции теории управления к задачам генерации языка.
Два основных принципа:
- Идентификация подцелей в ретроспективе (Hindsight Subgoal Identification): Обнаружение значимых этапов планирования из откатов
- Переген ерация с условием подцели (Subgoal-Conditioned Re-Generation): Итеративное улучшение на основе проверенных подцелей
Обширная экспериментальная проверка: Валидация метода на трёх задачах с различными характеристиками.

Подробное описание метода

Определение задачи

Моделирование генерации текста как конечного марковского процесса принятия решений (MDP):

Пространство состояний S: все возможные текстовые префиксы
Пространство действий A: все возможные единицы генерации
Функция переходов P: детерминированные переходы
Функция вознаграждения R: скалярная обратная связь для оценки качества выравнивания
Цель: найти оптимальную последовательность действий $a^* = \arg\max_{a_{0:T-1}} \sum_{t=0}^{T-1} R(s_t, a_t)$

Архитектура структуры TMPC

1. Адаптация базового MPC

TMPC адаптирует традиционное MPC к генерации текста:

a^{TMPC}(s) ← G({τ^{(i)}}_{i=1}^K, {J(τ^{(i)})}_{i=1}^K; s)

где G — функция агрегации, τ — траектория, J — кумулятивное вознаграждение.

2. Реализация основных принципов

Идентификация подцелей в ретроспективе:

После генерации нескольких кандидатов ответов ретроспективно анализируются высококачественные промежуточные точки как подцели
Правило обновления:

B ← {
  B ∪ ã^{TMPC}_t(s), если |B| < capacity,
  B \ {a ∈ B | R(s,a) < R(s,a')} ∪ {a'}, иначе
}

Переген ерация с условием подцели:

Функция агрегации:

ã^{TMPC}_t(s) ← G({τ^{(i)}_t}_{i=1}^K, R(·) | s, B) := {a | R(s,a) ≥ α и a ∈ {τ^{(i)}_t}_{i=1}^K}

Новые откаты генерируются путём явного использования высокого вознаграждения целей из буфера B в качестве сигналов условия

Технические инновации

Динамическое обнаружение границ: Не зависит от предопределённых жёстких разделений границ, способен обнаруживать значимые этапы планирования, специфичные для задачи
Вдохновение иерархическим обучением с подкреплением: Объединяет идеи иерархического RL посредством разложения подцелей для долгосрочных задач планирования
Стабильный кумулятивный прогресс: Обеспечивает стабильное улучшение производительности путём построения на основе проверенных подцелей
Без дополнительного обучения: Использует предварительно обученную LLM в качестве модели динамики и распределения предложений без необходимости тонкой настройки

Экспериментальная установка

Наборы данных

Машинный перевод на уровне абзаца:
- WMT'24 Discourse-Level Literary Translation benchmark
- Языковые пары: китайский→английский, китайский→немецкий, китайский→русский
- Каждый экземпляр разделён на максимум 1024 токена
Генерация длинных текстовых ответов:
- Набор данных Dahoas/full-hh-rlhf
- Выбрано 6K образцов с наибольшей длиной для обучения, 1024 для тестирования
Синтез программ:
- Официальный тестовый набор MBPP
- 500 задач (Task IDs 11-510)

Метрики оценки

Машинный перевод: SEGALEcomet оценка, коэффициент нулевого выравнивания (NA Ratio)
Длинные текстовые ответы: средняя оценка вознаграждения, коэффициент побед GPT-4
Синтез программ: коэффициент прохождения (Pass Rate)

Методы сравнения

Методы выравнивания во время тестирования:

ARGS: направленное декодирование на уровне токенов
RAIN: самооценка на основе структуры дерева
RE-Control: оптимизация градиента с модификацией внутренних представлений
GenARM: модель авторегрессивного вознаграждения
TPO: метод оптимизации текста
Выборка Best-of-N

Методы выравнивания во время обучения:

Контролируемая тонкая настройка (SFT)
Оптимизация прямого предпочтения (DPO)
SimPO

Детали реализации

Базовая модель: LLaMA-3.1-8B-Instruct
Количество итераций: 3-5
Количество откатов за итерацию: 2-3
Порог качества α: установка, специфичная для задачи
Ёмкость буфера: 3-6 подцелей

Результаты экспериментов

Основные результаты

Машинный перевод на уровне абзаца

На задаче литературного перевода WMT'24 TMPC показывает лучшие результаты среди всех базовых линий выравнивания во время тестирования:

Направление	TMPC SEGALEcomet	Best-of-60	TPO	NA Ratio
zh→en	94.62	90.97	88.81	0.00
zh→ru	91.53	84.86	92.63	1.19
zh→de	91.73	82.74	87.67	2.40

TMPC даже превосходит GPT-4o (94.58) в направлении zh→en
Значительно превосходит сильную базовую линию Best-of-60 при меньших вычислительных затратах

Генерация длинных текстовых ответов

Среднее вознаграждение: 4.60 (TMPC) против 4.18 (Best-of-20) против 3.95 (DPO)
Коэффициент побед GPT-4: побеждает в сравнениях как с DPO, так и с Best-of-20
Требуется только 10 генераций (3 итерации × 3 отката + 1 начальная генерация)

Синтез программ

Коэффициент прохождения: 61% (TMPC) против 50% (Best-of-35) против 48% (TPO)
Систематически исследует пути решения путём построения на основе частичной корректности

Абляционные исследования

Робастность гиперпараметров: Изменения размера буфера и длины сегмента влияют на производительность менее чем на 0.1 балла
Чувствительность к модели вознаграждения:
- Использование более слабой модели вознаграждения сохраняет хорошую производительность
- Влияние введённого шума ограничено благодаря фильтрующему действию буфера подцелей
Анализ итераций: Производительность стабильно улучшается в течение первых 3 итераций, затем немного снижается

Анализ примеров

Статья демонстрирует, как TMPC обнаруживает и использует подцели в различных задачах:

Машинный перевод: выравнивание на уровне предложений
Генерация ответов: семантически связные текстовые блоки
Синтез программ: функциональные вехи, проходящие модульные тесты

Связанные работы

Методы выравнивания предпочтений

Методы во время обучения: RLHF, DPO, SimPO, CPO и др., вычислительно дорогие, но эффективные
Методы во время тестирования: направленное декодирование, итеративная оптимизация, поиск по дереву и др., лёгкие, но с присущими ограничениями

Применение теории управления в NLP

TMPC впервые систематически применяет модельное предсказательное управление к выравниванию предпочтений при генерации языка, заполняя пробел в междисциплинарной области теории управления и NLP.

Иерархическое обучение с подкреплением

Заимствует идеи обнаружения подцелей и иерархического планирования из HRL, но адаптирует их к дискретной сцене генерации текста.

Выводы и обсуждение

Основные выводы

Объединяющая структура: Успешно объединяет выравнивание во время тестирования как задачу последовательного принятия решений, выявляя фундаментальные компромиссы существующих методов
Эффективный баланс: TMPC эффективно балансирует проклятие временного горизонта и проклятие размерности
Широкая применимость: Достигает последовательного улучшения на трёх задачах с различными характеристиками

Ограничения

Ограничения возможностей модели: Ограничена выразительной способностью базовой языковой модели
Сдвиг распределения: Может показать плохую производительность, когда ожидаемый выход значительно отличается от исходного распределения модели
Зависимость от сигнала вознаграждения: Производительность в значительной степени зависит от качества модели вознаграждения

Будущие направления

Интеграция с методами обучения: Исследование лёгкой тонкой настройки или совместной оптимизации модели вознаграждения
Более сильная адаптация к распределению: Повышение робастности при сдвиге распределения
Автоматическое обнаружение подцелей: Разработка более интеллектуальных механизмов идентификации подцелей

Глубокая оценка

Преимущества

Значительный теоретический вклад: Впервые систематически анализирует фундаментальные вызовы выравнивания во время тестирования, предоставляя объединяющую теоретическую структуру
Сильная методологическая инновация: Успешно адаптирует MPC к генерации текста с ясным и элегантным дизайном
Полные и всесторонние эксперименты: Валидация на трёх задачах с различными характеристиками, включая подробные абляционные исследования и анализ робастности
Высокая практическая ценность: Не требует переподготовки, высокая вычислительная эффективность, простота развёртывания

Недостатки

Эвристический характер обнаружения подцелей: Хотя эффективно, идентификация подцелей всё ещё зависит от эвристических методов
Требуется настройка, специфичная для задачи: Различные задачи требуют специфичного дизайна подсказок и настройки параметров
Обработка долгосрочных зависимостей: Способность обработки очень длинных последовательностей требует дальнейшей проверки
Отсутствие теоретических гарантий: Отсутствуют теоретические гарантии сходимости или оптимальности

Влияние

Академическая ценность: Предоставляет новую исследовательскую парадигму для выравнивания во время тестирования, потенциально вдохновляя последующие работы
Практическое значение: Предоставляет жизнеспособное решение для выравнивания LLM в условиях ограниченных ресурсов
Междисциплинарный вклад: Способствует интеграции теории управления и NLP

Применимые сценарии

Развёртывание с ограниченными ресурсами: Сценарии, где невозможна крупномасштабная тонкая настройка
Динамическая корректировка предпочтений: Приложения, требующие быстрой адаптации к различным предпочтениям
Многозадачные системы: Системы, требующие гибкого переключения стратегий выравнивания между задачами
Приложения, критичные по безопасности: Сценарии, требующие дополнительных проверок безопасности во время вывода

Библиография

Статья цитирует обширный объём связанных работ, включая главным образом:

Фундаментальные исследования больших языковых моделей (серия GPT, LLaMA, Gemma и др.)
Методы выравнивания предпочтений (RLHF, DPO, SimPO и др.)
Методы выравнивания во время тестирования (ARGS, RAIN, RE-Control и др.)
Основы теории управления (MPC, MPPI и др.)
Теория обучения с подкреплением (иерархическое RL, оптимизация траектории и др.)

Резюме: Это высококачественная статья с важными вкладами как в теоретическую инновацию, так и в практическое применение. Авторы успешно адаптируют структуру MPC из теории управления к проблеме выравнивания предпочтений при генерации языка, предлагая инновационный метод TMPC и валидируя его эффективность посредством всесторонних экспериментов. Данная работа предоставляет новое исследовательское направление для выравнивания во время тестирования и имеет важную академическую ценность и практическое значение.