2025-11-16T11:43:12.671286

Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space

Kanai, Yoshida, Takahashi et al.

Test-time alignment of large language models (LLMs) attracts attention because fine-tuning LLMs requires high computational costs. In this paper, we propose a new test-time alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.

academic

Выравнивание LLM во время тестирования посредством оптимального управления на основе выборки в пространстве pre-logit

Основная информация

ID статьи: 2510.26219
Название: Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space
Авторы: Sekitoshi Kanai, Tsukasa Yoshida, Hiroshi Takahashi (NTT, Inc.), Haru Kuroki, Kazumune Hashimoto (The University of Osaka)
Классификация: cs.LG cs.AI
Дата публикации: 30 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.26219v1

Аннотация

Выравнивание больших языковых моделей (LLM) во время тестирования привлекает внимание благодаря избеганию дорогостоящих затрат на дообучение. В данной работе предлагается новый метод выравнивания во время тестирования — адаптивная выборка по важности в пространстве pre-logit (AISP), основанная на прогнозирующем управлении моделью с выборкой со случайными управляющими входами. AISP применяет гауссовские возмущения к выходам предпоследнего слоя (pre-logits), достигая выравнивания путём максимизации ожидаемого вознаграждения возмущённого среднего. Статья доказывает, что оптимальное среднее может быть получено посредством выборки по важности от выборочных вознаграждений. AISP превосходит выборку best-of-n по эффективности использования выборок и превосходит другие методы выравнивания на основе вознаграждения во время тестирования по значениям вознаграждения.

Исследовательский контекст и мотивация

Решаемая проблема

Выравнивание больших языковых моделей является ключевой технологией для обеспечения безопасности LLM и их широкого применения. Традиционные методы обучения с подкреплением на основе обратной связи от человека (RLHF) требуют дообучения параметров LLM, что влечёт огромные вычислительные затраты. Выравнивание во время тестирования (test-time alignment) направлено на получение ответов LLM, соответствующих предпочтениям человека, без обновления параметров модели.

Важность проблемы

Вычислительные затраты: Дообучение крупномасштабных LLM требует значительных ресурсов GPU и времени обучения
Гибкость: Выравнивание во время тестирования позволяет динамически корректировать поведение модели на этапе вывода
Практичность: Исключает необходимость переобучения модели для каждой конкретной задачи

Ограничения существующих методов

Выборка Best-of-N (BoN): Хотя простая и эффективная, не активно исследует оптимальные ответы, имеет низкую эффективность использования выборок
RE-Control: Требует обучения функции значения, нуждается в больших наборах данных (например, 349 000 обучающих образцов) и затратах на хранение
Традиционное оптимальное управление: Неприменимо к нелинейным крупномасштабным системам LLM

Исследовательская мотивация

Возможно ли управлять LLM для исследования оптимальных ответов посредством метода, не требующего обучения? Данная работа исходит из теории управления и применяет технику прогнозирующего управления моделью на основе выборки (MPPI), предлагая метод выравнивания во время тестирования, не требующий обучения.

Основные вклады

Предложение метода AISP: Первое применение прогнозирующего управления моделью на основе выборки (MPPI) к выравниванию LLM, достижение выравнивания во время тестирования без обучения путём применения гауссовских возмущений в пространстве pre-logit
Теоретические вклады:
- Доказательство того, что оптимальное распределение pre-logit может быть получено через границу свободной энергии
- Вывод замкнутого решения на основе адаптивной выборки по важности
- Раскрытие теоретической связи между AISP и BoN (при определённых параметрах AISP вырождается в BoN)
Анализ обоснованности гауссовского предположения: Обоснование гауссовского распределения pre-logit с внутренней связью слоя softmax нейронной сети
Повышение производительности:
- Значительное превосходство над BoN по эффективности использования выборок (более высокое вознаграждение при одинаковом количестве выборок)
- Превосходство RE-Control без необходимости обучения
- Предложение Batched AISP для параллельного ускорения