2025-11-16T11:43:12.671286

Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space

Kanai, Yoshida, Takahashi et al.

Test-time alignment of large language models (LLMs) attracts attention because fine-tuning LLMs requires high computational costs. In this paper, we propose a new test-time alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.

academic

LLMのテスト時アライメント：Pre-logit空間でのサンプリングベース最適制御

基本情報

論文ID: 2510.26219
タイトル: Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space
著者: Sekitoshi Kanai, Tsukasa Yoshida, Hiroshi Takahashi (NTT, Inc.), Haru Kuroki, Kazumune Hashimoto (大阪大学)
分類: cs.LG cs.AI
発表日: 2025年10月30日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2510.26219v1

要約

大規模言語モデル(LLM)のテスト時アライメントは、高額なファインチューニングコストを回避する手段として注目されている。本論文は、確率的制御入力を備えたサンプリングベースモデル予測制御に基づく、新しいテスト時アライメント手法——適応的重要度サンプリング(AISP)を提案する。AISPは最後から2番目の層の出力(pre-logits)にガウス摂動を加え、摂動平均値の期待報酬を最大化することでアライメントを実現する。本論文は、最適な平均値がサンプリング報酬に対する重要度サンプリングを通じて得られることを証明している。AISPはサンプル利用効率においてbest-of-n(BoN)サンプリングを上回り、報酬値において他の報酬ベースのテスト時アライメント手法を超える。

研究背景と動機

解決すべき問題

大規模言語モデルのアライメントは、LLMの安全性と広範な応用を確保するための重要な技術である。従来の人間フィードバック強化学習(RLHF)手法はLLMパラメータのファインチューニングを必要とし、膨大な計算コストをもたらす。テスト時アライメント(test-time alignment)は、モデルパラメータを更新することなく、LLMが人間の嗜好に合致した応答を生成することを目指している。

問題の重要性

計算コスト：大規模LLMのファインチューニングには多量のGPUリソースと訓練時間が必要
柔軟性：テスト時アライメントにより、推論段階でモデルの動作を動的に調整可能
実用性：特定のタスクごとにモデルを再訓練する必要がない

既存手法の限界

Best-of-N(BoN)サンプリング：シンプルで効果的だが、最適応答を積極的に探索せず、サンプル効率が低い
RE-Control：値関数の訓練が必要で、大規模データセット(例：349,000個の訓練サンプル)と保存コストが必要
従来の最適制御：非線形で大規模なLLMシステムには不適切

研究動機

訓練不要な方法でLLMを制御し、最適応答を探索することは可能か？本論文は制御理論の観点から出発し、サンプリングベースモデル予測制御(MPPI)技術を採用し、訓練不要なテスト時アライメント手法を提案する。

核心的貢献

AISP手法の提案：サンプリングベースモデル予測制御(MPPI)をLLMアライメントに初めて適用し、pre-logit空間にガウス摂動を加えることで、訓練不要なテスト時アライメントを実現
理論的貢献：
- 最適pre-logit分布が自由エネルギー(free energy)境界を通じて得られることを証明
- 適応的重要度サンプリングに基づく閉形式解を導出
- AISPとBoNの理論的関連性を明らかにする(特定のパラメータ下でAISPはBoNに退化)
ガウス仮定の合理性分析：pre-logitのガウス分布仮定とニューラルネットワークのsoftmax層の内在的関連性を論証
性能向上：
- サンプル効率においてBoNを大幅に上回る(同じサンプル数でより高い報酬を獲得)
- 訓練なしでRE-Controlを超える
- 並列加速を実現するBatched AISPを提案

Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space

LLMのテスト時アライメント：Pre-logit空間でのサンプリングベース最適制御

基本情報

要約

研究背景と動機

解決すべき問題

問題の重要性

既存手法の限界

研究動機

核心的貢献

手法の詳細

タスク定義

モデルアーキテクチャ

1. 確率的制御入力の設計