2025-11-16T11:43:12.671286

Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space

Kanai, Yoshida, Takahashi et al.

Test-time alignment of large language models (LLMs) attracts attention because fine-tuning LLMs requires high computational costs. In this paper, we propose a new test-time alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.

academic

사전-로짓 공간에서의 샘플링 기반 최적 제어를 통한 LLM의 테스트 시간 정렬

기본 정보

논문 ID: 2510.26219
제목: Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space
저자: Sekitoshi Kanai, Tsukasa Yoshida, Hiroshi Takahashi (NTT, Inc.), Haru Kuroki, Kazumune Hashimoto (오사카 대학교)
분류: cs.LG cs.AI
발표 시간: 2025년 10월 30일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.26219v1

초록

대규모 언어 모델(LLM)의 테스트 시간 정렬은 높은 미세 조정 비용을 피하기 위해 주목받고 있습니다. 본 논문은 확률적 제어 입력을 갖춘 샘플링 모델 예측 제어를 기반으로 하는 새로운 테스트 시간 정렬 방법인 사전-로짓 적응 중요도 샘플링(AISP)을 제안합니다. AISP는 마지막에서 두 번째 계층의 출력(사전-로짓)에 가우스 섭동을 가하고, 섭동 평균의 기대 보상을 최대화하여 정렬을 달성합니다. 논문은 최적 평균이 샘플링된 보상에 대한 중요도 샘플링을 통해 얻을 수 있음을 증명합니다. AISP는 샘플 사용 효율성에서 최고-N 샘플링을 능가하며, 보상 값에서 다른 보상 기반 테스트 시간 정렬 방법을 초과합니다.

연구 배경 및 동기

해결해야 할 문제

대규모 언어 모델의 정렬은 LLM의 안전성과 광범위한 응용을 보장하는 핵심 기술입니다. 전통적인 인간 피드백 강화 학습(RLHF) 방법은 LLM 매개변수를 미세 조정해야 하므로 막대한 계산 비용이 발생합니다. 테스트 시간 정렬(test-time alignment)은 모델 매개변수를 업데이트하지 않으면서 LLM이 인간의 선호도에 부합하는 응답을 생성하도록 하는 것을 목표로 합니다.

문제의 중요성

계산 비용: 대규모 LLM의 미세 조정에는 많은 GPU 자원과 훈련 시간이 필요합니다
유연성: 테스트 시간 정렬은 추론 단계에서 모델 동작을 동적으로 조정할 수 있습니다
실용성: 각 특정 작업에 대해 모델을 다시 훈련할 필요가 없습니다

기존 방법의 한계

최고-N(BoN) 샘플링: 간단하고 효과적이지만, 최적 응답을 적극적으로 탐색하지 않아 샘플 효율이 낮습니다
RE-Control: 값 함수를 훈련해야 하며, 많은 데이터 집합(예: 349,000개의 훈련 샘플)과 저장 비용이 필요합니다
전통적 최적 제어: 비선형, 대규모 LLM 시스템에 적합하지 않습니다

연구 동기

훈련이 필요 없는 방법으로 LLM을 제어하여 최적 응답을 탐색할 수 있을까요? 본 논문은 제어 이론 관점에서 출발하여 샘플링 기반 모델 예측 제어(MPPI) 기술을 채택하고, 훈련이 필요 없는 테스트 시간 정렬 방법을 제안합니다.

핵심 기여

AISP 방법 제안: 샘플링 기반 모델 예측 제어(MPPI)를 LLM 정렬에 처음으로 적용하여, 사전-로짓 공간에 가우스 섭동을 가함으로써 훈련이 필요 없는 테스트 시간 정렬을 구현합니다
이론적 기여:
- 최적 사전-로짓 분포를 자유 에너지(free energy) 경계를 통해 얻을 수 있음을 증명합니다
- 적응 중요도 샘플링을 기반으로 한 폐쇄형 해를 도출합니다
- AISP와 BoN의 이론적 연결을 밝힙니다(특정 매개변수에서 AISP는 BoN으로 축퇴됨)
가우스 가정의 합리성 분석: 사전-로짓의 가우스 분포 가정과 신경망 소프트맥스 계층의 내재적 연결을 논증합니다
성능 향상:
- 샘플 효율성에서 BoN을 현저히 능가합니다(동일한 샘플 수에서 더 높은 보상 획득)
- 훈련 없이 RE-Control을 초과합니다
- 병렬 가속을 위해 배치 AISP를 제안합니다

Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space

사전-로짓 공간에서의 샘플링 기반 최적 제어를 통한 LLM의 테스트 시간 정렬

기본 정보

초록

연구 배경 및 동기

해결해야 할 문제

문제의 중요성

기존 방법의 한계

연구 동기

핵심 기여

방법 상세 설명

작업 정의

모델 아키텍처

1. 확률적 제어 입력 설계