Test-Time Alignment for Large Language Models via Textual Model Predictive Control
Wang, Chen, Hung et al.
Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.
대규모 언어 모델과 인간 선호도의 정렬은 일반적으로 미세 조정을 통해 달성되지만, 이 방법은 막대한 자원을 소비하므로 경량의 테스트 시간 정렬 대안이 필요합니다. 본 논문은 순차 의사결정의 관점에서 테스트 시간 정렬 문제를 해결하며, 두 가지 근본적인 과제를 밝혀냅니다: 동작이 토큰 수준에서 정의될 때(예: 유도 디코딩), 정렬은 "차원의 저주"에 직면하고; 동작이 응답 수준에서 정의될 때(예: 전통적인 반복 최적화), "시간 차원의 저주"에 직면합니다. 이러한 균형을 해결하기 위해 저자들은 제어 이론의 모델 예측 제어(MPC)에서 영감을 얻어 텍스트 모델 예측 제어(TMPC)를 제안합니다. 이는 추론 시간 LLM 정렬에 적용 가능한 새로운 예측 계획 프레임워크입니다.
요약: 이것은 이론적 혁신과 실제 응용 측면 모두에서 중요한 기여를 하는 고품질 논문입니다. 저자들은 제어 이론의 MPC 프레임워크를 언어 생성의 선호도 정렬 문제에 성공적으로 적응시켰으며, 혁신적인 TMPC 방법을 제안하고 포괄적인 실험을 통해 그 효과성을 검증했습니다. 이 연구는 테스트 시간 정렬을 위한 새로운 연구 방향을 제공하며, 중요한 학술적 가치와 실용적 의의를 가집니다.