2025-11-25T18:43:18.843313

Test-Time Alignment for Large Language Models via Textual Model Predictive Control

Wang, Chen, Hung et al.
Aligning Large Language Models (LLMs) with human preferences through finetuning is resource-intensive, motivating lightweight alternatives at test time. We address test-time alignment through the lens of sequential decision making, a perspective that reveals two fundamental challenges. When actions are defined at the token level, as in guided decoding, alignment suffers from the curse of horizon. Conversely, when actions are at the response level, as in traditional iterative refinement, the curse of dimensionality emerges. To resolve this trade-off, we draw inspiration from Model Predictive Control (MPC) in control theory to propose Textual Model Predictive Control (TMPC), a novel predictive planning framework adapted for aligning LLMs at inference time. A key limitation of standard MPC is its reliance on predefined, hard segment boundaries, which are often absent in text generation. TMPC overcomes this by introducing two principles inspired by hierarchical reinforcement learning: (1) Hindsight Subgoal Identification, where TMPC analyzes generation subgoals to retrospectively identify high-reward intermediate outputs as subgoals. This allows the framework to discover meaningful, task-specific planning steps (e.g., a sentence in machine translation or a bug fix in code generation.). (2) Subgoal-Conditioned Re-Generation, where these identified subgoals are used to guide subsequent planning iterations. By conditioning on these proven, high-quality subgoals, TMPC ensures stable improvement by building upon previously validated successes. TMPC is evaluated on three tasks with distinct segmentation properties: discourse-level translation, long-form response generation, and program synthesis. The results demonstrate that TMPC consistently improves performance, highlighting the generality.
academic

Test-Time Alignment for Large Language Models via Textual Model Predictive Control

基本信息

  • 论文ID: 2502.20795
  • 标题: Test-Time Alignment for Large Language Models via Textual Model Predictive Control
  • 作者: Kuang-Da Wang, Teng-Ruei Chen, Yu-Heng Hung, Guo-Xun Ko, Shuoyang Ding, Yueh-Hua Wu, Yu-Chiang Frank Wang, Chao-Han Huck Yang, Wen-Chih Peng, Ping-Chun Hsieh
  • 机构: National Yang Ming Chiao Tung University, NVIDIA
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: 2025年2月
  • 论文链接: https://arxiv.org/abs/2502.20795v3

摘要

大语言模型与人类偏好的对齐通常需要通过微调实现,但这种方法资源消耗巨大,因此需要轻量级的测试时对齐替代方案。本文从序列决策制定的角度来解决测试时对齐问题,揭示了两个根本性挑战:当动作定义在token级别时(如引导解码),对齐面临"维度诅咒";当动作定义在响应级别时(如传统迭代优化),则面临"时间维度诅咒"。为解决这一权衡,作者从控制论中的模型预测控制(MPC)获得灵感,提出了文本模型预测控制(TMPC),这是一个适用于推理时LLM对齐的新型预测规划框架。

研究背景与动机

问题背景

  1. 对齐问题的重要性:虽然大语言模型在各种NLP任务上表现出色,但将其输出与人类偏好对齐仍然是一个关键挑战,特别是对于较小规模的LLM(如10B参数以下)。
  2. 传统方法的局限性
    • 训练时对齐方法(如RLHF、DPO)资源密集,需要昂贵的重新训练
    • 测试时对齐方法存在根本性权衡:
      • Token级别的引导解码面临"时间维度诅咒"(curse of horizon)
      • 响应级别的迭代优化面临"维度诅咒"(curse of dimensionality)
  3. 研究动机:需要一种既能避免昂贵的模型重训练,又能有效平衡时间维度和搜索空间复杂性的测试时对齐方法。

核心贡献

  1. 新颖的问题建模:首次将测试时对齐问题建模为序列决策制定问题,统一了现有方法并揭示了其根本性权衡。
  2. TMPC框架:提出了文本模型预测控制框架,将控制论概念适配到语言生成任务。
  3. 两个核心原理
    • 事后子目标识别(Hindsight Subgoal Identification):从回滚中发现有意义的规划步骤
    • 子目标条件重生成(Subgoal-Conditioned Re-Generation):基于已验证的子目标进行迭代改进
  4. 广泛的实验验证:在三个不同特性的任务上验证了方法的有效性和通用性。

方法详解

任务定义

将文本生成建模为有限时间马尔可夫决策过程(MDP):

  • 状态空间 S:所有可能的文本前缀
  • 动作空间 A:所有可能的生成单元
  • 转移函数 P:确定性转移
  • 奖励函数 R:评估对齐质量的标量反馈
  • 目标:找到最优动作序列 a=argmaxa0:T1t=0T1R(st,at)a^* = \arg\max_{a_{0:T-1}} \sum_{t=0}^{T-1} R(s_t, a_t)

TMPC框架架构

1. 基础MPC适配

TMPC将传统MPC适配到文本生成:

a^{TMPC}(s) ← G({τ^{(i)}}_{i=1}^K, {J(τ^{(i)})}_{i=1}^K; s)

其中G是聚合函数,τ是轨迹,J是累积奖励。

2. 核心原理实现

事后子目标识别

  • 生成多个候选响应后,回顾性分析识别高质量中间点作为子目标
  • 更新规则:
B ← {
  B ∪ ã^{TMPC}_t(s), if |B| < capacity,
  B \ {a ∈ B | R(s,a) < R(s,a')} ∪ {a'}, otherwise
}

子目标条件重生成

  • 聚合函数:
ã^{TMPC}_t(s) ← G({τ^{(i)}_t}_{i=1}^K, R(·) | s, B) := {a | R(s,a) ≥ α and a ∈ {τ^{(i)}_t}_{i=1}^K}
  • 新的回滚通过显式利用缓冲区B中的高奖励目标作为条件信号生成

技术创新点

  1. 动态边界发现:不依赖预定义的硬分割边界,能够发现任务特定的有意义规划步骤
  2. 分层强化学习启发:结合了分层RL的思想,通过子目标分解长期规划任务
  3. 稳定的累积进步:通过在已验证的子目标基础上构建,确保稳定的性能提升
  4. 无需额外训练:利用预训练LLM作为动力学模型和提议分布,无需微调

实验设置

数据集

  1. 段落级机器翻译
    • WMT'24 Discourse-Level Literary Translation benchmark
    • 语言对:中文→英文、中文→德文、中文→俄文
    • 每个实例分割为最多1024个token
  2. 长文本响应生成
    • Dahoas/full-hh-rlhf数据集
    • 选择6K最长响应样本用于训练,1024个用于测试
  3. 程序合成
    • MBPP数据集官方测试集
    • 500个问题(Task IDs 11-510)

评价指标

  • 机器翻译:SEGALEcomet分数,Null Alignment (NA) Ratio
  • 长文本响应:平均奖励分数,GPT-4胜率
  • 程序合成:通过率(Pass Rate)

对比方法

测试时对齐方法

  • ARGS:token级引导解码
  • RAIN:基于树结构的自评估
  • RE-Control:修改内部表示的梯度优化
  • GenARM:自回归奖励模型
  • TPO:文本优化方法
  • Best-of-N采样

训练时对齐方法

  • 监督微调(SFT)
  • 直接偏好优化(DPO)
  • SimPO

实现细节

  • 骨干模型:LLaMA-3.1-8B-Instruct
  • 迭代次数:3-5次
  • 每次迭代的回滚数:2-3个
  • 质量阈值α:任务特定设置
  • 缓冲区容量:3-6个子目标

实验结果

主要结果

段落级机器翻译

在WMT'24文学翻译任务上,TMPC在所有测试时对齐基线中表现最佳:

方向TMPC SEGALEcometBest-of-60TPONA Ratio
zh→en94.6290.9788.810.00
zh→ru91.5384.8692.631.19
zh→de91.7382.7487.672.40
  • TMPC在zh→en方向甚至超越了GPT-4o(94.58)
  • 显著优于强基线Best-of-60,但计算成本更低

长文本响应生成

  • 平均奖励:4.60(TMPC)vs 4.18(Best-of-20)vs 3.95(DPO)
  • GPT-4胜率:在与DPO和Best-of-20的对比中均获胜
  • 仅需10次生成(3次迭代×3次回滚+1次初始生成)

程序合成

  • 通过率:61%(TMPC)vs 50%(Best-of-35)vs 48%(TPO)
  • 系统性地通过构建部分正确性来探索解决方案路径

消融实验

  1. 超参数鲁棒性:缓冲区大小和分段长度的变化对性能影响小于0.1分
  2. 奖励模型敏感性
    • 使用较弱的奖励模型仍能保持良好性能
    • 注入噪声的影响有限,体现了子目标缓冲区的过滤作用
  3. 迭代分析:性能在前3次迭代中稳步提升,之后略有下降

案例分析

论文展示了TMPC如何在不同任务中发现和利用子目标:

  • 机器翻译:句子级别的对齐
  • 响应生成:语义连贯的文本块
  • 程序合成:通过单元测试的功能里程碑

相关工作

偏好对齐方法

  1. 训练时方法:RLHF、DPO、SimPO、CPO等,计算昂贵但效果显著
  2. 测试时方法:引导解码、迭代优化、树搜索等,轻量但存在固有局限

控制论在NLP中的应用

TMPC首次将模型预测控制系统性地应用于语言生成的偏好对齐,填补了控制论与NLP交叉领域的空白。

分层强化学习

借鉴了HRL中的子目标发现和分层规划思想,但适配到了离散的文本生成场景。

结论与讨论

主要结论

  1. 统一框架:成功将测试时对齐统一为序列决策问题,揭示了现有方法的根本权衡
  2. 有效平衡:TMPC有效平衡了时间维度诅咒和维度诅咒
  3. 广泛适用性:在三个不同特性的任务上均取得一致改进

局限性

  1. 模型能力约束:受限于底层语言模型的表达能力
  2. 分布偏移:当期望输出远离模型原始分布时可能表现不佳
  3. 奖励信号依赖:性能很大程度上依赖于奖励模型的质量

未来方向

  1. 与训练时方法结合:探索轻量级微调或奖励模型协同优化
  2. 更强的分布适应:提高在分布偏移下的鲁棒性
  3. 自动子目标发现:开发更智能的子目标识别机制

深度评价

优点

  1. 理论贡献显著:首次系统性地分析了测试时对齐的根本挑战,提供了统一的理论框架
  2. 方法创新性强:将MPC成功适配到文本生成,设计巧妙且原理清晰
  3. 实验全面充分:在三个不同特性的任务上验证,包含详细的消融实验和鲁棒性分析
  4. 实用价值高:无需重训练,计算效率高,易于部署

不足

  1. 子目标发现的启发式性质:虽然有效,但子目标识别仍然依赖启发式方法
  2. 任务特定的调优:不同任务需要特定的提示设计和参数调整
  3. 长期依赖处理:对于极长序列的处理能力仍有待验证
  4. 理论保证缺失:缺乏收敛性或最优性的理论保证

影响力

  1. 学术价值:为测试时对齐提供了新的研究范式,可能启发后续工作
  2. 实用意义:为资源受限环境下的LLM对齐提供了可行方案
  3. 跨领域贡献:促进了控制论与NLP的交叉融合

适用场景

  1. 资源受限部署:无法进行大规模微调的场景
  2. 动态偏好调整:需要快速适应不同偏好的应用
  3. 多任务系统:需要在不同任务间灵活切换对齐策略的系统
  4. 安全关键应用:需要在推理时进行额外安全检查的场景

参考文献

论文引用了大量相关工作,主要包括:

  • 大语言模型基础研究(GPT系列、LLaMA、Gemma等)
  • 偏好对齐方法(RLHF、DPO、SimPO等)
  • 测试时对齐技术(ARGS、RAIN、RE-Control等)
  • 控制论基础(MPC、MPPI等)
  • 强化学习理论(分层RL、轨迹优化等)

总结:这是一篇在理论创新和实践应用方面都有重要贡献的高质量论文。作者成功地将控制论的MPC框架适配到语言生成的偏好对齐问题,提出了创新性的TMPC方法,并通过全面的实验验证了其有效性。该工作为测试时对齐提供了新的研究方向,具有重要的学术价值和实用意义。