2025-11-13T03:04:10.509981

Boosting Instruction Following at Scale

Elder, Duesterwald, Muthusamy
A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.
academic

Boosting Instruction Following at Scale

基本信息

  • 论文ID: 2510.14842
  • 标题: Boosting Instruction Following at Scale
  • 作者: Ben Elder, Evelyn Duesterwald, Vinod Muthusamy (IBM T.J. Watson Research)
  • 分类: cs.AI
  • 发表时间: 2025年10月16日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.14842

摘要

开发者通常通过精心设计提示词来影响大语言模型(LLM)的行为,比如添加或修改指令。然而,仅仅添加更多指令并不能保证它们会被遵循。本文提出了指令增强(Instruction Boosting)作为一种后生成方法来提高LLM提示指令的可靠性。研究表明,指令增强在两个指令时可将指令遵循率提升多达7个百分点,在十个指令时提升多达4个百分点。为验证这些结果,作者引入了SCALEDIF基准测试,包含每个数据样本最多十条指令。论文还分析了随着指令数量增加性能下降的常见趋势,表明导致这一趋势的重要因素是指令数量增加时产生的紧张和冲突程度。

研究背景与动机

核心问题

  1. 指令遵循不可靠性:开发者添加的提示指令无法保证被LLM实际遵循
  2. 指令扩展问题:随着指令数量增加,LLM的指令遵循率(IF rate)显著下降
  3. 指令冲突:多个指令之间可能产生张力甚至直接矛盾,使得同时满足所有指令变得困难

研究重要性

  • LLM已成为智能应用开发的基础组件,但其行为控制困难
  • 提示工程是影响LLM行为的主要方法,但缺乏可靠性保证
  • 现有研究缺乏对大规模指令场景的系统性分析

现有方法局限性

  • 传统方法主要关注单一或少量指令的遵循
  • 缺乏针对指令冲突和扩展性问题的系统解决方案
  • 现有基准测试(如IFEval)最多只包含3条指令,无法评估大规模指令场景

核心贡献

  1. 提出指令增强方法:一种测试时后生成方法,通过修正和完善初始响应来提高指令遵循率
  2. 构建SCALEDIF数据集:扩展IFEval数据集,包含每个样本最多10条指令的大规模指令遵循基准
  3. 量化冲突评分工具:开发了定量的指令冲突评分机制,解释性能趋势并为开发者提供反馈
  4. 软冲突概念:形式化定义了指令间的"软冲突"概念,分析其对性能的影响

方法详解

任务定义

给定一个查询Q、一组指令集合I={I₁, I₂, ..., Iₙ}和LLM的初始响应R,指令增强的目标是生成一个修正后的响应R',使得R'遵循更多的指令。

指令增强架构

整体流程

  1. 初始生成:LLM根据查询和指令生成初始响应
  2. 指令检测:使用IF检测器识别哪些指令未被遵循
  3. 增强算法:应用特定策略修正响应
  4. 最终输出:产生遵循更多指令的最终响应

四种增强策略

1. Detect+Repair

  • 检测阶段:使用LLM-as-a-judge检测器识别违反的指令
  • 修复阶段:重写响应以修复所有检测到的指令违规

2. Best-of-N

  • 采样N个重写响应(N=5)
  • 使用judge检测器作为奖励模型评分
  • 选择IF率最高的响应作为最终输出

3. Best-of-N Oracle

  • 类似Best-of-N,但使用确定性IFEval验证器作为oracle奖励模型
  • 用于评估模型重写的潜在能力上限

4. Map Reduce

  • Map阶段:为每个违反的指令创建独立的重写任务
  • Reduce阶段:将独立生成的重写响应合并为最终响应

技术创新点

  1. 后生成优化:基于"修正次优响应比直接生成完美响应更容易"的观察
  2. 多策略设计:提供不同成本-性能权衡的策略选择
  3. 软冲突量化:通过自博弈方法empirically识别指令间的软冲突

实验设置

SCALEDIF数据集构建

基础数据

  • 基于IFEval数据集的538个样本(原541个中的538个)
  • 每个样本包含一个查询和10条唯一指令
  • 26个查询无关的指令类别,分为8个类别组

指令类别

  1. change_case: 大小写变换
  2. combination: 组合约束
  3. detectable_content: 可检测内容
  4. detectable_format: 可检测格式
  5. keywords: 关键词约束
  6. length_constraints: 长度约束
  7. punctuation: 标点符号
  8. startend: 开始结束约束

约束采样算法

使用Algorithm 1确保指令参数采样时避免硬冲突:

  • 成对约束执行:添加新指令时计算与已有指令的约束
  • 参数验证:确保新指令参数满足所有现有约束
  • 冲突避免:如keywords:existence和keywords:forbidden_words的关键词必须不相交

评价指标

  • 指令遵循率(IF Rate):模型遵循的指令数量占总指令数量的比例
  • 任务粘附性:响应是否与原始查询相关
  • 冲突评分:量化指令集合间的软冲突程度

实验模型

  • Llama-3.3-70B-Instruct
  • Llama-3.1-8B-Instruct
  • Qwen2.5-72B-Instruct
  • Mixtral-8x7B-Instruct-v0.1
  • Mixtral-8x22B-Instruct-v0.1

实验结果

主要结果

基线性能

  • 2条指令:IF率从0.56(Mixtral-8x7B)到0.88(Llama-70B)
  • 10条指令:IF率降至0.39(Mixtral-8x7B)到0.66(Llama-70B)
  • 所有模型都表现出随指令数量增加而IF率下降的趋势

增强效果

  • Best-of-N策略表现最佳
    • 2条指令:最大提升7个百分点(Mixtral-8x22B)
    • 10条指令:最大提升4个百分点(Llama-70B)
  • Best-of-N Oracle显示潜力上限
    • 2条指令:可达89% IF率(+2个百分点)
    • 10条指令:可达75% IF率(+8.5个百分点)

成本效益分析

  • Detect+Repair:成本最低,但效果有限
  • Best-of-N:在成本和性能间取得良好平衡
  • Map Reduce:成本最高,性能提升有限
  • Best-of-N Gen:成本略低于Best-of-N,但效果不如重写采样

冲突分析结果

软冲突评分

使用公式计算样本s的冲突评分:

cs = Σ(i,j)∈p(s)×p(s),i≠j cij / |p(s)|

其中cij是指令i和j之间的冲突计数。

关键发现

  1. 冲突评分与指令数量正相关
    • 2条指令:平均冲突评分0.24
    • 10条指令:平均冲突评分2.03
  2. 冲突评分与IF率负相关
    • 10条指令时相关系数为-0.37
    • 随指令数量增加,相关性减弱
  3. "困难"样本具有更高冲突评分:IF率较低的样本确实具有更高的冲突评分

任务粘附性

  • 初始响应失败率:最高4%(8条指令时22/538)
  • 增强后额外失败:最多1.3%(10条指令时7个额外失败)

相关工作

指令遵循评估

  • IFEval: 关注可验证指令的确定性检查(1-3条指令)
  • ComplexBench & FollowBench: 评估复杂指令处理能力
  • InFoBench: 引入DRFR指标进行细粒度分析
  • RefuteBench: 关注对话中的反驳指令遵循

测试时干预方法

  • 自我纠正: 提示模型评估和改进自身输出
  • 思维链提示: 将复杂问题分解为可管理步骤
  • 自一致性: 通过采样多个响应选择最一致的结果

结论与讨论

主要结论

  1. 指令增强有效性:在各种模型上一致提升指令遵循率
  2. 软冲突是关键因素:指令间冲突是导致大规模指令遵循困难的重要原因
  3. 重写优于重新生成:修正现有响应比从头生成更有效
  4. 冲突评分具有预测价值:可作为开发者的反馈工具

局限性

  1. 成对冲突限制:当前冲突评分仅考虑成对指令冲突,未涵盖多指令复杂交互
  2. 检测器准确性:LLM-as-a-judge检测器准确率仅73%,限制了增强效果
  3. 计算成本:增强策略需要额外的推理成本
  4. 任务粘附风险:增强过程可能导致响应偏离原始查询

未来方向

  1. 多阶冲突建模:扩展到三个或更多指令的复杂冲突分析
  2. 更精确的检测器:开发更准确的指令遵循检测方法
  3. 自适应增强:根据冲突评分动态选择增强策略
  4. 训练时优化:将指令遵循能力整合到模型训练中

深度评价

优点

  1. 问题定义清晰:准确识别了大规模指令遵循的核心挑战
  2. 方法论创新:提出了系统性的后生成增强框架
  3. 实验设计严谨:构建了高质量的大规模指令基准数据集
  4. 理论贡献:软冲突概念和量化方法具有理论价值
  5. 实用性强:提供了多种成本-效益权衡的策略选择

不足

  1. 冲突建模简化:仅考虑成对冲突,可能遗漏复杂的多指令交互
  2. 检测器依赖:方法效果受限于LLM检测器的准确性
  3. 评估范围有限:主要在开源模型上验证,缺乏对闭源模型的评估
  4. 长期影响未知:未分析反复增强对模型行为的长期影响

影响力

  1. 学术贡献:为指令遵循研究提供了新的评估基准和方法框架
  2. 实用价值:为LLM应用开发者提供了实用的指令可靠性提升工具
  3. 可复现性:详细的方法描述和提示模板支持结果复现
  4. 扩展潜力:方法框架可扩展到其他语言生成任务

适用场景

  1. 多约束生成任务:需要同时满足多个格式、内容、风格约束的场景
  2. 高可靠性应用:对指令遵循准确性要求较高的业务应用
  3. 提示工程优化:帮助开发者识别和解决指令冲突问题
  4. 模型评估:为LLM指令遵循能力提供标准化评估工具

参考文献

论文引用了指令遵循评估、自我纠正、思维链推理等相关领域的重要工作,为研究提供了坚实的理论基础。关键参考文献包括IFEval基准、自我纠正方法、以及最新的指令遵循评估工作。