2025-11-13T03:04:10.509981

Boosting Instruction Following at Scale

Elder, Duesterwald, Muthusamy
A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.
academic

大規模指令追従の向上

基本情報

  • 論文ID: 2510.14842
  • タイトル: Boosting Instruction Following at Scale
  • 著者: Ben Elder, Evelyn Duesterwald, Vinod Muthusamy (IBM T.J. Watson Research)
  • 分類: cs.AI
  • 発表日: 2025年10月16日 (arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.14842

要約

開発者は通常、プロンプトの設計を工夫することで大規模言語モデル(LLM)の動作に影響を与えます。例えば、指令を追加または修正することがあります。しかし、単に指令を追加するだけでは、それらが実際に従われることを保証できません。本論文は、指令増強(Instruction Boosting)を後生成方法として提案し、LLMのプロンプト指令の信頼性を向上させます。研究結果によると、指令増強は2つの指令で指令追従率を最大7パーセントポイント、10個の指令で最大4パーセントポイント向上させることができます。これらの結果を検証するため、著者らはSCALEDIFベンチマークを導入しました。これは各データサンプルあたり最大10個の指令を含みます。論文はまた、指令数の増加に伴う性能低下の一般的な傾向を分析し、この傾向の重要な要因は指令数増加時に生じる緊張と矛盾の程度であることを示しています。

研究背景と動機

核心的な問題

  1. 指令追従の信頼性不足:開発者が追加したプロンプト指令がLLMによって実際に従われることが保証されない
  2. 指令拡張の問題:指令数の増加に伴い、LLMの指令追従率(IF率)が著しく低下する
  3. 指令間の矛盾:複数の指令間に緊張関係が生じ、場合によっては直接的な矛盾が発生し、すべての指令を同時に満たすことが困難になる

研究の重要性

  • LLMはインテリジェントアプリケーション開発の基礎コンポーネントとなっているが、その動作制御は困難である
  • プロンプトエンジニアリングはLLMの動作に影響を与える主要な方法であるが、信頼性の保証が不足している
  • 既存研究では大規模指令シナリオの体系的な分析が不足している

既存方法の限界

  • 従来の方法は単一または少数の指令追従に主に焦点を当てている
  • 指令間の矛盾とスケーラビリティの問題に対する体系的な解決策が不足している
  • 既存のベンチマーク(IFEvalなど)は最大3個の指令しか含まず、大規模指令シナリオの評価ができない

核心的な貢献

  1. 指令増強方法の提案:初期応答を修正・改善することで指令追従率を向上させるテスト時後生成方法
  2. SCALEDIFデータセットの構築:IFEvalデータセットを拡張し、サンプルあたり最大10個の指令を含む大規模指令追従ベンチマークを作成
  3. 定量的矛盾スコアリングツール:指令間の矛盾を定量化するメカニズムを開発し、性能傾向を説明し、開発者にフィードバックを提供
  4. ソフト矛盾の概念:指令間の「ソフト矛盾」の概念を形式化し、性能への影響を分析

方法の詳細

タスク定義

クエリQ、指令集合I={I₁, I₂, ..., Iₙ}、およびLLMの初期応答Rが与えられたとき、指令増強の目標は、より多くの指令に従う修正応答R'を生成することです。

指令増強アーキテクチャ

全体的なフロー

  1. 初期生成:LLMはクエリと指令に基づいて初期応答を生成
  2. 指令検出:IF検出器を使用して、どの指令が従われていないかを識別
  3. 増強アルゴリズム:特定の戦略を適用して応答を修正
  4. 最終出力:より多くの指令に従う最終応答を生成

4つの増強戦略

1. Detect+Repair

  • 検出段階:LLM-as-a-judge検出器を使用して、違反した指令を識別
  • 修復段階:検出されたすべての指令違反を修正するために応答を書き直す

2. Best-of-N

  • N個の書き直し応答をサンプリング(N=5)
  • judge検出器を報酬モデルとして使用してスコアリング
  • IF率が最も高い応答を最終出力として選択

3. Best-of-N Oracle

  • Best-of-Nと同様だが、決定論的なIFEval検証器をオラクル報酬モデルとして使用
  • モデルの書き直し能力の潜在的な上限を評価するために使用

4. Map Reduce

  • Map段階:違反した各指令に対して独立した書き直しタスクを作成
  • Reduce段階:独立して生成された書き直し応答を最終応答に統合

技術的な革新点

  1. 後生成最適化:「次善の応答を修正することは完璧な応答を直接生成するより容易である」という観察に基づく
  2. 複数戦略の設計:異なるコスト-性能トレードオフを提供する戦略の選択肢を提供
  3. ソフト矛盾の定量化:自己対戦方法を通じて指令間のソフト矛盾を経験的に識別

実験設定

SCALEDIFデータセットの構築

基礎データ

  • IFEvalデータセットの538サンプル(元の541個中)
  • 各サンプルは1つのクエリと10個の一意な指令を含む
  • 26個のクエリ非依存指令カテゴリ、8つのカテゴリグループに分類

指令カテゴリ

  1. change_case: 大文字小文字変換
  2. combination: 組み合わせ制約
  3. detectable_content: 検出可能なコンテンツ
  4. detectable_format: 検出可能な形式
  5. keywords: キーワード制約
  6. length_constraints: 長さ制約
  7. punctuation: 句読点
  8. startend: 開始終了制約

制約サンプリングアルゴリズム

Algorithm 1を使用して、指令パラメータのサンプリング時にハード矛盾を回避することを保証:

  • ペアワイズ制約実行:新しい指令を追加する際に既存指令との制約を計算
  • パラメータ検証:新しい指令パラメータがすべての既存制約を満たすことを確認
  • 矛盾回避:例えば、keywords:existenceとkeywords:forbidden_wordsのキーワードは互いに素である必要がある

評価指標

  • 指令追従率(IF Rate):モデルが従った指令数を総指令数で割った比率
  • タスク粘着性:応答が元のクエリに関連しているかどうか
  • 矛盾スコア:指令集合間のソフト矛盾の程度を定量化

実験モデル

  • Llama-3.3-70B-Instruct
  • Llama-3.1-8B-Instruct
  • Qwen2.5-72B-Instruct
  • Mixtral-8x7B-Instruct-v0.1
  • Mixtral-8x22B-Instruct-v0.1

実験結果

主要な結果

ベースラインパフォーマンス

  • 2つの指令:IF率は0.56(Mixtral-8x7B)から0.88(Llama-70B)
  • 10個の指令:IF率は0.39(Mixtral-8x7B)から0.66(Llama-70B)に低下
  • すべてのモデルは指令数の増加に伴うIF率低下の傾向を示す

増強効果

  • Best-of-N戦略が最良の性能
    • 2つの指令:最大7パーセントポイント向上(Mixtral-8x22B)
    • 10個の指令:最大4パーセントポイント向上(Llama-70B)
  • Best-of-N Oracleが潜在的な上限を示す
    • 2つの指令:89% IF率に達成可能(+2パーセントポイント)
    • 10個の指令:75% IF率に達成可能(+8.5パーセントポイント)

コスト効益分析

  • Detect+Repair:コストが最も低いが、効果は限定的
  • Best-of-N:コストと性能のバランスが良好
  • Map Reduce:コストが最も高く、性能向上は限定的
  • Best-of-N Gen:Best-of-Nより若干コストが低いが、書き直しサンプリングほど効果的ではない

矛盾分析の結果

ソフト矛盾スコア

サンプルsの矛盾スコアを計算する公式:

cs = Σ(i,j)∈p(s)×p(s),i≠j cij / |p(s)|

ここで、cijは指令iとjの間の矛盾カウント。

主要な発見

  1. 矛盾スコアと指令数の正の相関
    • 2つの指令:平均矛盾スコア0.24
    • 10個の指令:平均矛盾スコア2.03
  2. 矛盾スコアとIF率の負の相関
    • 10個の指令時の相関係数は-0.37
    • 指令数の増加に伴い、相関性は減弱
  3. 「困難な」サンプルはより高い矛盾スコアを持つ:IF率が低いサンプルは実際により高い矛盾スコアを持つ

タスク粘着性

  • 初期応答失敗率:最高4%(8個指令時22/538)
  • 増強後の追加失敗:最大1.3%(10個指令時7個の追加失敗)

関連研究

指令追従評価

  • IFEval: 検証可能な指令の決定論的チェックに焦点(1-3個の指令)
  • ComplexBench & FollowBench: 複雑な指令処理能力の評価
  • InFoBench: DRFR指標を導入した細粒度分析
  • RefuteBench: 対話における反論指令追従に焦点

テスト時介入方法

  • 自己修正: モデルに自身の出力を評価・改善するよう促す
  • 思考の連鎖プロンプティング: 複雑な問題を管理可能なステップに分解
  • 自己一貫性: 複数の応答をサンプリングして最も一貫した結果を選択

結論と考察

主要な結論

  1. 指令増強の有効性:様々なモデルで一貫して指令追従率を向上
  2. ソフト矛盾が重要な要因:指令間の矛盾は大規模指令追従の困難さの重要な原因
  3. 書き直しが再生成より優れている:既存応答の修正は最初から生成するより効果的
  4. 矛盾スコアの予測価値:開発者へのフィードバックツールとして機能可能

限界

  1. ペアワイズ矛盾の制限:現在の矛盾スコアはペアワイズ指令矛盾のみを考慮し、複数指令の複雑な相互作用をカバーしていない
  2. 検出器の精度:LLM-as-a-judge検出器の精度は73%のみで、増強効果を制限
  3. 計算コスト:増強戦略には追加の推論コストが必要
  4. タスク粘着性のリスク:増強プロセスは応答が元のクエリから逸脱する可能性がある

今後の方向性

  1. 多階矛盾モデリング:3つ以上の指令の複雑な矛盾分析に拡張
  2. より正確な検出器:指令追従検出の精度を向上させる方法の開発
  3. 適応的増強:矛盾スコアに基づいて増強戦略を動的に選択
  4. 訓練時最適化:指令追従能力をモデル訓練に統合

深層的評価

利点

  1. 問題定義の明確性:大規模指令追従の核心的な課題を正確に特定
  2. 方法論の革新性:体系的な後生成増強フレームワークを提案
  3. 実験設計の厳密性:高品質な大規模指令ベンチマークデータセットを構築
  4. 理論的貢献:ソフト矛盾の概念と定量化方法は理論的価値を持つ
  5. 実用性:複数のコスト効益トレードオフ戦略を提供

不足

  1. 矛盾モデリングの簡略化:ペアワイズ矛盾のみを考慮し、複雑な多指令相互作用を見落とす可能性
  2. 検出器への依存:方法の効果はLLM検出器の精度に制限される
  3. 評価範囲の限定:主にオープンソースモデルで検証され、クローズドソースモデルの評価が不足
  4. 長期的影響の不明確性:反復的な増強がモデル動作に与える長期的影響を分析していない

影響力

  1. 学術的貢献:指令追従研究に新しい評価ベンチマークと方法フレームワークを提供
  2. 実用的価値:LLMアプリケーション開発者に指令信頼性向上の実用的ツールを提供
  3. 再現性:詳細な方法説明とプロンプトテンプレートが結果の再現を支援
  4. 拡張可能性:方法フレームワークは他の言語生成タスクに拡張可能

適用シナリオ

  1. 複数制約生成タスク:形式、コンテンツ、スタイルの複数の制約を同時に満たす必要があるシナリオ
  2. 高信頼性アプリケーション:指令追従の精度が高く要求されるビジネスアプリケーション
  3. プロンプトエンジニアリング最適化:開発者が指令矛盾を特定・解決するのを支援
  4. モデル評価:LLM指令追従能力の標準化された評価ツール

参考文献

論文は指令追従評価、自己修正、思考の連鎖推論など関連分野の重要な研究を引用し、研究に堅実な理論的基礎を提供しています。主要な参考文献にはIFEvalベンチマーク、自己修正方法、および最新の指令追従評価研究が含まれます。