開発者は通常、プロンプトの設計を工夫することで大規模言語モデル(LLM)の動作に影響を与えます。例えば、指令を追加または修正することがあります。しかし、単に指令を追加するだけでは、それらが実際に従われることを保証できません。本論文は、指令増強(Instruction Boosting)を後生成方法として提案し、LLMのプロンプト指令の信頼性を向上させます。研究結果によると、指令増強は2つの指令で指令追従率を最大7パーセントポイント、10個の指令で最大4パーセントポイント向上させることができます。これらの結果を検証するため、著者らはSCALEDIFベンチマークを導入しました。これは各データサンプルあたり最大10個の指令を含みます。論文はまた、指令数の増加に伴う性能低下の一般的な傾向を分析し、この傾向の重要な要因は指令数増加時に生じる緊張と矛盾の程度であることを示しています。
クエリQ、指令集合I={I₁, I₂, ..., Iₙ}、およびLLMの初期応答Rが与えられたとき、指令増強の目標は、より多くの指令に従う修正応答R'を生成することです。
1. Detect+Repair
2. Best-of-N
3. Best-of-N Oracle
4. Map Reduce
Algorithm 1を使用して、指令パラメータのサンプリング時にハード矛盾を回避することを保証:
サンプルsの矛盾スコアを計算する公式:
cs = Σ(i,j)∈p(s)×p(s),i≠j cij / |p(s)|
ここで、cijは指令iとjの間の矛盾カウント。
論文は指令追従評価、自己修正、思考の連鎖推論など関連分野の重要な研究を引用し、研究に堅実な理論的基礎を提供しています。主要な参考文献にはIFEvalベンチマーク、自己修正方法、および最新の指令追従評価研究が含まれます。