2025-11-18T10:58:12.748063

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

Wu, Verma, Lee et al.
Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
academic

LLM プロンプト決闘最適化器:効率的なラベルフリープロンプト最適化

基本情報

  • 論文ID: 2510.13907
  • タイトル: LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
  • 著者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
  • 分類: cs.CL(計算言語学)、stat.ML(機械学習)
  • 発表日: 2025年10月14日(arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.13907

要約

大規模言語モデル(LLM)は入力プロンプトに対して高度に敏感であり、プロンプト設計が中核的な課題となっています。自動プロンプト最適化(APO)は人的エンジニアリングを削減しますが、ほとんどの方法は注釈付き検証データなどの真のラベルへのアクセスを前提としています。しかし実際には、高品質なラベルの収集は費用がかかり、時間がかかります。本論文では、ラベルフリープロンプト最適化のためのサンプル効率的なフレームワークであるプロンプト決闘最適化器(PDO)を提案します。PDOは決闘バンディット設定として問題をモデル化し、監督信号はLLM審判から提供されるペアワイズ選好フィードバックから得られます。このフレームワークは、双Thompson抽出法(D-TS)と上位パフォーマー誘導変異を組み合わせています。前者は情報豊富なプロンプト比較を優先し、後者は高性能プロンプトの変異を通じて候補プールを拡張します。PDOはラベルフリー設定に自然に適用でき、審判ノイズを軽減するために部分的なラベルと組み合わせることもできます。BIG-bench Hard(BBH)とMS MARCOでの実験により、PDOが様々なタスクで一貫してベースライン手法を上回ることが示されています。

研究背景と動機

問題定義

大規模言語モデルのパフォーマンスは、慎重に設計されたプロンプトに大きく依存していますが、効果的なプロンプトの手作業による作成には通常、多くの試行錯誤が必要です。既存の自動プロンプト最適化(APO)手法は人的エンジニアリングを削減できますが、以下の重要な問題が存在します:

  1. ラベル依存性:ほとんどのAPO手法は、候補プロンプトのパフォーマンスを評価するために注釈付き検証データに依存しています
  2. 注釈付けコスト:実際のアプリケーションでは、高品質な注釈付きデータの取得は費用がかかり、時間がかかります
  3. デプロイメント遅延:産業シナリオでは、大規模な人的注釈付けデータが利用可能になる前に、合理的なプロンプトをデプロイする必要があります

研究動機

論文の中核的な研究問題は:真のラベル参照なしでプロンプトを最適化できるか?

この問題を解決するために、著者はLLMを審判として利用してプロンプト品質を評価し、独立したスコアリングではなくペアワイズ比較を通じてより信頼性の高い監督信号を取得することを提案しています。このアプローチは2つの主要な課題に直面しています:

  1. LLM審判ノイズ:LLM判定には不確実性、位置バイアス、冗長性バイアスが存在します
  2. 二次複雑性:ペアワイズ比較の数は候補プロンプト数に対して二次的に増加します

中核的貢献

  1. 問題モデリングの革新:選好ベースのプロンプト最適化を決闘バンディット問題としてモデル化し、LLM審判のペアワイズ比較を監督信号として使用する最初の試み
  2. アルゴリズムフレームワーク設計:効率的なプロンプト選択のための双Thompson抽出法(D-TS)と検索空間拡張のための上位パフォーマー誘導変異を組み合わせたPDOフレームワークを提案
  3. 理論的保証:Copeland後悔界限の理論分析を提供し、PDOがCopeland最適プロンプトに漸近的に収束することを証明
  4. 実験検証:BBHおよびMS MARCOデータセットでPDOの有効性を検証し、アブレーション実験を通じて各コンポーネントの貢献を実証
  5. 柔軟性:PDOは純粋なラベルフリー設定で動作でき、審判ノイズを軽減するために部分的なラベルと組み合わせることもできます

方法の詳細

タスク定義

Xを入力空間、P = {p1, ..., pK}を有限の候補プロンプト集合とします。プロンプトpi, pj ∈ Pと同じ入力xに対して、LLM審判から二値選好を取得します:

Judgex(pi, pj) = {
    1, if fpi(x) ≻ fpj(x)
    0, otherwise
}

目標は限定的な比較予算内で、Condorcet勝者(存在する場合)またはCopeland勝者を特定することです。

モデルアーキテクチャ

1. 双Thompson抽出法(D-TS)

D-TSはThompson抽出法を決闘バンディット設定に拡張し、各ラウンドで2つの独立したThompson抽出を使用して情報豊富な決闘を選択します:

各ラウンドのプロセス

  1. 最初のプロンプト選択:楽観的なCopeland スコアを計算し、最高スコアのプロンプト集合を保持し、Thompson抽出を通じて候補者を選択します
  2. 2番目のプロンプト選択:不確実な対戦相手集合に制限し、Thompson抽出を通じて対戦者を選択します
  3. 決闘と更新:審判比較を実行し、勝敗統計を更新します

2. 上位パフォーマー誘導変異

検索空間を拡張するために、PDOは定期的に最高パフォーマンスのプロンプトを変異させます:

変異プロセス

  1. 選択:現在のCopeland スコアが最も高いプロンプトを選択します
  2. 変異:テンプレート編集、テキスト勾配誘導、またはLLM支援の書き直しを通じてバリアントを生成します
  3. 拡張:新しいバリアントを候補プールに追加します

技術的革新点

  1. 理論的基礎:Lipschitz bandit理論に基づき、上位パフォーマー付近の変異は近似最適領域での検索の「ズームイン」に相当します
  2. ノイズ処理:加重選好行列更新を採用し、推論ベースの判定(回答ベースの判定よりもノイズが多い)に対して低い重みを付けます
  3. 効率最適化:キャッシング機構と適応的なプルーニングを通じて計算オーバーヘッドを削減します

実験設定

データセット

  1. BIG-bench Hard(BBH):16個の多肢選択推論タスクを選択し、精度を評価指標として使用
  2. MS MARCO:4つのオープンエンド質問応答タスクカテゴリ(説明、エンティティ、数値、位置)を使用し、1~5点のLLM評価を使用

評価指標

  • BBHタスク:精度
  • MS MARCOタスク:LLM審判による1~5点の整数評価

比較手法

ラベルフリーベースライン

  • SPO(自己教師あり プロンプト最適化)
  • CoT(思考の連鎖)
  • PoS(計画と解決)

教師あり ベースライン

  • APE(自動プロンプトエンジニア)
  • OPRO(プロンプティングによる最適化)
  • Breeder(プロンプト進化)

実装詳細

  • BBH:20個の初期候補プロンプト、30ラウンド、各ラウンド50回の決闘
  • MS MARCO:50個の初期候補プロンプト、30ラウンド、各ラウンド50回の決闘
  • Llama-3.3-70B-Instructを生成、審判、評価モデルとして使用
  • D-TSパラメータ α = 1.2

実験結果

主要結果

BBHタスクパフォーマンス(ラベルフリー設定)

PDOは16個のタスク中13個で最高のパフォーマンスを達成し、顕著な改善には以下が含まれます:

  • Tracking-7:0.641 vs 0.543(+9.8ポイント)
  • Web of Lies:0.942 vs 0.861(+8.1ポイント)

MS MARCOタスクパフォーマンス

すべての4つのタスクで、D-TSを備えたPDOは一貫してRUCBとランダムサンプリングを上回り、数ラウンド内でSPOベースラインを上回ります。

アブレーション実験

  1. D-TS vs その他のサンプリング戦略:D-TSはサンプル効率においてランダムサンプリングとRUCBを大幅に上回ります
  2. 変異効果:上位パフォーマー誘導変異は、Web of LiesおよびTracking-7タスクで顕著なパフォーマンス向上をもたらします
  3. ペアワイズ選好 vs ポイントワイズ評価:8つのモデル-タスク組み合わせ中7つの場合において、ペアワイズ選好がポイントワイズ評価を上回ります

LLM審判分析

  1. タスク関連のノイズレベル:異なるタスク間の審判信頼性に大きな差異があり、例えばGeometricタスクではより大きな判定誤差が存在します
  2. 部分的なラベルの役割:真のラベルの30~50%を導入することで、判定ノイズを大幅に削減できます
  3. モデルサイズの影響:70Bおよび8Bモデルを審判として使用した場合の全体的なパフォーマンスは同等です

関連研究

APO手法の進化

従来のAPO手法は監督信号に大きく依存していますが、最近の研究では監督の必要性を減らし始めています。SPOは出力対比を通じて外部参照を排除しますが、貪欲な登山戦略を採用しており、原則的な探索-利用のバランスが欠けています。

プロンプト最適化におけるバンディットの応用

OPTSおよびTRIPLEはプロンプト戦略選択をバンディット問題としてモデル化しますが、依然として注釈付き検証セットが必要です。APOHFは選好駆動型プロンプト最適化を決闘バンディットと結びつけますが、人的注釈付きペアワイズ選好を前提としています。

結論と考察

主要な結論

  1. PDOはラベルフリープロンプト最適化問題を成功裏に解決し、決闘バンディットフレームワークを通じてサンプル効率的な検索を実現しました
  2. D-TSは高品質プロンプトの特定においてランダムサンプリングおよび他の決闘バンディット手法よりも高速で信頼性があります
  3. 上位パフォーマー誘導変異は検索をより強力な領域に効果的に導きます
  4. ペアワイズ選好はポイントワイズ評価よりも安定した監督信号を提供します

制限事項

  1. 審判依存性:最適化品質はLLM審判の能力とメタプロンプト設計に依存しています
  2. スタイル選好リスク:アルゴリズムは真のタスク指標ではなく審判が好むスタイルパターンに偏る可能性があります
  3. 計算リソース制限:リソース制約により、より多くのモデルでの広範な実験が実施されていません

将来の方向性

  1. LLM審判とタスク目標の整合性を改善する
  2. 判定信頼性を反映するための適応的調整メカニズムを開発する
  3. より複雑な不確実性キャプチャメカニズムを探索する

深い評価

利点

  1. 問題モデリングの革新:プロンプト最適化を決闘バンディット問題としてモデル化することは理論的基礎と実用的価値を持ちます
  2. 方法の完全性:効率的な選択戦略と検索空間拡張を組み合わせ、完全な最適化フレームワークを形成します
  3. 十分な実験:複数のデータセットでの包括的な評価、アブレーション実験、審判分析を含みます
  4. 理論的保証:Copeland後悔界限の理論分析を提供します

不足点

  1. 審判ノイズ処理:審判ノイズ問題を分析していますが、解決策は比較的単純です
  2. スケーラビリティ:大規模な候補プロンプト集合でのパフォーマンスは十分に検証されていません
  3. タスク汎化性:主に推論とQAタスクで検証されており、他のタイプのタスクへの適用可能性は不明確です

影響力

  1. 学術的貢献:ラベルフリープロンプト最適化のための新しい理論フレームワークと実用的な手法を提供します
  2. 実用的価値:産業シナリオ、特に注釈付きデータが稀な場合に直接的な応用価値があります
  3. 再現性:著者はコードのオープンソース化を約束しており、手法の再現と今後の研究に有利です

適用シナリオ

  1. 注釈付きデータが稀な場合:新しい領域または新しいタスクで大量の注釈付きデータが不足している場合
  2. 迅速なデプロイメント需要:短時間で合理的なプロンプトを取得する必要がある産業アプリケーション
  3. コスト敏感なアプリケーション:注釈付けコストが高い場合
  4. マルチタスク最適化:複数の関連タスクに対して同時にプロンプトを最適化する必要がある場合

参考文献

論文は以下を含む複数の重要な関連研究を引用しています:

  • Zhou et al.(2022)- APE手法
  • Yang et al.(2024)- OPRO手法
  • Fernando et al.(2023)- Breeder手法
  • Wu and Liu(2016)- 双Thompson抽出法理論
  • Zheng et al.(2023)- LLMを審判として使用する関連研究

総合評価:これはプロンプト最適化分野における重要な貢献を持つ論文です。革新的な問題モデリングと理論的フレームワークを通じて、ラベルフリープロンプト最適化という実際のニーズを効果的に解決しています。方法設計は合理的で、実験検証は十分であり、強力な理論的基礎と実用的価値を持っています。