Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
論文ID : 2510.13907タイトル : LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization著者 : Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill分類 : cs.CL(計算言語学)、stat.ML(機械学習)発表日 : 2025年10月14日(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.13907 大規模言語モデル(LLM)は入力プロンプトに対して高度に敏感であり、プロンプト設計が中核的な課題となっています。自動プロンプト最適化(APO)は人的エンジニアリングを削減しますが、ほとんどの方法は注釈付き検証データなどの真のラベルへのアクセスを前提としています。しかし実際には、高品質なラベルの収集は費用がかかり、時間がかかります。本論文では、ラベルフリープロンプト最適化のためのサンプル効率的なフレームワークであるプロンプト決闘最適化器(PDO)を提案します。PDOは決闘バンディット設定として問題をモデル化し、監督信号はLLM審判から提供されるペアワイズ選好フィードバックから得られます。このフレームワークは、双Thompson抽出法(D-TS)と上位パフォーマー誘導変異を組み合わせています。前者は情報豊富なプロンプト比較を優先し、後者は高性能プロンプトの変異を通じて候補プールを拡張します。PDOはラベルフリー設定に自然に適用でき、審判ノイズを軽減するために部分的なラベルと組み合わせることもできます。BIG-bench Hard(BBH)とMS MARCOでの実験により、PDOが様々なタスクで一貫してベースライン手法を上回ることが示されています。
大規模言語モデルのパフォーマンスは、慎重に設計されたプロンプトに大きく依存していますが、効果的なプロンプトの手作業による作成には通常、多くの試行錯誤が必要です。既存の自動プロンプト最適化(APO)手法は人的エンジニアリングを削減できますが、以下の重要な問題が存在します:
ラベル依存性 :ほとんどのAPO手法は、候補プロンプトのパフォーマンスを評価するために注釈付き検証データに依存しています注釈付けコスト :実際のアプリケーションでは、高品質な注釈付きデータの取得は費用がかかり、時間がかかりますデプロイメント遅延 :産業シナリオでは、大規模な人的注釈付けデータが利用可能になる前に、合理的なプロンプトをデプロイする必要があります論文の中核的な研究問題は:真のラベル参照なしでプロンプトを最適化できるか?
この問題を解決するために、著者はLLMを審判として利用してプロンプト品質を評価し、独立したスコアリングではなくペアワイズ比較を通じてより信頼性の高い監督信号を取得することを提案しています。このアプローチは2つの主要な課題に直面しています:
LLM審判ノイズ :LLM判定には不確実性、位置バイアス、冗長性バイアスが存在します二次複雑性 :ペアワイズ比較の数は候補プロンプト数に対して二次的に増加します問題モデリングの革新 :選好ベースのプロンプト最適化を決闘バンディット問題としてモデル化し、LLM審判のペアワイズ比較を監督信号として使用する最初の試みアルゴリズムフレームワーク設計 :効率的なプロンプト選択のための双Thompson抽出法(D-TS)と検索空間拡張のための上位パフォーマー誘導変異を組み合わせたPDOフレームワークを提案理論的保証 :Copeland後悔界限の理論分析を提供し、PDOがCopeland最適プロンプトに漸近的に収束することを証明実験検証 :BBHおよびMS MARCOデータセットでPDOの有効性を検証し、アブレーション実験を通じて各コンポーネントの貢献を実証柔軟性 :PDOは純粋なラベルフリー設定で動作でき、審判ノイズを軽減するために部分的なラベルと組み合わせることもできますXを入力空間、P = {p1, ..., pK}を有限の候補プロンプト集合とします。プロンプトpi, pj ∈ Pと同じ入力xに対して、LLM審判から二値選好を取得します:
Judgex(pi, pj) = {
1, if fpi(x) ≻ fpj(x)
0, otherwise
}
目標は限定的な比較予算内で、Condorcet勝者(存在する場合)またはCopeland勝者を特定することです。
D-TSはThompson抽出法を決闘バンディット設定に拡張し、各ラウンドで2つの独立したThompson抽出を使用して情報豊富な決闘を選択します:
各ラウンドのプロセス :
最初のプロンプト選択 :楽観的なCopeland スコアを計算し、最高スコアのプロンプト集合を保持し、Thompson抽出を通じて候補者を選択します2番目のプロンプト選択 :不確実な対戦相手集合に制限し、Thompson抽出を通じて対戦者を選択します決闘と更新 :審判比較を実行し、勝敗統計を更新します検索空間を拡張するために、PDOは定期的に最高パフォーマンスのプロンプトを変異させます:
変異プロセス :
選択 :現在のCopeland スコアが最も高いプロンプトを選択します変異 :テンプレート編集、テキスト勾配誘導、またはLLM支援の書き直しを通じてバリアントを生成します拡張 :新しいバリアントを候補プールに追加します理論的基礎 :Lipschitz bandit理論に基づき、上位パフォーマー付近の変異は近似最適領域での検索の「ズームイン」に相当しますノイズ処理 :加重選好行列更新を採用し、推論ベースの判定(回答ベースの判定よりもノイズが多い)に対して低い重みを付けます効率最適化 :キャッシング機構と適応的なプルーニングを通じて計算オーバーヘッドを削減しますBIG-bench Hard(BBH) :16個の多肢選択推論タスクを選択し、精度を評価指標として使用MS MARCO :4つのオープンエンド質問応答タスクカテゴリ(説明、エンティティ、数値、位置)を使用し、1~5点のLLM評価を使用BBHタスク:精度 MS MARCOタスク:LLM審判による1~5点の整数評価 ラベルフリーベースライン :
SPO(自己教師あり プロンプト最適化) CoT(思考の連鎖) PoS(計画と解決) 教師あり ベースライン :
APE(自動プロンプトエンジニア) OPRO(プロンプティングによる最適化) Breeder(プロンプト進化) BBH:20個の初期候補プロンプト、30ラウンド、各ラウンド50回の決闘 MS MARCO:50個の初期候補プロンプト、30ラウンド、各ラウンド50回の決闘 Llama-3.3-70B-Instructを生成、審判、評価モデルとして使用 D-TSパラメータ α = 1.2 PDOは16個のタスク中13個で最高のパフォーマンスを達成し、顕著な改善には以下が含まれます:
Tracking-7:0.641 vs 0.543(+9.8ポイント) Web of Lies:0.942 vs 0.861(+8.1ポイント) すべての4つのタスクで、D-TSを備えたPDOは一貫してRUCBとランダムサンプリングを上回り、数ラウンド内でSPOベースラインを上回ります。
D-TS vs その他のサンプリング戦略 :D-TSはサンプル効率においてランダムサンプリングとRUCBを大幅に上回ります変異効果 :上位パフォーマー誘導変異は、Web of LiesおよびTracking-7タスクで顕著なパフォーマンス向上をもたらしますペアワイズ選好 vs ポイントワイズ評価 :8つのモデル-タスク組み合わせ中7つの場合において、ペアワイズ選好がポイントワイズ評価を上回りますタスク関連のノイズレベル :異なるタスク間の審判信頼性に大きな差異があり、例えばGeometricタスクではより大きな判定誤差が存在します部分的なラベルの役割 :真のラベルの30~50%を導入することで、判定ノイズを大幅に削減できますモデルサイズの影響 :70Bおよび8Bモデルを審判として使用した場合の全体的なパフォーマンスは同等です従来のAPO手法は監督信号に大きく依存していますが、最近の研究では監督の必要性を減らし始めています。SPOは出力対比を通じて外部参照を排除しますが、貪欲な登山戦略を採用しており、原則的な探索-利用のバランスが欠けています。
OPTSおよびTRIPLEはプロンプト戦略選択をバンディット問題としてモデル化しますが、依然として注釈付き検証セットが必要です。APOHFは選好駆動型プロンプト最適化を決闘バンディットと結びつけますが、人的注釈付きペアワイズ選好を前提としています。
PDOはラベルフリープロンプト最適化問題を成功裏に解決し、決闘バンディットフレームワークを通じてサンプル効率的な検索を実現しました D-TSは高品質プロンプトの特定においてランダムサンプリングおよび他の決闘バンディット手法よりも高速で信頼性があります 上位パフォーマー誘導変異は検索をより強力な領域に効果的に導きます ペアワイズ選好はポイントワイズ評価よりも安定した監督信号を提供します 審判依存性 :最適化品質はLLM審判の能力とメタプロンプト設計に依存していますスタイル選好リスク :アルゴリズムは真のタスク指標ではなく審判が好むスタイルパターンに偏る可能性があります計算リソース制限 :リソース制約により、より多くのモデルでの広範な実験が実施されていませんLLM審判とタスク目標の整合性を改善する 判定信頼性を反映するための適応的調整メカニズムを開発する より複雑な不確実性キャプチャメカニズムを探索する 問題モデリングの革新 :プロンプト最適化を決闘バンディット問題としてモデル化することは理論的基礎と実用的価値を持ちます方法の完全性 :効率的な選択戦略と検索空間拡張を組み合わせ、完全な最適化フレームワークを形成します十分な実験 :複数のデータセットでの包括的な評価、アブレーション実験、審判分析を含みます理論的保証 :Copeland後悔界限の理論分析を提供します審判ノイズ処理 :審判ノイズ問題を分析していますが、解決策は比較的単純ですスケーラビリティ :大規模な候補プロンプト集合でのパフォーマンスは十分に検証されていませんタスク汎化性 :主に推論とQAタスクで検証されており、他のタイプのタスクへの適用可能性は不明確です学術的貢献 :ラベルフリープロンプト最適化のための新しい理論フレームワークと実用的な手法を提供します実用的価値 :産業シナリオ、特に注釈付きデータが稀な場合に直接的な応用価値があります再現性 :著者はコードのオープンソース化を約束しており、手法の再現と今後の研究に有利です注釈付きデータが稀な場合 :新しい領域または新しいタスクで大量の注釈付きデータが不足している場合迅速なデプロイメント需要 :短時間で合理的なプロンプトを取得する必要がある産業アプリケーションコスト敏感なアプリケーション :注釈付けコストが高い場合マルチタスク最適化 :複数の関連タスクに対して同時にプロンプトを最適化する必要がある場合論文は以下を含む複数の重要な関連研究を引用しています:
Zhou et al.(2022)- APE手法 Yang et al.(2024)- OPRO手法 Fernando et al.(2023)- Breeder手法 Wu and Liu(2016)- 双Thompson抽出法理論 Zheng et al.(2023)- LLMを審判として使用する関連研究 総合評価 :これはプロンプト最適化分野における重要な貢献を持つ論文です。革新的な問題モデリングと理論的フレームワークを通じて、ラベルフリープロンプト最適化という実際のニーズを効果的に解決しています。方法設計は合理的で、実験検証は十分であり、強力な理論的基礎と実用的価値を持っています。