2025-11-18T10:58:12.748063

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

Wu, Verma, Lee et al.
Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
academic

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

基本信息

  • 论文ID: 2510.13907
  • 标题: LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
  • 作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
  • 分类: cs.CL (Computational Linguistics), stat.ML (Machine Learning)
  • 发表时间: 2025年10月14日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13907

摘要

大语言模型(LLMs)对输入提示词高度敏感,使得提示词设计成为核心挑战。虽然自动提示词优化(APO)减少了人工工程,但大多数方法假设能够获得标注验证数据等真实标签。然而在实践中,收集高质量标签既昂贵又耗时。本文提出了提示词对决优化器(PDO),这是一个用于无标签提示词优化的样本高效框架。PDO将问题建模为对决赌博机设置,其中监督信号来自LLM裁判提供的成对偏好反馈。该框架结合了双Thompson采样(D-TS)和顶级表现者引导变异,前者优先考虑信息丰富的提示词比较,后者通过变异高性能提示词来扩展候选池。PDO天然适用于无标签设置,还可以结合部分标签来缓解裁判噪音。在BIG-bench Hard (BBH)和MS MARCO上的实验表明,PDO在各项任务上始终优于基线方法。

研究背景与动机

问题定义

大语言模型的性能很大程度上依赖于精心设计的提示词,但手工制作有效提示词通常需要大量的试错过程。现有的自动提示词优化(APO)方法虽然能够减少人工工程,但存在以下关键问题:

  1. 标签依赖性:大多数APO方法依赖于标注验证数据来评估候选提示词的性能
  2. 标注成本:在实际应用中,获取高质量标注数据既昂贵又耗时
  3. 部署延迟:在工业场景中,需要在大规模人工标注数据可用之前就部署合理的提示词

研究动机

论文的核心研究问题是:能否在没有真实标签参考的情况下优化提示词?

为解决这一问题,作者提出利用LLM作为裁判来评估提示词质量,通过成对比较而非独立评分来获得更可靠的监督信号。这种方法面临两个主要挑战:

  1. LLM裁判噪音:LLM判断存在不确定性、位置偏差和冗长偏差
  2. 二次复杂度:成对比较的数量随候选提示词数量呈二次增长

核心贡献

  1. 问题建模创新:首次将基于偏好的提示词优化建模为对决赌博机问题,使用LLM裁判的成对比较作为监督信号
  2. 算法框架设计:提出PDO框架,结合双Thompson采样(D-TS)进行高效提示词选择和顶级表现者引导变异进行搜索空间扩展
  3. 理论保证:提供了Copeland遗憾界限的理论分析,证明PDO渐近收敛到Copeland最优提示词
  4. 实验验证:在BBH和MS MARCO数据集上验证了PDO的有效性,并通过消融实验证明了各组件的贡献
  5. 灵活性:PDO可以在纯无标签设置下工作,也可以结合部分标签来减少裁判噪音

方法详解

任务定义

设X为输入空间,P = {p1, ..., pK}为有限的候选提示词集合。对于提示词pi, pj ∈ P和相同输入x,通过LLM裁判获得二元偏好:

Judgex(pi, pj) = {
    1, if fpi(x) ≻ fpj(x)
    0, otherwise
}

目标是在有限的比较预算下,识别Condorcet获胜者(如果存在)或Copeland获胜者。

模型架构

1. 双Thompson采样(D-TS)

D-TS扩展了Thompson采样到对决赌博机设置,每轮使用两个独立的Thompson抽样来选择信息丰富的对决:

每轮过程

  1. 第一个提示词选择:计算乐观Copeland分数,保留最高分数的提示词集合,通过Thompson采样选择候选者
  2. 第二个提示词选择:限制到不确定的对手集合,通过Thompson采样选择对决者
  3. 对决和更新:执行裁判比较并更新胜负统计

2. 顶级表现者引导变异

为了扩展搜索空间,PDO定期对表现最佳的提示词进行变异:

变异过程

  1. 选择:选择当前Copeland分数最高的提示词
  2. 变异:通过模板编辑、文本梯度引导或LLM辅助重写生成变体
  3. 扩展:将新变体加入候选池

技术创新点

  1. 理论基础:基于Lipschitz bandit理论,集中在顶级表现者附近的变异相当于在近似最优区域"放大"搜索
  2. 噪音处理:采用加权偏好矩阵更新,对基于推理的判断(相比基于答案的判断更嘈杂)进行降权
  3. 效率优化:通过缓存机制和自适应剪枝减少计算开销

实验设置

数据集

  1. BIG-bench Hard (BBH):选择16个多选推理任务,使用准确率作为评价指标
  2. MS MARCO:四个开放式QA任务类别(描述、实体、数值、位置),使用1-5分的LLM评分

评价指标

  • BBH任务:准确率
  • MS MARCO任务:LLM裁判给出的1-5分整数评分

对比方法

无标签基线

  • SPO (Self-Supervised Prompt Optimization)
  • CoT (Chain-of-Thought)
  • PoS (Plan-and-Solve)

有监督基线

  • APE (Automatic Prompt Engineer)
  • OPRO (Optimization by PROmpting)
  • Breeder (Prompt Evolution)

实现细节

  • BBH:20个初始候选提示词,30轮,每轮50次对决
  • MS MARCO:50个初始候选提示词,30轮,每轮50次对决
  • 使用Llama-3.3-70B-Instruct作为生成、裁判和评估模型
  • D-TS参数α = 1.2

实验结果

主要结果

BBH任务表现(无标签设置)

PDO在16个任务中的13个任务上取得最佳性能,显著提升包括:

  • Tracking-7:0.641 vs 0.543(+9.8个百分点)
  • Web of Lies:0.942 vs 0.861(+8.1个百分点)

MS MARCO任务表现

在所有4个任务上,PDO with D-TS始终优于RUCB和随机采样,并在几轮内超越SPO基线。

消融实验

  1. D-TS vs 其他采样策略:D-TS在样本效率上显著优于随机采样和RUCB
  2. 变异效果:顶级表现者引导变异在Web of Lies和Tracking-7任务上显著提升性能
  3. 成对偏好 vs 逐点评分:在8个模型-任务组合中的7个案例中,成对偏好优于逐点评分

LLM裁判分析

  1. 任务相关的噪音水平:不同任务的裁判可靠性差异显著,如Geometric任务存在较大判断误差
  2. 部分标签的作用:引入30%-50%的真实标签可显著减少判断噪音
  3. 模型规模影响:70B和8B模型作为裁判的整体表现相近

相关工作

APO方法演进

传统APO方法严重依赖监督信号,近期研究开始减少监督需求。SPO通过输出对比消除外部参考,但采用贪心爬山策略,缺乏原则性的探索-利用平衡。

赌博机在提示词优化中的应用

OPTS和TRIPLE将提示词策略选择建模为赌博机问题,但仍需标注验证集。APOHF连接偏好驱动的提示词优化与对决赌博机,但假设人工标注的成对偏好。

结论与讨论

主要结论

  1. PDO成功解决了无标签提示词优化问题,通过对决赌博机框架实现了样本高效的搜索
  2. D-TS在识别高质量提示词方面比随机采样和其他对决赌博机方法更快更可靠
  3. 顶级表现者引导变异有效地将搜索引导向更强的区域
  4. 成对偏好比逐点评分提供更稳定的监督信号

局限性

  1. 裁判依赖性:优化质量依赖于LLM裁判的能力和元提示词设计
  2. 风格偏好风险:算法可能偏向裁判喜欢的风格模式而非真实任务指标
  3. 计算资源限制:由于资源约束,未能在更多模型上进行广泛实验

未来方向

  1. 改进LLM裁判与任务目标的对齐
  2. 开发自适应调整机制以反映判断可靠性
  3. 探索更复杂的不确定性捕获机制

深度评价

优点

  1. 问题建模创新:将提示词优化建模为对决赌博机问题具有理论基础和实用价值
  2. 方法完整性:结合了高效选择策略和搜索空间扩展,形成完整的优化框架
  3. 实验充分:在多个数据集上进行了全面评估,包括消融实验和裁判分析
  4. 理论保证:提供了Copeland遗憾界限的理论分析

不足

  1. 裁判噪音处理:虽然分析了裁判噪音问题,但解决方案相对简单
  2. 扩展性:在大规模候选提示词集合上的表现未充分验证
  3. 任务泛化性:主要在推理和QA任务上验证,其他类型任务的适用性不明确

影响力

  1. 学术贡献:为无标签提示词优化提供了新的理论框架和实用方法
  2. 实用价值:在工业场景中具有直接应用价值,特别是在标注数据稀缺的情况下
  3. 可复现性:作者承诺开源代码,有利于方法的复现和进一步研究

适用场景

  1. 标注数据稀缺:新领域或新任务缺乏大量标注数据时
  2. 快速部署需求:需要在短时间内获得合理提示词的工业应用
  3. 成本敏感应用:标注成本高昂的场景
  4. 多任务优化:需要为多个相关任务同时优化提示词

参考文献

论文引用了多个重要的相关工作,包括:

  • Zhou et al. (2022) - APE方法
  • Yang et al. (2024) - OPRO方法
  • Fernando et al. (2023) - Breeder方法
  • Wu and Liu (2016) - 双Thompson采样理论
  • Zheng et al. (2023) - LLM作为裁判的相关研究

总体评价:这是一篇在提示词优化领域具有重要贡献的论文,通过创新的问题建模和理论框架,有效解决了无标签提示词优化这一实际需求。方法设计合理,实验验证充分,具有较强的理论基础和实用价值。