Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
academic
Оптимизатор дуэльных подсказок LLM: эффективная оптимизация подсказок без меток
Большие языковые модели (LLM) высокочувствительны к входным подсказкам, что делает проектирование подсказок критической задачей. Хотя автоматическая оптимизация подсказок (APO) снижает объем ручной работы, большинство методов предполагают наличие аннотированных данных валидации и других истинных меток. Однако на практике сбор высококачественных меток является дорогостоящим и трудоемким. В данной статье предлагается оптимизатор дуэльных подсказок (PDO) — эффективный по выборке фреймворк для оптимизации подсказок без меток. PDO моделирует задачу как параметр дуэльного многорукого бандита, где сигнал обучения поступает из парных предпочтений, предоставляемых судьей LLM. Фреймворк объединяет двойную выборку Томпсона (D-TS) и мутацию, направляемую лучшими исполнителями; первая приоритизирует информативные сравнения подсказок, вторая расширяет пул кандидатов путем мутации высокопроизводительных подсказок. PDO естественным образом применим к параметрам без меток и может также использоваться с частичными метками для смягчения шума судьи. Эксперименты на BIG-bench Hard (BBH) и MS MARCO демонстрируют, что PDO последовательно превосходит базовые методы по всем задачам.
Производительность больших языковых моделей во многом зависит от тщательно разработанных подсказок, однако создание эффективных подсказок вручную обычно требует значительного процесса проб и ошибок. Существующие методы автоматической оптимизации подсказок (APO), хотя и снижают объем ручной работы, имеют следующие ключевые проблемы:
Зависимость от меток: большинство методов APO зависят от аннотированных данных валидации для оценки производительности кандидатных подсказок
Стоимость аннотирования: в практических приложениях получение высококачественных аннотированных данных является дорогостоящим и трудоемким
Задержка развертывания: в промышленных сценариях необходимо развертывать разумные подсказки до того, как станут доступны крупномасштабные ручные аннотированные данные
Центральный исследовательский вопрос статьи: можно ли оптимизировать подсказки без ссылки на истинные метки?
Для решения этой проблемы авторы предлагают использовать LLM в качестве судьи для оценки качества подсказок, получая более надежные сигналы обучения через парные сравнения, а не независимые оценки. Этот подход сталкивается с двумя основными вызовами:
Шум судьи LLM: суждения LLM содержат неопределенность, смещение позиции и смещение многословия
Квадратичная сложность: количество парных сравнений растет квадратично с количеством кандидатных подсказок
Инновация в моделировании задачи: впервые моделирует оптимизацию подсказок на основе предпочтений как задачу дуэльного многорукого бандита, используя парные сравнения судьи LLM в качестве сигнала обучения
Разработка алгоритмического фреймворка: предлагает фреймворк PDO, объединяющий двойную выборку Томпсона (D-TS) для эффективного выбора подсказок и мутацию, направляемую лучшими исполнителями, для расширения пространства поиска
Теоретические гарантии: предоставляет теоретический анализ границ сожаления Коплэнда, доказывая асимптотическую сходимость PDO к оптимальной подсказке Коплэнда
Экспериментальная проверка: проверяет эффективность PDO на наборах данных BBH и MS MARCO с помощью абляционных экспериментов, демонстрирующих вклад каждого компонента
Гибкость: PDO работает в чистых параметрах без меток и может также использоваться с частичными метками для снижения шума судьи
Пусть X — пространство входов, P = {p₁, ..., pₖ} — конечное множество кандидатных подсказок. Для подсказок pᵢ, pⱼ ∈ P и одного и того же входа x получается бинарное предпочтение через судью LLM:
Judgex(pi, pj) = {
1, если fpi(x) ≻ fpj(x)
0, в противном случае
}
Цель состоит в том, чтобы в рамках ограниченного бюджета сравнений определить победителя Кондорсе (если он существует) или победителя Коплэнда.
D-TS расширяет выборку Томпсона на параметр дуэльного многорукого бандита, используя два независимых образца Томпсона на каждом раунде для выбора информативных дуэлей:
Процесс каждого раунда:
Выбор первой подсказки: вычисляет оптимистичные оценки Коплэнда, сохраняет набор подсказок с наивысшими оценками, выбирает кандидата через выборку Томпсона
Выбор второй подсказки: ограничивает набор неопределенных противников, выбирает соперника через выборку Томпсона
Дуэль и обновление: выполняет сравнение судьи и обновляет статистику побед-поражений
Теоретическая основа: основана на теории липшицевых бандитов, концентрируя мутацию вблизи лучших исполнителей, что эквивалентно "увеличению" поиска в приблизительно оптимальной области
Обработка шума: использует взвешенное обновление матрицы предпочтений, снижая вес суждений на основе рассуждений (более шумных по сравнению с суждениями на основе ответов)
Оптимизация эффективности: снижает вычислительные затраты через механизмы кэширования и адаптивную обрезку
Уровни шума, зависящие от задачи: надежность судьи значительно варьируется между задачами, например, задача Geometric содержит значительные ошибки суждения
Роль частичных меток: введение 30%-50% истинных меток может значительно снизить шум суждения
Влияние размера модели: модели 70B и 8B в качестве судей показывают сходную общую производительность
Традиционные методы APO сильно зависят от сигналов обучения, недавние исследования начинают снижать потребность в контроле. SPO устраняет внешние ссылки через контрастность выходов, но использует жадную стратегию восхождения на холм, лишенную принципиального баланса исследования-использования.
OPTS и TRIPLE моделируют выбор стратегии подсказок как задачу многорукого бандита, но все еще требуют аннотированного набора валидации. APOHF связывает оптимизацию подсказок, управляемую предпочтениями, с дуэльным многоруким бандитом, но предполагает ручные аннотированные парные предпочтения.
PDO успешно решает задачу оптимизации подсказок без меток, достигая эффективного по выборке поиска через фреймворк дуэльного многорукого бандита
D-TS быстрее и надежнее идентифицирует высококачественные подсказки по сравнению со случайной выборкой и другими методами дуэльного многорукого бандита
Мутация, направляемая лучшими исполнителями, эффективно направляет поиск в более сильные области
Парные предпочтения обеспечивают более стабильные сигналы обучения по сравнению с поточечными оценками
Инновация в моделировании задачи: моделирование оптимизации подсказок как задачи дуэльного многорукого бандита имеет теоретическую основу и практическую ценность
Полнота метода: объединение эффективной стратегии выбора и расширения пространства поиска формирует полный фреймворк оптимизации
Полнота экспериментов: комплексная оценка на нескольких наборах данных, включая абляционные эксперименты и анализ судьи
Теоретические гарантии: предоставляет теоретический анализ границ сожаления Коплэнда
Статья цитирует несколько важных связанных работ, включая:
Zhou et al. (2022) — метод APE
Yang et al. (2024) — метод OPRO
Fernando et al. (2023) — метод Breeder
Wu and Liu (2016) — теория двойной выборки Томпсона
Zheng et al. (2023) — связанные исследования LLM в качестве судьи
Общая оценка: это статья с важным вкладом в область оптимизации подсказок, которая эффективно решает практическую задачу оптимизации подсказок без меток через инновационное моделирование задачи и теоретический фреймворк. Разработка метода обоснована, экспериментальная проверка полна, и работа имеет сильную теоретическую основу и практическую ценность.