2025-11-18T10:58:12.748063

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

Wu, Verma, Lee et al.
Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
academic

Оптимизатор дуэльных подсказок LLM: эффективная оптимизация подсказок без меток

Основная информация

  • ID статьи: 2510.13907
  • Название: LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
  • Авторы: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
  • Классификация: cs.CL (Вычислительная лингвистика), stat.ML (Машинное обучение)
  • Дата публикации: 14 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.13907

Аннотация

Большие языковые модели (LLM) высокочувствительны к входным подсказкам, что делает проектирование подсказок критической задачей. Хотя автоматическая оптимизация подсказок (APO) снижает объем ручной работы, большинство методов предполагают наличие аннотированных данных валидации и других истинных меток. Однако на практике сбор высококачественных меток является дорогостоящим и трудоемким. В данной статье предлагается оптимизатор дуэльных подсказок (PDO) — эффективный по выборке фреймворк для оптимизации подсказок без меток. PDO моделирует задачу как параметр дуэльного многорукого бандита, где сигнал обучения поступает из парных предпочтений, предоставляемых судьей LLM. Фреймворк объединяет двойную выборку Томпсона (D-TS) и мутацию, направляемую лучшими исполнителями; первая приоритизирует информативные сравнения подсказок, вторая расширяет пул кандидатов путем мутации высокопроизводительных подсказок. PDO естественным образом применим к параметрам без меток и может также использоваться с частичными метками для смягчения шума судьи. Эксперименты на BIG-bench Hard (BBH) и MS MARCO демонстрируют, что PDO последовательно превосходит базовые методы по всем задачам.

Предпосылки и мотивация исследования

Определение проблемы

Производительность больших языковых моделей во многом зависит от тщательно разработанных подсказок, однако создание эффективных подсказок вручную обычно требует значительного процесса проб и ошибок. Существующие методы автоматической оптимизации подсказок (APO), хотя и снижают объем ручной работы, имеют следующие ключевые проблемы:

  1. Зависимость от меток: большинство методов APO зависят от аннотированных данных валидации для оценки производительности кандидатных подсказок
  2. Стоимость аннотирования: в практических приложениях получение высококачественных аннотированных данных является дорогостоящим и трудоемким
  3. Задержка развертывания: в промышленных сценариях необходимо развертывать разумные подсказки до того, как станут доступны крупномасштабные ручные аннотированные данные

Мотивация исследования

Центральный исследовательский вопрос статьи: можно ли оптимизировать подсказки без ссылки на истинные метки?

Для решения этой проблемы авторы предлагают использовать LLM в качестве судьи для оценки качества подсказок, получая более надежные сигналы обучения через парные сравнения, а не независимые оценки. Этот подход сталкивается с двумя основными вызовами:

  1. Шум судьи LLM: суждения LLM содержат неопределенность, смещение позиции и смещение многословия
  2. Квадратичная сложность: количество парных сравнений растет квадратично с количеством кандидатных подсказок

Основные вклады

  1. Инновация в моделировании задачи: впервые моделирует оптимизацию подсказок на основе предпочтений как задачу дуэльного многорукого бандита, используя парные сравнения судьи LLM в качестве сигнала обучения
  2. Разработка алгоритмического фреймворка: предлагает фреймворк PDO, объединяющий двойную выборку Томпсона (D-TS) для эффективного выбора подсказок и мутацию, направляемую лучшими исполнителями, для расширения пространства поиска
  3. Теоретические гарантии: предоставляет теоретический анализ границ сожаления Коплэнда, доказывая асимптотическую сходимость PDO к оптимальной подсказке Коплэнда
  4. Экспериментальная проверка: проверяет эффективность PDO на наборах данных BBH и MS MARCO с помощью абляционных экспериментов, демонстрирующих вклад каждого компонента
  5. Гибкость: PDO работает в чистых параметрах без меток и может также использоваться с частичными метками для снижения шума судьи

Подробное описание методологии

Определение задачи

Пусть X — пространство входов, P = {p₁, ..., pₖ} — конечное множество кандидатных подсказок. Для подсказок pᵢ, pⱼ ∈ P и одного и того же входа x получается бинарное предпочтение через судью LLM:

Judgex(pi, pj) = {
    1, если fpi(x) ≻ fpj(x)
    0, в противном случае
}

Цель состоит в том, чтобы в рамках ограниченного бюджета сравнений определить победителя Кондорсе (если он существует) или победителя Коплэнда.

Архитектура модели

1. Двойная выборка Томпсона (D-TS)

D-TS расширяет выборку Томпсона на параметр дуэльного многорукого бандита, используя два независимых образца Томпсона на каждом раунде для выбора информативных дуэлей:

Процесс каждого раунда:

  1. Выбор первой подсказки: вычисляет оптимистичные оценки Коплэнда, сохраняет набор подсказок с наивысшими оценками, выбирает кандидата через выборку Томпсона
  2. Выбор второй подсказки: ограничивает набор неопределенных противников, выбирает соперника через выборку Томпсона
  3. Дуэль и обновление: выполняет сравнение судьи и обновляет статистику побед-поражений

2. Мутация, направляемая лучшими исполнителями

Для расширения пространства поиска PDO периодически мутирует подсказки с наилучшей производительностью:

Процесс мутации:

  1. Выбор: выбирает подсказку с наивысшей оценкой Коплэнда на текущий момент
  2. Мутация: генерирует варианты через редактирование шаблонов, направляемое текстовыми градиентами или переписывание с помощью LLM
  3. Расширение: добавляет новые варианты в пул кандидатов

Технические инновации

  1. Теоретическая основа: основана на теории липшицевых бандитов, концентрируя мутацию вблизи лучших исполнителей, что эквивалентно "увеличению" поиска в приблизительно оптимальной области
  2. Обработка шума: использует взвешенное обновление матрицы предпочтений, снижая вес суждений на основе рассуждений (более шумных по сравнению с суждениями на основе ответов)
  3. Оптимизация эффективности: снижает вычислительные затраты через механизмы кэширования и адаптивную обрезку

Экспериментальная установка

Наборы данных

  1. BIG-bench Hard (BBH): выбирает 16 задач многовариантного рассуждения, использует точность в качестве метрики оценки
  2. MS MARCO: четыре категории задач открытого вопроса (описание, сущность, числовое значение, местоположение), использует оценку судьи LLM от 1 до 5

Метрики оценки

  • Задачи BBH: точность
  • Задачи MS MARCO: целочисленная оценка от 1 до 5, выданная судьей LLM

Методы сравнения

Базовые методы без меток:

  • SPO (Self-Supervised Prompt Optimization)
  • CoT (Chain-of-Thought)
  • PoS (Plan-and-Solve)

Контролируемые базовые методы:

  • APE (Automatic Prompt Engineer)
  • OPRO (Optimization by PROmpting)
  • Breeder (Prompt Evolution)

Детали реализации

  • BBH: 20 начальных кандидатных подсказок, 30 раундов, 50 дуэлей за раунд
  • MS MARCO: 50 начальных кандидатных подсказок, 30 раундов, 50 дуэлей за раунд
  • Использует Llama-3.3-70B-Instruct в качестве модели для генерации, судьи и оценки
  • Параметр D-TS α = 1,2

Результаты экспериментов

Основные результаты

Производительность на задачах BBH (параметр без меток)

PDO достигает лучшей производительности на 13 из 16 задач, значительные улучшения включают:

  • Tracking-7: 0,641 против 0,543 (+9,8 процентных пункта)
  • Web of Lies: 0,942 против 0,861 (+8,1 процентных пункта)

Производительность на задачах MS MARCO

На всех 4 задачах PDO с D-TS последовательно превосходит RUCB и случайную выборку, превосходя базовый уровень SPO в течение нескольких раундов.

Абляционные эксперименты

  1. D-TS против других стратегий выборки: D-TS значительно превосходит случайную выборку и RUCB по эффективности выборки
  2. Эффект мутации: мутация, направляемая лучшими исполнителями, значительно улучшает производительность на задачах Web of Lies и Tracking-7
  3. Парные предпочтения против поточечных оценок: в 7 из 8 комбинаций модель-задача парные предпочтения превосходят поточечные оценки

Анализ судьи LLM

  1. Уровни шума, зависящие от задачи: надежность судьи значительно варьируется между задачами, например, задача Geometric содержит значительные ошибки суждения
  2. Роль частичных меток: введение 30%-50% истинных меток может значительно снизить шум суждения
  3. Влияние размера модели: модели 70B и 8B в качестве судей показывают сходную общую производительность

Связанные работы

Эволюция методов APO

Традиционные методы APO сильно зависят от сигналов обучения, недавние исследования начинают снижать потребность в контроле. SPO устраняет внешние ссылки через контрастность выходов, но использует жадную стратегию восхождения на холм, лишенную принципиального баланса исследования-использования.

Применение бандитов в оптимизации подсказок

OPTS и TRIPLE моделируют выбор стратегии подсказок как задачу многорукого бандита, но все еще требуют аннотированного набора валидации. APOHF связывает оптимизацию подсказок, управляемую предпочтениями, с дуэльным многоруким бандитом, но предполагает ручные аннотированные парные предпочтения.

Заключение и обсуждение

Основные выводы

  1. PDO успешно решает задачу оптимизации подсказок без меток, достигая эффективного по выборке поиска через фреймворк дуэльного многорукого бандита
  2. D-TS быстрее и надежнее идентифицирует высококачественные подсказки по сравнению со случайной выборкой и другими методами дуэльного многорукого бандита
  3. Мутация, направляемая лучшими исполнителями, эффективно направляет поиск в более сильные области
  4. Парные предпочтения обеспечивают более стабильные сигналы обучения по сравнению с поточечными оценками

Ограничения

  1. Зависимость от судьи: качество оптимизации зависит от способности судьи LLM и разработки метаподсказки
  2. Риск смещения стиля: алгоритм может быть смещен в сторону стилистических паттернов, предпочитаемых судьей, а не истинных метрик задачи
  3. Ограничения вычислительных ресурсов: из-за ограничений ресурсов не удалось провести обширные эксперименты на большем количестве моделей

Будущие направления

  1. Улучшение выравнивания судьи LLM с целями задачи
  2. Разработка механизмов адаптивной настройки для отражения надежности суждения
  3. Исследование более сложных механизмов захвата неопределенности

Глубокая оценка

Преимущества

  1. Инновация в моделировании задачи: моделирование оптимизации подсказок как задачи дуэльного многорукого бандита имеет теоретическую основу и практическую ценность
  2. Полнота метода: объединение эффективной стратегии выбора и расширения пространства поиска формирует полный фреймворк оптимизации
  3. Полнота экспериментов: комплексная оценка на нескольких наборах данных, включая абляционные эксперименты и анализ судьи
  4. Теоретические гарантии: предоставляет теоретический анализ границ сожаления Коплэнда

Недостатки

  1. Обработка шума судьи: хотя проблема шума судьи анализируется, решение относительно простое
  2. Масштабируемость: производительность на крупномасштабных наборах кандидатных подсказок не полностью проверена
  3. Обобщение на задачи: в основном проверено на задачах рассуждения и вопросно-ответных систем, применимость к другим типам задач неясна

Влияние

  1. Академический вклад: предоставляет новый теоретический фреймворк и практический метод для оптимизации подсказок без меток
  2. Практическая ценность: имеет прямое применение в промышленных сценариях, особенно когда аннотированные данные редки
  3. Воспроизводимость: авторы обещают открыть исходный код, что способствует воспроизведению метода и дальнейшим исследованиям

Применимые сценарии

  1. Дефицит аннотированных данных: новые области или задачи с недостатком больших объемов аннотированных данных
  2. Требования быстрого развертывания: промышленные приложения, требующие получения разумных подсказок за короткое время
  3. Приложения, чувствительные к затратам: сценарии с высокой стоимостью аннотирования
  4. Оптимизация нескольких задач: необходимость одновременной оптимизации подсказок для нескольких связанных задач

Библиография

Статья цитирует несколько важных связанных работ, включая:

  • Zhou et al. (2022) — метод APE
  • Yang et al. (2024) — метод OPRO
  • Fernando et al. (2023) — метод Breeder
  • Wu and Liu (2016) — теория двойной выборки Томпсона
  • Zheng et al. (2023) — связанные исследования LLM в качестве судьи

Общая оценка: это статья с важным вкладом в область оптимизации подсказок, которая эффективно решает практическую задачу оптимизации подсказок без меток через инновационное моделирование задачи и теоретический фреймворк. Разработка метода обоснована, экспериментальная проверка полна, и работа имеет сильную теоретическую основу и практическую ценность.