2025-11-18T10:58:12.748063

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

Wu, Verma, Lee et al.
Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
academic

Optimizador de Duelo de Indicaciones de LLM: Optimización de Indicaciones Eficiente sin Etiquetas

Información Básica

  • ID del Artículo: 2510.13907
  • Título: LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
  • Autores: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
  • Clasificación: cs.CL (Lingüística Computacional), stat.ML (Aprendizaje Automático)
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13907

Resumen

Los modelos de lenguaje grande (LLMs) son altamente sensibles a las indicaciones de entrada, lo que hace que el diseño de indicaciones sea un desafío fundamental. Aunque la optimización automática de indicaciones (APO) reduce la ingeniería manual, la mayoría de los métodos asumen la disponibilidad de etiquetas verdaderas, como datos de validación anotados. Sin embargo, en la práctica, la recopilación de etiquetas de alta calidad es costosa y requiere mucho tiempo. Este artículo propone el Optimizador de Duelo de Indicaciones (PDO), un marco eficiente en muestras para la optimización de indicaciones sin etiquetas. PDO modela el problema como un entorno de bandido de duelo, donde las señales de supervisión provienen de retroalimentación de preferencias pareadas proporcionada por un árbitro LLM. El marco combina muestreo de Thompson dual (D-TS) y mutación guiada por el mejor desempeño, donde el primero prioriza comparaciones de indicaciones informativas y el segundo expande el grupo de candidatos mediante mutación de indicaciones de alto rendimiento. PDO es naturalmente aplicable a configuraciones sin etiquetas y también puede incorporar etiquetas parciales para mitigar el ruido del árbitro. Los experimentos en BIG-bench Hard (BBH) y MS MARCO demuestran que PDO supera consistentemente los métodos de referencia en diversas tareas.

Antecedentes de Investigación y Motivación

Definición del Problema

El rendimiento de los modelos de lenguaje grande depende en gran medida de indicaciones cuidadosamente diseñadas, pero la elaboración manual de indicaciones efectivas generalmente requiere un proceso extenso de prueba y error. Los métodos existentes de optimización automática de indicaciones (APO), aunque reducen la ingeniería manual, presentan los siguientes problemas clave:

  1. Dependencia de Etiquetas: La mayoría de los métodos APO dependen de datos de validación anotados para evaluar el rendimiento de las indicaciones candidatas
  2. Costo de Anotación: En aplicaciones prácticas, la obtención de datos anotados de alta calidad es costosa y requiere mucho tiempo
  3. Latencia de Implementación: En escenarios industriales, es necesario implementar indicaciones razonables antes de que estén disponibles grandes cantidades de datos anotados manualmente

Motivación de la Investigación

La pregunta central de investigación es: ¿Es posible optimizar indicaciones sin referencias de etiquetas verdaderas?

Para abordar este problema, los autores proponen utilizar LLMs como árbitros para evaluar la calidad de las indicaciones, obteniendo señales de supervisión más confiables a través de comparaciones pareadas en lugar de calificaciones independientes. Este enfoque enfrenta dos desafíos principales:

  1. Ruido del Árbitro LLM: Existe incertidumbre en los juicios del LLM, sesgo de posición y sesgo de verbosidad
  2. Complejidad Cuadrática: El número de comparaciones pareadas crece cuadráticamente con el número de indicaciones candidatas

Contribuciones Principales

  1. Innovación en Modelado de Problemas: Modelado por primera vez de la optimización de indicaciones basada en preferencias como un problema de bandido de duelo, utilizando comparaciones pareadas del árbitro LLM como señal de supervisión
  2. Diseño del Marco Algorítmico: Propuesta del marco PDO, que combina muestreo de Thompson dual (D-TS) para selección eficiente de indicaciones y mutación guiada por el mejor desempeño para expansión del espacio de búsqueda
  3. Garantías Teóricas: Proporciona análisis teórico de los límites de arrepentimiento de Copeland, demostrando que PDO converge asintóticamente a la indicación óptima de Copeland
  4. Verificación Experimental: Validación de la efectividad de PDO en conjuntos de datos BBH y MS MARCO, con experimentos de ablación que demuestran la contribución de cada componente
  5. Flexibilidad: PDO puede funcionar en configuraciones puramente sin etiquetas y también puede incorporar etiquetas parciales para reducir el ruido del árbitro

Explicación Detallada del Método

Definición de Tarea

Sea X el espacio de entrada y P = {p₁, ..., pₖ} un conjunto finito de indicaciones candidatas. Para las indicaciones pᵢ, pⱼ ∈ P e entrada idéntica x, se obtiene una preferencia binaria a través del árbitro LLM:

Judgex(pi, pj) = {
    1, si fpi(x) ≻ fpj(x)
    0, en caso contrario
}

El objetivo es identificar el ganador de Condorcet (si existe) o el ganador de Copeland bajo un presupuesto limitado de comparaciones.

Arquitectura del Modelo

1. Muestreo de Thompson Dual (D-TS)

D-TS extiende el muestreo de Thompson al entorno de bandido de duelo, utilizando dos muestreos de Thompson independientes por ronda para seleccionar duelos informativos:

Proceso por Ronda:

  1. Selección de Primera Indicación: Calcular puntuaciones de Copeland optimistas, retener el conjunto de indicaciones con puntuaciones más altas, seleccionar candidatos mediante muestreo de Thompson
  2. Selección de Segunda Indicación: Limitar al conjunto de oponentes inciertos, seleccionar competidores mediante muestreo de Thompson
  3. Duelo y Actualización: Ejecutar comparación del árbitro y actualizar estadísticas de victoria/derrota

2. Mutación Guiada por el Mejor Desempeño

Para expandir el espacio de búsqueda, PDO realiza mutaciones periódicas de las indicaciones con mejor desempeño:

Proceso de Mutación:

  1. Selección: Seleccionar la indicación con la puntuación de Copeland más alta actual
  2. Mutación: Generar variantes mediante edición de plantillas, reescritura guiada por gradientes de texto o reescritura asistida por LLM
  3. Expansión: Agregar nuevas variantes al grupo de candidatos

Puntos de Innovación Técnica

  1. Fundamento Teórico: Basado en la teoría de bandidos de Lipschitz, la concentración de mutaciones alrededor del mejor desempeño es equivalente a "ampliar" la búsqueda en la región aproximadamente óptima
  2. Tratamiento del Ruido: Adopta actualización de matriz de preferencias ponderadas, reduciendo el peso de juicios basados en razonamiento (comparados con juicios basados en respuestas que son más ruidosos)
  3. Optimización de Eficiencia: Reduce la sobrecarga computacional mediante mecanismos de caché y poda adaptativa

Configuración Experimental

Conjuntos de Datos

  1. BIG-bench Hard (BBH): Selección de 16 tareas de razonamiento de opción múltiple, utilizando precisión como métrica de evaluación
  2. MS MARCO: Cuatro categorías de tareas de QA abierto (descripción, entidad, numérica, ubicación), utilizando calificaciones LLM de 1-5

Métricas de Evaluación

  • Tareas BBH: Precisión
  • Tareas MS MARCO: Calificaciones enteras de 1-5 proporcionadas por árbitro LLM

Métodos de Comparación

Líneas Base sin Etiquetas:

  • SPO (Optimización de Indicaciones Autosupervisada)
  • CoT (Cadena de Pensamiento)
  • PoS (Plan-and-Solve)

Líneas Base Supervisadas:

  • APE (Ingeniero Automático de Indicaciones)
  • OPRO (Optimización por Indicación)
  • Breeder (Evolución de Indicaciones)

Detalles de Implementación

  • BBH: 20 indicaciones candidatas iniciales, 30 rondas, 50 duelos por ronda
  • MS MARCO: 50 indicaciones candidatas iniciales, 30 rondas, 50 duelos por ronda
  • Utilizar Llama-3.3-70B-Instruct como modelo de generación, árbitro y evaluación
  • Parámetro D-TS α = 1.2

Resultados Experimentales

Resultados Principales

Desempeño en Tareas BBH (Configuración sin Etiquetas)

PDO logra el mejor rendimiento en 13 de 16 tareas, con mejoras significativas incluyendo:

  • Tracking-7: 0.641 vs 0.543 (+9.8 puntos porcentuales)
  • Web of Lies: 0.942 vs 0.861 (+8.1 puntos porcentuales)

Desempeño en Tareas MS MARCO

En las 4 tareas, PDO con D-TS supera consistentemente a RUCB y muestreo aleatorio, superando la línea base SPO en pocas rondas.

Experimentos de Ablación

  1. D-TS vs Otras Estrategias de Muestreo: D-TS supera significativamente al muestreo aleatorio y RUCB en eficiencia de muestras
  2. Efecto de Mutación: La mutación guiada por el mejor desempeño mejora significativamente el rendimiento en tareas Web of Lies y Tracking-7
  3. Preferencias Pareadas vs Calificación Puntual: En 7 de 8 combinaciones modelo-tarea, las preferencias pareadas superan la calificación puntual

Análisis del Árbitro LLM

  1. Niveles de Ruido Relacionados con Tareas: La confiabilidad del árbitro varía significativamente entre tareas, como errores de juicio más grandes en tareas Geométricas
  2. Rol de Etiquetas Parciales: La introducción del 30%-50% de etiquetas verdaderas reduce significativamente el ruido de juicio
  3. Impacto del Tamaño del Modelo: Los modelos de 70B y 8B como árbitros muestran rendimiento general similar

Trabajo Relacionado

Evolución de Métodos APO

Los métodos APO tradicionales dependen fuertemente de señales supervisadas, mientras que investigaciones recientes comienzan a reducir los requisitos de supervisión. SPO elimina referencias externas mediante contraste de salida, pero adopta una estrategia de escalada codiciosa, careciendo de un equilibrio principista entre exploración y explotación.

Aplicación de Bandidos en Optimización de Indicaciones

OPTS y TRIPLE modelan la selección de estrategias de indicaciones como problemas de bandidos, pero aún requieren conjuntos de validación anotados. APOHF conecta la optimización de indicaciones impulsada por preferencias con bandidos de duelo, pero asume preferencias pareadas anotadas manualmente.

Conclusiones y Discusión

Conclusiones Principales

  1. PDO resuelve exitosamente el problema de optimización de indicaciones sin etiquetas, logrando búsqueda eficiente en muestras a través del marco de bandido de duelo
  2. D-TS identifica indicaciones de alta calidad más rápida y confiablemente que muestreo aleatorio y otros métodos de bandido de duelo
  3. La mutación guiada por el mejor desempeño dirige efectivamente la búsqueda hacia regiones más fuertes
  4. Las preferencias pareadas proporcionan señales de supervisión más estables que la calificación puntual

Limitaciones

  1. Dependencia del Árbitro: La calidad de la optimización depende de la capacidad del árbitro LLM y del diseño de metaIndicaciones
  2. Riesgo de Sesgo de Estilo: El algoritmo puede sesgarse hacia patrones de estilo preferidos por el árbitro en lugar de métricas de tareas verdaderas
  3. Limitaciones de Recursos Computacionales: Debido a restricciones de recursos, no se realizaron experimentos extensos en más modelos

Direcciones Futuras

  1. Mejorar la alineación entre el árbitro LLM y los objetivos de tareas
  2. Desarrollar mecanismos de ajuste adaptativo para reflejar confiabilidad de juicio
  3. Explorar mecanismos más complejos de captura de incertidumbre

Evaluación Profunda

Fortalezas

  1. Innovación en Modelado de Problemas: El modelado de optimización de indicaciones como problema de bandido de duelo tiene fundamento teórico y valor práctico
  2. Completitud del Método: La combinación de estrategia de selección eficiente y expansión del espacio de búsqueda forma un marco de optimización completo
  3. Experimentación Exhaustiva: Evaluación integral en múltiples conjuntos de datos, incluyendo experimentos de ablación y análisis del árbitro
  4. Garantías Teóricas: Proporciona análisis teórico de límites de arrepentimiento de Copeland

Insuficiencias

  1. Tratamiento del Ruido del Árbitro: Aunque se analiza el problema del ruido del árbitro, las soluciones son relativamente simples
  2. Escalabilidad: El rendimiento en conjuntos grandes de indicaciones candidatas no se ha verificado suficientemente
  3. Generalización de Tareas: Principalmente validado en tareas de razonamiento y QA, la aplicabilidad a otros tipos de tareas no está clara

Impacto

  1. Contribución Académica: Proporciona nuevo marco teórico y método práctico para optimización de indicaciones sin etiquetas
  2. Valor Práctico: Tiene valor de aplicación directa en escenarios industriales, especialmente cuando los datos anotados son escasos
  3. Reproducibilidad: Los autores se comprometen a liberar el código, facilitando la reproducción y investigación adicional

Escenarios Aplicables

  1. Escasez de Datos Anotados: Cuando faltan grandes cantidades de datos anotados en nuevos dominios o tareas
  2. Requisitos de Implementación Rápida: Aplicaciones industriales que necesitan indicaciones razonables en poco tiempo
  3. Aplicaciones Sensibles al Costo: Escenarios donde el costo de anotación es alto
  4. Optimización Multitarea: Necesidad de optimizar indicaciones simultáneamente para múltiples tareas relacionadas

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

  • Zhou et al. (2022) - Método APE
  • Yang et al. (2024) - Método OPRO
  • Fernando et al. (2023) - Método Breeder
  • Wu and Liu (2016) - Teoría de muestreo de Thompson dual
  • Zheng et al. (2023) - Investigación relacionada con LLMs como árbitros

Evaluación General: Este es un artículo con contribuciones importantes en el campo de la optimización de indicaciones, que resuelve efectivamente el problema práctico de la optimización de indicaciones sin etiquetas a través de modelado innovador de problemas y marco teórico. El diseño del método es razonable, la verificación experimental es exhaustiva, y posee una base teórica sólida y valor práctico significativo.