Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
academic
Optimizador de Duelo de Indicaciones de LLM: Optimización de Indicaciones Eficiente sin Etiquetas
Los modelos de lenguaje grande (LLMs) son altamente sensibles a las indicaciones de entrada, lo que hace que el diseño de indicaciones sea un desafío fundamental. Aunque la optimización automática de indicaciones (APO) reduce la ingeniería manual, la mayoría de los métodos asumen la disponibilidad de etiquetas verdaderas, como datos de validación anotados. Sin embargo, en la práctica, la recopilación de etiquetas de alta calidad es costosa y requiere mucho tiempo. Este artículo propone el Optimizador de Duelo de Indicaciones (PDO), un marco eficiente en muestras para la optimización de indicaciones sin etiquetas. PDO modela el problema como un entorno de bandido de duelo, donde las señales de supervisión provienen de retroalimentación de preferencias pareadas proporcionada por un árbitro LLM. El marco combina muestreo de Thompson dual (D-TS) y mutación guiada por el mejor desempeño, donde el primero prioriza comparaciones de indicaciones informativas y el segundo expande el grupo de candidatos mediante mutación de indicaciones de alto rendimiento. PDO es naturalmente aplicable a configuraciones sin etiquetas y también puede incorporar etiquetas parciales para mitigar el ruido del árbitro. Los experimentos en BIG-bench Hard (BBH) y MS MARCO demuestran que PDO supera consistentemente los métodos de referencia en diversas tareas.
El rendimiento de los modelos de lenguaje grande depende en gran medida de indicaciones cuidadosamente diseñadas, pero la elaboración manual de indicaciones efectivas generalmente requiere un proceso extenso de prueba y error. Los métodos existentes de optimización automática de indicaciones (APO), aunque reducen la ingeniería manual, presentan los siguientes problemas clave:
Dependencia de Etiquetas: La mayoría de los métodos APO dependen de datos de validación anotados para evaluar el rendimiento de las indicaciones candidatas
Costo de Anotación: En aplicaciones prácticas, la obtención de datos anotados de alta calidad es costosa y requiere mucho tiempo
Latencia de Implementación: En escenarios industriales, es necesario implementar indicaciones razonables antes de que estén disponibles grandes cantidades de datos anotados manualmente
La pregunta central de investigación es: ¿Es posible optimizar indicaciones sin referencias de etiquetas verdaderas?
Para abordar este problema, los autores proponen utilizar LLMs como árbitros para evaluar la calidad de las indicaciones, obteniendo señales de supervisión más confiables a través de comparaciones pareadas en lugar de calificaciones independientes. Este enfoque enfrenta dos desafíos principales:
Ruido del Árbitro LLM: Existe incertidumbre en los juicios del LLM, sesgo de posición y sesgo de verbosidad
Complejidad Cuadrática: El número de comparaciones pareadas crece cuadráticamente con el número de indicaciones candidatas
Innovación en Modelado de Problemas: Modelado por primera vez de la optimización de indicaciones basada en preferencias como un problema de bandido de duelo, utilizando comparaciones pareadas del árbitro LLM como señal de supervisión
Diseño del Marco Algorítmico: Propuesta del marco PDO, que combina muestreo de Thompson dual (D-TS) para selección eficiente de indicaciones y mutación guiada por el mejor desempeño para expansión del espacio de búsqueda
Garantías Teóricas: Proporciona análisis teórico de los límites de arrepentimiento de Copeland, demostrando que PDO converge asintóticamente a la indicación óptima de Copeland
Verificación Experimental: Validación de la efectividad de PDO en conjuntos de datos BBH y MS MARCO, con experimentos de ablación que demuestran la contribución de cada componente
Flexibilidad: PDO puede funcionar en configuraciones puramente sin etiquetas y también puede incorporar etiquetas parciales para reducir el ruido del árbitro
Sea X el espacio de entrada y P = {p₁, ..., pₖ} un conjunto finito de indicaciones candidatas. Para las indicaciones pᵢ, pⱼ ∈ P e entrada idéntica x, se obtiene una preferencia binaria a través del árbitro LLM:
Judgex(pi, pj) = {
1, si fpi(x) ≻ fpj(x)
0, en caso contrario
}
El objetivo es identificar el ganador de Condorcet (si existe) o el ganador de Copeland bajo un presupuesto limitado de comparaciones.
D-TS extiende el muestreo de Thompson al entorno de bandido de duelo, utilizando dos muestreos de Thompson independientes por ronda para seleccionar duelos informativos:
Proceso por Ronda:
Selección de Primera Indicación: Calcular puntuaciones de Copeland optimistas, retener el conjunto de indicaciones con puntuaciones más altas, seleccionar candidatos mediante muestreo de Thompson
Selección de Segunda Indicación: Limitar al conjunto de oponentes inciertos, seleccionar competidores mediante muestreo de Thompson
Duelo y Actualización: Ejecutar comparación del árbitro y actualizar estadísticas de victoria/derrota
Fundamento Teórico: Basado en la teoría de bandidos de Lipschitz, la concentración de mutaciones alrededor del mejor desempeño es equivalente a "ampliar" la búsqueda en la región aproximadamente óptima
Tratamiento del Ruido: Adopta actualización de matriz de preferencias ponderadas, reduciendo el peso de juicios basados en razonamiento (comparados con juicios basados en respuestas que son más ruidosos)
Optimización de Eficiencia: Reduce la sobrecarga computacional mediante mecanismos de caché y poda adaptativa
Niveles de Ruido Relacionados con Tareas: La confiabilidad del árbitro varía significativamente entre tareas, como errores de juicio más grandes en tareas Geométricas
Rol de Etiquetas Parciales: La introducción del 30%-50% de etiquetas verdaderas reduce significativamente el ruido de juicio
Impacto del Tamaño del Modelo: Los modelos de 70B y 8B como árbitros muestran rendimiento general similar
Los métodos APO tradicionales dependen fuertemente de señales supervisadas, mientras que investigaciones recientes comienzan a reducir los requisitos de supervisión. SPO elimina referencias externas mediante contraste de salida, pero adopta una estrategia de escalada codiciosa, careciendo de un equilibrio principista entre exploración y explotación.
OPTS y TRIPLE modelan la selección de estrategias de indicaciones como problemas de bandidos, pero aún requieren conjuntos de validación anotados. APOHF conecta la optimización de indicaciones impulsada por preferencias con bandidos de duelo, pero asume preferencias pareadas anotadas manualmente.
PDO resuelve exitosamente el problema de optimización de indicaciones sin etiquetas, logrando búsqueda eficiente en muestras a través del marco de bandido de duelo
D-TS identifica indicaciones de alta calidad más rápida y confiablemente que muestreo aleatorio y otros métodos de bandido de duelo
La mutación guiada por el mejor desempeño dirige efectivamente la búsqueda hacia regiones más fuertes
Las preferencias pareadas proporcionan señales de supervisión más estables que la calificación puntual
Innovación en Modelado de Problemas: El modelado de optimización de indicaciones como problema de bandido de duelo tiene fundamento teórico y valor práctico
Completitud del Método: La combinación de estrategia de selección eficiente y expansión del espacio de búsqueda forma un marco de optimización completo
Experimentación Exhaustiva: Evaluación integral en múltiples conjuntos de datos, incluyendo experimentos de ablación y análisis del árbitro
Garantías Teóricas: Proporciona análisis teórico de límites de arrepentimiento de Copeland
El artículo cita múltiples trabajos relacionados importantes, incluyendo:
Zhou et al. (2022) - Método APE
Yang et al. (2024) - Método OPRO
Fernando et al. (2023) - Método Breeder
Wu and Liu (2016) - Teoría de muestreo de Thompson dual
Zheng et al. (2023) - Investigación relacionada con LLMs como árbitros
Evaluación General: Este es un artículo con contribuciones importantes en el campo de la optimización de indicaciones, que resuelve efectivamente el problema práctico de la optimización de indicaciones sin etiquetas a través de modelado innovador de problemas y marco teórico. El diseño del método es razonable, la verificación experimental es exhaustiva, y posee una base teórica sólida y valor práctico significativo.