Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
academic
Optimiseur de Duel de Prompts LLM : Optimisation de Prompts Efficace sans Étiquettes
Les grands modèles de langage (LLMs) sont hautement sensibles aux prompts d'entrée, ce qui rend la conception de prompts un défi fondamental. Bien que l'optimisation automatique de prompts (APO) réduise l'ingénierie manuelle, la plupart des méthodes supposent l'accès à des données de validation annotées et à des étiquettes réelles. Cependant, en pratique, la collecte d'étiquettes de haute qualité est à la fois coûteuse et chronophage. Cet article propose l'Optimiseur de Duel de Prompts (PDO), un cadre efficace en termes d'échantillons pour l'optimisation de prompts sans étiquettes. PDO modélise le problème comme un paramètre de bandit de duel, où le signal de supervision provient des retours de préférence par paires fournis par un arbitre LLM. Le cadre combine l'échantillonnage de Thompson double (D-TS) et la mutation guidée par les meilleurs performants, le premier priorisant les comparaisons de prompts informatives et le second élargissant le pool de candidats en mutant les prompts hautement performants. PDO s'adapte naturellement aux paramètres sans étiquettes et peut également être combiné avec des étiquettes partielles pour atténuer le bruit de l'arbitre. Les expériences sur BIG-bench Hard (BBH) et MS MARCO démontrent que PDO surpasse systématiquement les méthodes de base sur diverses tâches.
La performance des grands modèles de langage dépend largement de prompts soigneusement conçus, mais la création manuelle de prompts efficaces nécessite généralement un processus d'essai-erreur considérable. Les méthodes existantes d'optimisation automatique de prompts (APO), bien qu'elles réduisent l'ingénierie manuelle, présentent les problèmes clés suivants :
Dépendance aux étiquettes : La plupart des méthodes APO dépendent de données de validation annotées pour évaluer la performance des prompts candidats
Coût d'annotation : Dans les applications pratiques, l'acquisition de données annotées de haute qualité est à la fois coûteuse et chronophage
Délai de déploiement : Dans les scénarios industriels, il est nécessaire de déployer des prompts raisonnables avant que des données annotées à grande échelle ne soient disponibles
La question de recherche centrale de l'article est : Est-il possible d'optimiser les prompts sans référence d'étiquettes réelles ?
Pour résoudre ce problème, les auteurs proposent d'utiliser les LLMs comme arbitres pour évaluer la qualité des prompts, en obtenant des signaux de supervision plus fiables par le biais de comparaisons par paires plutôt que d'évaluations indépendantes. Cette approche fait face à deux défis majeurs :
Bruit de l'arbitre LLM : Les jugements des LLMs présentent de l'incertitude, des biais positionnels et des biais de longueur
Complexité quadratique : Le nombre de comparaisons par paires croît quadratiquement avec le nombre de prompts candidats
Innovation dans la modélisation du problème : Première modélisation de l'optimisation de prompts basée sur les préférences en tant que problème de bandit de duel, utilisant les comparaisons par paires de l'arbitre LLM comme signal de supervision
Conception du cadre algorithmique : Proposition du cadre PDO, combinant l'échantillonnage de Thompson double (D-TS) pour la sélection efficace de prompts et la mutation guidée par les meilleurs performants pour l'expansion de l'espace de recherche
Garanties théoriques : Fourniture d'une analyse théorique des limites de regret de Copeland, prouvant que PDO converge asymptotiquement vers le prompt optimal de Copeland
Vérification expérimentale : Validation de l'efficacité de PDO sur les ensembles de données BBH et MS MARCO, avec des expériences d'ablation démontrant la contribution de chaque composant
Flexibilité : PDO peut fonctionner dans un paramètre purement sans étiquettes ou peut être combiné avec des étiquettes partielles pour réduire le bruit de l'arbitre
Soit X l'espace d'entrée et P = {p₁, ..., pₖ} un ensemble fini de prompts candidats. Pour les prompts pᵢ, pⱼ ∈ P et une entrée identique x, une préférence binaire est obtenue via l'arbitre LLM :
D-TS étend l'échantillonnage de Thompson au paramètre de bandit de duel, utilisant deux échantillonnages de Thompson indépendants par tour pour sélectionner des duels informatifs :
Processus par tour :
Sélection du premier prompt : Calcul du score de Copeland optimiste, conservation de l'ensemble des prompts avec les scores les plus élevés, sélection du candidat via l'échantillonnage de Thompson
Sélection du deuxième prompt : Limitation à l'ensemble des adversaires incertains, sélection du challenger via l'échantillonnage de Thompson
Duel et mise à jour : Exécution de la comparaison de l'arbitre et mise à jour des statistiques de victoire-défaite
Fondement théorique : Basé sur la théorie des bandits de Lipschitz, la concentration des mutations autour des meilleurs performants équivaut à « zoomer » la recherche dans une région approximativement optimale
Traitement du bruit : Adoption de la mise à jour de matrice de préférence pondérée, avec pondération réduite pour les jugements basés sur le raisonnement (plus bruyants que les jugements basés sur les réponses)
Optimisation de l'efficacité : Réduction des frais de calcul par des mécanismes de mise en cache et d'élagage adaptatif
BIG-bench Hard (BBH) : Sélection de 16 tâches de raisonnement à choix multiples, utilisation de la précision comme métrique d'évaluation
MS MARCO : Quatre catégories de tâches de questions-réponses ouvertes (descriptive, entité, numérique, localisation), utilisation d'évaluations LLM de 1 à 5 points
D-TS vs Autres Stratégies d'Échantillonnage : D-TS surpasse significativement l'échantillonnage aléatoire et RUCB en efficacité d'échantillonnage
Effet de la Mutation : La mutation guidée par les meilleurs performants améliore significativement la performance sur les tâches Web of Lies et Tracking-7
Préférences par Paires vs Évaluation Ponctuelle : Dans 7 cas sur 8 combinaisons modèle-tâche, les préférences par paires surpassent l'évaluation ponctuelle
Niveaux de Bruit Liés aux Tâches : La fiabilité de l'arbitre varie significativement selon les tâches, comme les erreurs de jugement substantielles dans les tâches Geometric
Rôle des Étiquettes Partielles : L'introduction de 30%-50% d'étiquettes réelles réduit significativement le bruit de jugement
Impact de la Taille du Modèle : Les modèles 70B et 8B comme arbitres présentent une performance globale similaire
Les méthodes APO traditionnelles dépendent fortement des signaux supervisés, tandis que les recherches récentes commencent à réduire les besoins de supervision. SPO élimine les références externes par contraste de sortie, mais adopte une stratégie d'escalade gourmande, manquant d'un équilibre exploration-exploitation principiel. OPTS et TRIPLE modélisent la sélection de stratégies de prompts comme des problèmes de bandit, mais nécessitent toujours un ensemble de validation annoté. APOHF connecte l'optimisation de prompts basée sur les préférences aux bandits de duel, mais suppose des préférences par paires annotées manuellement.
PDO résout avec succès le problème d'optimisation de prompts sans étiquettes, réalisant une recherche efficace en termes d'échantillons via le cadre de bandit de duel
D-TS identifie les prompts de haute qualité plus rapidement et de manière plus fiable que l'échantillonnage aléatoire et d'autres méthodes de bandit de duel
La mutation guidée par les meilleurs performants oriente efficacement la recherche vers des régions plus fortes
Les préférences par paires fournissent des signaux de supervision plus stables que l'évaluation ponctuelle
Dépendance à l'Arbitre : La qualité de l'optimisation dépend de la capacité de l'arbitre LLM et de la conception du méta-prompt
Risque de Biais de Style : L'algorithme peut être biaisé vers les modèles de style préférés par l'arbitre plutôt que vers les véritables métriques de tâche
Limitations des Ressources de Calcul : En raison des contraintes de ressources, les expériences n'ont pas pu être menées largement sur plus de modèles
Innovation dans la Modélisation du Problème : La modélisation de l'optimisation de prompts comme un problème de bandit de duel possède une base théorique et une valeur pratique
Complétude de la Méthode : Combinaison d'une stratégie de sélection efficace et d'une expansion de l'espace de recherche, formant un cadre d'optimisation complet
Expérimentation Suffisante : Évaluation complète sur plusieurs ensembles de données, incluant des expériences d'ablation et une analyse de l'arbitre
Garanties Théoriques : Fourniture d'une analyse théorique des limites de regret de Copeland
Traitement du Bruit de l'Arbitre : Bien que le problème du bruit de l'arbitre soit analysé, les solutions sont relativement simples
Scalabilité : La performance sur des ensembles de prompts candidats à grande échelle n'a pas été suffisamment vérifiée
Généralisation des Tâches : Principalement validée sur des tâches de raisonnement et de questions-réponses, l'applicabilité à d'autres types de tâches n'est pas claire
L'article cite plusieurs travaux connexes importants, incluant :
Zhou et al. (2022) - Méthode APE
Yang et al. (2024) - Méthode OPRO
Fernando et al. (2023) - Méthode Breeder
Wu and Liu (2016) - Théorie de l'échantillonnage de Thompson double
Zheng et al. (2023) - Recherches connexes sur les LLMs comme arbitres
Évaluation Globale : Cet article constitue une contribution importante dans le domaine de l'optimisation de prompts, résolvant efficacement le problème pratique de l'optimisation de prompts sans étiquettes par le biais d'une modélisation innovante des problèmes et d'un cadre théorique. La conception de la méthode est raisonnée, la vérification expérimentale est suffisante, et elle possède une base théorique solide et une valeur pratique considérable.