2025-11-18T10:58:12.748063

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

Wu, Verma, Lee et al.

Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.

academic

Optimiseur de Duel de Prompts LLM : Optimisation de Prompts Efficace sans Étiquettes

Informations Fondamentales

ID de l'article : 2510.13907
Titre : LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
Auteurs : Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
Classification : cs.CL (Linguistique Computationnelle), stat.ML (Apprentissage Automatique)
Date de publication : 14 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13907

Résumé

Les grands modèles de langage (LLMs) sont hautement sensibles aux prompts d'entrée, ce qui rend la conception de prompts un défi fondamental. Bien que l'optimisation automatique de prompts (APO) réduise l'ingénierie manuelle, la plupart des méthodes supposent l'accès à des données de validation annotées et à des étiquettes réelles. Cependant, en pratique, la collecte d'étiquettes de haute qualité est à la fois coûteuse et chronophage. Cet article propose l'Optimiseur de Duel de Prompts (PDO), un cadre efficace en termes d'échantillons pour l'optimisation de prompts sans étiquettes. PDO modélise le problème comme un paramètre de bandit de duel, où le signal de supervision provient des retours de préférence par paires fournis par un arbitre LLM. Le cadre combine l'échantillonnage de Thompson double (D-TS) et la mutation guidée par les meilleurs performants, le premier priorisant les comparaisons de prompts informatives et le second élargissant le pool de candidats en mutant les prompts hautement performants. PDO s'adapte naturellement aux paramètres sans étiquettes et peut également être combiné avec des étiquettes partielles pour atténuer le bruit de l'arbitre. Les expériences sur BIG-bench Hard (BBH) et MS MARCO démontrent que PDO surpasse systématiquement les méthodes de base sur diverses tâches.

Contexte et Motivation de la Recherche

Définition du Problème

La performance des grands modèles de langage dépend largement de prompts soigneusement conçus, mais la création manuelle de prompts efficaces nécessite généralement un processus d'essai-erreur considérable. Les méthodes existantes d'optimisation automatique de prompts (APO), bien qu'elles réduisent l'ingénierie manuelle, présentent les problèmes clés suivants :

Dépendance aux étiquettes : La plupart des méthodes APO dépendent de données de validation annotées pour évaluer la performance des prompts candidats
Coût d'annotation : Dans les applications pratiques, l'acquisition de données annotées de haute qualité est à la fois coûteuse et chronophage
Délai de déploiement : Dans les scénarios industriels, il est nécessaire de déployer des prompts raisonnables avant que des données annotées à grande échelle ne soient disponibles

Motivation de la Recherche

La question de recherche centrale de l'article est : Est-il possible d'optimiser les prompts sans référence d'étiquettes réelles ?

Pour résoudre ce problème, les auteurs proposent d'utiliser les LLMs comme arbitres pour évaluer la qualité des prompts, en obtenant des signaux de supervision plus fiables par le biais de comparaisons par paires plutôt que d'évaluations indépendantes. Cette approche fait face à deux défis majeurs :

Bruit de l'arbitre LLM : Les jugements des LLMs présentent de l'incertitude, des biais positionnels et des biais de longueur
Complexité quadratique : Le nombre de comparaisons par paires croît quadratiquement avec le nombre de prompts candidats

Contributions Principales

Innovation dans la modélisation du problème : Première modélisation de l'optimisation de prompts basée sur les préférences en tant que problème de bandit de duel, utilisant les comparaisons par paires de l'arbitre LLM comme signal de supervision
Conception du cadre algorithmique : Proposition du cadre PDO, combinant l'échantillonnage de Thompson double (D-TS) pour la sélection efficace de prompts et la mutation guidée par les meilleurs performants pour l'expansion de l'espace de recherche
Garanties théoriques : Fourniture d'une analyse théorique des limites de regret de Copeland, prouvant que PDO converge asymptotiquement vers le prompt optimal de Copeland
Vérification expérimentale : Validation de l'efficacité de PDO sur les ensembles de données BBH et MS MARCO, avec des expériences d'ablation démontrant la contribution de chaque composant
Flexibilité : PDO peut fonctionner dans un paramètre purement sans étiquettes ou peut être combiné avec des étiquettes partielles pour réduire le bruit de l'arbitre

Explication Détaillée de la Méthode

Définition de la Tâche

Soit X l'espace d'entrée et P = {p₁, ..., pₖ} un ensemble fini de prompts candidats. Pour les prompts pᵢ, pⱼ ∈ P et une entrée identique x, une préférence binaire est obtenue via l'arbitre LLM :

Judgex(pi, pj) = {
    1, if fpi(x) ≻ fpj(x)
    0, otherwise
}

L'objectif est d'identifier le gagnant de Condorcet (s'il existe) ou le gagnant de Copeland dans un budget de comparaisons limité.

Architecture du Modèle

1. Échantillonnage de Thompson Double (D-TS)

D-TS étend l'échantillonnage de Thompson au paramètre de bandit de duel, utilisant deux échantillonnages de Thompson indépendants par tour pour sélectionner des duels informatifs :

Processus par tour :

Sélection du premier prompt : Calcul du score de Copeland optimiste, conservation de l'ensemble des prompts avec les scores les plus élevés, sélection du candidat via l'échantillonnage de Thompson
Sélection du deuxième prompt : Limitation à l'ensemble des adversaires incertains, sélection du challenger via l'échantillonnage de Thompson
Duel et mise à jour : Exécution de la comparaison de l'arbitre et mise à jour des statistiques de victoire-défaite

2. Mutation Guidée par les Meilleurs Performants

Pour élargir l'espace de recherche, PDO effectue périodiquement des mutations sur les prompts les plus performants :

Processus de mutation :

Sélection : Sélection du prompt avec le score de Copeland le plus élevé actuellement
Mutation : Génération de variantes par édition de modèle, gradient de texte guidé ou réécriture assistée par LLM
Expansion : Ajout de nouvelles variantes au pool de candidats

Points d'Innovation Technique

Fondement théorique : Basé sur la théorie des bandits de Lipschitz, la concentration des mutations autour des meilleurs performants équivaut à « zoomer » la recherche dans une région approximativement optimale
Traitement du bruit : Adoption de la mise à jour de matrice de préférence pondérée, avec pondération réduite pour les jugements basés sur le raisonnement (plus bruyants que les jugements basés sur les réponses)
Optimisation de l'efficacité : Réduction des frais de calcul par des mécanismes de mise en cache et d'élagage adaptatif

Configuration Expérimentale

Ensembles de Données

BIG-bench Hard (BBH) : Sélection de 16 tâches de raisonnement à choix multiples, utilisation de la précision comme métrique d'évaluation
MS MARCO : Quatre catégories de tâches de questions-réponses ouvertes (descriptive, entité, numérique, localisation), utilisation d'évaluations LLM de 1 à 5 points

Métriques d'Évaluation

Tâches BBH : Précision
Tâches MS MARCO : Évaluation entière de 1 à 5 points fournie par l'arbitre LLM

Méthodes de Comparaison

Lignes de base sans étiquettes :

SPO (Self-Supervised Prompt Optimization)
CoT (Chain-of-Thought)
PoS (Plan-and-Solve)

Lignes de base supervisées :

APE (Automatic Prompt Engineer)
OPRO (Optimization by PROmpting)
Breeder (Prompt Evolution)

Détails d'Implémentation

BBH : 20 prompts candidats initiaux, 30 tours, 50 duels par tour
MS MARCO : 50 prompts candidats initiaux, 30 tours, 50 duels par tour
Utilisation de Llama-3.3-70B-Instruct comme modèle de génération, arbitre et évaluation
Paramètre D-TS α = 1,2

Résultats Expérimentaux

Résultats Principaux

Performance sur les Tâches BBH (Paramètre sans Étiquettes)

PDO atteint les meilleures performances sur 13 des 16 tâches, avec des améliorations significatives incluant :

Tracking-7 : 0,641 vs 0,543 (+9,8 points de pourcentage)
Web of Lies : 0,942 vs 0,861 (+8,1 points de pourcentage)

Performance sur les Tâches MS MARCO

Sur les 4 tâches, PDO avec D-TS surpasse systématiquement RUCB et l'échantillonnage aléatoire, dépassant la ligne de base SPO en quelques tours.

Expériences d'Ablation

D-TS vs Autres Stratégies d'Échantillonnage : D-TS surpasse significativement l'échantillonnage aléatoire et RUCB en efficacité d'échantillonnage
Effet de la Mutation : La mutation guidée par les meilleurs performants améliore significativement la performance sur les tâches Web of Lies et Tracking-7
Préférences par Paires vs Évaluation Ponctuelle : Dans 7 cas sur 8 combinaisons modèle-tâche, les préférences par paires surpassent l'évaluation ponctuelle

Analyse de l'Arbitre LLM

Niveaux de Bruit Liés aux Tâches : La fiabilité de l'arbitre varie significativement selon les tâches, comme les erreurs de jugement substantielles dans les tâches Geometric
Rôle des Étiquettes Partielles : L'introduction de 30%-50% d'étiquettes réelles réduit significativement le bruit de jugement
Impact de la Taille du Modèle : Les modèles 70B et 8B comme arbitres présentent une performance globale similaire

Travaux Connexes

Évolution des Méthodes APO

Les méthodes APO traditionnelles dépendent fortement des signaux supervisés, tandis que les recherches récentes commencent à réduire les besoins de supervision. SPO élimine les références externes par contraste de sortie, mais adopte une stratégie d'escalade gourmande, manquant d'un équilibre exploration-exploitation principiel. OPTS et TRIPLE modélisent la sélection de stratégies de prompts comme des problèmes de bandit, mais nécessitent toujours un ensemble de validation annoté. APOHF connecte l'optimisation de prompts basée sur les préférences aux bandits de duel, mais suppose des préférences par paires annotées manuellement.

Conclusion et Discussion

Conclusions Principales

PDO résout avec succès le problème d'optimisation de prompts sans étiquettes, réalisant une recherche efficace en termes d'échantillons via le cadre de bandit de duel
D-TS identifie les prompts de haute qualité plus rapidement et de manière plus fiable que l'échantillonnage aléatoire et d'autres méthodes de bandit de duel
La mutation guidée par les meilleurs performants oriente efficacement la recherche vers des régions plus fortes
Les préférences par paires fournissent des signaux de supervision plus stables que l'évaluation ponctuelle

Limitations

Dépendance à l'Arbitre : La qualité de l'optimisation dépend de la capacité de l'arbitre LLM et de la conception du méta-prompt
Risque de Biais de Style : L'algorithme peut être biaisé vers les modèles de style préférés par l'arbitre plutôt que vers les véritables métriques de tâche
Limitations des Ressources de Calcul : En raison des contraintes de ressources, les expériences n'ont pas pu être menées largement sur plus de modèles

Directions Futures

Amélioration de l'alignement entre l'arbitre LLM et les objectifs de tâche
Développement de mécanismes d'ajustement adaptatif pour refléter la fiabilité des jugements
Exploration de mécanismes plus complexes de capture de l'incertitude

Évaluation Approfondie

Avantages

Innovation dans la Modélisation du Problème : La modélisation de l'optimisation de prompts comme un problème de bandit de duel possède une base théorique et une valeur pratique
Complétude de la Méthode : Combinaison d'une stratégie de sélection efficace et d'une expansion de l'espace de recherche, formant un cadre d'optimisation complet
Expérimentation Suffisante : Évaluation complète sur plusieurs ensembles de données, incluant des expériences d'ablation et une analyse de l'arbitre
Garanties Théoriques : Fourniture d'une analyse théorique des limites de regret de Copeland

Insuffisances

Traitement du Bruit de l'Arbitre : Bien que le problème du bruit de l'arbitre soit analysé, les solutions sont relativement simples
Scalabilité : La performance sur des ensembles de prompts candidats à grande échelle n'a pas été suffisamment vérifiée
Généralisation des Tâches : Principalement validée sur des tâches de raisonnement et de questions-réponses, l'applicabilité à d'autres types de tâches n'est pas claire

Impact

Contribution Académique : Fourniture d'un nouveau cadre théorique et d'une méthode pratique pour l'optimisation de prompts sans étiquettes
Valeur Pratique : Possède une valeur d'application directe dans les scénarios industriels, particulièrement lorsque les données annotées sont rares
Reproductibilité : Les auteurs s'engagent à rendre le code open source, facilitant la reproduction et la recherche ultérieure

Scénarios d'Application

Données d'Annotation Rares : Nouveaux domaines ou tâches manquant de grandes quantités de données annotées
Besoins de Déploiement Rapide : Applications industrielles nécessitant l'obtention de prompts raisonnables en peu de temps
Applications Sensibles aux Coûts : Scénarios où le coût d'annotation est élevé
Optimisation Multi-Tâches : Nécessité d'optimiser simultanément les prompts pour plusieurs tâches connexes

Références

L'article cite plusieurs travaux connexes importants, incluant :

Zhou et al. (2022) - Méthode APE
Yang et al. (2024) - Méthode OPRO
Fernando et al. (2023) - Méthode Breeder
Wu and Liu (2016) - Théorie de l'échantillonnage de Thompson double
Zheng et al. (2023) - Recherches connexes sur les LLMs comme arbitres

Évaluation Globale : Cet article constitue une contribution importante dans le domaine de l'optimisation de prompts, résolvant efficacement le problème pratique de l'optimisation de prompts sans étiquettes par le biais d'une modélisation innovante des problèmes et d'un cadre théorique. La conception de la méthode est raisonnée, la vérification expérimentale est suffisante, et elle possède une base théorique solide et une valeur pratique considérable.