2025-11-18T10:58:12.748063

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

Wu, Verma, Lee et al.
Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
academic

Ottimizzatore di Duello dei Prompt LLM: Ottimizzazione Efficiente dei Prompt Senza Etichette

Informazioni di Base

  • ID Articolo: 2510.13907
  • Titolo: LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
  • Autori: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
  • Classificazione: cs.CL (Linguistica Computazionale), stat.ML (Apprendimento Automatico)
  • Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.13907

Riassunto

I modelli linguistici di grandi dimensioni (LLM) sono altamente sensibili ai prompt di input, rendendo la progettazione dei prompt una sfida fondamentale. Sebbene l'ottimizzazione automatica dei prompt (APO) riduca l'ingegneria manuale, la maggior parte dei metodi presuppone l'accesso a dati di validazione etichettati e altre etichette di verità. Tuttavia, nella pratica, la raccolta di etichette di alta qualità è sia costosa che dispendiosa in termini di tempo. Questo articolo propone l'Ottimizzatore di Duello dei Prompt (PDO), un framework campione-efficiente per l'ottimizzazione dei prompt senza etichette. PDO modella il problema come un'impostazione di gioco d'azzardo duello, dove i segnali di supervisione provengono da feedback di preferenza a coppie forniti da un arbitro LLM. Il framework combina il Double Thompson Sampling (D-TS) e la mutazione guidata dai migliori performer, dove il primo dà priorità ai confronti di prompt informativi e il secondo espande il pool di candidati mutando prompt ad alte prestazioni. PDO è naturalmente adatto all'impostazione senza etichette e può anche incorporare etichette parziali per mitigare il rumore dell'arbitro. Gli esperimenti su BIG-bench Hard (BBH) e MS MARCO dimostrano che PDO supera costantemente i metodi di base su vari compiti.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le prestazioni dei modelli linguistici di grandi dimensioni dipendono in larga misura da prompt accuratamente progettati, ma la creazione manuale di prompt efficaci di solito richiede un ampio processo di prova ed errore. I metodi APO (Automatic Prompt Optimization) esistenti, sebbene possano ridurre l'ingegneria manuale, presentano i seguenti problemi chiave:

  1. Dipendenza da Etichette: La maggior parte dei metodi APO dipende da dati di validazione etichettati per valutare le prestazioni dei prompt candidati
  2. Costo di Etichettatura: Nelle applicazioni pratiche, l'acquisizione di dati etichettati di alta qualità è sia costosa che dispendiosa in termini di tempo
  3. Ritardo di Distribuzione: Negli scenari industriali, è necessario distribuire prompt ragionevoli prima che siano disponibili dati etichettati su larga scala

Motivazione della Ricerca

La domanda di ricerca centrale è: È possibile ottimizzare i prompt senza riferimenti a etichette reali?

Per affrontare questo problema, gli autori propongono di utilizzare l'LLM come arbitro per valutare la qualità dei prompt, ottenendo segnali di supervisione più affidabili attraverso confronti a coppie piuttosto che valutazioni indipendenti. Questo approccio affronta due sfide principali:

  1. Rumore dell'Arbitro LLM: I giudizi dell'LLM presentano incertezza, bias di posizione e bias di verbosità
  2. Complessità Quadratica: Il numero di confronti a coppie cresce quadraticamente con il numero di prompt candidati

Contributi Principali

  1. Innovazione nella Modellazione del Problema: Primo a modellare l'ottimizzazione dei prompt basata su preferenze come un problema di gioco d'azzardo duello, utilizzando confronti a coppie dell'arbitro LLM come segnale di supervisione
  2. Progettazione del Framework Algoritmico: Propone il framework PDO, che combina Double Thompson Sampling (D-TS) per la selezione efficiente dei prompt e mutazione guidata dai migliori performer per l'espansione dello spazio di ricerca
  3. Garanzie Teoriche: Fornisce analisi teorica dei limiti di rammarico di Copeland, provando la convergenza asintotica di PDO verso il prompt ottimale di Copeland
  4. Verifica Sperimentale: Verifica l'efficacia di PDO sui dataset BBH e MS MARCO, e dimostra il contributo di ogni componente attraverso esperimenti di ablazione
  5. Flessibilità: PDO può funzionare in impostazioni puramente senza etichette e può anche incorporare etichette parziali per ridurre il rumore dell'arbitro

Spiegazione Dettagliata del Metodo

Definizione del Compito

Sia X lo spazio di input e P = {p₁, ..., pₖ} un insieme finito di prompt candidati. Per i prompt pᵢ, pⱼ ∈ P e lo stesso input x, si ottiene una preferenza binaria attraverso l'arbitro LLM:

Judgex(pi, pj) = {
    1, if fpi(x) ≻ fpj(x)
    0, otherwise
}

L'obiettivo è identificare il vincitore di Condorcet (se esiste) o il vincitore di Copeland entro un budget di confronti limitato.

Architettura del Modello

1. Double Thompson Sampling (D-TS)

D-TS estende il Thompson Sampling all'impostazione di gioco d'azzardo duello, utilizzando due campionamenti Thompson indipendenti per round per selezionare duelli informativi:

Processo per Round:

  1. Selezione del Primo Prompt: Calcola il punteggio di Copeland ottimista, mantiene l'insieme di prompt con il punteggio più alto, seleziona il candidato tramite Thompson Sampling
  2. Selezione del Secondo Prompt: Limita all'insieme di avversari incerti, seleziona il duellante tramite Thompson Sampling
  3. Duello e Aggiornamento: Esegue il confronto dell'arbitro e aggiorna le statistiche di vittoria/sconfitta

2. Mutazione Guidata dai Migliori Performer

Per espandere lo spazio di ricerca, PDO esegue periodicamente mutazioni sui prompt con le migliori prestazioni:

Processo di Mutazione:

  1. Selezione: Seleziona il prompt con il punteggio di Copeland più alto attualmente
  2. Mutazione: Genera varianti attraverso modifica di template, guida al gradiente di testo o riscrittura assistita da LLM
  3. Espansione: Aggiunge nuove varianti al pool di candidati

Punti di Innovazione Tecnica

  1. Fondamento Teorico: Basato sulla teoria dei bandit di Lipschitz, la mutazione concentrata attorno ai migliori performer equivale a "ingrandire" la ricerca in un'area approssimativamente ottimale
  2. Gestione del Rumore: Adotta l'aggiornamento della matrice di preferenza ponderata, assegnando pesi inferiori ai giudizi basati sul ragionamento (più rumorosi rispetto ai giudizi basati sulla risposta)
  3. Ottimizzazione dell'Efficienza: Riduce il sovraccarico computazionale attraverso meccanismi di cache e potatura adattiva

Impostazione Sperimentale

Dataset

  1. BIG-bench Hard (BBH): Seleziona 16 compiti di ragionamento a scelta multipla, utilizza l'accuratezza come metrica di valutazione
  2. MS MARCO: Quattro categorie di compiti QA aperti (descrittivo, entità, numerico, posizione), utilizza valutazione LLM da 1-5 punti

Metriche di Valutazione

  • Compiti BBH: Accuratezza
  • Compiti MS MARCO: Valutazione intera da 1-5 punti fornita dall'arbitro LLM

Metodi di Confronto

Baseline Senza Etichette:

  • SPO (Self-Supervised Prompt Optimization)
  • CoT (Chain-of-Thought)
  • PoS (Plan-and-Solve)

Baseline Supervisionati:

  • APE (Automatic Prompt Engineer)
  • OPRO (Optimization by PROmpting)
  • Breeder (Prompt Evolution)

Dettagli di Implementazione

  • BBH: 20 prompt candidati iniziali, 30 round, 50 duelli per round
  • MS MARCO: 50 prompt candidati iniziali, 30 round, 50 duelli per round
  • Utilizza Llama-3.3-70B-Instruct come modello di generazione, arbitro e valutazione
  • Parametro D-TS α = 1.2

Risultati Sperimentali

Risultati Principali

Prestazioni su Compiti BBH (Impostazione Senza Etichette)

PDO raggiunge le migliori prestazioni su 13 dei 16 compiti, con miglioramenti significativi tra cui:

  • Tracking-7: 0.641 vs 0.543 (+9.8 punti percentuali)
  • Web of Lies: 0.942 vs 0.861 (+8.1 punti percentuali)

Prestazioni su Compiti MS MARCO

Su tutti e 4 i compiti, PDO con D-TS supera costantemente RUCB e il campionamento casuale, superando il baseline SPO in pochi round.

Esperimenti di Ablazione

  1. D-TS vs Altre Strategie di Campionamento: D-TS supera significativamente il campionamento casuale e RUCB in termini di efficienza campionaria
  2. Effetto della Mutazione: La mutazione guidata dai migliori performer migliora significativamente le prestazioni sui compiti Web of Lies e Tracking-7
  3. Preferenza a Coppie vs Valutazione Puntuale: La preferenza a coppie supera la valutazione puntuale in 7 su 8 combinazioni modello-compito

Analisi dell'Arbitro LLM

  1. Livelli di Rumore Correlati al Compito: L'affidabilità dell'arbitro varia significativamente tra i compiti, come errori di giudizio più grandi nel compito Geometric
  2. Ruolo delle Etichette Parziali: L'introduzione del 30%-50% di etichette reali riduce significativamente il rumore di giudizio
  3. Impatto della Dimensione del Modello: I modelli da 70B e 8B come arbitri mostrano prestazioni complessive simili

Lavori Correlati

Evoluzione dei Metodi APO

I metodi APO tradizionali dipendono fortemente dai segnali di supervisione, mentre la ricerca recente inizia a ridurre i requisiti di supervisione. SPO elimina i riferimenti esterni attraverso il contrasto di output, ma adotta una strategia greedy hill-climbing, mancando di un equilibrio esplorazione-sfruttamento principiato.

Applicazione dei Bandit nell'Ottimizzazione dei Prompt

OPTS e TRIPLE modellano la selezione della strategia di prompt come un problema di gioco d'azzardo, ma richiedono comunque un set di validazione etichettato. APOHF collega l'ottimizzazione dei prompt guidata da preferenze con il gioco d'azzardo duello, ma presuppone preferenze a coppie etichettate manualmente.

Conclusioni e Discussione

Conclusioni Principali

  1. PDO risolve con successo il problema dell'ottimizzazione dei prompt senza etichette, realizzando una ricerca campione-efficiente attraverso il framework di gioco d'azzardo duello
  2. D-TS identifica i prompt di alta qualità più velocemente e in modo più affidabile rispetto al campionamento casuale e ad altri metodi di gioco d'azzardo duello
  3. La mutazione guidata dai migliori performer espande efficacemente la ricerca verso regioni più forti
  4. La preferenza a coppie fornisce segnali di supervisione più stabili rispetto alla valutazione puntuale

Limitazioni

  1. Dipendenza dall'Arbitro: La qualità dell'ottimizzazione dipende dalla capacità dell'arbitro LLM e dalla progettazione del meta-prompt
  2. Rischio di Bias di Stile: L'algoritmo potrebbe essere orientato verso modelli di stile preferiti dall'arbitro piuttosto che verso metriche di compito reali
  3. Limitazioni di Risorse Computazionali: A causa di vincoli di risorse, non è stato possibile condurre esperimenti ampi su più modelli

Direzioni Future

  1. Migliorare l'allineamento dell'arbitro LLM con gli obiettivi del compito
  2. Sviluppare meccanismi di regolazione adattiva per riflettere l'affidabilità del giudizio
  3. Esplorare meccanismi più complessi di cattura dell'incertezza

Valutazione Approfondita

Punti di Forza

  1. Innovazione nella Modellazione del Problema: La modellazione dell'ottimizzazione dei prompt come problema di gioco d'azzardo duello ha fondamento teorico e valore pratico
  2. Completezza del Metodo: Combina strategie di selezione efficiente e espansione dello spazio di ricerca, formando un framework di ottimizzazione completo
  3. Esperimenti Completi: Valutazione completa su più dataset, inclusi esperimenti di ablazione e analisi dell'arbitro
  4. Garanzie Teoriche: Fornisce analisi teorica dei limiti di rammarico di Copeland

Insufficienze

  1. Gestione del Rumore dell'Arbitro: Sebbene il problema del rumore dell'arbitro sia analizzato, le soluzioni sono relativamente semplici
  2. Scalabilità: Le prestazioni su insiemi di prompt candidati di grandi dimensioni non sono sufficientemente verificate
  3. Generalizzazione del Compito: Principalmente verificato su compiti di ragionamento e QA, l'applicabilità ad altri tipi di compiti non è chiara

Impatto

  1. Contributo Accademico: Fornisce un nuovo framework teorico e metodo pratico per l'ottimizzazione dei prompt senza etichette
  2. Valore Pratico: Ha valore di applicazione diretta negli scenari industriali, specialmente quando i dati etichettati sono scarsi
  3. Riproducibilità: Gli autori si impegnano a rendere open source il codice, facilitando la riproduzione e la ricerca ulteriore

Scenari Applicabili

  1. Scarsità di Dati Etichettati: Quando nuovi domini o compiti mancano di grandi quantità di dati etichettati
  2. Esigenze di Distribuzione Rapida: Applicazioni industriali che richiedono prompt ragionevoli in breve tempo
  3. Applicazioni Sensibili ai Costi: Scenari in cui il costo di etichettatura è elevato
  4. Ottimizzazione Multi-Compito: Quando è necessario ottimizzare contemporaneamente i prompt per più compiti correlati

Bibliografia

L'articolo cita numerosi lavori correlati importanti, tra cui:

  • Zhou et al. (2022) - Metodo APE
  • Yang et al. (2024) - Metodo OPRO
  • Fernando et al. (2023) - Metodo Breeder
  • Wu and Liu (2016) - Teoria del Double Thompson Sampling
  • Zheng et al. (2023) - Ricerca correlata su LLM come arbitri

Valutazione Complessiva: Questo è un articolo con contributi importanti nel campo dell'ottimizzazione dei prompt, che risolve efficacemente il problema pratico dell'ottimizzazione dei prompt senza etichette attraverso una modellazione innovativa del problema e un framework teorico. La progettazione del metodo è razionale, la verifica sperimentale è completa, e possiede una forte base teorica e valore pratico.