Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
academic
Ottimizzatore di Duello dei Prompt LLM: Ottimizzazione Efficiente dei Prompt Senza Etichette
I modelli linguistici di grandi dimensioni (LLM) sono altamente sensibili ai prompt di input, rendendo la progettazione dei prompt una sfida fondamentale. Sebbene l'ottimizzazione automatica dei prompt (APO) riduca l'ingegneria manuale, la maggior parte dei metodi presuppone l'accesso a dati di validazione etichettati e altre etichette di verità. Tuttavia, nella pratica, la raccolta di etichette di alta qualità è sia costosa che dispendiosa in termini di tempo. Questo articolo propone l'Ottimizzatore di Duello dei Prompt (PDO), un framework campione-efficiente per l'ottimizzazione dei prompt senza etichette. PDO modella il problema come un'impostazione di gioco d'azzardo duello, dove i segnali di supervisione provengono da feedback di preferenza a coppie forniti da un arbitro LLM. Il framework combina il Double Thompson Sampling (D-TS) e la mutazione guidata dai migliori performer, dove il primo dà priorità ai confronti di prompt informativi e il secondo espande il pool di candidati mutando prompt ad alte prestazioni. PDO è naturalmente adatto all'impostazione senza etichette e può anche incorporare etichette parziali per mitigare il rumore dell'arbitro. Gli esperimenti su BIG-bench Hard (BBH) e MS MARCO dimostrano che PDO supera costantemente i metodi di base su vari compiti.
Le prestazioni dei modelli linguistici di grandi dimensioni dipendono in larga misura da prompt accuratamente progettati, ma la creazione manuale di prompt efficaci di solito richiede un ampio processo di prova ed errore. I metodi APO (Automatic Prompt Optimization) esistenti, sebbene possano ridurre l'ingegneria manuale, presentano i seguenti problemi chiave:
Dipendenza da Etichette: La maggior parte dei metodi APO dipende da dati di validazione etichettati per valutare le prestazioni dei prompt candidati
Costo di Etichettatura: Nelle applicazioni pratiche, l'acquisizione di dati etichettati di alta qualità è sia costosa che dispendiosa in termini di tempo
Ritardo di Distribuzione: Negli scenari industriali, è necessario distribuire prompt ragionevoli prima che siano disponibili dati etichettati su larga scala
La domanda di ricerca centrale è: È possibile ottimizzare i prompt senza riferimenti a etichette reali?
Per affrontare questo problema, gli autori propongono di utilizzare l'LLM come arbitro per valutare la qualità dei prompt, ottenendo segnali di supervisione più affidabili attraverso confronti a coppie piuttosto che valutazioni indipendenti. Questo approccio affronta due sfide principali:
Rumore dell'Arbitro LLM: I giudizi dell'LLM presentano incertezza, bias di posizione e bias di verbosità
Complessità Quadratica: Il numero di confronti a coppie cresce quadraticamente con il numero di prompt candidati
Innovazione nella Modellazione del Problema: Primo a modellare l'ottimizzazione dei prompt basata su preferenze come un problema di gioco d'azzardo duello, utilizzando confronti a coppie dell'arbitro LLM come segnale di supervisione
Progettazione del Framework Algoritmico: Propone il framework PDO, che combina Double Thompson Sampling (D-TS) per la selezione efficiente dei prompt e mutazione guidata dai migliori performer per l'espansione dello spazio di ricerca
Garanzie Teoriche: Fornisce analisi teorica dei limiti di rammarico di Copeland, provando la convergenza asintotica di PDO verso il prompt ottimale di Copeland
Verifica Sperimentale: Verifica l'efficacia di PDO sui dataset BBH e MS MARCO, e dimostra il contributo di ogni componente attraverso esperimenti di ablazione
Flessibilità: PDO può funzionare in impostazioni puramente senza etichette e può anche incorporare etichette parziali per ridurre il rumore dell'arbitro
Sia X lo spazio di input e P = {p₁, ..., pₖ} un insieme finito di prompt candidati. Per i prompt pᵢ, pⱼ ∈ P e lo stesso input x, si ottiene una preferenza binaria attraverso l'arbitro LLM:
D-TS estende il Thompson Sampling all'impostazione di gioco d'azzardo duello, utilizzando due campionamenti Thompson indipendenti per round per selezionare duelli informativi:
Processo per Round:
Selezione del Primo Prompt: Calcola il punteggio di Copeland ottimista, mantiene l'insieme di prompt con il punteggio più alto, seleziona il candidato tramite Thompson Sampling
Selezione del Secondo Prompt: Limita all'insieme di avversari incerti, seleziona il duellante tramite Thompson Sampling
Duello e Aggiornamento: Esegue il confronto dell'arbitro e aggiorna le statistiche di vittoria/sconfitta
Fondamento Teorico: Basato sulla teoria dei bandit di Lipschitz, la mutazione concentrata attorno ai migliori performer equivale a "ingrandire" la ricerca in un'area approssimativamente ottimale
Gestione del Rumore: Adotta l'aggiornamento della matrice di preferenza ponderata, assegnando pesi inferiori ai giudizi basati sul ragionamento (più rumorosi rispetto ai giudizi basati sulla risposta)
Ottimizzazione dell'Efficienza: Riduce il sovraccarico computazionale attraverso meccanismi di cache e potatura adattiva
Livelli di Rumore Correlati al Compito: L'affidabilità dell'arbitro varia significativamente tra i compiti, come errori di giudizio più grandi nel compito Geometric
Ruolo delle Etichette Parziali: L'introduzione del 30%-50% di etichette reali riduce significativamente il rumore di giudizio
Impatto della Dimensione del Modello: I modelli da 70B e 8B come arbitri mostrano prestazioni complessive simili
I metodi APO tradizionali dipendono fortemente dai segnali di supervisione, mentre la ricerca recente inizia a ridurre i requisiti di supervisione. SPO elimina i riferimenti esterni attraverso il contrasto di output, ma adotta una strategia greedy hill-climbing, mancando di un equilibrio esplorazione-sfruttamento principiato.
OPTS e TRIPLE modellano la selezione della strategia di prompt come un problema di gioco d'azzardo, ma richiedono comunque un set di validazione etichettato. APOHF collega l'ottimizzazione dei prompt guidata da preferenze con il gioco d'azzardo duello, ma presuppone preferenze a coppie etichettate manualmente.
PDO risolve con successo il problema dell'ottimizzazione dei prompt senza etichette, realizzando una ricerca campione-efficiente attraverso il framework di gioco d'azzardo duello
D-TS identifica i prompt di alta qualità più velocemente e in modo più affidabile rispetto al campionamento casuale e ad altri metodi di gioco d'azzardo duello
La mutazione guidata dai migliori performer espande efficacemente la ricerca verso regioni più forti
La preferenza a coppie fornisce segnali di supervisione più stabili rispetto alla valutazione puntuale
Dipendenza dall'Arbitro: La qualità dell'ottimizzazione dipende dalla capacità dell'arbitro LLM e dalla progettazione del meta-prompt
Rischio di Bias di Stile: L'algoritmo potrebbe essere orientato verso modelli di stile preferiti dall'arbitro piuttosto che verso metriche di compito reali
Limitazioni di Risorse Computazionali: A causa di vincoli di risorse, non è stato possibile condurre esperimenti ampi su più modelli
Innovazione nella Modellazione del Problema: La modellazione dell'ottimizzazione dei prompt come problema di gioco d'azzardo duello ha fondamento teorico e valore pratico
Completezza del Metodo: Combina strategie di selezione efficiente e espansione dello spazio di ricerca, formando un framework di ottimizzazione completo
Esperimenti Completi: Valutazione completa su più dataset, inclusi esperimenti di ablazione e analisi dell'arbitro
Garanzie Teoriche: Fornisce analisi teorica dei limiti di rammarico di Copeland
L'articolo cita numerosi lavori correlati importanti, tra cui:
Zhou et al. (2022) - Metodo APE
Yang et al. (2024) - Metodo OPRO
Fernando et al. (2023) - Metodo Breeder
Wu and Liu (2016) - Teoria del Double Thompson Sampling
Zheng et al. (2023) - Ricerca correlata su LLM come arbitri
Valutazione Complessiva: Questo è un articolo con contributi importanti nel campo dell'ottimizzazione dei prompt, che risolve efficacemente il problema pratico dell'ottimizzazione dei prompt senza etichette attraverso una modellazione innovativa del problema e un framework teorico. La progettazione del metodo è razionale, la verifica sperimentale è completa, e possiede una forte base teorica e valore pratico.