Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
Große Sprachmodelle (LLMs) sind hochgradig empfindlich gegenüber Eingabe-Prompts, was die Prompt-Gestaltung zu einer zentralen Herausforderung macht. Obwohl automatische Prompt-Optimierung (APO) die manuelle Konstruktion reduziert, setzen die meisten Methoden die Verfügbarkeit von annotierten Validierungsdaten und echten Labels voraus. In der Praxis ist das Sammeln hochwertiger Labels jedoch teuer und zeitaufwändig. Dieses Paper präsentiert den Prompt Duel Optimizer (PDO), ein stichprobeneffizientes Framework für label-freie Prompt-Optimierung. PDO modelliert das Problem als Duel-Bandit-Setting, wobei Überwachungssignale aus paarweisen Präferenzrückmeldungen eines LLM-Schiedsrichters stammen. Das Framework kombiniert Dual-Thompson-Sampling (D-TS) und Top-Performer-gesteuerte Mutation, wobei ersteres informative Prompt-Vergleiche priorisiert und letzteres den Kandidaten-Pool durch Mutation hochperformanter Prompts erweitert. PDO ist natürlicherweise für label-freie Settings geeignet und kann auch mit Teilannotationen kombiniert werden, um Schiedsrichter-Rauschen zu mindern. Experimente auf BIG-bench Hard (BBH) und MS MARCO zeigen, dass PDO konsistent Baseline-Methoden übertrifft.
Die Leistung großer Sprachmodelle hängt stark von sorgfältig gestalteten Prompts ab, aber die manuelle Erstellung effektiver Prompts erfordert typischerweise umfangreiche Versuch-und-Irrtum-Prozesse. Bestehende automatische Prompt-Optimierungsmethoden (APO) können zwar manuelle Konstruktion reduzieren, weisen aber folgende Schlüsselprobleme auf:
Label-Abhängigkeit: Die meisten APO-Methoden verlassen sich auf annotierte Validierungsdaten zur Bewertung der Leistung von Kandidaten-Prompts
Annotationskosten: In praktischen Anwendungen ist das Beschaffen hochwertiger annotierter Daten sowohl teuer als auch zeitaufwändig
Bereitstellungsverzögerung: In industriellen Szenarien müssen angemessene Prompts bereitgestellt werden, bevor umfangreiche manuell annotierte Daten verfügbar sind
Die zentrale Forschungsfrage des Papers lautet: Kann man Prompts ohne Referenz zu echten Labels optimieren?
Um dieses Problem zu lösen, schlagen die Autoren vor, LLMs als Schiedsrichter zur Bewertung der Prompt-Qualität zu nutzen und durch paarweise Vergleiche statt unabhängiger Bewertungen zuverlässigere Überwachungssignale zu erhalten. Dieser Ansatz steht vor zwei Hauptherausforderungen:
LLM-Schiedsrichter-Rauschen: LLM-Urteile unterliegen Unsicherheit, Positionsverzerrung und Längensverzerrung
Quadratische Komplexität: Die Anzahl paarweiser Vergleiche wächst quadratisch mit der Anzahl der Kandidaten-Prompts
Innovatives Problem-Modeling: Erstmalige Modellierung der präferenzgesteuerten Prompt-Optimierung als Duel-Bandit-Problem mit paarweisen Vergleichen eines LLM-Schiedsrichters als Überwachungssignal
Algorithmus-Framework-Design: Präsentation des PDO-Frameworks, das Dual-Thompson-Sampling (D-TS) für effiziente Prompt-Auswahl mit Top-Performer-gesteuerter Mutation zur Suchraum-Erweiterung kombiniert
Theoretische Garantien: Bereitstellung theoretischer Analyse mit Copeland-Bedauerns-Grenzen, die beweist, dass PDO asymptotisch zum Copeland-optimalen Prompt konvergiert
Experimentelle Validierung: Validierung der PDO-Effektivität auf BBH- und MS MARCO-Datensätzen mit Ablationsstudien, die den Beitrag jeder Komponente demonstrieren
Flexibilität: PDO funktioniert in rein label-freien Settings und kann auch mit Teilannotationen kombiniert werden, um Schiedsrichter-Rauschen zu reduzieren
Sei X der Eingaberaum und P = {p1, ..., pK} eine endliche Menge von Kandidaten-Prompts. Für Prompts pi, pj ∈ P und identische Eingabe x wird durch einen LLM-Schiedsrichter eine binäre Präferenz erhalten:
D-TS erweitert Thompson-Sampling auf das Duel-Bandit-Setting, wobei jede Runde zwei unabhängige Thompson-Stichproben zur Auswahl informativer Duelle verwendet:
Prozess pro Runde:
Erste Prompt-Auswahl: Berechnung optimistischer Copeland-Scores, Beibehaltung des Satzes mit höchstem Score, Auswahl eines Kandidaten durch Thompson-Sampling
Zweite Prompt-Auswahl: Beschränkung auf unsichere Gegner-Menge, Auswahl eines Duell-Gegners durch Thompson-Sampling
Duel und Update: Ausführung des Schiedsrichter-Vergleichs und Update der Gewinn-Verlust-Statistiken
Theoretische Grundlagen: Basierend auf Lipschitz-Bandit-Theorie ist die Konzentration von Mutationen um Top-Performer äquivalent zum "Zoomen" der Suche in der Nähe der ungefähren optimalen Region
Rausch-Behandlung: Verwendung gewichteter Präferenz-Matrix-Updates mit Herabgewichtung von begründungsgestützten Urteilen (die lauter sind als antwortgestützte Urteile)
Effizienz-Optimierung: Reduzierung des Rechenaufwands durch Caching-Mechanismen und adaptive Beschneidung
Aufgabenbezogene Rausch-Level: Die Zuverlässigkeit des Schiedsrichters variiert erheblich zwischen Aufgaben, z.B. Geometric-Aufgaben zeigen größere Beurteilungsfehler
Rolle von Teilannotationen: Die Einführung von 30%-50% echten Labels kann Beurteilungsrauschen signifikant reduzieren
Modellgrößen-Einfluss: 70B- und 8B-Modelle als Schiedsrichter zeigen ähnliche Gesamtleistung
Traditionelle APO-Methoden verlassen sich stark auf Überwachungssignale, während neuere Forschung beginnt, die Überwachungsanforderungen zu reduzieren. SPO eliminiert externe Referenzen durch Ausgabe-Kontrast, nutzt aber eine Greedy-Hill-Climbing-Strategie ohne prinzipielle Explorations-Exploitations-Balance.
OPTS und TRIPLE modellieren die Prompt-Strategie-Auswahl als Bandit-Problem, benötigen aber immer noch annotierte Validierungsmengen. APOHF verbindet präferenzgesteuerte Prompt-Optimierung mit Duel-Bandits, setzt aber manuell annotierte paarweise Präferenzen voraus.
Das Paper zitiert mehrere wichtige verwandte Arbeiten, einschließlich:
Zhou et al. (2022) - APE-Methode
Yang et al. (2024) - OPRO-Methode
Fernando et al. (2023) - Breeder-Methode
Wu and Liu (2016) - Dual-Thompson-Sampling-Theorie
Zheng et al. (2023) - Verwandte Forschung zu LLMs als Schiedsrichter
Gesamtbewertung: Dies ist ein Paper mit wichtigen Beiträgen im Bereich der Prompt-Optimierung, das durch innovative Problem-Modellierung und theoretisches Framework das praktische Problem der label-freien Prompt-Optimierung effektiv löst. Die Methoden-Gestaltung ist rational, die experimentelle Validierung umfassend, mit starker theoretischer Grundlage und praktischem Wert.