2025-11-18T10:58:12.748063

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

Wu, Verma, Lee et al.

Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.

academic

LLM Prompt Duel Optimizer: Effiziente Label-freie Prompt-Optimierung

Grundinformationen

Paper-ID: 2510.13907
Titel: LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
Autoren: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
Klassifizierung: cs.CL (Computerlinguistik), stat.ML (Maschinelles Lernen)
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.13907

Zusammenfassung

Große Sprachmodelle (LLMs) sind hochgradig empfindlich gegenüber Eingabe-Prompts, was die Prompt-Gestaltung zu einer zentralen Herausforderung macht. Obwohl automatische Prompt-Optimierung (APO) die manuelle Konstruktion reduziert, setzen die meisten Methoden die Verfügbarkeit von annotierten Validierungsdaten und echten Labels voraus. In der Praxis ist das Sammeln hochwertiger Labels jedoch teuer und zeitaufwändig. Dieses Paper präsentiert den Prompt Duel Optimizer (PDO), ein stichprobeneffizientes Framework für label-freie Prompt-Optimierung. PDO modelliert das Problem als Duel-Bandit-Setting, wobei Überwachungssignale aus paarweisen Präferenzrückmeldungen eines LLM-Schiedsrichters stammen. Das Framework kombiniert Dual-Thompson-Sampling (D-TS) und Top-Performer-gesteuerte Mutation, wobei ersteres informative Prompt-Vergleiche priorisiert und letzteres den Kandidaten-Pool durch Mutation hochperformanter Prompts erweitert. PDO ist natürlicherweise für label-freie Settings geeignet und kann auch mit Teilannotationen kombiniert werden, um Schiedsrichter-Rauschen zu mindern. Experimente auf BIG-bench Hard (BBH) und MS MARCO zeigen, dass PDO konsistent Baseline-Methoden übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Die Leistung großer Sprachmodelle hängt stark von sorgfältig gestalteten Prompts ab, aber die manuelle Erstellung effektiver Prompts erfordert typischerweise umfangreiche Versuch-und-Irrtum-Prozesse. Bestehende automatische Prompt-Optimierungsmethoden (APO) können zwar manuelle Konstruktion reduzieren, weisen aber folgende Schlüsselprobleme auf:

Label-Abhängigkeit: Die meisten APO-Methoden verlassen sich auf annotierte Validierungsdaten zur Bewertung der Leistung von Kandidaten-Prompts
Annotationskosten: In praktischen Anwendungen ist das Beschaffen hochwertiger annotierter Daten sowohl teuer als auch zeitaufwändig
Bereitstellungsverzögerung: In industriellen Szenarien müssen angemessene Prompts bereitgestellt werden, bevor umfangreiche manuell annotierte Daten verfügbar sind

Forschungsmotivation

Die zentrale Forschungsfrage des Papers lautet: Kann man Prompts ohne Referenz zu echten Labels optimieren?

Um dieses Problem zu lösen, schlagen die Autoren vor, LLMs als Schiedsrichter zur Bewertung der Prompt-Qualität zu nutzen und durch paarweise Vergleiche statt unabhängiger Bewertungen zuverlässigere Überwachungssignale zu erhalten. Dieser Ansatz steht vor zwei Hauptherausforderungen:

LLM-Schiedsrichter-Rauschen: LLM-Urteile unterliegen Unsicherheit, Positionsverzerrung und Längensverzerrung
Quadratische Komplexität: Die Anzahl paarweiser Vergleiche wächst quadratisch mit der Anzahl der Kandidaten-Prompts

Kernbeiträge

Innovatives Problem-Modeling: Erstmalige Modellierung der präferenzgesteuerten Prompt-Optimierung als Duel-Bandit-Problem mit paarweisen Vergleichen eines LLM-Schiedsrichters als Überwachungssignal
Algorithmus-Framework-Design: Präsentation des PDO-Frameworks, das Dual-Thompson-Sampling (D-TS) für effiziente Prompt-Auswahl mit Top-Performer-gesteuerter Mutation zur Suchraum-Erweiterung kombiniert
Theoretische Garantien: Bereitstellung theoretischer Analyse mit Copeland-Bedauerns-Grenzen, die beweist, dass PDO asymptotisch zum Copeland-optimalen Prompt konvergiert
Experimentelle Validierung: Validierung der PDO-Effektivität auf BBH- und MS MARCO-Datensätzen mit Ablationsstudien, die den Beitrag jeder Komponente demonstrieren
Flexibilität: PDO funktioniert in rein label-freien Settings und kann auch mit Teilannotationen kombiniert werden, um Schiedsrichter-Rauschen zu reduzieren

Methodische Details

Aufgabendefinition

Sei X der Eingaberaum und P = {p1, ..., pK} eine endliche Menge von Kandidaten-Prompts. Für Prompts pi, pj ∈ P und identische Eingabe x wird durch einen LLM-Schiedsrichter eine binäre Präferenz erhalten:

Judgex(pi, pj) = {
    1, wenn fpi(x) ≻ fpj(x)
    0, andernfalls
}

Das Ziel ist es, innerhalb eines begrenzten Vergleichsbudgets den Condorcet-Gewinner (falls vorhanden) oder den Copeland-Gewinner zu identifizieren.

Modellarchitektur

1. Dual-Thompson-Sampling (D-TS)

D-TS erweitert Thompson-Sampling auf das Duel-Bandit-Setting, wobei jede Runde zwei unabhängige Thompson-Stichproben zur Auswahl informativer Duelle verwendet:

Prozess pro Runde:

Erste Prompt-Auswahl: Berechnung optimistischer Copeland-Scores, Beibehaltung des Satzes mit höchstem Score, Auswahl eines Kandidaten durch Thompson-Sampling
Zweite Prompt-Auswahl: Beschränkung auf unsichere Gegner-Menge, Auswahl eines Duell-Gegners durch Thompson-Sampling
Duel und Update: Ausführung des Schiedsrichter-Vergleichs und Update der Gewinn-Verlust-Statistiken

2. Top-Performer-gesteuerte Mutation

Zur Erweiterung des Suchraums führt PDO regelmäßig Mutationen der leistungsstärksten Prompts durch:

Mutations-Prozess:

Auswahl: Auswahl des Prompts mit dem höchsten aktuellen Copeland-Score
Mutation: Generierung von Varianten durch Template-Bearbeitung, textgradientengesteuerte oder LLM-unterstützte Umschreibung
Erweiterung: Hinzufügen neuer Varianten zum Kandidaten-Pool

Technische Innovationen

Theoretische Grundlagen: Basierend auf Lipschitz-Bandit-Theorie ist die Konzentration von Mutationen um Top-Performer äquivalent zum "Zoomen" der Suche in der Nähe der ungefähren optimalen Region
Rausch-Behandlung: Verwendung gewichteter Präferenz-Matrix-Updates mit Herabgewichtung von begründungsgestützten Urteilen (die lauter sind als antwortgestützte Urteile)
Effizienz-Optimierung: Reduzierung des Rechenaufwands durch Caching-Mechanismen und adaptive Beschneidung

Experimentelle Einrichtung

Datensätze

BIG-bench Hard (BBH): Auswahl von 16 Multiple-Choice-Reasoning-Aufgaben mit Genauigkeit als Bewertungsmetrik
MS MARCO: Vier Kategorien offener QA-Aufgaben (Beschreibung, Entität, Numerisch, Ort) mit 1-5-Punkte-LLM-Bewertung

Bewertungsmetriken

BBH-Aufgaben: Genauigkeit
MS MARCO-Aufgaben: Ganzzahlige 1-5-Punkte-Bewertung vom LLM-Schiedsrichter

Vergleichsmethoden

Label-freie Baselines:

SPO (Self-Supervised Prompt Optimization)
CoT (Chain-of-Thought)
PoS (Plan-and-Solve)

Überwachte Baselines:

APE (Automatic Prompt Engineer)
OPRO (Optimization by PROmpting)
Breeder (Prompt Evolution)

Implementierungsdetails

BBH: 20 initiale Kandidaten-Prompts, 30 Runden, 50 Duelle pro Runde
MS MARCO: 50 initiale Kandidaten-Prompts, 30 Runden, 50 Duelle pro Runde
Verwendung von Llama-3.3-70B-Instruct als Generierungs-, Schiedsrichter- und Bewertungsmodell
D-TS-Parameter α = 1,2

Experimentelle Ergebnisse

Hauptergebnisse

BBH-Aufgaben-Leistung (Label-freies Setting)

PDO erreicht die beste Leistung bei 13 von 16 Aufgaben mit signifikanten Verbesserungen einschließlich:

Tracking-7: 0,641 vs 0,543 (+9,8 Prozentpunkte)
Web of Lies: 0,942 vs 0,861 (+8,1 Prozentpunkte)

MS MARCO-Aufgaben-Leistung

Bei allen 4 Aufgaben übertrifft PDO mit D-TS konsistent RUCB und zufällige Stichprobennahme und übertrifft die SPO-Baseline innerhalb weniger Runden.

Ablationsstudien

D-TS vs andere Sampling-Strategien: D-TS übertrifft zufällige Stichprobennahme und RUCB signifikant in Stichprobeneffizienz
Mutations-Effekt: Top-Performer-gesteuerte Mutation zeigt signifikante Leistungsverbesserungen bei Web of Lies und Tracking-7-Aufgaben
Paarweise Präferenzen vs punktweise Bewertungen: In 7 von 8 Modell-Aufgaben-Kombinationen übertreffen paarweise Präferenzen punktweise Bewertungen

LLM-Schiedsrichter-Analyse

Aufgabenbezogene Rausch-Level: Die Zuverlässigkeit des Schiedsrichters variiert erheblich zwischen Aufgaben, z.B. Geometric-Aufgaben zeigen größere Beurteilungsfehler
Rolle von Teilannotationen: Die Einführung von 30%-50% echten Labels kann Beurteilungsrauschen signifikant reduzieren
Modellgrößen-Einfluss: 70B- und 8B-Modelle als Schiedsrichter zeigen ähnliche Gesamtleistung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

PDO löst erfolgreich das label-freie Prompt-Optimierungsproblem durch ein Duel-Bandit-Framework mit stichprobeneffizienter Suche
D-TS identifiziert hochwertige Prompts schneller und zuverlässiger als zufällige Stichprobennahme und andere Duel-Bandit-Methoden
Top-Performer-gesteuerte Mutation lenkt die Suche effektiv in stärkere Regionen
Paarweise Präferenzen bieten stabilere Überwachungssignale als punktweise Bewertungen

Einschränkungen

Schiedsrichter-Abhängigkeit: Die Optimierungsqualität hängt von der Fähigkeit des LLM-Schiedsrichters und dem Meta-Prompt-Design ab
Stil-Präferenz-Risiko: Der Algorithmus könnte sich auf Stil-Muster konzentrieren, die der Schiedsrichter bevorzugt, statt echte Task-Metriken
Rechenressourcen-Beschränkungen: Aufgrund von Ressourcenbeschränkungen konnten keine umfassenden Experimente auf mehr Modellen durchgeführt werden

Zukünftige Richtungen

Verbesserung der Ausrichtung zwischen LLM-Schiedsrichter und Task-Zielen
Entwicklung adaptiver Anpassungsmechanismen zur Reflexion der Beurteilungs-Zuverlässigkeit
Erkundung komplexerer Unsicherheits-Erfassungsmechanismen

Tiefgreifende Bewertung

Stärken

Innovative Problem-Modellierung: Die Modellierung der Prompt-Optimierung als Duel-Bandit-Problem hat theoretische Grundlagen und praktischen Wert
Methoden-Vollständigkeit: Kombination effizienter Auswahl-Strategien und Suchraum-Erweiterung bildet ein umfassendes Optimierungs-Framework
Umfassende Experimente: Gründliche Bewertung über mehrere Datensätze mit Ablationsstudien und Schiedsrichter-Analyse
Theoretische Garantien: Bereitstellung theoretischer Analyse mit Copeland-Bedauerns-Grenzen

Mängel

Rausch-Behandlung: Obwohl Schiedsrichter-Rauschen analysiert wird, sind die Lösungen relativ einfach
Skalierbarkeit: Die Leistung bei großen Kandidaten-Prompt-Mengen ist nicht ausreichend validiert
Task-Generalisierung: Hauptsächlich auf Reasoning- und QA-Aufgaben validiert, Anwendbarkeit auf andere Task-Typen unklar

Auswirkungen

Akademischer Beitrag: Bietet neues theoretisches Framework und praktische Methode für label-freie Prompt-Optimierung
Praktischer Wert: Hat direkte Anwendbarkeit in industriellen Szenarien, besonders bei Knappheit annotierter Daten
Reproduzierbarkeit: Autoren verpflichten sich zur Open-Source-Bereitstellung des Codes, was Reproduktion und weitere Forschung fördert

Anwendungsszenarien

Knappheit annotierter Daten: Neue Domänen oder Tasks mit wenigen annotierten Daten
Schnelle Bereitstellung: Industrielle Anwendungen, die schnell angemessene Prompts benötigen
Kostenempfindliche Anwendungen: Szenarien mit hohen Annotationskosten
Multi-Task-Optimierung: Gleichzeitige Prompt-Optimierung für mehrere verwandte Tasks

Literaturverzeichnis

Das Paper zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

Zhou et al. (2022) - APE-Methode
Yang et al. (2024) - OPRO-Methode
Fernando et al. (2023) - Breeder-Methode
Wu and Liu (2016) - Dual-Thompson-Sampling-Theorie
Zheng et al. (2023) - Verwandte Forschung zu LLMs als Schiedsrichter

Gesamtbewertung: Dies ist ein Paper mit wichtigen Beiträgen im Bereich der Prompt-Optimierung, das durch innovative Problem-Modellierung und theoretisches Framework das praktische Problem der label-freien Prompt-Optimierung effektiv löst. Die Methoden-Gestaltung ist rational, die experimentelle Validierung umfassend, mit starker theoretischer Grundlage und praktischem Wert.