2025-11-18T10:58:12.748063

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

Wu, Verma, Lee et al.
Large language models (LLMs) are highly sensitive to their input prompts, making prompt design a central challenge. While automatic prompt optimization (APO) reduces manual engineering, most approaches assume access to ground-truth references such as labeled validation data. In practice, however, collecting high-quality labels is costly and slow. We propose the Prompt Duel Optimizer (PDO), a sample-efficient framework for label-free prompt optimization. PDO formulates the problem as a dueling-bandit setting, where supervision signal comes from pairwise preference feedback provided by an LLM judge. The framework combines Double Thompson Sampling (D-TS), which prioritizes informative prompt comparisons, with Top-Performer Guided Mutation, which expands the candidate pool by mutating high-performing prompts. PDO naturally operates in label-free settings and can also incorporate partial labels to mitigate judge noise. Experiments on BIG-bench Hard (BBH) and MS MARCO show that PDO consistently outperforms baseline methods. Ablation studies further demonstrate the effectiveness of both D-TS and prompt mutation.
academic

LLM Prompt Duel Optimizer: Effiziente Label-freie Prompt-Optimierung

Grundinformationen

  • Paper-ID: 2510.13907
  • Titel: LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
  • Autoren: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
  • Klassifizierung: cs.CL (Computerlinguistik), stat.ML (Maschinelles Lernen)
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13907

Zusammenfassung

Große Sprachmodelle (LLMs) sind hochgradig empfindlich gegenüber Eingabe-Prompts, was die Prompt-Gestaltung zu einer zentralen Herausforderung macht. Obwohl automatische Prompt-Optimierung (APO) die manuelle Konstruktion reduziert, setzen die meisten Methoden die Verfügbarkeit von annotierten Validierungsdaten und echten Labels voraus. In der Praxis ist das Sammeln hochwertiger Labels jedoch teuer und zeitaufwändig. Dieses Paper präsentiert den Prompt Duel Optimizer (PDO), ein stichprobeneffizientes Framework für label-freie Prompt-Optimierung. PDO modelliert das Problem als Duel-Bandit-Setting, wobei Überwachungssignale aus paarweisen Präferenzrückmeldungen eines LLM-Schiedsrichters stammen. Das Framework kombiniert Dual-Thompson-Sampling (D-TS) und Top-Performer-gesteuerte Mutation, wobei ersteres informative Prompt-Vergleiche priorisiert und letzteres den Kandidaten-Pool durch Mutation hochperformanter Prompts erweitert. PDO ist natürlicherweise für label-freie Settings geeignet und kann auch mit Teilannotationen kombiniert werden, um Schiedsrichter-Rauschen zu mindern. Experimente auf BIG-bench Hard (BBH) und MS MARCO zeigen, dass PDO konsistent Baseline-Methoden übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Die Leistung großer Sprachmodelle hängt stark von sorgfältig gestalteten Prompts ab, aber die manuelle Erstellung effektiver Prompts erfordert typischerweise umfangreiche Versuch-und-Irrtum-Prozesse. Bestehende automatische Prompt-Optimierungsmethoden (APO) können zwar manuelle Konstruktion reduzieren, weisen aber folgende Schlüsselprobleme auf:

  1. Label-Abhängigkeit: Die meisten APO-Methoden verlassen sich auf annotierte Validierungsdaten zur Bewertung der Leistung von Kandidaten-Prompts
  2. Annotationskosten: In praktischen Anwendungen ist das Beschaffen hochwertiger annotierter Daten sowohl teuer als auch zeitaufwändig
  3. Bereitstellungsverzögerung: In industriellen Szenarien müssen angemessene Prompts bereitgestellt werden, bevor umfangreiche manuell annotierte Daten verfügbar sind

Forschungsmotivation

Die zentrale Forschungsfrage des Papers lautet: Kann man Prompts ohne Referenz zu echten Labels optimieren?

Um dieses Problem zu lösen, schlagen die Autoren vor, LLMs als Schiedsrichter zur Bewertung der Prompt-Qualität zu nutzen und durch paarweise Vergleiche statt unabhängiger Bewertungen zuverlässigere Überwachungssignale zu erhalten. Dieser Ansatz steht vor zwei Hauptherausforderungen:

  1. LLM-Schiedsrichter-Rauschen: LLM-Urteile unterliegen Unsicherheit, Positionsverzerrung und Längensverzerrung
  2. Quadratische Komplexität: Die Anzahl paarweiser Vergleiche wächst quadratisch mit der Anzahl der Kandidaten-Prompts

Kernbeiträge

  1. Innovatives Problem-Modeling: Erstmalige Modellierung der präferenzgesteuerten Prompt-Optimierung als Duel-Bandit-Problem mit paarweisen Vergleichen eines LLM-Schiedsrichters als Überwachungssignal
  2. Algorithmus-Framework-Design: Präsentation des PDO-Frameworks, das Dual-Thompson-Sampling (D-TS) für effiziente Prompt-Auswahl mit Top-Performer-gesteuerter Mutation zur Suchraum-Erweiterung kombiniert
  3. Theoretische Garantien: Bereitstellung theoretischer Analyse mit Copeland-Bedauerns-Grenzen, die beweist, dass PDO asymptotisch zum Copeland-optimalen Prompt konvergiert
  4. Experimentelle Validierung: Validierung der PDO-Effektivität auf BBH- und MS MARCO-Datensätzen mit Ablationsstudien, die den Beitrag jeder Komponente demonstrieren
  5. Flexibilität: PDO funktioniert in rein label-freien Settings und kann auch mit Teilannotationen kombiniert werden, um Schiedsrichter-Rauschen zu reduzieren

Methodische Details

Aufgabendefinition

Sei X der Eingaberaum und P = {p1, ..., pK} eine endliche Menge von Kandidaten-Prompts. Für Prompts pi, pj ∈ P und identische Eingabe x wird durch einen LLM-Schiedsrichter eine binäre Präferenz erhalten:

Judgex(pi, pj) = {
    1, wenn fpi(x) ≻ fpj(x)
    0, andernfalls
}

Das Ziel ist es, innerhalb eines begrenzten Vergleichsbudgets den Condorcet-Gewinner (falls vorhanden) oder den Copeland-Gewinner zu identifizieren.

Modellarchitektur

1. Dual-Thompson-Sampling (D-TS)

D-TS erweitert Thompson-Sampling auf das Duel-Bandit-Setting, wobei jede Runde zwei unabhängige Thompson-Stichproben zur Auswahl informativer Duelle verwendet:

Prozess pro Runde:

  1. Erste Prompt-Auswahl: Berechnung optimistischer Copeland-Scores, Beibehaltung des Satzes mit höchstem Score, Auswahl eines Kandidaten durch Thompson-Sampling
  2. Zweite Prompt-Auswahl: Beschränkung auf unsichere Gegner-Menge, Auswahl eines Duell-Gegners durch Thompson-Sampling
  3. Duel und Update: Ausführung des Schiedsrichter-Vergleichs und Update der Gewinn-Verlust-Statistiken

2. Top-Performer-gesteuerte Mutation

Zur Erweiterung des Suchraums führt PDO regelmäßig Mutationen der leistungsstärksten Prompts durch:

Mutations-Prozess:

  1. Auswahl: Auswahl des Prompts mit dem höchsten aktuellen Copeland-Score
  2. Mutation: Generierung von Varianten durch Template-Bearbeitung, textgradientengesteuerte oder LLM-unterstützte Umschreibung
  3. Erweiterung: Hinzufügen neuer Varianten zum Kandidaten-Pool

Technische Innovationen

  1. Theoretische Grundlagen: Basierend auf Lipschitz-Bandit-Theorie ist die Konzentration von Mutationen um Top-Performer äquivalent zum "Zoomen" der Suche in der Nähe der ungefähren optimalen Region
  2. Rausch-Behandlung: Verwendung gewichteter Präferenz-Matrix-Updates mit Herabgewichtung von begründungsgestützten Urteilen (die lauter sind als antwortgestützte Urteile)
  3. Effizienz-Optimierung: Reduzierung des Rechenaufwands durch Caching-Mechanismen und adaptive Beschneidung

Experimentelle Einrichtung

Datensätze

  1. BIG-bench Hard (BBH): Auswahl von 16 Multiple-Choice-Reasoning-Aufgaben mit Genauigkeit als Bewertungsmetrik
  2. MS MARCO: Vier Kategorien offener QA-Aufgaben (Beschreibung, Entität, Numerisch, Ort) mit 1-5-Punkte-LLM-Bewertung

Bewertungsmetriken

  • BBH-Aufgaben: Genauigkeit
  • MS MARCO-Aufgaben: Ganzzahlige 1-5-Punkte-Bewertung vom LLM-Schiedsrichter

Vergleichsmethoden

Label-freie Baselines:

  • SPO (Self-Supervised Prompt Optimization)
  • CoT (Chain-of-Thought)
  • PoS (Plan-and-Solve)

Überwachte Baselines:

  • APE (Automatic Prompt Engineer)
  • OPRO (Optimization by PROmpting)
  • Breeder (Prompt Evolution)

Implementierungsdetails

  • BBH: 20 initiale Kandidaten-Prompts, 30 Runden, 50 Duelle pro Runde
  • MS MARCO: 50 initiale Kandidaten-Prompts, 30 Runden, 50 Duelle pro Runde
  • Verwendung von Llama-3.3-70B-Instruct als Generierungs-, Schiedsrichter- und Bewertungsmodell
  • D-TS-Parameter α = 1,2

Experimentelle Ergebnisse

Hauptergebnisse

BBH-Aufgaben-Leistung (Label-freies Setting)

PDO erreicht die beste Leistung bei 13 von 16 Aufgaben mit signifikanten Verbesserungen einschließlich:

  • Tracking-7: 0,641 vs 0,543 (+9,8 Prozentpunkte)
  • Web of Lies: 0,942 vs 0,861 (+8,1 Prozentpunkte)

MS MARCO-Aufgaben-Leistung

Bei allen 4 Aufgaben übertrifft PDO mit D-TS konsistent RUCB und zufällige Stichprobennahme und übertrifft die SPO-Baseline innerhalb weniger Runden.

Ablationsstudien

  1. D-TS vs andere Sampling-Strategien: D-TS übertrifft zufällige Stichprobennahme und RUCB signifikant in Stichprobeneffizienz
  2. Mutations-Effekt: Top-Performer-gesteuerte Mutation zeigt signifikante Leistungsverbesserungen bei Web of Lies und Tracking-7-Aufgaben
  3. Paarweise Präferenzen vs punktweise Bewertungen: In 7 von 8 Modell-Aufgaben-Kombinationen übertreffen paarweise Präferenzen punktweise Bewertungen

LLM-Schiedsrichter-Analyse

  1. Aufgabenbezogene Rausch-Level: Die Zuverlässigkeit des Schiedsrichters variiert erheblich zwischen Aufgaben, z.B. Geometric-Aufgaben zeigen größere Beurteilungsfehler
  2. Rolle von Teilannotationen: Die Einführung von 30%-50% echten Labels kann Beurteilungsrauschen signifikant reduzieren
  3. Modellgrößen-Einfluss: 70B- und 8B-Modelle als Schiedsrichter zeigen ähnliche Gesamtleistung

Verwandte Arbeiten

APO-Methoden-Entwicklung

Traditionelle APO-Methoden verlassen sich stark auf Überwachungssignale, während neuere Forschung beginnt, die Überwachungsanforderungen zu reduzieren. SPO eliminiert externe Referenzen durch Ausgabe-Kontrast, nutzt aber eine Greedy-Hill-Climbing-Strategie ohne prinzipielle Explorations-Exploitations-Balance.

Bandit-Anwendungen in der Prompt-Optimierung

OPTS und TRIPLE modellieren die Prompt-Strategie-Auswahl als Bandit-Problem, benötigen aber immer noch annotierte Validierungsmengen. APOHF verbindet präferenzgesteuerte Prompt-Optimierung mit Duel-Bandits, setzt aber manuell annotierte paarweise Präferenzen voraus.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. PDO löst erfolgreich das label-freie Prompt-Optimierungsproblem durch ein Duel-Bandit-Framework mit stichprobeneffizienter Suche
  2. D-TS identifiziert hochwertige Prompts schneller und zuverlässiger als zufällige Stichprobennahme und andere Duel-Bandit-Methoden
  3. Top-Performer-gesteuerte Mutation lenkt die Suche effektiv in stärkere Regionen
  4. Paarweise Präferenzen bieten stabilere Überwachungssignale als punktweise Bewertungen

Einschränkungen

  1. Schiedsrichter-Abhängigkeit: Die Optimierungsqualität hängt von der Fähigkeit des LLM-Schiedsrichters und dem Meta-Prompt-Design ab
  2. Stil-Präferenz-Risiko: Der Algorithmus könnte sich auf Stil-Muster konzentrieren, die der Schiedsrichter bevorzugt, statt echte Task-Metriken
  3. Rechenressourcen-Beschränkungen: Aufgrund von Ressourcenbeschränkungen konnten keine umfassenden Experimente auf mehr Modellen durchgeführt werden

Zukünftige Richtungen

  1. Verbesserung der Ausrichtung zwischen LLM-Schiedsrichter und Task-Zielen
  2. Entwicklung adaptiver Anpassungsmechanismen zur Reflexion der Beurteilungs-Zuverlässigkeit
  3. Erkundung komplexerer Unsicherheits-Erfassungsmechanismen

Tiefgreifende Bewertung

Stärken

  1. Innovative Problem-Modellierung: Die Modellierung der Prompt-Optimierung als Duel-Bandit-Problem hat theoretische Grundlagen und praktischen Wert
  2. Methoden-Vollständigkeit: Kombination effizienter Auswahl-Strategien und Suchraum-Erweiterung bildet ein umfassendes Optimierungs-Framework
  3. Umfassende Experimente: Gründliche Bewertung über mehrere Datensätze mit Ablationsstudien und Schiedsrichter-Analyse
  4. Theoretische Garantien: Bereitstellung theoretischer Analyse mit Copeland-Bedauerns-Grenzen

Mängel

  1. Rausch-Behandlung: Obwohl Schiedsrichter-Rauschen analysiert wird, sind die Lösungen relativ einfach
  2. Skalierbarkeit: Die Leistung bei großen Kandidaten-Prompt-Mengen ist nicht ausreichend validiert
  3. Task-Generalisierung: Hauptsächlich auf Reasoning- und QA-Aufgaben validiert, Anwendbarkeit auf andere Task-Typen unklar

Auswirkungen

  1. Akademischer Beitrag: Bietet neues theoretisches Framework und praktische Methode für label-freie Prompt-Optimierung
  2. Praktischer Wert: Hat direkte Anwendbarkeit in industriellen Szenarien, besonders bei Knappheit annotierter Daten
  3. Reproduzierbarkeit: Autoren verpflichten sich zur Open-Source-Bereitstellung des Codes, was Reproduktion und weitere Forschung fördert

Anwendungsszenarien

  1. Knappheit annotierter Daten: Neue Domänen oder Tasks mit wenigen annotierten Daten
  2. Schnelle Bereitstellung: Industrielle Anwendungen, die schnell angemessene Prompts benötigen
  3. Kostenempfindliche Anwendungen: Szenarien mit hohen Annotationskosten
  4. Multi-Task-Optimierung: Gleichzeitige Prompt-Optimierung für mehrere verwandte Tasks

Literaturverzeichnis

Das Paper zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

  • Zhou et al. (2022) - APE-Methode
  • Yang et al. (2024) - OPRO-Methode
  • Fernando et al. (2023) - Breeder-Methode
  • Wu and Liu (2016) - Dual-Thompson-Sampling-Theorie
  • Zheng et al. (2023) - Verwandte Forschung zu LLMs als Schiedsrichter

Gesamtbewertung: Dies ist ein Paper mit wichtigen Beiträgen im Bereich der Prompt-Optimierung, das durch innovative Problem-Modellierung und theoretisches Framework das praktische Problem der label-freien Prompt-Optimierung effektiv löst. Die Methoden-Gestaltung ist rational, die experimentelle Validierung umfassend, mit starker theoretischer Grundlage und praktischem Wert.