2025-11-22T12:04:16.552264

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards

Zhuang, Chen, Zeng et al.
We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.
academic

Unterrichten von LLMs, überzeugend zu sein: Reward-Enhanced Policy Optimization für Alignment aus heterogenen Rewards

Grundinformationen

  • Paper-ID: 2510.04214
  • Titel: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
  • Autoren: Zhuoran Zhuang, Ye Chen, Xia Zeng*, Chao Luo, Luhui Liu und Yihan Chen (Fliggy Alibaba)
  • Klassifizierung: cs.CL
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2510.04214v2

Zusammenfassung

Diese Forschung untersucht die Bereitstellung großer Sprachmodelle (LLMs) als Geschäftsentwicklungs-(BD-)Agenten für Online-Reisebüros (OTAs) bei überzeugenden Preisverhandlungen. Der Agent muss mehrstufige Überzeugungsarbeit gemäß Standardarbeitsanweisungen (SOP) durchführen, während er die Zahlungsfähigkeit von Reisenden und die Rentabilität von Hotels ausgleicht, umgangssprachliche Eingaben versteht und Schutzmaßnahmen einhält. Herkömmliche Post-Training-Methoden (wie überwachtes Feintuning oder Single-Reward-Optimierung) leiden unter Überanpassung an Skripte, mangelnden differenzierten Überzeugungsstilen, Unfähigkeit zur Durchsetzung überprüfbarer Geschäftsbeschränkungen.

Die Autoren schlagen das REPO-Framework (Reward-Enhanced Policy Optimization) vor, ein Reinforcement-Learning-Post-Training-Framework, das LLMs mit heterogenen Rewards ausrichtet: Reward-Modelle (RM) aus Präferenztraining für dichtes menschliches Alignment, Reward-Juroren (RJ) für fortgeschrittenes Überzeugungsverhalten und SOP-Compliance, und programmgesteuerte Reward-Funktionen (RF) für deterministische Überprüfungen von Numerik, Format und Schutzmaßnahmen. In produktionsreifen Bewertungen verbessert REPO die Gesprächsqualität und die Problemlösungsquote erheblich.

Forschungshintergrund und Motivation

Problemdefinition

Preisverhandlungen bei Online-Reisebüros sind ein komplexes Geschäftsszenario, das mehrstufige Dialoge zwischen BD-Agenten und Hotelmanagern erfordert, mit dem Ziel, die Zimmerpreise zu senken, um die Zahlungsfähigkeit von Reisenden zu verbessern, während die Rentabilität der Hotels erhalten bleibt. Diese Verhandlungen beeinflussen direkt die Zimmerbuchungsmengen, Partnerschaften und Gesamtreisekosten.

Analyse der Herausforderungen

  1. Verhandlungskomplexität: Erfordert differenzierte, kontextbewusste Argumentation und Überzeugungsinteraktion, einschließlich kalibrierter Zugeständnisse, Wettbewerbsvergleiche, Empathie-Rahmung
  2. Einhaltung phasischer Prozesse: Muss den aktuellen Status im mehrstufigen Prozess gemäß SOP ableiten und entsprechend handeln
  3. Überprüfbare numerische Werte und Schutzmaßnahmen: Ausgaben müssen strikte Geschäftsbeschränkungen erfüllen, wie genaue Preisgestaltung, gültiges Format, Vermeidung falscher Versprechungen
  4. Generierung überzeugender und adaptiver Antworten: Muss verschiedene Szenarien verarbeiten, einschließlich Grenzfälle und gegnerische Szenarien

Einschränkungen bestehender Methoden

  • Überwachtes Feintuning (SFT): Anfällig für Überanpassung an Trainingsdaten, begrenzte Verallgemeinerungsfähigkeit
  • Direkte Präferenzoptimierung (DPO): Abhängig von Präferenzdatenqualität, fehlender Mechanismus zur Durchsetzung strukturierter Geschäftsregeln
  • Traditionelles Reinforcement Learning (PPO/GRPO): Instabile Trainingsdynamik, anfällig für "Reward-Hacking"

Kernbeiträge

  1. Erste LLM-Forschung zu industriellem Preisverhandlungstask: Adressiert komplexe, langfristige Überzeugungsszenarien jenseits traditioneller Frage-Antwort-Aufgaben
  2. Vorschlag des REPO-Frameworks: Erstes Framework zur Aggregation von Präferenz-, Juroren- und programmgesteuerten Rewards für komplexe aufgabenorientierte Dialogausrichtung
  3. Umfassende Evaluierungsvalidierung: Demonstriert die Überlegenheit von REPO bei Verhandlungseffektivität, Compliance und aufstrebenden Überzeugungsfähigkeiten, übertrifft manuell annotierte Goldstandards

Methodische Details

Aufgabendefinition

Der OTA-Preisverhandlungstask erfordert, dass der BD-Agent mit Hotels mehrstufige Dialoge führt, um Zimmerpreise basierend auf Marktbedingungen anzupassen. Das Ziel ist, die Zahlungsfähigkeit von Reisenden und die Hotelrentabilität auszugleichen und Win-Win-Ergebnisse zu sichern.

REPO-Architektur

Drei-Quellen-Reward-Design

  1. Reward-Modell (RM): Auf Präferenzdaten trainiertes Modell, das dichte menschliche Alignment-Signale liefert und menschliche BD-Überzeugungsstile und -strategien erlernt
  2. Reward-Juror (RJ): LLM-as-a-Judge-Framework, das fortgeschrittenes Verhalten wie SOP-Compliance, emotionalen Wert und Überzeugungsstil bewertet
  3. Programmgesteuerte Reward-Funktion (RF): Deterministische Überprüfung von Geschäftsnumerik, Format, Schutzmaßnahmen und Längenvorgaben

Reward-Verstärkungsmechanismus

REPO verwendet eine Modulationsstrategie zur Stabilitätserhaltung, wobei RJ und RF als Hilfssignale zur Skalierung des primären RM-Signals dienen:

Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)

Diese vorzeichenabhängige, amplitudensensitive Skalierung hat folgende Effekte:

  • Wenn Rmodel > 0 und Eenh > 0, wird der Reward verstärkt
  • Wenn Rmodel > 0 und Eenh < 0, wird der Reward gedämpft
  • Wenn Rmodel < 0, werden Strafen entsprechend reduziert oder verstärkt

Effiziente Rechenoptimierungen

  1. LoRA-Adapter: Verwendung von Low-Rank-Adaptation auf Policy- und Value-Netzwerken, reduziert Speicher und beschleunigt Training
  2. Referenzmodell-frei: Keine KL-Bestrafung, Low-Rank-Beschränkung von LoRA unterstützt stabile Updates
  3. Gruppenlose Berechnung: Vermeidung gruppenbasierter Bewertung und Aggregation, Reward-Berechnung pro Trajektorie

Experimentelle Einrichtung

Modelle und Parameter

  • Basismodell: Qwen3-32B-Instruct
  • Maximale Antwortlänge: 512 Tokens
  • Batch-Größe: 128
  • LoRA-Konfiguration: rank=64, alpha=64
  • Lernrate: 1e-6
  • Trainingsrunden: Überwachte Phase (SFT/DPO) 10 Runden, RL-Phase (PPO/GRPO/REPO) 2 Runden

Trainingsdaten

Konstruktion eines hochqualitativen Präferenzdatensatzes mit 6.632 Samples:

  • 252 aus Online-Produktionsfällen
  • 3.178 von Sprachexperten annotiert
  • 1.211 von Aufgabenexperten (menschliche BDs) annotiert
  • 1.991 Präferenzdaten, die nach initialem SFT von menschlichen BDs angereichert wurden

Evaluierungsdaten

  1. Online-Samples: 30 vollständige Produktionsdialoge (ca. 150 Runden), reflektieren echte Verteilung von Hotelabsichten
  2. Problemfall-Sammlung: 45 Dialoge (ca. 225 Runden), von Geschäftsexperten kuratiert, decken verschiedene Fehler des Basismodells ab

Vergleichsmethoden

  • SFT: Überwachtes Feintuning
  • DPO: Direkte Präferenzoptimierung
  • PPO: Proximal Policy Optimization
  • GRPO: Group Relative Policy Optimization

Experimentelle Ergebnisse

Hauptergebnisse

Online-Sample-Evaluierung

Evaluierung mit zwei Metriken:

  1. Gesamtgesprächsbewertung (1-5 Skala): REPO erreicht 4,63 Punkte, +1,20 gegenüber Baseline, +0,83 gegenüber DPO, +0,33 gegenüber GRPO
  2. Anteil ausgezeichneter Antwortgespräche: REPO erreicht 66,67%, 5x höher als Baseline (13,33%), etwa 2x höher als DPO (33,33%), +23,34 Prozentpunkte gegenüber GRPO

Problemfall-Behebung

  • Gesamtlösungsquote: REPO, DPO, SFT erreichen alle 93,33%
  • Saubere Lösungsquote: REPO am höchsten (75,56%), deutlich besser als andere Methoden
  • Schwerwiegend ungelöste Fälle: REPO bei 0%, beste Leistung

Ablationsstudien

Analyse aufstrebender Verhandlungsfähigkeiten

Durch Verfolgung von Überzeugungsfähigkeitswerten während des Trainings werden drei Phasen identifiziert:

  1. Anfangsphase (0-30 Schritte): Instabile Erkundung
  2. Lernphase (30-100 Schritte): Stetiger Strategieaufstieg
  3. Konvergenzphase (100-190 Schritte): Leistung stabilisiert sich

Der letzte Checkpoint zeigt etwa 30% Verbesserung gegenüber frühen Checkpoints.

Feinkörnige Dialogfähigkeitsbewertung

Evaluierung auf vier binären Fähigkeiten: Dialogflüssigkeit, Workflow-Compliance, Verhandlungseffektivität, Bereichsverständnis. REPO führt deutlich bei Verhandlungseffektivität, der Hauptmetrik zur Unterscheidung verschiedener Methoden.

Fallstudien

Das Paper zeigt aufstrebende Fähigkeiten nach REPO-Training:

  1. Emotionaler Wert + Grundursachenanalyse: Bietet kontextbewusstere Argumentation als Goldstandard
  2. Zielgerichtete Empfehlungen nach Hoteltyp: Kombiniert wettbewerbsbewusste Begründungen
  3. Überzeugung bei begrenzten Informationen: Verwendet Expositions- und Konversionslogik zur Umrahmung von Anfragen

Verwandte Arbeiten

Aufgabenorientierte Dialogsysteme und LLM-Alignment

Bestehende Forschung konzentriert sich hauptsächlich auf passive, benutzerinitiierte Aufgaben. Aktive Preisverhandlung erfordert langfristige Überzeugungsstrategien, kombiniert mit kontextbasierter Argumentation und kalibrierter emotionaler Intelligenz.

Kontrollierte Textgenerierung und Multi-Reward-Aggregation

Bestehende Methoden verlassen sich entweder auf einzelne Signalquellen oder kombinieren nur teilweise Reward-Typen. REPO ist die erste Methode, die alle drei Signalfamilien vereint.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

REPO realisiert erfolgreich aktive Preisverhandlung durch sorgfältig gestaltete Multi-Source-Rewards. In Bewertungen durch menschliche Experten übertrifft REPO konsistent alle Baseline-Methoden bei Gesprächsqualität, Häufigkeit ausgezeichneter Antworten und Problemfall-Behebung.

Einschränkungen

  1. Begrenzte Evaluierungsreichweite: Nur auf Preisverhandlungsaufgaben evaluiert, Validierung auf breiteren Aufgaben und Einstellungen erforderlich
  2. Rechenressourcen-Anforderungen: Erfordert erhebliche Rechenressourcen für Training
  3. Domänenspezifität: Methode für spezifische Geschäftsszenarien konzipiert

Zukünftige Richtungen

  1. Erweiterung auf kleinere Modellrückgrate
  2. Anwendung auf breitere Domänen und Sprachen
  3. Verbesserung des Reward-Designs

Tiefgreifende Bewertung

Stärken

  1. Hoher praktischer Anwendungswert: Löst komplexe Probleme in echten Geschäftsszenarien
  2. Starke methodische Innovation: Erste systematische Kombination von drei heterogenen Reward-Signalen
  3. Umfassende Evaluierung: Enthält produktionsreife Daten und mehrdimensionale Evaluierungsmetriken
  4. Vernünftige technische Implementierung: Effizientes Training durch Techniken wie LoRA
  5. Signifikante aufstrebende Fähigkeiten: Zeigt Überzeugungsfähigkeiten jenseits manueller Annotation

Mängel

  1. Unzureichende Verallgemeinerungsvalidierung: Nur auf einzelner Aufgabe validiert, fehlende domänenübergreifende Evaluierung
  2. Begrenzte theoretische Analyse: Fehlende theoretische Garantien für Reward-Kombinationsmechanismus
  3. Unzureichende Rechenkosten-Analyse: Detaillierte Analyse der Rechenkosten gegenüber Baseline-Methoden fehlt
  4. Langzeiteffekte unbekannt: Fehlende Analyse langfristiger Bereitstellungseffekte

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektiven für LLM-Alignment bei komplexen aufgabenorientierten Dialogen
  2. Industrieller Wert: Direkte Anwendung auf echte Geschäftsszenarien mit starkem praktischem Nutzen
  3. Methodische Inspiration: Heterogene Reward-Integrationsperspektive kann auf andere komplexe Aufgaben übertragen werden

Anwendungsszenarien

  1. Kundenservice- und Verkaufsdialoge: Szenarien, die Überzeungs- und Verhandlungsfähigkeiten erfordern
  2. Multi-Constraint-Optimierungsaufgaben: Generierungsaufgaben, die mehrere verschiedene Arten von Beschränkungen erfüllen müssen
  3. Geschäftsprozessautomation: Automatisierungssysteme, die komplexe SOPs befolgen müssen

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus Reinforcement Learning, Dialogsystemen und kontrollierter Textgenerierung, einschließlich:

  • Ouyang et al., 2022 (RLHF)
  • Rafailov et al., 2024 (DPO)
  • Shao et al., 2024 (GRPO)
  • Zheng et al., 2023 (LLM-as-a-Judge)

Gesamtbewertung: Dies ist ein hochqualitatives Anwendungsforschungspapier, das während der Lösung praktischer Geschäftsprobleme wertvolle technische Innovationen vorschlägt. Das REPO-Framework-Design ist vernünftig, die experimentelle Evaluierung umfassend, und die demonstrierten aufstrebenden Fähigkeiten sind beeindruckend. Obwohl es Raum für Verbesserungen bei der Verallgemeinerungsvalidierung und theoretischen Analyse gibt, ist der Beitrag im Bereich komplexer aufgabenorientierter Dialoge erheblich.