Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards
Zhuang, Chen, Zeng et al.
We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints.
We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.
academic
Unterrichten von LLMs, überzeugend zu sein: Reward-Enhanced Policy Optimization für Alignment aus heterogenen Rewards
Diese Forschung untersucht die Bereitstellung großer Sprachmodelle (LLMs) als Geschäftsentwicklungs-(BD-)Agenten für Online-Reisebüros (OTAs) bei überzeugenden Preisverhandlungen. Der Agent muss mehrstufige Überzeugungsarbeit gemäß Standardarbeitsanweisungen (SOP) durchführen, während er die Zahlungsfähigkeit von Reisenden und die Rentabilität von Hotels ausgleicht, umgangssprachliche Eingaben versteht und Schutzmaßnahmen einhält. Herkömmliche Post-Training-Methoden (wie überwachtes Feintuning oder Single-Reward-Optimierung) leiden unter Überanpassung an Skripte, mangelnden differenzierten Überzeugungsstilen, Unfähigkeit zur Durchsetzung überprüfbarer Geschäftsbeschränkungen.
Die Autoren schlagen das REPO-Framework (Reward-Enhanced Policy Optimization) vor, ein Reinforcement-Learning-Post-Training-Framework, das LLMs mit heterogenen Rewards ausrichtet: Reward-Modelle (RM) aus Präferenztraining für dichtes menschliches Alignment, Reward-Juroren (RJ) für fortgeschrittenes Überzeugungsverhalten und SOP-Compliance, und programmgesteuerte Reward-Funktionen (RF) für deterministische Überprüfungen von Numerik, Format und Schutzmaßnahmen. In produktionsreifen Bewertungen verbessert REPO die Gesprächsqualität und die Problemlösungsquote erheblich.
Preisverhandlungen bei Online-Reisebüros sind ein komplexes Geschäftsszenario, das mehrstufige Dialoge zwischen BD-Agenten und Hotelmanagern erfordert, mit dem Ziel, die Zimmerpreise zu senken, um die Zahlungsfähigkeit von Reisenden zu verbessern, während die Rentabilität der Hotels erhalten bleibt. Diese Verhandlungen beeinflussen direkt die Zimmerbuchungsmengen, Partnerschaften und Gesamtreisekosten.
Erste LLM-Forschung zu industriellem Preisverhandlungstask: Adressiert komplexe, langfristige Überzeugungsszenarien jenseits traditioneller Frage-Antwort-Aufgaben
Vorschlag des REPO-Frameworks: Erstes Framework zur Aggregation von Präferenz-, Juroren- und programmgesteuerten Rewards für komplexe aufgabenorientierte Dialogausrichtung
Umfassende Evaluierungsvalidierung: Demonstriert die Überlegenheit von REPO bei Verhandlungseffektivität, Compliance und aufstrebenden Überzeugungsfähigkeiten, übertrifft manuell annotierte Goldstandards
Der OTA-Preisverhandlungstask erfordert, dass der BD-Agent mit Hotels mehrstufige Dialoge führt, um Zimmerpreise basierend auf Marktbedingungen anzupassen. Das Ziel ist, die Zahlungsfähigkeit von Reisenden und die Hotelrentabilität auszugleichen und Win-Win-Ergebnisse zu sichern.
Reward-Modell (RM): Auf Präferenzdaten trainiertes Modell, das dichte menschliche Alignment-Signale liefert und menschliche BD-Überzeugungsstile und -strategien erlernt
Reward-Juror (RJ): LLM-as-a-Judge-Framework, das fortgeschrittenes Verhalten wie SOP-Compliance, emotionalen Wert und Überzeugungsstil bewertet
Programmgesteuerte Reward-Funktion (RF): Deterministische Überprüfung von Geschäftsnumerik, Format, Schutzmaßnahmen und Längenvorgaben
Gesamtgesprächsbewertung (1-5 Skala): REPO erreicht 4,63 Punkte, +1,20 gegenüber Baseline, +0,83 gegenüber DPO, +0,33 gegenüber GRPO
Anteil ausgezeichneter Antwortgespräche: REPO erreicht 66,67%, 5x höher als Baseline (13,33%), etwa 2x höher als DPO (33,33%), +23,34 Prozentpunkte gegenüber GRPO
Evaluierung auf vier binären Fähigkeiten: Dialogflüssigkeit, Workflow-Compliance, Verhandlungseffektivität, Bereichsverständnis. REPO führt deutlich bei Verhandlungseffektivität, der Hauptmetrik zur Unterscheidung verschiedener Methoden.
Bestehende Forschung konzentriert sich hauptsächlich auf passive, benutzerinitiierte Aufgaben. Aktive Preisverhandlung erfordert langfristige Überzeugungsstrategien, kombiniert mit kontextbasierter Argumentation und kalibrierter emotionaler Intelligenz.
Bestehende Methoden verlassen sich entweder auf einzelne Signalquellen oder kombinieren nur teilweise Reward-Typen. REPO ist die erste Methode, die alle drei Signalfamilien vereint.
REPO realisiert erfolgreich aktive Preisverhandlung durch sorgfältig gestaltete Multi-Source-Rewards. In Bewertungen durch menschliche Experten übertrifft REPO konsistent alle Baseline-Methoden bei Gesprächsqualität, Häufigkeit ausgezeichneter Antworten und Problemfall-Behebung.
Das Paper zitiert wichtige Arbeiten aus Reinforcement Learning, Dialogsystemen und kontrollierter Textgenerierung, einschließlich:
Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-Judge)
Gesamtbewertung: Dies ist ein hochqualitatives Anwendungsforschungspapier, das während der Lösung praktischer Geschäftsprobleme wertvolle technische Innovationen vorschlägt. Das REPO-Framework-Design ist vernünftig, die experimentelle Evaluierung umfassend, und die demonstrierten aufstrebenden Fähigkeiten sind beeindruckend. Obwohl es Raum für Verbesserungen bei der Verallgemeinerungsvalidierung und theoretischen Analyse gibt, ist der Beitrag im Bereich komplexer aufgabenorientierter Dialoge erheblich.