2025-11-22T12:04:16.552264

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards

Zhuang, Chen, Zeng et al.

We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.

academic

Unterrichten von LLMs, überzeugend zu sein: Reward-Enhanced Policy Optimization für Alignment aus heterogenen Rewards

Grundinformationen

Paper-ID: 2510.04214
Titel: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
Autoren: Zhuoran Zhuang, Ye Chen, Xia Zeng*, Chao Luo, Luhui Liu und Yihan Chen (Fliggy Alibaba)
Klassifizierung: cs.CL
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2510.04214v2

Zusammenfassung

Diese Forschung untersucht die Bereitstellung großer Sprachmodelle (LLMs) als Geschäftsentwicklungs-(BD-)Agenten für Online-Reisebüros (OTAs) bei überzeugenden Preisverhandlungen. Der Agent muss mehrstufige Überzeugungsarbeit gemäß Standardarbeitsanweisungen (SOP) durchführen, während er die Zahlungsfähigkeit von Reisenden und die Rentabilität von Hotels ausgleicht, umgangssprachliche Eingaben versteht und Schutzmaßnahmen einhält. Herkömmliche Post-Training-Methoden (wie überwachtes Feintuning oder Single-Reward-Optimierung) leiden unter Überanpassung an Skripte, mangelnden differenzierten Überzeugungsstilen, Unfähigkeit zur Durchsetzung überprüfbarer Geschäftsbeschränkungen.

Die Autoren schlagen das REPO-Framework (Reward-Enhanced Policy Optimization) vor, ein Reinforcement-Learning-Post-Training-Framework, das LLMs mit heterogenen Rewards ausrichtet: Reward-Modelle (RM) aus Präferenztraining für dichtes menschliches Alignment, Reward-Juroren (RJ) für fortgeschrittenes Überzeugungsverhalten und SOP-Compliance, und programmgesteuerte Reward-Funktionen (RF) für deterministische Überprüfungen von Numerik, Format und Schutzmaßnahmen. In produktionsreifen Bewertungen verbessert REPO die Gesprächsqualität und die Problemlösungsquote erheblich.

Forschungshintergrund und Motivation

Problemdefinition

Preisverhandlungen bei Online-Reisebüros sind ein komplexes Geschäftsszenario, das mehrstufige Dialoge zwischen BD-Agenten und Hotelmanagern erfordert, mit dem Ziel, die Zimmerpreise zu senken, um die Zahlungsfähigkeit von Reisenden zu verbessern, während die Rentabilität der Hotels erhalten bleibt. Diese Verhandlungen beeinflussen direkt die Zimmerbuchungsmengen, Partnerschaften und Gesamtreisekosten.

Analyse der Herausforderungen

Verhandlungskomplexität: Erfordert differenzierte, kontextbewusste Argumentation und Überzeugungsinteraktion, einschließlich kalibrierter Zugeständnisse, Wettbewerbsvergleiche, Empathie-Rahmung
Einhaltung phasischer Prozesse: Muss den aktuellen Status im mehrstufigen Prozess gemäß SOP ableiten und entsprechend handeln
Überprüfbare numerische Werte und Schutzmaßnahmen: Ausgaben müssen strikte Geschäftsbeschränkungen erfüllen, wie genaue Preisgestaltung, gültiges Format, Vermeidung falscher Versprechungen
Generierung überzeugender und adaptiver Antworten: Muss verschiedene Szenarien verarbeiten, einschließlich Grenzfälle und gegnerische Szenarien

Einschränkungen bestehender Methoden

Überwachtes Feintuning (SFT): Anfällig für Überanpassung an Trainingsdaten, begrenzte Verallgemeinerungsfähigkeit
Direkte Präferenzoptimierung (DPO): Abhängig von Präferenzdatenqualität, fehlender Mechanismus zur Durchsetzung strukturierter Geschäftsregeln
Traditionelles Reinforcement Learning (PPO/GRPO): Instabile Trainingsdynamik, anfällig für "Reward-Hacking"

Kernbeiträge

Erste LLM-Forschung zu industriellem Preisverhandlungstask: Adressiert komplexe, langfristige Überzeugungsszenarien jenseits traditioneller Frage-Antwort-Aufgaben
Vorschlag des REPO-Frameworks: Erstes Framework zur Aggregation von Präferenz-, Juroren- und programmgesteuerten Rewards für komplexe aufgabenorientierte Dialogausrichtung
Umfassende Evaluierungsvalidierung: Demonstriert die Überlegenheit von REPO bei Verhandlungseffektivität, Compliance und aufstrebenden Überzeugungsfähigkeiten, übertrifft manuell annotierte Goldstandards

Methodische Details

Aufgabendefinition

Der OTA-Preisverhandlungstask erfordert, dass der BD-Agent mit Hotels mehrstufige Dialoge führt, um Zimmerpreise basierend auf Marktbedingungen anzupassen. Das Ziel ist, die Zahlungsfähigkeit von Reisenden und die Hotelrentabilität auszugleichen und Win-Win-Ergebnisse zu sichern.

REPO-Architektur

Drei-Quellen-Reward-Design

Reward-Modell (RM): Auf Präferenzdaten trainiertes Modell, das dichte menschliche Alignment-Signale liefert und menschliche BD-Überzeugungsstile und -strategien erlernt
Reward-Juror (RJ): LLM-as-a-Judge-Framework, das fortgeschrittenes Verhalten wie SOP-Compliance, emotionalen Wert und Überzeugungsstil bewertet
Programmgesteuerte Reward-Funktion (RF): Deterministische Überprüfung von Geschäftsnumerik, Format, Schutzmaßnahmen und Längenvorgaben

Reward-Verstärkungsmechanismus

REPO verwendet eine Modulationsstrategie zur Stabilitätserhaltung, wobei RJ und RF als Hilfssignale zur Skalierung des primären RM-Signals dienen:

Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)

Diese vorzeichenabhängige, amplitudensensitive Skalierung hat folgende Effekte:

Wenn Rmodel > 0 und Eenh > 0, wird der Reward verstärkt
Wenn Rmodel > 0 und Eenh < 0, wird der Reward gedämpft
Wenn Rmodel < 0, werden Strafen entsprechend reduziert oder verstärkt

Effiziente Rechenoptimierungen

LoRA-Adapter: Verwendung von Low-Rank-Adaptation auf Policy- und Value-Netzwerken, reduziert Speicher und beschleunigt Training
Referenzmodell-frei: Keine KL-Bestrafung, Low-Rank-Beschränkung von LoRA unterstützt stabile Updates
Gruppenlose Berechnung: Vermeidung gruppenbasierter Bewertung und Aggregation, Reward-Berechnung pro Trajektorie

Experimentelle Einrichtung

Modelle und Parameter

Basismodell: Qwen3-32B-Instruct
Maximale Antwortlänge: 512 Tokens
Batch-Größe: 128
LoRA-Konfiguration: rank=64, alpha=64
Lernrate: 1e-6
Trainingsrunden: Überwachte Phase (SFT/DPO) 10 Runden, RL-Phase (PPO/GRPO/REPO) 2 Runden

Trainingsdaten

Konstruktion eines hochqualitativen Präferenzdatensatzes mit 6.632 Samples:

252 aus Online-Produktionsfällen
3.178 von Sprachexperten annotiert
1.211 von Aufgabenexperten (menschliche BDs) annotiert
1.991 Präferenzdaten, die nach initialem SFT von menschlichen BDs angereichert wurden

Evaluierungsdaten

Online-Samples: 30 vollständige Produktionsdialoge (ca. 150 Runden), reflektieren echte Verteilung von Hotelabsichten
Problemfall-Sammlung: 45 Dialoge (ca. 225 Runden), von Geschäftsexperten kuratiert, decken verschiedene Fehler des Basismodells ab

Vergleichsmethoden

SFT: Überwachtes Feintuning
DPO: Direkte Präferenzoptimierung
PPO: Proximal Policy Optimization
GRPO: Group Relative Policy Optimization

Experimentelle Ergebnisse

Hauptergebnisse

Online-Sample-Evaluierung

Evaluierung mit zwei Metriken:

Gesamtgesprächsbewertung (1-5 Skala): REPO erreicht 4,63 Punkte, +1,20 gegenüber Baseline, +0,83 gegenüber DPO, +0,33 gegenüber GRPO
Anteil ausgezeichneter Antwortgespräche: REPO erreicht 66,67%, 5x höher als Baseline (13,33%), etwa 2x höher als DPO (33,33%), +23,34 Prozentpunkte gegenüber GRPO

Problemfall-Behebung

Gesamtlösungsquote: REPO, DPO, SFT erreichen alle 93,33%
Saubere Lösungsquote: REPO am höchsten (75,56%), deutlich besser als andere Methoden
Schwerwiegend ungelöste Fälle: REPO bei 0%, beste Leistung

Ablationsstudien

Analyse aufstrebender Verhandlungsfähigkeiten

Durch Verfolgung von Überzeugungsfähigkeitswerten während des Trainings werden drei Phasen identifiziert:

Anfangsphase (0-30 Schritte): Instabile Erkundung
Lernphase (30-100 Schritte): Stetiger Strategieaufstieg
Konvergenzphase (100-190 Schritte): Leistung stabilisiert sich

Der letzte Checkpoint zeigt etwa 30% Verbesserung gegenüber frühen Checkpoints.

Feinkörnige Dialogfähigkeitsbewertung

Evaluierung auf vier binären Fähigkeiten: Dialogflüssigkeit, Workflow-Compliance, Verhandlungseffektivität, Bereichsverständnis. REPO führt deutlich bei Verhandlungseffektivität, der Hauptmetrik zur Unterscheidung verschiedener Methoden.

Fallstudien

Das Paper zeigt aufstrebende Fähigkeiten nach REPO-Training:

Emotionaler Wert + Grundursachenanalyse: Bietet kontextbewusstere Argumentation als Goldstandard
Zielgerichtete Empfehlungen nach Hoteltyp: Kombiniert wettbewerbsbewusste Begründungen
Überzeugung bei begrenzten Informationen: Verwendet Expositions- und Konversionslogik zur Umrahmung von Anfragen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

REPO realisiert erfolgreich aktive Preisverhandlung durch sorgfältig gestaltete Multi-Source-Rewards. In Bewertungen durch menschliche Experten übertrifft REPO konsistent alle Baseline-Methoden bei Gesprächsqualität, Häufigkeit ausgezeichneter Antworten und Problemfall-Behebung.

Einschränkungen

Begrenzte Evaluierungsreichweite: Nur auf Preisverhandlungsaufgaben evaluiert, Validierung auf breiteren Aufgaben und Einstellungen erforderlich
Rechenressourcen-Anforderungen: Erfordert erhebliche Rechenressourcen für Training
Domänenspezifität: Methode für spezifische Geschäftsszenarien konzipiert

Zukünftige Richtungen

Erweiterung auf kleinere Modellrückgrate
Anwendung auf breitere Domänen und Sprachen
Verbesserung des Reward-Designs

Tiefgreifende Bewertung

Stärken

Hoher praktischer Anwendungswert: Löst komplexe Probleme in echten Geschäftsszenarien
Starke methodische Innovation: Erste systematische Kombination von drei heterogenen Reward-Signalen
Umfassende Evaluierung: Enthält produktionsreife Daten und mehrdimensionale Evaluierungsmetriken
Vernünftige technische Implementierung: Effizientes Training durch Techniken wie LoRA
Signifikante aufstrebende Fähigkeiten: Zeigt Überzeugungsfähigkeiten jenseits manueller Annotation

Mängel

Unzureichende Verallgemeinerungsvalidierung: Nur auf einzelner Aufgabe validiert, fehlende domänenübergreifende Evaluierung
Begrenzte theoretische Analyse: Fehlende theoretische Garantien für Reward-Kombinationsmechanismus
Unzureichende Rechenkosten-Analyse: Detaillierte Analyse der Rechenkosten gegenüber Baseline-Methoden fehlt
Langzeiteffekte unbekannt: Fehlende Analyse langfristiger Bereitstellungseffekte

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektiven für LLM-Alignment bei komplexen aufgabenorientierten Dialogen
Industrieller Wert: Direkte Anwendung auf echte Geschäftsszenarien mit starkem praktischem Nutzen
Methodische Inspiration: Heterogene Reward-Integrationsperspektive kann auf andere komplexe Aufgaben übertragen werden

Anwendungsszenarien

Kundenservice- und Verkaufsdialoge: Szenarien, die Überzeungs- und Verhandlungsfähigkeiten erfordern
Multi-Constraint-Optimierungsaufgaben: Generierungsaufgaben, die mehrere verschiedene Arten von Beschränkungen erfüllen müssen
Geschäftsprozessautomation: Automatisierungssysteme, die komplexe SOPs befolgen müssen

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus Reinforcement Learning, Dialogsystemen und kontrollierter Textgenerierung, einschließlich:

Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-Judge)

Gesamtbewertung: Dies ist ein hochqualitatives Anwendungsforschungspapier, das während der Lösung praktischer Geschäftsprobleme wertvolle technische Innovationen vorschlägt. Das REPO-Framework-Design ist vernünftig, die experimentelle Evaluierung umfassend, und die demonstrierten aufstrebenden Fähigkeiten sind beeindruckend. Obwohl es Raum für Verbesserungen bei der Verallgemeinerungsvalidierung und theoretischen Analyse gibt, ist der Beitrag im Bereich komplexer aufgabenorientierter Dialoge erheblich.