Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards
Zhuang, Chen, Zeng et al.
We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints.
We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.
academic
Insegnare ai LLM ad essere Persuasivi: Ottimizzazione delle Politiche Potenziata da Ricompense per l'Allineamento da Ricompense Eterogenee
Questo studio esplora il dispiegamento di modelli linguistici di grandi dimensioni (LLM) come agenti di sviluppo commerciale (BD) presso agenzie di viaggi online (OTA) per negoziazioni di prezzo persuasive. L'agente deve condurre negoziazioni persuasive multi-turno seguendo procedure operative standard (SOP), comprendendo input colloquiali e rispettando vincoli di sicurezza, bilanciando al contempo la capacità di spesa dei viaggiatori e la redditività degli hotel. I metodi di post-addestramento tradizionali (come l'ottimizzazione con fine-tuning supervisionato o singola ricompensa) soffrono di sovradattamento agli script, mancanza di stili persuasivi sfumati e incapacità di applicare vincoli commerciali verificabili.
Gli autori propongono il framework REPO (Reward-Enhanced Policy Optimization), un framework di post-addestramento di apprendimento per rinforzo che allinea gli LLM utilizzando ricompense eterogenee: modelli di ricompensa (RM) addestrati con preferenze per l'allineamento umano denso, valutatori di ricompensa (RJ) per comportamenti persuasivi avanzati e conformità SOP, e funzioni di ricompensa programmatiche (RF) per controlli deterministici di valori numerici, formato e vincoli di sicurezza. In una valutazione a livello di produzione, REPO migliora significativamente la qualità della conversazione e il tasso di risoluzione dei problemi.
La negoziazione dei prezzi presso le agenzie di viaggi online è uno scenario commerciale complesso che richiede agli agenti BD di condurre dialoghi multi-turno con i gestori degli hotel, con l'obiettivo di ridurre i prezzi delle camere per aumentare la capacità di spesa dei viaggiatori mantenendo la redditività dell'hotel. Questo negoziato influisce direttamente sul volume delle prenotazioni di camere, sulle relazioni di partnership e sui costi complessivi dei viaggi.
Complessità della Negoziazione: Richiede ragionamento sfumato e consapevole del contesto e interazioni persuasive, inclusi calibramenti di concessioni, confronti competitivi e inquadramenti empatici
Conformità ai Processi Fasi: Deve dedurre lo stato attuale all'interno di un processo multi-fase secondo l'SOP e intraprendere azioni appropriate
Valori Numerici Verificabili e Vincoli di Sicurezza: L'output deve soddisfare vincoli commerciali rigorosi, come prezzi accurati, formati validi e evitare promesse false
Generazione di Risposte Persuasive e Adattive: Deve gestire vari scenari, inclusi casi limite e scenari avversariali
Fine-tuning Supervisionato (SFT): Tende a sovradattarsi ai dati di addestramento con capacità di generalizzazione limitata
Ottimizzazione Diretta delle Preferenze (DPO): Dipende dalla qualità dei dati di preferenza e manca di meccanismi per applicare regole commerciali strutturate
Apprendimento per Rinforzo Tradizionale (PPO/GRPO): Dinamiche di addestramento instabili, soggette a "reward hacking"
Primo Studio LLM per Compiti di Negoziazione dei Prezzi a Livello Industriale: Affronta scenari persuasivi complessi e a lungo termine che vanno oltre i compiti tradizionali di domande e risposte
Propone il Framework REPO: Primo framework di allineamento per dialoghi orientati a compiti complessi che aggrega ricompense di preferenza, valutazione e programmatiche
Valutazione Completa e Verificata: Dimostra la superiorità di REPO in termini di efficacia della negoziazione, conformità e capacità persuasive emergenti, superando lo standard aureo annotato manualmente
Il compito di negoziazione dei prezzi OTA richiede all'agente BD di condurre dialoghi multi-turno con gli hotel, adattando i prezzi delle camere in base alle condizioni di mercato. L'obiettivo è bilanciare la capacità di spesa dei viaggiatori e la redditività dell'hotel, garantendo risultati vantaggiosi per entrambi.
Modello di Ricompensa (RM): Modello addestrato su dati di preferenza che fornisce segnali di allineamento umano densi, apprendendo lo stile e le strategie persuasive BD umane
Valutatore di Ricompensa (RJ): Framework LLM-as-a-judge che valuta comportamenti di alto livello come conformità SOP, valore emotivo e stile persuasivo
Funzione di Ricompensa Programmatica (RF): Controlli deterministici per valori numerici commerciali, formato, vincoli di sicurezza e requisiti di lunghezza
Campioni Online: 30 dialoghi di produzione completi (circa 150 turni), che riflettono la vera distribuzione delle intenzioni degli hotel
Insieme di Casi Problematici: 45 dialoghi (circa 225 turni), curati da esperti commerciali, che coprono vari problemi in cui il modello di base commette errori
Punteggio Complessivo della Conversazione (scala 1-5): REPO raggiunge 4,63 punti, con un miglioramento di +1,20 rispetto alla linea di base, +0,83 rispetto a DPO e +0,33 rispetto a GRPO
Percentuale di Dialoghi con Risposte Eccellenti: REPO raggiunge il 66,67%, con un miglioramento di 5 volte rispetto alla linea di base (13,33%), circa 2 volte rispetto a DPO (33,33%) e +23,34 punti percentuali rispetto a GRPO
Valutazione su quattro abilità binarie: fluidità conversazionale, conformità del flusso di lavoro, efficacia della negoziazione e comprensione dell'ambito. REPO è chiaramente in testa nell'efficacia della negoziazione, che è l'indicatore principale che differenzia i diversi metodi.
La ricerca esistente si concentra principalmente su compiti passivi e avviati dall'utente. La negoziazione attiva dei prezzi richiede strategie persuasive a lungo termine, combinando ragionamento basato sul contesto e intelligenza emotiva calibrata.
I metodi esistenti dipendono da una singola fonte di segnale o combinano solo parzialmente tipi di ricompense. REPO è il primo metodo che unisce tutte e tre le famiglie di segnali.
REPO realizza con successo la negoziazione attiva dei prezzi attraverso ricompense multi-fonte attentamente progettate. In una valutazione da parte di esperti umani, REPO supera costantemente tutti i metodi di base in termini di qualità della conversazione, tasso di occorrenza di risposte eccellenti e risoluzione di casi problematici.
Ambito di Valutazione Limitato: Valutato solo su compiti di negoziazione dei prezzi, richiede validazione dell'efficacia su compiti e impostazioni più ampi
Requisiti di Risorse Computazionali: Richiede risorse computazionali significative per l'addestramento
Specificità del Dominio: Il metodo è progettato per scenari commerciali specifici
L'articolo cita importanti lavori nei campi dell'apprendimento per rinforzo, sistemi di dialogo e generazione di testo controllato, inclusi:
Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-judge)
Valutazione Complessiva: Questo è un articolo di ricerca applicata di alta qualità che propone innovazioni tecniche preziose mentre risolve problemi commerciali reali. La progettazione del framework REPO è ragionevole, la valutazione sperimentale è completa e le capacità emergenti dimostrate sono impressionanti. Sebbene vi sia spazio per miglioramenti nella verifica della generalizzazione e nell'analisi teorica, il contributo nel campo dei dialoghi orientati a compiti complessi è significativo.