2025-11-22T12:04:16.552264

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards

Zhuang, Chen, Zeng et al.

We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.

academic

Insegnare ai LLM ad essere Persuasivi: Ottimizzazione delle Politiche Potenziata da Ricompense per l'Allineamento da Ricompense Eterogenee

Informazioni Fondamentali

ID Articolo: 2510.04214
Titolo: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
Autori: Zhuoran Zhuang, Ye Chen, Xia Zeng*, Chao Luo, Luhui Liu e Yihan Chen (Fliggy Alibaba)
Classificazione: cs.CL
Data di Pubblicazione: 11 ottobre 2025 (arXiv v2)
Link dell'Articolo: https://arxiv.org/abs/2510.04214v2

Riassunto

Questo studio esplora il dispiegamento di modelli linguistici di grandi dimensioni (LLM) come agenti di sviluppo commerciale (BD) presso agenzie di viaggi online (OTA) per negoziazioni di prezzo persuasive. L'agente deve condurre negoziazioni persuasive multi-turno seguendo procedure operative standard (SOP), comprendendo input colloquiali e rispettando vincoli di sicurezza, bilanciando al contempo la capacità di spesa dei viaggiatori e la redditività degli hotel. I metodi di post-addestramento tradizionali (come l'ottimizzazione con fine-tuning supervisionato o singola ricompensa) soffrono di sovradattamento agli script, mancanza di stili persuasivi sfumati e incapacità di applicare vincoli commerciali verificabili.

Gli autori propongono il framework REPO (Reward-Enhanced Policy Optimization), un framework di post-addestramento di apprendimento per rinforzo che allinea gli LLM utilizzando ricompense eterogenee: modelli di ricompensa (RM) addestrati con preferenze per l'allineamento umano denso, valutatori di ricompensa (RJ) per comportamenti persuasivi avanzati e conformità SOP, e funzioni di ricompensa programmatiche (RF) per controlli deterministici di valori numerici, formato e vincoli di sicurezza. In una valutazione a livello di produzione, REPO migliora significativamente la qualità della conversazione e il tasso di risoluzione dei problemi.

Contesto di Ricerca e Motivazione

Definizione del Problema

La negoziazione dei prezzi presso le agenzie di viaggi online è uno scenario commerciale complesso che richiede agli agenti BD di condurre dialoghi multi-turno con i gestori degli hotel, con l'obiettivo di ridurre i prezzi delle camere per aumentare la capacità di spesa dei viaggiatori mantenendo la redditività dell'hotel. Questo negoziato influisce direttamente sul volume delle prenotazioni di camere, sulle relazioni di partnership e sui costi complessivi dei viaggi.

Analisi delle Sfide

Complessità della Negoziazione: Richiede ragionamento sfumato e consapevole del contesto e interazioni persuasive, inclusi calibramenti di concessioni, confronti competitivi e inquadramenti empatici
Conformità ai Processi Fasi: Deve dedurre lo stato attuale all'interno di un processo multi-fase secondo l'SOP e intraprendere azioni appropriate
Valori Numerici Verificabili e Vincoli di Sicurezza: L'output deve soddisfare vincoli commerciali rigorosi, come prezzi accurati, formati validi e evitare promesse false
Generazione di Risposte Persuasive e Adattive: Deve gestire vari scenari, inclusi casi limite e scenari avversariali

Limitazioni degli Approcci Esistenti

Fine-tuning Supervisionato (SFT): Tende a sovradattarsi ai dati di addestramento con capacità di generalizzazione limitata
Ottimizzazione Diretta delle Preferenze (DPO): Dipende dalla qualità dei dati di preferenza e manca di meccanismi per applicare regole commerciali strutturate
Apprendimento per Rinforzo Tradizionale (PPO/GRPO): Dinamiche di addestramento instabili, soggette a "reward hacking"

Contributi Principali

Primo Studio LLM per Compiti di Negoziazione dei Prezzi a Livello Industriale: Affronta scenari persuasivi complessi e a lungo termine che vanno oltre i compiti tradizionali di domande e risposte
Propone il Framework REPO: Primo framework di allineamento per dialoghi orientati a compiti complessi che aggrega ricompense di preferenza, valutazione e programmatiche
Valutazione Completa e Verificata: Dimostra la superiorità di REPO in termini di efficacia della negoziazione, conformità e capacità persuasive emergenti, superando lo standard aureo annotato manualmente

Dettagli del Metodo

Definizione del Compito

Il compito di negoziazione dei prezzi OTA richiede all'agente BD di condurre dialoghi multi-turno con gli hotel, adattando i prezzi delle camere in base alle condizioni di mercato. L'obiettivo è bilanciare la capacità di spesa dei viaggiatori e la redditività dell'hotel, garantendo risultati vantaggiosi per entrambi.

Architettura REPO

Progettazione di Ricompense da Tre Fonti

Modello di Ricompensa (RM): Modello addestrato su dati di preferenza che fornisce segnali di allineamento umano densi, apprendendo lo stile e le strategie persuasive BD umane
Valutatore di Ricompensa (RJ): Framework LLM-as-a-judge che valuta comportamenti di alto livello come conformità SOP, valore emotivo e stile persuasivo
Funzione di Ricompensa Programmatica (RF): Controlli deterministici per valori numerici commerciali, formato, vincoli di sicurezza e requisiti di lunghezza

Meccanismo di Potenziamento della Ricompensa

REPO impiega una strategia di modulazione che preserva la stabilità, utilizzando RJ e RF come segnali ausiliari per scalare il segnale RM principale:

Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)

Questo ridimensionamento consapevole del segno e sensibile all'ampiezza ha i seguenti effetti:

Quando Rmodel > 0 e Eenh > 0, la ricompensa viene amplificata
Quando Rmodel > 0 e Eenh < 0, la ricompensa viene soppressa
Quando Rmodel < 0, le punizioni vengono ridotte o amplificate di conseguenza

Ottimizzazioni Computazionali Efficienti

Adattatori LoRA: Utilizza adattamento a basso rango sulle reti di politica e valore, riducendo la memoria e accelerando l'addestramento
Senza Modello di Riferimento: Non utilizza penalità KL, il vincolo di basso rango di LoRA supporta aggiornamenti stabili
Calcolo Senza Raggruppamento: Evita il punteggio e l'aggregazione basati su gruppi, calcolando le ricompense per traiettoria

Configurazione Sperimentale

Modelli e Parametri

Modello di Base: Qwen3-32B-Instruct
Lunghezza Massima della Risposta: 512 token
Dimensione del Batch: 128
Configurazione LoRA: rank=64, alpha=64
Tasso di Apprendimento: 1e-6
Epoche di Addestramento: Fase supervisionata (SFT/DPO) 10 epoche, fase RL (PPO/GRPO/REPO) 2 epoche

Dati di Addestramento

È stato costruito un dataset di preferenza di alta qualità contenente 6.632 campioni:

252 casi provenienti da produzione online
3.178 campioni annotati da esperti linguistici
1.211 campioni annotati da esperti di compiti (BD umani)
1.991 dati di preferenza arricchiti da BD umani dopo l'annotazione SFT iniziale

Dati di Valutazione

Campioni Online: 30 dialoghi di produzione completi (circa 150 turni), che riflettono la vera distribuzione delle intenzioni degli hotel
Insieme di Casi Problematici: 45 dialoghi (circa 225 turni), curati da esperti commerciali, che coprono vari problemi in cui il modello di base commette errori

Metodi di Confronto

SFT: Fine-tuning Supervisionato
DPO: Ottimizzazione Diretta delle Preferenze
PPO: Ottimizzazione delle Politiche Prossimali
GRPO: Ottimizzazione delle Politiche Relative di Gruppo

Risultati Sperimentali

Risultati Principali

Valutazione su Campioni Online

Utilizzando due metriche di valutazione:

Punteggio Complessivo della Conversazione (scala 1-5): REPO raggiunge 4,63 punti, con un miglioramento di +1,20 rispetto alla linea di base, +0,83 rispetto a DPO e +0,33 rispetto a GRPO
Percentuale di Dialoghi con Risposte Eccellenti: REPO raggiunge il 66,67%, con un miglioramento di 5 volte rispetto alla linea di base (13,33%), circa 2 volte rispetto a DPO (33,33%) e +23,34 punti percentuali rispetto a GRPO

Risoluzione di Casi Problematici

Tasso di Risoluzione Complessivo: REPO, DPO e SFT raggiungono tutti il 93,33%
Tasso di Risoluzione Pulita: REPO è il più alto (75,56%), significativamente superiore ad altri metodi
Casi Gravi Non Risolti: REPO è 0%, con le migliori prestazioni

Esperimenti di Ablazione

Analisi delle Capacità Persuasive Emergenti

Tracciando i punteggi di capacità persuasiva durante il processo di addestramento, REPO mostra tre fasi:

Fase Iniziale (0-30 step): Esplorazione instabile
Fase di Apprendimento (30-100 step): Miglioramento costante della politica
Fase di Convergenza (100-190 step): Prestazioni tendono alla stabilità

Il checkpoint finale mostra un miglioramento di circa il 30% rispetto ai checkpoint iniziali.

Valutazione Granulare delle Abilità Conversazionali

Valutazione su quattro abilità binarie: fluidità conversazionale, conformità del flusso di lavoro, efficacia della negoziazione e comprensione dell'ambito. REPO è chiaramente in testa nell'efficacia della negoziazione, che è l'indicatore principale che differenzia i diversi metodi.

Analisi dei Casi

L'articolo mostra le capacità emergenti che appaiono dopo l'addestramento con REPO:

Valore Emotivo + Ragionamento sulla Causa Radice: Fornisce ragionamento consapevole del contesto più ricco rispetto allo standard aureo
Promozione Mirata in Base al Tipo di Hotel: Combina ragioni consapevoli della concorrenza
Persuasione con Informazioni Limitate: Utilizza logica di esposizione e conversione per riformulare le richieste

Lavori Correlati

Sistemi di Dialogo Orientati a Compiti e Allineamento LLM

La ricerca esistente si concentra principalmente su compiti passivi e avviati dall'utente. La negoziazione attiva dei prezzi richiede strategie persuasive a lungo termine, combinando ragionamento basato sul contesto e intelligenza emotiva calibrata.

Generazione di Testo Controllato e Aggregazione di Ricompense Multiple

I metodi esistenti dipendono da una singola fonte di segnale o combinano solo parzialmente tipi di ricompense. REPO è il primo metodo che unisce tutte e tre le famiglie di segnali.

Conclusioni e Discussione

Conclusioni Principali

REPO realizza con successo la negoziazione attiva dei prezzi attraverso ricompense multi-fonte attentamente progettate. In una valutazione da parte di esperti umani, REPO supera costantemente tutti i metodi di base in termini di qualità della conversazione, tasso di occorrenza di risposte eccellenti e risoluzione di casi problematici.

Limitazioni

Ambito di Valutazione Limitato: Valutato solo su compiti di negoziazione dei prezzi, richiede validazione dell'efficacia su compiti e impostazioni più ampi
Requisiti di Risorse Computazionali: Richiede risorse computazionali significative per l'addestramento
Specificità del Dominio: Il metodo è progettato per scenari commerciali specifici

Direzioni Future

Estensione a backbone di modelli più piccoli
Applicazione a domini e lingue più ampi
Miglioramento della progettazione delle ricompense

Valutazione Approfondita

Punti di Forza

Alto Valore di Applicazione Pratica: Risolve problemi complessi in scenari commerciali reali
Forte Innovazione Metodologica: Primo a combinare sistematicamente tre segnali di ricompensa eterogenei
Valutazione Completa: Include dati a livello di produzione e metriche di valutazione multidimensionali
Implementazione Tecnica Ragionevole: Realizza addestramento efficiente attraverso tecniche come LoRA
Capacità Emergenti Significative: Dimostra capacità persuasive che superano l'annotazione manuale

Insufficienze

Verifica della Generalizzazione Insufficiente: Validato solo su un singolo compito, manca valutazione cross-dominio
Analisi Teorica Limitata: Manca di garanzie teoriche per il meccanismo di combinazione delle ricompense
Analisi dei Costi Computazionali Insufficiente: Non analizza in dettaglio il sovraccarico computazionale rispetto ai metodi di base
Effetti a Lungo Termine Sconosciuti: Manca analisi degli effetti del dispiegamento a lungo termine

Impatto

Contributo Accademico: Fornisce nuove prospettive per l'allineamento LLM in dialoghi orientati a compiti complessi
Valore Industriale: Applicazione diretta a scenari commerciali reali con forte praticità
Ispirazione Metodologica: L'approccio di integrazione di ricompense eterogenee può essere generalizzato ad altri compiti complessi

Scenari Applicabili

Sistemi di Dialogo per Servizio Clienti e Vendite: Scenari che richiedono capacità di persuasione e negoziazione
Compiti di Ottimizzazione Multi-Vincolo: Compiti di generazione che devono soddisfare contemporaneamente vincoli di diversi tipi
Automazione dei Processi Commerciali: Sistemi automatizzati che devono seguire SOP complessi

Riferimenti Bibliografici

L'articolo cita importanti lavori nei campi dell'apprendimento per rinforzo, sistemi di dialogo e generazione di testo controllato, inclusi:

Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-judge)

Valutazione Complessiva: Questo è un articolo di ricerca applicata di alta qualità che propone innovazioni tecniche preziose mentre risolve problemi commerciali reali. La progettazione del framework REPO è ragionevole, la valutazione sperimentale è completa e le capacità emergenti dimostrate sono impressionanti. Sebbene vi sia spazio per miglioramenti nella verifica della generalizzazione e nell'analisi teorica, il contributo nel campo dei dialoghi orientati a compiti complessi è significativo.