2025-11-22T12:04:16.552264

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards

Zhuang, Chen, Zeng et al.
We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.
academic

Insegnare ai LLM ad essere Persuasivi: Ottimizzazione delle Politiche Potenziata da Ricompense per l'Allineamento da Ricompense Eterogenee

Informazioni Fondamentali

  • ID Articolo: 2510.04214
  • Titolo: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
  • Autori: Zhuoran Zhuang, Ye Chen, Xia Zeng*, Chao Luo, Luhui Liu e Yihan Chen (Fliggy Alibaba)
  • Classificazione: cs.CL
  • Data di Pubblicazione: 11 ottobre 2025 (arXiv v2)
  • Link dell'Articolo: https://arxiv.org/abs/2510.04214v2

Riassunto

Questo studio esplora il dispiegamento di modelli linguistici di grandi dimensioni (LLM) come agenti di sviluppo commerciale (BD) presso agenzie di viaggi online (OTA) per negoziazioni di prezzo persuasive. L'agente deve condurre negoziazioni persuasive multi-turno seguendo procedure operative standard (SOP), comprendendo input colloquiali e rispettando vincoli di sicurezza, bilanciando al contempo la capacità di spesa dei viaggiatori e la redditività degli hotel. I metodi di post-addestramento tradizionali (come l'ottimizzazione con fine-tuning supervisionato o singola ricompensa) soffrono di sovradattamento agli script, mancanza di stili persuasivi sfumati e incapacità di applicare vincoli commerciali verificabili.

Gli autori propongono il framework REPO (Reward-Enhanced Policy Optimization), un framework di post-addestramento di apprendimento per rinforzo che allinea gli LLM utilizzando ricompense eterogenee: modelli di ricompensa (RM) addestrati con preferenze per l'allineamento umano denso, valutatori di ricompensa (RJ) per comportamenti persuasivi avanzati e conformità SOP, e funzioni di ricompensa programmatiche (RF) per controlli deterministici di valori numerici, formato e vincoli di sicurezza. In una valutazione a livello di produzione, REPO migliora significativamente la qualità della conversazione e il tasso di risoluzione dei problemi.

Contesto di Ricerca e Motivazione

Definizione del Problema

La negoziazione dei prezzi presso le agenzie di viaggi online è uno scenario commerciale complesso che richiede agli agenti BD di condurre dialoghi multi-turno con i gestori degli hotel, con l'obiettivo di ridurre i prezzi delle camere per aumentare la capacità di spesa dei viaggiatori mantenendo la redditività dell'hotel. Questo negoziato influisce direttamente sul volume delle prenotazioni di camere, sulle relazioni di partnership e sui costi complessivi dei viaggi.

Analisi delle Sfide

  1. Complessità della Negoziazione: Richiede ragionamento sfumato e consapevole del contesto e interazioni persuasive, inclusi calibramenti di concessioni, confronti competitivi e inquadramenti empatici
  2. Conformità ai Processi Fasi: Deve dedurre lo stato attuale all'interno di un processo multi-fase secondo l'SOP e intraprendere azioni appropriate
  3. Valori Numerici Verificabili e Vincoli di Sicurezza: L'output deve soddisfare vincoli commerciali rigorosi, come prezzi accurati, formati validi e evitare promesse false
  4. Generazione di Risposte Persuasive e Adattive: Deve gestire vari scenari, inclusi casi limite e scenari avversariali

Limitazioni degli Approcci Esistenti

  • Fine-tuning Supervisionato (SFT): Tende a sovradattarsi ai dati di addestramento con capacità di generalizzazione limitata
  • Ottimizzazione Diretta delle Preferenze (DPO): Dipende dalla qualità dei dati di preferenza e manca di meccanismi per applicare regole commerciali strutturate
  • Apprendimento per Rinforzo Tradizionale (PPO/GRPO): Dinamiche di addestramento instabili, soggette a "reward hacking"

Contributi Principali

  1. Primo Studio LLM per Compiti di Negoziazione dei Prezzi a Livello Industriale: Affronta scenari persuasivi complessi e a lungo termine che vanno oltre i compiti tradizionali di domande e risposte
  2. Propone il Framework REPO: Primo framework di allineamento per dialoghi orientati a compiti complessi che aggrega ricompense di preferenza, valutazione e programmatiche
  3. Valutazione Completa e Verificata: Dimostra la superiorità di REPO in termini di efficacia della negoziazione, conformità e capacità persuasive emergenti, superando lo standard aureo annotato manualmente

Dettagli del Metodo

Definizione del Compito

Il compito di negoziazione dei prezzi OTA richiede all'agente BD di condurre dialoghi multi-turno con gli hotel, adattando i prezzi delle camere in base alle condizioni di mercato. L'obiettivo è bilanciare la capacità di spesa dei viaggiatori e la redditività dell'hotel, garantendo risultati vantaggiosi per entrambi.

Architettura REPO

Progettazione di Ricompense da Tre Fonti

  1. Modello di Ricompensa (RM): Modello addestrato su dati di preferenza che fornisce segnali di allineamento umano densi, apprendendo lo stile e le strategie persuasive BD umane
  2. Valutatore di Ricompensa (RJ): Framework LLM-as-a-judge che valuta comportamenti di alto livello come conformità SOP, valore emotivo e stile persuasivo
  3. Funzione di Ricompensa Programmatica (RF): Controlli deterministici per valori numerici commerciali, formato, vincoli di sicurezza e requisiti di lunghezza

Meccanismo di Potenziamento della Ricompensa

REPO impiega una strategia di modulazione che preserva la stabilità, utilizzando RJ e RF come segnali ausiliari per scalare il segnale RM principale:

Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)

Questo ridimensionamento consapevole del segno e sensibile all'ampiezza ha i seguenti effetti:

  • Quando Rmodel > 0 e Eenh > 0, la ricompensa viene amplificata
  • Quando Rmodel > 0 e Eenh < 0, la ricompensa viene soppressa
  • Quando Rmodel < 0, le punizioni vengono ridotte o amplificate di conseguenza

Ottimizzazioni Computazionali Efficienti

  1. Adattatori LoRA: Utilizza adattamento a basso rango sulle reti di politica e valore, riducendo la memoria e accelerando l'addestramento
  2. Senza Modello di Riferimento: Non utilizza penalità KL, il vincolo di basso rango di LoRA supporta aggiornamenti stabili
  3. Calcolo Senza Raggruppamento: Evita il punteggio e l'aggregazione basati su gruppi, calcolando le ricompense per traiettoria

Configurazione Sperimentale

Modelli e Parametri

  • Modello di Base: Qwen3-32B-Instruct
  • Lunghezza Massima della Risposta: 512 token
  • Dimensione del Batch: 128
  • Configurazione LoRA: rank=64, alpha=64
  • Tasso di Apprendimento: 1e-6
  • Epoche di Addestramento: Fase supervisionata (SFT/DPO) 10 epoche, fase RL (PPO/GRPO/REPO) 2 epoche

Dati di Addestramento

È stato costruito un dataset di preferenza di alta qualità contenente 6.632 campioni:

  • 252 casi provenienti da produzione online
  • 3.178 campioni annotati da esperti linguistici
  • 1.211 campioni annotati da esperti di compiti (BD umani)
  • 1.991 dati di preferenza arricchiti da BD umani dopo l'annotazione SFT iniziale

Dati di Valutazione

  1. Campioni Online: 30 dialoghi di produzione completi (circa 150 turni), che riflettono la vera distribuzione delle intenzioni degli hotel
  2. Insieme di Casi Problematici: 45 dialoghi (circa 225 turni), curati da esperti commerciali, che coprono vari problemi in cui il modello di base commette errori

Metodi di Confronto

  • SFT: Fine-tuning Supervisionato
  • DPO: Ottimizzazione Diretta delle Preferenze
  • PPO: Ottimizzazione delle Politiche Prossimali
  • GRPO: Ottimizzazione delle Politiche Relative di Gruppo

Risultati Sperimentali

Risultati Principali

Valutazione su Campioni Online

Utilizzando due metriche di valutazione:

  1. Punteggio Complessivo della Conversazione (scala 1-5): REPO raggiunge 4,63 punti, con un miglioramento di +1,20 rispetto alla linea di base, +0,83 rispetto a DPO e +0,33 rispetto a GRPO
  2. Percentuale di Dialoghi con Risposte Eccellenti: REPO raggiunge il 66,67%, con un miglioramento di 5 volte rispetto alla linea di base (13,33%), circa 2 volte rispetto a DPO (33,33%) e +23,34 punti percentuali rispetto a GRPO

Risoluzione di Casi Problematici

  • Tasso di Risoluzione Complessivo: REPO, DPO e SFT raggiungono tutti il 93,33%
  • Tasso di Risoluzione Pulita: REPO è il più alto (75,56%), significativamente superiore ad altri metodi
  • Casi Gravi Non Risolti: REPO è 0%, con le migliori prestazioni

Esperimenti di Ablazione

Analisi delle Capacità Persuasive Emergenti

Tracciando i punteggi di capacità persuasiva durante il processo di addestramento, REPO mostra tre fasi:

  1. Fase Iniziale (0-30 step): Esplorazione instabile
  2. Fase di Apprendimento (30-100 step): Miglioramento costante della politica
  3. Fase di Convergenza (100-190 step): Prestazioni tendono alla stabilità

Il checkpoint finale mostra un miglioramento di circa il 30% rispetto ai checkpoint iniziali.

Valutazione Granulare delle Abilità Conversazionali

Valutazione su quattro abilità binarie: fluidità conversazionale, conformità del flusso di lavoro, efficacia della negoziazione e comprensione dell'ambito. REPO è chiaramente in testa nell'efficacia della negoziazione, che è l'indicatore principale che differenzia i diversi metodi.

Analisi dei Casi

L'articolo mostra le capacità emergenti che appaiono dopo l'addestramento con REPO:

  1. Valore Emotivo + Ragionamento sulla Causa Radice: Fornisce ragionamento consapevole del contesto più ricco rispetto allo standard aureo
  2. Promozione Mirata in Base al Tipo di Hotel: Combina ragioni consapevoli della concorrenza
  3. Persuasione con Informazioni Limitate: Utilizza logica di esposizione e conversione per riformulare le richieste

Lavori Correlati

Sistemi di Dialogo Orientati a Compiti e Allineamento LLM

La ricerca esistente si concentra principalmente su compiti passivi e avviati dall'utente. La negoziazione attiva dei prezzi richiede strategie persuasive a lungo termine, combinando ragionamento basato sul contesto e intelligenza emotiva calibrata.

Generazione di Testo Controllato e Aggregazione di Ricompense Multiple

I metodi esistenti dipendono da una singola fonte di segnale o combinano solo parzialmente tipi di ricompense. REPO è il primo metodo che unisce tutte e tre le famiglie di segnali.

Conclusioni e Discussione

Conclusioni Principali

REPO realizza con successo la negoziazione attiva dei prezzi attraverso ricompense multi-fonte attentamente progettate. In una valutazione da parte di esperti umani, REPO supera costantemente tutti i metodi di base in termini di qualità della conversazione, tasso di occorrenza di risposte eccellenti e risoluzione di casi problematici.

Limitazioni

  1. Ambito di Valutazione Limitato: Valutato solo su compiti di negoziazione dei prezzi, richiede validazione dell'efficacia su compiti e impostazioni più ampi
  2. Requisiti di Risorse Computazionali: Richiede risorse computazionali significative per l'addestramento
  3. Specificità del Dominio: Il metodo è progettato per scenari commerciali specifici

Direzioni Future

  1. Estensione a backbone di modelli più piccoli
  2. Applicazione a domini e lingue più ampi
  3. Miglioramento della progettazione delle ricompense

Valutazione Approfondita

Punti di Forza

  1. Alto Valore di Applicazione Pratica: Risolve problemi complessi in scenari commerciali reali
  2. Forte Innovazione Metodologica: Primo a combinare sistematicamente tre segnali di ricompensa eterogenei
  3. Valutazione Completa: Include dati a livello di produzione e metriche di valutazione multidimensionali
  4. Implementazione Tecnica Ragionevole: Realizza addestramento efficiente attraverso tecniche come LoRA
  5. Capacità Emergenti Significative: Dimostra capacità persuasive che superano l'annotazione manuale

Insufficienze

  1. Verifica della Generalizzazione Insufficiente: Validato solo su un singolo compito, manca valutazione cross-dominio
  2. Analisi Teorica Limitata: Manca di garanzie teoriche per il meccanismo di combinazione delle ricompense
  3. Analisi dei Costi Computazionali Insufficiente: Non analizza in dettaglio il sovraccarico computazionale rispetto ai metodi di base
  4. Effetti a Lungo Termine Sconosciuti: Manca analisi degli effetti del dispiegamento a lungo termine

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive per l'allineamento LLM in dialoghi orientati a compiti complessi
  2. Valore Industriale: Applicazione diretta a scenari commerciali reali con forte praticità
  3. Ispirazione Metodologica: L'approccio di integrazione di ricompense eterogenee può essere generalizzato ad altri compiti complessi

Scenari Applicabili

  1. Sistemi di Dialogo per Servizio Clienti e Vendite: Scenari che richiedono capacità di persuasione e negoziazione
  2. Compiti di Ottimizzazione Multi-Vincolo: Compiti di generazione che devono soddisfare contemporaneamente vincoli di diversi tipi
  3. Automazione dei Processi Commerciali: Sistemi automatizzati che devono seguire SOP complessi

Riferimenti Bibliografici

L'articolo cita importanti lavori nei campi dell'apprendimento per rinforzo, sistemi di dialogo e generazione di testo controllato, inclusi:

  • Ouyang et al., 2022 (RLHF)
  • Rafailov et al., 2024 (DPO)
  • Shao et al., 2024 (GRPO)
  • Zheng et al., 2023 (LLM-as-a-judge)

Valutazione Complessiva: Questo è un articolo di ricerca applicata di alta qualità che propone innovazioni tecniche preziose mentre risolve problemi commerciali reali. La progettazione del framework REPO è ragionevole, la valutazione sperimentale è completa e le capacità emergenti dimostrate sono impressionanti. Sebbene vi sia spazio per miglioramenti nella verifica della generalizzazione e nell'analisi teorica, il contributo nel campo dei dialoghi orientati a compiti complessi è significativo.