2025-11-22T12:04:16.552264

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards

Zhuang, Chen, Zeng et al.
We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.
academic

Enseigner aux LLM à être Persuasifs : Optimisation de Politique Améliorée par Récompense pour l'Alignement à partir de Récompenses Hétérogènes

Informations Fondamentales

  • ID de l'article : 2510.04214
  • Titre : Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
  • Auteurs : Zhuoran Zhuang, Ye Chen, Xia Zeng*, Chao Luo, Luhui Liu et Yihan Chen (Fliggy Alibaba)
  • Classification : cs.CL
  • Date de publication : 11 octobre 2025 (arXiv v2)
  • Lien de l'article : https://arxiv.org/abs/2510.04214v2

Résumé

Cette étude explore le déploiement de grands modèles de langage (LLMs) en tant qu'agents de développement commercial (BD) pour les agences de voyages en ligne (OTAs), destinés à la négociation tarifaire persuasive. L'agent doit effectuer une persuasion multi-tours conforme aux procédures opérationnelles standard (SOP) tout en équilibrant la capacité financière des voyageurs et la rentabilité des hôtels, en comprenant les entrées conversationnelles et en respectant les garde-fous. Les méthodes d'entraînement post-hoc traditionnelles (telles que l'ajustement fin supervisé ou l'optimisation de récompense unique) présentent des limitations : surapprentissage des scripts, manque de styles de persuasion nuancés et incapacité à appliquer les contraintes métier vérifiables.

Les auteurs proposent le cadre REPO (Reward-Enhanced Policy Optimization), un framework d'entraînement post-hoc par apprentissage par renforcement utilisant des récompenses hétérogènes pour aligner les LLMs : des modèles de récompense (RM) entraînés sur les préférences pour l'alignement humain dense, des évaluateurs de récompense (RJ) pour les comportements persuasifs avancés et la conformité SOP, et des fonctions de récompense programmatiques (RF) pour les vérifications déterministes des valeurs numériques, du format et des garde-fous. Dans une évaluation de niveau production, REPO améliore significativement la qualité des conversations et le taux de résolution des problèmes.

Contexte et Motivation de la Recherche

Définition du Problème

La négociation tarifaire dans les agences de voyages en ligne est un scénario commercial complexe nécessitant que l'agent BD engage plusieurs tours de dialogue avec les gestionnaires d'hôtels, visant à réduire les tarifs des chambres pour améliorer l'accessibilité aux voyageurs tout en préservant la rentabilité des hôtels. Cette négociation affecte directement le volume de réservations, les relations partenaires et le coût global des voyages.

Analyse des Défis

  1. Complexité de la négociation : Nécessite un raisonnement nuancé et conscient du contexte ainsi que des interactions persuasives, incluant l'étalonnage des concessions, les comparaisons concurrentielles et les cadres empathiques
  2. Conformité aux processus par étapes : Doit déduire l'état actuel dans un processus multi-étapes selon le SOP et agir en conséquence
  3. Valeurs numériques vérifiables et garde-fous : Les résultats doivent satisfaire des contraintes métier strictes, telles que la tarification précise, les formats valides et l'évitement de fausses promesses
  4. Génération de réponses persuasives et adaptatives : Doit gérer diverses scénarios, incluant les cas limites et les scénarios antagonistes

Limitations des Approches Existantes

  • Ajustement fin supervisé (SFT) : Sujet au surapprentissage des données d'entraînement avec une capacité de généralisation limitée
  • Optimisation directe des préférences (DPO) : Dépend de la qualité des données de préférence et manque de mécanismes pour appliquer les règles métier structurées
  • Apprentissage par renforcement traditionnel (PPO/GRPO) : Dynamiques d'entraînement instables et susceptibles de « piratage de récompense »

Contributions Principales

  1. Première étude LLM pour une tâche de négociation tarifaire au niveau industriel : Résout des scénarios de persuasion complexes et à long terme au-delà des tâches de questions-réponses traditionnelles
  2. Proposition du cadre REPO : Premier framework d'alignement de dialogue orienté vers les tâches complexes agrégant les récompenses de préférence, d'évaluation et programmatiques
  3. Évaluation complète et vérification : Démontre la supériorité de REPO en termes d'efficacité de négociation, de conformité et de capacités persuasives émergentes, surpassant l'étalon-or annoté manuellement

Détails de la Méthode

Définition de la Tâche

La tâche de négociation tarifaire OTA exige que l'agent BD engage plusieurs tours de dialogue avec les hôtels pour ajuster les tarifs des chambres selon les conditions du marché. L'objectif est d'équilibrer l'accessibilité financière des voyageurs et la rentabilité des hôtels, en assurant des résultats gagnant-gagnant.

Architecture REPO

Conception de Récompenses Tri-Sources

  1. Modèle de Récompense (RM) : Modèle entraîné sur des données de préférence fournissant des signaux d'alignement humain denses, apprenant les styles et stratégies de persuasion BD humains
  2. Évaluateur de Récompense (RJ) : Framework LLM-as-a-judge évaluant les comportements de haut niveau tels que la conformité SOP, la valeur émotionnelle et le style persuasif
  3. Fonction de Récompense Programmatique (RF) : Vérifications déterministes des valeurs numériques métier, du format, des garde-fous et des exigences de longueur

Mécanisme d'Amélioration de Récompense

REPO emploie une stratégie de modulation préservant la stabilité, utilisant RJ et RF comme signaux auxiliaires pour moduler le signal RM principal :

Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)

Cette mise à l'échelle consciente du signe et sensible à l'amplitude produit les effets suivants :

  • Lorsque Rmodel > 0 et Eenh > 0, la récompense est amplifiée
  • Lorsque Rmodel > 0 et Eenh < 0, la récompense est supprimée
  • Lorsque Rmodel < 0, les punitions sont réduites ou amplifiées en conséquence

Optimisations de Calcul Efficace

  1. Adaptateurs LoRA : Utilise l'adaptation de faible rang sur les réseaux de politique et de valeur, réduisant la mémoire et accélérant l'entraînement
  2. Modèle sans référence : N'utilise pas de pénalité KL, la contrainte de faible rang de LoRA soutenant les mises à jour stables
  3. Calcul sans groupes : Évite la notation et l'agrégation basées sur les groupes, calculant les récompenses par trajectoire

Configuration Expérimentale

Modèles et Paramètres

  • Modèle de base : Qwen3-32B-Instruct
  • Longueur maximale de réponse : 512 tokens
  • Taille de lot : 128
  • Configuration LoRA : rank=64, alpha=64
  • Taux d'apprentissage : 1e-6
  • Nombre d'épochs d'entraînement : 10 pour la phase supervisée (SFT/DPO), 2 pour la phase RL (PPO/GRPO/REPO)

Données d'Entraînement

Construction d'un ensemble de données de préférence de haute qualité contenant 6 632 échantillons :

  • 252 cas provenant de la production en ligne
  • 3 178 échantillons annotés par des spécialistes linguistiques
  • 1 211 échantillons annotés par des experts en tâches (agents BD humains)
  • 1 991 données de préférence enrichies par des agents BD humains après l'annotation SFT initiale

Données d'Évaluation

  1. Échantillons en ligne : 30 dialogues de production complets (environ 150 tours), reflétant la distribution réelle des intentions des hôtels
  2. Ensemble de cas problématiques : 45 dialogues (environ 225 tours) sélectionnés par des experts métier, couvrant diverses problématiques où le modèle de base échoue

Méthodes de Comparaison

  • SFT : Ajustement fin supervisé
  • DPO : Optimisation directe des préférences
  • PPO : Optimisation de politique proximale
  • GRPO : Optimisation de politique relative par groupes

Résultats Expérimentaux

Résultats Principaux

Évaluation sur Échantillons en Ligne

Utilisant deux métriques :

  1. Score de dialogue global (échelle 1-5) : REPO atteint 4,63, améliorant la ligne de base de +1,20, DPO de +0,83 et GRPO de +0,33
  2. Proportion de dialogues avec réponses excellentes : REPO atteint 66,67%, améliorant la ligne de base de 5 fois (13,33%), DPO d'environ 2 fois (33,33%) et GRPO de +23,34 points de pourcentage

Résolution de Cas Problématiques

  • Taux de résolution global : REPO, DPO et SFT atteignent tous 93,33%
  • Taux de résolution propre : REPO est le plus élevé (75,56%), surpassant significativement les autres méthodes
  • Cas graves non résolus : REPO atteint 0%, montrant la meilleure performance

Expériences d'Ablation

Analyse des Capacités de Négociation Émergentes

En suivant les scores de capacité persuasive au cours du processus d'entraînement, REPO montre trois phases :

  1. Phase initiale (0-30 étapes) : Exploration instable
  2. Phase d'apprentissage (30-100 étapes) : Amélioration progressive de la politique
  3. Phase de convergence (100-190 étapes) : Performance tendant vers la stabilité

Le point de contrôle final montre une amélioration d'environ 30% par rapport aux points de contrôle antérieurs.

Évaluation Granulaire des Compétences de Dialogue

Évaluation sur quatre compétences binaires : fluidité conversationnelle, conformité du flux de travail, efficacité de négociation et compréhension de la portée. REPO montre une avance claire en efficacité de négociation, la métrique principale différenciant les différentes méthodes.

Analyse de Cas

L'article présente les capacités émergentes apparaissant après l'entraînement REPO :

  1. Valeur émotionnelle + Raisonnement sur la cause racine : Fournit un raisonnement conscient du contexte plus riche que l'étalon-or
  2. Recommandations ciblées selon le type d'hôtel : Combinant des justifications conscientes des concurrents
  3. Persuasion avec information limitée : Utilisant la logique d'exposition et de conversion pour reformuler les demandes

Travaux Connexes

Systèmes de Dialogue Orientés Tâches et Alignement des LLMs

La recherche existante se concentre principalement sur les tâches passives initiées par l'utilisateur. La négociation tarifaire proactive nécessite des stratégies de persuasion à long terme, combinant le raisonnement contextuel et l'intelligence émotionnelle calibrée.

Génération de Texte Contrôlée et Agrégation Multi-Récompenses

Les approches existantes dépendent soit d'une source de signal unique, soit combinent seulement partiellement les types de récompenses. REPO est la première méthode unissant les trois familles de signaux.

Conclusion et Discussion

Conclusions Principales

REPO réalise avec succès la négociation tarifaire proactive grâce à une conception soignée de récompenses multi-sources. Dans l'évaluation par des experts humains, REPO surpasse constamment toutes les méthodes de base en qualité de dialogue, taux d'occurrence de réponses excellentes et résolution de cas problématiques.

Limitations

  1. Portée d'évaluation limitée : Évaluation uniquement sur la tâche de négociation tarifaire, nécessitant une validation sur des tâches et paramètres plus larges
  2. Exigences en ressources de calcul : Nécessite des ressources de calcul importantes pour l'entraînement
  3. Spécificité au domaine : La méthode est conçue pour des scénarios métier spécifiques

Directions Futures

  1. Extension à des modèles de base plus petits
  2. Application à des domaines et langues plus larges
  3. Amélioration de la conception des récompenses

Évaluation Approfondie

Points Forts

  1. Valeur d'application pratique élevée : Résout des problèmes complexes dans des scénarios métier réels
  2. Innovation méthodologique forte : Première combinaison systématique de trois signaux de récompense hétérogènes
  3. Évaluation complète : Inclut des données de niveau production et des métriques d'évaluation multidimensionnelles
  4. Implémentation technique raisonnable : Réalise un entraînement efficace via des techniques telles que LoRA
  5. Capacités émergentes significatives : Démontre des capacités persuasives surpassant l'annotation manuelle

Insuffisances

  1. Vérification de généralisation insuffisante : Validation uniquement sur une tâche unique, manquant d'évaluation inter-domaines
  2. Analyse théorique limitée : Manque de garanties théoriques pour le mécanisme de combinaison de récompenses
  3. Analyse des coûts de calcul insuffisante : N'analyse pas en détail les frais de calcul par rapport aux méthodes de base
  4. Effets à long terme inconnus : Manque d'analyse des effets de déploiement à long terme

Impact

  1. Contribution académique : Fournit de nouvelles perspectives pour l'alignement des LLMs dans le dialogue orienté tâches complexes
  2. Valeur industrielle : Application directe aux scénarios métier réels avec forte praticité
  3. Inspiration méthodologique : L'approche d'intégration de récompenses hétérogènes peut être généralisée à d'autres tâches complexes

Scénarios Applicables

  1. Systèmes de dialogue de service client et vente : Scénarios nécessitant des capacités de persuasion et négociation
  2. Tâches d'optimisation multi-contraintes : Tâches de génération devant satisfaire simultanément plusieurs types de contraintes différents
  3. Automatisation des processus métier : Systèmes automatisés devant suivre des SOP complexes

Références

L'article cite des travaux importants dans les domaines de l'apprentissage par renforcement, des systèmes de dialogue et de la génération de texte contrôlée, incluant :

  • Ouyang et al., 2022 (RLHF)
  • Rafailov et al., 2024 (DPO)
  • Shao et al., 2024 (GRPO)
  • Zheng et al., 2023 (LLM-as-a-judge)

Évaluation Globale : Ceci est un article de recherche appliquée de haute qualité qui, tout en résolvant des problèmes métier réels, propose des innovations techniques précieuses. La conception du framework REPO est raisonnable, l'évaluation expérimentale est complète, et les capacités émergentes démontrées sont impressionnantes. Bien qu'il y ait encore de la place pour amélioration en termes de vérification de généralisation et d'analyse théorique, sa contribution au domaine du dialogue orienté tâches complexes est significative.