Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards
Zhuang, Chen, Zeng et al.
We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints.
We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.
academic
Enseigner aux LLM à être Persuasifs : Optimisation de Politique Améliorée par Récompense pour l'Alignement à partir de Récompenses Hétérogènes
Cette étude explore le déploiement de grands modèles de langage (LLMs) en tant qu'agents de développement commercial (BD) pour les agences de voyages en ligne (OTAs), destinés à la négociation tarifaire persuasive. L'agent doit effectuer une persuasion multi-tours conforme aux procédures opérationnelles standard (SOP) tout en équilibrant la capacité financière des voyageurs et la rentabilité des hôtels, en comprenant les entrées conversationnelles et en respectant les garde-fous. Les méthodes d'entraînement post-hoc traditionnelles (telles que l'ajustement fin supervisé ou l'optimisation de récompense unique) présentent des limitations : surapprentissage des scripts, manque de styles de persuasion nuancés et incapacité à appliquer les contraintes métier vérifiables.
Les auteurs proposent le cadre REPO (Reward-Enhanced Policy Optimization), un framework d'entraînement post-hoc par apprentissage par renforcement utilisant des récompenses hétérogènes pour aligner les LLMs : des modèles de récompense (RM) entraînés sur les préférences pour l'alignement humain dense, des évaluateurs de récompense (RJ) pour les comportements persuasifs avancés et la conformité SOP, et des fonctions de récompense programmatiques (RF) pour les vérifications déterministes des valeurs numériques, du format et des garde-fous. Dans une évaluation de niveau production, REPO améliore significativement la qualité des conversations et le taux de résolution des problèmes.
La négociation tarifaire dans les agences de voyages en ligne est un scénario commercial complexe nécessitant que l'agent BD engage plusieurs tours de dialogue avec les gestionnaires d'hôtels, visant à réduire les tarifs des chambres pour améliorer l'accessibilité aux voyageurs tout en préservant la rentabilité des hôtels. Cette négociation affecte directement le volume de réservations, les relations partenaires et le coût global des voyages.
Complexité de la négociation : Nécessite un raisonnement nuancé et conscient du contexte ainsi que des interactions persuasives, incluant l'étalonnage des concessions, les comparaisons concurrentielles et les cadres empathiques
Conformité aux processus par étapes : Doit déduire l'état actuel dans un processus multi-étapes selon le SOP et agir en conséquence
Valeurs numériques vérifiables et garde-fous : Les résultats doivent satisfaire des contraintes métier strictes, telles que la tarification précise, les formats valides et l'évitement de fausses promesses
Génération de réponses persuasives et adaptatives : Doit gérer diverses scénarios, incluant les cas limites et les scénarios antagonistes
Ajustement fin supervisé (SFT) : Sujet au surapprentissage des données d'entraînement avec une capacité de généralisation limitée
Optimisation directe des préférences (DPO) : Dépend de la qualité des données de préférence et manque de mécanismes pour appliquer les règles métier structurées
Apprentissage par renforcement traditionnel (PPO/GRPO) : Dynamiques d'entraînement instables et susceptibles de « piratage de récompense »
Première étude LLM pour une tâche de négociation tarifaire au niveau industriel : Résout des scénarios de persuasion complexes et à long terme au-delà des tâches de questions-réponses traditionnelles
Proposition du cadre REPO : Premier framework d'alignement de dialogue orienté vers les tâches complexes agrégant les récompenses de préférence, d'évaluation et programmatiques
Évaluation complète et vérification : Démontre la supériorité de REPO en termes d'efficacité de négociation, de conformité et de capacités persuasives émergentes, surpassant l'étalon-or annoté manuellement
La tâche de négociation tarifaire OTA exige que l'agent BD engage plusieurs tours de dialogue avec les hôtels pour ajuster les tarifs des chambres selon les conditions du marché. L'objectif est d'équilibrer l'accessibilité financière des voyageurs et la rentabilité des hôtels, en assurant des résultats gagnant-gagnant.
Modèle de Récompense (RM) : Modèle entraîné sur des données de préférence fournissant des signaux d'alignement humain denses, apprenant les styles et stratégies de persuasion BD humains
Évaluateur de Récompense (RJ) : Framework LLM-as-a-judge évaluant les comportements de haut niveau tels que la conformité SOP, la valeur émotionnelle et le style persuasif
Fonction de Récompense Programmatique (RF) : Vérifications déterministes des valeurs numériques métier, du format, des garde-fous et des exigences de longueur
Échantillons en ligne : 30 dialogues de production complets (environ 150 tours), reflétant la distribution réelle des intentions des hôtels
Ensemble de cas problématiques : 45 dialogues (environ 225 tours) sélectionnés par des experts métier, couvrant diverses problématiques où le modèle de base échoue
Score de dialogue global (échelle 1-5) : REPO atteint 4,63, améliorant la ligne de base de +1,20, DPO de +0,83 et GRPO de +0,33
Proportion de dialogues avec réponses excellentes : REPO atteint 66,67%, améliorant la ligne de base de 5 fois (13,33%), DPO d'environ 2 fois (33,33%) et GRPO de +23,34 points de pourcentage
Évaluation sur quatre compétences binaires : fluidité conversationnelle, conformité du flux de travail, efficacité de négociation et compréhension de la portée. REPO montre une avance claire en efficacité de négociation, la métrique principale différenciant les différentes méthodes.
La recherche existante se concentre principalement sur les tâches passives initiées par l'utilisateur. La négociation tarifaire proactive nécessite des stratégies de persuasion à long terme, combinant le raisonnement contextuel et l'intelligence émotionnelle calibrée.
Les approches existantes dépendent soit d'une source de signal unique, soit combinent seulement partiellement les types de récompenses. REPO est la première méthode unissant les trois familles de signaux.
REPO réalise avec succès la négociation tarifaire proactive grâce à une conception soignée de récompenses multi-sources. Dans l'évaluation par des experts humains, REPO surpasse constamment toutes les méthodes de base en qualité de dialogue, taux d'occurrence de réponses excellentes et résolution de cas problématiques.
Portée d'évaluation limitée : Évaluation uniquement sur la tâche de négociation tarifaire, nécessitant une validation sur des tâches et paramètres plus larges
Exigences en ressources de calcul : Nécessite des ressources de calcul importantes pour l'entraînement
Spécificité au domaine : La méthode est conçue pour des scénarios métier spécifiques
L'article cite des travaux importants dans les domaines de l'apprentissage par renforcement, des systèmes de dialogue et de la génération de texte contrôlée, incluant :
Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-judge)
Évaluation Globale : Ceci est un article de recherche appliquée de haute qualité qui, tout en résolvant des problèmes métier réels, propose des innovations techniques précieuses. La conception du framework REPO est raisonnable, l'évaluation expérimentale est complète, et les capacités émergentes démontrées sont impressionnantes. Bien qu'il y ait encore de la place pour amélioration en termes de vérification de généralisation et d'analyse théorique, sa contribution au domaine du dialogue orienté tâches complexes est significative.