2025-11-22T12:04:16.552264

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards

Zhuang, Chen, Zeng et al.

We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.

academic

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards

基本信息

论文ID: 2510.04214
标题: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
作者: Zhuoran Zhuang, Ye Chen, Xia Zeng*, Chao Luo, Luhui Liu and Yihan Chen (Fliggy Alibaba)
分类: cs.CL
发表时间: 2025年10月11日 (arXiv v2)
论文链接: https://arxiv.org/abs/2510.04214v2

摘要

本研究探索将大语言模型(LLMs)部署为在线旅行社(OTAs)的业务开发(BD)代理，用于说服性价格谈判。该代理需要在平衡旅客承受能力和酒店盈利能力的同时，遵循标准操作程序(SOP)进行多轮说服，理解口语化输入，并遵守护栏规则。传统的训练后方法(如监督微调或单一奖励优化)存在过拟合脚本、缺乏细致说服风格、无法执行可验证业务约束等问题。

作者提出了奖励增强策略优化(REPO)框架，这是一个强化学习训练后框架，使用异构奖励对齐LLM：偏好训练的奖励模型(RM)用于密集的人类对齐，奖励评判器(RJ)用于高级说服行为和SOP合规性，程序化奖励函数(RF)用于数值、格式和护栏的确定性检查。在生产级评估中，REPO显著提升了对话质量和问题修复率。

研究背景与动机

问题定义

在线旅行社的价格谈判是一个复杂的业务场景，需要BD代理与酒店经理进行多轮对话，目标是在保持酒店盈利能力的同时降低房价以提高旅客承受能力。这种谈判直接影响房间预订量、合作伙伴关系和整体旅行成本。

挑战分析

谈判复杂性：需要细致的、上下文感知的推理和说服性互动，包括校准让步、竞争对手比较、共情框架等
阶段性流程遵循：必须根据SOP在多阶段流程中推断当前状态并采取相应行动
可验证的数值和护栏：输出必须满足严格的业务约束，如准确定价、有效格式、避免虚假承诺
说服性和适应性响应生成：需要处理各种场景，包括边缘情况和对抗性场景

现有方法局限性

监督微调(SFT)：容易过拟合训练数据，泛化能力有限
直接偏好优化(DPO)：依赖偏好数据质量，缺乏执行结构化业务规则的机制
传统强化学习(PPO/GRPO)：训练动态不稳定，容易发生"奖励黑客攻击"

核心贡献

首次针对工业级价格谈判任务的LLM研究：解决了超越传统问答任务的复杂、长期说服场景
提出REPO框架：首个聚合偏好、评判和程序化奖励的复杂任务导向对话对齐框架
全面的评估验证：证明了REPO在谈判有效性、合规性和新兴说服能力方面的优越性，超越了人工标注的金标准

方法详解

任务定义

OTA价格谈判任务要求BD代理与酒店进行多轮对话，根据市场条件调整房价。目标是平衡旅客承受能力和酒店盈利能力，确保双赢结果。

REPO架构

三源奖励设计

奖励模型(RM)：基于偏好数据训练的模型，提供密集的人类对齐信号，学习人类BD说服风格和策略
奖励评判器(RJ)：LLM-as-a-judge框架，评估高级行为如SOP合规性、情感价值、说服风格
程序化奖励函数(RF)：确定性检查业务数值、格式、护栏和长度要求

奖励增强机制

REPO采用稳定性保持的调制策略，将RJ和RF作为辅助信号来缩放主要的RM信号：

Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)

这种符号感知、幅度敏感的缩放具有以下效果：

当Rmodel > 0且Eenh > 0时，奖励被放大
当Rmodel > 0且Eenh < 0时，奖励被抑制
当Rmodel < 0时，相应地减少或放大惩罚

高效计算优化

LoRA适配器：在策略和价值网络上使用低秩适应，减少内存和加速训练
无参考模型：不使用KL惩罚，LoRA的低秩约束支持稳定更新
无组计算：避免基于组的评分和聚合，按轨迹计算奖励

实验设置

模型和参数

基础模型：Qwen3-32B-Instruct
最大响应长度：512 tokens
批量大小：128
LoRA配置：rank=64, alpha=64
学习率：1e-6
训练轮数：监督阶段(SFT/DPO)10轮，RL阶段(PPO/GRPO/REPO)2轮

训练数据

构建了高质量偏好数据集，包含6,632个样本：

252个来自在线生产的案例
3,178个由语言专家标注的样本
1,211个由任务专家(人类BD)标注的样本
1,991个初始SFT标注后由人类BD丰富的偏好数据

评估数据

在线样本：30个完整的生产对话(约150轮)，反映酒店意图的真实分布
问题案例集合：45个对话(约225轮)，由业务专家策划，涵盖基础模型出错的各种问题

对比方法

SFT：监督微调
DPO：直接偏好优化
PPO：近端策略优化
GRPO：组相对策略优化

实验结果

主要结果

在线样本评估

使用两个指标评估：

整体对话评分(1-5分制)：REPO达到4.63分，比基线提升+1.20，比DPO提升+0.83，比GRPO提升+0.33
优秀响应对话占比：REPO达到66.67%，比基线提升5倍(13.33%)，比DPO提升约2倍(33.33%)，比GRPO提升+23.34个百分点

问题案例修复

总体修复率：REPO、DPO、SFT均达到93.33%
干净修复率：REPO最高(75.56%)，显著优于其他方法
严重未解决案例：REPO为0%，表现最佳

消融实验

新兴谈判能力分析

通过追踪训练过程中的说服能力得分，发现REPO展现出三个阶段：

初始阶段(0-30步)：探索不稳定
学习阶段(30-100步)：策略稳步提升
收敛阶段(100-190步)：性能趋于稳定

最终检查点比早期检查点提升约30%。

细粒度对话技能评估

在四个二元技能上评估：对话流畅性、工作流合规性、谈判有效性、范围理解。REPO在谈判有效性上明显领先，这是区分不同方法的主要指标。

案例分析

论文展示了REPO训练后出现的新兴能力：

情感价值+根因推理：提供比金标准更丰富的上下文感知推理
针对酒店类型的定向推介：结合竞争对手感知的理由
信息有限下的说服：使用曝光和转化逻辑重新框架请求

结论与讨论

主要结论

REPO通过精心设计的多源奖励成功实现了主动价格谈判。在人类专家评估中，REPO在对话质量、优秀响应发生率和问题案例修复方面持续优于所有基线方法。

局限性

评估范围有限：仅在价格谈判任务上评估，需要在更广泛的任务和设置上验证有效性
计算资源需求：需要较大的计算资源进行训练
领域特定性：方法针对特定业务场景设计

未来方向

扩展到更小的模型骨干
应用到更广泛的领域和语言
改进奖励设计

深度评价

优点

实际应用价值高：解决了真实业务场景中的复杂问题
方法创新性强：首次系统性地结合三种异构奖励信号
评估全面：包含生产级数据和多维度评估指标
技术实现合理：通过LoRA等技术实现高效训练
新兴能力显著：展现了超越人工标注的说服能力

不足

泛化性验证不足：仅在单一任务上验证，缺乏跨领域评估
理论分析有限：缺乏对奖励组合机制的理论保证
计算成本分析不足：未详细分析相比基线方法的计算开销
长期效果未知：缺乏长期部署效果的分析

影响力

学术贡献：为复杂任务导向对话的LLM对齐提供了新思路
工业价值：直接应用于实际业务场景，具有很强的实用性
方法启发：异构奖励整合的思路可推广到其他复杂任务

适用场景

客服和销售对话系统：需要说服和谈判能力的场景
多约束优化任务：需要同时满足多种不同类型约束的生成任务
业务流程自动化：需要遵循复杂SOP的自动化系统

参考文献

论文引用了强化学习、对话系统、可控文本生成等领域的重要工作，包括：

Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-judge)

总体评价：这是一篇高质量的应用研究论文，在解决实际业务问题的同时提出了有价值的技术创新。REPO框架的设计合理，实验评估充分，展现的新兴能力令人印象深刻。虽然在泛化性验证和理论分析方面还有改进空间，但其在复杂任务导向对话领域的贡献是显著的。