2025-11-22T12:04:16.552264

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards

Zhuang, Chen, Zeng et al.
We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.
academic

LLMを説得的にする教育:異種報酬からのアライメントのための報酬強化ポリシー最適化

基本情報

  • 論文ID: 2510.04214
  • タイトル: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
  • 著者: Zhuoran Zhuang, Ye Chen, Xia Zeng*, Chao Luo, Luhui Liu and Yihan Chen (Fliggy Alibaba)
  • 分類: cs.CL
  • 発表日時: 2025年10月11日 (arXiv v2)
  • 論文リンク: https://arxiv.org/abs/2510.04214v2

要約

本研究は、大規模言語モデル(LLM)をオンライン旅行代理店(OTA)のビジネス開発(BD)エージェントとして展開し、説得的な価格交渉を行うことを探索しています。このエージェントは、旅客の支払い能力とホテルの収益性のバランスを取りながら、標準操作手順(SOP)に従った多段階の説得、口語的入力の理解、ガードレール規則の遵守が必要です。従来の訓練後手法(監督微調整や単一報酬最適化など)は、スクリプトへの過学習、細微な説得スタイルの欠如、検証可能なビジネス制約の実行不可などの問題を抱えています。

著者らは報酬強化ポリシー最適化(REPO)フレームワークを提案しました。これは異種報酬を使用してLLMをアライメントする強化学習訓練後フレームワークです:嗜好訓練された報酬モデル(RM)は密集した人間アライメント用、報酬評判者(RJ)は高度な説得行動とSOP準拠用、プログラム的報酬関数(RF)は数値、形式、ガードレールの決定論的チェック用です。本番レベルの評価では、REPOは対話品質と問題修復率を大幅に向上させました。

研究背景と動機

問題定義

オンライン旅行代理店の価格交渉は複雑なビジネスシナリオであり、BDエージェントがホテルマネージャーと複数ラウンドの対話を行い、ホテルの収益性を維持しながら客室価格を低下させて旅客の支払い能力を向上させることを目標とします。この交渉は直接、客室予約数、パートナーシップ、および全体的な旅行コストに影響します。

課題分析

  1. 交渉の複雑性:譲歩の校正、競合他社比較、共感的フレーミングなどを含む、微細で文脈認識的な推論と説得的相互作用が必要
  2. 段階的プロセス遵守:SOPに従って多段階プロセス内の現在の状態を推論し、相応の行動を取る必要がある
  3. 検証可能な数値とガードレール:出力は正確な価格設定、有効な形式、虚偽の約束回避などの厳格なビジネス制約を満たす必要がある
  4. 説得的で適応的な応答生成:エッジケースと対抗的シナリオを含む様々なシナリオに対応する必要がある

既存手法の限界

  • 監督微調整(SFT):訓練データへの過学習が容易で、汎化能力が限定的
  • 直接嗜好最適化(DPO):嗜好データの品質に依存し、構造化されたビジネス規則を実行するメカニズムが不足
  • 従来の強化学習(PPO/GRPO):訓練動態が不安定で、「報酬ハッキング」が発生しやすい

核心的貢献

  1. 産業規模の価格交渉タスクに対する初の研究:従来のQ&Aタスクを超える複雑で長期的な説得シナリオに対応
  2. REPOフレームワークの提案:嗜好、評判、プログラム的報酬を集約する複雑なタスク指向対話アライメントフレームワークとしては初
  3. 包括的な評価検証:交渉有効性、準拠性、新興説得能力においてREPOの優位性を実証し、人間注釈付きゴールドスタンダードを上回る

方法の詳細

タスク定義

OTA価格交渉タスクは、BDエージェントがホテルと複数ラウンドの対話を行い、市場条件に基づいて客室価格を調整することを要求します。目標は旅客の支払い能力とホテルの収益性のバランスを取り、ウィンウィンの結果を確保することです。

REPOアーキテクチャ

三源報酬設計

  1. 報酬モデル(RM):嗜好データに基づいて訓練されたモデルで、密集した人間アライメント信号を提供し、人間のBD説得スタイルと戦略を学習
  2. 報酬評判者(RJ):LLM-as-a-judgeフレームワークで、SOP準拠、感情的価値、説得スタイルなどの高度な行動を評価
  3. プログラム的報酬関数(RF):ビジネス数値、形式、ガードレール、長さ要件の決定論的チェック

報酬強化メカニズム

REPOは安定性保持の調整戦略を採用し、RJとRFを補助信号として使用してメインのRM信号をスケーリングします:

Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)

この符号認識、振幅感応スケーリングは以下の効果を持ちます:

  • Rmodel > 0かつEenh > 0の場合、報酬が増幅される
  • Rmodel > 0かつEenh < 0の場合、報酬が抑制される
  • Rmodel < 0の場合、相応にペナルティが減少または増幅される

効率的な計算最適化

  1. LoRAアダプタ:ポリシーと価値ネットワークで低ランク適応を使用し、メモリを削減し訓練を加速
  2. 参照モデルなし:KLペナルティを使用せず、LoRAの低ランク制約が安定した更新をサポート
  3. グループなし計算:グループベースのスコアリングと集約を回避し、軌跡ごとに報酬を計算

実験設定

モデルとパラメータ

  • 基本モデル:Qwen3-32B-Instruct
  • 最大応答長:512トークン
  • バッチサイズ:128
  • LoRA設定:rank=64, alpha=64
  • 学習率:1e-6
  • 訓練エポック:監督段階(SFT/DPO)10エポック、RL段階(PPO/GRPO/REPO)2エポック

訓練データ

高品質な嗜好データセットを構築し、6,632サンプルを含む:

  • オンライン本番から252ケース
  • 言語専門家による注釈3,178サンプル
  • タスク専門家(人間BD)による注釈1,211サンプル
  • 初期SFT注釈後に人間BDによって充実させられた嗜好データ1,991サンプル

評価データ

  1. オンラインサンプル:30個の完全な本番対話(約150ラウンド)、ホテル意図の真の分布を反映
  2. 問題ケース集合:45個の対話(約225ラウンド)、ビジネス専門家によってキュレーションされ、基本モデルが誤ったエラーの様々なカテゴリーをカバー

比較手法

  • SFT:監督微調整
  • DPO:直接嗜好最適化
  • PPO:近接ポリシー最適化
  • GRPO:グループ相対ポリシー最適化

実験結果

主要結果

オンラインサンプル評価

2つの指標を使用して評価:

  1. 全体対話スコア(1-5スケール):REPOは4.63を達成、ベースラインから+1.20、DPOから+0.83、GRPOから+0.33の改善
  2. 優秀応答対話の割合:REPOは66.67%に達し、ベースライン(13.33%)から5倍、DPO(33.33%)から約2倍、GRPOから+23.34パーセントポイント改善

問題ケース修復

  • 全体修復率:REPO、DPO、SFTすべて93.33%に達成
  • クリーン修復率:REPOが最高(75.56%)で、他の手法を大幅に上回る
  • 深刻な未解決ケース:REPOは0%で、最高の性能を示す

アブレーション実験

新興交渉能力分析

訓練プロセス中の説得能力スコアを追跡することで、REPOが3つの段階を示すことを発見:

  1. 初期段階(0-30ステップ):探索が不安定
  2. 学習段階(30-100ステップ):ポリシーが着実に向上
  3. 収束段階(100-190ステップ):性能が安定化

最終チェックポイントは初期チェックポイントから約30%改善。

細粒度対話スキル評価

4つのバイナリスキルで評価:対話流暢性、ワークフロー準拠性、交渉有効性、スコープ理解。REPOは交渉有効性で明らかにリード、これが異なる手法を区別する主要指標です。

ケース分析

論文はREPO訓練後に出現した新興能力を示しています:

  1. 感情的価値+根本原因推論:ゴールドスタンダードより豊かな文脈認識推論を提供
  2. ホテルタイプ別ターゲット推奨:競合他社認識の理由を組み合わせ
  3. 情報限定下での説得:露出と転換ロジックを使用してリクエストを再フレーミング

関連研究

タスク指向対話システムとLLMアライメント

既存研究は主に受動的でユーザー開始のタスクに焦点を当てています。能動的な価格交渉は長期説得戦略が必要で、文脈ベースの推論と校正された感情知能を組み合わせます。

制御可能なテキスト生成と複数報酬集約

既存手法は単一信号源に依存するか、部分的な報酬タイプのみを結合します。REPOは3つの信号ファミリーすべてを結合する初の手法です。

結論と考察

主要結論

REPOは慎重に設計された複数源報酬を通じて、能動的な価格交渉を成功裏に実現しました。人間専門家評価では、REPOは対話品質、優秀応答発生率、問題ケース修復においてすべてのベースライン手法を継続的に上回ります。

限界

  1. 評価範囲の限定:価格交渉タスクのみで評価、より広いタスクと設定での有効性検証が必要
  2. 計算リソース要件:訓練に相当な計算リソースが必要
  3. 領域特異性:方法は特定のビジネスシナリオ向けに設計

今後の方向性

  1. より小さいモデルバックボーンへの拡張
  2. より広い領域と言語への適用
  3. 報酬設計の改善

深度評価

利点

  1. 実用的応用価値が高い:実際のビジネスシナリオの複雑な問題を解決
  2. 方法の革新性が強い:初めて体系的に3つの異種報酬信号を結合
  3. 評価が包括的:本番レベルデータと多次元評価指標を含む
  4. 技術実装が合理的:LoRAなどの技術を通じた効率的な訓練を実現
  5. 新興能力が顕著:人間注釈を超える説得能力を示す

不足点

  1. 汎化性検証が不十分:単一タスクのみで検証、クロスドメイン評価が不足
  2. 理論分析が限定的:報酬組み合わせメカニズムの理論的保証が不足
  3. 計算コスト分析が不十分:ベースライン手法との計算オーバーヘッドの詳細分析がない
  4. 長期効果が未知:長期展開効果の分析が不足

影響力

  1. 学術的貢献:複雑なタスク指向対話のLLMアライメントに新しい視点を提供
  2. 産業的価値:実際のビジネスシナリオに直接適用可能で、強い実用性を持つ
  3. 方法的示唆:異種報酬統合の考え方は他の複雑なタスクに推広可能

適用シナリオ

  1. カスタマーサービスと販売対話システム:説得と交渉能力が必要なシナリオ
  2. 複数制約最適化タスク:異なるタイプの複数制約を同時に満たす必要がある生成タスク
  3. ビジネスプロセス自動化:複雑なSOPに従う必要がある自動化システム

参考文献

論文は強化学習、対話システム、制御可能なテキスト生成などの領域の重要な研究を引用しており、以下を含みます:

  • Ouyang et al., 2022 (RLHF)
  • Rafailov et al., 2024 (DPO)
  • Shao et al., 2024 (GRPO)
  • Zheng et al., 2023 (LLM-as-a-judge)

総合評価:これは実際のビジネス問題を解決しながら価値のある技術革新を提案する高品質な応用研究論文です。REPOフレームワークの設計は合理的で、実験評価は充分であり、示された新興能力は印象的です。汎化性検証と理論分析の面でまだ改善の余地がありますが、複雑なタスク指向対話領域への貢献は顕著です。