Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards
Zhuang, Chen, Zeng et al.
We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints.
We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.
academic
تعليم نماذج اللغة الكبيرة أن تكون مقنعة: تحسين السياسة المعززة بالمكافآت للمحاذاة من المكافآت غير المتجانسة
تستكشف هذه الدراسة نشر نماذج اللغة الكبيرة (LLMs) كوكلاء تطوير أعمال (BD) لدى وكالات السفر عبر الإنترنت (OTAs) للتفاوض على الأسعار الإقناعية. يجب على الوكيل إجراء تفاوضات إقناعية متعددة الجولات وفقاً لإجراءات التشغيل القياسية (SOP) مع موازنة القدرة المالية للمسافرين وربحية الفنادق، وفهم المدخلات المحكية، والامتثال لقواعد الحماية. تعاني الطرق التقليدية بعد التدريب (مثل الضبط الدقيق الخاضع للإشراف أو تحسين المكافآت الفردية) من الإفراط في التدريب على النصوص، وافتقار الأساليب الإقناعية الدقيقة، وعدم القدرة على تنفيذ قيود الأعمال القابلة للتحقق.
يقترح المؤلفون إطار عمل تحسين السياسة المعززة بالمكافآت (REPO)، وهو إطار عمل تعلم معزز بعد التدريب يستخدم مكافآت غير متجانسة لمحاذاة نماذج اللغة الكبيرة: نماذج المكافآت المدربة على التفضيلات (RM) للمحاذاة البشرية الكثيفة، وحكام المكافآت (RJ) للسلوكيات الإقناعية المتقدمة والامتثال لـ SOP، ودوال المكافآت البرمجية (RF) للفحوصات الحتمية للقيم الرقمية والتنسيق والحماية. في التقييم على مستوى الإنتاج، حسّن REPO بشكل كبير جودة الحوار ومعدل إصلاح المشاكل.
التفاوض على الأسعار في وكالات السفر عبر الإنترنت هو سيناريو عمل معقد يتطلب من وكيل التطوير إجراء حوارات متعددة الجولات مع مديري الفنادق، بهدف تقليل أسعار الغرف لزيادة القدرة المالية للمسافرين مع الحفاظ على ربحية الفندق. يؤثر هذا التفاوض بشكل مباشر على حجم حجوزات الغرف والعلاقات التعاونية والتكلفة الإجمالية للسفر.
أول دراسة لنماذج اللغة الكبيرة لمهمة التفاوض على الأسعار على مستوى الصناعة: حل السيناريوهات الإقناعية المعقدة والطويلة الأجل التي تتجاوز مهام الأسئلة والأجوبة التقليدية
اقتراح إطار عمل REPO: أول إطار عمل لمحاذاة الحوار الموجه نحو المهام المعقدة يجمع بين المكافآت التفضيلية والحكم والبرمجية
تقييم شامل للتحقق: إثبات تفوق REPO في فعالية التفاوض والامتثال والقدرات الإقناعية الناشئة، متفوقاً على المعايير الذهبية المشروحة يدوياً
تتطلب مهمة التفاوض على أسعار OTA من وكيل BD إجراء حوارات متعددة الجولات مع الفنادق لتعديل أسعار الغرف بناءً على ظروف السوق. الهدف هو موازنة القدرة المالية للمسافرين وربحية الفندق، مما يضمن نتائج رابحة للطرفين.
تم التقييم على أربع مهارات ثنائية: سلاسة الحوار، امتثال سير العمل، فعالية التفاوض، فهم النطاق. يتفوق REPO بشكل واضح في فعالية التفاوض، وهو المؤشر الرئيسي الذي يميز الطرق المختلفة.
يركز البحث الموجود بشكل أساسي على المهام السلبية التي يبدأها المستخدم. يتطلب التفاوض على الأسعار النشط استراتيجيات إقناعية طويلة الأجل، مع الجمع بين الاستدلال المستند إلى السياق والذكاء العاطفي المعايير.
حقق REPO بنجاح التفاوض على الأسعار النشط من خلال مكافآت متعددة المصادر مصممة بعناية. في التقييم من قبل خبراء بشريين، تفوق REPO باستمرار على جميع طرق خط الأساس في جودة الحوار ومعدل حدوث الاستجابات الممتازة ومعدل إصلاح حالات المشاكل.
تستشهد الورقة بأعمال مهمة في مجالات التعلم المعزز وأنظمة الحوار وتوليد النصوص القابل للتحكم، بما في ذلك:
Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-judge)
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال البحث التطبيقي، تقترح ابتكارات تقنية قيمة أثناء حل مشاكل الأعمال الفعلية. يتمتع تصميم إطار عمل REPO بمنطقية سليمة، والتقييم التجريبي شامل، والقدرات الناشئة المعروضة مثيرة للإعجاب. على الرغم من وجود مجال للتحسين في التحقق من التعميم والتحليل النظري، فإن مساهمتها في مجال الحوار الموجه نحو المهام المعقدة كبيرة.