2025-11-22T12:04:16.552264

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards

Zhuang, Chen, Zeng et al.

We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.

academic

تعليم نماذج اللغة الكبيرة أن تكون مقنعة: تحسين السياسة المعززة بالمكافآت للمحاذاة من المكافآت غير المتجانسة

المعلومات الأساسية

معرّف الورقة: 2510.04214
العنوان: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
المؤلفون: Zhuoran Zhuang, Ye Chen, Xia Zeng*, Chao Luo, Luhui Liu و Yihan Chen (Fliggy Alibaba)
التصنيف: cs.CL
تاريخ النشر: 11 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2510.04214v2

الملخص

تستكشف هذه الدراسة نشر نماذج اللغة الكبيرة (LLMs) كوكلاء تطوير أعمال (BD) لدى وكالات السفر عبر الإنترنت (OTAs) للتفاوض على الأسعار الإقناعية. يجب على الوكيل إجراء تفاوضات إقناعية متعددة الجولات وفقاً لإجراءات التشغيل القياسية (SOP) مع موازنة القدرة المالية للمسافرين وربحية الفنادق، وفهم المدخلات المحكية، والامتثال لقواعد الحماية. تعاني الطرق التقليدية بعد التدريب (مثل الضبط الدقيق الخاضع للإشراف أو تحسين المكافآت الفردية) من الإفراط في التدريب على النصوص، وافتقار الأساليب الإقناعية الدقيقة، وعدم القدرة على تنفيذ قيود الأعمال القابلة للتحقق.

يقترح المؤلفون إطار عمل تحسين السياسة المعززة بالمكافآت (REPO)، وهو إطار عمل تعلم معزز بعد التدريب يستخدم مكافآت غير متجانسة لمحاذاة نماذج اللغة الكبيرة: نماذج المكافآت المدربة على التفضيلات (RM) للمحاذاة البشرية الكثيفة، وحكام المكافآت (RJ) للسلوكيات الإقناعية المتقدمة والامتثال لـ SOP، ودوال المكافآت البرمجية (RF) للفحوصات الحتمية للقيم الرقمية والتنسيق والحماية. في التقييم على مستوى الإنتاج، حسّن REPO بشكل كبير جودة الحوار ومعدل إصلاح المشاكل.

خلفية البحث والدافع

تعريف المشكلة

التفاوض على الأسعار في وكالات السفر عبر الإنترنت هو سيناريو عمل معقد يتطلب من وكيل التطوير إجراء حوارات متعددة الجولات مع مديري الفنادق، بهدف تقليل أسعار الغرف لزيادة القدرة المالية للمسافرين مع الحفاظ على ربحية الفندق. يؤثر هذا التفاوض بشكل مباشر على حجم حجوزات الغرف والعلاقات التعاونية والتكلفة الإجمالية للسفر.

تحليل التحديات

تعقيد التفاوض: يتطلب استدلالاً دقيقاً وواعياً بالسياق والتفاعل الإقناعي، بما في ذلك معايرة التنازلات ومقارنات المنافسين والإطارات المتعاطفة
اتباع العملية المرحلية: يجب استنتاج الحالة الحالية واتخاذ الإجراءات المناسبة في عملية متعددة المراحل وفقاً لـ SOP
القيم الرقمية والحماية القابلة للتحقق: يجب أن يفي الإخراج بقيود عمل صارمة، مثل التسعير الدقيق والتنسيق الصحيح وتجنب الوعود الكاذبة
توليد الاستجابات الإقناعية والقابلة للتكيف: يتطلب التعامل مع سيناريوهات متنوعة، بما في ذلك الحالات الحدية والسيناريوهات المعادية

قيود الطرق الموجودة

الضبط الدقيق الخاضع للإشراف (SFT): عرضة للإفراط في التدريب على بيانات التدريب، مع قدرة تعميم محدودة
تحسين التفضيل المباشر (DPO): يعتمد على جودة بيانات التفضيل، ويفتقر إلى آلية لتنفيذ قواعد الأعمال المنظمة
التعلم المعزز التقليدي (PPO/GRPO): ديناميكيات التدريب غير مستقرة، عرضة لـ "هجمات المكافآت"

المساهمات الأساسية

أول دراسة لنماذج اللغة الكبيرة لمهمة التفاوض على الأسعار على مستوى الصناعة: حل السيناريوهات الإقناعية المعقدة والطويلة الأجل التي تتجاوز مهام الأسئلة والأجوبة التقليدية
اقتراح إطار عمل REPO: أول إطار عمل لمحاذاة الحوار الموجه نحو المهام المعقدة يجمع بين المكافآت التفضيلية والحكم والبرمجية
تقييم شامل للتحقق: إثبات تفوق REPO في فعالية التفاوض والامتثال والقدرات الإقناعية الناشئة، متفوقاً على المعايير الذهبية المشروحة يدوياً

شرح الطريقة

تعريف المهمة

تتطلب مهمة التفاوض على أسعار OTA من وكيل BD إجراء حوارات متعددة الجولات مع الفنادق لتعديل أسعار الغرف بناءً على ظروف السوق. الهدف هو موازنة القدرة المالية للمسافرين وربحية الفندق، مما يضمن نتائج رابحة للطرفين.

معمارية REPO

تصميم المكافآت من ثلاث مصادر

نموذج المكافآت (RM): نموذج مدرب على بيانات التفضيلات، يوفر إشارات محاذاة بشرية كثيفة، ويتعلم أسلوب وإستراتيجية BD الإقناعية البشرية
حاكم المكافآت (RJ): إطار عمل LLM-as-a-judge، يقيّم السلوكيات المتقدمة مثل امتثال SOP والقيمة العاطفية والأسلوب الإقناعي
دالة المكافآت البرمجية (RF): فحوصات حتمية لقيم الأعمال الرقمية والتنسيق والحماية ومتطلبات الطول

آلية تعزيز المكافآت

يستخدم REPO استراتيجية تعديل تحافظ على الاستقرار، حيث يتم استخدام RJ و RF كإشارات مساعدة لتعديل إشارة RM الرئيسية:

Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)

يحتوي هذا التعديل الحساس للإشارة والحساس للحجم على التأثيرات التالية:

عندما يكون Rmodel > 0 و Eenh > 0، يتم تضخيم المكافآت
عندما يكون Rmodel > 0 و Eenh < 0، يتم قمع المكافآت
عندما يكون Rmodel < 0، يتم تقليل أو تضخيم العقوبات وفقاً لذلك

تحسينات الحساب الفعالة

محولات LoRA: استخدام التكيف منخفض الرتبة على شبكات السياسة والقيمة، مما يقلل الذاكرة ويسرع التدريب
نموذج بدون مرجع: عدم استخدام عقوبة KL، حيث يدعم القيد منخفض الرتبة لـ LoRA التحديثات المستقرة
حساب بدون مجموعات: تجنب التسجيل والتجميع المستند إلى المجموعات، حساب المكافآت لكل مسار

إعداد التجارب

النماذج والمعاملات

النموذج الأساسي: Qwen3-32B-Instruct
الحد الأقصى لطول الاستجابة: 512 رمز
حجم الدفعة: 128
تكوين LoRA: rank=64, alpha=64
معدل التعلم: 1e-6
عدد فترات التدريب: المرحلة الخاضعة للإشراف (SFT/DPO) 10 فترات، مرحلة RL (PPO/GRPO/REPO) فترتان

بيانات التدريب

تم بناء مجموعة بيانات تفضيلات عالية الجودة تحتوي على 6,632 عينة:

252 حالة من الإنتاج عبر الإنترنت
3,178 عينة مشروحة بواسطة متخصصي اللغة
1,211 عينة مشروحة بواسطة خبراء المهام (وكلاء BD البشريون)
1,991 بيانات تفضيل أثرتها وكلاء BD البشريون بعد التشريح الأولي لـ SFT

بيانات التقييم

العينات عبر الإنترنت: 30 حواراً كاملاً من الإنتاج (حوالي 150 جولة)، تعكس التوزيع الحقيقي لنوايا الفندق
مجموعة حالات المشاكل: 45 حواراً (حوالي 225 جولة)، منسقة بواسطة خبراء الأعمال، تغطي مجموعة متنوعة من المشاكل التي يخطئ فيها النموذج الأساسي

طرق المقارنة

SFT: الضبط الدقيق الخاضع للإشراف
DPO: تحسين التفضيل المباشر
PPO: تحسين السياسة القريبة
GRPO: تحسين السياسة النسبية للمجموعة

نتائج التجارب

النتائج الرئيسية

تقييم العينات عبر الإنترنت

تم التقييم باستخدام مؤشرين:

درجة الحوار الإجمالية (مقياس 1-5): وصل REPO إلى 4.63، بتحسن +1.20 عن خط الأساس، +0.83 عن DPO، +0.33 عن GRPO
نسبة الحوارات ذات الاستجابات الممتازة: وصل REPO إلى 66.67%، بتحسن 5 مرات عن خط الأساس (13.33%)، حوالي مرتين عن DPO (33.33%)، +23.34 نقطة مئوية عن GRPO

إصلاح حالات المشاكل

معدل الإصلاح الإجمالي: وصل REPO و DPO و SFT إلى 93.33%
معدل الإصلاح النظيف: الأعلى في REPO (75.56%)، متفوق بشكل كبير على الطرق الأخرى
الحالات الخطيرة غير المحلولة: 0% في REPO، أفضل أداء

تجارب الاستئصال

تحليل القدرات الإقناعية الناشئة

من خلال تتبع درجات القدرة الإقناعية أثناء عملية التدريب، تم اكتشاف ثلاث مراحل في REPO:

المرحلة الأولية (0-30 خطوة): استكشاف غير مستقر
مرحلة التعلم (30-100 خطوة): تحسن السياسة بشكل مطرد
مرحلة التقارب (100-190 خطوة): استقرار الأداء

يحسّن نقطة التفتيش النهائية حوالي 30% عن نقاط التفتيش المبكرة.

تقييم مهارات الحوار الدقيقة

تم التقييم على أربع مهارات ثنائية: سلاسة الحوار، امتثال سير العمل، فعالية التفاوض، فهم النطاق. يتفوق REPO بشكل واضح في فعالية التفاوض، وهو المؤشر الرئيسي الذي يميز الطرق المختلفة.

تحليل الحالات

تعرض الورقة القدرات الناشئة بعد التدريب على REPO:

القيمة العاطفية + استدلال السبب الجذري: توفير استدلال أكثر ثراءً وواعياً بالسياق من المعيار الذهبي
الترويج الموجه حسب نوع الفندق: دمج الأسباب المدركة للمنافسين
الإقناع بمعلومات محدودة: استخدام منطق التعريض والتحويل لإعادة صياغة الطلب

الأعمال ذات الصلة

أنظمة الحوار الموجهة للمهام ومحاذاة نماذج اللغة الكبيرة

يركز البحث الموجود بشكل أساسي على المهام السلبية التي يبدأها المستخدم. يتطلب التفاوض على الأسعار النشط استراتيجيات إقناعية طويلة الأجل، مع الجمع بين الاستدلال المستند إلى السياق والذكاء العاطفي المعايير.

توليد النصوص القابل للتحكم والتجميع متعدد المكافآت

تعتمد الطرق الموجودة إما على مصدر إشارة واحد أو تجمع فقط بعض أنواع المكافآت. REPO هو أول طريقة تجمع بين جميع عائلات الإشارات الثلاث.

الخلاصة والنقاش

الاستنتاجات الرئيسية

حقق REPO بنجاح التفاوض على الأسعار النشط من خلال مكافآت متعددة المصادر مصممة بعناية. في التقييم من قبل خبراء بشريين، تفوق REPO باستمرار على جميع طرق خط الأساس في جودة الحوار ومعدل حدوث الاستجابات الممتازة ومعدل إصلاح حالات المشاكل.

القيود

نطاق التقييم محدود: تم التقييم فقط على مهمة التفاوض على الأسعار، مما يتطلب التحقق من الفعالية على مهام وإعدادات أوسع
متطلبات الموارد الحسابية: يتطلب موارد حسابية كبيرة للتدريب
الخصوصية الخاصة بالمجال: تم تصميم الطريقة لسيناريو عمل محدد

الاتجاهات المستقبلية

التوسع إلى نماذج عظمية أصغر
التطبيق على مجالات ولغات أوسع
تحسين تصميم المكافآت

التقييم المتعمق

المزايا

قيمة تطبيقية عالية: حل مشاكل معقدة في سيناريوهات الأعمال الحقيقية
ابتكار الطريقة قوي: أول دمج منهجي لثلاث إشارات مكافآت غير متجانسة
تقييم شامل: يتضمن بيانات على مستوى الإنتاج ومؤشرات تقييم متعددة الأبعاد
تنفيذ تقني معقول: تحقيق التدريب الفعال من خلال تقنيات مثل LoRA
القدرات الناشئة كبيرة: عرض القدرات الإقناعية التي تتجاوز التشريح اليدوي

أوجه القصور

التحقق من التعميم غير كافٍ: التحقق فقط على مهمة واحدة، يفتقر إلى التقييم عبر المجالات
التحليل النظري محدود: يفتقر إلى الضمانات النظرية لآلية دمج المكافآت
تحليل تكاليف الحساب غير كافٍ: لم يتم تحليل النفقات الحسابية بالتفصيل مقارنة بطرق خط الأساس
التأثيرات طويلة الأجل غير معروفة: يفتقر إلى تحليل تأثيرات النشر طويلة الأجل

التأثير

المساهمة الأكاديمية: توفير أفكار جديدة لمحاذاة نماذج اللغة الكبيرة للحوار الموجه نحو المهام المعقدة
القيمة الصناعية: التطبيق المباشر في سيناريوهات الأعمال الفعلية، مع قابلية عملية قوية
إلهام الطريقة: يمكن تعميم فكرة تكامل المكافآت غير المتجانسة على مهام معقدة أخرى

السيناريوهات المعمول بها

أنظمة الحوار في خدمة العملاء والمبيعات: السيناريوهات التي تتطلب قدرات إقناعية وتفاوضية
مهام التحسين متعددة القيود: مهام الإنشاء التي تحتاج إلى تلبية أنواع قيود مختلفة متزامنة
أتمتة عمليات الأعمال: الأنظمة الآلية التي تحتاج إلى اتباع SOP معقدة

المراجع

تستشهد الورقة بأعمال مهمة في مجالات التعلم المعزز وأنظمة الحوار وتوليد النصوص القابل للتحكم، بما في ذلك:

Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-judge)

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال البحث التطبيقي، تقترح ابتكارات تقنية قيمة أثناء حل مشاكل الأعمال الفعلية. يتمتع تصميم إطار عمل REPO بمنطقية سليمة، والتقييم التجريبي شامل، والقدرات الناشئة المعروضة مثيرة للإعجاب. على الرغم من وجود مجال للتحسين في التحقق من التعميم والتحليل النظري، فإن مساهمتها في مجال الحوار الموجه نحو المهام المعقدة كبيرة.