2025-11-22T12:04:16.552264

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards

Zhuang, Chen, Zeng et al.

We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.

academic

LLM কে প্ররোচনামূলক করার শিক্ষা: বিষমজাত পুরস্কার থেকে সারিবদ্ধতার জন্য পুরস্কার-বর্ধিত নীতি অপ্টিমাইজেশন

মৌলিক তথ্য

পেপার আইডি: 2510.04214
শিরোনাম: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
লেখক: Zhuoran Zhuang, Ye Chen, Xia Zeng*, Chao Luo, Luhui Liu এবং Yihan Chen (Fliggy Alibaba)
শ্রেণীবিভাগ: cs.CL
প্রকাশনার সময়: ২৫ অক্টোবর ২০২৫ (arXiv v2)
পেপার লিংক: https://arxiv.org/abs/2510.04214v2

সারসংক্ষেপ

এই গবেষণা অনলাইন ভ্রমণ সংস্থা (OTA) এর ব্যবসায়িক উন্নয়ন (BD) এজেন্ট হিসাবে বৃহৎ ভাষা মডেল (LLM) স্থাপনের অন্বেষণ করে, প্ররোচনামূলক মূল্য আলোচনার জন্য। এই এজেন্টকে যাত্রীদের সামর্থ্য এবং হোটেল লাভজনকতার ভারসাম্য রেখে, মান অপারেশন পদ্ধতি (SOP) অনুসরণ করে বহু-পর্যায়ের প্ররোচনা পরিচালনা করতে, কথ্য ভাষার ইনপুট বুঝতে এবং সুরক্ষা নিয়ম মেনে চলতে হবে। প্রথাগত প্রশিক্ষণোত্তর পদ্ধতি (যেমন তত্ত্বাবধানকৃত সূক্ষ্ম-সুর বা একক পুরস্কার অপ্টিমাইজেশন) স্ক্রিপ্ট ওভারফিটিং, সূক্ষ্ম প্ররোচনামূলক শৈলীর অভাব এবং যাচাইযোগ্য ব্যবসায়িক সীমাবদ্ধতা বাস্তবায়নে ব্যর্থতার সমস্যা রয়েছে।

লেখকরা পুরস্কার-বর্ধিত নীতি অপ্টিমাইজেশন (REPO) কাঠামো প্রস্তাব করেছেন, যা একটি শক্তিশালী শিক্ষা প্রশিক্ষণোত্তর কাঠামো যা বিষমজাত পুরস্কার ব্যবহার করে LLM সারিবদ্ধ করে: পছন্দ প্রশিক্ষণের পুরস্কার মডেল (RM) ঘন মানব সারিবদ্ধতার জন্য, পুরস্কার বিচারক (RJ) উচ্চ-স্তরের প্ররোচনামূলক আচরণ এবং SOP সম্মতির জন্য, এবং প্রোগ্রামেটিক পুরস্কার ফাংশন (RF) সংখ্যাগত, বিন্যাস এবং সুরক্ষা নিয়মের নির্ধারক পরীক্ষার জন্য। উৎপাদন-স্তরের মূল্যায়নে, REPO কথোপকথনের গুণমান এবং সমস্যা মেরামত হার উল্লেখযোগ্যভাবে উন্নত করেছে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

অনলাইন ভ্রমণ সংস্থার মূল্য আলোচনা একটি জটিল ব্যবসায়িক পরিস্থিতি যা BD এজেন্টকে হোটেল ম্যানেজারদের সাথে বহু-পর্যায়ের কথোপকথনে জড়িত হতে প্রয়োজন, যার লক্ষ্য হোটেল লাভজনকতা বজায় রেখে কক্ষের মূল্য হ্রাস করা যাত্রীদের সামর্থ্য বৃদ্ধি করতে। এই আলোচনা সরাসরি কক্ষ বুকিং, অংশীদারিত্ব এবং সামগ্রিক ভ্রমণ খরচকে প্রভাবিত করে।

চ্যালেঞ্জ বিশ্লেষণ

১. আলোচনার জটিলতা: সূক্ষ্ম, প্রসঙ্গ-সচেতন যুক্তি এবং প্ররোচনামূলক মিথস্ক্রিয়া প্রয়োজন, যার মধ্যে রয়েছে ছাড় ক্যালিব্রেশন, প্রতিযোগী তুলনা এবং সহানুভূতি কাঠামো २. পর্যায়ক্রমিক প্রক্রিয়া সম্মতি: SOP অনুযায়ী বহু-পর্যায়ের প্রক্রিয়ায় বর্তমান অবস্থা অনুমান করতে এবং সেই অনুযায়ী পদক্ষেপ নিতে হবে ३. যাচাইযোগ্য সংখ্যাগত এবং সুরক্ষা নিয়ম: আউটপুট কঠোর ব্যবসায়িক সীমাবদ্ধতা পূরণ করতে হবে, যেমন নির্ভুল মূল্য নির্ধারণ, বৈধ বিন্যাস এবং মিথ্যা প্রতিশ্রুতি এড়ানো ४. প্ররোচনামূলক এবং অভিযোজনশীল প্রতিক্রিয়া উৎপাদন: বিভিন্ন পরিস্থিতি পরিচালনা করতে হবে, যার মধ্যে রয়েছে প্রান্তিক ক্ষেত্রে এবং প্রতিকূল পরিস্থিতি

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

তত্ত্বাবধানকৃত সূক্ষ্ম-সুর (SFT): প্রশিক্ষণ ডেটায় ওভারফিটিং করার প্রবণতা, সীমিত সাধারণীকরণ ক্ষমতা
সরাসরি পছন্দ অপ্টিমাইজেশন (DPO): পছন্দ ডেটা গুণমানের উপর নির্ভরশীল, কাঠামোগত ব্যবসায়িক নিয়ম বাস্তবায়নের প্রক্রিয়ার অভাব
প্রথাগত শক্তিশালী শিক্ষা (PPO/GRPO): প্রশিক্ষণ গতিশীলতা অস্থির, "পুরস্কার হ্যাকিং" এর জন্য সংবেদনশীল

মূল অবদান

१. শিল্প-স্তরের মূল্য আলোচনা কাজের জন্য প্রথম LLM গবেষণা: প্রথাগত প্রশ্নোত্তর কাজের বাইরে জটিল, দীর্ঘমেয়াদী প্ররোচনামূলক পরিস্থিতি সমাধান করে २. REPO কাঠামো প্রস্তাব: পছন্দ, বিচার এবং প্রোগ্রামেটিক পুরস্কার একত্রিত করার প্রথম জটিল কাজ-ভিত্তিক কথোপকথন সারিবদ্ধতা কাঠামো ३. ব্যাপক মূল্যায়ন যাচাইকরণ: আলোচনার কার্যকারিতা, সম্মতি এবং উদীয়মান প্ররোচনামূলক ক্ষমতায় REPO এর উচ্চতর প্রমাণ করে, মানব-মন্তব্যকৃত স্বর্ণ মান অতিক্রম করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

OTA মূল্য আলোচনা কাজ BD এজেন্টকে হোটেলের সাথে বহু-পর্যায়ের কথোপকথনে জড়িত হতে প্রয়োজন, বাজার পরিস্থিতির উপর ভিত্তি করে কক্ষের মূল্য সামঞ্জস্য করতে। লক্ষ্য যাত্রীদের সামর্থ্য এবং হোটেল লাভজনকতার ভারসাম্য রাখা, পারস্পরিক লাভজনক ফলাফল নিশ্চিত করা।

REPO আর্কিটেকচার

তিন-উৎস পুরস্কার ডিজাইন

१. পুরস্কার মডেল (RM): পছন্দ ডেটার উপর ভিত্তি করে প্রশিক্ষিত মডেল, ঘন মানব সারিবদ্ধতা সংকেত প্রদান করে, মানব BD প্ররোচনামূলক শৈলী এবং কৌশল শিখে २. পুরস্কার বিচারক (RJ): LLM-as-a-judge কাঠামো, SOP সম্মতি, আবেগজনক মূল্য এবং প্ররোচনামূলক শৈলীর মতো উচ্চ-স্তরের আচরণ মূল্যায়ন করে ३. প্রোগ্রামেটিক পুরস্কার ফাংশন (RF): ব্যবসায়িক সংখ্যা, বিন্যাস, সুরক্ষা নিয়ম এবং দৈর্ঘ্য প্রয়োজনীয়তার নির্ধারক পরীক্ষা

পুরস্কার বর্ধন প্রক্রিয়া

REPO স্থিতিশীলতা সংরক্ষণের সাথে একটি মডুলেশন কৌশল গ্রহণ করে, RJ এবং RF কে প্রধান RM সংকেত স্কেল করার জন্য সহায়ক সংকেত হিসাবে ব্যবহার করে:

Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)

এই চিহ্ন-সচেতন, প্রশস্ততা-সংবেদনশীল স্কেলিং নিম্নলিখিত প্রভাব রয়েছে:

যখন Rmodel > 0 এবং Eenh > 0, পুরস্কার বর্ধিত হয়
যখন Rmodel > 0 এবং Eenh < 0, পুরস্কার দমন করা হয়
যখন Rmodel < 0, শাস্তি সেই অনুযায়ী হ্রাস বা বর্ধিত হয়

দক্ষ গণনা অপ্টিমাইজেশন

१. LoRA অ্যাডাপ্টার: নীতি এবং মূল্য নেটওয়ার্কে নিম্ন-র্যাঙ্ক অভিযোজন ব্যবহার করে, মেমরি হ্রাস এবং প্রশিক্ষণ ত্বরান্বিত করে २. রেফারেন্স মডেল ছাড়াই: KL শাস্তি ব্যবহার করে না, LoRA এর নিম্ন-র্যাঙ্ক সীমাবদ্ধতা স্থিতিশীল আপডেট সমর্থন করে ३. গ্রুপ-মুক্ত গণনা: গ্রুপ-ভিত্তিক স্কোরিং এবং সমন্বয় এড়ায়, ট্র্যাজেক্টরি দ্বারা পুরস্কার গণনা করে

পরীক্ষামূলক সেটআপ

মডেল এবং পরামিতি

ভিত্তি মডেল: Qwen3-32B-Instruct
সর্বাধিক প্রতিক্রিয়া দৈর্ঘ্য: 512 tokens
ব্যাচ আকার: 128
LoRA কনফিগারেশন: rank=64, alpha=64
শিক্ষার হার: 1e-6
প্রশিক্ষণ পর্যায়: তত্ত্বাবধানকৃত পর্যায় (SFT/DPO) 10 পর্যায়, RL পর্যায় (PPO/GRPO/REPO) 2 পর্যায়

প্রশিক্ষণ ডেটা

উচ্চ-মানের পছন্দ ডেটাসেট নির্মাণ করা হয়েছে, যাতে ৬,৬३२ নমুনা রয়েছে:

অনলাইন উৎপাদন থেকে 252 টি কেস
ভাষা বিশেষজ্ঞদের দ্বারা মন্তব্যকৃত 3,178 নমুনা
কাজ বিশেষজ্ঞদের (মানব BD) দ্বারা মন্তব্যকৃত 1,211 নমুনা
প্রাথমিক SFT মন্তব্যের পরে মানব BD দ্বারা সমৃদ্ধ 1,991 পছন্দ ডেটা নমুনা

মূল্যায়ন ডেটা

१. অনলাইন নমুনা: 30 সম্পূর্ণ উৎপাদন কথোপকথন (প্রায় 150 পর্যায়), হোটেল অভিপ্রায়ের প্রকৃত বিতরণ প্রতিফলিত করে २. সমস্যা কেস সংগ্রহ: 45 কথোপকথন (প্রায় 225 পর্যায়), ব্যবসায়িক বিশেষজ্ঞদের দ্বারা সংগৃহীত, ভিত্তি মডেলের ত্রুটির বিভিন্ন সমস্যা কভার করে

তুলনামূলক পদ্ধতি

SFT: তত্ত্বাবধানকৃত সূক্ষ্ম-সুর
DPO: সরাসরি পছন্দ অপ্টিমাইজেশন
PPO: নিকটবর্তী নীতি অপ্টিমাইজেশন
GRPO: গ্রুপ আপেক্ষিক নীতি অপ্টিমাইজেশন

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

অনলাইন নমুনা মূল্যায়ন

দুটি মেট্রিক ব্যবহার করে মূল্যায়ন করা হয়েছে: १. সামগ্রিক কথোপকথন স্কোর (1-5 স্কেল): REPO 4.63 স্কোর অর্জন করেছে, ভিত্তি থেকে +1.20 উন্নতি, DPO থেকে +0.83, GRPO থেকে +0.33 २. উৎকৃষ্ট প্রতিক্রিয়া কথোপকথনের অনুপাত: REPO 66.67% অর্জন করেছে, ভিত্তি থেকে 5 গুণ উন্নতি (13.33%), DPO থেকে প্রায় 2 গুণ (33.33%), GRPO থেকে +23.34 শতাংশ পয়েন্ট

সমস্যা কেস মেরামত

সামগ্রিক মেরামত হার: REPO, DPO, SFT সবই 93.33% অর্জন করেছে
পরিষ্কার মেরামত হার: REPO সর্বোচ্চ (75.56%), অন্যান্য পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল
গুরুতর অমীমাংসিত কেস: REPO 0%, সর্বোত্তম পারফরম্যান্স

বিলোপন পরীক্ষা

উদীয়মান আলোচনা ক্ষমতা বিশ্লেষণ

প্রশিক্ষণ প্রক্রিয়ায় প্ররোচনামূলক ক্ষমতা স্কোর ট্র্যাক করে, REPO তিনটি পর্যায় প্রদর্শন করে: १. প্রাথমিক পর্যায় (0-30 ধাপ): অন্বেষণ অস্থির २. শিক্ষা পর্যায় (30-100 ধাপ): নীতি ধারাবাহিকভাবে উন্নত হয় ३. সংমিশ্রণ পর্যায় (100-190 ধাপ): কর্মক্ষমতা স্থিতিশীল হয়

চূড়ান্ত চেকপয়েন্ট প্রাথমিক চেকপয়েন্টের তুলনায় প্রায় 30% উন্নতি করেছে।

সূক্ষ্ম-দানাদার কথোপকথন দক্ষতা মূল্যায়ন

চারটি বাইনারি দক্ষতায় মূল্যায়ন করা হয়েছে: কথোপকথনের প্রবাহিতা, কর্মপ্রবাহ সম্মতি, আলোচনার কার্যকারিতা এবং পরিধি বোঝা। REPO আলোচনার কার্যকারিতায় স্পষ্টভাবে নেতৃত্ব দেয়, যা বিভিন্ন পদ্ধতি পার্থক্যকারী প্রধান সূচক।

কেস বিশ্লেষণ

পেপার REPO প্রশিক্ষণের পরে উদীয়মান ক্ষমতা প্রদর্শন করে: १. আবেগজনক মূল্য + মূল কারণ যুক্তি: স্বর্ণ মান থেকে আরও সমৃদ্ধ প্রসঙ্গ-সচেতন যুক্তি প্রদান করে २. হোটেল ধরনের জন্য লক্ষ্যবস্তু সুপারিশ: প্রতিযোগী সচেতনতা কারণ সহ মিলিত ३. সীমিত তথ্যের অধীনে প্ররোচনা: এক্সপোজার এবং রূপান্তর যুক্তি ব্যবহার করে অনুরোধ পুনর্নির্ধারণ করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

REPO সাবধানে ডিজাইন করা বহু-উৎস পুরস্কারের মাধ্যমে সক্রিয় মূল্য আলোচনা সফলভাবে অর্জন করেছে। মানব বিশেষজ্ঞ মূল্যায়নে, REPO কথোপকথনের গুণমান, উৎকৃষ্ট প্রতিক্রিয়া ঘটনার হার এবং সমস্যা কেস মেরামতে সমস্ত ভিত্তি পদ্ধতির চেয়ে ক্রমাগত উন্নত।

সীমাবদ্ধতা

१. মূল্যায়ন পরিধি সীমিত: শুধুমাত্র মূল্য আলোচনা কাজে মূল্যায়ন করা হয়েছে, আরও বিস্তৃত কাজ এবং সেটিংসে কার্যকারিতা যাচাইকরণ প্রয়োজন २. গণনা সম্পদ প্রয়োজন: প্রশিক্ষণের জন্য উল্লেখযোগ্য গণনা সম্পদ প্রয়োজন ३. ডোমেইন-নির্দিষ্ট: পদ্ধতি নির্দিষ্ট ব্যবসায়িক পরিস্থিতির জন্য ডিজাইন করা হয়েছে

ভবিষ্যত দিকনির্দেশনা

१. ছোট মডেল ব্যাকবোনে সম্প্রসারণ २. আরও বিস্তৃত ডোমেইন এবং ভাষায় প্রয়োগ ३. পুরস্কার ডিজাইন উন্নতি

গভীর মূল্যায়ন

শক্তি

१. উচ্চ ব্যবহারিক প্রয়োগ মূল্য: প্রকৃত ব্যবসায়িক পরিস্থিতিতে জটিল সমস্যা সমাধান করে २. শক্তিশালী পদ্ধতি উদ্ভাবন: প্রথমবারের মতো সিস্টেমেটিকভাবে তিনটি বিষমজাত পুরস্কার সংকেত একত্রিত করে ३. ব্যাপক মূল্যায়ন: উৎপাদন-স্তরের ডেটা এবং বহু-মাত্রিক মূল্যায়ন মেট্রিক্স অন্তর্ভুক্ত করে ४. যুক্তিসঙ্গত প্রযুক্তিগত বাস্তবায়ন: LoRA এবং অন্যান্য কৌশলের মাধ্যমে দক্ষ প্রশিক্ষণ অর্জন করে ५. উল্লেখযোগ্য উদীয়মান ক্ষমতা: মানব মন্তব্যকৃত মান অতিক্রম করে প্ররোচনামূলক ক্ষমতা প্রদর্শন করে

অপূর্ণতা

१. সাধারণীকরণ যাচাইকরণ অপর্যাপ্ত: শুধুমাত্র একক কাজে যাচাই করা হয়েছে, ক্রস-ডোমেইন মূল্যায়নের অভাব २. সীমিত তাত্ত্বিক বিশ্লেষণ: পুরস্কার সমন্বয় প্রক্রিয়ার তাত্ত্বিক গ্যারান্টির অভাব ३. অপর্যাপ্ত গণনা খরচ বিশ্লেষণ: ভিত্তি পদ্ধতির তুলনায় গণনা ওভারহেড বিস্তারিত বিশ্লেষণ নেই ४. দীর্ঘমেয়াদী প্রভাব অজানা: দীর্ঘমেয়াদী স্থাপনা প্রভাবের বিশ্লেষণের অভাব

প্রভাব

१. একাডেমিক অবদান: জটিল কাজ-ভিত্তিক কথোপকথনের LLM সারিবদ্ধতার জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে २. শিল্প মূল্য: প্রকৃত ব্যবসায়িক পরিস্থিতিতে সরাসরি প্রয়োগ, শক্তিশালী ব্যবহারিকতা সহ ३. পদ্ধতি অনুপ্রেরণা: বিষমজাত পুরস্কার একীকরণের ধারণা অন্যান্য জটিল কাজে প্রসারিত করা যায়

প্রযোজ্য পরিস্থিতি

१. গ্রাহক সেবা এবং বিক্রয় কথোপকথন সিস্টেম: প্ররোচনা এবং আলোচনা ক্ষমতা প্রয়োজনীয় পরিস্থিতি २. বহু-সীমাবদ্ধতা অপ্টিমাইজেশন কাজ: একাধিক বিভিন্ন ধরনের সীমাবদ্ধতা একযোগে পূরণ করতে হবে এমন উৎপাদন কাজ ३. ব্যবসায়িক প্রক্রিয়া স্বয়ংক্রিয়করণ: জটিল SOP অনুসরণ করতে হবে এমন স্বয়ংক্রিয় সিস্টেম

রেফারেন্স

পেপার শক্তিশালী শিক্ষা, কথোপকথন সিস্টেম এবং নিয়ন্ত্রণযোগ্য পাঠ্য উৎপাদন ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:

Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-judge)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের প্রয়োগ গবেষণা পেপার যা প্রকৃত ব্যবসায়িক সমস্যা সমাধানের সাথে সাথে মূল্যবান প্রযুক্তিগত উদ্ভাবন প্রস্তাব করে। REPO কাঠামোর ডিজাইন যুক্তিসঙ্গত, পরীক্ষামূলক মূল্যায়ন পর্যাপ্ত এবং প্রদর্শিত উদীয়মান ক্ষমতা চিত্তাকর্ষক। যদিও সাধারণীকরণ যাচাইকরণ এবং তাত্ত্বিক বিশ্লেষণে উন্নতির জায়গা রয়েছে, তবে জটিল কাজ-ভিত্তিক কথোপকথন ক্ষেত্রে এর অবদান উল্লেখযোগ্য।