Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards
Zhuang, Chen, Zeng et al.
We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints.
We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.
academic
Обучение LLM быть убедительным: оптимизация политики, улучшенная вознаграждением, для выравнивания с гетерогенными вознаграждениями
В данном исследовании изучается развертывание больших языковых моделей (LLM) в качестве агентов по развитию бизнеса (BD) для онлайн-турагентств (OTA) при проведении убедительных ценовых переговоров. Агент должен проводить многораундовые убеждающие переговоры в соответствии со стандартными операционными процедурами (SOP), балансируя платежеспособность путешественников и прибыльность отелей, понимая разговорный ввод и соблюдая ограничения безопасности. Традиционные методы обучения после обучения (такие как контролируемая тонкая настройка или оптимизация с одним вознаграждением) страдают от переобучения сценариям, отсутствия тонких стилей убеждения и неспособности обеспечить проверяемые бизнес-ограничения.
Авторы предлагают структуру оптимизации политики, улучшенной вознаграждением (REPO), которая представляет собой структуру обучения с подкреплением после обучения, использующую гетерогенные вознаграждения для выравнивания LLM: модели вознаграждения (RM), обученные на основе предпочтений, для плотного выравнивания с человеком; судьи вознаграждения (RJ) для оценки высокоуровневого убедительного поведения и соответствия SOP; программные функции вознаграждения (RF) для детерминированной проверки числовых значений, формата и ограничений безопасности. При оценке производственного уровня REPO значительно улучшает качество диалога и коэффициент устранения проблем.
Ценовые переговоры в онлайн-турагентствах представляют собой сложный бизнес-сценарий, требующий многораундового диалога между агентом BD и менеджером отеля с целью снижения цен на номера для повышения платежеспособности путешественников при сохранении прибыльности отеля. Эти переговоры напрямую влияют на объем бронирований номеров, партнерские отношения и общую стоимость путешествия.
Сложность переговоров: требуется тонкое, контекстно-зависимое рассуждение и убедительное взаимодействие, включая калибровку уступок, сравнение конкурентов, эмпатические рамки
Соблюдение поэтапного процесса: необходимо определить текущее состояние в многоэтапном процессе в соответствии с SOP и принять соответствующие меры
Проверяемые числовые значения и ограничения безопасности: выходные данные должны соответствовать строгим бизнес-ограничениям, таким как точное ценообразование, действительный формат, избежание ложных обещаний
Генерация убедительных и адаптивных ответов: необходимо обрабатывать различные сценарии, включая граничные случаи и враждебные сценарии
Первое исследование LLM для промышленного ценового переговорного задания: решает сложные, долгосрочные сценарии убеждения, выходящие за рамки традиционных задач вопрос-ответ
Предложение структуры REPO: первая структура выравнивания диалога, ориентированная на сложные задачи, которая агрегирует предпочтения, судебные и программные вознаграждения
Комплексная проверка оценки: демонстрирует превосходство REPO в эффективности переговоров, соответствии и возникающих способностях убеждения, превосходя золотой стандарт с ручной аннотацией
Задача ценового переговора OTA требует, чтобы агент BD проводил многораундовый диалог с отелем для корректировки цен на номера в соответствии с рыночными условиями. Цель состоит в балансировании платежеспособности путешественников и прибыльности отеля, обеспечивая результат, выгодный для обеих сторон.
Модель вознаграждения (RM): модель, обученная на основе данных предпочтений, обеспечивающая плотные сигналы выравнивания с человеком, изучающие стиль и стратегии убеждения человеческого BD
Судья вознаграждения (RJ): структура LLM-as-a-judge, оценивающая высокоуровневое поведение, такое как соответствие SOP, эмоциональная ценность, стиль убеждения
Программная функция вознаграждения (RF): детерминированная проверка бизнес-числовых значений, формата, ограничений безопасности и требований к длине
REPO использует стратегию модуляции, сохраняющую стабильность, используя RJ и RF в качестве вспомогательных сигналов для масштабирования основного сигнала RM:
Набор проблемных случаев: 45 диалогов (примерно 225 раундов), подготовленных бизнес-экспертами, охватывающих различные проблемы, в которых ошибается базовая модель
Общая оценка диалога (шкала 1-5): REPO достигает 4,63 балла, улучшение на +1,20 по сравнению с базовым уровнем, на +0,83 по сравнению с DPO, на +0,33 по сравнению с GRPO
Доля диалогов с отличными ответами: REPO достигает 66,67%, в 5 раз выше базового уровня (13,33%), примерно в 2 раза выше DPO (33,33%), на +23,34 процентных пункта выше GRPO
Оценка по четырем бинарным навыкам: плавность диалога, соответствие рабочему процессу, эффективность переговоров, понимание области. REPO явно лидирует в эффективности переговоров, что является основным показателем, различающим разные методы.
Существующие исследования в основном сосредоточены на пассивных, инициируемых пользователем задачах. Активные ценовые переговоры требуют долгосрочных стратегий убеждения, сочетающих контекстное рассуждение и калиброванный эмоциональный интеллект.
Существующие методы либо полагаются на один источник сигнала, либо объединяют только часть типов вознаграждений. REPO является первым методом, объединяющим все три семейства сигналов.
REPO успешно реализует активные ценовые переговоры благодаря тщательно разработанной многоисточниковой конструкции вознаграждения. При оценке экспертами-людьми REPO постоянно превосходит все методы базовых линий по качеству диалога, частоте отличных ответов и коэффициенту исправления проблемных случаев.
Статья цитирует важные работы в области обучения с подкреплением, диалоговых систем, контролируемого создания текста, включая:
Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-judge)
Общая оценка: это высококачественная прикладная исследовательская статья, которая предлагает ценные технологические инновации при решении реальных бизнес-проблем. Конструкция структуры REPO разумна, экспериментальная оценка полна, а демонстрируемые возникающие способности впечатляют. Хотя есть место для улучшения в проверке обобщаемости и теоретическом анализе, вклад в область сложных диалогов, ориентированных на задачи, является значительным.