2025-11-22T12:04:16.552264

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards

Zhuang, Chen, Zeng et al.

We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.

academic

Обучение LLM быть убедительным: оптимизация политики, улучшенная вознаграждением, для выравнивания с гетерогенными вознаграждениями

Основная информация

ID статьи: 2510.04214
Название: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
Авторы: Zhuoran Zhuang, Ye Chen, Xia Zeng*, Chao Luo, Luhui Liu and Yihan Chen (Fliggy Alibaba)
Категория: cs.CL
Дата публикации: 11 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2510.04214v2

Аннотация

В данном исследовании изучается развертывание больших языковых моделей (LLM) в качестве агентов по развитию бизнеса (BD) для онлайн-турагентств (OTA) при проведении убедительных ценовых переговоров. Агент должен проводить многораундовые убеждающие переговоры в соответствии со стандартными операционными процедурами (SOP), балансируя платежеспособность путешественников и прибыльность отелей, понимая разговорный ввод и соблюдая ограничения безопасности. Традиционные методы обучения после обучения (такие как контролируемая тонкая настройка или оптимизация с одним вознаграждением) страдают от переобучения сценариям, отсутствия тонких стилей убеждения и неспособности обеспечить проверяемые бизнес-ограничения.

Авторы предлагают структуру оптимизации политики, улучшенной вознаграждением (REPO), которая представляет собой структуру обучения с подкреплением после обучения, использующую гетерогенные вознаграждения для выравнивания LLM: модели вознаграждения (RM), обученные на основе предпочтений, для плотного выравнивания с человеком; судьи вознаграждения (RJ) для оценки высокоуровневого убедительного поведения и соответствия SOP; программные функции вознаграждения (RF) для детерминированной проверки числовых значений, формата и ограничений безопасности. При оценке производственного уровня REPO значительно улучшает качество диалога и коэффициент устранения проблем.

Исследовательский контекст и мотивация

Определение проблемы

Ценовые переговоры в онлайн-турагентствах представляют собой сложный бизнес-сценарий, требующий многораундового диалога между агентом BD и менеджером отеля с целью снижения цен на номера для повышения платежеспособности путешественников при сохранении прибыльности отеля. Эти переговоры напрямую влияют на объем бронирований номеров, партнерские отношения и общую стоимость путешествия.

Анализ вызовов

Сложность переговоров: требуется тонкое, контекстно-зависимое рассуждение и убедительное взаимодействие, включая калибровку уступок, сравнение конкурентов, эмпатические рамки
Соблюдение поэтапного процесса: необходимо определить текущее состояние в многоэтапном процессе в соответствии с SOP и принять соответствующие меры
Проверяемые числовые значения и ограничения безопасности: выходные данные должны соответствовать строгим бизнес-ограничениям, таким как точное ценообразование, действительный формат, избежание ложных обещаний
Генерация убедительных и адаптивных ответов: необходимо обрабатывать различные сценарии, включая граничные случаи и враждебные сценарии

Ограничения существующих методов

Контролируемая тонкая настройка (SFT): склонна к переобучению на данных обучения с ограниченной способностью к обобщению
Прямая оптимизация предпочтений (DPO): зависит от качества данных предпочтений, не имеет механизма для обеспечения структурированных бизнес-правил
Традиционное обучение с подкреплением (PPO/GRPO): нестабильная динамика обучения, подвержено "взлому вознаграждения"

Основные вклады

Первое исследование LLM для промышленного ценового переговорного задания: решает сложные, долгосрочные сценарии убеждения, выходящие за рамки традиционных задач вопрос-ответ
Предложение структуры REPO: первая структура выравнивания диалога, ориентированная на сложные задачи, которая агрегирует предпочтения, судебные и программные вознаграждения
Комплексная проверка оценки: демонстрирует превосходство REPO в эффективности переговоров, соответствии и возникающих способностях убеждения, превосходя золотой стандарт с ручной аннотацией

Подробное описание методики

Определение задачи

Задача ценового переговора OTA требует, чтобы агент BD проводил многораундовый диалог с отелем для корректировки цен на номера в соответствии с рыночными условиями. Цель состоит в балансировании платежеспособности путешественников и прибыльности отеля, обеспечивая результат, выгодный для обеих сторон.

Архитектура REPO

Трехисточниковая конструкция вознаграждения

Модель вознаграждения (RM): модель, обученная на основе данных предпочтений, обеспечивающая плотные сигналы выравнивания с человеком, изучающие стиль и стратегии убеждения человеческого BD
Судья вознаграждения (RJ): структура LLM-as-a-judge, оценивающая высокоуровневое поведение, такое как соответствие SOP, эмоциональная ценность, стиль убеждения
Программная функция вознаграждения (RF): детерминированная проверка бизнес-числовых значений, формата, ограничений безопасности и требований к длине

Механизм улучшения вознаграждения

REPO использует стратегию модуляции, сохраняющую стабильность, используя RJ и RF в качестве вспомогательных сигналов для масштабирования основного сигнала RM:

Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)

Это масштабирование, чувствительное к знаку и амплитуде, имеет следующие эффекты:

Когда Rmodel > 0 и Eenh > 0, вознаграждение усиливается
Когда Rmodel > 0 и Eenh < 0, вознаграждение подавляется
Когда Rmodel < 0, наказание соответственно уменьшается или увеличивается

Оптимизация эффективных вычислений

Адаптеры LoRA: использование низкоранговой адаптации на сетях политики и стоимости, снижение памяти и ускорение обучения
Модель без ссылки: отсутствие штрафа KL, ограничение низкого ранга LoRA поддерживает стабильные обновления
Вычисления без группировки: избегание оценки и агрегации на основе групп, вычисление вознаграждения по траекториям

Экспериментальная установка

Модели и параметры

Базовая модель: Qwen3-32B-Instruct
Максимальная длина ответа: 512 токенов
Размер пакета: 128
Конфигурация LoRA: rank=64, alpha=64
Скорость обучения: 1e-6
Эпохи обучения: контролируемый этап (SFT/DPO) 10 эпох, этап RL (PPO/GRPO/REPO) 2 эпохи

Данные обучения

Построен высококачественный набор данных предпочтений, содержащий 6 632 образца:

252 случая из онлайн-производства
3 178 образцов, аннотированных языковыми специалистами
1 211 образцов, аннотированных экспертами в области задач (человеческие BD)
1 991 данные предпочтений, обогащенные человеческим BD после начальной аннотации SFT

Данные оценки

Онлайн-образцы: 30 полных производственных диалогов (примерно 150 раундов), отражающих истинное распределение намерений отеля
Набор проблемных случаев: 45 диалогов (примерно 225 раундов), подготовленных бизнес-экспертами, охватывающих различные проблемы, в которых ошибается базовая модель

Методы сравнения

SFT: контролируемая тонкая настройка
DPO: прямая оптимизация предпочтений
PPO: оптимизация политики близости
GRPO: групповая относительная оптимизация политики

Результаты экспериментов

Основные результаты

Оценка онлайн-образцов

Оценка с использованием двух метрик:

Общая оценка диалога (шкала 1-5): REPO достигает 4,63 балла, улучшение на +1,20 по сравнению с базовым уровнем, на +0,83 по сравнению с DPO, на +0,33 по сравнению с GRPO
Доля диалогов с отличными ответами: REPO достигает 66,67%, в 5 раз выше базового уровня (13,33%), примерно в 2 раза выше DPO (33,33%), на +23,34 процентных пункта выше GRPO

Исправление проблемных случаев

Общий коэффициент исправления: REPO, DPO и SFT достигают 93,33%
Коэффициент чистого исправления: REPO наиболее высокий (75,56%), значительно превосходит другие методы
Серьезные неразрешенные случаи: REPO составляет 0%, лучший результат

Абляционные исследования

Анализ возникающих способностей переговоров

Путем отслеживания оценок способности убеждения в процессе обучения выявлены три этапа:

Начальный этап (0-30 шагов): нестабильное исследование
Этап обучения (30-100 шагов): постепенное улучшение политики
Этап сходимости (100-190 шагов): производительность стабилизируется

Последняя контрольная точка показывает улучшение примерно на 30% по сравнению с ранними контрольными точками.

Оценка тонких навыков диалога

Оценка по четырем бинарным навыкам: плавность диалога, соответствие рабочему процессу, эффективность переговоров, понимание области. REPO явно лидирует в эффективности переговоров, что является основным показателем, различающим разные методы.

Анализ случаев

В статье представлены возникающие способности после обучения REPO:

Эмоциональная ценность + анализ коренных причин: предоставление более богатого контекстно-зависимого рассуждения, чем золотой стандарт
Целевые рекомендации в зависимости от типа отеля: объединение причин с учетом конкурентов
Убеждение при ограниченной информации: использование логики воздействия и конверсии для переформулирования запроса

Связанные работы

Системы диалога, ориентированные на задачи, и выравнивание LLM

Существующие исследования в основном сосредоточены на пассивных, инициируемых пользователем задачах. Активные ценовые переговоры требуют долгосрочных стратегий убеждения, сочетающих контекстное рассуждение и калиброванный эмоциональный интеллект.

Контролируемое создание текста и агрегация множественных вознаграждений

Существующие методы либо полагаются на один источник сигнала, либо объединяют только часть типов вознаграждений. REPO является первым методом, объединяющим все три семейства сигналов.

Заключение и обсуждение

Основные выводы

REPO успешно реализует активные ценовые переговоры благодаря тщательно разработанной многоисточниковой конструкции вознаграждения. При оценке экспертами-людьми REPO постоянно превосходит все методы базовых линий по качеству диалога, частоте отличных ответов и коэффициенту исправления проблемных случаев.

Ограничения

Ограниченный объем оценки: оценка только на задаче ценового переговора, требуется проверка эффективности на более широком спектре задач и параметров
Требования к вычислительным ресурсам: требуются значительные вычислительные ресурсы для обучения
Специфичность для конкретной области: метод разработан для конкретного бизнес-сценария

Будущие направления

Расширение на меньшие модели-основы
Применение к более широкому спектру областей и языков
Улучшение конструкции вознаграждения

Глубокая оценка

Преимущества

Высокая практическая ценность: решает сложные проблемы в реальных бизнес-сценариях
Сильная инновационность методики: первый систематический подход к объединению трех гетерогенных источников вознаграждения
Комплексная оценка: включает данные производственного уровня и многомерные метрики оценки
Разумная техническая реализация: эффективное обучение достигается благодаря таким технологиям, как LoRA
Значительные возникающие способности: демонстрирует способности убеждения, превосходящие ручную аннотацию

Недостатки

Недостаточная проверка обобщаемости: проверка только на одной задаче, отсутствие кросс-доменной оценки
Ограниченный теоретический анализ: отсутствие теоретических гарантий для механизма комбинирования вознаграждений
Недостаточный анализ вычислительных затрат: отсутствует подробный анализ вычислительных затрат по сравнению с методами базовых линий
Неизвестные долгосрочные эффекты: отсутствует анализ эффектов долгосрочного развертывания

Влияние

Академический вклад: предоставляет новые идеи для выравнивания LLM в сложных диалогах, ориентированных на задачи
Промышленная ценность: прямое применение в реальных бизнес-сценариях с сильной практической применимостью
Методологическое вдохновение: идея интеграции гетерогенных вознаграждений может быть распространена на другие сложные задачи

Применимые сценарии

Системы диалога для обслуживания клиентов и продаж: сценарии, требующие способностей убеждения и переговоров
Задачи многоограничивающей оптимизации: задачи генерации, требующие одновременного удовлетворения различных типов ограничений
Автоматизация бизнес-процессов: автоматизированные системы, требующие соблюдения сложных SOP

Библиография

Статья цитирует важные работы в области обучения с подкреплением, диалоговых систем, контролируемого создания текста, включая:

Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-judge)

Общая оценка: это высококачественная прикладная исследовательская статья, которая предлагает ценные технологические инновации при решении реальных бизнес-проблем. Конструкция структуры REPO разумна, экспериментальная оценка полна, а демонстрируемые возникающие способности впечатляют. Хотя есть место для улучшения в проверке обобщаемости и теоретическом анализе, вклад в область сложных диалогов, ориентированных на задачи, является значительным.