Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards
Zhuang, Chen, Zeng et al.
We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints.
We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.
본 연구는 대규모 언어 모델(LLMs)을 온라인 여행사(OTAs)의 사업 개발(BD) 에이전트로 배포하여 설득적 가격 협상을 수행하는 방법을 탐색합니다. 해당 에이전트는 여행객의 구매력과 호텔의 수익성 간의 균형을 유지하면서 표준 운영 절차(SOP)에 따라 다중 라운드 설득을 수행하고, 구어체 입력을 이해하며, 보호 규칙을 준수해야 합니다. 기존의 사후 학습 방법(감독 미세 조정 또는 단일 보상 최적화 등)은 스크립트 과적합, 세밀한 설득 스타일 부족, 검증 가능한 비즈니스 제약 조건 실행 불가 등의 문제가 있습니다.
저자들은 보상-강화 정책 최적화(REPO) 프레임워크를 제안합니다. 이는 이질적 보상을 사용하여 LLM을 정렬하는 강화 학습 사후 학습 프레임워크입니다: 선호도 학습 보상 모델(RM)은 밀집된 인간 정렬을 위해, 보상 판정자(RJ)는 고급 설득 행동 및 SOP 준수를 위해, 프로그래밍 방식의 보상 함수(RF)는 수치, 형식 및 보호 규칙의 결정론적 검사를 위해 사용됩니다. 프로덕션 수준의 평가에서 REPO는 대화 품질과 문제 해결률을 크게 향상시켰습니다.
온라인 여행사의 가격 협상은 복잡한 비즈니스 시나리오로, BD 에이전트가 호텔 관리자와 다중 라운드 대화를 수행하여 호텔의 수익성을 유지하면서 객실 요금을 낮추어 여행객의 구매력을 높이는 것을 목표로 합니다. 이러한 협상은 객실 예약량, 파트너십 및 전체 여행 비용에 직접적인 영향을 미칩니다.
논문은 강화 학습, 대화 시스템, 제어 가능한 텍스트 생성 등 분야의 중요한 연구를 인용합니다:
Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-judge)
종합 평가: 이는 실제 비즈니스 문제 해결과 동시에 가치 있는 기술 혁신을 제시하는 고품질 응용 연구 논문입니다. REPO 프레임워크의 설계가 합리적이고 실험 평가가 충분하며, 시연된 신흥 능력이 인상적입니다. 일반화 검증 및 이론 분석 측면에서 개선 여지가 있지만, 복잡한 작업 지향 대화 분야에 대한 기여는 상당합니다.