2025-11-22T12:04:16.552264

Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards

Zhuang, Chen, Zeng et al.

We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.

academic

LLM을 설득적으로 만들기: 이질적 보상으로부터의 정렬을 위한 보상-강화 정책 최적화

기본 정보

논문 ID: 2510.04214
제목: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
저자: Zhuoran Zhuang, Ye Chen, Xia Zeng*, Chao Luo, Luhui Liu and Yihan Chen (Fliggy Alibaba)
분류: cs.CL
발표 시간: 2025년 10월 11일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2510.04214v2

초록

본 연구는 대규모 언어 모델(LLMs)을 온라인 여행사(OTAs)의 사업 개발(BD) 에이전트로 배포하여 설득적 가격 협상을 수행하는 방법을 탐색합니다. 해당 에이전트는 여행객의 구매력과 호텔의 수익성 간의 균형을 유지하면서 표준 운영 절차(SOP)에 따라 다중 라운드 설득을 수행하고, 구어체 입력을 이해하며, 보호 규칙을 준수해야 합니다. 기존의 사후 학습 방법(감독 미세 조정 또는 단일 보상 최적화 등)은 스크립트 과적합, 세밀한 설득 스타일 부족, 검증 가능한 비즈니스 제약 조건 실행 불가 등의 문제가 있습니다.

저자들은 보상-강화 정책 최적화(REPO) 프레임워크를 제안합니다. 이는 이질적 보상을 사용하여 LLM을 정렬하는 강화 학습 사후 학습 프레임워크입니다: 선호도 학습 보상 모델(RM)은 밀집된 인간 정렬을 위해, 보상 판정자(RJ)는 고급 설득 행동 및 SOP 준수를 위해, 프로그래밍 방식의 보상 함수(RF)는 수치, 형식 및 보호 규칙의 결정론적 검사를 위해 사용됩니다. 프로덕션 수준의 평가에서 REPO는 대화 품질과 문제 해결률을 크게 향상시켰습니다.

연구 배경 및 동기

문제 정의

온라인 여행사의 가격 협상은 복잡한 비즈니스 시나리오로, BD 에이전트가 호텔 관리자와 다중 라운드 대화를 수행하여 호텔의 수익성을 유지하면서 객실 요금을 낮추어 여행객의 구매력을 높이는 것을 목표로 합니다. 이러한 협상은 객실 예약량, 파트너십 및 전체 여행 비용에 직접적인 영향을 미칩니다.

과제 분석

협상의 복잡성: 양보 조정, 경쟁사 비교, 공감 프레임 등을 포함한 세밀한 상황 인식 추론 및 설득적 상호작용 필요
단계별 프로세스 준수: SOP에 따라 다단계 프로세스에서 현재 상태를 추론하고 적절한 조치를 취해야 함
검증 가능한 수치 및 보호 규칙: 정확한 가격 책정, 유효한 형식, 거짓 약속 회피 등 엄격한 비즈니스 제약 조건을 충족해야 함
설득적이고 적응형 응답 생성: 엣지 케이스 및 대립적 시나리오를 포함한 다양한 상황 처리 필요

기존 방법의 한계

감독 미세 조정(SFT): 학습 데이터에 과적합되기 쉽고 일반화 능력 제한
직접 선호도 최적화(DPO): 선호도 데이터 품질에 의존하며 구조화된 비즈니스 규칙 실행 메커니즘 부족
전통적 강화 학습(PPO/GRPO): 학습 동역학이 불안정하고 "보상 해킹" 발생 가능

핵심 기여

산업급 가격 협상 작업에 대한 최초 LLM 연구: 기존 질의응답 작업을 초월하는 복잡한 장기 설득 시나리오 해결
REPO 프레임워크 제안: 선호도, 판정 및 프로그래밍 방식 보상을 통합하는 최초의 복잡한 작업 지향 대화 정렬 프레임워크
포괄적인 평가 검증: REPO가 협상 효율성, 준수성 및 신흥 설득 능력 측면에서 인간 주석 처리된 금표준을 초과하는 우월성 입증

방법론 상세 설명

작업 정의

OTA 가격 협상 작업은 BD 에이전트가 호텔과 다중 라운드 대화를 수행하여 시장 조건에 따라 객실 요금을 조정하도록 요구합니다. 목표는 여행객의 구매력과 호텔의 수익성 간의 균형을 맞추어 상호 이익이 되는 결과를 보장하는 것입니다.

REPO 아키텍처

3원 보상 설계

보상 모델(RM): 선호도 데이터로 학습된 모델로, 밀집된 인간 정렬 신호를 제공하며 인간 BD 설득 스타일 및 전략 학습
보상 판정자(RJ): LLM-as-a-judge 프레임워크로, SOP 준수, 감정적 가치, 설득 스타일 등 고급 행동 평가
프로그래밍 방식 보상 함수(RF): 비즈니스 수치, 형식, 보호 규칙 및 길이 요구 사항의 결정론적 검사

보상 강화 메커니즘

REPO는 안정성 보존 변조 전략을 채택하여 RJ와 RF를 보조 신호로 사용하여 주요 RM 신호를 조정합니다:

Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)

이러한 부호 인식, 크기 민감 스케일링은 다음과 같은 효과를 가집니다:

Rmodel > 0이고 Eenh > 0일 때, 보상이 증폭됨
Rmodel > 0이고 Eenh < 0일 때, 보상이 억제됨
Rmodel < 0일 때, 페널티가 상응하게 감소 또는 증폭됨

효율적인 계산 최적화

LoRA 어댑터: 정책 및 가치 네트워크에서 저순위 적응 사용으로 메모리 감소 및 학습 가속화
참조 모델 불필요: KL 페널티를 사용하지 않으며, LoRA의 저순위 제약이 안정적인 업데이트 지원
그룹 없는 계산: 그룹 기반 점수 및 집계 회피, 궤적별 보상 계산

실험 설정

모델 및 매개변수

기본 모델: Qwen3-32B-Instruct
최대 응답 길이: 512 토큰
배치 크기: 128
LoRA 설정: rank=64, alpha=64
학습률: 1e-6
학습 에포크: 감독 단계(SFT/DPO) 10 에포크, RL 단계(PPO/GRPO/REPO) 2 에포크

학습 데이터

6,632개 샘플을 포함한 고품질 선호도 데이터셋 구성:

온라인 프로덕션의 252개 사례
언어 전문가 주석 3,178개 샘플
작업 전문가(인간 BD) 주석 1,211개 샘플
초기 SFT 주석 후 인간 BD가 풍부하게 한 1,991개 선호도 데이터

평가 데이터

온라인 샘플: 30개의 완전한 프로덕션 대화(약 150 라운드)로 호텔 의도의 실제 분포 반영
문제 사례 집합: 비즈니스 전문가가 선별한 45개 대화(약 225 라운드)로 기본 모델 오류의 다양한 문제 포함

비교 방법

SFT: 감독 미세 조정
DPO: 직접 선호도 최적화
PPO: 근접 정책 최적화
GRPO: 그룹 상대 정책 최적화

실험 결과

주요 결과

온라인 샘플 평가

두 가지 지표를 사용하여 평가:

전체 대화 점수(1-5점 척도): REPO는 4.63점 달성, 기본선 대비 +1.20, DPO 대비 +0.83, GRPO 대비 +0.33
우수 응답 대화 비율: REPO는 66.67% 달성, 기본선 대비 5배(13.33%), DPO 대비 약 2배(33.33%), GRPO 대비 +23.34 백분포인트

문제 사례 해결

전체 해결률: REPO, DPO, SFT 모두 93.33% 달성
깔끔한 해결률: REPO가 최고(75.56%)로 다른 방법을 크게 능가
심각한 미해결 사례: REPO는 0%로 최고 성능

절제 실험

신흥 협상 능력 분석

학습 과정 중 설득 능력 점수 추적을 통해 REPO가 세 가지 단계를 보여줌:

초기 단계(0-30 스텝): 탐색 불안정성
학습 단계(30-100 스텝): 정책 꾸준한 향상
수렴 단계(100-190 스텝): 성능 안정화

최종 체크포인트는 초기 체크포인트 대비 약 30% 향상.

세밀한 대화 기술 평가

네 가지 이진 기술에서 평가: 대화 유창성, 워크플로우 준수, 협상 효율성, 범위 이해. REPO는 협상 효율성에서 명확한 리드를 보이며, 이는 다양한 방법을 구분하는 주요 지표입니다.

사례 분석

논문은 REPO 학습 후 나타난 신흥 능력을 보여줍니다:

감정적 가치 + 근본 원인 추론: 금표준보다 더 풍부한 상황 인식 추론 제공
호텔 유형별 맞춤형 추천: 경쟁사 인식 이유 결합
정보 제한 하에서의 설득: 노출 및 전환 로직을 사용한 요청 재구성

결론 및 논의

주요 결론

REPO는 정교하게 설계된 다중 소스 보상을 통해 주도적 가격 협상을 성공적으로 구현합니다. 인간 전문가 평가에서 REPO는 대화 품질, 우수 응답 발생률 및 문제 사례 해결 측면에서 모든 기본선 방법을 지속적으로 능가합니다.

한계

평가 범위 제한: 가격 협상 작업에서만 평가되며, 더 광범위한 작업 및 설정에서 효율성 검증 필요
계산 리소스 요구: 학습을 위해 상당한 계산 리소스 필요
도메인 특이성: 방법이 특정 비즈니스 시나리오를 위해 설계됨

향후 방향

더 작은 모델 백본으로 확장
더 광범위한 도메인 및 언어에 적용
보상 설계 개선

심층 평가

장점

높은 실제 응용 가치: 실제 비즈니스 시나리오의 복잡한 문제 해결
강한 방법론 혁신성: 세 가지 이질적 보상 신호를 체계적으로 결합한 최초 시도
포괄적인 평가: 프로덕션 수준 데이터 및 다차원 평가 지표 포함
합리적인 기술 구현: LoRA 등 기술을 통한 효율적인 학습
현저한 신흥 능력: 인간 주석 처리를 초과하는 설득 능력 시연

부족한 점

일반화 검증 부족: 단일 작업에서만 검증되며 교차 도메인 평가 부족
제한된 이론 분석: 보상 결합 메커니즘에 대한 이론적 보장 부족
계산 비용 분석 부족: 기본선 방법 대비 계산 오버헤드 상세 분석 미흡
장기 효과 미지수: 장기 배포 효과 분석 부족

영향력

학술 기여: 복잡한 작업 지향 대화의 LLM 정렬에 새로운 관점 제공
산업 가치: 실제 비즈니스 시나리오에 직접 적용되며 강한 실용성 보유
방법론 영감: 이질적 보상 통합 사상이 다른 복잡한 작업으로 확대 가능

적용 시나리오

고객 서비스 및 판매 대화 시스템: 설득 및 협상 능력이 필요한 시나리오
다중 제약 최적화 작업: 다양한 유형의 여러 제약 조건을 동시에 충족해야 하는 생성 작업
비즈니스 프로세스 자동화: 복잡한 SOP를 준수해야 하는 자동화 시스템

참고 문헌

논문은 강화 학습, 대화 시스템, 제어 가능한 텍스트 생성 등 분야의 중요한 연구를 인용합니다:

Ouyang et al., 2022 (RLHF)
Rafailov et al., 2024 (DPO)
Shao et al., 2024 (GRPO)
Zheng et al., 2023 (LLM-as-a-judge)

종합 평가: 이는 실제 비즈니스 문제 해결과 동시에 가치 있는 기술 혁신을 제시하는 고품질 응용 연구 논문입니다. REPO 프레임워크의 설계가 합리적이고 실험 평가가 충분하며, 시연된 신흥 능력이 인상적입니다. 일반화 검증 및 이론 분석 측면에서 개선 여지가 있지만, 복잡한 작업 지향 대화 분야에 대한 기여는 상당합니다.