2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.

Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.

academic

基本信息

论文ID: 2510.09087
标题: Leading the Follower: Learning Persuasive Agents in Social Deduction Games
作者: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
分类: cs.AI
发表会议: ICLR 2026
论文链接: https://arxiv.org/abs/2510.09087

摘要

大语言模型(LLM)智能体在社会推理游戏(SDGs)中展现了显著进展。然而，现有方法主要关注信息处理和策略选择，忽视了说服性沟通在影响其他玩家信念和反应方面的重要性。在SDGs中，成功不仅依赖于正确的推理，更在于说服他人按照自己的意图行动。为解决这一局限性，作者将SDGs中的轮流对话形式化为Stackelberg竞争，其中当前玩家作为领导者战略性地影响跟随者的反应。基于这一理论基础，作者提出了一个强化学习框架，训练智能体优化话语的说服力影响。通过在三个不同SDGs上的综合实验，证明了该方法显著优于基线方法。

研究背景与动机

问题定义

现有的LLM智能体在社会推理游戏中主要存在以下问题：

忽视说服性沟通：现有方法主要专注于信息处理和策略选择，缺乏对说服力的考虑
缺乏影响力建模：没有系统性地建模如何通过语言影响其他玩家的行为
局部优化不足：缺乏针对轮流对话中每一轮发言的战略优化

研究重要性

社会推理游戏是研究AI社会智能的理想测试平台，因为：

涉及不确定性、欺骗和战略沟通
需要通过说服他人来实现胜利条件
反映了真实世界人际互动的复杂性

现有方法局限性

策略选择导向：现有方法如ReAct、ReCon等主要关注从预定义动作空间中选择策略
缺乏说服力优化：没有专门针对话语的说服效果进行优化
忽视对话动态：未能充分利用轮流对话的战略机会

核心贡献

理论创新：将SDGs中的轮流对话形式化为Stackelberg竞争模型，为说服性沟通提供了系统性的理论基础
方法框架：提出了一个强化学习框架，直接优化话语对后续玩家反应的影响
实验验证：在三个不同的SDGs（Werewolf、Avalon、ONUW）上验证了方法的有效性和泛化性
技术贡献：开发了一套完整的训练管道，结合API-based LLM和开源LLM的优势

方法详解

任务定义

在社会推理游戏中，玩家需要通过轮流对话来影响其他玩家的行为，最终实现各自的胜利条件。本文将每一轮对话建模为一个Stackelberg竞争：

输入：游戏规则R、当前游戏状态G_t、对话历史D_t、玩家角色r_t
输出：优化后的说服性话语u_t
目标：最大化对下一个玩家反应的有利影响

模型架构

1. 意图识别（Intent Identification）

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

系统分析当前局面，识别最希望和最不希望从下一个玩家听到的反应。

2. 影响力测量（Impact Measurement）

使用双阶段架构：

Backend LLM（API-based）：生成基础话语
Refiner（开源LLM）：优化话语的说服力

奖励函数设计：

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. 策略优化（Strategy Optimization）

使用GRPO（Group Relative Policy Optimization）优化Refiner：

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

其中μ_n和σ_n是批次内奖励的均值和标准差。

技术创新点

Stackelberg建模：首次将轮流对话建模为领导者-跟随者博弈，捕捉说服的本质
双阶段优化：结合API LLM的生成能力和开源LLM的可训练性
直接话语优化：在自然语言空间直接优化，而非离散动作选择
相对优势计算：使用GRPO避免了显式价值函数的需求

实验设置

数据集

游戏类型：Werewolf（7人局）、Avalon（5人局）、ONUW（5人局）
训练数据：每个游戏500局自对弈记录，随机选择4000个回合实例
数据多样性：使用GPT-4o、Gemini-2.5-Flash、Claude-3.5-Haiku三种后端LLM

评价指标

胜率：不同角色和阵营的胜利百分比
整体表现：所有角色的平均胜率

对比方法

Werewolf：ReAct、ReCon、SLA、LSPO
Avalon：ReAct、ReCon、LASI、Strategist
ONUW：ReAct、Belief、LLM-ins.、RL-ins.

实现细节

模型：Llama-3-8B-Instruct作为Refiner和Measurer
训练：LoRA适配器（rank=16），学习率1×10⁻⁶，3个epoch
硬件：4张A800 GPU，约50小时训练时间
超参数：n=8, ε=0.2, β=0.04

实验结果

主要结果

游戏	方法	村民团队胜率	狼人团队胜率	总体胜率
Werewolf	LSPO	25.3%	73.2%	39.0%
	Ours + LSPO	28.3%	83.6%	44.1%
Avalon	Strategist	77.9%	27.3%	57.7%
	Ours + Strategist	77.9%	34.6%	60.6%
ONUW	RL-ins.	54.5%	47.6%	48.9%
	Ours + RL-ins.	54.5%	50.0%	50.8%