2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.
Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.
academic

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

基本信息

  • 论文ID: 2510.09087
  • 标题: Leading the Follower: Learning Persuasive Agents in Social Deduction Games
  • 作者: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
  • 分类: cs.AI
  • 发表会议: ICLR 2026
  • 论文链接: https://arxiv.org/abs/2510.09087

摘要

大语言模型(LLM)智能体在社会推理游戏(SDGs)中展现了显著进展。然而,现有方法主要关注信息处理和策略选择,忽视了说服性沟通在影响其他玩家信念和反应方面的重要性。在SDGs中,成功不仅依赖于正确的推理,更在于说服他人按照自己的意图行动。为解决这一局限性,作者将SDGs中的轮流对话形式化为Stackelberg竞争,其中当前玩家作为领导者战略性地影响跟随者的反应。基于这一理论基础,作者提出了一个强化学习框架,训练智能体优化话语的说服力影响。通过在三个不同SDGs上的综合实验,证明了该方法显著优于基线方法。

研究背景与动机

问题定义

现有的LLM智能体在社会推理游戏中主要存在以下问题:

  1. 忽视说服性沟通:现有方法主要专注于信息处理和策略选择,缺乏对说服力的考虑
  2. 缺乏影响力建模:没有系统性地建模如何通过语言影响其他玩家的行为
  3. 局部优化不足:缺乏针对轮流对话中每一轮发言的战略优化

研究重要性

社会推理游戏是研究AI社会智能的理想测试平台,因为:

  • 涉及不确定性、欺骗和战略沟通
  • 需要通过说服他人来实现胜利条件
  • 反映了真实世界人际互动的复杂性

现有方法局限性

  1. 策略选择导向:现有方法如ReAct、ReCon等主要关注从预定义动作空间中选择策略
  2. 缺乏说服力优化:没有专门针对话语的说服效果进行优化
  3. 忽视对话动态:未能充分利用轮流对话的战略机会

核心贡献

  1. 理论创新:将SDGs中的轮流对话形式化为Stackelberg竞争模型,为说服性沟通提供了系统性的理论基础
  2. 方法框架:提出了一个强化学习框架,直接优化话语对后续玩家反应的影响
  3. 实验验证:在三个不同的SDGs(Werewolf、Avalon、ONUW)上验证了方法的有效性和泛化性
  4. 技术贡献:开发了一套完整的训练管道,结合API-based LLM和开源LLM的优势

方法详解

任务定义

在社会推理游戏中,玩家需要通过轮流对话来影响其他玩家的行为,最终实现各自的胜利条件。本文将每一轮对话建模为一个Stackelberg竞争:

  • 输入:游戏规则R、当前游戏状态G_t、对话历史D_t、玩家角色r_t
  • 输出:优化后的说服性话语u_t
  • 目标:最大化对下一个玩家反应的有利影响

模型架构

1. 意图识别(Intent Identification)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

系统分析当前局面,识别最希望和最不希望从下一个玩家听到的反应。

2. 影响力测量(Impact Measurement)

使用双阶段架构:

  • Backend LLM(API-based):生成基础话语
  • Refiner(开源LLM):优化话语的说服力

奖励函数设计:

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. 策略优化(Strategy Optimization)

使用GRPO(Group Relative Policy Optimization)优化Refiner:

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

其中μ_n和σ_n是批次内奖励的均值和标准差。

技术创新点

  1. Stackelberg建模:首次将轮流对话建模为领导者-跟随者博弈,捕捉说服的本质
  2. 双阶段优化:结合API LLM的生成能力和开源LLM的可训练性
  3. 直接话语优化:在自然语言空间直接优化,而非离散动作选择
  4. 相对优势计算:使用GRPO避免了显式价值函数的需求

实验设置

数据集

  • 游戏类型:Werewolf(7人局)、Avalon(5人局)、ONUW(5人局)
  • 训练数据:每个游戏500局自对弈记录,随机选择4000个回合实例
  • 数据多样性:使用GPT-4o、Gemini-2.5-Flash、Claude-3.5-Haiku三种后端LLM

评价指标

  • 胜率:不同角色和阵营的胜利百分比
  • 整体表现:所有角色的平均胜率

对比方法

  • Werewolf:ReAct、ReCon、SLA、LSPO
  • Avalon:ReAct、ReCon、LASI、Strategist
  • ONUW:ReAct、Belief、LLM-ins.、RL-ins.

实现细节

  • 模型:Llama-3-8B-Instruct作为Refiner和Measurer
  • 训练:LoRA适配器(rank=16),学习率1×10⁻⁶,3个epoch
  • 硬件:4张A800 GPU,约50小时训练时间
  • 超参数:n=8, ε=0.2, β=0.04

实验结果

主要结果

游戏方法村民团队胜率狼人团队胜率总体胜率
WerewolfLSPO25.3%73.2%39.0%
Ours + LSPO28.3%83.6%44.1%
AvalonStrategist77.9%27.3%57.7%
Ours + Strategist77.9%34.6%60.6%
ONUWRL-ins.54.5%47.6%48.9%
Ours + RL-ins.54.5%50.0%50.8%

消融实验

对奖励函数的不同变体进行了消融研究:

  1. Positive-Only:仅最大化期望反应概率
  2. Negative-Only:仅最小化不期望反应概率
  3. Complete:同时考虑正负反馈

结果显示完整方法显著优于单一目标变体,证明了双向优化的必要性。

泛化性验证

在GPT-5和Qwen3-14B上测试,无需额外训练即可获得一致的性能提升,证明了方法的跨模型泛化能力。

案例分析

论文提供了三个详细的案例研究:

  • Werewolf案例:Seer角色通过巧妙的推理和盟友调动成功识别Werewolf
  • Avalon案例:Minion通过逻辑重构和社会压力获得团队支持
  • ONUW案例:Werewolf通过虚假推理和注意力转移成功误导村民

相关工作

SDG智能体研究

早期工作主要基于规则系统,近期转向LLM驱动的方法:

  • 提示工程方法:Xu et al. (2023)的信息检索和经验反思
  • 强化学习方法:SLA、LSPO等通过RL选择预定义动作
  • 代码生成方法:Strategist通过代码生成和树搜索

LLM强化学习

  • PPO/DPO:通过人类反馈优化LLM
  • GRPO:无需显式偏好数据的相对优化方法

博弈论建模

  • 传统方法:Perfect Bayesian Equilibrium求解
  • 现代应用:DeepRole、Cicero等在特定游戏中的成功

结论与讨论

主要结论

  1. 说服性沟通是SDGs成功的关键因素
  2. Stackelberg建模为优化说服力提供了有效框架
  3. 直接话语优化比动作选择更加有效
  4. 方法具有良好的跨游戏和跨模型泛化性

局限性

  1. 计算开销:需要多次前向传播计算概率
  2. 依赖性:仍需要强大的后端LLM支持
  3. 评估局限:使用冻结的Measurer可能与实际对手存在差异
  4. 游戏范围:目前仅在三种SDGs上验证

未来方向

  1. 扩展到更多类型的社交游戏
  2. 研究长期说服策略而非单轮优化
  3. 探索多模态说服(语音、视觉等)
  4. 开发更高效的训练方法

深度评价

优点

  1. 理论创新:Stackelberg建模为说服性AI提供了新的理论视角
  2. 技术先进:巧妙结合API LLM和开源LLM的优势
  3. 实验充分:多游戏、多指标、多消融的全面验证
  4. 实用价值:可作为通用插件提升现有方法性能

不足

  1. 理论分析不足:缺乏对Stackelberg建模收敛性的理论保证
  2. 评估偏差:使用相同模型作为Measurer可能引入偏差
  3. 计算效率:训练和推理的计算成本较高
  4. 长期影响:未考虑多轮对话的累积说服效果

影响力

  1. 学术贡献:为AI社会智能研究开辟新方向
  2. 实际应用:可应用于谈判、教育、客服等需要说服的场景
  3. 方法启发:为其他多智能体交互任务提供了新的建模思路

适用场景

  • 社交游戏和在线娱乐
  • 智能客服和销售助手
  • 教育辅导和行为干预
  • 谈判和协商系统
  • 社交媒体内容生成

参考文献

本文引用了社会推理游戏、强化学习、博弈论等多个领域的重要工作,特别是:

  • Xu et al. (2024): SLA方法
  • Light et al. (2025): Strategist方法
  • Shao et al. (2024): GRPO算法
  • Bakhtin et al. (2022): Cicero系统

总体评价:这是一篇在AI社会智能领域具有重要贡献的高质量论文。通过创新的理论建模和有效的技术实现,为开发具有说服能力的AI智能体提供了新的研究方向和实用方法。