Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
academic- 论文ID: 2509.01328
- 标题: Can Large Language Models Master Complex Card Games?
- 作者: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
- 分类: cs.CL
- 发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
- 论文链接: https://arxiv.org/abs/2509.01328
- 代码链接: https://github.com/THUDM/LLM4CardGame
复杂游戏长期以来一直是测试人工智能算法进展的重要基准。AlphaGo、AlphaZero和MuZero在围棋和国际象棋中击败了顶级人类选手,引起了社会对人工智能的广泛关注。与此同时,大语言模型(LLMs)在各种任务中表现出了卓越的能力,这引发了LLMs是否能在复杂游戏中取得类似成功的问题。本文探索了LLMs掌握复杂卡牌游戏的潜力。研究系统性地评估了LLMs在八种不同卡牌游戏中的学习能力,评价了在高质量游戏数据上进行微调的影响,并检验了模型在掌握这些游戏的同时保持通用能力的能力。
该研究要解决的核心问题是:大语言模型能否像专门的游戏AI一样掌握复杂的卡牌游戏?
- AI能力边界探索:复杂游戏是测试AI算法上限的重要场景,从Deep Blue到AlphaGo系列都证明了这一点
- 通用智能评估:相比专门的游戏AI,LLMs作为通用学习器的游戏掌握能力更具研究价值
- 多任务学习能力:评估LLMs能否同时掌握多个复杂游戏而不需要专门设计的网络架构
- 评估不充分:现有研究多采用基于提示的方法,未充分评估LLMs的学习能力
- 任务复杂度不足:评估的游戏复杂度较低,无法全面测试LLMs的学习上限
- 单一游戏局限:缺乏对LLMs同时掌握多个复杂游戏能力的系统性研究
受AlphaGo系列成功的启发,探索LLMs是否能通过学习高质量的游戏轨迹数据来掌握复杂卡牌游戏,并评估其作为通用学习器的优势。
- 首次提出了对LLMs在多个高复杂度游戏中学习能力的全面评估框架
- 构建了包含八种复杂卡牌游戏的大规模高质量训练数据集,避免了从零开始学习的高计算成本
- 系统评估了LLMs在三个关键维度的表现:单游戏掌握能力、多游戏同时学习能力、通用能力保持能力
- 证明了LLMs具有强大的学习能力和通用性,能够在不改变模型结构的情况下同时掌握多个复杂游戏
输入:游戏状态信息(手牌、历史动作、合法动作等)
输出:JSON格式的游戏动作决策
约束:动作必须从合法动作集合中选择
基于三个维度选择八种卡牌游戏:
- 流行度:游戏的受欢迎程度
- 复杂度:通过信息集数量和平均信息集大小衡量
- 数据可获得性:是否有强AI模型或高质量数据
- 高复杂度游戏:斗地主、掼蛋、日本麻将
- 中等复杂度游戏:UNO、金拉米
- 扑克类游戏:Leduc Hold'em、限注德州扑克、无限注德州扑克
- 教师模型:使用强游戏AI(如DouZero、DanZero)或专家数据
- 对手模型:规则模型、随机模型或其他AI模型
- 游戏数量:根据游戏复杂度调整,从6k到400k场不等
- 胜者过滤:只保留获胜方的观察-动作对
- 选择性过滤:只保留合法动作数量大于1的样本
设计游戏特定的提示模板,包含:
- 游戏介绍:规则和目标
- 状态数据:手牌、公共牌、历史动作、合法动作
- 输出格式:JSON格式要求
- 多类型模型:Qwen2.5、Llama3.1、GLM4
- 多尺度模型:0.5B到14B参数
- 微调方法:LoRA微调(rank=8, alpha=16)
- 学习率:峰值1e-4,余弦调度
- 批次大小:128
- 训练轮数:1 epoch
| 游戏 | 玩家数 | 教师模型 | 游戏场次 | 平均步数 | 训练数据 |
|---|
| 斗地主 | 3 | DouZero | 200k | 37.31 | 1,000k |
| 掼蛋 | 4 | DanZero | 6k | 311.25 | 1,000k |
| 日本麻将 | 4 | 专家数据 | 7k | 656.92 | 1,000k |
| UNO | 2 | 规则模型 | 50k | 42.33 | 400k |
| 金拉米 | 2 | 规则模型 | 50k | 52.14 | 400k |
- 斗地主:胜率
- 掼蛋:轮次胜率
- 其他游戏:奖励分数(基于排名或RLCard框架)
- RQ1:单游戏掌握能力评估
- RQ2:多游戏同时学习能力评估
- RQ3:通用能力保持评估
- 斗地主:Qwen2.5-7B达到80.6%胜率,接近DouZero的表现
- 掼蛋:三种模型均达到约63%的轮次胜率,接近DanZero
- 日本麻将:达到与强AI Mortal相当的表现
- 0.5B到7B:性能随参数量增加而提升
- 14B模型异常:在斗地主中表现反而下降,分析发现是角色学习不平衡导致
API模型对比:
- DeepSeek-R1表现最佳,在3个游戏中得分最高
- 微调模型在复杂游戏(斗地主、掼蛋、麻将)中显著优于API模型
游戏间相互影响:
- 正向迁移:规则相似的游戏(斗地主↔掼蛋,三种扑克游戏间)
- 负向干扰:规则差异大的游戏间存在冲突
能力下降:
- MMLU-Pro:47.95→44.74(Llama3.1)
- Math-500:46.60→35.20(Llama3.1)
- HumanEval:70.73→60.98(Llama3.1)
能力恢复:
通过混合20k知识数据、20k数学数据、20k编程数据和8k游戏数据进行进一步微调:
- MMLU-Pro:44.74→45.18
- Math-500:35.20→47.20
- HumanEval:60.98→65.24
随着训练数据增加,模型性能在复杂游戏中持续提升,表明高质量数据对LLMs掌握复杂游戏至关重要。
- Qwen2.5和Llama3.1在大多数游戏中表现相近
- GLM4在斗地主中表现较差,主要因为角色学习不平衡
发现GLM4和14B模型在地主角色上表现优异,但农民角色表现显著下降,分析原因:
- 数据质量问题:农民获胜时两个农民数据都被保留,但胜利可能主要由一个农民贡献
- 学习不平衡:模型更多关注地主角色的学习
- 传统方法:从Deep Blue到AlphaGo系列,展示了AI在复杂游戏中的突破
- 强化学习:AlphaZero、MuZero等通过自我对弈达到超人水平
- 现有研究:主要集中在德州扑克、21点等游戏的提示方法评估
- 局限性:缺乏对LLMs学习能力的深入评估,游戏复杂度不足
- 更高复杂度:选择的游戏具有更大的状态空间和动作空间
- 学习能力评估:通过微调评估真实学习能力而非仅依赖预训练知识
- 系统性研究:多游戏、多维度的全面评估
- LLMs具备掌握复杂卡牌游戏的能力:通过高质量数据微调可接近专门游戏AI的性能
- 多游戏学习存在规律:相似规则游戏间存在正向迁移,差异大的游戏间存在负向干扰
- 通用能力可以恢复:虽然游戏微调会损害通用能力,但可通过混合训练缓解
- 推理速度:LLMs推理时间比专门游戏AI更长
- 数据依赖:需要大量高质量游戏数据
- 角色平衡:在多角色游戏中存在学习不平衡问题
- 计算资源:训练和推理需要大量GPU资源
- 效率优化:研究更高效的微调和推理方法
- 自我对弈:探索LLMs的自我对弈学习能力
- 更多游戏:扩展到更多类型的复杂游戏
- 理论分析:深入理解游戏间知识迁移的机制
- 问题重要性:研究LLMs在复杂游戏中的能力具有重要理论和实践价值
- 实验全面性:八种游戏、三种研究问题、多种模型的系统性评估
- 方法创新性:避免从零训练,利用强AI生成高质量数据的思路新颖
- 结果说服力:在多个复杂游戏中都达到了接近专门AI的性能
- 分析深入:对异常现象(如14B模型表现差)进行了深入分析
- 游戏类型局限:仅限于卡牌游戏,未涵盖其他类型的复杂游戏
- 理论分析不足:缺乏对为什么LLMs能够掌握复杂游戏的理论解释
- 计算成本分析:虽然提到了计算资源,但缺乏与专门AI的详细对比
- 泛化能力:未测试在未见过的游戏变体上的表现
- 学术贡献:为LLMs在复杂决策任务中的应用提供了重要证据
- 实用价值:展示了LLMs作为通用游戏AI的潜力
- 可复现性:提供了完整的代码和数据,便于后续研究
- 启发意义:为LLMs在其他复杂决策领域的应用提供了参考
- 游戏AI开发:为需要快速开发多种游戏AI的场景提供了新思路
- 多任务学习:为研究LLMs的多任务学习能力提供了基准
- 决策系统:为复杂决策系统的开发提供了方法参考
- AI能力评估:为评估通用AI系统的复杂推理能力提供了新工具
本文引用了46篇重要文献,涵盖了游戏AI发展历程、大语言模型研究、强化学习方法等多个领域的重要工作,为研究提供了坚实的理论基础。