2025-11-11T10:25:09.405477

Can Large Language Models Master Complex Card Games?

Wang, Bie, Chen et al.
Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
academic

Can Large Language Models Master Complex Card Games?

基本信息

  • 论文ID: 2509.01328
  • 标题: Can Large Language Models Master Complex Card Games?
  • 作者: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
  • 分类: cs.CL
  • 发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
  • 论文链接: https://arxiv.org/abs/2509.01328
  • 代码链接: https://github.com/THUDM/LLM4CardGame

摘要

复杂游戏长期以来一直是测试人工智能算法进展的重要基准。AlphaGo、AlphaZero和MuZero在围棋和国际象棋中击败了顶级人类选手,引起了社会对人工智能的广泛关注。与此同时,大语言模型(LLMs)在各种任务中表现出了卓越的能力,这引发了LLMs是否能在复杂游戏中取得类似成功的问题。本文探索了LLMs掌握复杂卡牌游戏的潜力。研究系统性地评估了LLMs在八种不同卡牌游戏中的学习能力,评价了在高质量游戏数据上进行微调的影响,并检验了模型在掌握这些游戏的同时保持通用能力的能力。

研究背景与动机

问题定义

该研究要解决的核心问题是:大语言模型能否像专门的游戏AI一样掌握复杂的卡牌游戏?

重要性

  1. AI能力边界探索:复杂游戏是测试AI算法上限的重要场景,从Deep Blue到AlphaGo系列都证明了这一点
  2. 通用智能评估:相比专门的游戏AI,LLMs作为通用学习器的游戏掌握能力更具研究价值
  3. 多任务学习能力:评估LLMs能否同时掌握多个复杂游戏而不需要专门设计的网络架构

现有方法局限性

  1. 评估不充分:现有研究多采用基于提示的方法,未充分评估LLMs的学习能力
  2. 任务复杂度不足:评估的游戏复杂度较低,无法全面测试LLMs的学习上限
  3. 单一游戏局限:缺乏对LLMs同时掌握多个复杂游戏能力的系统性研究

研究动机

受AlphaGo系列成功的启发,探索LLMs是否能通过学习高质量的游戏轨迹数据来掌握复杂卡牌游戏,并评估其作为通用学习器的优势。

核心贡献

  1. 首次提出了对LLMs在多个高复杂度游戏中学习能力的全面评估框架
  2. 构建了包含八种复杂卡牌游戏的大规模高质量训练数据集,避免了从零开始学习的高计算成本
  3. 系统评估了LLMs在三个关键维度的表现:单游戏掌握能力、多游戏同时学习能力、通用能力保持能力
  4. 证明了LLMs具有强大的学习能力和通用性,能够在不改变模型结构的情况下同时掌握多个复杂游戏

方法详解

任务定义

输入:游戏状态信息(手牌、历史动作、合法动作等) 输出:JSON格式的游戏动作决策 约束:动作必须从合法动作集合中选择

游戏选择与数据准备

游戏选择标准

基于三个维度选择八种卡牌游戏:

  1. 流行度:游戏的受欢迎程度
  2. 复杂度:通过信息集数量和平均信息集大小衡量
  3. 数据可获得性:是否有强AI模型或高质量数据

选定游戏

  • 高复杂度游戏:斗地主、掼蛋、日本麻将
  • 中等复杂度游戏:UNO、金拉米
  • 扑克类游戏:Leduc Hold'em、限注德州扑克、无限注德州扑克

数据生成流程

轨迹生成

  1. 教师模型:使用强游戏AI(如DouZero、DanZero)或专家数据
  2. 对手模型:规则模型、随机模型或其他AI模型
  3. 游戏数量:根据游戏复杂度调整,从6k到400k场不等

数据过滤

  1. 胜者过滤:只保留获胜方的观察-动作对
  2. 选择性过滤:只保留合法动作数量大于1的样本

指令数据生成

设计游戏特定的提示模板,包含:

  • 游戏介绍:规则和目标
  • 状态数据:手牌、公共牌、历史动作、合法动作
  • 输出格式:JSON格式要求

模型训练策略

模型选择

  • 多类型模型:Qwen2.5、Llama3.1、GLM4
  • 多尺度模型:0.5B到14B参数

训练配置

  • 微调方法:LoRA微调(rank=8, alpha=16)
  • 学习率:峰值1e-4,余弦调度
  • 批次大小:128
  • 训练轮数:1 epoch

实验设置

数据规模

游戏玩家数教师模型游戏场次平均步数训练数据
斗地主3DouZero200k37.311,000k
掼蛋4DanZero6k311.251,000k
日本麻将4专家数据7k656.921,000k
UNO2规则模型50k42.33400k
金拉米2规则模型50k52.14400k

评价指标

  • 斗地主:胜率
  • 掼蛋:轮次胜率
  • 其他游戏:奖励分数(基于排名或RLCard框架)

实验设计

  1. RQ1:单游戏掌握能力评估
  2. RQ2:多游戏同时学习能力评估
  3. RQ3:通用能力保持评估

实验结果

主要结果

RQ1: 单游戏掌握能力

  • 斗地主:Qwen2.5-7B达到80.6%胜率,接近DouZero的表现
  • 掼蛋:三种模型均达到约63%的轮次胜率,接近DanZero
  • 日本麻将:达到与强AI Mortal相当的表现

模型规模影响

  • 0.5B到7B:性能随参数量增加而提升
  • 14B模型异常:在斗地主中表现反而下降,分析发现是角色学习不平衡导致

RQ2: 多游戏同时学习

API模型对比

  • DeepSeek-R1表现最佳,在3个游戏中得分最高
  • 微调模型在复杂游戏(斗地主、掼蛋、麻将)中显著优于API模型

游戏间相互影响

  • 正向迁移:规则相似的游戏(斗地主↔掼蛋,三种扑克游戏间)
  • 负向干扰:规则差异大的游戏间存在冲突

RQ3: 通用能力保持

能力下降

  • MMLU-Pro:47.95→44.74(Llama3.1)
  • Math-500:46.60→35.20(Llama3.1)
  • HumanEval:70.73→60.98(Llama3.1)

能力恢复: 通过混合20k知识数据、20k数学数据、20k编程数据和8k游戏数据进行进一步微调:

  • MMLU-Pro:44.74→45.18
  • Math-500:35.20→47.20
  • HumanEval:60.98→65.24

消融实验

数据量影响

随着训练数据增加,模型性能在复杂游戏中持续提升,表明高质量数据对LLMs掌握复杂游戏至关重要。

模型类型对比

  • Qwen2.5和Llama3.1在大多数游戏中表现相近
  • GLM4在斗地主中表现较差,主要因为角色学习不平衡

案例分析

斗地主角色学习

发现GLM4和14B模型在地主角色上表现优异,但农民角色表现显著下降,分析原因:

  1. 数据质量问题:农民获胜时两个农民数据都被保留,但胜利可能主要由一个农民贡献
  2. 学习不平衡:模型更多关注地主角色的学习

相关工作

游戏AI发展

  • 传统方法:从Deep Blue到AlphaGo系列,展示了AI在复杂游戏中的突破
  • 强化学习:AlphaZero、MuZero等通过自我对弈达到超人水平

LLM游戏能力研究

  • 现有研究:主要集中在德州扑克、21点等游戏的提示方法评估
  • 局限性:缺乏对LLMs学习能力的深入评估,游戏复杂度不足

本文优势

  1. 更高复杂度:选择的游戏具有更大的状态空间和动作空间
  2. 学习能力评估:通过微调评估真实学习能力而非仅依赖预训练知识
  3. 系统性研究:多游戏、多维度的全面评估

结论与讨论

主要结论

  1. LLMs具备掌握复杂卡牌游戏的能力:通过高质量数据微调可接近专门游戏AI的性能
  2. 多游戏学习存在规律:相似规则游戏间存在正向迁移,差异大的游戏间存在负向干扰
  3. 通用能力可以恢复:虽然游戏微调会损害通用能力,但可通过混合训练缓解

局限性

  1. 推理速度:LLMs推理时间比专门游戏AI更长
  2. 数据依赖:需要大量高质量游戏数据
  3. 角色平衡:在多角色游戏中存在学习不平衡问题
  4. 计算资源:训练和推理需要大量GPU资源

未来方向

  1. 效率优化:研究更高效的微调和推理方法
  2. 自我对弈:探索LLMs的自我对弈学习能力
  3. 更多游戏:扩展到更多类型的复杂游戏
  4. 理论分析:深入理解游戏间知识迁移的机制

深度评价

优点

  1. 问题重要性:研究LLMs在复杂游戏中的能力具有重要理论和实践价值
  2. 实验全面性:八种游戏、三种研究问题、多种模型的系统性评估
  3. 方法创新性:避免从零训练,利用强AI生成高质量数据的思路新颖
  4. 结果说服力:在多个复杂游戏中都达到了接近专门AI的性能
  5. 分析深入:对异常现象(如14B模型表现差)进行了深入分析

不足

  1. 游戏类型局限:仅限于卡牌游戏,未涵盖其他类型的复杂游戏
  2. 理论分析不足:缺乏对为什么LLMs能够掌握复杂游戏的理论解释
  3. 计算成本分析:虽然提到了计算资源,但缺乏与专门AI的详细对比
  4. 泛化能力:未测试在未见过的游戏变体上的表现

影响力

  1. 学术贡献:为LLMs在复杂决策任务中的应用提供了重要证据
  2. 实用价值:展示了LLMs作为通用游戏AI的潜力
  3. 可复现性:提供了完整的代码和数据,便于后续研究
  4. 启发意义:为LLMs在其他复杂决策领域的应用提供了参考

适用场景

  1. 游戏AI开发:为需要快速开发多种游戏AI的场景提供了新思路
  2. 多任务学习:为研究LLMs的多任务学习能力提供了基准
  3. 决策系统:为复杂决策系统的开发提供了方法参考
  4. AI能力评估:为评估通用AI系统的复杂推理能力提供了新工具

参考文献

本文引用了46篇重要文献,涵盖了游戏AI发展历程、大语言模型研究、强化学习方法等多个领域的重要工作,为研究提供了坚实的理论基础。