Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
academic- 論文ID: 2509.01328
- タイトル: Can Large Language Models Master Complex Card Games?
- 著者: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
- 分類: cs.CL
- 発表会議: NeurIPS 2025(第39回ニューラル情報処理システム会議)
- 論文リンク: https://arxiv.org/abs/2509.01328
- コードリンク: https://github.com/THUDM/LLM4CardGame
複雑なゲームは長年にわたってAIアルゴリズムの進歩をテストするための重要なベンチマークとなってきた。AlphaGo、AlphaZero、MuZeroは囲碁とチェスで一流の人間プレイヤーを打ち負かし、AIに対する社会的な関心を喚起した。同時に、大規模言語モデル(LLM)は様々なタスクで優れた能力を示しており、LLMが複雑なゲームで同様の成功を達成できるかという疑問が生じている。本論文は、LLMが複雑なカードゲームをマスターする可能性を探索している。本研究は、8種類の異なるカードゲームにおけるLLMの学習能力を体系的に評価し、高品質なゲームデータに対するファインチューニングの影響を評価し、これらのゲームをマスターしながら汎用能力を維持するモデルの能力をテストしている。
本研究が解決しようとしている中核的な問題は:大規模言語モデルは専門的なゲームAIと同様に複雑なカードゲームをマスターできるか?
- AI能力の境界探索:複雑なゲームはAIアルゴリズムの上限をテストするための重要なシナリオであり、Deep BlueからAlphaGoシリーズまでがこれを証明している
- 汎用知能の評価:専門的なゲームAIと比較して、汎用学習器としてのLLMのゲームマスタリング能力はより研究価値がある
- マルチタスク学習能力:LLMが専門的に設計されたネットワークアーキテクチャなしで複数の複雑なゲームを同時にマスターできるかを評価する
- 評価の不十分さ:既存研究の多くはプロンプトベースの方法を採用しており、LLMの学習能力を十分に評価していない
- タスク複雑度の不足:評価されるゲームの複雑度が低く、LLMの学習上限を包括的にテストできない
- 単一ゲームの限界:LLMが複数の複雑なゲームを同時にマスターする能力に関する体系的な研究が不足している
AlphaGoシリーズの成功に触発されて、LLMが高品質なゲーム軌跡データを学習することで複雑なカードゲームをマスターできるかどうか、および汎用学習器としての利点を探索する。
- 初めて提案した複数の高複雑度ゲームにおけるLLMの学習能力の包括的評価フレームワーク
- 構築した8種類の複雑なカードゲームを含む大規模な高品質訓練データセット。ゼロからの学習の高い計算コストを回避
- 体系的に評価した3つの重要な側面におけるLLMのパフォーマンス:単一ゲームのマスタリング能力、複数ゲームの同時学習能力、汎用能力の保持能力
- 実証したLLMは強力な学習能力と汎用性を備えており、モデル構造を変更することなく複数の複雑なゲームを同時にマスターできる
入力:ゲーム状態情報(手札、過去のアクション、合法的なアクションなど)
出力:JSON形式のゲームアクション決定
制約:アクションは合法的なアクションセットから選択する必要がある
3つの側面に基づいて8種類のカードゲームを選択:
- 人気度:ゲームの人気度
- 複雑度:情報セット数と平均情報セットサイズで測定
- データ可用性:強力なAIモデルまたは高品質データが利用可能かどうか
- 高複雑度ゲーム:大貧民、グアンダン、日本麻雀
- 中程度の複雑度ゲーム:UNO、ジンラミー
- ポーカータイプゲーム:Leduc Hold'em、リミテッドテキサスホールデム、ノーリミットテキサスホールデム
- 教師モデル:強力なゲームAI(DouZeroやDanZeroなど)または専門家データを使用
- 対戦相手モデル:ルールベースモデル、ランダムモデル、または他のAIモデル
- ゲーム数:ゲームの複雑度に応じて調整、6kから400kゲーム
- 勝者フィルタリング:勝利側の観測-アクションペアのみを保持
- 選択的フィルタリング:合法的なアクション数が1より大きいサンプルのみを保持
ゲーム固有のプロンプトテンプレートを設計:
- ゲーム紹介:ルールと目標
- 状態データ:手札、公開カード、過去のアクション、合法的なアクション
- 出力形式:JSON形式の要件
- 複数タイプのモデル:Qwen2.5、Llama3.1、GLM4
- 複数スケールのモデル:0.5Bから14Bパラメータ
- ファインチューニング方法:LoRAファインチューニング(rank=8、alpha=16)
- 学習率:ピーク値1e-4、コサイン調度
- バッチサイズ:128
- 訓練エポック:1エポック
| ゲーム | プレイヤー数 | 教師モデル | ゲーム数 | 平均ステップ数 | 訓練データ |
|---|
| 大貧民 | 3 | DouZero | 200k | 37.31 | 1,000k |
| グアンダン | 4 | DanZero | 6k | 311.25 | 1,000k |
| 日本麻雀 | 4 | 専門家データ | 7k | 656.92 | 1,000k |
| UNO | 2 | ルールモデル | 50k | 42.33 | 400k |
| ジンラミー | 2 | ルールモデル | 50k | 52.14 | 400k |
- 大貧民:勝率
- グアンダン:ラウンド勝率
- その他のゲーム:報酬スコア(ランキングまたはRLCardフレームワークに基づく)
- RQ1:単一ゲームのマスタリング能力評価
- RQ2:複数ゲームの同時学習能力評価
- RQ3:汎用能力の保持評価
- 大貧民:Qwen2.5-7Bは80.6%の勝率を達成、DouZeroのパフォーマンスに近い
- グアンダン:3種類のモデルすべてが約63%のラウンド勝率を達成、DanZeroに近い
- 日本麻雀:強力なAI Mortalと同等のパフォーマンスを達成
- 0.5Bから7B:パフォーマンスはパラメータ数の増加に伴い向上
- 14Bモデルの異常:大貧民でのパフォーマンスが低下、分析の結果、役割学習の不均衡が原因と判明
APIモデルの比較:
- DeepSeek-R1が最高のパフォーマンス、3つのゲームで最高スコアを獲得
- ファインチューニングモデルは複雑なゲーム(大貧民、グアンダン、麻雀)でAPIモデルを大幅に上回る
ゲーム間の相互影響:
- 正の転移:ルールが類似するゲーム(大貧民↔グアンダン、3種類のポーカーゲーム間)
- 負の干渉:ルール差が大きいゲーム間に競合が存在
能力低下:
- MMLU-Pro:47.95→44.74(Llama3.1)
- Math-500:46.60→35.20(Llama3.1)
- HumanEval:70.73→60.98(Llama3.1)
能力回復:
20kの知識データ、20kの数学データ、20kのプログラミングデータ、8kのゲームデータを混合して追加ファインチューニング:
- MMLU-Pro:44.74→45.18
- Math-500:35.20→47.20
- HumanEval:60.98→65.24
訓練データの増加に伴い、複雑なゲームでのモデルパフォーマンスが継続的に向上し、高品質データがLLMの複雑なゲームマスタリングに重要であることを示している。
- Qwen2.5とLlama3.1はほとんどのゲームで同様のパフォーマンス
- GLM4は大貧民で低いパフォーマンス、主に役割学習の不均衡が原因
GLM4と14Bモデルが地主役で優れたパフォーマンスを示しているが、農民役で著しく低下していることが判明。分析結果:
- データ品質の問題:農民が勝利した場合、2人の農民データが両方保持されるが、勝利は主に1人の農民に貢献している可能性
- 学習の不均衡:モデルは地主役の学習により多く焦点を当てている
- 従来の方法:Deep BlueからAlphaGoシリーズまで、複雑なゲームにおけるAIの突破を示している
- 強化学習:AlphaZero、MuZeroなど、自己対戦を通じて超人的レベルを達成
- 既存研究:主にテキサスホールデム、21などのゲームのプロンプト方法評価に集中
- 限界:LLMの学習能力の深い評価が不足、ゲーム複雑度が不十分
- より高い複雑度:選択されたゲームはより大きな状態空間とアクション空間を持つ
- 学習能力評価:事前訓練知識のみに依存するのではなく、ファインチューニングを通じて実際の学習能力を評価
- 体系的研究:複数ゲーム、複数側面の包括的評価
- LLMは複雑なカードゲームをマスターする能力を持つ:高品質データのファインチューニングを通じて専門的なゲームAIのパフォーマンスに近づくことができる
- 複数ゲーム学習には規則性がある:ルールが類似するゲーム間に正の転移が存在し、差が大きいゲーム間に負の干渉が存在
- 汎用能力は回復可能:ゲームファインチューニングは汎用能力を損傷させるが、混合訓練を通じて緩和できる
- 推論速度:LLMの推論時間は専門的なゲームAIより長い
- データ依存性:大量の高品質ゲームデータが必要
- 役割バランス:複数役割ゲームで学習不均衡の問題が存在
- 計算リソース:訓練と推論に大量のGPUリソースが必要
- 効率最適化:より効率的なファインチューニングと推論方法を研究
- 自己対戦:LLMの自己対戦学習能力を探索
- より多くのゲーム:より多くのタイプの複雑なゲームに拡張
- 理論分析:ゲーム間知識転移メカニズムの深い理解
- 問題の重要性:複雑なゲームにおけるLLMの能力を研究することは重要な理論的および実践的価値を持つ
- 実験の包括性:8種類のゲーム、3つの研究問題、複数のモデルの体系的評価
- 方法の革新性:ゼロからの訓練を回避し、強力なAIが生成した高品質データを利用するアプローチは新規
- 結果の説得力:複数の複雑なゲームで専門的なAIに近いパフォーマンスを達成
- 分析の深さ:異常現象(14Bモデルのパフォーマンス低下など)に対する深い分析
- ゲームタイプの限界:カードゲームのみに限定、他のタイプの複雑なゲームを含まない
- 理論分析の不足:LLMが複雑なゲームをマスターできる理由に関する理論的説明が不足
- 計算コスト分析の不足:計算リソースについて言及しているが、専門的なAIとの詳細な比較が不足
- 汎化能力:未見のゲーム変体でのパフォーマンスをテストしていない
- 学術的貢献:複雑な意思決定タスクにおけるLLMの応用に重要な証拠を提供
- 実用価値:汎用ゲームAIとしてのLLMの可能性を示す
- 再現性:完全なコードとデータを提供し、後続研究を容易にする
- 示唆的意義:他の複雑な意思決定分野でのLLM応用に参考を提供
- ゲームAI開発:複数のゲームAIを迅速に開発する必要があるシナリオに新しい思考を提供
- マルチタスク学習:LLMのマルチタスク学習能力を研究するためのベンチマークを提供
- 意思決定システム:複雑な意思決定システムの開発に方法論的参考を提供
- AI能力評価:汎用AI システムの複雑な推論能力を評価するための新しいツールを提供
本論文は46篇の重要な文献を引用しており、ゲームAI発展の歴史、大規模言語モデル研究、強化学習方法など複数の分野の重要な研究をカバーしており、研究に堅実な理論的基礎を提供している。