Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
- ID статьи: 2509.01328
- Название: Can Large Language Models Master Complex Card Games?
- Авторы: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
- Категория: cs.CL
- Конференция: NeurIPS 2025 (39-я конференция по системам обработки нейронной информации)
- Ссылка на статью: https://arxiv.org/abs/2509.01328
- Ссылка на код: https://github.com/THUDM/LLM4CardGame
Сложные игры давно служат важным эталоном для проверки прогресса алгоритмов искусственного интеллекта. AlphaGo, AlphaZero и MuZero победили лучших игроков-людей в го и шахматах, что привлекло широкое внимание общества к искусственному интеллекту. Одновременно большие языковые модели (LLM) продемонстрировали выдающиеся способности в различных задачах, что вызывает вопрос о том, могут ли LLM добиться аналогичного успеха в сложных играх. В данной статье исследуется потенциал LLM в овладении сложными карточными играми. Исследование систематически оценивает способность LLM к обучению в восьми различных карточных играх, оценивает влияние тонкой настройки на высококачественных игровых данных и проверяет способность модели сохранять общие способности при овладении этими играми.
Основной вопрос, который решает данное исследование: Могут ли большие языковые модели овладеть сложными карточными играми так же, как специализированные игровые ИИ?
- Исследование границ возможностей ИИ: Сложные игры являются важным сценарием для проверки пределов алгоритмов ИИ, что доказано от Deep Blue до серии AlphaGo
- Оценка общего интеллекта: По сравнению со специализированными игровыми ИИ, способность LLM овладевать играми как универсального обучающегося имеет большую исследовательскую ценность
- Способность многозадачного обучения: Оценка того, могут ли LLM одновременно овладеть несколькими сложными играми без необходимости в специально разработанной архитектуре сети
- Недостаточная оценка: Существующие исследования в основном используют методы, основанные на подсказках, без полной оценки способности LLM к обучению
- Недостаточная сложность задач: Оцениваемые игры имеют низкую сложность, что не позволяет полностью протестировать верхний предел обучения LLM
- Ограничения одной игры: Отсутствие систематического исследования способности LLM одновременно овладевать несколькими сложными играми
Вдохновленные успехом серии AlphaGo, исследуется, могут ли LLM овладеть сложными карточными играми путем обучения на высококачественных данных игровых траекторий и оценивается преимущество LLM как универсального обучающегося.
- Впервые предложена комплексная оценочная база для оценки способности LLM к обучению в нескольких высокосложных играх
- Построен крупномасштабный набор высококачественных обучающих данных, содержащий восемь сложных карточных игр, избегая высоких вычислительных затрат на обучение с нуля
- Систематически оценена производительность LLM по трем ключевым измерениям: способность овладеть одной игрой, способность одновременного обучения нескольким играм, способность сохранения общих способностей
- Доказано, что LLM обладают мощными способностями к обучению и универсальностью, способны одновременно овладеть несколькими сложными играми без изменения структуры модели
Входные данные: Информация о состоянии игры (карты на руке, история действий, допустимые действия и т.д.)
Выходные данные: Решение об игровом действии в формате JSON
Ограничения: Действие должно быть выбрано из набора допустимых действий
На основе трех измерений выбраны восемь карточных игр:
- Популярность: Степень популярности игры
- Сложность: Измеряется количеством информационных наборов и средним размером информационного набора
- Доступность данных: Наличие сильных игровых ИИ моделей или высококачественных данных
- Высокосложные игры: Dou Dizhu, Guandian, японский маджонг
- Среднесложные игры: UNO, Gin Rummy
- Покерные игры: Leduc Hold'em, Limit Texas Hold'em, No-Limit Texas Hold'em
- Модель учителя: Использование сильного игрового ИИ (например, DouZero, DanZero) или экспертных данных
- Модель противника: Модель на основе правил, случайная модель или другие ИИ модели
- Количество игр: Корректируется в зависимости от сложности игры, от 6k до 400k игр
- Фильтрация победителей: Сохранение только пар наблюдение-действие победившей стороны
- Выборочная фильтрация: Сохранение только образцов с количеством допустимых действий больше одного
Разработка шаблонов подсказок, специфичных для каждой игры, включающих:
- Введение в игру: Правила и цели
- Данные о состоянии: Карты на руке, общие карты, история действий, допустимые действия
- Формат вывода: Требования к формату JSON
- Модели различных типов: Qwen2.5, Llama3.1, GLM4
- Модели различных масштабов: От 0.5B до 14B параметров
- Метод тонкой настройки: LoRA тонкая настройка (rank=8, alpha=16)
- Скорость обучения: Пиковое значение 1e-4, косинусное расписание
- Размер пакета: 128
- Количество эпох: 1 эпоха
| Игра | Количество игроков | Модель учителя | Количество игр | Среднее количество шагов | Обучающие данные |
|---|
| Dou Dizhu | 3 | DouZero | 200k | 37.31 | 1,000k |
| Guandian | 4 | DanZero | 6k | 311.25 | 1,000k |
| Японский маджонг | 4 | Экспертные данные | 7k | 656.92 | 1,000k |
| UNO | 2 | Модель на основе правил | 50k | 42.33 | 400k |
| Gin Rummy | 2 | Модель на основе правил | 50k | 52.14 | 400k |
- Dou Dizhu: Процент побед
- Guandian: Процент побед за раунд
- Другие игры: Баллы вознаграждения (на основе рейтинга или фреймворка RLCard)
- RQ1: Оценка способности овладеть одной игрой
- RQ2: Оценка способности одновременного обучения нескольким играм
- RQ3: Оценка сохранения общих способностей
- Dou Dizhu: Qwen2.5-7B достигает 80.6% процента побед, близко к производительности DouZero
- Guandian: Все три модели достигают примерно 63% процента побед за раунд, близко к DanZero
- Японский маджонг: Достигает производительности, сравнимой с сильным ИИ Mortal
- От 0.5B до 7B: Производительность улучшается с увеличением количества параметров
- Модель 14B аномалия: Производительность на Dou Dizhu снижается, анализ показывает, что это вызвано дисбалансом в обучении ролей
Сравнение моделей API:
- DeepSeek-R1 показывает лучшие результаты, получая наивысшие баллы в 3 играх
- Модели с тонкой настройкой значительно превосходят модели API в сложных играх (Dou Dizhu, Guandian, маджонг)
Взаимное влияние между играми:
- Положительная передача: Игры с похожими правилами (Dou Dizhu↔Guandian, между тремя покерными играми)
- Отрицательные помехи: Конфликты между играми с большими различиями в правилах
Снижение способностей:
- MMLU-Pro: 47.95→44.74 (Llama3.1)
- Math-500: 46.60→35.20 (Llama3.1)
- HumanEval: 70.73→60.98 (Llama3.1)
Восстановление способностей:
Дополнительная тонкая настройка с использованием смешанных данных: 20k данных знаний, 20k математических данных, 20k данных программирования и 8k игровых данных:
- MMLU-Pro: 44.74→45.18
- Math-500: 35.20→47.20
- HumanEval: 60.98→65.24
С увеличением объема обучающих данных производительность модели в сложных играх продолжает улучшаться, что указывает на критическую важность высококачественных данных для овладения LLM сложными играми.
- Qwen2.5 и Llama3.1 показывают сходную производительность в большинстве игр
- GLM4 показывает худшую производительность в Dou Dizhu, главным образом из-за дисбаланса в обучении ролей
Обнаружено, что GLM4 и модель 14B показывают отличную производительность в роли землевладельца, но значительно худшую производительность в роли крестьянина. Анализ причин:
- Проблемы качества данных: При победе крестьян сохраняются данные обоих крестьян, но победа может быть в основном достигнута одним крестьянином
- Дисбаланс обучения: Модель уделяет больше внимания обучению роли землевладельца
- Традиционные методы: От Deep Blue до серии AlphaGo, демонстрирующие прорывы ИИ в сложных играх
- Обучение с подкреплением: AlphaZero, MuZero и другие достигают сверхчеловеческого уровня через самоигру
- Существующие исследования: Сосредоточены в основном на оценке методов подсказок в техасском холдеме, блэкджеке и других играх
- Ограничения: Отсутствие глубокой оценки способности LLM к обучению, недостаточная сложность игр
- Более высокая сложность: Выбранные игры имеют большее пространство состояний и действий
- Оценка способности обучения: Оценка реальной способности обучения через тонкую настройку, а не только полагаясь на предварительно обученные знания
- Систематическое исследование: Комплексная оценка по нескольким играм и измерениям
- LLM обладают способностью овладеть сложными карточными играми: Через тонкую настройку на высококачественных данных можно приблизиться к производительности специализированных игровых ИИ
- Существуют закономерности в многоигровом обучении: Положительная передача между играми с похожими правилами, отрицательные помехи между играми с большими различиями
- Общие способности могут быть восстановлены: Хотя тонкая настройка для игр может повредить общие способности, это можно смягчить смешанным обучением
- Скорость вывода: Время вывода LLM больше, чем у специализированных игровых ИИ
- Зависимость от данных: Требуется большое количество высококачественных игровых данных
- Баланс ролей: Существует проблема дисбаланса обучения в многоролевых играх
- Вычислительные ресурсы: Обучение и вывод требуют значительных ресурсов GPU
- Оптимизация эффективности: Исследование более эффективных методов тонкой настройки и вывода
- Самоигра: Исследование способности LLM к обучению через самоигру
- Больше игр: Расширение на больше типов сложных игр
- Теоретический анализ: Глубокое понимание механизмов передачи знаний между играми
- Важность проблемы: Исследование способности LLM в сложных играх имеет важное теоретическое и практическое значение
- Полнота экспериментов: Систематическая оценка восьми игр, трех исследовательских вопросов, нескольких моделей
- Инновационность метода: Новый подход использования высококачественных данных, генерируемых сильным ИИ, избегая обучения с нуля
- Убедительность результатов: Достижение производительности, близкой к специализированным ИИ, в нескольких сложных играх
- Глубокий анализ: Детальный анализ аномальных явлений (например, худшая производительность модели 14B)
- Ограничение типов игр: Ограничено только карточными играми, не охватывает другие типы сложных игр
- Недостаток теоретического анализа: Отсутствие теоретического объяснения того, почему LLM могут овладеть сложными играми
- Недостаточный анализ вычислительных затрат: Хотя упоминаются вычислительные ресурсы, отсутствует детальное сравнение со специализированными ИИ
- Способность обобщения: Не протестирована производительность на невиданных вариантах игр
- Академический вклад: Предоставляет важные доказательства применения LLM в сложных задачах принятия решений
- Практическая ценность: Демонстрирует потенциал LLM как универсального игрового ИИ
- Воспроизводимость: Предоставляет полный код и данные для облегчения последующих исследований
- Вдохновляющее значение: Предоставляет справочную информацию для применения LLM в других сложных областях принятия решений
- Разработка игрового ИИ: Предоставляет новый подход для быстрой разработки ИИ для нескольких игр
- Многозадачное обучение: Предоставляет эталон для исследования способности LLM к многозадачному обучению
- Системы принятия решений: Предоставляет методологическую справку для разработки систем сложного принятия решений
- Оценка способностей ИИ: Предоставляет новый инструмент для оценки способности универсальных систем ИИ к сложному рассуждению
В данной статье цитируется 46 важных работ, охватывающих историю развития игрового ИИ, исследования больших языковых моделей, методы обучения с подкреплением и другие области, предоставляя прочную теоретическую основу для исследования.