2025-11-11T10:25:09.405477

Can Large Language Models Master Complex Card Games?

Wang, Bie, Chen et al.

Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame

academic

Могут ли большие языковые модели овладеть сложными карточными играми?

Основная информация

ID статьи: 2509.01328
Название: Can Large Language Models Master Complex Card Games?
Авторы: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
Категория: cs.CL
Конференция: NeurIPS 2025 (39-я конференция по системам обработки нейронной информации)
Ссылка на статью: https://arxiv.org/abs/2509.01328
Ссылка на код: https://github.com/THUDM/LLM4CardGame

Аннотация

Сложные игры давно служат важным эталоном для проверки прогресса алгоритмов искусственного интеллекта. AlphaGo, AlphaZero и MuZero победили лучших игроков-людей в го и шахматах, что привлекло широкое внимание общества к искусственному интеллекту. Одновременно большие языковые модели (LLM) продемонстрировали выдающиеся способности в различных задачах, что вызывает вопрос о том, могут ли LLM добиться аналогичного успеха в сложных играх. В данной статье исследуется потенциал LLM в овладении сложными карточными играми. Исследование систематически оценивает способность LLM к обучению в восьми различных карточных играх, оценивает влияние тонкой настройки на высококачественных игровых данных и проверяет способность модели сохранять общие способности при овладении этими играми.

Исследовательский контекст и мотивация

Определение проблемы

Основной вопрос, который решает данное исследование: Могут ли большие языковые модели овладеть сложными карточными играми так же, как специализированные игровые ИИ?

Значимость

Исследование границ возможностей ИИ: Сложные игры являются важным сценарием для проверки пределов алгоритмов ИИ, что доказано от Deep Blue до серии AlphaGo
Оценка общего интеллекта: По сравнению со специализированными игровыми ИИ, способность LLM овладевать играми как универсального обучающегося имеет большую исследовательскую ценность
Способность многозадачного обучения: Оценка того, могут ли LLM одновременно овладеть несколькими сложными играми без необходимости в специально разработанной архитектуре сети

Ограничения существующих методов

Недостаточная оценка: Существующие исследования в основном используют методы, основанные на подсказках, без полной оценки способности LLM к обучению
Недостаточная сложность задач: Оцениваемые игры имеют низкую сложность, что не позволяет полностью протестировать верхний предел обучения LLM
Ограничения одной игры: Отсутствие систематического исследования способности LLM одновременно овладевать несколькими сложными играми

Исследовательская мотивация

Вдохновленные успехом серии AlphaGo, исследуется, могут ли LLM овладеть сложными карточными играми путем обучения на высококачественных данных игровых траекторий и оценивается преимущество LLM как универсального обучающегося.

Основные вклады

Впервые предложена комплексная оценочная база для оценки способности LLM к обучению в нескольких высокосложных играх
Построен крупномасштабный набор высококачественных обучающих данных, содержащий восемь сложных карточных игр, избегая высоких вычислительных затрат на обучение с нуля
Систематически оценена производительность LLM по трем ключевым измерениям: способность овладеть одной игрой, способность одновременного обучения нескольким играм, способность сохранения общих способностей
Доказано, что LLM обладают мощными способностями к обучению и универсальностью, способны одновременно овладеть несколькими сложными играми без изменения структуры модели

Подробное описание методов

Определение задачи

Входные данные: Информация о состоянии игры (карты на руке, история действий, допустимые действия и т.д.) Выходные данные: Решение об игровом действии в формате JSON Ограничения: Действие должно быть выбрано из набора допустимых действий

Выбор игр и подготовка данных

Критерии выбора игр

На основе трех измерений выбраны восемь карточных игр:

Популярность: Степень популярности игры
Сложность: Измеряется количеством информационных наборов и средним размером информационного набора
Доступность данных: Наличие сильных игровых ИИ моделей или высококачественных данных

Выбранные игры

Высокосложные игры: Dou Dizhu, Guandian, японский маджонг
Среднесложные игры: UNO, Gin Rummy
Покерные игры: Leduc Hold'em, Limit Texas Hold'em, No-Limit Texas Hold'em

Процесс генерации данных

Генерация траекторий

Модель учителя: Использование сильного игрового ИИ (например, DouZero, DanZero) или экспертных данных
Модель противника: Модель на основе правил, случайная модель или другие ИИ модели
Количество игр: Корректируется в зависимости от сложности игры, от 6k до 400k игр

Фильтрация данных

Фильтрация победителей: Сохранение только пар наблюдение-действие победившей стороны
Выборочная фильтрация: Сохранение только образцов с количеством допустимых действий больше одного

Генерация данных инструкций

Разработка шаблонов подсказок, специфичных для каждой игры, включающих:

Введение в игру: Правила и цели
Данные о состоянии: Карты на руке, общие карты, история действий, допустимые действия
Формат вывода: Требования к формату JSON

Стратегия обучения модели

Выбор модели

Модели различных типов: Qwen2.5, Llama3.1, GLM4
Модели различных масштабов: От 0.5B до 14B параметров

Конфигурация обучения

Метод тонкой настройки: LoRA тонкая настройка (rank=8, alpha=16)
Скорость обучения: Пиковое значение 1e-4, косинусное расписание
Размер пакета: 128
Количество эпох: 1 эпоха

Экспериментальная установка

Масштаб данных

Игра	Количество игроков	Модель учителя	Количество игр	Среднее количество шагов	Обучающие данные
Dou Dizhu	3	DouZero	200k	37.31	1,000k
Guandian	4	DanZero	6k	311.25	1,000k
Японский маджонг	4	Экспертные данные	7k	656.92	1,000k
UNO	2	Модель на основе правил	50k	42.33	400k
Gin Rummy	2	Модель на основе правил	50k	52.14	400k

Метрики оценки

Dou Dizhu: Процент побед
Guandian: Процент побед за раунд
Другие игры: Баллы вознаграждения (на основе рейтинга или фреймворка RLCard)

Дизайн экспериментов

RQ1: Оценка способности овладеть одной игрой
RQ2: Оценка способности одновременного обучения нескольким играм
RQ3: Оценка сохранения общих способностей

Результаты экспериментов

Основные результаты

RQ1: Способность овладеть одной игрой

Dou Dizhu: Qwen2.5-7B достигает 80.6% процента побед, близко к производительности DouZero
Guandian: Все три модели достигают примерно 63% процента побед за раунд, близко к DanZero
Японский маджонг: Достигает производительности, сравнимой с сильным ИИ Mortal

Влияние размера модели

От 0.5B до 7B: Производительность улучшается с увеличением количества параметров
Модель 14B аномалия: Производительность на Dou Dizhu снижается, анализ показывает, что это вызвано дисбалансом в обучении ролей

RQ2: Одновременное обучение нескольким играм

Сравнение моделей API:

DeepSeek-R1 показывает лучшие результаты, получая наивысшие баллы в 3 играх
Модели с тонкой настройкой значительно превосходят модели API в сложных играх (Dou Dizhu, Guandian, маджонг)

Взаимное влияние между играми:

Положительная передача: Игры с похожими правилами (Dou Dizhu↔Guandian, между тремя покерными играми)
Отрицательные помехи: Конфликты между играми с большими различиями в правилах

RQ3: Сохранение общих способностей

Снижение способностей:

MMLU-Pro: 47.95→44.74 (Llama3.1)
Math-500: 46.60→35.20 (Llama3.1)
HumanEval: 70.73→60.98 (Llama3.1)

Восстановление способностей: Дополнительная тонкая настройка с использованием смешанных данных: 20k данных знаний, 20k математических данных, 20k данных программирования и 8k игровых данных:

MMLU-Pro: 44.74→45.18
Math-500: 35.20→47.20
HumanEval: 60.98→65.24

Абляционные эксперименты

Влияние объема данных

С увеличением объема обучающих данных производительность модели в сложных играх продолжает улучшаться, что указывает на критическую важность высококачественных данных для овладения LLM сложными играми.

Сравнение типов моделей

Qwen2.5 и Llama3.1 показывают сходную производительность в большинстве игр
GLM4 показывает худшую производительность в Dou Dizhu, главным образом из-за дисбаланса в обучении ролей

Анализ конкретных случаев

Обучение ролям в Dou Dizhu

Обнаружено, что GLM4 и модель 14B показывают отличную производительность в роли землевладельца, но значительно худшую производительность в роли крестьянина. Анализ причин:

Проблемы качества данных: При победе крестьян сохраняются данные обоих крестьян, но победа может быть в основном достигнута одним крестьянином
Дисбаланс обучения: Модель уделяет больше внимания обучению роли землевладельца

Связанные работы

Развитие игрового ИИ

Традиционные методы: От Deep Blue до серии AlphaGo, демонстрирующие прорывы ИИ в сложных играх
Обучение с подкреплением: AlphaZero, MuZero и другие достигают сверхчеловеческого уровня через самоигру

Исследование способностей LLM в играх

Существующие исследования: Сосредоточены в основном на оценке методов подсказок в техасском холдеме, блэкджеке и других играх
Ограничения: Отсутствие глубокой оценки способности LLM к обучению, недостаточная сложность игр

Преимущества данной работы

Более высокая сложность: Выбранные игры имеют большее пространство состояний и действий
Оценка способности обучения: Оценка реальной способности обучения через тонкую настройку, а не только полагаясь на предварительно обученные знания
Систематическое исследование: Комплексная оценка по нескольким играм и измерениям

Выводы и обсуждение

Основные выводы

LLM обладают способностью овладеть сложными карточными играми: Через тонкую настройку на высококачественных данных можно приблизиться к производительности специализированных игровых ИИ
Существуют закономерности в многоигровом обучении: Положительная передача между играми с похожими правилами, отрицательные помехи между играми с большими различиями
Общие способности могут быть восстановлены: Хотя тонкая настройка для игр может повредить общие способности, это можно смягчить смешанным обучением

Ограничения

Скорость вывода: Время вывода LLM больше, чем у специализированных игровых ИИ
Зависимость от данных: Требуется большое количество высококачественных игровых данных
Баланс ролей: Существует проблема дисбаланса обучения в многоролевых играх
Вычислительные ресурсы: Обучение и вывод требуют значительных ресурсов GPU

Направления будущих исследований

Оптимизация эффективности: Исследование более эффективных методов тонкой настройки и вывода
Самоигра: Исследование способности LLM к обучению через самоигру
Больше игр: Расширение на больше типов сложных игр
Теоретический анализ: Глубокое понимание механизмов передачи знаний между играми

Глубокая оценка

Преимущества

Важность проблемы: Исследование способности LLM в сложных играх имеет важное теоретическое и практическое значение
Полнота экспериментов: Систематическая оценка восьми игр, трех исследовательских вопросов, нескольких моделей
Инновационность метода: Новый подход использования высококачественных данных, генерируемых сильным ИИ, избегая обучения с нуля
Убедительность результатов: Достижение производительности, близкой к специализированным ИИ, в нескольких сложных играх
Глубокий анализ: Детальный анализ аномальных явлений (например, худшая производительность модели 14B)

Недостатки

Ограничение типов игр: Ограничено только карточными играми, не охватывает другие типы сложных игр
Недостаток теоретического анализа: Отсутствие теоретического объяснения того, почему LLM могут овладеть сложными играми
Недостаточный анализ вычислительных затрат: Хотя упоминаются вычислительные ресурсы, отсутствует детальное сравнение со специализированными ИИ
Способность обобщения: Не протестирована производительность на невиданных вариантах игр

Влияние

Академический вклад: Предоставляет важные доказательства применения LLM в сложных задачах принятия решений
Практическая ценность: Демонстрирует потенциал LLM как универсального игрового ИИ
Воспроизводимость: Предоставляет полный код и данные для облегчения последующих исследований
Вдохновляющее значение: Предоставляет справочную информацию для применения LLM в других сложных областях принятия решений

Применимые сценарии

Разработка игрового ИИ: Предоставляет новый подход для быстрой разработки ИИ для нескольких игр
Многозадачное обучение: Предоставляет эталон для исследования способности LLM к многозадачному обучению
Системы принятия решений: Предоставляет методологическую справку для разработки систем сложного принятия решений
Оценка способностей ИИ: Предоставляет новый инструмент для оценки способности универсальных систем ИИ к сложному рассуждению

Библиография

В данной статье цитируется 46 важных работ, охватывающих историю развития игрового ИИ, исследования больших языковых моделей, методы обучения с подкреплением и другие области, предоставляя прочную теоретическую основу для исследования.