2025-11-11T10:25:09.405477

Can Large Language Models Master Complex Card Games?

Wang, Bie, Chen et al.

Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame

academic

대규모 언어 모델이 복잡한 카드 게임을 마스터할 수 있는가?

기본 정보

논문 ID: 2509.01328
제목: Can Large Language Models Master Complex Card Games?
저자: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
분류: cs.CL
발표 학회: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
논문 링크: https://arxiv.org/abs/2509.01328
코드 링크: https://github.com/THUDM/LLM4CardGame

초록

복잡한 게임은 오랫동안 인공지능 알고리즘의 진전을 테스트하는 중요한 벤치마크였습니다. AlphaGo, AlphaZero, MuZero는 바둑과 체스에서 최고 수준의 인간 선수를 이겼으며, 이는 인공지능에 대한 사회적 관심을 광범위하게 불러일으켰습니다. 동시에 대규모 언어 모델(LLM)은 다양한 작업에서 뛰어난 능력을 보여주었으며, 이는 LLM이 복잡한 게임에서도 유사한 성공을 거둘 수 있는지에 대한 의문을 제기합니다. 본 논문은 LLM이 복잡한 카드 게임을 마스터할 수 있는 잠재력을 탐구합니다. 본 연구는 8가지 서로 다른 카드 게임에서 LLM의 학습 능력을 체계적으로 평가하고, 고품질 게임 데이터에 대한 미세 조정의 영향을 평가하며, 이러한 게임을 마스터하면서 동시에 일반적인 능력을 유지하는 모델의 능력을 검증합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는: 대규모 언어 모델이 전문 게임 AI처럼 복잡한 카드 게임을 마스터할 수 있는가?

중요성

AI 능력 경계 탐색: 복잡한 게임은 AI 알고리즘의 한계를 테스트하는 중요한 시나리오이며, Deep Blue에서 AlphaGo 시리즈까지 이를 증명했습니다
일반 지능 평가: 전문 게임 AI와 비교할 때, 일반 학습자로서의 LLM의 게임 마스터 능력이 더욱 연구 가치가 있습니다
다중 작업 학습 능력: LLM이 전문적으로 설계된 네트워크 아키텍처 없이 여러 복잡한 게임을 동시에 마스터할 수 있는지 평가합니다

기존 방법의 한계

평가 부족: 기존 연구는 주로 프롬프트 기반 방법을 채택하여 LLM의 학습 능력을 충분히 평가하지 못했습니다
작업 복잡도 부족: 평가된 게임의 복잡도가 낮아 LLM의 학습 상한선을 전면적으로 테스트할 수 없습니다
단일 게임 한계: LLM이 여러 복잡한 게임을 동시에 마스터하는 능력에 대한 체계적 연구가 부족합니다

연구 동기

AlphaGo 시리즈의 성공에 영감을 받아, LLM이 고품질의 게임 궤적 데이터를 학습하여 복잡한 카드 게임을 마스터할 수 있는지, 그리고 일반 학습자로서의 장점을 평가할 수 있는지 탐구합니다.

핵심 기여

최초로 제시한 여러 고복잡도 게임에서 LLM의 학습 능력에 대한 포괄적 평가 프레임워크
구축한 8가지 복잡한 카드 게임을 포함하는 대규모 고품질 훈련 데이터셋으로, 처음부터 학습하는 높은 계산 비용을 회피했습니다
체계적으로 평가한 3가지 핵심 차원에서의 LLM 성능: 단일 게임 마스터 능력, 다중 게임 동시 학습 능력, 일반 능력 유지 능력
증명한 LLM이 모델 구조를 변경하지 않고도 여러 복잡한 게임을 동시에 마스터할 수 있는 강력한 학습 능력과 일반성

방법론 상세 설명

작업 정의

입력: 게임 상태 정보(손패, 이전 동작, 합법적 동작 등) 출력: JSON 형식의 게임 동작 결정 제약: 동작은 합법적 동작 집합에서 선택되어야 합니다

게임 선택 및 데이터 준비

게임 선택 기준

3가지 차원을 기반으로 8가지 카드 게임을 선택합니다:

인기도: 게임의 인기 정도
복잡도: 정보 집합의 수와 평균 정보 집합 크기로 측정
데이터 가용성: 강력한 AI 모델이나 고품질 데이터의 존재 여부

선정된 게임

고복잡도 게임: 斗地主(더우디주), 掼蛋(궈단), 일본 마작
중간 복잡도 게임: UNO, 긴 라미
포커 게임: Leduc Hold'em, 리미티드 텍사스 홀덤, 언리미티드 텍사스 홀덤

데이터 생성 프로세스

궤적 생성

교사 모델: 강력한 게임 AI(예: DouZero, DanZero) 또는 전문가 데이터 사용
상대 모델: 규칙 기반 모델, 무작위 모델 또는 기타 AI 모델
게임 수: 게임 복잡도에 따라 조정되며, 6k에서 400k 게임까지 다양합니다

데이터 필터링

승자 필터링: 승리 팀의 관찰-동작 쌍만 보존
선택적 필터링: 합법적 동작 수가 1보다 큰 샘플만 보존

지시 데이터 생성

게임별 프롬프트 템플릿 설계:

게임 소개: 규칙 및 목표
상태 데이터: 손패, 공개 카드, 이전 동작, 합법적 동작
출력 형식: JSON 형식 요구사항

모델 훈련 전략

모델 선택

다양한 모델 유형: Qwen2.5, Llama3.1, GLM4
다양한 규모: 0.5B에서 14B 매개변수

훈련 설정

미세 조정 방법: LoRA 미세 조정(rank=8, alpha=16)
학습률: 피크 1e-4, 코사인 스케줄
배치 크기: 128
훈련 에포크: 1 에포크

실험 설정

데이터 규모

게임	플레이어 수	교사 모델	게임 수	평균 스텝	훈련 데이터
斗地主	3	DouZero	200k	37.31	1,000k
掼蛋	4	DanZero	6k	311.25	1,000k
일본 마작	4	전문가 데이터	7k	656.92	1,000k
UNO	2	규칙 모델	50k	42.33	400k
긴 라미	2	규칙 모델	50k	52.14	400k