Complex games have long been an important benchmark for testing the progress of artificial intelligence algorithms. AlphaGo, AlphaZero, and MuZero have defeated top human players in Go and Chess, garnering widespread societal attention towards artificial intelligence. Concurrently, large language models (LLMs) have exhibited remarkable capabilities across various tasks, raising the question of whether LLMs can achieve similar success in complex games. In this paper, we explore the potential of LLMs in mastering complex card games. We systematically assess the learning capabilities of LLMs across eight diverse card games, evaluating the impact of fine-tuning on high-quality gameplay data, and examining the models' ability to retain general capabilities while mastering these games. Our findings indicate that: (1) LLMs can approach the performance of strong game AIs through supervised fine-tuning on high-quality data, (2) LLMs can achieve a certain level of proficiency in multiple complex card games simultaneously, with performance augmentation for games with similar rules and conflicts for dissimilar ones, and (3) LLMs experience a decline in general capabilities when mastering complex games, but this decline can be mitigated by integrating a certain amount of general instruction data. The evaluation results demonstrate strong learning ability and versatility of LLMs. The code is available at https://github.com/THUDM/LLM4CardGame
- 논문 ID: 2509.01328
- 제목: Can Large Language Models Master Complex Card Games?
- 저자: Wei Wang, Fuqing Bie, Junzhe Chen, Dan Zhang, Shiyu Huang, Evgeny Kharlamov, Jie Tang
- 분류: cs.CL
- 발표 학회: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
- 논문 링크: https://arxiv.org/abs/2509.01328
- 코드 링크: https://github.com/THUDM/LLM4CardGame
복잡한 게임은 오랫동안 인공지능 알고리즘의 진전을 테스트하는 중요한 벤치마크였습니다. AlphaGo, AlphaZero, MuZero는 바둑과 체스에서 최고 수준의 인간 선수를 이겼으며, 이는 인공지능에 대한 사회적 관심을 광범위하게 불러일으켰습니다. 동시에 대규모 언어 모델(LLM)은 다양한 작업에서 뛰어난 능력을 보여주었으며, 이는 LLM이 복잡한 게임에서도 유사한 성공을 거둘 수 있는지에 대한 의문을 제기합니다. 본 논문은 LLM이 복잡한 카드 게임을 마스터할 수 있는 잠재력을 탐구합니다. 본 연구는 8가지 서로 다른 카드 게임에서 LLM의 학습 능력을 체계적으로 평가하고, 고품질 게임 데이터에 대한 미세 조정의 영향을 평가하며, 이러한 게임을 마스터하면서 동시에 일반적인 능력을 유지하는 모델의 능력을 검증합니다.
본 연구가 해결하고자 하는 핵심 문제는: 대규모 언어 모델이 전문 게임 AI처럼 복잡한 카드 게임을 마스터할 수 있는가?
- AI 능력 경계 탐색: 복잡한 게임은 AI 알고리즘의 한계를 테스트하는 중요한 시나리오이며, Deep Blue에서 AlphaGo 시리즈까지 이를 증명했습니다
- 일반 지능 평가: 전문 게임 AI와 비교할 때, 일반 학습자로서의 LLM의 게임 마스터 능력이 더욱 연구 가치가 있습니다
- 다중 작업 학습 능력: LLM이 전문적으로 설계된 네트워크 아키텍처 없이 여러 복잡한 게임을 동시에 마스터할 수 있는지 평가합니다
- 평가 부족: 기존 연구는 주로 프롬프트 기반 방법을 채택하여 LLM의 학습 능력을 충분히 평가하지 못했습니다
- 작업 복잡도 부족: 평가된 게임의 복잡도가 낮아 LLM의 학습 상한선을 전면적으로 테스트할 수 없습니다
- 단일 게임 한계: LLM이 여러 복잡한 게임을 동시에 마스터하는 능력에 대한 체계적 연구가 부족합니다
AlphaGo 시리즈의 성공에 영감을 받아, LLM이 고품질의 게임 궤적 데이터를 학습하여 복잡한 카드 게임을 마스터할 수 있는지, 그리고 일반 학습자로서의 장점을 평가할 수 있는지 탐구합니다.
- 최초로 제시한 여러 고복잡도 게임에서 LLM의 학습 능력에 대한 포괄적 평가 프레임워크
- 구축한 8가지 복잡한 카드 게임을 포함하는 대규모 고품질 훈련 데이터셋으로, 처음부터 학습하는 높은 계산 비용을 회피했습니다
- 체계적으로 평가한 3가지 핵심 차원에서의 LLM 성능: 단일 게임 마스터 능력, 다중 게임 동시 학습 능력, 일반 능력 유지 능력
- 증명한 LLM이 모델 구조를 변경하지 않고도 여러 복잡한 게임을 동시에 마스터할 수 있는 강력한 학습 능력과 일반성
입력: 게임 상태 정보(손패, 이전 동작, 합법적 동작 등)
출력: JSON 형식의 게임 동작 결정
제약: 동작은 합법적 동작 집합에서 선택되어야 합니다
3가지 차원을 기반으로 8가지 카드 게임을 선택합니다:
- 인기도: 게임의 인기 정도
- 복잡도: 정보 집합의 수와 평균 정보 집합 크기로 측정
- 데이터 가용성: 강력한 AI 모델이나 고품질 데이터의 존재 여부
- 고복잡도 게임: 斗地主(더우디주), 掼蛋(궈단), 일본 마작
- 중간 복잡도 게임: UNO, 긴 라미
- 포커 게임: Leduc Hold'em, 리미티드 텍사스 홀덤, 언리미티드 텍사스 홀덤
- 교사 모델: 강력한 게임 AI(예: DouZero, DanZero) 또는 전문가 데이터 사용
- 상대 모델: 규칙 기반 모델, 무작위 모델 또는 기타 AI 모델
- 게임 수: 게임 복잡도에 따라 조정되며, 6k에서 400k 게임까지 다양합니다
- 승자 필터링: 승리 팀의 관찰-동작 쌍만 보존
- 선택적 필터링: 합법적 동작 수가 1보다 큰 샘플만 보존
게임별 프롬프트 템플릿 설계:
- 게임 소개: 규칙 및 목표
- 상태 데이터: 손패, 공개 카드, 이전 동작, 합법적 동작
- 출력 형식: JSON 형식 요구사항
- 다양한 모델 유형: Qwen2.5, Llama3.1, GLM4
- 다양한 규모: 0.5B에서 14B 매개변수
- 미세 조정 방법: LoRA 미세 조정(rank=8, alpha=16)
- 학습률: 피크 1e-4, 코사인 스케줄
- 배치 크기: 128
- 훈련 에포크: 1 에포크
| 게임 | 플레이어 수 | 교사 모델 | 게임 수 | 평균 스텝 | 훈련 데이터 |
|---|
| 斗地主 | 3 | DouZero | 200k | 37.31 | 1,000k |
| 掼蛋 | 4 | DanZero | 6k | 311.25 | 1,000k |
| 일본 마작 | 4 | 전문가 데이터 | 7k | 656.92 | 1,000k |
| UNO | 2 | 규칙 모델 | 50k | 42.33 | 400k |
| 긴 라미 | 2 | 규칙 모델 | 50k | 52.14 | 400k |
- 斗地主: 승률
- 掼蛋: 라운드 승률
- 기타 게임: 보상 점수(순위 기반 또는 RLCard 프레임워크)
- RQ1: 단일 게임 마스터 능력 평가
- RQ2: 다중 게임 동시 학습 능력 평가
- RQ3: 일반 능력 유지 평가
- 斗地主: Qwen2.5-7B는 80.6% 승률 달성, DouZero의 성능에 근접
- 掼蛋: 3가지 모델 모두 약 63%의 라운드 승률 달성, DanZero에 근접
- 일본 마작: 강력한 AI Mortal과 동등한 성능 달성
- 0.5B에서 7B: 매개변수 증가에 따라 성능 향상
- 14B 모델 이상: 斗地主에서 성능이 오히려 감소, 역할 학습 불균형이 원인으로 분석됨
API 모델 비교:
- DeepSeek-R1이 최고 성능, 3개 게임에서 최고 점수 달성
- 미세 조정 모델이 복잡한 게임(斗地主, 掼蛋, 마작)에서 API 모델을 크게 능가
게임 간 상호 영향:
- 긍정적 이전: 규칙이 유사한 게임(斗地主↔掼蛋, 3가지 포커 게임 간)
- 부정적 간섭: 규칙 차이가 큰 게임 간 충돌 존재
능력 감소:
- MMLU-Pro: 47.95→44.74(Llama3.1)
- Math-500: 46.60→35.20(Llama3.1)
- HumanEval: 70.73→60.98(Llama3.1)
능력 회복:
20k 지식 데이터, 20k 수학 데이터, 20k 프로그래밍 데이터, 8k 게임 데이터를 혼합하여 추가 미세 조정:
- MMLU-Pro: 44.74→45.18
- Math-500: 35.20→47.20
- HumanEval: 60.98→65.24
훈련 데이터 증가에 따라 복잡한 게임에서 모델 성능이 지속적으로 향상되어, 고품질 데이터가 LLM의 복잡한 게임 마스터에 필수적임을 보여줍니다.
- Qwen2.5와 Llama3.1은 대부분의 게임에서 유사한 성능 표시
- GLM4는 斗地主에서 성능이 낮으며, 주로 역할 학습 불균형이 원인
GLM4와 14B 모델이 지주 역할에서 우수한 성능을 보이지만, 농민 역할에서 성능이 현저히 감소함을 발견, 원인 분석:
- 데이터 품질 문제: 농민 승리 시 두 농민 데이터가 모두 보존되지만, 승리는 한 농민이 주로 기여할 수 있음
- 학습 불균형: 모델이 지주 역할 학습에 더 많은 주의를 기울임
- 전통적 방법: Deep Blue에서 AlphaGo 시리즈까지, 복잡한 게임에서 AI의 돌파구를 보여줌
- 강화 학습: AlphaZero, MuZero 등이 자기 대국을 통해 초인적 수준 달성
- 기존 연구: 주로 텍사스 홀덤, 블랙잭 등 게임의 프롬프트 방법 평가에 집중
- 한계: LLM의 학습 능력에 대한 심층 평가 부족, 게임 복잡도 부족
- 더 높은 복잡도: 선택된 게임이 더 큰 상태 공간과 동작 공간을 가짐
- 학습 능력 평가: 미세 조정을 통해 실제 학습 능력을 평가하며 사전 훈련 지식에만 의존하지 않음
- 체계적 연구: 다중 게임, 다중 차원의 포괄적 평가
- LLM은 복잡한 카드 게임을 마스터할 능력이 있습니다: 고품질 데이터 미세 조정을 통해 전문 게임 AI의 성능에 근접할 수 있습니다
- 다중 게임 학습에는 규칙이 있습니다: 유사한 규칙의 게임 간에는 긍정적 이전이 있고, 차이가 큰 게임 간에는 부정적 간섭이 있습니다
- 일반 능력은 회복 가능합니다: 게임 미세 조정이 일반 능력을 손상시키지만, 혼합 훈련을 통해 완화할 수 있습니다
- 추론 속도: LLM의 추론 시간이 전문 게임 AI보다 깁니다
- 데이터 의존성: 대량의 고품질 게임 데이터가 필요합니다
- 역할 균형: 다중 역할 게임에서 학습 불균형 문제가 존재합니다
- 계산 자원: 훈련과 추론에 많은 GPU 자원이 필요합니다
- 효율성 최적화: 더 효율적인 미세 조정 및 추론 방법 연구
- 자기 대국: LLM의 자기 대국 학습 능력 탐색
- 더 많은 게임: 더 많은 유형의 복잡한 게임으로 확장
- 이론적 분석: 게임 간 지식 이전 메커니즘의 심층 이해
- 문제의 중요성: LLM의 복잡한 게임 능력 연구는 중요한 이론적, 실용적 가치가 있습니다
- 실험의 포괄성: 8가지 게임, 3가지 연구 질문, 다양한 모델의 체계적 평가
- 방법의 혁신성: 처음부터 훈련을 회피하고 강력한 AI가 생성한 고품질 데이터를 활용하는 아이디어가 새롭습니다
- 결과의 설득력: 여러 복잡한 게임에서 전문 AI에 근접한 성능 달성
- 분석의 깊이: 이상 현상(예: 14B 모델 성능 저하)에 대한 심층 분석
- 게임 유형 한계: 카드 게임에만 한정되어 다른 유형의 복잡한 게임을 포함하지 않습니다
- 이론적 분석 부족: LLM이 복잡한 게임을 마스터할 수 있는 이유에 대한 이론적 설명이 부족합니다
- 계산 비용 분석 부족: 계산 자원에 대해 언급했지만 전문 AI와의 상세한 비교가 부족합니다
- 일반화 능력: 미처 본 게임 변형에 대한 성능 테스트가 없습니다
- 학술적 기여: LLM의 복잡한 의사결정 작업 응용에 중요한 증거 제공
- 실용적 가치: LLM을 일반 게임 AI로 활용할 수 있는 잠재력 시연
- 재현성: 완전한 코드와 데이터 제공으로 후속 연구 용이
- 영감 제공: LLM의 다른 복잡한 의사결정 분야 응용에 참고 자료 제공
- 게임 AI 개발: 다양한 게임 AI를 빠르게 개발해야 하는 시나리오에 새로운 사고방식 제공
- 다중 작업 학습: LLM의 다중 작업 학습 능력 연구를 위한 벤치마크 제공
- 의사결정 시스템: 복잡한 의사결정 시스템 개발에 방법론 참고 자료 제공
- AI 능력 평가: 일반 AI 시스템의 복잡한 추론 능력 평가를 위한 새로운 도구 제공
본 논문은 46개의 중요 문헌을 인용하며, 게임 AI 발전 과정, 대규모 언어 모델 연구, 강화 학습 방법 등 여러 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.