2025-11-16T22:28:12.942550

Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'

Sharan, Adak

This paper investigates the strategy game So Long Sucker (SLS) as a novel benchmark for multi-agent reinforcement learning (MARL). Unlike traditional board or video game testbeds, SLS is distinguished by its coalition formation, strategic deception, and dynamic elimination rules, making it a uniquely challenging environment for autonomous agents. We introduce the first publicly available computational framework for SLS, complete with a graphical user interface and benchmarking support for reinforcement learning algorithms. Using classical deep reinforcement learning methods (e.g., DQN, DDQN, and Dueling DQN), we train self-playing agents to learn the rules and basic strategies of SLS. Experimental results demonstrate that, although these agents achieve roughly half of the maximum attainable reward and consistently outperform random baselines, they require long training horizons (~2000 games) and still commit occasional illegal moves, highlighting both the promise and limitations of classical reinforcement learning. Our findings establish SLS as a negotiation-aware benchmark for MARL, opening avenues for future research that integrates game-theoretic reasoning, coalition-aware strategies, and advanced reinforcement learning architectures to better capture the social and adversarial dynamics of complex multi-agent games.

academic

'소롱석커' 게임을 위한 경쟁적 다중에이전트 강화학습

기본 정보

논문 ID: 2411.11057
제목: Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker'
저자: Medant Sharan (King's College London), Chandranath Adak (IIT Patna)
분류: cs.AI
발표 시간: 2024년 11월 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2411.11057

초록

본 논문은 전략 게임 '소롱석커'(SLS)를 다중에이전트 강화학습(MARL) 분야의 새로운 벤치마크로 처음 도입합니다. 전통적인 보드게임이나 비디오게임 테스트 플랫폼과 달리, SLS는 연합 형성, 전략적 기만, 동적 제거 규칙 등의 특징을 가지고 있어 자율 에이전트에게 독특한 도전 환경을 제공합니다. 연구자들은 그래픽 사용자 인터페이스와 강화학습 알고리즘 벤치마크 지원을 포함한 첫 번째 공개 가능한 SLS 계산 프레임워크를 구축했습니다. 고전적 심층 강화학습 방법(DQN, DDQN, Dueling DQN)을 통해 자기대전 에이전트가 SLS 규칙과 기본 전략을 학습하도록 훈련했습니다. 실험 결과는 이러한 에이전트들이 최대 달성 가능 보상의 약 절반에 도달하고 무작위 기준선을 지속적으로 능가하지만, 긴 훈련 기간(약 2000게임)이 필요하며 여전히 불법적 행동을 간헐적으로 실행한다는 것을 보여주며, 고전적 강화학습의 잠재력과 한계를 부각시킵니다.

연구 배경 및 동기

문제 정의

기존의 다중에이전트 강화학습 벤치마크는 주로 순수 협력 목표(예: 조정 작업) 또는 적대적 경쟁(예: 2인 영합 게임)에 집중되어 있으며, 연합 형성과 배신 역학을 동시에 포착할 수 있는 혼합 환경이 부족합니다. Go, StarCraft II, Diplomacy 등의 분야에서 돌파구가 있었지만, 이러한 벤치마크는 SLS 고유의 연합과 배신 혼합 역학을 충분히 반영하지 못합니다.

연구의 중요성

Hausner, Nash, Shapley, Shubik이 설계한 4인 전략 게임인 SLS는 연합 형성, 임시 연합, 불가피한 배신을 중심으로 전개되며, 승리는 합법적 행동뿐만 아니라 외교와 기회주의에도 의존하므로, 신뢰, 협상, 사회적 딜레마를 연구하기 위한 독특한 테스트 플랫폼이 됩니다.

기존 방법의 한계

대부분의 MARL 벤치마크는 연합과 배신의 혼합 역학이 부족함
사회적으로 풍부한 설정에 대한 이전 연구는 일반적으로 명시적 통신 채널이나 수작업으로 제작된 상호작용 규칙에 의존함
SLS는 이전에 계산 벤치마크로 연구되지 않음

연구 동기

SLS를 재현 가능한 순차 변형으로 형식화하고 기준선 DRL 알고리즘을 벤치마킹함으로써, 본 논문은 SLS를 MARL 연구를 발전시키기 위한 연합과 배신 인식 테스트 플랫폼으로 위치시킵니다.

핵심 기여

첫 번째 SLS 계산 프레임워크: 강화학습 연구를 위해 특별히 설계된 첫 번째 SLS 계산 프레임워크를 설계하고 공개했으며, 실험을 위한 GUI를 갖추고 있음
고전적 DRL 알고리즘 벤치마킹: SLS에서 고전적 DRL 알고리즘(DQN, DDQN, Dueling DQN)을 벤치마킹하고, 합법적 게임 숙련도와 부분적 전략 인식을 획득하는 능력을 분석함
연합과 배신 인식 벤치마크: SLS를 MARL의 연합과 배신 인식 벤치마크로 확립하여, DRL과 게임 이론 추론을 결합하는 하이브리드 방법의 향후 연구를 자극함

방법론 상세 설명

작업 정의

SLS를 MARL 환경으로 변환하며, 광범위한 Hofstra 버전의 영합 변형을 채택합니다. 4명의 플레이어는 각각 고유한 색상을 할당받고, 최대 6개의 활성 더미가 있는 보드에서 각각 5개의 같은 색 칩으로 시작합니다. 승리 조건은 마지막으로 생존한 플레이어가 되는 것입니다.

강화학습 형식화

SLS를 마르코프 결정 과정(MDP)으로 모델링합니다:

상태 공간 S: 모든 가능한 게임 상태의 집합
행동 공간 A: 에이전트가 사용 가능한 모든 행동의 집합(이산 유효 이동)
전이 함수: p(s'|s,a)는 상태 s에서 행동 a를 실행한 후 s'로 전이할 확률을 나타냄
보상 함수: r(s,a,s')는 각 전이에 스칼라 값을 할당함
정책: π(a|s)는 주어진 상태 s에서 에이전트가 행동 a를 선택할 정책임

목표는 기대 할인 수익을 최대화하기 위해 최적 정책 π*를 찾는 것입니다: $R_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$

상태 표현

상태 st는 게임 환경을 설명하는 데 필요한 모든 정보를 인코딩합니다: $s_t = (보드\ 구성, 플레이어\ 칩, 제거된\ 칩, 현재\ 플레이어, 게임\ 단계, 스텝\ 수)$

관찰 공간 크기는: $obs\_size = (n_{행} \times n_{플레이어} \times n_{최대\_더미}) + n_{플레이어}^2 + (2 \times n_{플레이어}) + 4 + 1$

행동 공간

이산 행동 공간 A = {A₀, A₁, ..., A₉}는 다음을 포함합니다:

A₀-A₅: 더미 선택 행동(더미 선택 단계에서 유효)
A₆-A₉: 플레이어/색상 결정 행동(칩 선택, 다음 플레이어 선택, 칩 제거 단계에서 유효)

보상 설계

시간 스텝 t에서의 보상 신호는 다음과 같이 정의됩니다: $r_t = \min\left(\wp, \frac{\wp}{(\alpha/n_c) \cdot t}\right)$

여기서 α ∈ (0,1]은 감쇠율을 제어하는 하이퍼파라미터이고, ℘는 보상 크기입니다. 불법적 행동은 고정 음의 보상(-℘)으로 처벌받고, 합법적 행동은 최대 +℘의 양의 보상을 받으며, 이 값은 효율성을 촉진하기 위해 스텝 수에 따라 감쇠합니다.

실험 설정

게임 구성

플레이어 수: 4명의 플레이어
초기 칩: 각 플레이어당 5개의 같은 색 칩
최대 더미 수: 6개의 활성 더미
승리 조건: 영합 게임, 보상 구조 {0,0,0,ù}, ù ∈ N⁺

훈련 구성

중앙 집중식 누적 학습 설정을 채택하며, 4개의 플레이어 에이전트 모두 공통 학습 네트워크와 재생 버퍼를 공유합니다. 네트워크 아키텍처는 64개 뉴런의 2개 완전 연결 은닉층(ReLU 활성화)과 선형 출력층으로 구성됩니다.

하이퍼파라미터 설정

할인 계수 γ = 0.95
초기 탐색률 ε₀ = 1.0
탐색 감쇠율 ε_decay = 0.995
최소 탐색률 ε_min = 0.01
학습률 = 0.001
배치 크기 = 64
훈련 에포크 = 10,000게임

평가 지표

누적 보상 평균 및 표준편차
게임당 평균 스텝 수
보상 범위최솟값, 최댓값
스텝 범위최솟값, 최댓값

비교 방법

DQN (Deep Q-Network)
DDQN (Double DQN)
Dueling DQN
Random baseline (무작위 기준선)

실험 결과

주요 결과

에이전트	보상(평균±표준편차)	보상 범위최소,최대	스텝(평균±표준편차)	스텝 범위최소,최대
DQN	103.40 ± 42.31	-313.45, 189.24	61.16 ± 14.51	27, 162
DDQN	108.44 ± 44.95	-279.13, 191.38	61.23 ± 14.18	28, 165
Dueling DQN	102.06 ± 49.62	-319.76, 192.09	65.92 ± 15.94	28, 173
Random	-8.78 ± 43.52	-419.26, 94.19	65.24 ± 17.76	29, 174

주요 발견

성능 표현: 모든 DRL 에이전트는 무작위 기준선을 지속적으로 능가하며, 이론적 최대 보상(≈200)의 약 절반에 도달함
수렴 특성: DDQN은 가장 안정적인 수렴과 최고 평균 보상을 달성하여, 이중 추정이 장기 게임 Q값 과대추정 완화에 이점이 있음을 검증함
학습 역학: 초기 훈련 단계(<500게임)에서 에이전트는 큰 보상 분산을 보이며, 약 2000게임 후 모든 DRL 에이전트는 더 부드러운 수렴을 보임

학습 곡선 분석

훈련 과정은 3단계로 나뉩니다:

탐색 단계(0-500게임): 높은 분산, 빈번한 불법 행동
학습 단계(500-2000게임): 규칙 점진적 습득, 보상 꾸준히 상승
수렴 단계(>2000게임): 보상 100-120 범위에서 안정화, 간헐적 탐색 하강

결론 및 논의

주요 결론

고전적 가치 기반 방법은 SLS의 핵심 규칙과 부분 전략을 학습할 수 있으며, 안정적이지만 차선의 성능을 달성함
보상의 높은 분산은 초기화와 탐색에 대한 민감성을 반영함
문맥 관련 행동은 단기 가치 추정의 한계를 노출함
SLS는 협상 인식 MARL 벤치마크로 성공적으로 확립됨

한계

전략 한계: 에이전트는 반응적이기보다는 전략적 행동을 취하는 경향이 있음
규칙 준수: 동적 행동 마스킹에도 불구하고 여전히 불법 행동을 간헐적으로 실행함
장기 추론: 조합 행동 공간과 지연 보상 의존성에서 어려움을 겪음
연합 역학: 복잡한 연합 형성과 배신 전략을 충분히 포착하지 못함

향후 방향

아키텍처 개선: Actor-Critic 및 연합 인식 프레임워크 통합
전략 강화: 장기 추론 및 규칙 준수 강화
사회 역학: 협상/연합/기만 능력 개발
이론적 분석: 게임 이론 추론과 심층 학습 결합

심층 평가

장점

혁신적 벤치마크: SLS를 MARL에 처음 도입하여 연합과 배신 역학 연구의 중요한 공백을 채움
완전한 프레임워크: GUI를 포함한 완전한 계산 프레임워크를 제공하여 재현 가능한 연구를 촉진함
체계적 평가: 다양한 고전적 DRL 방법에 대한 포괄적 벤치마킹 수행
이론적 기여: 영합 변형 규칙을 명확히 하여 원래 형식화의 불완전성을 해결함

부족한 점

방법 한계: 고전적 가치 기반 방법만 테스트했으며, 더 고급 MARL 알고리즘을 탐색하지 않음
단순화된 설정: 명시적 협상 메커니즘을 제거하여 SLS의 핵심 특징을 손상시킬 수 있음
성능 병목: 에이전트는 여전히 불법 행동을 실행하여 기본 방법의 부족함을 노출함
이론적 분석 부족: SLS의 게임 이론적 성질에 대한 심층 분석 부재

영향력

학술적 가치: MARL 커뮤니티에 새로운 연구 방향과 벤치마크 제공
실용적 의의: 프레임워크의 오픈소스 공개가 후속 연구를 촉진할 것
방법론적 기여: 복잡한 전략 게임을 ML 친화적 환경으로 변환하는 방법을 시연함
한계 시사: 복잡한 사회 게임에서 고전적 RL의 부족함을 드러내어 향후 연구 방향을 제시함

적용 시나리오

MARL 연구: 연합 형성과 배신 역학의 알고리즘 개발
게임 이론 응용: 다자간 협상 및 전략 추론의 계산 모델
사회 AI: 신뢰, 기만, 협력 행동의 모델링
교육 도구: 게임 이론 및 다중에이전트 시스템의 교육 시연

참고문헌

Hausner, M., Nash, J., Shapley, L., & Shubik, M. (1964). So Long Sucker- A Four-Person Game
Vinyals, O. et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature
FAIR Team et al. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science
Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature

본 논문은 SLS를 MARL의 새로운 벤치마크로 도입함으로써 연합 형성과 전략적 기만 연구를 위한 귀중한 플랫폼을 제공합니다. 현재 결과가 고전적 방법의 한계를 보여주지만, 이는 정확히 이 벤치마크의 도전성과 연구 가치를 부각시키며, 더 고급 다중에이전트 학습 알고리즘 개발을 위한 방향을 제시합니다.