2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.

Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.

academic

추종자를 이끌기: 사회 추론 게임에서의 설득적 에이전트 학습

기본 정보

논문 ID: 2510.09087
제목: Leading the Follower: Learning Persuasive Agents in Social Deduction Games
저자: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
분류: cs.AI
발표 학회: ICLR 2026
논문 링크: https://arxiv.org/abs/2510.09087

초록

대규모 언어 모델(LLM) 에이전트는 사회 추론 게임(SDGs)에서 상당한 진전을 보였다. 그러나 기존 방법들은 주로 정보 처리 및 전략 선택에 초점을 맞추고 있으며, 다른 플레이어의 신념과 반응에 영향을 미치는 설득적 의사소통의 중요성을 간과하고 있다. SDGs에서 성공은 올바른 추론뿐만 아니라 다른 사람들을 자신의 의도대로 행동하도록 설득하는 능력에 달려 있다. 이러한 한계를 해결하기 위해 저자들은 SDGs의 순차적 대화를 스택엘베르그 경쟁으로 형식화했으며, 현재 플레이어가 리더로서 추종자의 반응에 전략적으로 영향을 미친다. 이러한 이론적 기초를 바탕으로 저자들은 발화의 설득력 영향을 최적화하도록 에이전트를 훈련하는 강화학습 프레임워크를 제안했다. 세 가지 서로 다른 SDGs에 대한 포괄적인 실험을 통해 제안된 방법이 기존 방법들을 크게 능가함을 입증했다.

연구 배경 및 동기

문제 정의

기존의 LLM 에이전트가 사회 추론 게임에서 직면한 주요 문제점:

설득적 의사소통 간과: 기존 방법들은 주로 정보 처리 및 전략 선택에 집중하며 설득력을 고려하지 않음
영향력 모델링 부재: 언어를 통해 다른 플레이어의 행동에 영향을 미치는 방법을 체계적으로 모델링하지 않음
불충분한 국소 최적화: 순차적 대화에서 각 발화에 대한 전략적 최적화 부족

연구의 중요성

사회 추론 게임은 AI의 사회적 지능을 연구하기 위한 이상적인 테스트 플랫폼이다:

불확실성, 기만, 전략적 의사소통 포함
다른 사람을 설득하여 승리 조건 달성 필요
실제 인간관계 상호작용의 복잡성 반영

기존 방법의 한계

전략 선택 지향: ReAct, ReCon 등 기존 방법들은 사전 정의된 동작 공간에서 전략 선택에 중점
설득력 최적화 부재: 발화의 설득 효과에 대한 전문적인 최적화 없음
대화 역학 간과: 순차적 대화의 전략적 기회를 충분히 활용하지 못함

핵심 기여

이론적 혁신: SDGs의 순차적 대화를 스택엘베르그 경쟁 모델로 형식화하여 설득적 의사소통을 위한 체계적인 이론적 기초 제공
방법론 프레임워크: 후속 플레이어의 반응에 대한 발화의 영향을 직접 최적화하는 강화학습 프레임워크 제안
실험 검증: 세 가지 서로 다른 SDGs(늑대인간, 아발론, ONUW)에서 방법의 효과성 및 일반화 능력 검증
기술적 기여: API 기반 LLM과 오픈소스 LLM의 장점을 결합한 완전한 훈련 파이프라인 개발

방법론 상세 설명

작업 정의

사회 추론 게임에서 플레이어는 순차적 대화를 통해 다른 플레이어의 행동에 영향을 미쳐 각자의 승리 조건을 달성해야 한다. 본 논문은 각 대화 라운드를 스택엘베르그 경쟁으로 모델링한다:

입력: 게임 규칙 R, 현재 게임 상태 G_t, 대화 이력 D_t, 플레이어 역할 r_t
출력: 최적화된 설득적 발화 u_t
목표: 다음 플레이어의 반응에 대한 유리한 영향 최대화

모델 아키텍처

1. 의도 식별(Intent Identification)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

시스템은 현재 상황을 분석하여 다음 플레이어로부터 가장 원하는 반응과 가장 원하지 않는 반응을 식별한다.

2. 영향력 측정(Impact Measurement)

이중 단계 아키텍처 사용:

백엔드 LLM(API 기반): 기본 발화 생성
정제기(오픈소스 LLM): 발화의 설득력 최적화

보상 함수 설계:

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. 전략 최적화(Strategy Optimization)

GRPO(그룹 상대 정책 최적화)를 사용하여 정제기 최적화:

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

여기서 μ_n과 σ_n은 배치 내 보상의 평균과 표준편차이다.

기술적 혁신점

스택엘베르그 모델링: 순차적 대화를 리더-추종자 게임으로 모델링하여 설득의 본질 포착
이중 단계 최적화: API LLM의 생성 능력과 오픈소스 LLM의 훈련 가능성 결합
직접 발화 최적화: 이산 동작 선택이 아닌 자연어 공간에서 직접 최적화
상대 우위 계산: GRPO를 사용하여 명시적 가치 함수의 필요성 제거

실험 설정

데이터셋

게임 유형: 늑대인간(7인 게임), 아발론(5인 게임), ONUW(5인 게임)
훈련 데이터: 각 게임당 500국의 자가 대전 기록, 4000개 라운드 인스턴스 무작위 선택
데이터 다양성: GPT-4o, Gemini-2.5-Flash, Claude-3.5-Haiku 세 가지 백엔드 LLM 사용

평가 지표

승률: 다양한 역할 및 진영의 승리 백분율
전체 성능: 모든 역할의 평균 승률

비교 방법

늑대인간: ReAct, ReCon, SLA, LSPO
아발론: ReAct, ReCon, LASI, Strategist
ONUW: ReAct, Belief, LLM-ins., RL-ins.

구현 세부사항

모델: Llama-3-8B-Instruct를 정제기 및 측정기로 사용
훈련: LoRA 어댑터(rank=16), 학습률 1×10⁻⁶, 3 에포크
하드웨어: 4개 A800 GPU, 약 50시간 훈련 시간
하이퍼파라미터: n=8, ε=0.2, β=0.04

실험 결과

주요 결과

게임	방법	마을 팀 승률	늑대 팀 승률	전체 승률
늑대인간	LSPO	25.3%	73.2%	39.0%
	제안 방법 + LSPO	28.3%	83.6%	44.1%
아발론	Strategist	77.9%	27.3%	57.7%
	제안 방법 + Strategist	77.9%	34.6%	60.6%
ONUW	RL-ins.	54.5%	47.6%	48.9%
	제안 방법 + RL-ins.	54.5%	50.0%	50.8%