2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.
Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.
academic

추종자를 이끌기: 사회 추론 게임에서의 설득적 에이전트 학습

기본 정보

  • 논문 ID: 2510.09087
  • 제목: Leading the Follower: Learning Persuasive Agents in Social Deduction Games
  • 저자: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
  • 분류: cs.AI
  • 발표 학회: ICLR 2026
  • 논문 링크: https://arxiv.org/abs/2510.09087

초록

대규모 언어 모델(LLM) 에이전트는 사회 추론 게임(SDGs)에서 상당한 진전을 보였다. 그러나 기존 방법들은 주로 정보 처리 및 전략 선택에 초점을 맞추고 있으며, 다른 플레이어의 신념과 반응에 영향을 미치는 설득적 의사소통의 중요성을 간과하고 있다. SDGs에서 성공은 올바른 추론뿐만 아니라 다른 사람들을 자신의 의도대로 행동하도록 설득하는 능력에 달려 있다. 이러한 한계를 해결하기 위해 저자들은 SDGs의 순차적 대화를 스택엘베르그 경쟁으로 형식화했으며, 현재 플레이어가 리더로서 추종자의 반응에 전략적으로 영향을 미친다. 이러한 이론적 기초를 바탕으로 저자들은 발화의 설득력 영향을 최적화하도록 에이전트를 훈련하는 강화학습 프레임워크를 제안했다. 세 가지 서로 다른 SDGs에 대한 포괄적인 실험을 통해 제안된 방법이 기존 방법들을 크게 능가함을 입증했다.

연구 배경 및 동기

문제 정의

기존의 LLM 에이전트가 사회 추론 게임에서 직면한 주요 문제점:

  1. 설득적 의사소통 간과: 기존 방법들은 주로 정보 처리 및 전략 선택에 집중하며 설득력을 고려하지 않음
  2. 영향력 모델링 부재: 언어를 통해 다른 플레이어의 행동에 영향을 미치는 방법을 체계적으로 모델링하지 않음
  3. 불충분한 국소 최적화: 순차적 대화에서 각 발화에 대한 전략적 최적화 부족

연구의 중요성

사회 추론 게임은 AI의 사회적 지능을 연구하기 위한 이상적인 테스트 플랫폼이다:

  • 불확실성, 기만, 전략적 의사소통 포함
  • 다른 사람을 설득하여 승리 조건 달성 필요
  • 실제 인간관계 상호작용의 복잡성 반영

기존 방법의 한계

  1. 전략 선택 지향: ReAct, ReCon 등 기존 방법들은 사전 정의된 동작 공간에서 전략 선택에 중점
  2. 설득력 최적화 부재: 발화의 설득 효과에 대한 전문적인 최적화 없음
  3. 대화 역학 간과: 순차적 대화의 전략적 기회를 충분히 활용하지 못함

핵심 기여

  1. 이론적 혁신: SDGs의 순차적 대화를 스택엘베르그 경쟁 모델로 형식화하여 설득적 의사소통을 위한 체계적인 이론적 기초 제공
  2. 방법론 프레임워크: 후속 플레이어의 반응에 대한 발화의 영향을 직접 최적화하는 강화학습 프레임워크 제안
  3. 실험 검증: 세 가지 서로 다른 SDGs(늑대인간, 아발론, ONUW)에서 방법의 효과성 및 일반화 능력 검증
  4. 기술적 기여: API 기반 LLM과 오픈소스 LLM의 장점을 결합한 완전한 훈련 파이프라인 개발

방법론 상세 설명

작업 정의

사회 추론 게임에서 플레이어는 순차적 대화를 통해 다른 플레이어의 행동에 영향을 미쳐 각자의 승리 조건을 달성해야 한다. 본 논문은 각 대화 라운드를 스택엘베르그 경쟁으로 모델링한다:

  • 입력: 게임 규칙 R, 현재 게임 상태 G_t, 대화 이력 D_t, 플레이어 역할 r_t
  • 출력: 최적화된 설득적 발화 u_t
  • 목표: 다음 플레이어의 반응에 대한 유리한 영향 최대화

모델 아키텍처

1. 의도 식별(Intent Identification)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

시스템은 현재 상황을 분석하여 다음 플레이어로부터 가장 원하는 반응과 가장 원하지 않는 반응을 식별한다.

2. 영향력 측정(Impact Measurement)

이중 단계 아키텍처 사용:

  • 백엔드 LLM(API 기반): 기본 발화 생성
  • 정제기(오픈소스 LLM): 발화의 설득력 최적화

보상 함수 설계:

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. 전략 최적화(Strategy Optimization)

GRPO(그룹 상대 정책 최적화)를 사용하여 정제기 최적화:

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

여기서 μ_n과 σ_n은 배치 내 보상의 평균과 표준편차이다.

기술적 혁신점

  1. 스택엘베르그 모델링: 순차적 대화를 리더-추종자 게임으로 모델링하여 설득의 본질 포착
  2. 이중 단계 최적화: API LLM의 생성 능력과 오픈소스 LLM의 훈련 가능성 결합
  3. 직접 발화 최적화: 이산 동작 선택이 아닌 자연어 공간에서 직접 최적화
  4. 상대 우위 계산: GRPO를 사용하여 명시적 가치 함수의 필요성 제거

실험 설정

데이터셋

  • 게임 유형: 늑대인간(7인 게임), 아발론(5인 게임), ONUW(5인 게임)
  • 훈련 데이터: 각 게임당 500국의 자가 대전 기록, 4000개 라운드 인스턴스 무작위 선택
  • 데이터 다양성: GPT-4o, Gemini-2.5-Flash, Claude-3.5-Haiku 세 가지 백엔드 LLM 사용

평가 지표

  • 승률: 다양한 역할 및 진영의 승리 백분율
  • 전체 성능: 모든 역할의 평균 승률

비교 방법

  • 늑대인간: ReAct, ReCon, SLA, LSPO
  • 아발론: ReAct, ReCon, LASI, Strategist
  • ONUW: ReAct, Belief, LLM-ins., RL-ins.

구현 세부사항

  • 모델: Llama-3-8B-Instruct를 정제기 및 측정기로 사용
  • 훈련: LoRA 어댑터(rank=16), 학습률 1×10⁻⁶, 3 에포크
  • 하드웨어: 4개 A800 GPU, 약 50시간 훈련 시간
  • 하이퍼파라미터: n=8, ε=0.2, β=0.04

실험 결과

주요 결과

게임방법마을 팀 승률늑대 팀 승률전체 승률
늑대인간LSPO25.3%73.2%39.0%
제안 방법 + LSPO28.3%83.6%44.1%
아발론Strategist77.9%27.3%57.7%
제안 방법 + Strategist77.9%34.6%60.6%
ONUWRL-ins.54.5%47.6%48.9%
제안 방법 + RL-ins.54.5%50.0%50.8%

절제 실험

보상 함수의 다양한 변형에 대한 절제 연구 수행:

  1. 긍정만: 예상 반응 확률만 최대화
  2. 부정만: 예상하지 않은 반응 확률만 최소화
  3. 완전: 긍정 및 부정 피드백 동시 고려

결과는 완전한 방법이 단일 목표 변형보다 크게 우수함을 보여주며, 양방향 최적화의 필요성을 입증한다.

일반화 검증

GPT-5 및 Qwen3-14B에서 추가 훈련 없이 일관된 성능 향상을 달성하여 방법의 교차 모델 일반화 능력을 입증했다.

사례 분석

논문은 세 가지 상세한 사례 연구를 제공한다:

  • 늑대인간 사례: 점쟁이 역할이 교묘한 추론과 동맹 동원을 통해 늑대인간 식별 성공
  • 아발론 사례: 하수인이 논리 재구성과 사회적 압박을 통해 팀 지지 획득
  • ONUW 사례: 늑대인간이 거짓 추론과 주의 전환을 통해 마을 사람들을 성공적으로 오도

관련 연구

SDG 에이전트 연구

초기 작업은 주로 규칙 기반 시스템에 기반했으며, 최근에는 LLM 기반 방법으로 전환:

  • 프롬프트 엔지니어링 방법: Xu et al. (2023)의 정보 검색 및 경험 반성
  • 강화학습 방법: SLA, LSPO 등이 사전 정의된 동작 선택을 통한 RL
  • 코드 생성 방법: Strategist가 코드 생성 및 트리 탐색을 통함

LLM 강화학습

  • PPO/DPO: 인간 피드백을 통한 LLM 최적화
  • GRPO: 명시적 선호도 데이터가 필요 없는 상대 최적화 방법

게임 이론 모델링

  • 전통적 방법: 완전 베이지안 균형 해결
  • 현대적 응용: DeepRole, Cicero 등이 특정 게임에서의 성공

결론 및 논의

주요 결론

  1. 설득적 의사소통은 SDGs 성공의 핵심 요소
  2. 스택엘베르그 모델링은 설득력 최적화를 위한 효과적인 프레임워크 제공
  3. 직접 발화 최적화가 동작 선택보다 더 효과적
  4. 방법은 우수한 교차 게임 및 교차 모델 일반화 능력 보유

한계

  1. 계산 오버헤드: 확률 계산을 위해 여러 번의 전방 전파 필요
  2. 의존성: 여전히 강력한 백엔드 LLM 지원 필요
  3. 평가 한계: 고정된 측정기 사용이 실제 상대와 차이 가능
  4. 게임 범위: 현재 세 가지 SDGs에서만 검증

향후 방향

  1. 더 많은 유형의 사회 게임으로 확장
  2. 단일 라운드 최적화가 아닌 장기 설득 전략 연구
  3. 다중 모달 설득(음성, 시각 등) 탐색
  4. 더 효율적인 훈련 방법 개발

심층 평가

장점

  1. 이론적 혁신: 스택엘베르그 모델링이 설득적 AI에 새로운 이론적 관점 제공
  2. 기술 선진성: API LLM과 오픈소스 LLM의 장점을 교묘하게 결합
  3. 충분한 실험: 다중 게임, 다중 지표, 다중 절제를 통한 포괄적 검증
  4. 실용적 가치: 기존 방법의 성능을 향상시키는 범용 플러그인으로 활용 가능

부족한 점

  1. 이론적 분석 부족: 스택엘베르그 모델링 수렴성에 대한 이론적 보장 부재
  2. 평가 편향: 측정기로 동일 모델 사용이 편향 유입 가능
  3. 계산 효율성: 훈련 및 추론의 계산 비용 높음
  4. 장기 영향: 다중 라운드 대화의 누적 설득 효과 미고려

영향력

  1. 학술적 기여: AI 사회적 지능 연구에 새로운 방향 개척
  2. 실제 응용: 협상, 교육, 고객 서비스 등 설득이 필요한 분야에 적용 가능
  3. 방법론적 영감: 다른 다중 에이전트 상호작용 작업에 새로운 모델링 사고 제공

적용 가능 분야

  • 사회 게임 및 온라인 엔터테인먼트
  • 지능형 고객 서비스 및 판매 보조
  • 교육 튜터링 및 행동 중재
  • 협상 및 중재 시스템
  • 소셜 미디어 콘텐츠 생성

참고문헌

본 논문은 사회 추론 게임, 강화학습, 게임 이론 등 다양한 분야의 중요한 작업을 인용하며, 특히:

  • Xu et al. (2024): SLA 방법
  • Light et al. (2025): Strategist 방법
  • Shao et al. (2024): GRPO 알고리즘
  • Bakhtin et al. (2022): Cicero 시스템

전체 평가: 이는 AI 사회적 지능 분야에서 중요한 기여를 하는 고품질 논문이다. 혁신적인 이론 모델링과 효과적인 기술 구현을 통해 설득 능력을 갖춘 AI 에이전트 개발을 위한 새로운 연구 방향과 실용적 방법을 제공한다.