2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.
Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.
academic

Guidare il Seguace: Apprendimento di Agenti Persuasivi nei Giochi di Deduzione Sociale

Informazioni Fondamentali

  • ID Articolo: 2510.09087
  • Titolo: Leading the Follower: Learning Persuasive Agents in Social Deduction Games
  • Autori: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
  • Classificazione: cs.AI
  • Conferenza di Pubblicazione: ICLR 2026
  • Link Articolo: https://arxiv.org/abs/2510.09087

Riassunto

Gli agenti basati su modelli di linguaggio di grandi dimensioni (LLM) hanno dimostrato progressi significativi nei giochi di deduzione sociale (SDGs). Tuttavia, i metodi esistenti si concentrano principalmente sull'elaborazione delle informazioni e sulla selezione strategica, trascurando l'importanza della comunicazione persuasiva nell'influenzare le convinzioni e le reazioni degli altri giocatori. Negli SDGs, il successo dipende non solo dal ragionamento corretto, ma anche dalla capacità di persuadere gli altri ad agire secondo le proprie intenzioni. Per affrontare questa limitazione, gli autori formalizzano la comunicazione a turni negli SDGs come competizione di Stackelberg, dove il giocatore attuale agisce come leader influenzando strategicamente le risposte del seguace. Sulla base di questo fondamento teorico, gli autori propongono un framework di apprendimento per rinforzo che addestra gli agenti a ottimizzare l'impatto persuasivo del discorso. Attraverso esperimenti completi su tre diversi SDGs, dimostrano che il metodo supera significativamente i metodi di base.

Contesto di Ricerca e Motivazione

Definizione del Problema

Gli agenti basati su LLM nei giochi di ragionamento sociale presentano i seguenti problemi principali:

  1. Trascuratezza della comunicazione persuasiva: I metodi esistenti si concentrano principalmente sull'elaborazione delle informazioni e sulla selezione strategica, mancando di considerare la persuasività
  2. Mancanza di modellazione dell'influenza: Nessuna modellazione sistematica di come influenzare il comportamento degli altri giocatori attraverso il linguaggio
  3. Insufficienza dell'ottimizzazione locale: Mancanza di ottimizzazione strategica per ogni turno di conversazione

Importanza della Ricerca

I giochi di deduzione sociale rappresentano una piattaforma di test ideale per lo studio dell'intelligenza sociale dell'IA, poiché:

  • Coinvolgono incertezza, inganno e comunicazione strategica
  • Richiedono il raggiungimento delle condizioni di vittoria attraverso la persuasione
  • Riflettono la complessità dell'interazione interpersonale nel mondo reale

Limitazioni dei Metodi Esistenti

  1. Orientamento alla selezione strategica: Metodi esistenti come ReAct e ReCon si concentrano principalmente sulla selezione di strategie da uno spazio di azioni predefinite
  2. Mancanza di ottimizzazione della persuasività: Nessuna ottimizzazione specializzata per l'effetto persuasivo del discorso
  3. Trascuratezza della dinamica conversazionale: Mancato sfruttamento completo delle opportunità strategiche nella comunicazione a turni

Contributi Principali

  1. Innovazione teorica: Formalizzazione della comunicazione a turni negli SDGs come modello di competizione di Stackelberg, fornendo una base teorica sistematica per la comunicazione persuasiva
  2. Framework metodologico: Proposta di un framework di apprendimento per rinforzo che ottimizza direttamente l'impatto del discorso sulle risposte dei giocatori successivi
  3. Verifica sperimentale: Validazione dell'efficacia e della generalizzabilità del metodo su tre diversi SDGs (Werewolf, Avalon, ONUW)
  4. Contributi tecnici: Sviluppo di una pipeline di addestramento completa che combina i vantaggi degli LLM basati su API e degli LLM open-source

Spiegazione Dettagliata del Metodo

Definizione del Compito

Nei giochi di deduzione sociale, i giocatori devono influenzare il comportamento degli altri attraverso la comunicazione a turni per raggiungere le proprie condizioni di vittoria. Questo articolo modella ogni turno di conversazione come una competizione di Stackelberg:

  • Input: Regole del gioco R, stato attuale del gioco G_t, cronologia della conversazione D_t, ruolo del giocatore r_t
  • Output: Discorso persuasivo ottimizzato u_t
  • Obiettivo: Massimizzare l'influenza favorevole sulla risposta del giocatore successivo

Architettura del Modello

1. Identificazione dell'Intento (Intent Identification)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

Il sistema analizza la situazione attuale e identifica le risposte più desiderate e meno desiderate dal giocatore successivo.

2. Misurazione dell'Impatto (Impact Measurement)

Utilizzo di un'architettura a due stadi:

  • Backend LLM (basato su API): Genera il discorso di base
  • Refiner (LLM open-source): Ottimizza la persuasività del discorso

Progettazione della funzione di ricompensa:

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. Ottimizzazione della Strategia (Strategy Optimization)

Utilizzo di GRPO (Group Relative Policy Optimization) per ottimizzare il Refiner:

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

dove μ_n e σ_n sono la media e la deviazione standard delle ricompense all'interno del batch.

Punti di Innovazione Tecnica

  1. Modellazione di Stackelberg: Prima formalizzazione della comunicazione a turni come gioco leader-seguace, catturando l'essenza della persuasione
  2. Ottimizzazione a due stadi: Combinazione della capacità generativa degli LLM basati su API e dell'addestrabilità degli LLM open-source
  3. Ottimizzazione diretta del discorso: Ottimizzazione nello spazio del linguaggio naturale piuttosto che nella selezione di azioni discrete
  4. Calcolo del vantaggio relativo: Utilizzo di GRPO che evita la necessità di una funzione di valore esplicita

Configurazione Sperimentale

Dataset

  • Tipi di gioco: Werewolf (7 giocatori), Avalon (5 giocatori), ONUW (5 giocatori)
  • Dati di addestramento: 500 partite di auto-gioco per ogni gioco, 4000 istanze di turni selezionate casualmente
  • Diversità dei dati: Utilizzo di tre backend LLM diversi: GPT-4o, Gemini-2.5-Flash, Claude-3.5-Haiku

Metriche di Valutazione

  • Tasso di vittoria: Percentuale di vittoria per diversi ruoli e fazioni
  • Prestazione complessiva: Tasso di vittoria medio per tutti i ruoli

Metodi di Confronto

  • Werewolf: ReAct, ReCon, SLA, LSPO
  • Avalon: ReAct, ReCon, LASI, Strategist
  • ONUW: ReAct, Belief, LLM-ins., RL-ins.

Dettagli di Implementazione

  • Modello: Llama-3-8B-Instruct come Refiner e Measurer
  • Addestramento: Adattatore LoRA (rank=16), tasso di apprendimento 1×10⁻⁶, 3 epoch
  • Hardware: 4 GPU A800, circa 50 ore di tempo di addestramento
  • Iperparametri: n=8, ε=0.2, β=0.04

Risultati Sperimentali

Risultati Principali

GiocoMetodoTasso Vittoria VillaniTasso Vittoria LupiTasso Vittoria Complessivo
WerewolfLSPO25.3%73.2%39.0%
Nostro + LSPO28.3%83.6%44.1%
AvalonStrategist77.9%27.3%57.7%
Nostro + Strategist77.9%34.6%60.6%
ONUWRL-ins.54.5%47.6%48.9%
Nostro + RL-ins.54.5%50.0%50.8%

Esperimenti di Ablazione

Sono stati condotti studi di ablazione su diverse varianti della funzione di ricompensa:

  1. Solo Positivo: Massimizzazione solo della probabilità di risposta desiderata
  2. Solo Negativo: Minimizzazione solo della probabilità di risposta indesiderata
  3. Completo: Considerazione simultanea del feedback positivo e negativo

I risultati mostrano che il metodo completo supera significativamente le varianti a obiettivo singolo, provando la necessità dell'ottimizzazione bidirezionale.

Verifica della Generalizzabilità

Test su GPT-5 e Qwen3-14B senza addestramento aggiuntivo dimostrano miglioramenti coerenti delle prestazioni, confermando la capacità di generalizzazione cross-modello del metodo.

Analisi di Casi Studio

L'articolo fornisce tre studi di caso dettagliati:

  • Caso Werewolf: Il ruolo di Seer identifica con successo il Werewolf attraverso ragionamento abile e mobilitazione degli alleati
  • Caso Avalon: Minion ottiene il supporto del team attraverso ricostruzione logica e pressione sociale
  • Caso ONUW: Werewolf inganna con successo i villani attraverso ragionamento falso e distrazione dell'attenzione

Lavori Correlati

Ricerca su Agenti SDG

I lavori iniziali si basavano principalmente su sistemi basati su regole, mentre i recenti si orientano verso metodi guidati da LLM:

  • Metodi di ingegneria dei prompt: Recupero di informazioni e riflessione sull'esperienza di Xu et al. (2023)
  • Metodi di apprendimento per rinforzo: SLA, LSPO e altri che selezionano azioni predefinite tramite RL
  • Metodi di generazione di codice: Strategist attraverso generazione di codice e ricerca su albero

Apprendimento per Rinforzo di LLM

  • PPO/DPO: Ottimizzazione di LLM attraverso feedback umano
  • GRPO: Metodo di ottimizzazione relativa senza necessità di dati di preferenza espliciti

Modellazione della Teoria dei Giochi

  • Metodi tradizionali: Risoluzione dell'Equilibrio Bayesiano Perfetto
  • Applicazioni moderne: Successo di DeepRole, Cicero e altri in giochi specifici

Conclusioni e Discussione

Conclusioni Principali

  1. La comunicazione persuasiva è un fattore chiave per il successo negli SDGs
  2. La modellazione di Stackelberg fornisce un framework efficace per l'ottimizzazione della persuasività
  3. L'ottimizzazione diretta del discorso è più efficace della selezione di azioni
  4. Il metodo dimostra buona generalizzabilità cross-gioco e cross-modello

Limitazioni

  1. Costo computazionale: Richiede molteplici propagazioni in avanti per il calcolo delle probabilità
  2. Dipendenza: Richiede ancora il supporto di un potente LLM backend
  3. Limitazioni di valutazione: L'utilizzo di un Measurer congelato potrebbe differire dagli avversari reali
  4. Ambito dei giochi: Attualmente validato solo su tre tipi di SDGs

Direzioni Future

  1. Estensione a più tipi di giochi sociali
  2. Ricerca di strategie di persuasione a lungo termine piuttosto che ottimizzazione a singolo turno
  3. Esplorazione della persuasione multimodale (voce, visione, ecc.)
  4. Sviluppo di metodi di addestramento più efficienti

Valutazione Approfondita

Punti di Forza

  1. Innovazione teorica: La modellazione di Stackelberg fornisce una nuova prospettiva teorica per l'IA persuasiva
  2. Avanzamento tecnico: Combinazione abile dei vantaggi degli LLM basati su API e degli LLM open-source
  3. Verifica sperimentale completa: Validazione completa con più giochi, metriche e ablazioni
  4. Valore pratico: Può fungere da plugin universale per migliorare le prestazioni dei metodi esistenti

Insufficienze

  1. Analisi teorica insufficiente: Mancanza di garanzie teoriche sulla convergenza della modellazione di Stackelberg
  2. Distorsione di valutazione: L'utilizzo dello stesso modello come Measurer potrebbe introdurre distorsioni
  3. Efficienza computazionale: Costi computazionali relativamente elevati per l'addestramento e l'inferenza
  4. Impatto a lungo termine: Mancata considerazione degli effetti cumulativi della persuasione in più turni

Impatto

  1. Contributo accademico: Apre nuove direzioni di ricerca nell'intelligenza sociale dell'IA
  2. Applicazioni pratiche: Applicabile a negoziazione, educazione, servizio clienti e altri scenari che richiedono persuasione
  3. Ispirazione metodologica: Fornisce nuovi approcci di modellazione per altri compiti di interazione multi-agente

Scenari Applicabili

  • Giochi sociali e intrattenimento online
  • Assistenti clienti intelligenti e sistemi di vendita
  • Tutoraggio educativo e interventi comportamentali
  • Sistemi di negoziazione e mediazione
  • Generazione di contenuti per social media

Bibliografia

Questo articolo cita importanti lavori da molteplici campi inclusi giochi di deduzione sociale, apprendimento per rinforzo e teoria dei giochi, in particolare:

  • Xu et al. (2024): Metodo SLA
  • Light et al. (2025): Metodo Strategist
  • Shao et al. (2024): Algoritmo GRPO
  • Bakhtin et al. (2022): Sistema Cicero

Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo dell'intelligenza sociale dell'IA. Attraverso la modellazione teorica innovativa e l'implementazione tecnica efficace, fornisce nuove direzioni di ricerca e metodi pratici per lo sviluppo di agenti IA con capacità persuasive.