2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.

Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.

academic

Guidare il Seguace: Apprendimento di Agenti Persuasivi nei Giochi di Deduzione Sociale

Informazioni Fondamentali

ID Articolo: 2510.09087
Titolo: Leading the Follower: Learning Persuasive Agents in Social Deduction Games
Autori: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
Classificazione: cs.AI
Conferenza di Pubblicazione: ICLR 2026
Link Articolo: https://arxiv.org/abs/2510.09087

Riassunto

Gli agenti basati su modelli di linguaggio di grandi dimensioni (LLM) hanno dimostrato progressi significativi nei giochi di deduzione sociale (SDGs). Tuttavia, i metodi esistenti si concentrano principalmente sull'elaborazione delle informazioni e sulla selezione strategica, trascurando l'importanza della comunicazione persuasiva nell'influenzare le convinzioni e le reazioni degli altri giocatori. Negli SDGs, il successo dipende non solo dal ragionamento corretto, ma anche dalla capacità di persuadere gli altri ad agire secondo le proprie intenzioni. Per affrontare questa limitazione, gli autori formalizzano la comunicazione a turni negli SDGs come competizione di Stackelberg, dove il giocatore attuale agisce come leader influenzando strategicamente le risposte del seguace. Sulla base di questo fondamento teorico, gli autori propongono un framework di apprendimento per rinforzo che addestra gli agenti a ottimizzare l'impatto persuasivo del discorso. Attraverso esperimenti completi su tre diversi SDGs, dimostrano che il metodo supera significativamente i metodi di base.

Contesto di Ricerca e Motivazione

Definizione del Problema

Gli agenti basati su LLM nei giochi di ragionamento sociale presentano i seguenti problemi principali:

Trascuratezza della comunicazione persuasiva: I metodi esistenti si concentrano principalmente sull'elaborazione delle informazioni e sulla selezione strategica, mancando di considerare la persuasività
Mancanza di modellazione dell'influenza: Nessuna modellazione sistematica di come influenzare il comportamento degli altri giocatori attraverso il linguaggio
Insufficienza dell'ottimizzazione locale: Mancanza di ottimizzazione strategica per ogni turno di conversazione

Importanza della Ricerca

I giochi di deduzione sociale rappresentano una piattaforma di test ideale per lo studio dell'intelligenza sociale dell'IA, poiché:

Coinvolgono incertezza, inganno e comunicazione strategica
Richiedono il raggiungimento delle condizioni di vittoria attraverso la persuasione
Riflettono la complessità dell'interazione interpersonale nel mondo reale

Limitazioni dei Metodi Esistenti

Orientamento alla selezione strategica: Metodi esistenti come ReAct e ReCon si concentrano principalmente sulla selezione di strategie da uno spazio di azioni predefinite
Mancanza di ottimizzazione della persuasività: Nessuna ottimizzazione specializzata per l'effetto persuasivo del discorso
Trascuratezza della dinamica conversazionale: Mancato sfruttamento completo delle opportunità strategiche nella comunicazione a turni

Contributi Principali

Innovazione teorica: Formalizzazione della comunicazione a turni negli SDGs come modello di competizione di Stackelberg, fornendo una base teorica sistematica per la comunicazione persuasiva
Framework metodologico: Proposta di un framework di apprendimento per rinforzo che ottimizza direttamente l'impatto del discorso sulle risposte dei giocatori successivi
Verifica sperimentale: Validazione dell'efficacia e della generalizzabilità del metodo su tre diversi SDGs (Werewolf, Avalon, ONUW)
Contributi tecnici: Sviluppo di una pipeline di addestramento completa che combina i vantaggi degli LLM basati su API e degli LLM open-source

Spiegazione Dettagliata del Metodo

Definizione del Compito

Nei giochi di deduzione sociale, i giocatori devono influenzare il comportamento degli altri attraverso la comunicazione a turni per raggiungere le proprie condizioni di vittoria. Questo articolo modella ogni turno di conversazione come una competizione di Stackelberg:

Input: Regole del gioco R, stato attuale del gioco G_t, cronologia della conversazione D_t, ruolo del giocatore r_t
Output: Discorso persuasivo ottimizzato u_t
Obiettivo: Massimizzare l'influenza favorevole sulla risposta del giocatore successivo

Architettura del Modello

1. Identificazione dell'Intento (Intent Identification)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

Il sistema analizza la situazione attuale e identifica le risposte più desiderate e meno desiderate dal giocatore successivo.

2. Misurazione dell'Impatto (Impact Measurement)

Utilizzo di un'architettura a due stadi:

Backend LLM (basato su API): Genera il discorso di base
Refiner (LLM open-source): Ottimizza la persuasività del discorso

Progettazione della funzione di ricompensa:

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. Ottimizzazione della Strategia (Strategy Optimization)

Utilizzo di GRPO (Group Relative Policy Optimization) per ottimizzare il Refiner:

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

dove μ_n e σ_n sono la media e la deviazione standard delle ricompense all'interno del batch.

Punti di Innovazione Tecnica

Modellazione di Stackelberg: Prima formalizzazione della comunicazione a turni come gioco leader-seguace, catturando l'essenza della persuasione
Ottimizzazione a due stadi: Combinazione della capacità generativa degli LLM basati su API e dell'addestrabilità degli LLM open-source
Ottimizzazione diretta del discorso: Ottimizzazione nello spazio del linguaggio naturale piuttosto che nella selezione di azioni discrete
Calcolo del vantaggio relativo: Utilizzo di GRPO che evita la necessità di una funzione di valore esplicita

Configurazione Sperimentale

Dataset

Tipi di gioco: Werewolf (7 giocatori), Avalon (5 giocatori), ONUW (5 giocatori)
Dati di addestramento: 500 partite di auto-gioco per ogni gioco, 4000 istanze di turni selezionate casualmente
Diversità dei dati: Utilizzo di tre backend LLM diversi: GPT-4o, Gemini-2.5-Flash, Claude-3.5-Haiku

Metriche di Valutazione

Tasso di vittoria: Percentuale di vittoria per diversi ruoli e fazioni
Prestazione complessiva: Tasso di vittoria medio per tutti i ruoli

Metodi di Confronto

Werewolf: ReAct, ReCon, SLA, LSPO
Avalon: ReAct, ReCon, LASI, Strategist
ONUW: ReAct, Belief, LLM-ins., RL-ins.

Dettagli di Implementazione

Modello: Llama-3-8B-Instruct come Refiner e Measurer
Addestramento: Adattatore LoRA (rank=16), tasso di apprendimento 1×10⁻⁶, 3 epoch
Hardware: 4 GPU A800, circa 50 ore di tempo di addestramento
Iperparametri: n=8, ε=0.2, β=0.04

Risultati Sperimentali

Risultati Principali

Gioco	Metodo	Tasso Vittoria Villani	Tasso Vittoria Lupi	Tasso Vittoria Complessivo
Werewolf	LSPO	25.3%	73.2%	39.0%
	Nostro + LSPO	28.3%	83.6%	44.1%
Avalon	Strategist	77.9%	27.3%	57.7%
	Nostro + Strategist	77.9%	34.6%	60.6%
ONUW	RL-ins.	54.5%	47.6%	48.9%
	Nostro + RL-ins.	54.5%	50.0%	50.8%

Esperimenti di Ablazione

Sono stati condotti studi di ablazione su diverse varianti della funzione di ricompensa:

Solo Positivo: Massimizzazione solo della probabilità di risposta desiderata
Solo Negativo: Minimizzazione solo della probabilità di risposta indesiderata
Completo: Considerazione simultanea del feedback positivo e negativo

I risultati mostrano che il metodo completo supera significativamente le varianti a obiettivo singolo, provando la necessità dell'ottimizzazione bidirezionale.

Verifica della Generalizzabilità

Test su GPT-5 e Qwen3-14B senza addestramento aggiuntivo dimostrano miglioramenti coerenti delle prestazioni, confermando la capacità di generalizzazione cross-modello del metodo.

Analisi di Casi Studio

L'articolo fornisce tre studi di caso dettagliati:

Caso Werewolf: Il ruolo di Seer identifica con successo il Werewolf attraverso ragionamento abile e mobilitazione degli alleati
Caso Avalon: Minion ottiene il supporto del team attraverso ricostruzione logica e pressione sociale
Caso ONUW: Werewolf inganna con successo i villani attraverso ragionamento falso e distrazione dell'attenzione

Lavori Correlati

Ricerca su Agenti SDG

I lavori iniziali si basavano principalmente su sistemi basati su regole, mentre i recenti si orientano verso metodi guidati da LLM:

Metodi di ingegneria dei prompt: Recupero di informazioni e riflessione sull'esperienza di Xu et al. (2023)
Metodi di apprendimento per rinforzo: SLA, LSPO e altri che selezionano azioni predefinite tramite RL
Metodi di generazione di codice: Strategist attraverso generazione di codice e ricerca su albero

Apprendimento per Rinforzo di LLM

PPO/DPO: Ottimizzazione di LLM attraverso feedback umano
GRPO: Metodo di ottimizzazione relativa senza necessità di dati di preferenza espliciti

Modellazione della Teoria dei Giochi

Metodi tradizionali: Risoluzione dell'Equilibrio Bayesiano Perfetto
Applicazioni moderne: Successo di DeepRole, Cicero e altri in giochi specifici

Conclusioni e Discussione

Conclusioni Principali

La comunicazione persuasiva è un fattore chiave per il successo negli SDGs
La modellazione di Stackelberg fornisce un framework efficace per l'ottimizzazione della persuasività
L'ottimizzazione diretta del discorso è più efficace della selezione di azioni
Il metodo dimostra buona generalizzabilità cross-gioco e cross-modello

Limitazioni

Costo computazionale: Richiede molteplici propagazioni in avanti per il calcolo delle probabilità
Dipendenza: Richiede ancora il supporto di un potente LLM backend
Limitazioni di valutazione: L'utilizzo di un Measurer congelato potrebbe differire dagli avversari reali
Ambito dei giochi: Attualmente validato solo su tre tipi di SDGs

Direzioni Future

Estensione a più tipi di giochi sociali
Ricerca di strategie di persuasione a lungo termine piuttosto che ottimizzazione a singolo turno
Esplorazione della persuasione multimodale (voce, visione, ecc.)
Sviluppo di metodi di addestramento più efficienti

Valutazione Approfondita

Punti di Forza

Innovazione teorica: La modellazione di Stackelberg fornisce una nuova prospettiva teorica per l'IA persuasiva
Avanzamento tecnico: Combinazione abile dei vantaggi degli LLM basati su API e degli LLM open-source
Verifica sperimentale completa: Validazione completa con più giochi, metriche e ablazioni
Valore pratico: Può fungere da plugin universale per migliorare le prestazioni dei metodi esistenti

Insufficienze

Analisi teorica insufficiente: Mancanza di garanzie teoriche sulla convergenza della modellazione di Stackelberg
Distorsione di valutazione: L'utilizzo dello stesso modello come Measurer potrebbe introdurre distorsioni
Efficienza computazionale: Costi computazionali relativamente elevati per l'addestramento e l'inferenza
Impatto a lungo termine: Mancata considerazione degli effetti cumulativi della persuasione in più turni

Impatto

Contributo accademico: Apre nuove direzioni di ricerca nell'intelligenza sociale dell'IA
Applicazioni pratiche: Applicabile a negoziazione, educazione, servizio clienti e altri scenari che richiedono persuasione
Ispirazione metodologica: Fornisce nuovi approcci di modellazione per altri compiti di interazione multi-agente

Scenari Applicabili

Giochi sociali e intrattenimento online
Assistenti clienti intelligenti e sistemi di vendita
Tutoraggio educativo e interventi comportamentali
Sistemi di negoziazione e mediazione
Generazione di contenuti per social media

Bibliografia

Questo articolo cita importanti lavori da molteplici campi inclusi giochi di deduzione sociale, apprendimento per rinforzo e teoria dei giochi, in particolare:

Xu et al. (2024): Metodo SLA
Light et al. (2025): Metodo Strategist
Shao et al. (2024): Algoritmo GRPO
Bakhtin et al. (2022): Sistema Cicero

Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo dell'intelligenza sociale dell'IA. Attraverso la modellazione teorica innovativa e l'implementazione tecnica efficace, fornisce nuove direzioni di ricerca e metodi pratici per lo sviluppo di agenti IA con capacità persuasive.