2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.
Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.
academic

Diriger le Suiveur : Apprentissage d'Agents Persuasifs dans les Jeux de Déduction Sociale

Informations Fondamentales

  • ID de l'article : 2510.09087
  • Titre : Leading the Follower: Learning Persuasive Agents in Social Deduction Games
  • Auteurs : Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
  • Classification : cs.AI
  • Conférence de publication : ICLR 2026
  • Lien de l'article : https://arxiv.org/abs/2510.09087

Résumé

Les agents basés sur les grands modèles de langage (LLM) ont démontré des progrès significatifs dans les jeux de déduction sociale (SDGs). Cependant, les méthodes existantes se concentrent principalement sur le traitement de l'information et la sélection de stratégies, en négligeant l'importance de la communication persuasive dans l'influence des croyances et des réactions des autres joueurs. Dans les SDGs, le succès dépend non seulement du raisonnement correct, mais aussi de la capacité à persuader les autres d'agir selon ses intentions. Pour résoudre cette limitation, les auteurs formalisent la structure de dialogue alterné dans les SDGs comme une compétition de Stackelberg, où le joueur actuel agit en tant que leader influençant stratégiquement les réactions du suiveur. Sur cette base théorique, les auteurs proposent un cadre d'apprentissage par renforcement entraînant les agents à optimiser l'impact persuasif du discours. Grâce à des expériences complètes sur trois SDGs différents, la méthode démontre une supériorité significative par rapport aux méthodes de base.

Contexte de Recherche et Motivation

Définition du Problème

Les agents LLM existants dans les jeux de raisonnement social présentent les problèmes suivants :

  1. Négligence de la communication persuasive : Les méthodes existantes se concentrent principalement sur le traitement de l'information et la sélection de stratégies, sans considération pour la persuasion
  2. Absence de modélisation de l'influence : Pas de modélisation systématique de la manière d'influencer le comportement des autres joueurs par le langage
  3. Optimisation locale insuffisante : Absence d'optimisation stratégique pour chaque tour de parole dans le dialogue alterné

Importance de la Recherche

Les jeux de déduction sociale constituent une plateforme de test idéale pour l'étude de l'intelligence sociale de l'IA, car :

  • Ils impliquent l'incertitude, la tromperie et la communication stratégique
  • Ils nécessitent de persuader les autres pour atteindre les conditions de victoire
  • Ils reflètent la complexité des interactions interpersonnelles du monde réel

Limitations des Méthodes Existantes

  1. Orientation vers la sélection de stratégies : Les méthodes existantes comme ReAct, ReCon, etc. se concentrent principalement sur la sélection de stratégies à partir d'espaces d'actions prédéfinis
  2. Absence d'optimisation persuasive : Pas d'optimisation spécifique de l'effet persuasif du discours
  3. Négligence de la dynamique dialogale : Utilisation insuffisante des opportunités stratégiques du dialogue alterné

Contributions Principales

  1. Innovation théorique : Formalisation de la structure de dialogue alterné dans les SDGs comme modèle de compétition de Stackelberg, fournissant une base théorique systématique pour la communication persuasive
  2. Cadre méthodologique : Proposition d'un cadre d'apprentissage par renforcement optimisant directement l'impact du discours sur les réactions des joueurs suivants
  3. Validation expérimentale : Vérification de l'efficacité et de la généralisation de la méthode sur trois SDGs différents (Werewolf, Avalon, ONUW)
  4. Contribution technique : Développement d'un pipeline d'entraînement complet combinant les avantages des LLM basés sur API et des LLM open-source

Détails de la Méthode

Définition de la Tâche

Dans les jeux de raisonnement social, les joueurs doivent influencer le comportement des autres par le dialogue alterné pour atteindre leurs conditions de victoire respectives. Cet article modélise chaque tour de dialogue comme une compétition de Stackelberg :

  • Entrées : Règles du jeu R, état du jeu actuel G_t, historique du dialogue D_t, rôle du joueur r_t
  • Sorties : Discours persuasif optimisé u_t
  • Objectif : Maximiser l'influence favorable sur la réaction du joueur suivant

Architecture du Modèle

1. Identification d'Intention (Intent Identification)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

Le système analyse la situation actuelle et identifie les réactions les plus souhaitées et les moins souhaitées du joueur suivant.

2. Mesure d'Impact (Impact Measurement)

Utilisation d'une architecture à deux étapes :

  • LLM Backend (basé sur API) : Génération du discours de base
  • Refiner (LLM open-source) : Optimisation de la persuasivité du discours

Conception de la fonction de récompense :

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. Optimisation de Stratégie (Strategy Optimization)

Utilisation de GRPO (Group Relative Policy Optimization) pour optimiser le Refiner :

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

où μ_n et σ_n sont respectivement la moyenne et l'écart-type des récompenses au sein du lot.

Points d'Innovation Technique

  1. Modélisation de Stackelberg : Première formalisation du dialogue alterné comme jeu leader-suiveur, capturant l'essence de la persuasion
  2. Optimisation à deux étapes : Combinaison des capacités de génération des LLM API et de l'entraînabilité des LLM open-source
  3. Optimisation directe du discours : Optimisation dans l'espace du langage naturel plutôt que sélection d'actions discrètes
  4. Calcul d'avantage relatif : Utilisation de GRPO évitant le besoin d'une fonction de valeur explicite

Configuration Expérimentale

Ensemble de Données

  • Types de jeux : Werewolf (7 joueurs), Avalon (5 joueurs), ONUW (5 joueurs)
  • Données d'entraînement : 500 enregistrements d'auto-jeu par jeu, 4000 instances de tours sélectionnées aléatoirement
  • Diversité des données : Utilisation de trois LLM backend : GPT-4o, Gemini-2.5-Flash, Claude-3.5-Haiku

Métriques d'Évaluation

  • Taux de victoire : Pourcentage de victoires pour différents rôles et factions
  • Performance globale : Taux de victoire moyen pour tous les rôles

Méthodes de Comparaison

  • Werewolf : ReAct, ReCon, SLA, LSPO
  • Avalon : ReAct, ReCon, LASI, Strategist
  • ONUW : ReAct, Belief, LLM-ins., RL-ins.

Détails d'Implémentation

  • Modèle : Llama-3-8B-Instruct comme Refiner et Measurer
  • Entraînement : Adaptateurs LoRA (rank=16), taux d'apprentissage 1×10⁻⁶, 3 epochs
  • Matériel : 4 GPU A800, environ 50 heures de temps d'entraînement
  • Hyperparamètres : n=8, ε=0.2, β=0.04

Résultats Expérimentaux

Résultats Principaux

JeuMéthodeTaux de Victoire VillageoisTaux de Victoire Loup-garouTaux de Victoire Global
WerewolfLSPO25,3%73,2%39,0%
Nôtre + LSPO28,3%83,6%44,1%
AvalonStrategist77,9%27,3%57,7%
Nôtre + Strategist77,9%34,6%60,6%
ONUWRL-ins.54,5%47,6%48,9%
Nôtre + RL-ins.54,5%50,0%50,8%

Études d'Ablation

Études d'ablation menées sur différentes variantes de la fonction de récompense :

  1. Positive-Only : Maximisation uniquement de la probabilité de réaction souhaitée
  2. Negative-Only : Minimisation uniquement de la probabilité de réaction non souhaitée
  3. Complete : Considération simultanée des retours positifs et négatifs

Les résultats montrent que la méthode complète surpasse significativement les variantes à objectif unique, prouvant la nécessité de l'optimisation bidirectionnelle.

Vérification de Généralisation

Tests sur GPT-5 et Qwen3-14B sans entraînement supplémentaire montrent des améliorations de performance cohérentes, démontrant la capacité de généralisation inter-modèles de la méthode.

Analyse de Cas

L'article fournit trois études de cas détaillées :

  • Cas Werewolf : Le rôle de Voyant identifie avec succès le Loup-garou grâce à un raisonnement astucieux et à la mobilisation d'alliés
  • Cas Avalon : Le Serviteur du Mal obtient le soutien de l'équipe par la reconstruction logique et la pression sociale
  • Cas ONUW : Le Loup-garou trompe avec succès les villageois par le faux raisonnement et la redirection d'attention

Travaux Connexes

Recherche sur les Agents SDG

Les premiers travaux s'appuyaient principalement sur des systèmes basés sur des règles, les travaux récents se tournant vers des méthodes pilotées par LLM :

  • Méthodes d'ingénierie des invites : Récupération d'informations et réflexion expérientielle de Xu et al. (2023)
  • Méthodes d'apprentissage par renforcement : SLA, LSPO, etc. sélectionnant des actions prédéfinies via RL
  • Méthodes de génération de code : Strategist via génération de code et recherche en arbre

Apprentissage par Renforcement des LLM

  • PPO/DPO : Optimisation des LLM par retours humains
  • GRPO : Méthode d'optimisation relative sans données de préférence explicites

Modélisation Théorique des Jeux

  • Méthodes traditionnelles : Résolution d'équilibre bayésien parfait
  • Applications modernes : Succès de DeepRole, Cicero, etc. dans des jeux spécifiques

Conclusion et Discussion

Conclusions Principales

  1. La communication persuasive est un facteur clé du succès dans les SDGs
  2. La modélisation de Stackelberg fournit un cadre efficace pour optimiser la persuasion
  3. L'optimisation directe du discours est plus efficace que la sélection d'actions
  4. La méthode démontre une bonne généralisation inter-jeux et inter-modèles

Limitations

  1. Surcharge de calcul : Nécessite plusieurs passages avant pour calculer les probabilités
  2. Dépendance : Dépend toujours du soutien d'un LLM backend puissant
  3. Limitations d'évaluation : L'utilisation d'un Measurer gelé peut différer des adversaires réels
  4. Portée des jeux : Actuellement validée uniquement sur trois SDGs

Directions Futures

  1. Extension à d'autres types de jeux sociaux
  2. Étude de stratégies de persuasion à long terme plutôt qu'optimisation mono-tour
  3. Exploration de la persuasion multimodale (voix, visuel, etc.)
  4. Développement de méthodes d'entraînement plus efficaces

Évaluation Approfondie

Points Forts

  1. Innovation théorique : La modélisation de Stackelberg offre une nouvelle perspective théorique pour l'IA persuasive
  2. Technique avancée : Combinaison astucieuse des avantages des LLM API et des LLM open-source
  3. Expérimentation complète : Vérification complète multi-jeux, multi-métriques et multi-ablations
  4. Valeur pratique : Peut servir de plugin universel améliorant les méthodes existantes

Insuffisances

  1. Analyse théorique insuffisante : Absence de garanties théoriques sur la convergence de la modélisation de Stackelberg
  2. Biais d'évaluation : L'utilisation du même modèle comme Measurer peut introduire des biais
  3. Efficacité de calcul : Coûts de calcul élevés pour l'entraînement et l'inférence
  4. Impact à long terme : Absence de considération pour les effets cumulatifs de persuasion sur plusieurs tours

Impact

  1. Contribution académique : Ouvre une nouvelle direction pour la recherche en intelligence sociale de l'IA
  2. Applications pratiques : Applicable à la négociation, l'éducation, le service client et autres scénarios nécessitant la persuasion
  3. Inspiration méthodologique : Fournit une nouvelle approche de modélisation pour d'autres tâches d'interaction multi-agents

Scénarios d'Application

  • Jeux sociaux et divertissement en ligne
  • Assistants clients intelligents et systèmes de vente
  • Tutorat éducatif et intervention comportementale
  • Systèmes de négociation et de médiation
  • Génération de contenu pour les médias sociaux

Références

Cet article cite des travaux importants dans plusieurs domaines : jeux de déduction sociale, apprentissage par renforcement, théorie des jeux, notamment :

  • Xu et al. (2024) : Méthode SLA
  • Light et al. (2025) : Méthode Strategist
  • Shao et al. (2024) : Algorithme GRPO
  • Bakhtin et al. (2022) : Système Cicero

Évaluation Globale : Cet article est une contribution de haute qualité et d'importance significative dans le domaine de l'intelligence sociale de l'IA. Grâce à une modélisation théorique innovante et une implémentation technique efficace, il fournit une nouvelle direction de recherche et une méthode pratique pour le développement d'agents IA dotés de capacités de persuasion.