2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.
Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.
academic

Den Anhänger führen: Lernende überzeugende Agenten in sozialen Deduktionsspielen

Grundlegende Informationen

  • Papier-ID: 2510.09087
  • Titel: Leading the Follower: Learning Persuasive Agents in Social Deduction Games
  • Autoren: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
  • Klassifizierung: cs.AI
  • Veröffentlichungskonferenz: ICLR 2026
  • Papierlink: https://arxiv.org/abs/2510.09087

Zusammenfassung

Großsprachmodell(LLM)-Agenten haben in sozialen Deduktionsspielen (SDGs) bemerkenswerte Fortschritte gezeigt. Bestehende Methoden konzentrieren sich jedoch hauptsächlich auf Informationsverarbeitung und Strategieauswahl und vernachlässigen die Bedeutung überzeugender Kommunikation bei der Beeinflussung der Überzeugungen und Reaktionen anderer Spieler. In SDGs hängt der Erfolg nicht nur von korrektem Denken ab, sondern auch davon, andere zu überreden, nach den eigenen Absichten zu handeln. Um diese Einschränkung zu beheben, formalisieren die Autoren die rundenbasierte Dialogform in SDGs als Stackelberg-Wettbewerb, bei dem der aktuelle Spieler als Anführer die Reaktion des Anhängers strategisch beeinflusst. Auf dieser theoretischen Grundlage schlagen die Autoren ein Verstärkungslernframework vor, das Agenten trainiert, um die Überzeugungskraft von Äußerungen zu optimieren. Durch umfassende Experimente auf drei verschiedenen SDGs wird nachgewiesen, dass die Methode bestehende Basismethoden erheblich übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende LLM-Agenten in sozialen Deduktionsspielen haben hauptsächlich folgende Probleme:

  1. Vernachlässigung überzeugender Kommunikation: Bestehende Methoden konzentrieren sich hauptsächlich auf Informationsverarbeitung und Strategieauswahl, ohne Überzeugungskraft zu berücksichtigen
  2. Mangelnde Einflussmodellierung: Es gibt keine systematische Modellierung, wie man das Verhalten anderer Spieler durch Sprache beeinflusst
  3. Unzureichende lokale Optimierung: Mangel an strategischer Optimierung für jede Äußerung in rundenbasierten Dialogen

Forschungsbedeutung

Soziale Deduktionsspiele sind ideale Testplattformen für die Erforschung sozialer KI-Intelligenz, da sie:

  • Unsicherheit, Täuschung und strategische Kommunikation beinhalten
  • Sieg durch Überzeugung anderer erfordern
  • Die Komplexität echter zwischenmenschlicher Interaktionen widerspiegeln

Einschränkungen bestehender Methoden

  1. Strategieauswahl-orientiert: Bestehende Methoden wie ReAct, ReCon usw. konzentrieren sich hauptsächlich auf die Auswahl von Strategien aus vordefinierten Aktionsräumen
  2. Mangelnde Überzeugungsoptimierung: Keine spezialisierte Optimierung der Überzeugungswirkung von Äußerungen
  3. Vernachlässigung von Dialogdynamiken: Unzureichende Nutzung der strategischen Möglichkeiten rundenbasierter Dialoge

Kernbeiträge

  1. Theoretische Innovation: Formalisierung rundenbasierter Dialoge in SDGs als Stackelberg-Wettbewerbsmodell, das eine systematische theoretische Grundlage für überzeugende Kommunikation bietet
  2. Methodisches Framework: Vorschlag eines Verstärkungslernframeworks, das direkt die Auswirkung von Äußerungen auf nachfolgende Spielerreaktionen optimiert
  3. Experimentelle Validierung: Validierung der Methodeneffektivität und Generalisierbarkeit auf drei verschiedenen SDGs (Werewolf, Avalon, ONUW)
  4. Technische Beiträge: Entwicklung einer vollständigen Trainings-Pipeline, die die Vorteile von API-basierten LLMs und Open-Source-LLMs kombiniert

Methodische Details

Aufgabendefinition

In sozialen Deduktionsspielen müssen Spieler durch rundenbasierte Dialoge das Verhalten anderer Spieler beeinflussen, um letztendlich ihre jeweiligen Siegbedingungen zu erfüllen. Dieses Papier modelliert jeden Dialog als Stackelberg-Wettbewerb:

  • Eingabe: Spielregeln R, aktueller Spielzustand G_t, Dialogverlauf D_t, Spielerrolle r_t
  • Ausgabe: Optimierte überzeugende Äußerung u_t
  • Ziel: Maximierung der günstigen Beeinflussung der nächsten Spielerreaktion

Modellarchitektur

1. Absichtsidentifikation (Intent Identification)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

Das System analysiert die aktuelle Situation und identifiziert die gewünschten und unerwünschten Reaktionen des nächsten Spielers.

2. Einflussmessung (Impact Measurement)

Verwendung einer zweistufigen Architektur:

  • Backend LLM (API-basiert): Generiert grundlegende Äußerungen
  • Refiner (Open-Source-LLM): Optimiert die Überzeugungskraft der Äußerung

Belohnungsfunktionsdesign:

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. Strategieoptimierung (Strategy Optimization)

Verwendung von GRPO (Group Relative Policy Optimization) zur Optimierung des Refiners:

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

wobei μ_n und σ_n der Mittelwert und die Standardabweichung der Batch-Belohnungen sind.

Technische Innovationspunkte

  1. Stackelberg-Modellierung: Erstmalige Modellierung rundenbasierter Dialoge als Anführer-Anhänger-Spiel, das das Wesen der Überzeugung erfasst
  2. Zweistufige Optimierung: Kombination der Generierungsfähigkeiten von API-LLMs und der Trainierbarkeit von Open-Source-LLMs
  3. Direkte Äußerungsoptimierung: Optimierung im natürlichsprachlichen Raum statt diskrete Aktionsauswahl
  4. Relative Vorteilsberechnung: Verwendung von GRPO vermeidet die Notwendigkeit expliziter Wertfunktionen

Experimentelle Einrichtung

Datensätze

  • Spieltypen: Werewolf (7-Personen-Spiel), Avalon (5-Personen-Spiel), ONUW (5-Personen-Spiel)
  • Trainingsdaten: 500 Selbstspiel-Aufzeichnungen pro Spiel, zufällig ausgewählte 4000 Rundeninstanzen
  • Datendiversität: Verwendung von drei Backend-LLMs: GPT-4o, Gemini-2.5-Flash, Claude-3.5-Haiku

Bewertungsmetriken

  • Gewinnrate: Siegesprozentsatz verschiedener Rollen und Fraktionen
  • Gesamtleistung: Durchschnittliche Gewinnrate aller Rollen

Vergleichsmethoden

  • Werewolf: ReAct, ReCon, SLA, LSPO
  • Avalon: ReAct, ReCon, LASI, Strategist
  • ONUW: ReAct, Belief, LLM-ins., RL-ins.

Implementierungsdetails

  • Modell: Llama-3-8B-Instruct als Refiner und Measurer
  • Training: LoRA-Adapter (rank=16), Lernrate 1×10⁻⁶, 3 Epochen
  • Hardware: 4× A800 GPU, ca. 50 Stunden Trainingszeit
  • Hyperparameter: n=8, ε=0.2, β=0.04

Experimentelle Ergebnisse

Hauptergebnisse

SpielMethodeDorfbewohner-GewinnrateWerwolf-GewinnrateGesamtgewinnrate
WerewolfLSPO25,3%73,2%39,0%
Unsere + LSPO28,3%83,6%44,1%
AvalonStrategist77,9%27,3%57,7%
Unsere + Strategist77,9%34,6%60,6%
ONUWRL-ins.54,5%47,6%48,9%
Unsere + RL-ins.54,5%50,0%50,8%

Ablationsstudien

Ablationsstudien verschiedener Varianten der Belohnungsfunktion wurden durchgeführt:

  1. Nur Positiv: Maximierung nur der erwarteten Reaktionswahrscheinlichkeit
  2. Nur Negativ: Minimierung nur der unerwünschten Reaktionswahrscheinlichkeit
  3. Vollständig: Gleichzeitige Berücksichtigung positiver und negativer Rückmeldungen

Die Ergebnisse zeigen, dass die vollständige Methode einzelnen Zielansätzen deutlich überlegen ist und die Notwendigkeit bidirektionaler Optimierung beweist.

Generalisierungsvalidierung

Tests auf GPT-5 und Qwen3-14B ohne zusätzliches Training zeigen konsistente Leistungsverbesserungen und beweisen die modellübergreifende Generalisierungsfähigkeit der Methode.

Fallstudien

Das Papier bietet drei detaillierte Fallstudien:

  • Werewolf-Fall: Die Seer-Rolle identifiziert erfolgreich den Werwolf durch geschicktes Denken und Verbündetenanwerbung
  • Avalon-Fall: Der Minion erhält Teamunterstützung durch logische Umstrukturierung und sozialen Druck
  • ONUW-Fall: Der Werwolf täuscht erfolgreich Dorfbewohner durch falsche Argumentation und Aufmerksamkeitsumleitung

Verwandte Arbeiten

SDG-Agenten-Forschung

Frühe Arbeiten basierten hauptsächlich auf Regelsystemen, neuere konzentrieren sich auf LLM-gesteuerte Methoden:

  • Prompt-Engineering-Methoden: Xu et al. (2023) Informationsabruf und Erfahrungsreflexion
  • Verstärkungslernmethoden: SLA, LSPO usw. durch RL-Auswahl vordefinierter Aktionen
  • Code-Generierungsmethoden: Strategist durch Code-Generierung und Baumsuche

LLM-Verstärkungslernen

  • PPO/DPO: Optimierung von LLMs durch menschliches Feedback
  • GRPO: Relative Optimierungsmethode ohne explizite Präferenzdaten

Spieltheoretische Modellierung

  • Traditionelle Methoden: Perfect Bayesian Equilibrium-Lösung
  • Moderne Anwendungen: Erfolg von DeepRole, Cicero usw. in spezifischen Spielen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Überzeugende Kommunikation ist ein Schlüsselfaktor für den Erfolg in SDGs
  2. Stackelberg-Modellierung bietet ein effektives Framework zur Optimierung der Überzeugungskraft
  3. Direkte Äußerungsoptimierung ist effektiver als Aktionsauswahl
  4. Die Methode zeigt gute Generalisierbarkeit über Spiele und Modelle hinweg

Einschränkungen

  1. Rechenkomplexität: Erfordert mehrere Vorwärtsdurchläufe zur Wahrscheinlichkeitsberechnung
  2. Abhängigkeit: Benötigt weiterhin starke Backend-LLM-Unterstützung
  3. Bewertungsbeschränkungen: Verwendung eines eingefrorenen Measurers kann von tatsächlichen Gegnern abweichen
  4. Spielbereich: Derzeit nur auf drei SDGs validiert

Zukünftige Richtungen

  1. Erweiterung auf mehr Arten von Sozialspielen
  2. Untersuchung langfristiger Überzeugungsstrategien statt einzelner Rundenoptimierung
  3. Erkundung multimodaler Überzeugung (Sprache, visuell usw.)
  4. Entwicklung effizienterer Trainingsmethoden

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Stackelberg-Modellierung bietet neue theoretische Perspektive für überzeugende KI
  2. Technischer Fortschritt: Geschickte Kombination der Vorteile von API-LLMs und Open-Source-LLMs
  3. Umfassende Experimente: Vollständige Validierung über mehrere Spiele, Metriken und Ablationen
  4. Praktischer Wert: Kann als universelles Plug-in zur Verbesserung bestehender Methoden dienen

Mängel

  1. Unzureichende theoretische Analyse: Mangel an theoretischen Garantien für die Konvergenz der Stackelberg-Modellierung
  2. Bewertungsverzerrung: Verwendung desselben Modells als Measurer kann Verzerrungen einführen
  3. Rechnerische Effizienz: Höhere Rechen- und Inferenzkosten
  4. Langzeiteffekte: Berücksichtigung kumulativer Überzeugungseffekte über mehrere Runden nicht berücksichtigt

Auswirkungen

  1. Akademischer Beitrag: Eröffnet neue Forschungsrichtung für KI-Sozialintelligenz
  2. Praktische Anwendung: Anwendbar auf Verhandlungen, Bildung, Kundenservice und andere Szenarien, die Überzeugung erfordern
  3. Methodische Inspiration: Bietet neue Modellierungsideen für andere Multi-Agenten-Interaktionsaufgaben

Anwendungsszenarien

  • Soziale Spiele und Online-Unterhaltung
  • Intelligente Kundenservice- und Verkaufsassistenten
  • Bildungsberatung und Verhaltensinterventionen
  • Verhandlungs- und Verhandlungssysteme
  • Generierung von Social-Media-Inhalten

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten aus mehreren Bereichen wie sozialen Deduktionsspielen, Verstärkungslernen und Spieltheorie, insbesondere:

  • Xu et al. (2024): SLA-Methode
  • Light et al. (2025): Strategist-Methode
  • Shao et al. (2024): GRPO-Algorithmus
  • Bakhtin et al. (2022): Cicero-System

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen Beiträgen im Bereich der KI-Sozialintelligenz. Durch innovative theoretische Modellierung und effektive technische Umsetzung bietet es neue Forschungsrichtungen und praktische Methoden zur Entwicklung überzeugender KI-Agenten.