2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.

Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.

academic

Den Anhänger führen: Lernende überzeugende Agenten in sozialen Deduktionsspielen

Grundlegende Informationen

Papier-ID: 2510.09087
Titel: Leading the Follower: Learning Persuasive Agents in Social Deduction Games
Autoren: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
Klassifizierung: cs.AI
Veröffentlichungskonferenz: ICLR 2026
Papierlink: https://arxiv.org/abs/2510.09087

Zusammenfassung

Großsprachmodell(LLM)-Agenten haben in sozialen Deduktionsspielen (SDGs) bemerkenswerte Fortschritte gezeigt. Bestehende Methoden konzentrieren sich jedoch hauptsächlich auf Informationsverarbeitung und Strategieauswahl und vernachlässigen die Bedeutung überzeugender Kommunikation bei der Beeinflussung der Überzeugungen und Reaktionen anderer Spieler. In SDGs hängt der Erfolg nicht nur von korrektem Denken ab, sondern auch davon, andere zu überreden, nach den eigenen Absichten zu handeln. Um diese Einschränkung zu beheben, formalisieren die Autoren die rundenbasierte Dialogform in SDGs als Stackelberg-Wettbewerb, bei dem der aktuelle Spieler als Anführer die Reaktion des Anhängers strategisch beeinflusst. Auf dieser theoretischen Grundlage schlagen die Autoren ein Verstärkungslernframework vor, das Agenten trainiert, um die Überzeugungskraft von Äußerungen zu optimieren. Durch umfassende Experimente auf drei verschiedenen SDGs wird nachgewiesen, dass die Methode bestehende Basismethoden erheblich übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende LLM-Agenten in sozialen Deduktionsspielen haben hauptsächlich folgende Probleme:

Vernachlässigung überzeugender Kommunikation: Bestehende Methoden konzentrieren sich hauptsächlich auf Informationsverarbeitung und Strategieauswahl, ohne Überzeugungskraft zu berücksichtigen
Mangelnde Einflussmodellierung: Es gibt keine systematische Modellierung, wie man das Verhalten anderer Spieler durch Sprache beeinflusst
Unzureichende lokale Optimierung: Mangel an strategischer Optimierung für jede Äußerung in rundenbasierten Dialogen

Forschungsbedeutung

Soziale Deduktionsspiele sind ideale Testplattformen für die Erforschung sozialer KI-Intelligenz, da sie:

Unsicherheit, Täuschung und strategische Kommunikation beinhalten
Sieg durch Überzeugung anderer erfordern
Die Komplexität echter zwischenmenschlicher Interaktionen widerspiegeln

Einschränkungen bestehender Methoden

Strategieauswahl-orientiert: Bestehende Methoden wie ReAct, ReCon usw. konzentrieren sich hauptsächlich auf die Auswahl von Strategien aus vordefinierten Aktionsräumen
Mangelnde Überzeugungsoptimierung: Keine spezialisierte Optimierung der Überzeugungswirkung von Äußerungen
Vernachlässigung von Dialogdynamiken: Unzureichende Nutzung der strategischen Möglichkeiten rundenbasierter Dialoge

Kernbeiträge

Theoretische Innovation: Formalisierung rundenbasierter Dialoge in SDGs als Stackelberg-Wettbewerbsmodell, das eine systematische theoretische Grundlage für überzeugende Kommunikation bietet
Methodisches Framework: Vorschlag eines Verstärkungslernframeworks, das direkt die Auswirkung von Äußerungen auf nachfolgende Spielerreaktionen optimiert
Experimentelle Validierung: Validierung der Methodeneffektivität und Generalisierbarkeit auf drei verschiedenen SDGs (Werewolf, Avalon, ONUW)
Technische Beiträge: Entwicklung einer vollständigen Trainings-Pipeline, die die Vorteile von API-basierten LLMs und Open-Source-LLMs kombiniert

Methodische Details

Aufgabendefinition

In sozialen Deduktionsspielen müssen Spieler durch rundenbasierte Dialoge das Verhalten anderer Spieler beeinflussen, um letztendlich ihre jeweiligen Siegbedingungen zu erfüllen. Dieses Papier modelliert jeden Dialog als Stackelberg-Wettbewerb:

Eingabe: Spielregeln R, aktueller Spielzustand G_t, Dialogverlauf D_t, Spielerrolle r_t
Ausgabe: Optimierte überzeugende Äußerung u_t
Ziel: Maximierung der günstigen Beeinflussung der nächsten Spielerreaktion

Modellarchitektur

1. Absichtsidentifikation (Intent Identification)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

Das System analysiert die aktuelle Situation und identifiziert die gewünschten und unerwünschten Reaktionen des nächsten Spielers.

2. Einflussmessung (Impact Measurement)

Verwendung einer zweistufigen Architektur:

Backend LLM (API-basiert): Generiert grundlegende Äußerungen
Refiner (Open-Source-LLM): Optimiert die Überzeugungskraft der Äußerung

Belohnungsfunktionsdesign:

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. Strategieoptimierung (Strategy Optimization)

Verwendung von GRPO (Group Relative Policy Optimization) zur Optimierung des Refiners:

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

wobei μ_n und σ_n der Mittelwert und die Standardabweichung der Batch-Belohnungen sind.

Technische Innovationspunkte

Stackelberg-Modellierung: Erstmalige Modellierung rundenbasierter Dialoge als Anführer-Anhänger-Spiel, das das Wesen der Überzeugung erfasst
Zweistufige Optimierung: Kombination der Generierungsfähigkeiten von API-LLMs und der Trainierbarkeit von Open-Source-LLMs
Direkte Äußerungsoptimierung: Optimierung im natürlichsprachlichen Raum statt diskrete Aktionsauswahl
Relative Vorteilsberechnung: Verwendung von GRPO vermeidet die Notwendigkeit expliziter Wertfunktionen

Experimentelle Einrichtung

Datensätze

Spieltypen: Werewolf (7-Personen-Spiel), Avalon (5-Personen-Spiel), ONUW (5-Personen-Spiel)
Trainingsdaten: 500 Selbstspiel-Aufzeichnungen pro Spiel, zufällig ausgewählte 4000 Rundeninstanzen
Datendiversität: Verwendung von drei Backend-LLMs: GPT-4o, Gemini-2.5-Flash, Claude-3.5-Haiku

Bewertungsmetriken

Gewinnrate: Siegesprozentsatz verschiedener Rollen und Fraktionen
Gesamtleistung: Durchschnittliche Gewinnrate aller Rollen

Vergleichsmethoden

Werewolf: ReAct, ReCon, SLA, LSPO
Avalon: ReAct, ReCon, LASI, Strategist
ONUW: ReAct, Belief, LLM-ins., RL-ins.

Implementierungsdetails

Modell: Llama-3-8B-Instruct als Refiner und Measurer
Training: LoRA-Adapter (rank=16), Lernrate 1×10⁻⁶, 3 Epochen
Hardware: 4× A800 GPU, ca. 50 Stunden Trainingszeit
Hyperparameter: n=8, ε=0.2, β=0.04

Experimentelle Ergebnisse

Hauptergebnisse

Spiel	Methode	Dorfbewohner-Gewinnrate	Werwolf-Gewinnrate	Gesamtgewinnrate
Werewolf	LSPO	25,3%	73,2%	39,0%
	Unsere + LSPO	28,3%	83,6%	44,1%
Avalon	Strategist	77,9%	27,3%	57,7%
	Unsere + Strategist	77,9%	34,6%	60,6%
ONUW	RL-ins.	54,5%	47,6%	48,9%
	Unsere + RL-ins.	54,5%	50,0%	50,8%

Ablationsstudien

Ablationsstudien verschiedener Varianten der Belohnungsfunktion wurden durchgeführt:

Nur Positiv: Maximierung nur der erwarteten Reaktionswahrscheinlichkeit
Nur Negativ: Minimierung nur der unerwünschten Reaktionswahrscheinlichkeit
Vollständig: Gleichzeitige Berücksichtigung positiver und negativer Rückmeldungen

Die Ergebnisse zeigen, dass die vollständige Methode einzelnen Zielansätzen deutlich überlegen ist und die Notwendigkeit bidirektionaler Optimierung beweist.

Generalisierungsvalidierung

Tests auf GPT-5 und Qwen3-14B ohne zusätzliches Training zeigen konsistente Leistungsverbesserungen und beweisen die modellübergreifende Generalisierungsfähigkeit der Methode.

Fallstudien

Das Papier bietet drei detaillierte Fallstudien:

Werewolf-Fall: Die Seer-Rolle identifiziert erfolgreich den Werwolf durch geschicktes Denken und Verbündetenanwerbung
Avalon-Fall: Der Minion erhält Teamunterstützung durch logische Umstrukturierung und sozialen Druck
ONUW-Fall: Der Werwolf täuscht erfolgreich Dorfbewohner durch falsche Argumentation und Aufmerksamkeitsumleitung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Überzeugende Kommunikation ist ein Schlüsselfaktor für den Erfolg in SDGs
Stackelberg-Modellierung bietet ein effektives Framework zur Optimierung der Überzeugungskraft
Direkte Äußerungsoptimierung ist effektiver als Aktionsauswahl
Die Methode zeigt gute Generalisierbarkeit über Spiele und Modelle hinweg

Einschränkungen

Rechenkomplexität: Erfordert mehrere Vorwärtsdurchläufe zur Wahrscheinlichkeitsberechnung
Abhängigkeit: Benötigt weiterhin starke Backend-LLM-Unterstützung
Bewertungsbeschränkungen: Verwendung eines eingefrorenen Measurers kann von tatsächlichen Gegnern abweichen
Spielbereich: Derzeit nur auf drei SDGs validiert

Zukünftige Richtungen

Erweiterung auf mehr Arten von Sozialspielen
Untersuchung langfristiger Überzeugungsstrategien statt einzelner Rundenoptimierung
Erkundung multimodaler Überzeugung (Sprache, visuell usw.)
Entwicklung effizienterer Trainingsmethoden

Tiefgreifende Bewertung

Stärken

Theoretische Innovation: Stackelberg-Modellierung bietet neue theoretische Perspektive für überzeugende KI
Technischer Fortschritt: Geschickte Kombination der Vorteile von API-LLMs und Open-Source-LLMs
Umfassende Experimente: Vollständige Validierung über mehrere Spiele, Metriken und Ablationen
Praktischer Wert: Kann als universelles Plug-in zur Verbesserung bestehender Methoden dienen

Mängel

Unzureichende theoretische Analyse: Mangel an theoretischen Garantien für die Konvergenz der Stackelberg-Modellierung
Bewertungsverzerrung: Verwendung desselben Modells als Measurer kann Verzerrungen einführen
Rechnerische Effizienz: Höhere Rechen- und Inferenzkosten
Langzeiteffekte: Berücksichtigung kumulativer Überzeugungseffekte über mehrere Runden nicht berücksichtigt

Auswirkungen

Akademischer Beitrag: Eröffnet neue Forschungsrichtung für KI-Sozialintelligenz
Praktische Anwendung: Anwendbar auf Verhandlungen, Bildung, Kundenservice und andere Szenarien, die Überzeugung erfordern
Methodische Inspiration: Bietet neue Modellierungsideen für andere Multi-Agenten-Interaktionsaufgaben

Anwendungsszenarien

Soziale Spiele und Online-Unterhaltung
Intelligente Kundenservice- und Verkaufsassistenten
Bildungsberatung und Verhaltensinterventionen
Verhandlungs- und Verhandlungssysteme
Generierung von Social-Media-Inhalten

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten aus mehreren Bereichen wie sozialen Deduktionsspielen, Verstärkungslernen und Spieltheorie, insbesondere:

Xu et al. (2024): SLA-Methode
Light et al. (2025): Strategist-Methode
Shao et al. (2024): GRPO-Algorithmus
Bakhtin et al. (2022): Cicero-System

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen Beiträgen im Bereich der KI-Sozialintelligenz. Durch innovative theoretische Modellierung und effektive technische Umsetzung bietet es neue Forschungsrichtungen und praktische Methoden zur Entwicklung überzeugender KI-Agenten.