Leading the Follower: Learning Persuasive Agents in Social Deduction Games
Zheng, Ye, Zhao et al.
Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.
academic
Den Anhänger führen: Lernende überzeugende Agenten in sozialen Deduktionsspielen
Großsprachmodell(LLM)-Agenten haben in sozialen Deduktionsspielen (SDGs) bemerkenswerte Fortschritte gezeigt. Bestehende Methoden konzentrieren sich jedoch hauptsächlich auf Informationsverarbeitung und Strategieauswahl und vernachlässigen die Bedeutung überzeugender Kommunikation bei der Beeinflussung der Überzeugungen und Reaktionen anderer Spieler. In SDGs hängt der Erfolg nicht nur von korrektem Denken ab, sondern auch davon, andere zu überreden, nach den eigenen Absichten zu handeln. Um diese Einschränkung zu beheben, formalisieren die Autoren die rundenbasierte Dialogform in SDGs als Stackelberg-Wettbewerb, bei dem der aktuelle Spieler als Anführer die Reaktion des Anhängers strategisch beeinflusst. Auf dieser theoretischen Grundlage schlagen die Autoren ein Verstärkungslernframework vor, das Agenten trainiert, um die Überzeugungskraft von Äußerungen zu optimieren. Durch umfassende Experimente auf drei verschiedenen SDGs wird nachgewiesen, dass die Methode bestehende Basismethoden erheblich übertrifft.
Bestehende LLM-Agenten in sozialen Deduktionsspielen haben hauptsächlich folgende Probleme:
Vernachlässigung überzeugender Kommunikation: Bestehende Methoden konzentrieren sich hauptsächlich auf Informationsverarbeitung und Strategieauswahl, ohne Überzeugungskraft zu berücksichtigen
Mangelnde Einflussmodellierung: Es gibt keine systematische Modellierung, wie man das Verhalten anderer Spieler durch Sprache beeinflusst
Unzureichende lokale Optimierung: Mangel an strategischer Optimierung für jede Äußerung in rundenbasierten Dialogen
Strategieauswahl-orientiert: Bestehende Methoden wie ReAct, ReCon usw. konzentrieren sich hauptsächlich auf die Auswahl von Strategien aus vordefinierten Aktionsräumen
Mangelnde Überzeugungsoptimierung: Keine spezialisierte Optimierung der Überzeugungswirkung von Äußerungen
Vernachlässigung von Dialogdynamiken: Unzureichende Nutzung der strategischen Möglichkeiten rundenbasierter Dialoge
Theoretische Innovation: Formalisierung rundenbasierter Dialoge in SDGs als Stackelberg-Wettbewerbsmodell, das eine systematische theoretische Grundlage für überzeugende Kommunikation bietet
Methodisches Framework: Vorschlag eines Verstärkungslernframeworks, das direkt die Auswirkung von Äußerungen auf nachfolgende Spielerreaktionen optimiert
Experimentelle Validierung: Validierung der Methodeneffektivität und Generalisierbarkeit auf drei verschiedenen SDGs (Werewolf, Avalon, ONUW)
Technische Beiträge: Entwicklung einer vollständigen Trainings-Pipeline, die die Vorteile von API-basierten LLMs und Open-Source-LLMs kombiniert
In sozialen Deduktionsspielen müssen Spieler durch rundenbasierte Dialoge das Verhalten anderer Spieler beeinflussen, um letztendlich ihre jeweiligen Siegbedingungen zu erfüllen. Dieses Papier modelliert jeden Dialog als Stackelberg-Wettbewerb:
Ablationsstudien verschiedener Varianten der Belohnungsfunktion wurden durchgeführt:
Nur Positiv: Maximierung nur der erwarteten Reaktionswahrscheinlichkeit
Nur Negativ: Minimierung nur der unerwünschten Reaktionswahrscheinlichkeit
Vollständig: Gleichzeitige Berücksichtigung positiver und negativer Rückmeldungen
Die Ergebnisse zeigen, dass die vollständige Methode einzelnen Zielansätzen deutlich überlegen ist und die Notwendigkeit bidirektionaler Optimierung beweist.
Tests auf GPT-5 und Qwen3-14B ohne zusätzliches Training zeigen konsistente Leistungsverbesserungen und beweisen die modellübergreifende Generalisierungsfähigkeit der Methode.
Dieses Papier zitiert wichtige Arbeiten aus mehreren Bereichen wie sozialen Deduktionsspielen, Verstärkungslernen und Spieltheorie, insbesondere:
Xu et al. (2024): SLA-Methode
Light et al. (2025): Strategist-Methode
Shao et al. (2024): GRPO-Algorithmus
Bakhtin et al. (2022): Cicero-System
Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen Beiträgen im Bereich der KI-Sozialintelligenz. Durch innovative theoretische Modellierung und effektive technische Umsetzung bietet es neue Forschungsrichtungen und praktische Methoden zur Entwicklung überzeugender KI-Agenten.