Leading the Follower: Learning Persuasive Agents in Social Deduction Games
Zheng, Ye, Zhao et al.
Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.
academic
قيادة المتابع: تعلم وكلاء مقنعين في ألعاب الخصم الاجتماعي
أظهرت وكلاء نماذج اللغة الكبيرة (LLM) تقدماً ملحوظاً في ألعاب الخصم الاجتماعي (SDGs). ومع ذلك، تركز الطرق الحالية بشكل أساسي على معالجة المعلومات واختيار الاستراتيجية، متجاهلة أهمية الاتصال المقنع في التأثير على معتقدات واستجابات اللاعبين الآخرين. في ألعاب الخصم الاجتماعي، لا يعتمد النجاح فقط على التفكير الصحيح، بل على إقناع الآخرين بالتصرف وفقاً لنواياك. لمعالجة هذا القيد، يصيغ المؤلفون صيغة الحوار بالتناوب في ألعاب الخصم الاجتماعي كمنافسة ستاكلبرج، حيث يؤثر اللاعب الحالي كقائد بشكل استراتيجي على استجابة المتابع. بناءً على هذا الأساس النظري، يقترح المؤلفون إطار عمل للتعلم المعزز لتدريب الوكلاء على تحسين التأثير الإقناعي للخطاب. من خلال تجارب شاملة على ثلاث ألعاب خصم اجتماعي مختلفة، تم إثبات أن الطريقة تتفوق بشكل كبير على الطرق الأساسية.
في ألعاب الخصم الاجتماعي، يحتاج اللاعبون إلى التأثير على سلوك اللاعبين الآخرين من خلال الحوار بالتناوب لتحقيق شروط الفوز الخاصة بهم. تصيغ هذه الورقة كل جولة حوار كمنافسة ستاكلبرج:
الإدخال: قواعد اللعبة R، حالة اللعبة الحالية G_t، سجل الحوار D_t، دور اللاعب r_t
الإخراج: خطاب إقناعي محسّن u_t
الهدف: تعظيم التأثير المفيد على استجابة اللاعب التالي
تستشهد هذه الورقة بأعمال مهمة من مجالات متعددة تشمل ألعاب الخصم الاجتماعي والتعلم المعزز ونظرية اللعبة، وخاصة:
Xu et al. (2024): طريقة SLA
Light et al. (2025): طريقة Strategist
Shao et al. (2024): خوارزمية GRPO
Bakhtin et al. (2022): نظام Cicero
التقييم الإجمالي: هذه ورقة عالية الجودة ذات مساهمات مهمة في مجال الذكاء الاجتماعي للذكاء الاصطناعي. من خلال النمذجة النظرية المبتكرة والتنفيذ التقني الفعال، توفر اتجاهاً بحثياً جديداً وطريقة عملية لتطوير وكلاء ذكاء اصطناعي يتمتعون بقدرات إقناعية.