2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.

Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.

academic

قيادة المتابع: تعلم وكلاء مقنعين في ألعاب الخصم الاجتماعي

المعلومات الأساسية

معرّف الورقة: 2510.09087
العنوان: قيادة المتابع: تعلم وكلاء مقنعين في ألعاب الخصم الاجتماعي
المؤلفون: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
التصنيف: cs.AI
المؤتمر المنشور: ICLR 2026
رابط الورقة: https://arxiv.org/abs/2510.09087

الملخص

أظهرت وكلاء نماذج اللغة الكبيرة (LLM) تقدماً ملحوظاً في ألعاب الخصم الاجتماعي (SDGs). ومع ذلك، تركز الطرق الحالية بشكل أساسي على معالجة المعلومات واختيار الاستراتيجية، متجاهلة أهمية الاتصال المقنع في التأثير على معتقدات واستجابات اللاعبين الآخرين. في ألعاب الخصم الاجتماعي، لا يعتمد النجاح فقط على التفكير الصحيح، بل على إقناع الآخرين بالتصرف وفقاً لنواياك. لمعالجة هذا القيد، يصيغ المؤلفون صيغة الحوار بالتناوب في ألعاب الخصم الاجتماعي كمنافسة ستاكلبرج، حيث يؤثر اللاعب الحالي كقائد بشكل استراتيجي على استجابة المتابع. بناءً على هذا الأساس النظري، يقترح المؤلفون إطار عمل للتعلم المعزز لتدريب الوكلاء على تحسين التأثير الإقناعي للخطاب. من خلال تجارب شاملة على ثلاث ألعاب خصم اجتماعي مختلفة، تم إثبات أن الطريقة تتفوق بشكل كبير على الطرق الأساسية.

السياق البحثي والدافع

تعريف المشكلة

تواجه وكلاء نماذج اللغة الكبيرة الحالية في ألعاب الخصم الاجتماعي المشاكل التالية:

تجاهل الاتصال المقنع: تركز الطرق الحالية بشكل أساسي على معالجة المعلومات واختيار الاستراتيجية، وتفتقر إلى الاعتبار للإقناع
نمذجة التأثير الناقصة: لا توجد نمذجة منهجية لكيفية التأثير على سلوك اللاعبين الآخرين من خلال اللغة
التحسين المحلي غير الكافي: نقص التحسين الاستراتيجي لكل بيان في الحوار بالتناوب

أهمية البحث

تعتبر ألعاب الخصم الاجتماعي منصة اختبار مثالية لدراسة الذكاء الاجتماعي للذكاء الاصطناعي لأنها:

تتضمن عدم اليقين والخداع والاتصال الاستراتيجي
تتطلب تحقيق شروط الفوز من خلال إقناع الآخرين
تعكس تعقيد التفاعلات الشخصية في العالم الحقيقي

قيود الطرق الموجودة

التوجه نحو اختيار الاستراتيجية: تركز الطرق الموجودة مثل ReAct و ReCon بشكل أساسي على اختيار الاستراتيجيات من فضاء الإجراءات المحددة مسبقاً
نقص تحسين الإقناع: لا توجد تحسينات متخصصة لتأثير الخطاب الإقناعي
تجاهل ديناميكيات الحوار: عدم الاستفادة الكاملة من الفرص الاستراتيجية في الحوار بالتناوب

المساهمات الأساسية

الابتكار النظري: صياغة الحوار بالتناوب في ألعاب الخصم الاجتماعي كنموذج منافسة ستاكلبرج، مما يوفر أساساً نظرياً منهجياً للاتصال المقنع
إطار العمل: اقتراح إطار عمل للتعلم المعزز يحسن بشكل مباشر تأثير الخطاب على استجابة اللاعبين اللاحقين
التحقق التجريبي: التحقق من فعالية الطريقة والقابلية للتعميم على ثلاث ألعاب خصم اجتماعي مختلفة (Werewolf و Avalon و ONUW)
المساهمة التقنية: تطوير خط أنابيب تدريب كامل يجمع بين مزايا نماذج اللغة الكبيرة المستندة إلى واجهات برمجية والنماذج مفتوحة المصدر

شرح الطريقة

تعريف المهمة

في ألعاب الخصم الاجتماعي، يحتاج اللاعبون إلى التأثير على سلوك اللاعبين الآخرين من خلال الحوار بالتناوب لتحقيق شروط الفوز الخاصة بهم. تصيغ هذه الورقة كل جولة حوار كمنافسة ستاكلبرج:

الإدخال: قواعد اللعبة R، حالة اللعبة الحالية G_t، سجل الحوار D_t، دور اللاعب r_t
الإخراج: خطاب إقناعي محسّن u_t
الهدف: تعظيم التأثير المفيد على استجابة اللاعب التالي

معمارية النموذج

1. تحديد النية (تحديد الهدف)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

يحلل النظام الموقف الحالي ويحدد الاستجابات المرغوبة وغير المرغوبة من اللاعب التالي.

2. قياس التأثير (Impact Measurement)

استخدام معمارية ثنائية المرحلة:

نموذج اللغة الخلفي (المستند إلى واجهة برمجية): إنشاء خطاب أساسي
المحسّن (نموذج مفتوح المصدر): تحسين الإقناع في الخطاب

تصميم دالة المكافأة:

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. تحسين الاستراتيجية (Strategy Optimization)

استخدام GRPO (تحسين السياسة النسبية للمجموعة):

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

حيث μ_n و σ_n هما المتوسط والانحراف المعياري للمكافآت داخل الدفعة.

نقاط الابتكار التقني

نمذجة ستاكلبرج: أول نمذجة للحوار بالتناوب كلعبة قائد-متابع، تلتقط جوهر الإقناع
التحسين ثنائي المرحلة: الجمع بين القدرة التوليدية لنموذج اللغة الكبيرة المستند إلى واجهة برمجية وقابلية تدريب نموذج مفتوح المصدر
تحسين الخطاب المباشر: التحسين المباشر في فضاء اللغة الطبيعية بدلاً من اختيار الإجراءات المنفصلة
حساب الميزة النسبية: استخدام GRPO يتجنب الحاجة إلى دالة قيمة صريحة

إعداد التجربة

مجموعات البيانات

أنواع الألعاب: Werewolf (7 لاعبين)، Avalon (5 لاعبين)، ONUW (5 لاعبين)
بيانات التدريب: 500 لعبة ذاتية التشغيل لكل لعبة، مع اختيار عشوائي لـ 4000 حالة جولة
تنوع البيانات: استخدام ثلاث نماذج لغة كبيرة خلفية: GPT-4o و Gemini-2.5-Flash و Claude-3.5-Haiku

مؤشرات التقييم

معدل الفوز: نسبة الفوز لأدوار وفصائل مختلفة
الأداء الإجمالي: متوسط معدل الفوز لجميع الأدوار

طرق المقارنة

Werewolf: ReAct و ReCon و SLA و LSPO
Avalon: ReAct و ReCon و LASI و Strategist
ONUW: ReAct و Belief و LLM-ins. و RL-ins.

تفاصيل التنفيذ

النموذج: Llama-3-8B-Instruct كمحسّن وقياس
التدريب: محول LoRA (rank=16)، معدل التعلم 1×10⁻⁶، 3 حقب
الأجهزة: 4 وحدات معالجة رسومات A800، وقت التدريب حوالي 50 ساعة
المعاملات الفائقة: n=8, ε=0.2, β=0.04

نتائج التجربة

النتائج الرئيسية

اللعبة	الطريقة	معدل فوز فريق القرويين	معدل فوز فريق الذئاب	معدل الفوز الإجمالي
Werewolf	LSPO	25.3%	73.2%	39.0%
	Ours + LSPO	28.3%	83.6%	44.1%
Avalon	Strategist	77.9%	27.3%	57.7%
	Ours + Strategist	77.9%	34.6%	60.6%
ONUW	RL-ins.	54.5%	47.6%	48.9%
	Ours + RL-ins.	54.5%	50.0%	50.8%

تجارب الاستئصال

تم إجراء دراسة استئصال على متغيرات دالة المكافأة المختلفة:

الإيجابي فقط: تعظيم احتمالية الاستجابة المتوقعة فقط
السلبي فقط: تقليل احتمالية الاستجابة غير المتوقعة فقط
الكامل: النظر في التغذية الراجعة الإيجابية والسلبية معاً

تظهر النتائج أن الطريقة الكاملة تتفوق بشكل كبير على متغيرات الهدف الفردي، مما يثبت ضرورة التحسين ثنائي الاتجاه.

التحقق من القابلية للتعميم

تم الاختبار على GPT-5 و Qwen3-14B دون تدريب إضافي، مما يحقق تحسينات أداء متسقة، مما يثبت القابلية للتعميم عبر النماذج.

تحليل الحالات

توفر الورقة ثلاث دراسات حالة مفصلة:

حالة Werewolf: نجح دور الرائي من خلال التفكير الماهر وتعبئة الحلفاء في تحديد الذئب
حالة Avalon: نجح دور المساعد من خلال إعادة البناء المنطقي والضغط الاجتماعي في الحصول على دعم الفريق
حالة ONUW: نجح دور الذئب من خلال التفكير الكاذب وتحويل الانتباه في تضليل القرويين

الأعمال ذات الصلة

بحث وكلاء ألعاب الخصم الاجتماعي

ركزت الأعمال المبكرة على الأنظمة القائمة على القواعد، وتحولت الأعمال الحديثة نحو الطرق المدفوعة بنماذج اللغة الكبيرة:

طرق هندسة الأوامر: استرجاع المعلومات والتأمل التجريبي من Xu et al. (2023)
طرق التعلم المعزز: SLA و LSPO وغيرها تختار الإجراءات المحددة مسبقاً من خلال التعلم المعزز
طرق توليد الأكواد: Strategist من خلال توليد الأكواد والبحث الشجري

التعلم المعزز لنماذج اللغة الكبيرة

PPO/DPO: تحسين نماذج اللغة الكبيرة من خلال التغذية الراجعة البشرية
GRPO: طريقة التحسين النسبي بدون الحاجة إلى بيانات التفضيل الصريحة

نمذجة نظرية اللعبة

الطرق التقليدية: حل التوازن البايزي المثالي
التطبيقات الحديثة: النجاح في ألعاب محددة مثل DeepRole و Cicero

الخلاصة والمناقشة

الاستنتاجات الرئيسية

الاتصال المقنع هو عامل حاسم للنجاح في ألعاب الخصم الاجتماعي
توفر نمذجة ستاكلبرج إطار عمل فعال لتحسين الإقناع
تحسين الخطاب المباشر أكثر فعالية من اختيار الإجراءات
تتمتع الطريقة بقابلية تعميم جيدة عبر الألعاب والنماذج

القيود

التكلفة الحسابية: تتطلب عمليات أمامية متعددة لحساب الاحتمالات
الاعتماد: لا تزال بحاجة إلى دعم نموذج لغة كبيرة قوي
قيود التقييم: قد يختلف استخدام قياس مجمد عن الخصوم الفعليين
نطاق اللعبة: تم التحقق حالياً فقط على ثلاث ألعاب خصم اجتماعي

الاتجاهات المستقبلية

التوسع إلى المزيد من أنواع الألعاب الاجتماعية
دراسة استراتيجيات الإقناع طويلة الأجل بدلاً من تحسين جولة واحدة
استكشاف الإقناع متعدد الأنماط (الصوت والرؤية وغيرها)
تطوير طرق تدريب أكثر كفاءة

التقييم المتعمق

المزايا

الابتكار النظري: توفر نمذجة ستاكلبرج منظوراً نظرياً جديداً للذكاء الاصطناعي المقنع
التقدم التقني: الجمع الماهر بين مزايا نموذج اللغة الكبيرة المستند إلى واجهة برمجية والنموذج مفتوح المصدر
التجارب الشاملة: التحقق الشامل متعدد الألعاب والمقاييس والاستئصال
القيمة العملية: يمكن أن تعمل كمكون إضافي لتحسين الطرق الموجودة

أوجه القصور

نقص التحليل النظري: نقص الضمانات النظرية لتقارب نمذجة ستاكلبرج
انحياز التقييم: قد يؤدي استخدام نفس النموذج كقياس إلى انحياز
الكفاءة الحسابية: تكلفة حسابية عالية للتدريب والاستدلال
التأثير طويل الأجل: عدم الأخذ في الاعتبار التأثير الإقناعي التراكمي للحوار متعدد الجولات

التأثير

المساهمة الأكاديمية: فتح اتجاه جديد لبحث الذكاء الاجتماعي للذكاء الاصطناعي
التطبيق العملي: يمكن تطبيقه على المفاوضات والتعليم وخدمة العملاء والسيناريوهات الأخرى التي تتطلب الإقناع
الإلهام المنهجي: توفير أفكار نمذجة جديدة لمهام التفاعل متعدد الوكلاء الأخرى

السيناريوهات المعمول بها

الألعاب الاجتماعية والترفيه عبر الإنترنت
خدمة العملاء الذكية ومساعدات المبيعات
التدريس الذكي والتدخل السلوكي
أنظمة التفاوض والمساومة
توليد محتوى وسائل التواصل الاجتماعي

المراجع

تستشهد هذه الورقة بأعمال مهمة من مجالات متعددة تشمل ألعاب الخصم الاجتماعي والتعلم المعزز ونظرية اللعبة، وخاصة:

Xu et al. (2024): طريقة SLA
Light et al. (2025): طريقة Strategist
Shao et al. (2024): خوارزمية GRPO
Bakhtin et al. (2022): نظام Cicero

التقييم الإجمالي: هذه ورقة عالية الجودة ذات مساهمات مهمة في مجال الذكاء الاجتماعي للذكاء الاصطناعي. من خلال النمذجة النظرية المبتكرة والتنفيذ التقني الفعال، توفر اتجاهاً بحثياً جديداً وطريقة عملية لتطوير وكلاء ذكاء اصطناعي يتمتعون بقدرات إقناعية.