2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.
Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.
academic

अनुयायी को नेतृत्व देना: सामाजिक निगमन खेलों में प्रेरक एजेंटों का सीखना

मूल जानकारी

  • पेपर ID: 2510.09087
  • शीर्षक: Leading the Follower: Learning Persuasive Agents in Social Deduction Games
  • लेखक: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
  • वर्गीकरण: cs.AI
  • प्रकाशन सम्मेलन: ICLR 2026
  • पेपर लिंक: https://arxiv.org/abs/2510.09087

सारांश

बड़े भाषा मॉडल (LLM) एजेंट सामाजिक निगमन खेलों (SDGs) में उल्लेखनीय प्रगति प्रदर्शित कर रहे हैं। हालांकि, मौजूदा तरीके मुख्य रूप से सूचना प्रसंस्करण और रणनीति चयन पर ध्यान केंद्रित करते हैं, जो अन्य खिलाड़ियों के विश्वास और प्रतिक्रियाओं को प्रभावित करने में प्रेरक संचार के महत्व को नजरअंदाज करते हैं। SDGs में, सफलता न केवल सही तर्क पर निर्भर करती है, बल्कि दूसरों को अपने इरादे के अनुसार कार्य करने के लिए प्रेरित करने पर भी निर्भर करती है। इस सीमा को दूर करने के लिए, लेखकों ने SDGs में बारी-बारी से संवाद को Stackelberg प्रतियोगिता के रूप में औपचारिक रूप दिया है, जहां वर्तमान खिलाड़ी नेता के रूप में कार्य करता है और रणनीतिक रूप से अनुयायी की प्रतिक्रिया को प्रभावित करता है। इस सैद्धांतिक आधार पर, लेखकों ने एक सुदृढ़ीकरण सीखने की रूपरेखा प्रस्तावित की है जो कथन के प्रेरक प्रभाव को अनुकूलित करने के लिए एजेंटों को प्रशिक्षित करती है। तीन विभिन्न SDGs पर व्यापक प्रयोगों के माध्यम से, यह दर्शाया गया है कि यह विधि आधारभूत तरीकों से काफी बेहतर है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा LLM एजेंटों में सामाजिक तर्क खेलों में मुख्य रूप से निम्नलिखित समस्याएं हैं:

  1. प्रेरक संचार को नजरअंदाज करना: मौजूदा तरीके मुख्य रूप से सूचना प्रसंस्करण और रणनीति चयन पर ध्यान केंद्रित करते हैं, प्रेरण पर विचार की कमी है
  2. प्रभाव मॉडलिंग की कमी: अन्य खिलाड़ियों के व्यवहार को भाषा के माध्यम से प्रभावित करने का कोई व्यवस्थित तरीका नहीं है
  3. अपर्याप्त स्थानीय अनुकूलन: बारी-बारी से संवाद में प्रत्येक मोड़ के लिए रणनीतिक अनुकूलन की कमी है

अनुसंधान का महत्व

सामाजिक तर्क खेल AI सामाजिक बुद्धिमत्ता का अध्ययन करने के लिए आदर्श परीक्षण मंच हैं, क्योंकि:

  • अनिश्चितता, धोखाधड़ी और रणनीतिक संचार शामिल हैं
  • दूसरों को प्रेरित करके जीत की शर्तें पूरी करने की आवश्यकता है
  • वास्तविक दुनिया के व्यक्तिगत इंटरैक्शन की जटिलता को प्रतिबिंबित करता है

मौजूदा तरीकों की सीमाएं

  1. रणनीति चयन-उन्मुख: ReAct, ReCon जैसे मौजूदा तरीके मुख्य रूप से पूर्वनिर्धारित कार्य स्थान से रणनीति चुनने पर ध्यान केंद्रित करते हैं
  2. प्रेरण अनुकूलन की कमी: कथन के प्रेरक प्रभाव के लिए कोई विशेष अनुकूलन नहीं है
  3. संवाद गतिशीलता को नजरअंदाज करना: बारी-बारी से संवाद के रणनीतिक अवसरों का पूर्ण उपयोग नहीं किया जाता है

मुख्य योगदान

  1. सैद्धांतिक नवाचार: SDGs में बारी-बारी से संवाद को Stackelberg प्रतियोगिता मॉडल के रूप में औपचारिक रूप दिया, जो प्रेरक संचार के लिए एक व्यवस्थित सैद्धांतिक आधार प्रदान करता है
  2. विधि रूपरेखा: एक सुदृढ़ीकरण सीखने की रूपरेखा प्रस्तावित की जो सीधे बाद के खिलाड़ी की प्रतिक्रिया पर कथन के प्रभाव को अनुकूलित करती है
  3. प्रायोगिक सत्यापन: तीन विभिन्न SDGs (Werewolf, Avalon, ONUW) पर विधि की प्रभावशीलता और सामान्यीकरण क्षमता का सत्यापन किया
  4. तकनीकी योगदान: API-आधारित LLM और ओपन-सोर्स LLM के लाभों को जोड़ने वाली एक संपूर्ण प्रशिक्षण पाइपलाइन विकसित की

विधि विस्तार

कार्य परिभाषा

सामाजिक तर्क खेलों में, खिलाड़ियों को बारी-बारी से संवाद के माध्यम से अन्य खिलाड़ियों के व्यवहार को प्रभावित करने की आवश्यकता है, अंत में अपनी जीत की शर्तें पूरी करने के लिए। यह पेपर प्रत्येक संवाद मोड़ को Stackelberg प्रतियोगिता के रूप में मॉडल करता है:

  • इनपुट: खेल नियम R, वर्तमान खेल स्थिति G_t, संवाद इतिहास D_t, खिलाड़ी भूमिका r_t
  • आउटपुट: अनुकूलित प्रेरक कथन u_t
  • उद्देश्य: अगले खिलाड़ी की प्रतिक्रिया पर अनुकूल प्रभाव को अधिकतम करना

मॉडल आर्किटेक्चर

1. इरादा पहचान (Intent Identification)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

सिस्टम वर्तमान स्थिति का विश्लेषण करता है, अगले खिलाड़ी से सबसे अधिक और कम से कम वांछित प्रतिक्रिया की पहचान करता है।

2. प्रभाव माप (Impact Measurement)

दोहरे-चरण आर्किटेक्चर का उपयोग:

  • Backend LLM (API-आधारित): मूल कथन उत्पन्न करता है
  • Refiner (ओपन-सोर्स LLM): कथन की प्रेरक क्षमता को अनुकूलित करता है

पुरस्कार फ़ंक्शन डिज़ाइन:

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. रणनीति अनुकूलन (Strategy Optimization)

GRPO (Group Relative Policy Optimization) का उपयोग करके Refiner को अनुकूलित करता है:

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

जहां μ_n और σ_n बैच के भीतर पुरस्कार का माध्य और मानक विचलन हैं।

तकनीकी नवाचार बिंदु

  1. Stackelberg मॉडलिंग: पहली बार बारी-बारी से संवाद को नेता-अनुयायी खेल के रूप में मॉडल किया, प्रेरण के सार को पकड़ता है
  2. दोहरे-चरण अनुकूलन: API LLM की पीढ़ी क्षमता और ओपन-सोर्स LLM की प्रशिक्षण क्षमता को जोड़ता है
  3. सीधे कथन अनुकूलन: असतत कार्य चयन के बजाय प्राकृतिक भाषा स्थान में सीधे अनुकूलन करता है
  4. सापेक्ष लाभ गणना: GRPO का उपयोग करके स्पष्ट मूल्य फ़ंक्शन की आवश्यकता से बचता है

प्रायोगिक सेटअप

डेटासेट

  • खेल प्रकार: Werewolf (7-व्यक्ति), Avalon (5-व्यक्ति), ONUW (5-व्यक्ति)
  • प्रशिक्षण डेटा: प्रत्येक खेल के 500 स्व-खेल रिकॉर्ड, 4000 मोड़ उदाहरण यादृच्छिक रूप से चुने गए
  • डेटा विविधता: GPT-4o, Gemini-2.5-Flash, Claude-3.5-Haiku तीन बैकएंड LLM का उपयोग

मूल्यांकन मेट्रिक्स

  • जीत दर: विभिन्न भूमिकाओं और गठबंधनों की जीत का प्रतिशत
  • समग्र प्रदर्शन: सभी भूमिकाओं की औसत जीत दर

तुलना विधियां

  • Werewolf: ReAct, ReCon, SLA, LSPO
  • Avalon: ReAct, ReCon, LASI, Strategist
  • ONUW: ReAct, Belief, LLM-ins., RL-ins.

कार्यान्वयन विवरण

  • मॉडल: Llama-3-8B-Instruct Refiner और Measurer के रूप में
  • प्रशिक्षण: LoRA एडाप्टर (rank=16), सीखने की दर 1×10⁻⁶, 3 epochs
  • हार्डवेयर: 4 A800 GPU, लगभग 50 घंटे प्रशिक्षण समय
  • हाइपरपैरामीटर: n=8, ε=0.2, β=0.04

प्रायोगिक परिणाम

मुख्य परिणाम

खेलविधिगांववासी दल जीत दरभेड़िया दल जीत दरकुल जीत दर
WerewolfLSPO25.3%73.2%39.0%
हमारी + LSPO28.3%83.6%44.1%
AvalonStrategist77.9%27.3%57.7%
हमारी + Strategist77.9%34.6%60.6%
ONUWRL-ins.54.5%47.6%48.9%
हमारी + RL-ins.54.5%50.0%50.8%

विलोपन प्रयोग

पुरस्कार फ़ंक्शन के विभिन्न वेरिएंट पर विलोपन अध्ययन किया गया:

  1. केवल सकारात्मक: केवल अपेक्षित प्रतिक्रिया संभावना को अधिकतम करता है
  2. केवल नकारात्मक: केवल अनपेक्षित प्रतिक्रिया संभावना को कम करता है
  3. संपूर्ण: सकारात्मक और नकारात्मक प्रतिक्रिया दोनों पर विचार करता है

परिणाम दर्शाते हैं कि संपूर्ण विधि एकल-उद्देश्य वेरिएंट से काफी बेहतर है, जो द्विदिशीय अनुकूलन की आवश्यकता को साबित करता है।

सामान्यीकरण सत्यापन

GPT-5 और Qwen3-14B पर परीक्षण किया गया, बिना अतिरिक्त प्रशिक्षण के सुसंगत प्रदर्शन सुधार प्राप्त किया, जो विधि की क्रॉस-मॉडल सामान्यीकरण क्षमता को साबित करता है।

केस विश्लेषण

पेपर तीन विस्तृत केस अध्ययन प्रदान करता है:

  • Werewolf केस: Seer भूमिका चतुर तर्क और सहयोगी जुटाने के माध्यम से Werewolf की सफलतापूर्वक पहचान करती है
  • Avalon केस: Minion तार्किक पुनर्निर्माण और सामाजिक दबाव के माध्यम से टीम समर्थन प्राप्त करता है
  • ONUW केस: Werewolf झूठी तर्क और ध्यान विचलन के माध्यम से गांववासियों को सफलतापूर्वक गुमराह करता है

संबंधित कार्य

SDG एजेंट अनुसंधान

प्रारंभिक कार्य मुख्य रूप से नियम-आधारित प्रणालियों पर आधारित था, हाल ही में LLM-संचालित तरीकों की ओर रुख किया:

  • प्रेरणा इंजीनियरिंग विधियां: Xu et al. (2023) की सूचना पुनः प्राप्ति और अनुभव प्रतिबिंब
  • सुदृढ़ीकरण सीखने की विधियां: SLA, LSPO आदि पूर्वनिर्धारित कार्यों को चुनने के लिए RL के माध्यम से
  • कोड पीढ़ी विधियां: Strategist कोड पीढ़ी और वृक्ष खोज के माध्यम से

LLM सुदृढ़ीकरण सीखना

  • PPO/DPO: मानव प्रतिक्रिया के माध्यम से LLM को अनुकूलित करता है
  • GRPO: स्पष्ट वरीयता डेटा के बिना सापेक्ष अनुकूलन विधि

खेल सिद्धांत मॉडलिंग

  • पारंपरिक विधियां: Perfect Bayesian Equilibrium समाधान
  • आधुनिक अनुप्रयोग: DeepRole, Cicero आदि विशिष्ट खेलों में सफलता

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रेरक संचार SDGs में सफलता का मुख्य कारक है
  2. Stackelberg मॉडलिंग प्रेरण अनुकूलन के लिए प्रभावी रूपरेखा प्रदान करता है
  3. सीधे कथन अनुकूलन कार्य चयन से अधिक प्रभावी है
  4. विधि में अच्छी क्रॉस-गेम और क्रॉस-मॉडल सामान्यीकरण क्षमता है

सीमाएं

  1. कम्प्यूटेशनल ओवरहेड: संभावना गणना के लिए कई फॉरवर्ड पास की आवश्यकता है
  2. निर्भरता: अभी भी शक्तिशाली बैकएंड LLM समर्थन की आवश्यकता है
  3. मूल्यांकन सीमाएं: फ्रोजन Measurer का उपयोग वास्तविक प्रतिद्वंद्वियों से भिन्न हो सकता है
  4. खेल रेंज: वर्तमान में केवल तीन SDGs पर सत्यापित

भविष्य की दिशाएं

  1. अधिक प्रकार के सामाजिक खेलों तक विस्तार करना
  2. एकल-मोड़ अनुकूलन के बजाय दीर्घकालीन प्रेरण रणनीति का अनुसंधान करना
  3. बहु-मोडल प्रेरण (वाणी, दृश्य आदि) की खोज करना
  4. अधिक कुशल प्रशिक्षण विधियां विकसित करना

गहन मूल्यांकन

लाभ

  1. सैद्धांतिक नवाचार: Stackelberg मॉडलिंग प्रेरक AI के लिए नया सैद्धांतिक दृष्टिकोण प्रदान करता है
  2. तकनीकी उन्नति: API LLM और ओपन-सोर्स LLM के लाभों को चतुराई से जोड़ता है
  3. पर्याप्त प्रयोग: बहु-खेल, बहु-मेट्रिक, बहु-विलोपन का व्यापक सत्यापन
  4. व्यावहारिक मूल्य: मौजूदा विधियों के प्रदर्शन को बढ़ाने के लिए सार्वभौमिक प्लगइन के रूप में कार्य कर सकता है

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: Stackelberg मॉडलिंग अभिसरण के लिए सैद्धांतिक गारंटी की कमी है
  2. मूल्यांकन पूर्वाग्रह: समान मॉडल को Measurer के रूप में उपयोग करने से पूर्वाग्रह हो सकता है
  3. कम्प्यूटेशनल दक्षता: प्रशिक्षण और अनुमान की कम्प्यूटेशनल लागत अधिक है
  4. दीर्घकालीन प्रभाव: बहु-मोड़ संवाद के संचयी प्रेरण प्रभाव पर विचार नहीं किया गया है

प्रभाव

  1. शैक्षणिक योगदान: AI सामाजिक बुद्धिमत्ता अनुसंधान के लिए नई दिशा खोलता है
  2. व्यावहारिक अनुप्रयोग: वार्ता, शिक्षा, ग्राहक सेवा आदि प्रेरण की आवश्यकता वाले परिदृश्यों में लागू किया जा सकता है
  3. विधि प्रेरणा: अन्य बहु-एजेंट इंटरैक्शन कार्यों के लिए नया मॉडलिंग दृष्टिकोण प्रदान करता है

लागू परिदृश्य

  • सामाजिक खेल और ऑनलाइन मनोरंजन
  • बुद्धिमान ग्राहक सेवा और बिक्री सहायक
  • शिक्षा प्रशिक्षण और व्यवहार हस्तक्षेप
  • वार्ता और समझौता प्रणाली
  • सामाजिक मीडिया सामग्री पीढ़ी

संदर्भ

यह पेपर सामाजिक तर्क खेल, सुदृढ़ीकरण सीखना, खेल सिद्धांत आदि कई क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, विशेष रूप से:

  • Xu et al. (2024): SLA विधि
  • Light et al. (2025): Strategist विधि
  • Shao et al. (2024): GRPO एल्गोरिथ्म
  • Bakhtin et al. (2022): Cicero प्रणाली

समग्र मूल्यांकन: यह AI सामाजिक बुद्धिमत्ता क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च-गुणवत्ता वाला पेपर है। नवीन सैद्धांतिक मॉडलिंग और प्रभावी तकनीकी कार्यान्वयन के माध्यम से, यह प्रेरक क्षमता वाले AI एजेंटों के विकास के लिए नई अनुसंधान दिशा और व्यावहारिक विधि प्रदान करता है।