2025-11-17T07:07:13.254790

Leading the Follower: Learning Persuasive Agents in Social Deduction Games

Zheng, Ye, Zhao et al.
Large language model (LLM) agents have shown remarkable progress in social deduction games (SDGs). However, existing approaches primarily focus on information processing and strategy selection, overlooking the significance of persuasive communication in influencing other players' beliefs and responses. In SDGs, success depends not only on making correct deductions but on convincing others to response in alignment with one's intent. To address this limitation, we formalize turn-based dialogue in SDGs as a Stackelberg competition, where the current player acts as the leader who strategically influences the follower's response. Building on this theoretical foundation, we propose a reinforcement learning framework that trains agents to optimize utterances for persuasive impact. Through comprehensive experiments across three diverse SDGs, we demonstrate that our agents significantly outperform baselines. This work represents a significant step toward developing AI agents capable of strategic social influence, with implications extending to scenarios requiring persuasive communication.
academic

অনুসরণকারীকে নেতৃত্ব দেওয়া: সামাজিক অনুমান খেলায় প্ররোচক এজেন্ট শেখা

মৌলিক তথ্য

  • পেপার আইডি: 2510.09087
  • শিরোনাম: Leading the Follower: Learning Persuasive Agents in Social Deduction Games
  • লেখক: Zheng Zhang, Deheng Ye, Peilin Zhao, Hao Wang
  • শ্রেণীবিভাগ: cs.AI
  • প্রকাশিত সম্মেলন: ICLR 2026
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.09087

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLM) এজেন্টগুলি সামাজিক অনুমান খেলায় (SDGs) উল্লেখযোগ্য অগ্রগতি প্রদর্শন করেছে। তবে, বিদ্যমান পদ্ধতিগুলি প্রধানত তথ্য প্রক্রিয়াকরণ এবং কৌশল নির্বাচনের উপর দৃষ্টি নিবদ্ধ করে, অন্যান্য খেলোয়াড়দের বিশ্বাস এবং প্রতিক্রিয়া প্রভাবিত করার ক্ষেত্রে প্ররোচক যোগাযোগের গুরুত্ব উপেক্ষা করে। SDGs-এ, সাফল্য শুধুমাত্র সঠিক যুক্তির উপর নয়, বরং অন্যদের নিজের অভিপ্রায় অনুযায়ী কাজ করতে প্ররোচিত করার উপর নির্ভর করে। এই সীমাবদ্ধতা সমাধানের জন্য, লেখকরা SDGs-এ পালাক্রমে কথোপকথনকে Stackelberg প্রতিযোগিতা হিসাবে আনুষ্ঠানিকীকরণ করেছেন, যেখানে বর্তমান খেলোয়াড় নেতা হিসাবে কৌশলগতভাবে অনুসরণকারীর প্রতিক্রিয়া প্রভাবিত করে। এই তাত্ত্বিক ভিত্তির উপর ভিত্তি করে, লেখকরা একটি শক্তিশালী শেখার কাঠামো প্রস্তাব করেছেন যা কথোপকথনের প্ররোচক প্রভাব অপ্টিমাইজ করতে এজেন্টদের প্রশিক্ষণ দেয়। তিনটি ভিন্ন SDGs-এ ব্যাপক পরীক্ষার মাধ্যমে, পদ্ধতিটি বেসলাইন পদ্ধতিগুলির চেয়ে উল্লেখযোগ্যভাবে উন্নত হয়েছে তা প্রমাণিত হয়েছে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিদ্যমান LLM এজেন্টগুলি সামাজিক অনুমান খেলায় প্রধানত নিম্নলিখিত সমস্যাগুলির মুখোমুখি হয়:

  1. প্ররোচক যোগাযোগ উপেক্ষা করা: বিদ্যমান পদ্ধতিগুলি প্রধানত তথ্য প্রক্রিয়াকরণ এবং কৌশল নির্বাচনের উপর দৃষ্টি নিবদ্ধ করে, প্ররোচনার বিবেচনা অনুপস্থিত
  2. প্রভাব মডেলিং অভাব: অন্যান্য খেলোয়াড়দের আচরণ ভাষার মাধ্যমে কীভাবে প্রভাবিত করতে হয় তা সিস্টেমেটিকভাবে মডেল করা হয় না
  3. স্থানীয় অপ্টিমাইজেশন অপর্যাপ্ত: পালাক্রমে কথোপকথনে প্রতিটি বক্তৃতার জন্য কৌশলগত অপ্টিমাইজেশনের অভাব

গবেষণার গুরুত্ব

সামাজিক অনুমান খেলাগুলি AI সামাজিক বুদ্ধিমত্তা অধ্যয়নের জন্য আদর্শ পরীক্ষা প্ল্যাটফর্ম কারণ:

  • অনিশ্চয়তা, প্রতারণা এবং কৌশলগত যোগাযোগ জড়িত
  • অন্যদের প্ররোচিত করার মাধ্যমে বিজয়ের শর্ত অর্জনের প্রয়োজন
  • বাস্তব-বিশ্বের মানব মিথস্ক্রিয়ার জটিলতা প্রতিফলিত করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. কৌশল নির্বাচন-ভিত্তিক: ReAct, ReCon ইত্যাদির মতো বিদ্যমান পদ্ধতিগুলি পূর্বনির্ধারিত কর্ম স্থান থেকে কৌশল নির্বাচনের উপর দৃষ্টি নিবদ্ধ করে
  2. প্ররোচনা অপ্টিমাইজেশনের অভাব: কথোপকথনের প্ররোচক প্রভাবের জন্য বিশেষভাবে অপ্টিমাইজ করা হয় না
  3. কথোপকথন গতিশীলতা উপেক্ষা: পালাক্রমে কথোপকথনের কৌশলগত সুযোগ সম্পূর্ণভাবে ব্যবহার করা হয় না

মূল অবদান

  1. তাত্ত্বিক উদ্ভাবন: SDGs-এ পালাক্রমে কথোপকথনকে Stackelberg প্রতিযোগিতা মডেল হিসাবে আনুষ্ঠানিকীকরণ করা, প্ররোচক যোগাযোগের জন্য একটি সিস্টেমেটিক তাত্ত্বিক ভিত্তি প্রদান করে
  2. পদ্ধতি কাঠামো: একটি শক্তিশালী শেখার কাঠামো প্রস্তাব করা যা সরাসরি পরবর্তী খেলোয়াড়ের প্রতিক্রিয়ার উপর কথোপকথনের প্রভাব অপ্টিমাইজ করে
  3. পরীক্ষামূলক যাচাইকরণ: তিনটি ভিন্ন SDGs (Werewolf, Avalon, ONUW)-এ পদ্ধতির কার্যকারিতা এবং সাধারণীকরণ যাচাই করা
  4. প্রযুক্তিগত অবদান: API-ভিত্তিক LLM এবং ওপেন-সোর্স LLM-এর সুবিধা একত্রিত করে একটি সম্পূর্ণ প্রশিক্ষণ পাইপলাইন বিকাশ করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

সামাজিক অনুমান খেলায়, খেলোয়াড়দের পালাক্রমে কথোপকথনের মাধ্যমে অন্যান্য খেলোয়াড়দের আচরণ প্রভাবিত করতে হবে এবং শেষ পর্যন্ত তাদের নিজ নিজ বিজয়ের শর্ত অর্জন করতে হবে। এই পেপারটি প্রতিটি পালাক্রমে কথোপকথনকে একটি Stackelberg প্রতিযোগিতা হিসাবে মডেল করে:

  • ইনপুট: গেম নিয়ম R, বর্তমান গেম অবস্থা G_t, কথোপকথন ইতিহাস D_t, খেলোয়াড় ভূমিকা r_t
  • আউটপুট: অপ্টিমাইজড প্ররোচক কথোপকথন u_t
  • লক্ষ্য: পরবর্তী খেলোয়াড়ের প্রতিক্রিয়ার উপর অনুকূল প্রভাব সর্বাধিক করা

মডেল আর্কিটেকচার

1. অভিপ্রায় সনাক্তকরণ (Intent Identification)

(û⁺_{t+1}, û⁻_{t+1}) = f_identify(R, G_t, D_t, r_t)

সিস্টেম বর্তমান পরিস্থিতি বিশ্লেষণ করে এবং পরবর্তী খেলোয়াড়ের কাছ থেকে সবচেয়ে বেশি এবং সবচেয়ে কম কাঙ্ক্ষিত প্রতিক্রিয়া সনাক্ত করে।

2. প্রভাব পরিমাপ (Impact Measurement)

দ্বি-পর্যায়ের আর্কিটেকচার ব্যবহার করা:

  • ব্যাকএন্ড LLM (API-ভিত্তিক): মৌলিক কথোপকথন উৎপন্ন করে
  • রিফাইনার (ওপেন-সোর্স LLM): কথোপকথনের প্ররোচক প্রভাব অপ্টিমাইজ করে

পুরস্কার ফাংশন ডিজাইন:

R(u_t^{(i)}) = log P_F(û⁺_{t+1}|context) - log P_F(û⁻_{t+1}|context)

3. কৌশল অপ্টিমাইজেশন (Strategy Optimization)

GRPO (গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন) ব্যবহার করে রিফাইনার অপ্টিমাইজ করা:

A^{(i)} = (R(u_t^{(i)}) - μ_n) / σ_n

যেখানে μ_n এবং σ_n হল ব্যাচ-মধ্যস্থ পুরস্কারের গড় এবং মান বিচ্যুতি।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. Stackelberg মডেলিং: পালাক্রমে কথোপকথনকে নেতা-অনুসরণকারী খেলা হিসাবে প্রথমবারের মতো মডেল করা, প্ররোচনার সারমর্ম ক্যাপচার করে
  2. দ্বি-পর্যায়ের অপ্টিমাইজেশন: API LLM-এর উৎপাদন ক্ষমতা এবং ওপেন-সোর্স LLM-এর প্রশিক্ষণযোগ্যতা একত্রিত করা
  3. সরাসরি কথোপকথন অপ্টিমাইজেশন: বিচ্ছিন্ন কর্ম নির্বাচনের পরিবর্তে প্রাকৃতিক ভাষা স্থানে সরাসরি অপ্টিমাইজ করা
  4. আপেক্ষিক সুবিধা গণনা: GRPO ব্যবহার করে স্পষ্ট মূল্য ফাংশনের প্রয়োজনীয়তা এড়ানো

পরীক্ষা সেটআপ

ডেটাসেট

  • গেম প্রকার: Werewolf (7-ব্যক্তি), Avalon (5-ব্যক্তি), ONUW (5-ব্যক্তি)
  • প্রশিক্ষণ ডেটা: প্রতিটি গেমের জন্য 500 স্ব-খেলা রেকর্ড, 4000 পালা উদাহরণ র্যান্ডমলি নির্বাচিত
  • ডেটা বৈচিত্র্য: GPT-4o, Gemini-2.5-Flash, Claude-3.5-Haiku তিনটি ব্যাকএন্ড LLM ব্যবহার করা

মূল্যায়ন মেট্রিক্স

  • জয়ের হার: বিভিন্ন ভূমিকা এবং দলের বিজয়ের শতাংশ
  • সামগ্রিক কর্মক্ষমতা: সমস্ত ভূমিকার গড় জয়ের হার

তুলনা পদ্ধতি

  • Werewolf: ReAct, ReCon, SLA, LSPO
  • Avalon: ReAct, ReCon, LASI, Strategist
  • ONUW: ReAct, Belief, LLM-ins., RL-ins.

বাস্তবায়ন বিবরণ

  • মডেল: Llama-3-8B-Instruct রিফাইনার এবং পরিমাপক হিসাবে
  • প্রশিক্ষণ: LoRA অ্যাডাপ্টার (rank=16), শেখার হার 1×10⁻⁶, 3 epoch
  • হার্ডওয়্যার: 4টি A800 GPU, প্রায় 50 ঘন্টা প্রশিক্ষণ সময়
  • হাইপারপ্যারামিটার: n=8, ε=0.2, β=0.04

পরীক্ষার ফলাফল

প্রধান ফলাফল

গেমপদ্ধতিগ্রামবাসী দল জয়ের হারনেকড় দল জয়ের হারসামগ্রিক জয়ের হার
WerewolfLSPO25.3%73.2%39.0%
আমাদের + LSPO28.3%83.6%44.1%
AvalonStrategist77.9%27.3%57.7%
আমাদের + Strategist77.9%34.6%60.6%
ONUWRL-ins.54.5%47.6%48.9%
আমাদের + RL-ins.54.5%50.0%50.8%

বিলোপন পরীক্ষা

পুরস্কার ফাংশনের বিভিন্ন রূপের জন্য বিলোপন গবেষণা পরিচালিত হয়েছে:

  1. শুধুমাত্র ইতিবাচক: শুধুমাত্র প্রত্যাশিত প্রতিক্রিয়া সম্ভাবনা সর্বাধিক করা
  2. শুধুমাত্র নেতিবাচক: শুধুমাত্র অপ্রত্যাশিত প্রতিক্রিয়া সম্ভাবনা ন্যূনতম করা
  3. সম্পূর্ণ: ইতিবাচক এবং নেতিবাচক প্রতিক্রিয়া উভয়ই বিবেচনা করা

ফলাফলগুলি দেখায় যে সম্পূর্ণ পদ্ধতি একক-উদ্দেশ্য রূপগুলির চেয়ে উল্লেখযোগ্যভাবে উন্নত, দ্বিমুখী অপ্টিমাইজেশনের প্রয়োজনীয়তা প্রমাণ করে।

সাধারণীকরণ যাচাইকরণ

GPT-5 এবং Qwen3-14B-তে পরীক্ষা করা হয়েছে, অতিরিক্ত প্রশিক্ষণ ছাড়াই সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি অর্জন করে, পদ্ধতির ক্রস-মডেল সাধারণীকরণ ক্ষমতা প্রমাণ করে।

কেস বিশ্লেষণ

পেপারটি তিনটি বিস্তারিত কেস স্টাডি প্রদান করে:

  • Werewolf কেস: Seer ভূমিকা চতুর যুক্তি এবং মিত্র সংগঠনের মাধ্যমে সফলভাবে Werewolf সনাক্ত করে
  • Avalon কেস: Minion যুক্তি পুনর্গঠন এবং সামাজিক চাপের মাধ্যমে দল সমর্থন অর্জন করে
  • ONUW কেস: Werewolf মিথ্যা যুক্তি এবং মনোযোগ স্থানান্তরের মাধ্যমে সফলভাবে গ্রামবাসীদের বিভ্রান্ত করে

সম্পর্কিত কাজ

SDG এজেন্ট গবেষণা

প্রাথমিক কাজগুলি প্রধানত নিয়ম-ভিত্তিক সিস্টেমের উপর ভিত্তি করে তৈরি, সাম্প্রতিক কাজগুলি LLM-চালিত পদ্ধতির দিকে রূপান্তরিত হয়েছে:

  • প্রম্পট ইঞ্জিনিয়ারিং পদ্ধতি: Xu et al. (2023)-এর তথ্য পুনরুদ্ধার এবং অভিজ্ঞতা প্রতিফলন
  • শক্তিশালী শেখার পদ্ধতি: SLA, LSPO ইত্যাদি পূর্বনির্ধারিত কর্ম নির্বাচনের মাধ্যমে RL
  • কোড উৎপাদন পদ্ধতি: Strategist কোড উৎপাদন এবং গাছ অনুসন্ধানের মাধ্যমে

LLM শক্তিশালী শেখা

  • PPO/DPO: মানব প্রতিক্রিয়ার মাধ্যমে LLM অপ্টিমাইজ করা
  • GRPO: স্পষ্ট পছন্দ ডেটা ছাড়াই আপেক্ষিক অপ্টিমাইজেশন পদ্ধতি

খেলা তত্ত্ব মডেলিং

  • ঐতিহ্যবাহী পদ্ধতি: Perfect Bayesian Equilibrium সমাধান
  • আধুনিক প্রয়োগ: DeepRole, Cicero ইত্যাদি নির্দিষ্ট খেলায় সাফল্য

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. প্ররোচক যোগাযোগ SDGs সাফল্যের মূল কারণ
  2. Stackelberg মডেলিং প্ররোচনা অপ্টিমাইজেশনের জন্য কার্যকর কাঠামো প্রদান করে
  3. সরাসরি কথোপকথন অপ্টিমাইজেশন কর্ম নির্বাচনের চেয়ে বেশি কার্যকর
  4. পদ্ধতি ভাল ক্রস-গেম এবং ক্রস-মডেল সাধারণীকরণ ক্ষমতা রাখে

সীমাবদ্ধতা

  1. গণনা ওভারহেড: সম্ভাবনা গণনার জন্য একাধিক ফরওয়ার্ড পাস প্রয়োজন
  2. নির্ভরতা: শক্তিশালী ব্যাকএন্ড LLM সমর্থনের প্রয়োজন
  3. মূল্যায়ন সীমাবদ্ধতা: হিমায়িত পরিমাপক ব্যবহার করা প্রকৃত প্রতিদ্বন্দ্বীদের সাথে পার্থক্য থাকতে পারে
  4. গেম পরিসীমা: বর্তমানে শুধুমাত্র তিনটি SDGs-এ যাচাই করা হয়েছে

ভবিষ্যত দিকনির্দেশনা

  1. আরও বেশি ধরনের সামাজিক খেলায় সম্প্রসারণ করা
  2. একক-পালা অপ্টিমাইজেশনের পরিবর্তে দীর্ঘমেয়াদী প্ররোচনা কৌশল গবেষণা করা
  3. বহু-মোডাল প্ররোচনা (কণ্ঠস্বর, দৃশ্য ইত্যাদি) অন্বেষণ করা
  4. আরও দক্ষ প্রশিক্ষণ পদ্ধতি বিকাশ করা

গভীর মূল্যায়ন

শক্তি

  1. তাত্ত্বিক উদ্ভাবন: Stackelberg মডেলিং প্ররোচক AI-এর জন্য নতুন তাত্ত্বিক দৃষ্টিভঙ্গি প্রদান করে
  2. প্রযুক্তি অগ্রগামী: API LLM এবং ওপেন-সোর্স LLM-এর সুবিধা চতুরভাবে একত্রিত করা
  3. পরীক্ষা ব্যাপক: মাল্টি-গেম, মাল্টি-মেট্রিক, মাল্টি-বিলোপন সম্পূর্ণ যাচাইকরণ
  4. ব্যবহারিক মূল্য: বিদ্যমান পদ্ধতির কর্মক্ষমতা উন্নত করার জন্য সর্বজনীন প্লাগইন হিসাবে কাজ করতে পারে

অপূর্ণতা

  1. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: Stackelberg মডেলিং সংগ্রহের তাত্ত্বিক গ্যারান্টির অভাব
  2. মূল্যায়ন পক্ষপাত: একই মডেল পরিমাপক হিসাবে ব্যবহার করা পক্ষপাত প্রবর্তন করতে পারে
  3. গণনা দক্ষতা: প্রশিক্ষণ এবং অনুমানের গণনা খরচ তুলনামূলকভাবে বেশি
  4. দীর্ঘমেয়াদী প্রভাব: বহু-পালা কথোপকথনের সংগৃহীত প্ররোচনা প্রভাব বিবেচনা করা হয় না

প্রভাব

  1. একাডেমিক অবদান: AI সামাজিক বুদ্ধিমত্তা গবেষণার জন্য নতুন দিক উন্মোচন করে
  2. ব্যবহারিক প্রয়োগ: আলোচনা, শিক্ষা, গ্রাহক সেবা ইত্যাদি প্ররোচনা প্রয়োজনীয় পরিস্থিতিতে প্রয়োগ করা যেতে পারে
  3. পদ্ধতি অনুপ্রেরণা: অন্যান্য বহু-এজেন্ট মিথস্ক্রিয়া কাজের জন্য নতুন মডেলিং চিন্তাভাবনা প্রদান করে

প্রযোজ্য পরিস্থিতি

  • সামাজিক খেলা এবং অনলাইন বিনোদন
  • বুদ্ধিমান গ্রাহক সেবা এবং বিক্রয় সহায়ক
  • শিক্ষা পরামর্শ এবং আচরণ হস্তক্ষেপ
  • আলোচনা এবং সমঝোতা সিস্টেম
  • সামাজিক মিডিয়া সামগ্রী উৎপাদন

সংদর্ভ

এই পেপারটি সামাজিক অনুমান খেলা, শক্তিশালী শেখা, খেলা তত্ত্ব ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, বিশেষত:

  • Xu et al. (2024): SLA পদ্ধতি
  • Light et al. (2025): Strategist পদ্ধতি
  • Shao et al. (2024): GRPO অ্যালগরিদম
  • Bakhtin et al. (2022): Cicero সিস্টেম

সামগ্রিক মূল্যায়ন: এটি AI সামাজিক বুদ্ধিমত্তা ক্ষেত্রে গুরুত্বপূর্ণ অবদান সহ একটি উচ্চ-মানের পেপার। উদ্ভাবনী তাত্ত্বিক মডেলিং এবং কার্যকর প্রযুক্তিগত বাস্তবায়নের মাধ্যমে, এটি প্ররোচক ক্ষমতা সহ AI এজেন্ট বিকাশের জন্য নতুন গবেষণা দিকনির্দেশনা এবং ব্যবহারিক পদ্ধতি প্রদান করে।