Benefits and Limitations of Communication in Multi-Agent Reasoning
Rizvi-Martel, Bhattamishra, Rathi et al.
Chain-of-thought prompting has popularized step-by-step reasoning in large language models, yet model performance still degrades as problem complexity and context length grow. By decomposing difficult tasks with long contexts into shorter, manageable ones, recent multi-agent paradigms offer a promising near-term solution to this problem. However, the fundamental capacities of such systems are poorly understood. In this work, we propose a theoretical framework to analyze the expressivity of multi-agent systems. We apply our framework to three algorithmic families: state tracking, recall, and $k$-hop reasoning. We derive bounds on (i) the number of agents required to solve the task exactly, (ii) the quantity and structure of inter-agent communication, and (iii) the achievable speedups as problem size and context scale. Our results identify regimes where communication is provably beneficial, delineate tradeoffs between agent count and bandwidth, and expose intrinsic limitations when either resource is constrained. We complement our theoretical analysis with a set of experiments on pretrained LLMs using controlled synthetic benchmarks. Empirical outcomes confirm the tradeoffs between key quantities predicted by our theory. Collectively, our analysis offers principled guidance for designing scalable multi-agent reasoning systems.
academic
الفوائد والقيود في التواصل في التفكير متعدد الوكلاء
على الرغم من أن تقنية Chain-of-thought prompting روّجت للتفكير التدريجي في نماذج اللغة الكبيرة، إلا أن أداء النموذج تتدهور مع نمو تعقيد المشكلة وطول السياق. من خلال تقسيم المهام الصعبة ذات السياق الطويل إلى مهام فرعية أقصر وأكثر قابلية للإدارة، توفر نماذج متعددة الوكلاء الحديثة حلاً واعداً قريب الأجل لهذه المشكلة. ومع ذلك، لم يتم فهم القدرات الأساسية لمثل هذه الأنظمة بشكل كافٍ. تقدم هذه الورقة إطار عمل نظري لتحليل القدرة التعبيرية للأنظمة متعددة الوكلاء. يطبق المؤلفون هذا الإطار على ثلاث عائلات خوارزمية: تتبع الحالة والاستدعاء والتفكير k-hop. تشتق الدراسة حدوداً فيما يتعلق بـ: (i) عدد الوكلاء المطلوبين لحل المهمة بدقة، (ii) كمية وهيكل التواصل بين الوكلاء، (iii) التسريع الذي يمكن تحقيقه مع توسع حجم المشكلة والسياق. تحدد النتائج الآليات التي يكون التواصل فيها مفيداً بشكل قابل للإثبات، وترسم المقايضات بين عدد الوكلاء وعرض النطاق الترددي، وتكشف القيود الجوهرية عند تقييد أي من الموارد.
المشكلة الأساسية التي تسعى هذه الدراسة لحلها هي: هل توجد مهام يكون فيها التواصل وتخصيص الموارد الديناميكية مفيدة بشكل قابل للإثبات على المستوى الخوارزمي في أنظمة التفكير متعددة الوكلاء؟
القيود الحالية: على الرغم من أن تقنية Chain-of-Thought (CoT) أصبحت المعيار الفعلي للتعامل مع مشاكل التفكير المعقدة، إلا أن قدرة نماذج التفكير الكبيرة (LRMs) على التفكير تتدهور مع زيادة تعقيد مثيل المشكلة أو نمو طول السياق
الاحتياجات العملية: تحقق طرق التعاون متعددة الوكلاء أداءً أقوى من خلال تقسيم المهام المعقدة إلى مشاكل أبسط، لكن أساسها النظري يفتقر إلى فهم عميق
الفجوة النظرية: بينما تمت دراسة القدرة التعبيرية للمحولات مع تقنية CoT بعمق، إلا أن القليل يُعرف عن القيود الأساسية والمقايضات في التواصل وتخصيص الموارد في أنظمة التفكير متعددة الوكلاء
يركز المؤلفون على أنظمة متعددة الوكلاء قائمة على المحول، حيث يتم تقسيم الإدخال بحجم N بالتساوي بين w وكيل، وهذا تجريد لعديد من الإعدادات، بما في ذلك تلخيص السياق الطويل وRAG متعدد الوكلاء والوكلاء القائمة على المتصفح وخطوط أنابيب map-reduce وحالات تطبيق عملية أخرى.
إطار عمل نظري: تقديم صيغة رسمية لأنظمة التفكير متعددة الوكلاء بناءً على الأدبيات الغنية لقدرة المحول التعبيرية
حدود خوارزمية: اشتقاق حدود لعدد الوكلاء ومتطلبات التواصل لثلاث عائلات مهام خوارزمية مختلفة (الاستدعاء وتتبع الحالة والتفكير k-hop)، مع تسليط الضوء على المقايضات بين هذه الموارد
التحقق التجريبي: توفير التحقق التجريبي من الرؤى النظرية من خلال تنفيذ بروتوكولات التواصل المثلى المعطاة من النظرية، مما يدل على أن الأداء من حيث الدقة والتواصل واستخدام الرموز تتطابق بشكل وثيق مع التنبؤات النظرية
تحديد ثلاث آليات: الكشف عن ثلاث آليات مختلفة لمهام متعددة الوكلاء، كل منها يتم تجسيده من خلال مثيلات مهام طبيعية ذات صلة واسعة
يفترض المؤلفون محولات الانتباه الصعب الفريد (UHAT) ذات القناع السببي (فقط فك التشفير)، وهو تجريد شهير حيث تركز رؤوس الانتباه على المواضع التي تزيد درجات الانتباه:
Wei, J. et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Zhang, Y. et al. (2024b). Chain of agents: Large language models collaborating on long-context tasks. NeurIPS.
Merrill, W. & Sabharwal, A. (2023). The expressive power of transformers with chain of thought. arXiv preprint.
Amiri, A. et al. (2025). Lower bounds for chain-of-thought reasoning in hard-attention transformers. ICML.
التقييم الإجمالي: هذه ورقة عالية الجودة تجمع بين النظرية والتجريب، وتوفر أساساً نظرياً مهماً لأنظمة التفكير متعددة الوكلاء. على الرغم من وجود مجال للتحسن من حيث تغطية المهام والتطبيقات العملية، إلا أن تحليلها النظري الصارم وإرشاداتها العملية الواضحة تجعلها مساهمة مهمة في هذا المجال.