2025-11-20T09:37:15.420376

Benefits and Limitations of Communication in Multi-Agent Reasoning

Rizvi-Martel, Bhattamishra, Rathi et al.

Chain-of-thought prompting has popularized step-by-step reasoning in large language models, yet model performance still degrades as problem complexity and context length grow. By decomposing difficult tasks with long contexts into shorter, manageable ones, recent multi-agent paradigms offer a promising near-term solution to this problem. However, the fundamental capacities of such systems are poorly understood. In this work, we propose a theoretical framework to analyze the expressivity of multi-agent systems. We apply our framework to three algorithmic families: state tracking, recall, and $k$-hop reasoning. We derive bounds on (i) the number of agents required to solve the task exactly, (ii) the quantity and structure of inter-agent communication, and (iii) the achievable speedups as problem size and context scale. Our results identify regimes where communication is provably beneficial, delineate tradeoffs between agent count and bandwidth, and expose intrinsic limitations when either resource is constrained. We complement our theoretical analysis with a set of experiments on pretrained LLMs using controlled synthetic benchmarks. Empirical outcomes confirm the tradeoffs between key quantities predicted by our theory. Collectively, our analysis offers principled guidance for designing scalable multi-agent reasoning systems.

academic

बहु-एजेंट तर्क में संचार के लाभ और सीमाएं

मूल जानकारी

पेपर ID: 2510.13903
शीर्षक: बहु-एजेंट तर्क में संचार के लाभ और सीमाएं
लेखक: माइकल रिज़वी-मार्टेल, सत्विक भट्टामिश्रा, नील राठी, गिलौम रैबुसॉ, माइकल हान
वर्गीकरण: cs.MA cs.AI cs.LG
प्रकाशन तिथि: 14 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13903

सारांश

Chain-of-thought प्रॉम्पटिंग ने बड़े भाषा मॉडल में चरणबद्ध तर्क को बढ़ावा दिया है, लेकिन समस्या की जटिलता और संदर्भ लंबाई बढ़ने के साथ मॉडल का प्रदर्शन गिरता है। लंबे संदर्भ वाले कठिन कार्यों को छोटे, अधिक प्रबंधनीय उप-कार्यों में विभाजित करके, हाल के बहु-एजेंट प्रतिमान इस समस्या के लिए एक आशाजनक समाधान प्रदान करते हैं। हालांकि, ऐसी प्रणालियों की मौलिक क्षमताओं को पूरी तरह से समझा नहीं गया है। यह पेपर बहु-एजेंट प्रणालियों की अभिव्यक्ति क्षमता का विश्लेषण करने के लिए एक सैद्धांतिक ढांचा प्रस्तावित करता है। लेखकों ने इस ढांचे को तीन एल्गोरिथ्मिक परिवारों पर लागू किया: स्थिति ट्रैकिंग, स्मरण और k-hop तर्क। अनुसंधान निम्नलिखित पहलुओं के लिए सीमाएं प्राप्त करता है: (i) कार्य को सटीक रूप से हल करने के लिए आवश्यक एजेंटों की संख्या, (ii) एजेंटों के बीच संचार की मात्रा और संरचना, (iii) समस्या के आकार और संदर्भ विस्तार के साथ प्राप्त करने योग्य गति। परिणाम संचार के लाभकारी होने के तंत्र की पहचान करते हैं, एजेंटों की संख्या और बैंडविड्थ के बीच व्यापार-बंद को चित्रित करते हैं, और जब कोई भी संसाधन सीमित हो तो अंतर्निहित सीमाएं उजागर करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या है: क्या बहु-एजेंट तर्क प्रणालियों में संचार और गतिशील संसाधन आवंटन के लिए ऐसे कार्य हैं जहां सिद्ध लाभ एल्गोरिथ्मिक स्तर पर मौजूद हैं?

अनुसंधान का महत्व

मौजूदा सीमाएं: हालांकि Chain-of-Thought (CoT) प्रॉम्पटिंग जटिल तर्क समस्याओं को संभालने के लिए वास्तविक मानक बन गई है, लेकिन बड़े तर्क मॉडल (LRMs) की तर्क क्षमता समस्या उदाहरण की जटिलता बढ़ने या संदर्भ लंबाई बढ़ने के साथ गिरती है
व्यावहारिक आवश्यकता: बहु-एजेंट सहयोग विधियां जटिल कार्यों को सरल समस्याओं में विभाजित करके मजबूत प्रदर्शन प्राप्त करती हैं, लेकिन इसके सैद्धांतिक आधार को गहराई से समझा नहीं गया है
सैद्धांतिक अंतराल: हालांकि CoT प्रॉम्पटिंग के साथ Transformer की अभिव्यक्ति क्षमता का गहराई से अध्ययन किया गया है, लेकिन बहु-एजेंट तर्क योजनाओं में संचार और संसाधन आवंटन की मौलिक सीमाओं और व्यापार-बंद के बारे में बहुत कम जानकारी है

अनुसंधान प्रेरणा

लेखक Transformer-आधारित बहु-एजेंट प्रणालियों पर ध्यान केंद्रित करते हैं, जो w एजेंटों के बीच आकार N के इनपुट को समान रूप से विभाजित करते हैं, यह कई सेटिंग्स का एक अमूर्तन है, जिसमें लंबे संदर्भ सारांश, बहु-एजेंट RAG, ब्राउज़र-जैसे एजेंट और map-reduce पाइपलाइन जैसे व्यावहारिक अनुप्रयोग परिदृश्य शामिल हैं।

मुख्य योगदान

सैद्धांतिक ढांचा: Transformer अभिव्यक्ति क्षमता के समृद्ध साहित्य के आधार पर बहु-एजेंट तर्क प्रणालियों का औपचारिकीकरण प्रस्तावित करता है
एल्गोरिथ्मिक सीमाएं: तीन अलग-अलग एल्गोरिथ्मिक कार्य परिवारों (स्मरण, स्थिति ट्रैकिंग और k-hop तर्क) के लिए एजेंटों की संख्या और संचार आवश्यकताओं की सीमाएं प्राप्त करता है, इन संसाधनों के बीच व्यापार-बंद को उजागर करता है
अनुभवजन्य सत्यापन: सिद्धांत द्वारा दिए गए इष्टतम संचार प्रोटोकॉल को लागू करके, सैद्धांतिक अंतर्दृष्टि का अनुभवजन्य सत्यापन प्रदान करता है, जो दर्शाता है कि सटीकता, संचार और टोकन उपयोग के संदर्भ में प्रदर्शन सैद्धांतिक भविष्यवाणियों के साथ निकटता से मेल खाता है
तीन तंत्रों की पहचान: बहु-एजेंट कार्यों के तीन अलग-अलग तंत्रों को उजागर करता है, प्रत्येक को व्यापक प्रासंगिकता वाले प्राकृतिक कार्य उदाहरणों द्वारा तुरंत किया जाता है

विधि विवरण

सैद्धांतिक मॉडल

Transformer मॉडल

लेखक कारणात्मक मास्किंग (केवल डिकोडर) अद्वितीय कठोर ध्यान Transformers (UHAT) मानते हैं, जो एक लोकप्रिय अमूर्तन है, जहां ध्यान सिर ध्यान स्कोर को अधिकतम करने वाली स्थिति पर ध्यान केंद्रित करते हैं:

UHAT(A)_{i,j} = {1 if j = argmax A_{i,:}, 0 else}

बहु-एजेंट प्रणाली का औपचारिकीकरण

परिभाषा 3.1 (बहु-एजेंट प्रणाली): एक बहु-एजेंट प्रणाली A स्ट्रिंग x ∈ S को w(x) ≤ |x| एजेंटों के साथ लेबल किए गए DAG A(x) में मैप करती है, जहां:

प्रत्येक नोड को अद्वितीय रूप से T^{(t)}_i के रूप में लेबल किया जाता है, जो समय t पर एजेंट i की स्थिति को दर्शाता है
दो प्रकार के किनारों को परिभाषित करता है:
- संचार किनारे {c, σ}: विभिन्न एजेंटों के बीच प्रतीक संचारित करते हैं
- CoT किनारे {a, σ}: मॉडल की स्वप्रतिगामी डिकोडिंग के अनुरूप

परिभाषा 3.2 (जटिलता):

कम्प्यूटेशनल गहराई: ग्राफ में सबसे लंबे पथ की लंबाई (वॉल-क्लॉक समय का प्रॉक्सी)
चौड़ाई: प्रणाली में एजेंटों की संख्या
आकार: ग्राफ में नोड्स की कुल संख्या
संचार बजट: आउटबाउंड संचार किनारों वाले नोड्स की संख्या

तीन एल्गोरिथ्मिक परिवारों का विश्लेषण

1. सहयोगी स्मरण (Associative Recall)

कार्य: कई कुंजी-मान जोड़े और एक क्वेरी कुंजी दी गई, एजेंटों को संबंधित मान लौटाना चाहिए।

परिणाम:

कम्प्यूटेशनल गहराई: O(1)
एजेंटों की संख्या: w(N), ब्लॉक आकार: N/w(N)
संचार बजट: O(1)
आकार: O(w(N))

2. स्थिति ट्रैकिंग (State Tracking)

कार्य: परिमित मोनॉयड पर स्थिति ट्रैकिंग समस्या, m₀ · m₁ · ... · mₖ का मूल्यांकन के रूप में औपचारिक रूप दिया गया।

परिणाम:

कम्प्यूटेशनल गहराई: O(log w(N) + N/w(N))
एजेंटों की संख्या: w(N), ब्लॉक आकार: N/w(N)
संचार बजट: O(w(N))
आकार: N

3. k-hop तर्क

कार्य: N तथ्य और k-hop क्वेरी f₁(...(fₖ(x))...) दी गई, एजेंटों को पुनरावृत्तिपूर्वक खोज करनी चाहिए।

परिणाम:

कम्प्यूटेशनल गहराई: O(k)
एजेंटों की संख्या: w(k), ब्लॉक आकार: N/w(k)
संचार बजट: O(k)
आकार: O(wk)

प्रायोगिक सेटअप

डेटासेट

लेखक सैद्धांतिक भविष्यवाणियों को सत्यापित करने के लिए सिंथेटिक बेंचमार्क का उपयोग करते हैं:

सहयोगी स्मरण: यादृच्छिक रूप से उत्पन्न कुंजी-मान स्ट्रिंग, कुंजियों से समान रूप से नमूना किए गए क्वेरी
समता गणना: निश्चित लंबाई की यादृच्छिक बाइनरी स्ट्रिंग
S5 क्रमचय ट्रैकिंग: 5 गेंदों को 5 विभिन्न बक्सों में स्वैप करने के आदेशों का क्रम
k-hop तर्क: संस्थाओं और संबंधों का तथ्य आधार, वैध k-hop क्वेरी उत्पन्न करते हैं

मूल्यांकन मेट्रिक्स

सटीकता: कार्य पूर्ण करने की सही दर
कम्प्यूटेशनल गहराई: प्रोटोकॉल निष्पादन के चरणों की संख्या
संचार लागत: एजेंटों के बीच स्थानांतरित टोकन की संख्या

तुलनात्मक विधियां

बहुमत मतदान (Majority Voting): स्व-संगति आधारभूत
Chain of Agents (CoA): सैद्धांतिक इष्टतम प्रोटोकॉल के समान कार्यान्वयन
उपसर्ग योग (Prefix Sum): स्थिति ट्रैकिंग के लिए सैद्धांतिक इष्टतम प्रोटोकॉल
पुनरावृत्तिपूर्ण क्वेरी (Iterative Query): k-hop तर्क के लिए इष्टतम प्रोटोकॉल

कार्यान्वयन विवरण

मॉडल: Llama-3.3-70B-Instruct-Turbo और Llama-3.1-8B-Instruct-Turbo
प्लेटफॉर्म: TogetherAI API
प्रयोग संख्या: प्रत्येक सेटिंग के लिए 100 बार चलाया गया, बीज 42 पर सेट
एजेंट कॉन्फ़िगरेशन: बहुमत मतदान 8 एजेंटों का उपयोग करता है

प्रायोगिक परिणाम

मुख्य परिणाम

सहयोगी स्मरण

छोटे अनुक्रमों (64-512) में, दोनों मॉडल समान प्रदर्शन करते हैं
लंबाई बढ़ने के साथ, बहु-एजेंट विधि लाभ प्राप्त करती है
सैद्धांतिक समझ के अनुरूप: स्मरण Transformer के लिए आसान कार्य है, छोटे अनुक्रमों में संचार ओवरहेड हानिकारक हो सकता है

स्थिति ट्रैकिंग (समता)

उपसर्ग योग हमेशा अन्य विधियों से बेहतर प्रदर्शन करता है, विशेष रूप से अनुक्रम लंबाई बढ़ने के साथ
बहुमत मतदान की तुलना में, CoA लंबे अनुक्रमों में कम गिरावट दिखाता है
संचार गहराई और कुल संचार के बीच व्यापार-बंद N/w(N) गहराई बनाम w(N) संचार व्यापार-बंद की सैद्धांतिक भविष्यवाणी के अनुरूप है

k-hop तर्क

पुनरावृत्तिपूर्ण क्वेरी आमतौर पर बहुमत मतदान से बेहतर प्रदर्शन करती है
हॉप संख्या बढ़ने के साथ, यह प्रवृत्ति अधिक स्पष्ट हो जाती है
कम्प्यूटेशनल गहराई क्वेरी हॉप संख्या के साथ बढ़ती है, सैद्धांतिक भविष्यवाणी के अनुरूप

विलोपन प्रयोग

लेखक उपसर्ग योग प्रोटोकॉल के शाखा कारक को बदलकर पेरेटो सीमांत ग्राफ उत्पन्न करते हैं, कम्प्यूटेशनल गहराई और संचार के बीच व्यापार-बंद संबंध को सत्यापित करते हैं।

प्रायोगिक निष्कर्ष

तीन तंत्रों का सत्यापन: प्रयोग सैद्धांतिक भविष्यवाणी के तीन अलग-अलग तंत्रों की पुष्टि करते हैं
संचार-गहराई व्यापार-बंद: अनुभवजन्य परिणाम सैद्धांतिक रूप से प्राप्त व्यापार-बंद संबंध का समर्थन करते हैं
मॉडल निर्देश पालन: उच्च संचार तंत्र में, मॉडल स्थिर टोकन ओवरहेड बढ़ाता है, जिसे सैद्धांतिक विश्लेषण में विचार करने की आवश्यकता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

तीन तंत्रों की पहचान: बहु-एजेंट तर्क के तीन अलग-अलग तंत्रों को उजागर करता है, प्रत्येक की विशिष्ट गहराई-संचार व्यापार-बंद विशेषताएं हैं
सैद्धांतिक सीमाएं: एजेंटों की संख्या, संचार आवश्यकताओं और कम्प्यूटेशनल गहराई के लिए कठोर गणितीय सीमाएं प्रदान करता है
व्यावहारिक मार्गदर्शन: स्केलेबल बहु-एजेंट तर्क प्रणालियों को डिजाइन करने के लिए सिद्धांत-आधारित मार्गदर्शन प्रदान करता है

सीमाएं

कार्य श्रेणी: केवल तीन एल्गोरिथ्मिक परिवारों का विश्लेषण करता है, सभी व्यावहारिक तर्क कार्यों को कवर नहीं कर सकता है
मॉडल मान्यताएं: UHAT के आधार पर विश्लेषण वास्तविक softmax Transformer पर पूरी तरह लागू नहीं हो सकता है
संचार सीमाएं: मानता है कि प्रत्येक बार केवल एक टोकन भेजा जा सकता है, वास्तविक प्रणालियां अधिक जटिल संचार पैटर्न का समर्थन कर सकती हैं

भविष्य की दिशाएं

कार्यों का विस्तार: ग्राफ पहुंच योग्यता जैसे अन्य एल्गोरिथ्मिक कार्यों के लिए ढांचे को लागू करना
बहु-एजेंट प्रतिमान: प्रतिकूल खेल या सहयोगी सुदृढ़ीकरण सीखने के कार्यों तक विस्तार
व्यावहारिक प्रोटोकॉल डिजाइन: सैद्धांतिक अंतर्दृष्टि के आधार पर नई बहु-एजेंट प्रणालियां डिजाइन करना

गहन मूल्यांकन

शक्तियां

सैद्धांतिक कठोरता: पूर्ण गणितीय प्रमाण और कठोर सीमा विश्लेषण प्रदान करता है
पर्याप्त अनुभवजन्य सत्यापन: सैद्धांतिक भविष्यवाणियां प्रायोगिक परिणामों के साथ अत्यधिक सुसंगत हैं
उच्च व्यावहारिक मूल्य: बहु-एजेंट प्रणाली डिजाइन के लिए ठोस मार्गदर्शन प्रदान करता है
स्पष्ट लेखन: जटिल सैद्धांतिक सामग्री स्पष्ट रूप से व्यक्त की गई है, ग्राफ समझ में सहायता प्रदान करते हैं

कमियां

कार्य सीमितता: तीन एल्गोरिथ्मिक परिवार सभी महत्वपूर्ण तर्क परिदृश्यों को कवर करने के लिए अपर्याप्त हो सकते हैं
व्यावहारिक अनुप्रयोग अंतराल: सिंथेटिक कार्यों और वास्तविक NLP कार्यों के बीच अंतर मौजूद है
मॉडल सरलीकरण: UHAT मॉडल सैद्धांतिक रूप से उचित है, लेकिन वास्तविक मॉडल से अभी भी भिन्न है

प्रभाव

सैद्धांतिक योगदान: बहु-एजेंट तर्क प्रणालियों के लिए पहला व्यवस्थित सैद्धांतिक ढांचा प्रदान करता है
व्यावहारिक मूल्य: वास्तविक प्रणाली डिजाइन को निर्देशित करता है, विशेष रूप से लंबे संदर्भ प्रसंस्करण में
पुनरुत्पादनीयता: पूर्ण कोड और प्रायोगिक सेटअप प्रदान करता है

लागू परिदृश्य

लंबे दस्तावेज़ प्रसंस्करण: दस्तावेज़ सारांश, प्रश्नोत्तर प्रणालियां
ज्ञान ग्राफ तर्क: बहु-हॉप संबंध क्वेरी
जटिल कम्प्यूटेशनल कार्य: विभाजन की आवश्यकता वाली बड़े पैमाने की तर्क समस्याएं

संदर्भ

Wei, J. et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Zhang, Y. et al. (2024b). Chain of agents: Large language models collaborating on long-context tasks. NeurIPS.
Merrill, W. & Sabharwal, A. (2023). The expressive power of transformers with chain of thought. arXiv preprint.
Amiri, A. et al. (2025). Lower bounds for chain-of-thought reasoning in hard-attention transformers. ICML.

समग्र मूल्यांकन: यह सिद्धांत और अनुभवजन्य विधि को जोड़ने वाला एक उच्च-गुणवत्ता वाला पेपर है, जो बहु-एजेंट तर्क प्रणालियों के लिए महत्वपूर्ण सैद्धांतिक आधार प्रदान करता है। हालांकि कार्य कवरेज और व्यावहारिक अनुप्रयोग के क्षेत्रों में सुधार की गुंजाइश है, लेकिन इसकी कठोर सैद्धांतिक विश्लेषण और स्पष्ट व्यावहारिक मार्गदर्शन इसे इस क्षेत्र में एक महत्वपूर्ण योगदान बनाते हैं।