Benefits and Limitations of Communication in Multi-Agent Reasoning
Rizvi-Martel, Bhattamishra, Rathi et al.
Chain-of-thought prompting has popularized step-by-step reasoning in large language models, yet model performance still degrades as problem complexity and context length grow. By decomposing difficult tasks with long contexts into shorter, manageable ones, recent multi-agent paradigms offer a promising near-term solution to this problem. However, the fundamental capacities of such systems are poorly understood. In this work, we propose a theoretical framework to analyze the expressivity of multi-agent systems. We apply our framework to three algorithmic families: state tracking, recall, and $k$-hop reasoning. We derive bounds on (i) the number of agents required to solve the task exactly, (ii) the quantity and structure of inter-agent communication, and (iii) the achievable speedups as problem size and context scale. Our results identify regimes where communication is provably beneficial, delineate tradeoffs between agent count and bandwidth, and expose intrinsic limitations when either resource is constrained. We complement our theoretical analysis with a set of experiments on pretrained LLMs using controlled synthetic benchmarks. Empirical outcomes confirm the tradeoffs between key quantities predicted by our theory. Collectively, our analysis offers principled guidance for designing scalable multi-agent reasoning systems.
academic
Avantages et Limitations de la Communication dans le Raisonnement Multi-Agent
Bien que l'incitation par chaîne de pensée (Chain-of-Thought) ait popularisé le raisonnement étape par étape dans les grands modèles de langage, les performances du modèle se dégradent avec l'augmentation de la complexité des problèmes et de la longueur du contexte. En décomposant les tâches difficiles à long contexte en sous-tâches plus courtes et plus gérables, les paradigmes multi-agents récents offrent une solution prometteuse à court terme à ce problème. Cependant, les capacités fondamentales de tels systèmes n'ont pas été suffisamment comprises. Cet article propose un cadre théorique pour analyser la capacité expressive des systèmes multi-agents. Les auteurs appliquent ce cadre à trois familles d'algorithmes : le suivi d'état, la récupération et le raisonnement k-hop. L'étude dérive des bornes concernant : (i) le nombre d'agents nécessaires pour résoudre exactement une tâche, (ii) la quantité et la structure de la communication entre agents, (iii) l'accélération réalisable à mesure que la taille du problème et le contexte s'étendent. Les résultats identifient les mécanismes par lesquels la communication s'avère bénéfique de manière prouvable, décrivent les compromis entre le nombre d'agents et la bande passante, et exposent les limitations intrinsèques lorsque l'une ou l'autre ressource est limitée.
La question centrale que cette recherche vise à résoudre est : Existe-t-il des tâches au niveau algorithmique où la communication et l'allocation dynamique des ressources dans les systèmes de raisonnement multi-agents apportent des avantages prouvables ?
Limitations existantes : Bien que l'incitation par chaîne de pensée (CoT) soit devenue la norme de facto pour traiter les problèmes de raisonnement complexe, la capacité de raisonnement des grands modèles de raisonnement (LRM) se dégrade avec l'augmentation de la complexité des instances de problèmes ou l'allongement du contexte
Besoins pratiques : Les méthodes de collaboration multi-agents réalisent des performances plus fortes en décomposant les tâches complexes en sous-problèmes plus simples, mais les fondations théoriques manquent d'une compréhension approfondie
Lacune théorique : Bien que la capacité expressive des Transformers avec incitation CoT ait été largement étudiée, on sait peu de choses sur les limitations fondamentales et les compromis de la communication et de l'allocation des ressources dans les schémas de raisonnement multi-agents
Les auteurs se concentrent sur les systèmes multi-agents basés sur Transformer, où l'entrée de taille N est divisée équitablement entre w agents. C'est une abstraction de nombreux contextes, y compris les applications pratiques telles que le résumé de long contexte, la RAG multi-agents, les agents de navigation et les pipelines map-reduce.
Cadre théorique : Propose une formalisation des systèmes de raisonnement multi-agents basée sur la littérature riche sur la capacité expressive des Transformers
Bornes algorithmiques : Dérive des bornes sur le nombre d'agents et les exigences de communication pour trois familles de tâches algorithmiques différentes (récupération, suivi d'état et raisonnement k-hop), mettant en évidence les compromis entre ces ressources
Vérification empirique : Fournit une vérification empirique des intuitions théoriques en implémentant les protocoles de communication optimaux donnés par la théorie, montrant que les performances en termes de précision, de communication et d'utilisation de jetons correspondent étroitement aux prédictions théoriques
Identification de trois mécanismes : Révèle trois mécanismes distincts pour les tâches multi-agents, chacun instancié par des instances de tâches naturelles d'une pertinence générale
Les auteurs supposent des Transformers d'attention unique masquée causalement (UHAT - Unique Hard Attention Transformers), qui est une abstraction populaire où les têtes d'attention concentrent l'attention sur les positions maximisant les scores d'attention :
Sur les séquences plus courtes (64-512), les deux modèles montrent des performances similaires
À mesure que la longueur augmente, la méthode multi-agent gagne en avantage
Cohérent avec la compréhension théorique : la récupération est une tâche facile pour Transformer, où le surcoût de communication peut être nuisible sur les séquences courtes
La somme de préfixe surpasse constamment les autres méthodes, particulièrement à mesure que la longueur de la séquence augmente
Comparée au vote à majorité, CoA se dégrade moins sur les séquences longues
La profondeur de communication par rapport à la quantité totale de communication suit le compromis N/w(N) profondeur vs w(N) communication prédit par la théorie
Les auteurs génèrent des courbes de frontière de Pareto en variant le facteur de branchement du protocole de somme de préfixe, validant la relation de compromis entre profondeur de calcul et communication.
Vérification des trois mécanismes : Les expériences confirment les trois mécanismes distincts prédits par la théorie
Compromis communication-profondeur : Les résultats empiriques soutiennent les relations de compromis dérivées théoriquement
Suivi des instructions du modèle : Dans les mécanismes à communication élevée, le modèle augmente le surcoût de jetons constants, ce qui doit être pris en compte dans l'analyse théorique
Identification de trois mécanismes : Révèle trois mécanismes distincts du raisonnement multi-agent, chacun avec des caractéristiques de compromis profondeur-communication spécifiques
Bornes théoriques : Fournit des bornes mathématiques strictes sur le nombre d'agents, les exigences de communication et la profondeur de calcul
Orientation pratique : Fournit des orientations fondées sur des principes pour la conception de systèmes de raisonnement multi-agents évolutifs
Portée des tâches : Analyse uniquement trois familles d'algorithmes, ce qui peut ne pas couvrir toutes les tâches de raisonnement pratiques
Hypothèses du modèle : L'analyse basée sur UHAT peut ne pas s'appliquer complètement aux Transformers softmax réels
Limitations de communication : Suppose que seul un jeton peut être envoyé à la fois, tandis que les systèmes réels peuvent supporter des modèles de communication plus complexes
Wei, J. et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Zhang, Y. et al. (2024b). Chain of agents: Large language models collaborating on long-context tasks. NeurIPS.
Merrill, W. & Sabharwal, A. (2023). The expressive power of transformers with chain of thought. arXiv preprint.
Amiri, A. et al. (2025). Lower bounds for chain-of-thought reasoning in hard-attention transformers. ICML.
Évaluation Générale : Ceci est un article de haute qualité combinant théorie et empirisme, fournissant des fondations théoriques importantes pour les systèmes de raisonnement multi-agents. Bien qu'il y ait de la place pour l'amélioration en termes de couverture des tâches et d'applications pratiques, son analyse théorique rigoureuse et ses orientations pratiques claires en font une contribution importante au domaine.