2025-11-20T09:37:15.420376

Benefits and Limitations of Communication in Multi-Agent Reasoning

Rizvi-Martel, Bhattamishra, Rathi et al.

Chain-of-thought prompting has popularized step-by-step reasoning in large language models, yet model performance still degrades as problem complexity and context length grow. By decomposing difficult tasks with long contexts into shorter, manageable ones, recent multi-agent paradigms offer a promising near-term solution to this problem. However, the fundamental capacities of such systems are poorly understood. In this work, we propose a theoretical framework to analyze the expressivity of multi-agent systems. We apply our framework to three algorithmic families: state tracking, recall, and $k$-hop reasoning. We derive bounds on (i) the number of agents required to solve the task exactly, (ii) the quantity and structure of inter-agent communication, and (iii) the achievable speedups as problem size and context scale. Our results identify regimes where communication is provably beneficial, delineate tradeoffs between agent count and bandwidth, and expose intrinsic limitations when either resource is constrained. We complement our theoretical analysis with a set of experiments on pretrained LLMs using controlled synthetic benchmarks. Empirical outcomes confirm the tradeoffs between key quantities predicted by our theory. Collectively, our analysis offers principled guidance for designing scalable multi-agent reasoning systems.

academic

Avantages et Limitations de la Communication dans le Raisonnement Multi-Agent

Informations Fondamentales

ID de l'article : 2510.13903
Titre : Benefits and Limitations of Communication in Multi-Agent Reasoning
Auteurs : Michael Rizvi-Martel, Satwik Bhattamishra, Neil Rathi, Guillaume Rabusseau, Michael Hahn
Classification : cs.MA cs.AI cs.LG
Date de publication : 14 octobre 2025 (préimpression arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13903

Résumé

Bien que l'incitation par chaîne de pensée (Chain-of-Thought) ait popularisé le raisonnement étape par étape dans les grands modèles de langage, les performances du modèle se dégradent avec l'augmentation de la complexité des problèmes et de la longueur du contexte. En décomposant les tâches difficiles à long contexte en sous-tâches plus courtes et plus gérables, les paradigmes multi-agents récents offrent une solution prometteuse à court terme à ce problème. Cependant, les capacités fondamentales de tels systèmes n'ont pas été suffisamment comprises. Cet article propose un cadre théorique pour analyser la capacité expressive des systèmes multi-agents. Les auteurs appliquent ce cadre à trois familles d'algorithmes : le suivi d'état, la récupération et le raisonnement k-hop. L'étude dérive des bornes concernant : (i) le nombre d'agents nécessaires pour résoudre exactement une tâche, (ii) la quantité et la structure de la communication entre agents, (iii) l'accélération réalisable à mesure que la taille du problème et le contexte s'étendent. Les résultats identifient les mécanismes par lesquels la communication s'avère bénéfique de manière prouvable, décrivent les compromis entre le nombre d'agents et la bande passante, et exposent les limitations intrinsèques lorsque l'une ou l'autre ressource est limitée.

Contexte et Motivation de la Recherche

Définition du Problème

La question centrale que cette recherche vise à résoudre est : Existe-t-il des tâches au niveau algorithmique où la communication et l'allocation dynamique des ressources dans les systèmes de raisonnement multi-agents apportent des avantages prouvables ?

Importance de la Recherche

Limitations existantes : Bien que l'incitation par chaîne de pensée (CoT) soit devenue la norme de facto pour traiter les problèmes de raisonnement complexe, la capacité de raisonnement des grands modèles de raisonnement (LRM) se dégrade avec l'augmentation de la complexité des instances de problèmes ou l'allongement du contexte
Besoins pratiques : Les méthodes de collaboration multi-agents réalisent des performances plus fortes en décomposant les tâches complexes en sous-problèmes plus simples, mais les fondations théoriques manquent d'une compréhension approfondie
Lacune théorique : Bien que la capacité expressive des Transformers avec incitation CoT ait été largement étudiée, on sait peu de choses sur les limitations fondamentales et les compromis de la communication et de l'allocation des ressources dans les schémas de raisonnement multi-agents

Motivation de la Recherche

Les auteurs se concentrent sur les systèmes multi-agents basés sur Transformer, où l'entrée de taille N est divisée équitablement entre w agents. C'est une abstraction de nombreux contextes, y compris les applications pratiques telles que le résumé de long contexte, la RAG multi-agents, les agents de navigation et les pipelines map-reduce.

Contributions Principales

Cadre théorique : Propose une formalisation des systèmes de raisonnement multi-agents basée sur la littérature riche sur la capacité expressive des Transformers
Bornes algorithmiques : Dérive des bornes sur le nombre d'agents et les exigences de communication pour trois familles de tâches algorithmiques différentes (récupération, suivi d'état et raisonnement k-hop), mettant en évidence les compromis entre ces ressources
Vérification empirique : Fournit une vérification empirique des intuitions théoriques en implémentant les protocoles de communication optimaux donnés par la théorie, montrant que les performances en termes de précision, de communication et d'utilisation de jetons correspondent étroitement aux prédictions théoriques
Identification de trois mécanismes : Révèle trois mécanismes distincts pour les tâches multi-agents, chacun instancié par des instances de tâches naturelles d'une pertinence générale

Détails Méthodologiques

Modèle Théorique

Modèle Transformer

Les auteurs supposent des Transformers d'attention unique masquée causalement (UHAT - Unique Hard Attention Transformers), qui est une abstraction populaire où les têtes d'attention concentrent l'attention sur les positions maximisant les scores d'attention :

UHAT(A)_{i,j} = {1 if j = argmax A_{i,:}, 0 else}

Formalisation du Système Multi-Agent

Définition 3.1 (Système Multi-Agent) : Un système multi-agent A mappe une chaîne x ∈ S à un DAG étiqueté A(x) avec w(x) ≤ |x| agents, où :

Chaque nœud est uniquement étiqueté T^{(t)}_i, représentant l'état de l'agent i au temps t
Deux types d'arêtes sont définis :
- Arêtes de communication {c, σ} : transmettent des symboles entre différents agents
- Arêtes CoT {a, σ} : correspondent au décodage autorégressif du modèle

Définition 3.2 (Complexité) :

Profondeur de calcul : longueur du chemin le plus long dans le graphe (proxy du temps mural)
Largeur : nombre d'agents dans le système
Taille : nombre total de nœuds dans le graphe
Budget de communication : nombre de nœuds ayant des arêtes de communication sortantes

Analyse des Trois Familles d'Algorithmes

1. Récupération Associative (Associative Recall)

Tâche : Étant donné plusieurs paires clé-valeur et une clé de requête, les agents doivent retourner la valeur associée.

Résultats :

Profondeur de calcul : O(1)
Nombre d'agents : w(N), taille de bloc : N/w(N)
Budget de communication : O(1)
Taille : O(w(N))

2. Suivi d'État (State Tracking)

Tâche : Problème de suivi d'état sur un monoïde fini, formalisé comme l'évaluation de m₀ · m₁ · ... · mₖ.

Résultats :

Profondeur de calcul : O(log w(N) + N/w(N))
Nombre d'agents : w(N), taille de bloc : N/w(N)
Budget de communication : O(w(N))
Taille : N

3. Raisonnement k-hop

Tâche : Étant donné N faits et une requête k-hop f₁(...(fₖ(x))...), les agents doivent effectuer des recherches itératives.

Résultats :

Profondeur de calcul : O(k)
Nombre d'agents : w(k), taille de bloc : N/w(k)
Budget de communication : O(k)
Taille : O(wk)

Configuration Expérimentale

Ensembles de Données

Les auteurs utilisent des benchmarks synthétiques pour valider les prédictions théoriques :

Récupération associative : Chaînes clé-valeur générées aléatoirement, requêtes échantillonnées uniformément à partir des clés
Calcul de parité : Chaînes binaires aléatoires de longueur fixe
Suivi de permutation S5 : Séquences de commandes d'échange de 5 balles dans 5 boîtes différentes
Raisonnement k-hop : Base de faits d'entités et de relations, générant des requêtes k-hop valides

Métriques d'Évaluation

Précision : Taux de correction de l'accomplissement des tâches
Profondeur de calcul : Nombre d'étapes d'exécution du protocole
Coût de communication : Nombre de jetons transmis entre agents

Méthodes de Comparaison

Vote à Majorité (Majority Voting) : Baseline d'auto-cohérence
Chaîne d'Agents (CoA) : Implémentation similaire au protocole théoriquement optimal
Somme de Préfixe (Prefix Sum) : Protocole théoriquement optimal pour le suivi d'état
Requête Itérative (Iterative Query) : Protocole optimal pour le raisonnement k-hop

Détails d'Implémentation

Modèles : Llama-3.3-70B-Instruct-Turbo et Llama-3.1-8B-Instruct-Turbo
Plateforme : API TogetherAI
Nombre d'exécutions : 100 exécutions par configuration, graine fixée à 42
Configuration des agents : Vote à majorité utilisant 8 agents

Résultats Expérimentaux

Résultats Principaux

Récupération Associative

Sur les séquences plus courtes (64-512), les deux modèles montrent des performances similaires
À mesure que la longueur augmente, la méthode multi-agent gagne en avantage
Cohérent avec la compréhension théorique : la récupération est une tâche facile pour Transformer, où le surcoût de communication peut être nuisible sur les séquences courtes

Suivi d'État (Parité)

La somme de préfixe surpasse constamment les autres méthodes, particulièrement à mesure que la longueur de la séquence augmente
Comparée au vote à majorité, CoA se dégrade moins sur les séquences longues
La profondeur de communication par rapport à la quantité totale de communication suit le compromis N/w(N) profondeur vs w(N) communication prédit par la théorie

Raisonnement k-hop

La requête itérative surpasse généralement le vote à majorité
Cette tendance devient plus prononcée à mesure que le nombre de sauts augmente
La profondeur de calcul augmente avec le nombre de sauts de requête, ce qui est cohérent avec la théorie

Expériences d'Ablation

Les auteurs génèrent des courbes de frontière de Pareto en variant le facteur de branchement du protocole de somme de préfixe, validant la relation de compromis entre profondeur de calcul et communication.

Découvertes Expérimentales

Vérification des trois mécanismes : Les expériences confirment les trois mécanismes distincts prédits par la théorie
Compromis communication-profondeur : Les résultats empiriques soutiennent les relations de compromis dérivées théoriquement
Suivi des instructions du modèle : Dans les mécanismes à communication élevée, le modèle augmente le surcoût de jetons constants, ce qui doit être pris en compte dans l'analyse théorique

Travaux Connexes

Directions de Recherche Principales

Raisonnement par chaîne de pensée : Norme de raisonnement étape par étape établie par Wei et al. (2022) et autres
Collaboration multi-agents : Méthodes de décomposition de tâches de Zhang et al. (2024b), Tran et al. (2025) et autres
Capacité expressive des Transformers : Analyse théorique de Merrill & Sabharwal (2023), Amiri et al. (2025) et autres

Avantages de cet Article

Première analyse systématique de la capacité expressive des systèmes de raisonnement multi-agents
Fournit des bornes théoriques sur la communication et l'allocation des ressources
Combine l'analyse théorique avec la vérification empirique

Conclusions et Discussion

Conclusions Principales

Identification de trois mécanismes : Révèle trois mécanismes distincts du raisonnement multi-agent, chacun avec des caractéristiques de compromis profondeur-communication spécifiques
Bornes théoriques : Fournit des bornes mathématiques strictes sur le nombre d'agents, les exigences de communication et la profondeur de calcul
Orientation pratique : Fournit des orientations fondées sur des principes pour la conception de systèmes de raisonnement multi-agents évolutifs

Limitations

Portée des tâches : Analyse uniquement trois familles d'algorithmes, ce qui peut ne pas couvrir toutes les tâches de raisonnement pratiques
Hypothèses du modèle : L'analyse basée sur UHAT peut ne pas s'appliquer complètement aux Transformers softmax réels
Limitations de communication : Suppose que seul un jeton peut être envoyé à la fois, tandis que les systèmes réels peuvent supporter des modèles de communication plus complexes

Directions Futures

Extension des tâches : Appliquer le cadre à d'autres tâches algorithmiques telles que l'accessibilité des graphes
Paradigmes multi-agents : Étendre aux jeux adversariaux ou aux tâches d'apprentissage par renforcement coopératif
Conception de protocoles pratiques : Concevoir de nouveaux systèmes multi-agents basés sur les intuitions théoriques

Évaluation Approfondie

Points Forts

Rigueur théorique : Fournit des preuves mathématiques complètes et une analyse stricte des bornes
Vérification empirique suffisante : Les prédictions théoriques correspondent étroitement aux résultats expérimentaux
Valeur pratique élevée : Fournit des orientations concrètes pour la conception de systèmes multi-agents
Clarté de la rédaction : Le contenu théorique complexe est bien exprimé, avec des graphiques et des tableaux facilitant la compréhension

Insuffisances

Limitations des tâches : Les trois familles d'algorithmes peuvent être insuffisantes pour couvrir tous les scénarios de raisonnement importants
Écart d'application pratique : Existe une différence entre les tâches synthétiques et les tâches réelles de traitement du langage naturel
Simplification du modèle : Bien que le modèle UHAT soit théoriquement justifié, il existe toujours des différences avec les modèles réels

Impact

Contribution théorique : Fournit le premier cadre théorique systématique pour les systèmes de raisonnement multi-agents
Valeur pratique : Guide la conception de systèmes réels, particulièrement dans le traitement du long contexte
Reproductibilité : Fournit un code complet et des configurations expérimentales

Scénarios Applicables

Traitement de documents longs : Résumé de documents, systèmes de questions-réponses
Raisonnement sur graphes de connaissances : Requêtes de relations multi-hop
Tâches de calcul complexe : Problèmes de raisonnement à grande échelle nécessitant une décomposition

Références

Wei, J. et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Zhang, Y. et al. (2024b). Chain of agents: Large language models collaborating on long-context tasks. NeurIPS.
Merrill, W. & Sabharwal, A. (2023). The expressive power of transformers with chain of thought. arXiv preprint.
Amiri, A. et al. (2025). Lower bounds for chain-of-thought reasoning in hard-attention transformers. ICML.

Évaluation Générale : Ceci est un article de haute qualité combinant théorie et empirisme, fournissant des fondations théoriques importantes pour les systèmes de raisonnement multi-agents. Bien qu'il y ait de la place pour l'amélioration en termes de couverture des tâches et d'applications pratiques, son analyse théorique rigoureuse et ses orientations pratiques claires en font une contribution importante au domaine.