2025-11-20T09:37:15.420376

Benefits and Limitations of Communication in Multi-Agent Reasoning

Rizvi-Martel, Bhattamishra, Rathi et al.
Chain-of-thought prompting has popularized step-by-step reasoning in large language models, yet model performance still degrades as problem complexity and context length grow. By decomposing difficult tasks with long contexts into shorter, manageable ones, recent multi-agent paradigms offer a promising near-term solution to this problem. However, the fundamental capacities of such systems are poorly understood. In this work, we propose a theoretical framework to analyze the expressivity of multi-agent systems. We apply our framework to three algorithmic families: state tracking, recall, and $k$-hop reasoning. We derive bounds on (i) the number of agents required to solve the task exactly, (ii) the quantity and structure of inter-agent communication, and (iii) the achievable speedups as problem size and context scale. Our results identify regimes where communication is provably beneficial, delineate tradeoffs between agent count and bandwidth, and expose intrinsic limitations when either resource is constrained. We complement our theoretical analysis with a set of experiments on pretrained LLMs using controlled synthetic benchmarks. Empirical outcomes confirm the tradeoffs between key quantities predicted by our theory. Collectively, our analysis offers principled guidance for designing scalable multi-agent reasoning systems.
academic

Avantages et Limitations de la Communication dans le Raisonnement Multi-Agent

Informations Fondamentales

  • ID de l'article : 2510.13903
  • Titre : Benefits and Limitations of Communication in Multi-Agent Reasoning
  • Auteurs : Michael Rizvi-Martel, Satwik Bhattamishra, Neil Rathi, Guillaume Rabusseau, Michael Hahn
  • Classification : cs.MA cs.AI cs.LG
  • Date de publication : 14 octobre 2025 (préimpression arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.13903

Résumé

Bien que l'incitation par chaîne de pensée (Chain-of-Thought) ait popularisé le raisonnement étape par étape dans les grands modèles de langage, les performances du modèle se dégradent avec l'augmentation de la complexité des problèmes et de la longueur du contexte. En décomposant les tâches difficiles à long contexte en sous-tâches plus courtes et plus gérables, les paradigmes multi-agents récents offrent une solution prometteuse à court terme à ce problème. Cependant, les capacités fondamentales de tels systèmes n'ont pas été suffisamment comprises. Cet article propose un cadre théorique pour analyser la capacité expressive des systèmes multi-agents. Les auteurs appliquent ce cadre à trois familles d'algorithmes : le suivi d'état, la récupération et le raisonnement k-hop. L'étude dérive des bornes concernant : (i) le nombre d'agents nécessaires pour résoudre exactement une tâche, (ii) la quantité et la structure de la communication entre agents, (iii) l'accélération réalisable à mesure que la taille du problème et le contexte s'étendent. Les résultats identifient les mécanismes par lesquels la communication s'avère bénéfique de manière prouvable, décrivent les compromis entre le nombre d'agents et la bande passante, et exposent les limitations intrinsèques lorsque l'une ou l'autre ressource est limitée.

Contexte et Motivation de la Recherche

Définition du Problème

La question centrale que cette recherche vise à résoudre est : Existe-t-il des tâches au niveau algorithmique où la communication et l'allocation dynamique des ressources dans les systèmes de raisonnement multi-agents apportent des avantages prouvables ?

Importance de la Recherche

  1. Limitations existantes : Bien que l'incitation par chaîne de pensée (CoT) soit devenue la norme de facto pour traiter les problèmes de raisonnement complexe, la capacité de raisonnement des grands modèles de raisonnement (LRM) se dégrade avec l'augmentation de la complexité des instances de problèmes ou l'allongement du contexte
  2. Besoins pratiques : Les méthodes de collaboration multi-agents réalisent des performances plus fortes en décomposant les tâches complexes en sous-problèmes plus simples, mais les fondations théoriques manquent d'une compréhension approfondie
  3. Lacune théorique : Bien que la capacité expressive des Transformers avec incitation CoT ait été largement étudiée, on sait peu de choses sur les limitations fondamentales et les compromis de la communication et de l'allocation des ressources dans les schémas de raisonnement multi-agents

Motivation de la Recherche

Les auteurs se concentrent sur les systèmes multi-agents basés sur Transformer, où l'entrée de taille N est divisée équitablement entre w agents. C'est une abstraction de nombreux contextes, y compris les applications pratiques telles que le résumé de long contexte, la RAG multi-agents, les agents de navigation et les pipelines map-reduce.

Contributions Principales

  1. Cadre théorique : Propose une formalisation des systèmes de raisonnement multi-agents basée sur la littérature riche sur la capacité expressive des Transformers
  2. Bornes algorithmiques : Dérive des bornes sur le nombre d'agents et les exigences de communication pour trois familles de tâches algorithmiques différentes (récupération, suivi d'état et raisonnement k-hop), mettant en évidence les compromis entre ces ressources
  3. Vérification empirique : Fournit une vérification empirique des intuitions théoriques en implémentant les protocoles de communication optimaux donnés par la théorie, montrant que les performances en termes de précision, de communication et d'utilisation de jetons correspondent étroitement aux prédictions théoriques
  4. Identification de trois mécanismes : Révèle trois mécanismes distincts pour les tâches multi-agents, chacun instancié par des instances de tâches naturelles d'une pertinence générale

Détails Méthodologiques

Modèle Théorique

Modèle Transformer

Les auteurs supposent des Transformers d'attention unique masquée causalement (UHAT - Unique Hard Attention Transformers), qui est une abstraction populaire où les têtes d'attention concentrent l'attention sur les positions maximisant les scores d'attention :

UHAT(A)_{i,j} = {1 if j = argmax A_{i,:}, 0 else}

Formalisation du Système Multi-Agent

Définition 3.1 (Système Multi-Agent) : Un système multi-agent A mappe une chaîne x ∈ S à un DAG étiqueté A(x) avec w(x) ≤ |x| agents, où :

  • Chaque nœud est uniquement étiqueté T^{(t)}_i, représentant l'état de l'agent i au temps t
  • Deux types d'arêtes sont définis :
    • Arêtes de communication {c, σ} : transmettent des symboles entre différents agents
    • Arêtes CoT {a, σ} : correspondent au décodage autorégressif du modèle

Définition 3.2 (Complexité) :

  • Profondeur de calcul : longueur du chemin le plus long dans le graphe (proxy du temps mural)
  • Largeur : nombre d'agents dans le système
  • Taille : nombre total de nœuds dans le graphe
  • Budget de communication : nombre de nœuds ayant des arêtes de communication sortantes

Analyse des Trois Familles d'Algorithmes

1. Récupération Associative (Associative Recall)

Tâche : Étant donné plusieurs paires clé-valeur et une clé de requête, les agents doivent retourner la valeur associée.

Résultats :

  • Profondeur de calcul : O(1)
  • Nombre d'agents : w(N), taille de bloc : N/w(N)
  • Budget de communication : O(1)
  • Taille : O(w(N))

2. Suivi d'État (State Tracking)

Tâche : Problème de suivi d'état sur un monoïde fini, formalisé comme l'évaluation de m₀ · m₁ · ... · mₖ.

Résultats :

  • Profondeur de calcul : O(log w(N) + N/w(N))
  • Nombre d'agents : w(N), taille de bloc : N/w(N)
  • Budget de communication : O(w(N))
  • Taille : N

3. Raisonnement k-hop

Tâche : Étant donné N faits et une requête k-hop f₁(...(fₖ(x))...), les agents doivent effectuer des recherches itératives.

Résultats :

  • Profondeur de calcul : O(k)
  • Nombre d'agents : w(k), taille de bloc : N/w(k)
  • Budget de communication : O(k)
  • Taille : O(wk)

Configuration Expérimentale

Ensembles de Données

Les auteurs utilisent des benchmarks synthétiques pour valider les prédictions théoriques :

  1. Récupération associative : Chaînes clé-valeur générées aléatoirement, requêtes échantillonnées uniformément à partir des clés
  2. Calcul de parité : Chaînes binaires aléatoires de longueur fixe
  3. Suivi de permutation S5 : Séquences de commandes d'échange de 5 balles dans 5 boîtes différentes
  4. Raisonnement k-hop : Base de faits d'entités et de relations, générant des requêtes k-hop valides

Métriques d'Évaluation

  • Précision : Taux de correction de l'accomplissement des tâches
  • Profondeur de calcul : Nombre d'étapes d'exécution du protocole
  • Coût de communication : Nombre de jetons transmis entre agents

Méthodes de Comparaison

  • Vote à Majorité (Majority Voting) : Baseline d'auto-cohérence
  • Chaîne d'Agents (CoA) : Implémentation similaire au protocole théoriquement optimal
  • Somme de Préfixe (Prefix Sum) : Protocole théoriquement optimal pour le suivi d'état
  • Requête Itérative (Iterative Query) : Protocole optimal pour le raisonnement k-hop

Détails d'Implémentation

  • Modèles : Llama-3.3-70B-Instruct-Turbo et Llama-3.1-8B-Instruct-Turbo
  • Plateforme : API TogetherAI
  • Nombre d'exécutions : 100 exécutions par configuration, graine fixée à 42
  • Configuration des agents : Vote à majorité utilisant 8 agents

Résultats Expérimentaux

Résultats Principaux

Récupération Associative

  • Sur les séquences plus courtes (64-512), les deux modèles montrent des performances similaires
  • À mesure que la longueur augmente, la méthode multi-agent gagne en avantage
  • Cohérent avec la compréhension théorique : la récupération est une tâche facile pour Transformer, où le surcoût de communication peut être nuisible sur les séquences courtes

Suivi d'État (Parité)

  • La somme de préfixe surpasse constamment les autres méthodes, particulièrement à mesure que la longueur de la séquence augmente
  • Comparée au vote à majorité, CoA se dégrade moins sur les séquences longues
  • La profondeur de communication par rapport à la quantité totale de communication suit le compromis N/w(N) profondeur vs w(N) communication prédit par la théorie

Raisonnement k-hop

  • La requête itérative surpasse généralement le vote à majorité
  • Cette tendance devient plus prononcée à mesure que le nombre de sauts augmente
  • La profondeur de calcul augmente avec le nombre de sauts de requête, ce qui est cohérent avec la théorie

Expériences d'Ablation

Les auteurs génèrent des courbes de frontière de Pareto en variant le facteur de branchement du protocole de somme de préfixe, validant la relation de compromis entre profondeur de calcul et communication.

Découvertes Expérimentales

  1. Vérification des trois mécanismes : Les expériences confirment les trois mécanismes distincts prédits par la théorie
  2. Compromis communication-profondeur : Les résultats empiriques soutiennent les relations de compromis dérivées théoriquement
  3. Suivi des instructions du modèle : Dans les mécanismes à communication élevée, le modèle augmente le surcoût de jetons constants, ce qui doit être pris en compte dans l'analyse théorique

Travaux Connexes

Directions de Recherche Principales

  1. Raisonnement par chaîne de pensée : Norme de raisonnement étape par étape établie par Wei et al. (2022) et autres
  2. Collaboration multi-agents : Méthodes de décomposition de tâches de Zhang et al. (2024b), Tran et al. (2025) et autres
  3. Capacité expressive des Transformers : Analyse théorique de Merrill & Sabharwal (2023), Amiri et al. (2025) et autres

Avantages de cet Article

  • Première analyse systématique de la capacité expressive des systèmes de raisonnement multi-agents
  • Fournit des bornes théoriques sur la communication et l'allocation des ressources
  • Combine l'analyse théorique avec la vérification empirique

Conclusions et Discussion

Conclusions Principales

  1. Identification de trois mécanismes : Révèle trois mécanismes distincts du raisonnement multi-agent, chacun avec des caractéristiques de compromis profondeur-communication spécifiques
  2. Bornes théoriques : Fournit des bornes mathématiques strictes sur le nombre d'agents, les exigences de communication et la profondeur de calcul
  3. Orientation pratique : Fournit des orientations fondées sur des principes pour la conception de systèmes de raisonnement multi-agents évolutifs

Limitations

  1. Portée des tâches : Analyse uniquement trois familles d'algorithmes, ce qui peut ne pas couvrir toutes les tâches de raisonnement pratiques
  2. Hypothèses du modèle : L'analyse basée sur UHAT peut ne pas s'appliquer complètement aux Transformers softmax réels
  3. Limitations de communication : Suppose que seul un jeton peut être envoyé à la fois, tandis que les systèmes réels peuvent supporter des modèles de communication plus complexes

Directions Futures

  1. Extension des tâches : Appliquer le cadre à d'autres tâches algorithmiques telles que l'accessibilité des graphes
  2. Paradigmes multi-agents : Étendre aux jeux adversariaux ou aux tâches d'apprentissage par renforcement coopératif
  3. Conception de protocoles pratiques : Concevoir de nouveaux systèmes multi-agents basés sur les intuitions théoriques

Évaluation Approfondie

Points Forts

  1. Rigueur théorique : Fournit des preuves mathématiques complètes et une analyse stricte des bornes
  2. Vérification empirique suffisante : Les prédictions théoriques correspondent étroitement aux résultats expérimentaux
  3. Valeur pratique élevée : Fournit des orientations concrètes pour la conception de systèmes multi-agents
  4. Clarté de la rédaction : Le contenu théorique complexe est bien exprimé, avec des graphiques et des tableaux facilitant la compréhension

Insuffisances

  1. Limitations des tâches : Les trois familles d'algorithmes peuvent être insuffisantes pour couvrir tous les scénarios de raisonnement importants
  2. Écart d'application pratique : Existe une différence entre les tâches synthétiques et les tâches réelles de traitement du langage naturel
  3. Simplification du modèle : Bien que le modèle UHAT soit théoriquement justifié, il existe toujours des différences avec les modèles réels

Impact

  1. Contribution théorique : Fournit le premier cadre théorique systématique pour les systèmes de raisonnement multi-agents
  2. Valeur pratique : Guide la conception de systèmes réels, particulièrement dans le traitement du long contexte
  3. Reproductibilité : Fournit un code complet et des configurations expérimentales

Scénarios Applicables

  1. Traitement de documents longs : Résumé de documents, systèmes de questions-réponses
  2. Raisonnement sur graphes de connaissances : Requêtes de relations multi-hop
  3. Tâches de calcul complexe : Problèmes de raisonnement à grande échelle nécessitant une décomposition

Références

  1. Wei, J. et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
  2. Zhang, Y. et al. (2024b). Chain of agents: Large language models collaborating on long-context tasks. NeurIPS.
  3. Merrill, W. & Sabharwal, A. (2023). The expressive power of transformers with chain of thought. arXiv preprint.
  4. Amiri, A. et al. (2025). Lower bounds for chain-of-thought reasoning in hard-attention transformers. ICML.

Évaluation Générale : Ceci est un article de haute qualité combinant théorie et empirisme, fournissant des fondations théoriques importantes pour les systèmes de raisonnement multi-agents. Bien qu'il y ait de la place pour l'amélioration en termes de couverture des tâches et d'applications pratiques, son analyse théorique rigoureuse et ses orientations pratiques claires en font une contribution importante au domaine.