Benefits and Limitations of Communication in Multi-Agent Reasoning
Rizvi-Martel, Bhattamishra, Rathi et al.
Chain-of-thought prompting has popularized step-by-step reasoning in large language models, yet model performance still degrades as problem complexity and context length grow. By decomposing difficult tasks with long contexts into shorter, manageable ones, recent multi-agent paradigms offer a promising near-term solution to this problem. However, the fundamental capacities of such systems are poorly understood. In this work, we propose a theoretical framework to analyze the expressivity of multi-agent systems. We apply our framework to three algorithmic families: state tracking, recall, and $k$-hop reasoning. We derive bounds on (i) the number of agents required to solve the task exactly, (ii) the quantity and structure of inter-agent communication, and (iii) the achievable speedups as problem size and context scale. Our results identify regimes where communication is provably beneficial, delineate tradeoffs between agent count and bandwidth, and expose intrinsic limitations when either resource is constrained. We complement our theoretical analysis with a set of experiments on pretrained LLMs using controlled synthetic benchmarks. Empirical outcomes confirm the tradeoffs between key quantities predicted by our theory. Collectively, our analysis offers principled guidance for designing scalable multi-agent reasoning systems.
academic
Vorteile und Grenzen der Kommunikation im Multi-Agent-Reasoning
Obwohl Chain-of-Thought-Prompting schrittweise Schlussfolgerungen in großen Sprachmodellen gefördert hat, verschlechtert sich die Modellleistung mit zunehmender Problemkomplexität und Kontextlänge. Durch die Zerlegung schwieriger Aufgaben mit langem Kontext in kürzere, besser verwaltbare Teilaufgaben bieten neuere Multi-Agent-Paradigmen eine vielversprechende kurzfristige Lösung für dieses Problem. Die grundlegenden Fähigkeiten solcher Systeme sind jedoch noch nicht ausreichend verstanden. Dieses Paper präsentiert ein theoretisches Rahmenwerk zur Analyse der Ausdrucksfähigkeit von Multi-Agent-Systemen. Die Autoren wenden dieses Rahmenwerk auf drei Algorithmusfamilien an: Zustandsverfolgung, Abruf und k-Hop-Reasoning. Die Forschung leitet Grenzen für folgende Aspekte ab: (i) die Anzahl der Agenten, die zur genauen Lösung einer Aufgabe erforderlich sind, (ii) die Menge und Struktur der Kommunikation zwischen Agenten, (iii) die erreichbare Beschleunigung bei Erweiterung der Problemgröße und des Kontexts. Die Ergebnisse identifizieren Mechanismen, bei denen Kommunikation nachweislich vorteilhaft ist, zeigen Kompromisse zwischen Agentenzahl und Bandbreite auf und offenbaren inhärente Grenzen bei Ressourcenengpässen.
Die Kernfrage dieser Forschung lautet: Gibt es in Multi-Agent-Reasoning-Systemen Aufgaben, bei denen Kommunikation und dynamische Ressourcenverteilung auf algorithmischer Ebene nachweislich vorteilhaft sind?
Bestehende Einschränkungen: Obwohl Chain-of-Thought (CoT)-Prompting zum Standard für die Bewältigung komplexer Reasoning-Probleme geworden ist, verschlechtert sich die Reasoning-Fähigkeit großer Reasoning-Modelle (LRMs) mit zunehmender Komplexität der Probleminstanzen oder wachsender Kontextlänge
Praktische Anforderungen: Multi-Agent-Kooperationsmethoden erzielen stärkere Leistungen durch Zerlegung komplexer Aufgaben in einfachere Teilprobleme, doch ihr theoretisches Fundament ist nicht ausreichend verstanden
Theoretische Lücke: Während die Ausdrucksfähigkeit von Transformern mit CoT-Prompting gründlich untersucht wurde, ist über grundlegende Grenzen und Kompromisse bei Kommunikation und Ressourcenverteilung in Multi-Agent-Reasoning-Schemata wenig bekannt
Die Autoren konzentrieren sich auf Transformer-basierte Multi-Agent-Systeme, die eine Eingabe der Größe N gleichmäßig auf w Agenten verteilen. Dies ist eine Abstraktion vieler Szenarien, einschließlich praktischer Anwendungen wie Zusammenfassung langer Kontexte, Multi-Agent-RAG, Browser-ähnliche Agenten und Map-Reduce-Pipelines.
Theoretisches Rahmenwerk: Präsentation einer Formalisierung von Multi-Agent-Reasoning-Systemen basierend auf der umfangreichen Literatur zur Ausdrucksfähigkeit von Transformern
Algorithmusgrenzen: Ableitung von Grenzen für Agentenzahl und Kommunikationsbedarf für drei verschiedene Algorithmusfamilien (Abruf, Zustandsverfolgung und k-Hop-Reasoning), die Kompromisse zwischen diesen Ressourcen hervorheben
Empirische Validierung: Bereitstellung empirischer Validierung theoretischer Erkenntnisse durch Implementierung optimaler Kommunikationsprotokolle, die zeigen, dass die Leistung bei Genauigkeit, Kommunikation und Token-Nutzung eng mit theoretischen Vorhersagen übereinstimmt
Identifikation von drei Mechanismen: Offenlegung von drei verschiedenen Mechanismen für Multi-Agent-Aufgaben, von denen jeder durch natürliche Aufgabeninstanzen mit breiter Relevanz verkörpert wird
Die Autoren nehmen kausal maskierte (nur Decoder) eindeutige Hard-Attention-Transformer (UHAT) an, eine populäre Abstraktion, bei der Aufmerksamkeitsköpfe ihre Aufmerksamkeit auf Positionen konzentrieren, die die Aufmerksamkeitswerte maximieren:
Definition 3.1 (Multi-Agent-System): Ein Multi-Agent-System A bildet einen String x ∈ S auf einen beschrifteten DAG A(x) mit w(x) ≤ |x| Agenten ab, wobei:
Jeder Knoten eindeutig als T^{(t)}_i gekennzeichnet ist, was den Zustand von Agent i zum Zeitpunkt t darstellt
Zwei Kantentypen definiert sind:
Kommunikationskanten {c, σ}: Übertragung von Symbolen zwischen verschiedenen Agenten
CoT-Kanten {a, σ}: Entsprechend der autoregressiven Dekodierung des Modells
Definition 3.2 (Komplexität):
Berechnungstiefe: Länge des längsten Pfads im Graphen (Proxy für Wanduhrzeit)
Breite: Anzahl der Agenten im System
Größe: Gesamtzahl der Knoten im Graphen
Kommunikationsbudget: Anzahl der Knoten mit ausgehenden Kommunikationskanten
Bei kürzeren Sequenzen (64-512) zeigen beide Modelle ähnliche Leistung
Mit zunehmender Länge gewinnen Multi-Agent-Methoden an Vorteil
Konsistent mit theoretischem Verständnis: Abruf ist eine für Transformer leicht lösbare Aufgabe, bei kurzen Sequenzen kann Kommunations-Overhead schädlich sein
Die Autoren generieren Pareto-Frontier-Diagramme durch Variation des Verzweigungsfaktors des Präfixsummen-Protokolls und validieren so die Kompromissbeziehung zwischen Berechnungstiefe und Kommunikation.
Validierung von drei Mechanismen: Experimente bestätigen die von der Theorie vorhergesagten drei verschiedenen Mechanismen
Kommunikations-Tiefe-Kompromiss: Empirische Ergebnisse unterstützen die theoretisch abgeleiteten Kompromissbeziehungen
Modell-Anweisungsfolge: Bei Mechanismen mit hoher Kommunikation erhöht das Modell den konstanten Token-Overhead, was in der theoretischen Analyse berücksichtigt werden muss
Identifikation von drei Mechanismen: Offenlegung von drei verschiedenen Mechanismen des Multi-Agent-Reasoning, jeder mit charakteristischen Tiefe-Kommunikations-Kompromissen
Theoretische Grenzen: Bereitstellung strenger mathematischer Grenzen für Agentenzahl, Kommunikationsbedarf und Berechnungstiefe
Praktische Anleitung: Bereitstellung prinzipiengestützter Anleitung für die Gestaltung skalierbarer Multi-Agent-Reasoning-Systeme
Aufgabenumfang: Nur drei Algorithmusfamilien analysiert, möglicherweise nicht alle praktischen Reasoning-Aufgaben abdeckend
Modellannahmen: Auf UHAT-Analyse basierende Ergebnisse möglicherweise nicht vollständig auf echte Softmax-Transformer anwendbar
Kommunikationsbeschränkungen: Annahme, dass nur einzelne Token pro Übertragung gesendet werden können; echte Systeme könnten komplexere Kommunikationsmuster unterstützen
Wei, J. et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Zhang, Y. et al. (2024b). Chain of agents: Large language models collaborating on long-context tasks. NeurIPS.
Merrill, W. & Sabharwal, A. (2023). The expressive power of transformers with chain of thought. arXiv preprint.
Amiri, A. et al. (2025). Lower bounds for chain-of-thought reasoning in hard-attention transformers. ICML.
Gesamtbewertung: Dies ist ein hochwertiges Paper, das Theorie und Empirie kombiniert und ein wichtiges theoretisches Fundament für Multi-Agent-Reasoning-Systeme bietet. Obwohl es Raum für Verbesserungen in der Aufgabenabdeckung und praktischen Anwendung gibt, machen seine strenge theoretische Analyse und klare praktische Anleitung es zu einem wichtigen Beitrag in diesem Bereich.