Benefits and Limitations of Communication in Multi-Agent Reasoning
Rizvi-Martel, Bhattamishra, Rathi et al.
Chain-of-thought prompting has popularized step-by-step reasoning in large language models, yet model performance still degrades as problem complexity and context length grow. By decomposing difficult tasks with long contexts into shorter, manageable ones, recent multi-agent paradigms offer a promising near-term solution to this problem. However, the fundamental capacities of such systems are poorly understood. In this work, we propose a theoretical framework to analyze the expressivity of multi-agent systems. We apply our framework to three algorithmic families: state tracking, recall, and $k$-hop reasoning. We derive bounds on (i) the number of agents required to solve the task exactly, (ii) the quantity and structure of inter-agent communication, and (iii) the achievable speedups as problem size and context scale. Our results identify regimes where communication is provably beneficial, delineate tradeoffs between agent count and bandwidth, and expose intrinsic limitations when either resource is constrained. We complement our theoretical analysis with a set of experiments on pretrained LLMs using controlled synthetic benchmarks. Empirical outcomes confirm the tradeoffs between key quantities predicted by our theory. Collectively, our analysis offers principled guidance for designing scalable multi-agent reasoning systems.
academic
Benefici e Limitazioni della Comunicazione nel Ragionamento Multi-Agente
Sebbene il prompting chain-of-thought abbia promosso il ragionamento passo-passo nei modelli linguistici di grandi dimensioni, le prestazioni del modello si degradano comunque con l'aumento della complessità dei problemi e della lunghezza del contesto. Recenti paradigmi multi-agente offrono una soluzione promettente a breve termine per questo problema, decomponendo compiti difficili con lunghi contesti in sottocompiti più brevi e gestibili. Tuttavia, le capacità fondamentali di tali sistemi non sono ancora state sufficientemente comprese. Questo articolo propone un framework teorico per analizzare la capacità espressiva dei sistemi multi-agente. Gli autori applicano il framework a tre famiglie di algoritmi: tracciamento dello stato, richiamo e ragionamento k-hop. Lo studio deriva limiti per: (i) il numero di agenti necessari per risolvere esattamente un compito, (ii) la quantità e la struttura della comunicazione tra agenti, (iii) l'accelerazione realizzabile con l'espansione della dimensione del problema e del contesto. I risultati identificano i meccanismi per cui la comunicazione è provabilmente vantaggiosa, delineano i compromessi tra il numero di agenti e la larghezza di banda, ed espongono i limiti intrinseci quando una delle risorse è vincolata.
La questione centrale affrontata da questa ricerca è: Esistono compiti a livello algoritmico nei sistemi di ragionamento multi-agente per i quali la comunicazione e l'allocazione dinamica delle risorse sono provabilmente vantaggiose?
Limitazioni Esistenti: Sebbene il prompting Chain-of-Thought (CoT) sia diventato lo standard di fatto per affrontare problemi di ragionamento complesso, la capacità di ragionamento dei modelli di ragionamento di grandi dimensioni (LRM) si degrada con l'aumento della complessità dell'istanza del problema o della lunghezza del contesto
Necessità Pratica: I metodi di collaborazione multi-agente raggiungono prestazioni più forti decomponendo compiti complessi in sottoproblemi più semplici, ma la loro base teorica manca di una comprensione approfondita
Lacuna Teorica: Sebbene la capacità espressiva dei Transformer con prompting CoT sia stata ampiamente studiata, poco si sa sui limiti fondamentali e i compromessi della comunicazione e dell'allocazione delle risorse negli schemi di ragionamento multi-agente
Gli autori si concentrano su sistemi multi-agente basati su Transformer, che dividono equamente un input di dimensione N tra w agenti, un'astrazione di molti scenari, incluse applicazioni pratiche come il riassunto di lunghi contesti, RAG multi-agente, agenti basati su browser e pipeline map-reduce.
Framework Teorico: Propone una formalizzazione dei sistemi di ragionamento multi-agente basata sulla ricca letteratura sulla capacità espressiva dei Transformer
Limiti Algoritmici: Deriva limiti sul numero di agenti e sui requisiti di comunicazione per tre diverse famiglie di compiti algoritmici (richiamo, tracciamento dello stato e ragionamento k-hop), evidenziando i compromessi tra queste risorse
Verifica Empirica: Fornisce una verifica empirica delle intuizioni teoriche implementando i protocolli di comunicazione ottimali suggeriti dalla teoria, dimostrando che le prestazioni in termini di accuratezza, comunicazione e utilizzo di token corrispondono strettamente alle previsioni teoriche
Identificazione di Tre Meccanismi: Rivela tre meccanismi distinti per compiti multi-agente, ciascuno istanziato da istanze di compiti naturali con ampia rilevanza
Gli autori assumono Transformer con attenzione unica hard-masked causale (solo decoder) (UHAT), un'astrazione popolare in cui le teste di attenzione concentrano l'attenzione sulla posizione che massimizza il punteggio di attenzione:
Su sequenze più brevi (64-512), i due modelli mostrano prestazioni simili
Con l'aumento della lunghezza, i metodi multi-agente ottengono vantaggi
Coerente con la comprensione teorica: il richiamo è un compito facilmente risolvibile per i Transformer, e il sovraccarico di comunicazione potrebbe essere dannoso su sequenze brevi
La somma dei prefissi supera costantemente gli altri metodi, in particolare con la crescita della lunghezza della sequenza
Rispetto alla votazione a maggioranza, CoA si degrada meno su sequenze lunghe
Il compromesso tra profondità di comunicazione e quantità totale di comunicazione è coerente con il compromesso teoricamente previsto di profondità N/w(N) rispetto a comunicazione w(N)
Gli autori generano curve della frontiera di Pareto variando il fattore di ramificazione del protocollo di somma dei prefissi, verificando la relazione di compromesso tra profondità computazionale e comunicazione.
Verifica dei Tre Meccanismi: Gli esperimenti confermano i tre meccanismi distinti previsti dalla teoria
Compromesso Comunicazione-Profondità: I risultati empirici supportano le relazioni di compromesso teoricamente derivate
Conformità alle Istruzioni del Modello: Nei meccanismi ad alta comunicazione, il modello aggiunge un sovraccarico di token costante, che deve essere considerato nell'analisi teorica
Identificazione di Tre Meccanismi: Rivela tre meccanismi distinti del ragionamento multi-agente, ciascuno con caratteristiche specifiche di compromesso profondità-comunicazione
Limiti Teorici: Fornisce limiti matematici rigorosi sul numero di agenti, sui requisiti di comunicazione e sulla profondità computazionale
Guida Pratica: Fornisce una guida basata su principi per la progettazione di sistemi di ragionamento multi-agente scalabili
Ambito dei Compiti: Analizza solo tre famiglie di algoritmi, che potrebbero non coprire tutti i compiti di ragionamento pratico
Assunzioni del Modello: L'analisi basata su UHAT potrebbe non essere completamente applicabile ai Transformer softmax reali
Limitazioni di Comunicazione: Assume che sia possibile inviare solo un singolo token alla volta, mentre i sistemi reali potrebbero supportare modelli di comunicazione più complessi
Wei, J. et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Zhang, Y. et al. (2024b). Chain of agents: Large language models collaborating on long-context tasks. NeurIPS.
Merrill, W. & Sabharwal, A. (2023). The expressive power of transformers with chain of thought. arXiv preprint.
Amiri, A. et al. (2025). Lower bounds for chain-of-thought reasoning in hard-attention transformers. ICML.
Valutazione Complessiva: Questo è un articolo di alta qualità che combina teoria e empirismo, fornendo una base teorica importante per i sistemi di ragionamento multi-agente. Sebbene vi sia spazio per miglioramenti nella copertura dei compiti e nelle applicazioni pratiche, l'analisi teorica rigorosa e la guida pratica chiara lo rendono un contributo significativo nel campo.