Benefits and Limitations of Communication in Multi-Agent Reasoning
Rizvi-Martel, Bhattamishra, Rathi et al.
Chain-of-thought prompting has popularized step-by-step reasoning in large language models, yet model performance still degrades as problem complexity and context length grow. By decomposing difficult tasks with long contexts into shorter, manageable ones, recent multi-agent paradigms offer a promising near-term solution to this problem. However, the fundamental capacities of such systems are poorly understood. In this work, we propose a theoretical framework to analyze the expressivity of multi-agent systems. We apply our framework to three algorithmic families: state tracking, recall, and $k$-hop reasoning. We derive bounds on (i) the number of agents required to solve the task exactly, (ii) the quantity and structure of inter-agent communication, and (iii) the achievable speedups as problem size and context scale. Our results identify regimes where communication is provably beneficial, delineate tradeoffs between agent count and bandwidth, and expose intrinsic limitations when either resource is constrained. We complement our theoretical analysis with a set of experiments on pretrained LLMs using controlled synthetic benchmarks. Empirical outcomes confirm the tradeoffs between key quantities predicted by our theory. Collectively, our analysis offers principled guidance for designing scalable multi-agent reasoning systems.
Chain-of-thought 프롬프팅은 대규모 언어 모델에서 단계적 추론을 널리 보급했지만, 문제 복잡성과 문맥 길이가 증가함에 따라 모델 성능은 여전히 저하됩니다. 긴 문맥의 어려운 작업을 더 짧고 관리하기 쉬운 부작업으로 분해함으로써, 최근의 다중 에이전트 패러다임은 이 문제에 대한 유망한 근기 해결책을 제시합니다. 그러나 이러한 시스템의 기본 능력은 아직 충분히 이해되지 않았습니다. 본 논문은 다중 에이전트 시스템의 표현 능력을 분석하기 위한 이론적 프레임워크를 제시합니다. 저자들은 이 프레임워크를 세 가지 알고리즘 계열에 적용합니다: 상태 추적, 회상 및 k-홉 추론. 연구는 다음 측면의 경계를 도출합니다: (i) 작업을 정확히 해결하는 데 필요한 에이전트의 수, (ii) 에이전트 간 통신의 양과 구조, (iii) 문제 규모 및 문맥 확장에 따라 달성 가능한 가속. 결과는 통신이 증명 가능하게 유익한 메커니즘을 식별하고, 에이전트 수와 대역폭 간의 트레이드오프를 그리며, 두 자원 중 하나가 제한될 때의 내재적 한계를 노출합니다.
저자들은 w개의 에이전트 간에 크기 N의 입력을 동등하게 분할하는 Transformer 기반 다중 에이전트 시스템에 초점을 맞춥니다. 이는 긴 문맥 요약, 다중 에이전트 RAG, 브라우저형 에이전트 및 맵-리듀스 파이프라인 등 많은 설정과 실제 응용 시나리오의 추상화입니다.