Chain-of-thought prompting has popularized step-by-step reasoning in large language models, yet model performance still degrades as problem complexity and context length grow. By decomposing difficult tasks with long contexts into shorter, manageable ones, recent multi-agent paradigms offer a promising near-term solution to this problem. However, the fundamental capacities of such systems are poorly understood. In this work, we propose a theoretical framework to analyze the expressivity of multi-agent systems. We apply our framework to three algorithmic families: state tracking, recall, and $k$-hop reasoning. We derive bounds on (i) the number of agents required to solve the task exactly, (ii) the quantity and structure of inter-agent communication, and (iii) the achievable speedups as problem size and context scale. Our results identify regimes where communication is provably beneficial, delineate tradeoffs between agent count and bandwidth, and expose intrinsic limitations when either resource is constrained. We complement our theoretical analysis with a set of experiments on pretrained LLMs using controlled synthetic benchmarks. Empirical outcomes confirm the tradeoffs between key quantities predicted by our theory. Collectively, our analysis offers principled guidance for designing scalable multi-agent reasoning systems.
論文ID : 2510.13903タイトル : Benefits and Limitations of Communication in Multi-Agent Reasoning著者 : Michael Rizvi-Martel, Satwik Bhattamishra, Neil Rathi, Guillaume Rabusseau, Michael Hahn分類 : cs.MA cs.AI cs.LG発表日 : 2025年10月14日 (arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.13903 Chain-of-thought プロンプティングは大規模言語モデルにおいて段階的推論を普及させましたが、問題の複雑性と文脈長の増加に伴い、モデルの性能は依然として低下します。長文脈の困難なタスクをより短く、管理しやすいサブタスクに分解することで、最近のマルチエージェント・パラダイムはこの問題に対する有望な近期的解決策を提供しています。しかし、このようなシステムの基本的な能力はまだ十分に理解されていません。本論文は、マルチエージェント・システムの表現能力を分析するための理論的枠組みを提案しています。著者らはこの枠組みを3つのアルゴリズム族に適用しています:状態追跡、想起、およびk-hop推論。研究は以下の側面に関する境界を導出しています:(i) タスクを正確に解決するために必要なエージェント数、(ii) エージェント間通信の量と構造、(iii) 問題規模と文脈の拡張に伴い達成可能な高速化。結果は通信が証明可能に有益であるメカニズムを特定し、エージェント数と帯域幅の間のトレードオフを描き、いずれかのリソースが制限される場合の内在的な制限を明らかにしています。
本研究が解決しようとする中核的な問題は:マルチエージェント推論システムにおいて、通信と動的リソース配分はアルゴリズムレベルで証明可能に有益なタスクが存在するか?
既存の制限 :Chain-of-Thought (CoT) プロンプティングが複雑な推論問題を処理するための事実上の標準となっていますが、大規模推論モデル (LRMs) の推論能力は問題インスタンスの複雑性の増加または文脈長の成長に伴い低下します実際的な必要性 :マルチエージェント協調方法は複雑なタスクをより単純なサブ問題に分解することでより強い性能を実現しますが、その理論的基礎は深い理解が不足しています理論的ギャップ :CoTプロンプティングを備えたTransformerの表現能力は深く研究されていますが、マルチエージェント推論スキームにおける通信とリソース配分の基本的な制限とトレードオフについてはほとんど知られていません著者らはTransformerベースのマルチエージェント・システムに焦点を当てており、これらのシステムはサイズNの入力をw個のエージェント間で均等に分割します。これは長文脈要約、マルチエージェントRAG、ブラウザ型エージェント、map-reduceパイプラインなどの実用的なアプリケーション・シナリオを含む多くの設定の抽象化です。
理論的枠組み :Transformer表現能力に関する豊富な文献に基づくマルチエージェント推論システムの形式化を提案アルゴリズム境界 :3つの異なるアルゴリズム・タスク族(想起、状態追跡、k-hop推論)に対するエージェント数と通信要件の境界を導出し、これらのリソース間のトレードオフを強調実証的検証 :理論が与える最適通信プロトコルを実装することで、理論的洞察の実証的検証を提供し、精度、通信、トークン使用の観点から性能が理論的予測と密接に一致することを示す3つのメカニズムの特定 :マルチエージェント・タスクの3つの異なるメカニズムを明らかにし、各々は広範な関連性を持つ自然なタスク・インスタンスによって具体化される著者らは因果マスク(デコーダーのみ)を持つ一意なハード注意Transformer (UHAT) を仮定しています。これは注意ヘッドが注意スコアを最大化する位置に注意を集中させる一般的な抽象化です:
UHAT(A)_{i,j} = {1 if j = argmax A_{i,:}, 0 else}
定義3.1 (マルチエージェント・システム) :マルチエージェント・システムAは文字列x ∈ Sを、w(x) ≤ |x|個のエージェントを持つラベル付きDAG A(x)にマッピングします。ここで:
各ノードはT^{(t)}_iで一意にラベル付けされ、時刻tにおけるエージェントiの状態を表します 2つのエッジタイプを定義します:
通信エッジ{c, σ}:異なるエージェント間でシンボルを伝達 CoTエッジ{a, σ}:モデルの自己回帰デコーディングに対応 定義3.2 (複雑性) :
計算深度 :グラフ内の最長パスの長さ(壁時計時間のプロキシ)幅 :システム内のエージェント数サイズ :グラフ内のノード総数通信予算 :送信通信エッジを持つノード数タスク :複数のキー値ペアとクエリキーが与えられた場合、エージェントは関連する値を返す必要があります。
結果 :
計算深度:O(1) エージェント数:w(N)、ブロックサイズ:N/w(N) 通信予算:O(1) サイズ:O(w(N)) タスク :有限モノイド上の状態追跡問題。m₀ · m₁ · ... · mₖの評価として形式化されます。
結果 :
計算深度:O(log w(N) + N/w(N)) エージェント数:w(N)、ブロックサイズ:N/w(N) 通信予算:O(w(N)) サイズ:N タスク :N個の事実とk-hopクエリf₁(...(fₖ(x))...)が与えられた場合、エージェントは反復的に検索する必要があります。
結果 :
計算深度:O(k) エージェント数:w(k)、ブロックサイズ:N/w(k) 通信予算:O(k) サイズ:O(wk) 著者らは理論的予測を検証するために合成ベンチマークを使用しています:
連想想起 :ランダムに生成されたキー値文字列、クエリはキーから均一にサンプリングパリティ計算 :固定長のランダムバイナリ文字列S5置換追跡 :5つのボールが5つの異なるボックス内で交換されるコマンドシーケンスk-hop推論 :エンティティと関係のファクトベース、有効なk-hopクエリを生成精度 :タスク完了の正解率計算深度 :プロトコル実行のステップ数通信コスト :エージェント間で転送されるトークン数多数決投票 (Majority Voting) :自己一貫性ベースラインChain-of-Agents (CoA) :理論的最適プロトコルに類似した実装プレフィックス和 (Prefix Sum) :状態追跡の理論的最適プロトコル反復クエリ (Iterative Query) :k-hop推論の最適プロトコルモデル:Llama-3.3-70B-Instruct-TurboおよびLlama-3.1-8B-Instruct-Turbo プラットフォーム:TogetherAI API 実験回数:各設定について100回実行、シード値は42 エージェント構成:多数決投票は8個のエージェントを使用 より短いシーケンス(64-512)では、2つのモデルは同様のパフォーマンスを示します 長さが増加するにつれて、マルチエージェント方法が優位性を獲得します 理論的理解と一致:想起はTransformerが容易に解決するタスクであり、短いシーケンスでは通信オーバーヘッドが有害である可能性があります プレフィックス和は常に他の方法を上回り、特にシーケンス長の増加に伴い顕著です 多数決投票と比較して、CoAは長いシーケンスでの低下が少なくなります 通信深度と総通信量の間のトレードオフは、理論的に予測されたN/w(N)深度対w(N)通信トレードオフと一致しています 反復クエリは通常、多数決投票を上回ります ホップ数が増加するにつれて、この傾向はより顕著になります 計算深度はクエリホップ数の増加に伴い増加し、理論と一致しています 著者らはプレフィックス和プロトコルの分岐係数を変更することでパレート最適曲線グラフを生成し、計算深度と通信の間のトレードオフ関係を検証しました。
3つのメカニズムの検証 :実験は理論的に予測された3つの異なるメカニズムを確認しました通信-深度トレードオフ :実証的結果は理論的に導出されたトレードオフ関係を支持していますモデル指示遵守 :高通信メカニズムでは、モデルは定数トークンオーバーヘッドを増加させます。これは理論的分析で考慮する必要がありますChain-of-Thought推論 :Wei et al. (2022)などが確立した段階的推論の標準マルチエージェント協調 :Zhang et al. (2024b)、Tran et al. (2025)などのタスク分解方法Transformer表現能力 :Merrill & Sabharwal (2023)、Amiri et al. (2025)などの理論的分析マルチエージェント推論システムの表現能力を初めて体系的に分析 通信とリソース配分の理論的境界を提供 理論的分析と実証的検証を組み合わせ 3つのメカニズムの特定 :マルチエージェント推論の3つの異なるメカニズムを明らかにし、各々は特定の深度-通信トレードオフ特性を持ちます理論的境界 :エージェント数、通信要件、計算深度に対する厳密な数学的境界を提供実用的ガイダンス :スケーラブルなマルチエージェント推論システムの設計に対する原則的なガイダンスを提供タスク範囲 :3つのアルゴリズム族のみを分析し、すべての実際の推論タスクをカバーしていない可能性がありますモデル仮定 :UHATに基づく分析は実際のsoftmax Transformerに完全には適用されない可能性があります通信制限 :各回に単一トークンのみを送信できると仮定していますが、実際のシステムはより複雑な通信パターンをサポートする可能性がありますタスク拡張 :グラフ到達可能性などの他のアルゴリズム・タスクへの枠組みの適用マルチエージェント・パラダイム :対抗的ゲームまたは協調強化学習タスクへの拡張実用的プロトコル設計 :理論的洞察に基づいた新しいマルチエージェント・システムの設計理論的厳密性 :完全な数学的証明と厳密な境界分析を提供実証的検証が充分 :理論的予測と実験結果が高度に一致実用的価値が高い :マルチエージェント・システム設計に具体的なガイダンスを提供執筆が明確 :複雑な理論的内容が明確に表現され、図表が理解を助けますタスク制限 :3つのアルゴリズム族はすべての重要な推論シナリオをカバーするには不十分である可能性があります実際のアプリケーション・ギャップ :合成タスクと実際のNLPタスク間に差異が存在モデル簡略化 :UHATモデルは理論的には合理的ですが、実際のモデルとの差異が残ります理論的貢献 :マルチエージェント推論システムに対する初の体系的理論的枠組みを提供実用的価値 :実際のシステム設計を指導し、特に長文脈処理の側面で有用再現性 :完全なコードと実験設定を提供長文書処理 :文書要約、質問応答システム知識グラフ推論 :マルチホップ関係クエリ複雑な計算タスク :分解が必要な大規模推論問題Wei, J. et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS. Zhang, Y. et al. (2024b). Chain of agents: Large language models collaborating on long-context tasks. NeurIPS. Merrill, W. & Sabharwal, A. (2023). The expressive power of transformers with chain of thought. arXiv preprint. Amiri, A. et al. (2025). Lower bounds for chain-of-thought reasoning in hard-attention transformers. ICML. 総合評価 :これは理論と実証を組み合わせた高品質な論文であり、マルチエージェント推論システムに対する重要な理論的基礎を提供しています。タスク・カバレッジと実際のアプリケーション側面で改善の余地がありますが、その厳密な理論的分析と明確な実用的ガイダンスにより、この分野への重要な貢献となっています。