Benefits and Limitations of Communication in Multi-Agent Reasoning
Rizvi-Martel, Bhattamishra, Rathi et al.
Chain-of-thought prompting has popularized step-by-step reasoning in large language models, yet model performance still degrades as problem complexity and context length grow. By decomposing difficult tasks with long contexts into shorter, manageable ones, recent multi-agent paradigms offer a promising near-term solution to this problem. However, the fundamental capacities of such systems are poorly understood. In this work, we propose a theoretical framework to analyze the expressivity of multi-agent systems. We apply our framework to three algorithmic families: state tracking, recall, and $k$-hop reasoning. We derive bounds on (i) the number of agents required to solve the task exactly, (ii) the quantity and structure of inter-agent communication, and (iii) the achievable speedups as problem size and context scale. Our results identify regimes where communication is provably beneficial, delineate tradeoffs between agent count and bandwidth, and expose intrinsic limitations when either resource is constrained. We complement our theoretical analysis with a set of experiments on pretrained LLMs using controlled synthetic benchmarks. Empirical outcomes confirm the tradeoffs between key quantities predicted by our theory. Collectively, our analysis offers principled guidance for designing scalable multi-agent reasoning systems.
academic
Преимущества и ограничения коммуникации в многоагентном рассуждении
Хотя подсказки с цепочкой рассуждений (Chain-of-Thought) способствовали пошаговому рассуждению в больших языковых моделях, производительность модели снижается с ростом сложности задачи и длины контекста. Недавние многоагентные парадигмы предлагают перспективное краткосрочное решение этой проблемы путём разложения сложных задач с длинным контекстом на более короткие и управляемые подзадачи. Однако фундаментальные возможности таких систем ещё недостаточно изучены. В данной работе предлагается теоретическая база для анализа выразительной способности многоагентных систем. Авторы применяют эту базу к трём семействам алгоритмов: отслеживанию состояния, воспоминанию и k-шаговому рассуждению. Исследование выводит границы для: (i) количества агентов, необходимых для точного решения задачи, (ii) объёма и структуры коммуникации между агентами, (iii) достижимого ускорения при расширении размера задачи и контекста. Результаты выявляют механизмы, при которых коммуникация доказуемо полезна, описывают компромиссы между количеством агентов и пропускной способностью, а также раскрывают внутренние ограничения при ограничении любого из ресурсов.
Основной вопрос, который решает данное исследование: Существуют ли задачи, для которых коммуникация и динамическое распределение ресурсов в многоагентных системах рассуждения доказуемо полезны на алгоритмическом уровне?
Существующие ограничения: Несмотря на то, что подсказки CoT стали стандартом де-факто для решения сложных задач рассуждения, способность больших моделей рассуждения (LRM) к рассуждению деградирует с увеличением сложности экземпляра задачи или длины контекста
Практические потребности: Методы многоагентного сотрудничества достигают более высокой производительности путём разложения сложных задач на более простые подзадачи, но их теоретическая основа требует глубокого понимания
Теоретический пробел: Хотя выразительная способность Transformer с подсказками CoT была тщательно изучена, о фундаментальных ограничениях и компромиссах в коммуникации и распределении ресурсов в многоагентных схемах рассуждения известно мало
Авторы сосредоточены на многоагентных системах на основе Transformer, которые равномерно распределяют входные данные размером N между w агентами. Это абстракция многих практических приложений, включая суммаризацию длинного контекста, многоагентный RAG, браузерные агенты и конвейеры map-reduce.
Теоретическая база: Предложена формализация многоагентных систем рассуждения на основе богатой литературы по выразительной способности Transformer
Алгоритмические границы: Выведены границы для количества агентов и требований к коммуникации для трёх различных семейств алгоритмических задач (воспоминание, отслеживание состояния и k-шаговое рассуждение), подчёркивающие компромиссы между этими ресурсами
Эмпирическая верификация: Обеспечена эмпирическая верификация теоретических идей путём реализации оптимальных протоколов коммуникации, предложенных теорией, демонстрирующая, что производительность в точности, коммуникации и использовании токенов тесно соответствует теоретическим предсказаниям
Выявление трёх механизмов: Раскрыты три различных механизма для многоагентных задач, каждый из которых реализуется естественными экземплярами задач с широкой релевантностью
Авторы предполагают причинно-маскированные (только декодер) уникальные жёсткие внимательные Transformer (UHAT), популярную абстракцию, где головки внимания концентрируют внимание на позициях с максимальными оценками внимания:
На более коротких последовательностях (64-512) обе модели показывают схожую производительность
С увеличением длины многоагентные методы получают преимущество
Согласуется с теоретическим пониманием: воспоминание — это задача, которую Transformer легко решает, и накладные расходы коммуникации могут быть вредны на коротких последовательностях
Префиксная сумма постоянно превосходит другие методы, особенно с ростом длины последовательности
По сравнению с голосованием большинством, CoA деградирует меньше на длинных последовательностях
Компромисс между глубиной коммуникации и общим объёмом коммуникации соответствует теоретически предсказанному компромиссу глубины N/w(N) против коммуникации w(N)
Авторы генерируют графики Парето-фронта путём варьирования коэффициента ветвления протокола префиксной суммы, верифицируя отношение компромисса между глубиной вычисления и коммуникацией.
Верификация трёх механизмов: Эксперименты подтверждают три различных механизма, предсказанные теорией
Компромисс коммуникация-глубина: Эмпирические результаты поддерживают теоретически выведенные отношения компромисса
Следование инструкциям моделью: В механизмах с высокой коммуникацией модель добавляет постоянные накладные расходы токенов, которые необходимо учитывать в теоретическом анализе
Область задач: Анализируются только три семейства алгоритмов, что может не охватывать все практические задачи рассуждения
Предположения модели: Анализ на основе UHAT может не полностью применяться к реальным Transformer с softmax
Ограничения коммуникации: Предполагается, что за раз можно отправить только один токен, хотя реальные системы могут поддерживать более сложные схемы коммуникации
Wei, J. et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Zhang, Y. et al. (2024b). Chain of agents: Large language models collaborating on long-context tasks. NeurIPS.
Merrill, W. & Sabharwal, A. (2023). The expressive power of transformers with chain of thought. arXiv preprint.
Amiri, A. et al. (2025). Lower bounds for chain-of-thought reasoning in hard-attention transformers. ICML.
Общая оценка: Это высококачественная работа, объединяющая теорию и эмпирику, которая предоставляет важную теоретическую основу для многоагентных систем рассуждения. Хотя есть место для улучшения в охвате задач и практическом применении, её строгий теоретический анализ и ясное практическое руководство делают её значительным вкладом в данную область.