2025-11-20T09:37:15.420376

Benefits and Limitations of Communication in Multi-Agent Reasoning

Rizvi-Martel, Bhattamishra, Rathi et al.

Chain-of-thought prompting has popularized step-by-step reasoning in large language models, yet model performance still degrades as problem complexity and context length grow. By decomposing difficult tasks with long contexts into shorter, manageable ones, recent multi-agent paradigms offer a promising near-term solution to this problem. However, the fundamental capacities of such systems are poorly understood. In this work, we propose a theoretical framework to analyze the expressivity of multi-agent systems. We apply our framework to three algorithmic families: state tracking, recall, and $k$-hop reasoning. We derive bounds on (i) the number of agents required to solve the task exactly, (ii) the quantity and structure of inter-agent communication, and (iii) the achievable speedups as problem size and context scale. Our results identify regimes where communication is provably beneficial, delineate tradeoffs between agent count and bandwidth, and expose intrinsic limitations when either resource is constrained. We complement our theoretical analysis with a set of experiments on pretrained LLMs using controlled synthetic benchmarks. Empirical outcomes confirm the tradeoffs between key quantities predicted by our theory. Collectively, our analysis offers principled guidance for designing scalable multi-agent reasoning systems.

academic

Преимущества и ограничения коммуникации в многоагентном рассуждении

Основная информация

ID статьи: 2510.13903
Название: Benefits and Limitations of Communication in Multi-Agent Reasoning
Авторы: Michael Rizvi-Martel, Satwik Bhattamishra, Neil Rathi, Guillaume Rabusseau, Michael Hahn
Классификация: cs.MA cs.AI cs.LG
Дата публикации: 14 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.13903

Аннотация

Хотя подсказки с цепочкой рассуждений (Chain-of-Thought) способствовали пошаговому рассуждению в больших языковых моделях, производительность модели снижается с ростом сложности задачи и длины контекста. Недавние многоагентные парадигмы предлагают перспективное краткосрочное решение этой проблемы путём разложения сложных задач с длинным контекстом на более короткие и управляемые подзадачи. Однако фундаментальные возможности таких систем ещё недостаточно изучены. В данной работе предлагается теоретическая база для анализа выразительной способности многоагентных систем. Авторы применяют эту базу к трём семействам алгоритмов: отслеживанию состояния, воспоминанию и k-шаговому рассуждению. Исследование выводит границы для: (i) количества агентов, необходимых для точного решения задачи, (ii) объёма и структуры коммуникации между агентами, (iii) достижимого ускорения при расширении размера задачи и контекста. Результаты выявляют механизмы, при которых коммуникация доказуемо полезна, описывают компромиссы между количеством агентов и пропускной способностью, а также раскрывают внутренние ограничения при ограничении любого из ресурсов.

Исследовательский контекст и мотивация

Определение проблемы

Основной вопрос, который решает данное исследование: Существуют ли задачи, для которых коммуникация и динамическое распределение ресурсов в многоагентных системах рассуждения доказуемо полезны на алгоритмическом уровне?

Значимость исследования

Существующие ограничения: Несмотря на то, что подсказки CoT стали стандартом де-факто для решения сложных задач рассуждения, способность больших моделей рассуждения (LRM) к рассуждению деградирует с увеличением сложности экземпляра задачи или длины контекста
Практические потребности: Методы многоагентного сотрудничества достигают более высокой производительности путём разложения сложных задач на более простые подзадачи, но их теоретическая основа требует глубокого понимания
Теоретический пробел: Хотя выразительная способность Transformer с подсказками CoT была тщательно изучена, о фундаментальных ограничениях и компромиссах в коммуникации и распределении ресурсов в многоагентных схемах рассуждения известно мало

Исследовательская мотивация

Авторы сосредоточены на многоагентных системах на основе Transformer, которые равномерно распределяют входные данные размером N между w агентами. Это абстракция многих практических приложений, включая суммаризацию длинного контекста, многоагентный RAG, браузерные агенты и конвейеры map-reduce.

Основные вклады

Теоретическая база: Предложена формализация многоагентных систем рассуждения на основе богатой литературы по выразительной способности Transformer
Алгоритмические границы: Выведены границы для количества агентов и требований к коммуникации для трёх различных семейств алгоритмических задач (воспоминание, отслеживание состояния и k-шаговое рассуждение), подчёркивающие компромиссы между этими ресурсами
Эмпирическая верификация: Обеспечена эмпирическая верификация теоретических идей путём реализации оптимальных протоколов коммуникации, предложенных теорией, демонстрирующая, что производительность в точности, коммуникации и использовании токенов тесно соответствует теоретическим предсказаниям
Выявление трёх механизмов: Раскрыты три различных механизма для многоагентных задач, каждый из которых реализуется естественными экземплярами задач с широкой релевантностью

Подробное описание методологии

Теоретическая модель

Модель Transformer

Авторы предполагают причинно-маскированные (только декодер) уникальные жёсткие внимательные Transformer (UHAT), популярную абстракцию, где головки внимания концентрируют внимание на позициях с максимальными оценками внимания:

UHAT(A)_{i,j} = {1 if j = argmax A_{i,:}, 0 else}

Формализация многоагентной системы

Определение 3.1 (Многоагентная система): Многоагентная система A отображает строку x ∈ S в помеченный DAG A(x) с w(x) ≤ |x| агентами, где:

Каждый узел уникально помечен как T^{(t)}_i, представляющий состояние агента i в момент времени t
Определены два типа рёбер:
- Рёбра коммуникации {c, σ}: передача символа между различными агентами
- Рёбра CoT {a, σ}: соответствуют автарегрессивному декодированию модели

Определение 3.2 (Сложность):

Глубина вычисления: Длина самого длинного пути в графе (прокси для настенного времени)
Ширина: Количество агентов в системе
Размер: Общее количество узлов в графе
Бюджет коммуникации: Количество узлов с исходящими рёбрами коммуникации

Анализ трёх семейств алгоритмов

1. Ассоциативное воспоминание (Associative Recall)

Задача: Учитывая несколько пар ключ-значение и ключ запроса, агенты должны вернуть связанное значение.

Результаты:

Глубина вычисления: O(1)
Количество агентов: w(N), размер блока: N/w(N)
Бюджет коммуникации: O(1)
Размер: O(w(N))

2. Отслеживание состояния (State Tracking)

Задача: Задача отслеживания состояния на конечном моноиде, формализованная как вычисление m₀ · m₁ · ... · mₖ.

Результаты:

Глубина вычисления: O(log w(N) + N/w(N))
Количество агентов: w(N), размер блока: N/w(N)
Бюджет коммуникации: O(w(N))
Размер: N

3. k-шаговое рассуждение

Задача: Учитывая N фактов и k-шаговый запрос f₁(...(fₖ(x))...), агенты должны выполнить итеративный поиск.

Результаты:

Глубина вычисления: O(k)
Количество агентов: w(k), размер блока: N/w(k)
Бюджет коммуникации: O(k)
Размер: O(wk)

Экспериментальная установка

Наборы данных

Авторы используют синтетические эталоны для верификации теоретических предсказаний:

Ассоциативное воспоминание: Случайно сгенерированные строки ключ-значение, запросы равномерно выбраны из ключей
Вычисление чётности: Случайные двоичные строки фиксированной длины
Отслеживание перестановок S5: Последовательности команд обмена 5 шаров в 5 различных ящиках
k-шаговое рассуждение: База фактов сущностей и отношений, генерирующая действительные k-шаговые запросы

Метрики оценки

Точность: Доля правильного выполнения задачи
Глубина вычисления: Количество шагов выполнения протокола
Стоимость коммуникации: Количество токенов, передаваемых между агентами

Методы сравнения

Голосование большинством (Majority Voting): Базовая линия самосогласованности
Цепь агентов (Chain-of-Agents, CoA): Реализация, подобная теоретически оптимальному протоколу
Префиксная сумма (Prefix Sum): Теоретически оптимальный протокол для отслеживания состояния
Итеративный запрос (Iterative Query): Оптимальный протокол для k-шагового рассуждения

Детали реализации

Модели: Llama-3.3-70B-Instruct-Turbo и Llama-3.1-8B-Instruct-Turbo
Платформа: API TogetherAI
Количество экспериментов: 100 прогонов для каждой установки, seed = 42
Конфигурация агентов: Голосование большинством использует 8 агентов

Результаты экспериментов

Основные результаты

Ассоциативное воспоминание

На более коротких последовательностях (64-512) обе модели показывают схожую производительность
С увеличением длины многоагентные методы получают преимущество
Согласуется с теоретическим пониманием: воспоминание — это задача, которую Transformer легко решает, и накладные расходы коммуникации могут быть вредны на коротких последовательностях

Отслеживание состояния (чётность)

Префиксная сумма постоянно превосходит другие методы, особенно с ростом длины последовательности
По сравнению с голосованием большинством, CoA деградирует меньше на длинных последовательностях
Компромисс между глубиной коммуникации и общим объёмом коммуникации соответствует теоретически предсказанному компромиссу глубины N/w(N) против коммуникации w(N)

k-шаговое рассуждение

Итеративный запрос обычно превосходит голосование большинством
Эта тенденция становится более выраженной с увеличением количества шагов
Глубина вычисления растёт с увеличением количества шагов запроса, что согласуется с теорией

Абляционные исследования

Авторы генерируют графики Парето-фронта путём варьирования коэффициента ветвления протокола префиксной суммы, верифицируя отношение компромисса между глубиной вычисления и коммуникацией.

Экспериментальные находки

Верификация трёх механизмов: Эксперименты подтверждают три различных механизма, предсказанные теорией
Компромисс коммуникация-глубина: Эмпирические результаты поддерживают теоретически выведенные отношения компромисса
Следование инструкциям моделью: В механизмах с высокой коммуникацией модель добавляет постоянные накладные расходы токенов, которые необходимо учитывать в теоретическом анализе

Связанные работы

Основные направления исследований

Рассуждение с цепочкой мыслей: Стандарт пошагового рассуждения, установленный Wei et al. (2022) и др.
Многоагентное сотрудничество: Методы разложения задач Zhang et al. (2024b), Tran et al. (2025) и др.
Выразительная способность Transformer: Теоретический анализ Merrill & Sabharwal (2023), Amiri et al. (2025) и др.

Преимущества данной работы

Первый систематический анализ выразительной способности многоагентных систем рассуждения
Предоставляет теоретические границы для коммуникации и распределения ресурсов
Объединяет теоретический анализ с эмпирической верификацией

Заключение и обсуждение

Основные выводы

Выявление трёх механизмов: Раскрыты три различных механизма многоагентного рассуждения, каждый с характерными компромиссами глубина-коммуникация
Теоретические границы: Предоставлены строгие математические границы для количества агентов, требований к коммуникации и глубины вычисления
Практическое руководство: Предоставляет принципиальное руководство для проектирования масштабируемых многоагентных систем рассуждения

Ограничения

Область задач: Анализируются только три семейства алгоритмов, что может не охватывать все практические задачи рассуждения
Предположения модели: Анализ на основе UHAT может не полностью применяться к реальным Transformer с softmax
Ограничения коммуникации: Предполагается, что за раз можно отправить только один токен, хотя реальные системы могут поддерживать более сложные схемы коммуникации

Будущие направления

Расширение задач: Применение базы к другим алгоритмическим задачам, таким как достижимость в графах
Многоагентные парадигмы: Расширение на антагонистические игры или задачи кооперативного обучения с подкреплением
Проектирование практических протоколов: Разработка новых многоагентных систем на основе теоретических идей

Глубокая оценка

Преимущества

Теоретическая строгость: Предоставляет полные математические доказательства и строгий анализ границ
Достаточная эмпирическая верификация: Теоретические предсказания тесно согласуются с экспериментальными результатами
Высокая практическая ценность: Предоставляет конкретное руководство для проектирования многоагентных систем
Ясное изложение: Сложное теоретическое содержание изложено ясно с хорошей поддержкой графиков и таблиц

Недостатки

Ограничение задач: Три семейства алгоритмов могут быть недостаточны для охвата всех важных сценариев рассуждения
Разрыв с практическими приложениями: Существует разрыв между синтетическими задачами и реальными задачами NLP
Упрощение модели: Хотя модель UHAT теоретически обоснована, она всё ещё отличается от реальных моделей

Влияние

Теоретический вклад: Предоставляет первую систематическую теоретическую базу для многоагентных систем рассуждения
Практическая ценность: Направляет проектирование реальных систем, особенно в обработке длинного контекста
Воспроизводимость: Предоставляет полный код и экспериментальные установки

Применимые сценарии

Обработка длинных документов: Суммаризация документов, системы вопросов и ответов
Рассуждение над графами знаний: Запросы многошаговых отношений
Сложные вычислительные задачи: Крупномасштабные задачи рассуждения, требующие разложения

Библиография

Wei, J. et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Zhang, Y. et al. (2024b). Chain of agents: Large language models collaborating on long-context tasks. NeurIPS.
Merrill, W. & Sabharwal, A. (2023). The expressive power of transformers with chain of thought. arXiv preprint.
Amiri, A. et al. (2025). Lower bounds for chain-of-thought reasoning in hard-attention transformers. ICML.

Общая оценка: Это высококачественная работа, объединяющая теорию и эмпирику, которая предоставляет важную теоретическую основу для многоагентных систем рассуждения. Хотя есть место для улучшения в охвате задач и практическом применении, её строгий теоретический анализ и ясное практическое руководство делают её значительным вкладом в данную область.