2025-11-12T15:46:10.477787

PIMAEX: Multi-Agent Exploration through Peer Incentivization

KÃ¶lle, Tochtermann, SchÃ¶nberger et al.

While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.

academic

PIMAEX: Многоагентное исследование через стимулирование сверстников

Основная информация

ID статьи: 2501.01266
Название: PIMAEX: Multi-Agent Exploration through Peer Incentivization
Авторы: Michael Kölle, Johannes Tochtermann, Julian Schönberger, Gerhard Stenzel, Philipp Altmann, Claudia Linnhoff-Popien (LMU Munich)
Классификация: cs.MA (многоагентные системы), cs.AI (искусственный интеллект)
Дата публикации: 2 января 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.01266

Аннотация

Хотя проблема исследования в одноагентном обучении с подкреплением получила широкое внимание, проблема исследования в многоагентном обучении с подкреплением остается относительно недостаточно изученной. Для решения этой проблемы авторы предлагают функцию вознаграждения на основе стимулирования сверстников, вдохновленную предыдущими исследованиями внутренней любознательности и вознаграждений на основе влияния. Вознаграждение PIMAEX (сокращение от Peer-Incentivized Multi-Agent Exploration) направлено на улучшение исследования в многоагентной среде путем поощрения агентов оказывать влияние друг на друга, тем самым повышая вероятность встречи с новыми состояниями. Исследование оценивает комбинацию вознаграждения PIMAEX с алгоритмом PIMAEX-Communication в среде Consume/Explore, которая представляет собой частично наблюдаемую среду с обманчивыми вознаграждениями, специально разработанную для проверки дилеммы исследования-эксплуатации и проблем распределения кредита. Экспериментальные результаты показывают, что агенты, использующие вознаграждение PIMAEX, превосходят агентов без него.

Исследовательский контекст и мотивация

Основные проблемы

Вызовы многоагентного исследования: Проблема исследования в многоагентном обучении с подкреплением сложнее, чем в одноагентном случае, поскольку объединенное пространство состояний растет экспоненциально с количеством агентов
Требования координации: Поскольку вероятности переходов состояния зависят от объединенных действий всех агентов, отдельный агент не может независимо исследовать важные части пространства состояний
Разреженные и обманчивые вознаграждения: В средах с разреженными или обманчивыми вознаграждениями агенты легко застревают в локальных оптимумах
Проблема распределения кредита: Временное расстояние между последовательностями действий и окончательным вознаграждением затрудняет распределение кредита

Значимость исследования

Многоагентные системы становятся все более важными в приложениях реального мира (например, автономное вождение, робототехника и т.д.)
Эффективное многоагентное исследование является ключом к выполнению сложных совместных задач
Существующие методы в основном сосредоточены на координации и сотрудничестве, а не на специальном решении проблем исследования

Ограничения существующих методов

Методы исследования для одного агента (например, ε-жадная стратегия) имеют ограниченную эффективность в многоагентной среде
Методы на основе внутренней любознательности в основном разработаны для одного агента
Вознаграждения на основе влияния в основном используются для улучшения координации, а не для специального содействия исследованию

Основные вклады

Предложение функции вознаграждения PIMAEX: Новый механизм стимулирования сверстников, сочетающий внутреннюю любознательность и социальное влияние для содействия многоагентному исследованию
Построение обобщенной структуры вознаграждений социального влияния: Объединение концепций влияния в предыдущих работах, включая взвешенную комбинацию трех компонентов α, β и γ
Разработка алгоритма PIMAEX-Communication: Алгоритм обучения многоагентов на основе механизма коммуникации, который может быть объединен с любым алгоритмом actor-critic
Разработка среды Consume/Explore: Специально разработанная тестовая среда для оценки дилеммы исследования-эксплуатации и проблем распределения кредита
Эмпирическая проверка: Демонстрация эффективности метода PIMAEX в сложной среде

Подробное описание методов

Определение задачи

Исследование сосредоточено на частично наблюдаемых многоагентных средах, где:

Агенты должны найти баланс между исследованием и эксплуатацией
Среда имеет разреженные или обманчивые вознаграждения
Требуется координация между агентами для эффективного исследования пространства состояний
Существуют долгосрочные проблемы распределения кредита

Архитектура модели

1. Обобщенная функция вознаграждения социального влияния

Обобщенное вознаграждение влияния для агента j определяется как:

r_j = Σ_{k≠j} [α·PI^α_{j→k} + β·PI^β_{j→k}·r^w_k + γ·VI^w_{j→k}]

Где:

Компонент α: Прямое вознаграждение на основе влияния политики (аналогично Jaques et al., 2018)
Компонент β: Основное инновационное вклад авторов, основанный на произведении влияния и вознаграждения затронутого агента
Компонент γ: Долгосрочное вознаграждение на основе влияния стоимости (аналогично Wang et al., 2019)

2. Влияние политики и влияние стоимости

Влияние политики измеряется с использованием дивергенции KL или PMI:

PI^DKL_{j→i} = D_KL[π^info_i || π^marginal_{j→i}]
PI^PMI_{j→i} = log(p(a_i|o_i, info_{j→i})/p(a_i|o_i))

Влияние стоимости определяется как:

VI_{j→i} = V^info_i - V^marginal_{j→i}

3. Вознаграждение PIMAEX

Вознаграждение PIMAEX объединяет внешние и внутренние вознаграждения:

r^w_k = β_env·r^env_k + β_int·r^int_k
VI^w_{j→k} = γ_env·VI^env_{j→k} + γ_int·VI^int_{j→k}

Технические инновации

Инновация компонента β: Впервые предложен механизм стимулирования на основе произведения влияния и вознаграждения затронутого агента
Контрфактическое рассуждение: Расчет маргинальной политики и функции стоимости через выборку контрфактических сообщений
Механизм коммуникации: Дискретный канал сообщений позволяет агентам влиять друг на друга
Интеграция внутренней любознательности: Объединение RND (Random Network Distillation) с социальным влиянием

Экспериментальная установка

Среда Consume/Explore

Характеристики среды:

Частично наблюдаемая среда с 4 агентами
Каждый агент имеет частную производственную линию, производящую C расходных материалов каждые M шагов
Три типа действий: бездействие, потребление, исследование
Действие исследования повышает производительность всех агентов, но не дает немедленного вознаграждения

Ключевые параметры:

Порог коллективного исследования E = 0,5 (требуется одновременное исследование как минимум 2 агентов для гарантированного успеха)
Для достижения следующего уровня производства требуется c_max = 2000 успешных исследований
Максимальный уровень производства C_max = 5

Пространство наблюдений: 5-мерный вектор

Частная информация: текущее предложение, место в хранилище, время до следующего производства
Глобальная информация: текущий уровень производства, количество успешных исследований

Метрики оценки

Объединенное вознаграждение: Общее вознаграждение всех агентов
Вариативность индивидуального вознаграждения: Отражает степень разделения труда
Покрытие пространства состояний: Прямая мера исследования
Статистика действий: Процент действий потребления/исследования и количество одновременных действий
Уровень производства: Достигнутый уровень производства и шаги, необходимые для достижения каждого уровня

Методы сравнения

Vanilla PPO: Базовый агент PPO
PPO+RND: Агент с внутренней любознательностью на основе случайной дистилляции сети
Агенты PIMAEX с одним компонентом: Агенты, использующие только компоненты α, β или γ

Детали реализации

На основе библиотеки acme от DeepMind и фреймворка JAX
Шаги обучения: 1e7
Размер пакета: 16, длина развертывания: 128
Скорость обучения: 1e-4, коэффициент дисконтирования: 0,999
Каждая модель обучается с использованием 3 случайных начальных значений

Экспериментальные результаты

Основные результаты

Общая производительность:
- Агент PIMAEX β показывает лучшие результаты, значительно превосходя PPO+RND и vanilla PPO
- Все варианты PIMAEX превосходят базовые методы
- PIMAEX β показывает наименьшее стандартное отклонение, что указывает на более стабильную политику
Поведение исследования:
- Агент PIMAEX α является наиболее активным исследователем
- Агент PIMAEX β демонстрирует явное разделение труда: агенты 1 и 3 сосредоточены на исследовании, агенты 2 и 4 в основном потребляют
- Все методы достигают парного координированного исследования (примерно 1/3 времени эпизода)
Покрытие пространства состояний:
- Различия между методами в окончательном покрытии исследованного пространства состояний относительно небольшие
- PIMAEX α показывает лучшие результаты в покрытии исследования в пределах эпизода
- PIMAEX β имеет наименьшее стандартное отклонение в покрытии пространства состояний агента

Абляционные исследования

Анализ отдельных компонентов:

Компонент α (чистое вознаграждение влияния): Способствует наибольшему поведению исследования
Компонент β (влияние × вознаграждение): Достигает наивысшего общего вознаграждения и наиболее стабильной политики
Компонент γ (влияние стоимости): Производительность находится между α и β

Ключевые выводы

Неожиданное понимание: Участие во внутренних вознаграждениях других агентов не обязательно приводит к большему исследованию
Разделение труда: PIMAEX β естественным образом формирует разделение между исследователями и эксплуатирующими
Стабильность: Компонент β значительно повышает стабильность политики (низкое стандартное отклонение)
Модели координации: Агенты в основном координируют попарно, а не в более крупных группах

Связанные работы

Внутренняя мотивация и любознательность

Исследование на основе подсчета: Измерение новизны через подсчет посещений состояния
Методы на основе ошибки предсказания: Вознаграждение на основе ошибки предсказания обученной модели
Случайная дистилляция сети (RND): Использование случайной сети для избежания "проблемы шумного телевидения"

Многоагентная координация и сотрудничество

Методы CTDE: Структура централизованного обучения и децентрализованного выполнения
Механизмы коммуникации: Обмен информацией между агентами для улучшения координации
Контрфактическое рассуждение: Определение вклада отдельных агентов

Социальное влияние

Jaques et al. (2018): Вознаграждение влияния на основе контрфактического рассуждения
Wang et al. (2019): Методы EITI и EDTI, введение концепции интерактивной стоимости

Заключение и обсуждение

Основные выводы

Эффективность PIMAEX: Вознаграждение PIMAEX значительно улучшает производительность многоагентного исследования
Инновация компонента β: Предложенный новый компонент β достигает наивысшего общего вознаграждения и наиболее стабильной политики
Естественное разделение труда: PIMAEX β способствует естественному разделению труда между агентами
Парадокс исследования: Индивидуальная внутренняя любознательность в сочетании с вознаграждением влияния может быть более эффективной, чем общее внутреннее вознаграждение

Ограничения

Ограничения архитектуры сети: Используются только относительно простые полносвязные сети, более сложные архитектуры не тестировались
Ограничения алгоритма: Оценка проводилась только на PPO, другие методы actor-critic не тестировались
Продолжительность обучения: Относительно короткое время обучения может повлиять на выводы
Сложность среды: Оценка проводилась только в одной задаче с малым пространством состояний и действий
Масштабируемость: Производительность при большем количестве агентов не тестировалась

Направления будущих исследований

Более сложные архитектуры: Тестирование более мощных моделей, таких как рекуррентные нейронные сети
Разнообразные алгоритмы: Оценка комбинации с другими алгоритмами, такими как IMPALA
Сложные среды: Проверка в средах с большим пространством состояний и более сложными задачами
Исследование масштабируемости: Тестирование производительности при большем количестве агентов
Теоретический анализ: Предоставление более глубокого теоретического обоснования и анализа сходимости

Глубокая оценка

Преимущества

Важность проблемы: Решение часто упускаемой, но важной проблемы исследования в многоагентном обучении с подкреплением
Методологическая инновация: Предложение компонента β является оригинальным, унифицированная структура интегрирует предыдущие работы
Дизайн экспериментов: Среда Consume/Explore хитроумно разработана и эффективно тестирует целевую проблему
Достаточная эмпирическая проверка: Многоаспектные метрики оценки обеспечивают комплексный анализ производительности
Неожиданные открытия: Понимание индивидуальной любознательности в сравнении с общим вознаграждением является поучительным

Недостатки

Теоретическое обоснование: Отсутствует теоретическое объяснение того, почему компонент β эффективен
Ограничения среды: Проверка только в одной самостоятельно разработанной среде, обобщаемость вызывает сомнения
Вычислительные затраты: Контрфактическое рассуждение добавляет значительные вычислительные затраты, но это недостаточно обсуждается
Чувствительность гиперпараметров: Недостаточный анализ чувствительности к весам α, β и γ
Долгосрочное поведение: Анализ изменений поведения при более длительном обучении отсутствует

Влияние

Академический вклад: Предоставление нового направления исследований для многоагентного исследования
Практическая ценность: Метод относительно легко реализуется и может быть объединен с существующими алгоритмами
Воспроизводимость: Предоставление подробных деталей реализации и настроек гиперпараметров
Вдохновляющее значение: Дизайн компонента β может вдохновить другие разработки функций вознаграждения

Применимые сценарии

Задачи совместного исследования: Среды, требующие координированного исследования несколькими агентами
Среды с разреженными вознаграждениями: Задачи с отложенными или обманчивыми вознаграждениями
Частично наблюдаемые среды: Многоагентные системы с неполной информацией
Сценарии с ограниченной коммуникацией: Системы, которые могут взаимодействовать через дискретные сообщения

Библиография

Данная работа в основном основана на следующих важных исследованиях:

Jaques et al. (2018) - Социальное влияние как внутренняя мотивация для многоагентного глубокого обучения с подкреплением
Wang et al. (2019) - Исследование многоагентов на основе влияния
Burda et al. (2018) - Метод исследования случайной дистилляции сети
Pathak et al. (2017) - Исследование, управляемое любознательностью и самоконтролируемым предсказанием

Общая оценка: Это инновационная работа в области исследования многоагентного обучения с подкреплением. Несмотря на некоторые ограничения, предложение компонента β и его эмпирическая проверка обеспечивают ценный вклад в эту область. Будущие работы должны проверить обобщаемость метода в более сложных средах.