PIMAEX: Multi-Agent Exploration through Peer Incentivization
Kölle, Tochtermann, Schönberger et al.
While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.
academic
PIMAEX: Многоагентное исследование через стимулирование сверстников
Хотя проблема исследования в одноагентном обучении с подкреплением получила широкое внимание, проблема исследования в многоагентном обучении с подкреплением остается относительно недостаточно изученной. Для решения этой проблемы авторы предлагают функцию вознаграждения на основе стимулирования сверстников, вдохновленную предыдущими исследованиями внутренней любознательности и вознаграждений на основе влияния. Вознаграждение PIMAEX (сокращение от Peer-Incentivized Multi-Agent Exploration) направлено на улучшение исследования в многоагентной среде путем поощрения агентов оказывать влияние друг на друга, тем самым повышая вероятность встречи с новыми состояниями. Исследование оценивает комбинацию вознаграждения PIMAEX с алгоритмом PIMAEX-Communication в среде Consume/Explore, которая представляет собой частично наблюдаемую среду с обманчивыми вознаграждениями, специально разработанную для проверки дилеммы исследования-эксплуатации и проблем распределения кредита. Экспериментальные результаты показывают, что агенты, использующие вознаграждение PIMAEX, превосходят агентов без него.
Вызовы многоагентного исследования: Проблема исследования в многоагентном обучении с подкреплением сложнее, чем в одноагентном случае, поскольку объединенное пространство состояний растет экспоненциально с количеством агентов
Требования координации: Поскольку вероятности переходов состояния зависят от объединенных действий всех агентов, отдельный агент не может независимо исследовать важные части пространства состояний
Разреженные и обманчивые вознаграждения: В средах с разреженными или обманчивыми вознаграждениями агенты легко застревают в локальных оптимумах
Проблема распределения кредита: Временное расстояние между последовательностями действий и окончательным вознаграждением затрудняет распределение кредита
Предложение функции вознаграждения PIMAEX: Новый механизм стимулирования сверстников, сочетающий внутреннюю любознательность и социальное влияние для содействия многоагентному исследованию
Построение обобщенной структуры вознаграждений социального влияния: Объединение концепций влияния в предыдущих работах, включая взвешенную комбинацию трех компонентов α, β и γ
Разработка алгоритма PIMAEX-Communication: Алгоритм обучения многоагентов на основе механизма коммуникации, который может быть объединен с любым алгоритмом actor-critic
Разработка среды Consume/Explore: Специально разработанная тестовая среда для оценки дилеммы исследования-эксплуатации и проблем распределения кредита
Эмпирическая проверка: Демонстрация эффективности метода PIMAEX в сложной среде
Эффективность PIMAEX: Вознаграждение PIMAEX значительно улучшает производительность многоагентного исследования
Инновация компонента β: Предложенный новый компонент β достигает наивысшего общего вознаграждения и наиболее стабильной политики
Естественное разделение труда: PIMAEX β способствует естественному разделению труда между агентами
Парадокс исследования: Индивидуальная внутренняя любознательность в сочетании с вознаграждением влияния может быть более эффективной, чем общее внутреннее вознаграждение
Данная работа в основном основана на следующих важных исследованиях:
Jaques et al. (2018) - Социальное влияние как внутренняя мотивация для многоагентного глубокого обучения с подкреплением
Wang et al. (2019) - Исследование многоагентов на основе влияния
Burda et al. (2018) - Метод исследования случайной дистилляции сети
Pathak et al. (2017) - Исследование, управляемое любознательностью и самоконтролируемым предсказанием
Общая оценка: Это инновационная работа в области исследования многоагентного обучения с подкреплением. Несмотря на некоторые ограничения, предложение компонента β и его эмпирическая проверка обеспечивают ценный вклад в эту область. Будущие работы должны проверить обобщаемость метода в более сложных средах.