Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits
Xu, Liu, Mattei et al.
We propose a multi-agent multi-armed bandit (MA-MAB) framework aimed at ensuring fair outcomes across agents while maximizing overall system performance. A key challenge in this setting is decision-making under limited information about arm rewards. To address this, we introduce a novel probing framework that strategically gathers information about selected arms before allocation. In the offline setting, where reward distributions are known, we leverage submodular properties to design a greedy probing algorithm with a provable performance bound. For the more complex online setting, we develop an algorithm that achieves sublinear regret while maintaining fairness. Extensive experiments on synthetic and real-world datasets show that our approach outperforms baseline methods, achieving better fairness and efficiency.
academic
Справедливые алгоритмы с зондированием для многоагентных многорукавых бандитов
В данной работе предложена структура многоагентного многорукавого бандита (MA-MAB), направленная на обеспечение справедливости между агентами при одновременной максимизации общей производительности системы. Для решения проблемы принятия решений при ограниченной информации о вознаграждениях рукавов введен новый механизм зондирования, который стратегически собирает информацию о выбранных рукавах перед распределением. В автономной постановке (при известном распределении вознаграждений) разработан жадный алгоритм зондирования с гарантиями приближения с постоянным множителем, основанный на свойствах субмодулярности. В онлайн-постановке разработан алгоритм, достигающий сублинейного сожаления при сохранении справедливости. Обширные эксперименты на синтетических и реальных наборах данных демонстрируют превосходство предложенного метода над базовыми методами как в справедливости, так и в эффективности.
Традиционные задачи многорукавого бандита обычно оптимизируют утилитарное благосостояние (utilitarian welfare, то есть сумму общих вознаграждений), что приводит к серьезным проблемам справедливости. Например, в сценариях с сервисами совместного использования автомобилей центральная система диспетчеризации при распределении водителей по различным географическим регионам может привести к ситуации, когда некоторые водители вообще не получают заказы, что вызывает явление "голодания" (starvation).
Отсутствие справедливости: существующие методы MA-MAB в основном сосредоточены на максимизации общего вознаграждения, игнорируя справедливость отдельных агентов
Зависимость от информации: полагаются на немедленную обратную связь для обновления оценок, плохо работают при неполной информации или в шумной среде
Недостаточное исследование: отсутствует механизм активного сбора информации, что приводит к распространению ошибок оценки на неопределенные рукава в решениях распределения
В данной работе путем введения механизма зондирования и целевой функции социального благосостояния Нэша (Nash Social Welfare, NSW) преодолевается разрыв между справедливыми многоагентными методами и стратегиями активного исследования, позволяя информации, полученной через активное исследование, непосредственно преобразоваться в справедливые результаты для всех агентов.
Новая структура: расширение структуры MA-MAB с введением механизма зондирования для тестирования выбранных рукавов перед распределением, обеспечение справедливости через оптимизацию NSW
Автономный алгоритм: разработка простого и эффективного жадного алгоритма зондирования с доказуемыми гарантиями производительности для известных моделей вознаграждений
Онлайн-алгоритм: предложение алгоритма, балансирующего исследование и справедливость, с доказательством того, что зондирование и справедливое распределение не ухудшают асимптотическую производительность (сублинейное сожаление)
Экспериментальная проверка: демонстрация превосходства метода над базовыми методами в справедливости и эффективности на синтетических и реальных данных
Распределения вознаграждений: каждая пара агент-рукав (j,a) имеет неизвестное распределение D_{j,a} со средним μ_{j,a} ∈ 0,1
Процесс принятия решений (каждый раунд t):
Фаза зондирования: выбор набора зондирования S_t ⊆ A, получение свежих образцов вознаграждения R_{j,a,t} для каждого a ∈ S_t
Фаза распределения: на основе наблюдаемых вознаграждений и текущих оценок распределение рукавов агентам через политику π_t
Целевая функция справедливости: максимизация социального благосостояния Нэша (NSW)
NSW(St,Rt,μ,πt)=∏j∈[M](∑a∈Stπj,a,tRj,a,t+∑a∈/Stπj,a,tμj,a)
Стоимость зондирования: эффективное вознаграждение определяется как
Rttotal=(1−α(∣St∣))ERt[NSW(St,Rt,μ,πt)]
где α(·) — неубывающая функция стоимости, α(0)=0, α(I)=1
Определение сожаления:
Rregret(T)=∑t=1T[(1−α(∣St∗∣))E[NSW(St∗,Rt,μ,πt∗)]−Rttotal]
Вход: распределения {F_{m,a}}, функция стоимости α(·), бюджет I, параметр ζ≥1
Выход: набор зондирования S_pr
1. Инициализация S_0 = ∅
2. Для i = 1 до I:
- Выбрать рукав с максимальным маржинальным приростом:
a = argmax_{a∉S_{i-1}} [f_upper(S_{i-1}∪{a}) - f_upper(S_{i-1})]
- S_i = S_{i-1} ∪ {a}
3. Отсортировать кандидатов по убыванию (1-α(|S_j|))f_upper(S_j)
4. Пройти по отсортированному набору:
- Если (1-α(|S_j|))f_upper(S_j) < h(∅), вернуть ∅
- Если (1-α(|S_j|))f_upper(S_j) > ζR(S_j), продолжить
- Иначе вернуть S_j
Теорема 1 (гарантия приближения): для любого ζ≥1 алгоритм возвращает S_pr, удовлетворяющий
R(Spr)≥2e−1e−1⋅ζ1⋅R(S∗)
это выводится на основе приближающего множителя (1-1/e) для субмодулярной максимизации.
Каждая пара агент-рукав исследуется по крайней мере один раз
Построение эмпирической функции распределения F̂_{j,a,t} и оценки среднего μ̂_{j,a,t}
Основной цикл (t > MA):
Выбор набора зондирования: вызов Алгоритма 1 на основе текущих оценок F̂_{j,a,t} для выбора S_t
Обновление зондирования: выборка из рукавов в S_t, обновление статистики и верхних доверительных границ
Uj,a,t=min(μ^j,a,t+wj,a,t,1)
где w_{j,a,t} — ширина доверительного интервала, основанная на неравенстве Фридмана
Лемма 7 (граница концентрации): с вероятностью по крайней мере 1-δ/2 для всех t>A, a∈A, j∈M:
∣μj,a−μ^j,a,t∣≤Nj,a,t2(μ^j,a,t−μ^j,a,t2)ln(δ2MAT)+3Nj,a,tln(δ2MAT)=wj,a,t
Объединение зондирования и справедливости: первое объединение механизма активного зондирования с целевой функцией NSW справедливости, отличающееся от предыдущих работ, оптимизирующих только общее вознаграждение
Техника субмодулярного приближения: преобразование нежелательной субмодулярной задачи в субмодулярную оптимизацию через кусочно-линейную верхнюю границу, сохраняя вычислительную эффективность
Слияние UCB и NSW: онлайн-алгоритм искусно объединяет доверительные границы UCB с оптимизацией NSW, балансируя исследование-использование и справедливость
Многоуровневый анализ сожаления: разделение раундов на "большие γ" и "малые γ" категории, отдельная обработка высокой и низкой неопределенности
Распределение Бернулли (вознаграждение 0 или 1, среднее в 0.3, 0.8)
Дискретное распределение (вознаграждение из {0.3, 0.4, 0.5, 0.6, 0.7, 0.8})
Реальные данные: набор данных NYYellowTaxi 2016
Агенты: транспортные средства (случайно предварительно выбранные позиции)
Рукава: дискретизированные позиции подачи заказов (сетка 0.01°×0.01°)
Вознаграждение: основано на нормализованном расстоянии Манхэттена от транспортного средства до позиции подачи заказа (чем ближе, тем выше вознаграждение)
Non-Probing: алгоритм справедливого MAB Jones и др. (2023), без возможности зондирования, оптимизация распределения только на основе текущей информации
Random P+A: случайный выбор фиксированного количества рукавов для зондирования, затем случайное распределение
Greedy P+A: использование того же алгоритма жадного зондирования, но случайное распределение после зондирования
Ключевая роль зондирования: зондирование играет решающую роль в сборе информации и руководстве распределением
Важность справедливого распределения: Greedy P+A показывает результаты намного хуже, чем OFMUP, что подчеркивает критическую важность справедливого распределения после зондирования
Теоретическая проверка: экспериментальные результаты подтверждают теоретический анализ — OFMUP эффективно балансирует исследование-использование и справедливость
Применимость к реальным данным: успех на данных NYYellowTaxi доказывает потенциал практического применения
Существующие работы либо сосредоточены на справедливом MAB, но полагаются на пассивную обратную связь, либо исследуют зондирование, но игнорируют справедливость. Данная работа заполняет этот пробел.
Автономная постановка: вычислимый алгоритм с гарантией приближения с постоянным множителем
Онлайн-постановка: сублинейное сожаление O(√MAT), сравнимое с алгоритмами справедливого MAB без зондирования, но с лучшей практической производительностью
Практическая ценность:
Механизм зондирования значительно улучшает оценку вознаграждений
Балансирует исследование-использование и справедливость
Проверена эффективность на реальных данных сервисов совместного использования автомобилей
Методологические инновации:
Первое объединение активного зондирования с многоагентной справедливостью
Техника субмодулярного приближения для обработки невыпуклой оптимизации
Jones, Nguyen & Nguyen (2023): "An efficient algorithm for fair multi-agent multi-armed bandit with low regret" — базовая работа, непосредственно расширяемая в данной статье
Cole & Gkatzelis (2015): "Approximating the Nash social welfare with indivisible items" — теоретические основы оптимизации NSW
Zuo, Zhang & Joe-Wong (2020): "Observe Before Play: Multi-Armed Bandit with Pre-Observations" — пионерская работа по механизмам зондирования
Bhaskara et al. (2020): "Adaptive probing policies for shortest path routing" — применение субмодулярного зондирования
Caragiannis et al. (2019): "The unreasonable fairness of maximum Nash welfare" — теория справедливости NSW
Данная работа вносит значительный вклад в область многоагентных многорукавых бандитов, впервые систематически объединяя механизм активного зондирования с целевой функцией справедливости. Теоретически строга (гарантия приближения с постоянным множителем и сублинейное сожаление), экспериментально полна (синтетические и реальные данные), методологически инновативна (субмодулярное приближение + слияние UCB-NSW). Основные ограничения связаны с вычислительной сложностью и масштабом экспериментов, но это не умаляет академическую ценность и практический потенциал. Данная работа открывает новые направления исследований в области справедливого машинного обучения и онлайн-принятия решений, заслуживая дальнейшего изучения и применения.