Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits
Xu, Liu, Mattei et al.
We propose a multi-agent multi-armed bandit (MA-MAB) framework aimed at ensuring fair outcomes across agents while maximizing overall system performance. A key challenge in this setting is decision-making under limited information about arm rewards. To address this, we introduce a novel probing framework that strategically gathers information about selected arms before allocation. In the offline setting, where reward distributions are known, we leverage submodular properties to design a greedy probing algorithm with a provable performance bound. For the more complex online setting, we develop an algorithm that achieves sublinear regret while maintaining fairness. Extensive experiments on synthetic and real-world datasets show that our approach outperforms baseline methods, achieving better fairness and efficiency.
academic
Algorithmes Équitables avec Sondage pour les Bandits Multi-Agents Multi-Bras
Cet article propose un cadre de bandits multi-agents multi-bras (MA-MAB) visant à assurer l'équité entre les agents tout en maximisant la performance globale du système. Face au défi décisionnel posé par l'information limitée sur les récompenses des bras, un mécanisme de sondage novateur est introduit, collectant stratégiquement des informations sur les bras sélectionnés avant l'allocation. Dans le cadre hors ligne (distributions de récompenses connues), un algorithme glouton de sondage est conçu avec des garanties d'approximation à facteur constant exploitant la sous-modularité. Dans le cadre en ligne, un algorithme réalisant un regret sous-linéaire tout en maintenant l'équité est développé. Des expériences extensives sur des ensembles de données synthétiques et réelles démontrent que la méthode surpasse les méthodes de base en termes d'équité et d'efficacité.
Les problèmes traditionnels de bandits multi-bras optimisent généralement le bien-être utilitariste (utilitarian welfare, c'est-à-dire la somme des récompenses totales), ce qui entraîne des phénomènes graves d'inéquité. Par exemple, dans les scénarios de covoiturage, lorsqu'un système de planification centralisé affecte les conducteurs à différentes zones géographiques, l'optimisation du revenu total peut entraîner une situation où certains conducteurs ne reçoivent aucune commande, créant un phénomène de « famine » (starvation).
Absence d'équité: Les méthodes MA-MAB existantes se concentrent principalement sur la maximisation des récompenses totales, négligeant l'équité individuelle
Dépendance informationnelle: Elles dépendent des retours immédiats pour mettre à jour les estimations, performant mal dans les environnements avec informations incomplètes ou bruitées
Exploration insuffisante: Absence de mécanisme de collecte d'informations proactive, entraînant la propagation d'erreurs d'estimation vers les décisions d'allocation
Cet article comble le fossé entre les approches multi-agents équitables et les stratégies d'exploration proactive en introduisant un mécanisme de sondage et un objectif de bien-être social de Nash (Nash Social Welfare, NSW), transformant les informations acquises par exploration proactive en résultats équitables pour tous les agents.
Nouveau cadre: Extension du cadre MA-MAB introduisant un mécanisme de sondage testant les bras sélectionnés avant allocation, assurant l'équité via l'optimisation NSW
Algorithme hors ligne: Développement d'une stratégie de sondage glouton simple et efficace avec des garanties de performance prouvables pour les modèles de récompenses connus
Algorithme en ligne: Proposition d'un algorithme équilibrant exploration et équité, prouvant que le sondage et l'allocation équitable ne dégradent pas la performance asymptotique (regret sous-linéaire)
Validation expérimentale: Démonstration sur données synthétiques et réelles que la méthode surpasse les méthodes de base en équité et efficacité
Distributions de récompenses: Chaque paire agent-bras (j,a) possède une distribution inconnue D_{j,a}, de moyenne μ_{j,a} ∈ 0,1
Processus décisionnel (à chaque tour t):
Phase de sondage: Sélection d'un ensemble de sondage S_t ⊆ A, obtenant des échantillons de récompenses frais R_{j,a,t} pour chaque a ∈ S_t
Phase d'allocation: Allocation des bras aux agents via une politique π_t basée sur les récompenses observées et les estimations courantes
Objectif d'équité: Maximisation du bien-être social de Nash (NSW)
NSW(St,Rt,μ,πt)=∏j∈[M](∑a∈Stπj,a,tRj,a,t+∑a∈/Stπj,a,tμj,a)
Coût de sondage: La récompense effective est
Rttotal=(1−α(∣St∣))ERt[NSW(St,Rt,μ,πt)]
où α(·) est une fonction de coût non décroissante, avec α(0)=0, α(I)=1
Définition du regret:
Rregret(T)=∑t=1T[(1−α(∣St∗∣))E[NSW(St∗,Rt,μ,πt∗)]−Rttotal]
Entrée: Distributions {F_{m,a}}, fonction de coût α(·), budget I, paramètre ζ≥1
Sortie: Ensemble de sondage S_pr
1. Initialiser S_0 = ∅
2. Pour i = 1 à I:
- Sélectionner le bras avec le gain marginal maximal:
a = argmax_{a∉S_{i-1}} [f_upper(S_{i-1}∪{a}) - f_upper(S_{i-1})]
- S_i = S_{i-1} ∪ {a}
3. Trier les ensembles candidats par (1-α(|S_j|))f_upper(S_j) en ordre décroissant
4. Parcourir l'ensemble trié:
- Si (1-α(|S_j|))f_upper(S_j) < h(∅), retourner ∅
- Si (1-α(|S_j|))f_upper(S_j) > ζR(S_j), continuer
- Sinon retourner S_j
Théorème 1 (Garantie d'approximation): Pour tout ζ≥1, l'ensemble S_pr retourné par l'algorithme satisfait
R(Spr)≥2e−1e−1⋅ζ1⋅R(S∗)
Cette garantie est dérivée du facteur d'approximation (1-1/e) de la maximisation sous-modulaire.
Chaque paire agent-bras est explorée au moins une fois
Construction de la fonction de distribution empirique F̂_{j,a,t} et estimation de moyenne μ̂_{j,a,t}
Boucle principale (t > MA):
Sélection de l'ensemble de sondage: Appel de l'Algorithme 1 basé sur les estimations courantes F̂_{j,a,t} pour sélectionner S_t
Mise à jour de sondage: Échantillonnage des bras dans S_t, mise à jour des statistiques et des bornes de confiance supérieures
Uj,a,t=min(μ^j,a,t+wj,a,t,1)
où w_{j,a,t} est la largeur de confiance basée sur l'inégalité de Freedman
Optimisation de politique:
πt=argmaxπt∈ΔA(1−α(∣St∣))ERt[NSW(St,Rt,Ut,πt)]
Tirage de bras: Chaque agent j tire un bras selon π_t, observe la récompense et met à jour
Lemme 7 (Borne de Concentration): Avec probabilité au moins 1-δ/2, pour tous t>A, a∈A, j∈M:
∣μj,a−μ^j,a,t∣≤Nj,a,t2(μ^j,a,t−μ^j,a,t2)ln(δ2MAT)+3Nj,a,tln(δ2MAT)=wj,a,t
Combinaison de sondage et d'équité: Première intégration d'un mécanisme de sondage proactif avec l'objectif d'équité NSW, différent des travaux antérieurs optimisant uniquement les récompenses totales
Technique d'approximation sous-modulaire: Transformation d'un problème non sous-modulaire en optimisation sous-modulaire via une borne supérieure linéaire par segments, maintenant la traitabilité
Fusion UCB-NSW: L'algorithme en ligne combine astucieusement les bornes de confiance UCB avec l'optimisation NSW, équilibrant exploration-exploitation et équité
Analyse de regret stratifiée: Division des tours en deux catégories "grand γ" et "petit γ", traitant séparément les cas de haute et basse incertitude
Non-Probing: Algorithme MA-MAB équitable de Jones et al. (2023), sans capacité de sondage, optimisant l'allocation basée uniquement sur les informations courantes
Random P+A: Sélection aléatoire d'un nombre fixe de bras pour sondage, puis allocation aléatoire
Greedy P+A: Utilisation de la même stratégie de sondage glouton, mais allocation aléatoire après sondage
Les travaux existants se concentrent soit sur les MAB équitables dépendant de retours passifs, soit sur le sondage en ignorant l'équité. Cet article comble cette lacune.
Jones, Nguyen & Nguyen (2023): "An efficient algorithm for fair multi-agent multi-armed bandit with low regret" - Travail fondamental directement étendu par cet article
Cole & Gkatzelis (2015): "Approximating the Nash social welfare with indivisible items" - Fondements théoriques de l'optimisation NSW
Zuo, Zhang & Joe-Wong (2020): "Observe Before Play: Multi-Armed Bandit with Pre-Observations" - Travail précurseur sur les mécanismes de sondage
Bhaskara et al. (2020): "Adaptive probing policies for shortest path routing" - Application du sondage sous-modulaire
Caragiannis et al. (2019): "The unreasonable fairness of maximum Nash welfare" - Théorie de l'équité NSW
Cet article apporte une contribution importante au domaine des bandits multi-agents multi-bras, combinant systématiquement pour la première fois un mécanisme de sondage proactif avec un objectif d'équité. Rigoureux théoriquement (approximation à facteur constant et regret sous-linéaire), expérimentalement complet (données synthétiques + réelles), et méthodologiquement innovant (approximation sous-modulaire + fusion UCB-NSW). Les principales limitations concernent la complexité computationnelle et l'échelle expérimentale, mais celles-ci n'affectent pas sa valeur académique et son potentiel pratique. Ce travail ouvre une nouvelle direction de recherche dans l'apprentissage équitable et la prise de décision en ligne, méritant une exploration et une application ultérieures.