2025-11-27T07:22:18.939551

Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits

Xu, Liu, Mattei et al.

We propose a multi-agent multi-armed bandit (MA-MAB) framework aimed at ensuring fair outcomes across agents while maximizing overall system performance. A key challenge in this setting is decision-making under limited information about arm rewards. To address this, we introduce a novel probing framework that strategically gathers information about selected arms before allocation. In the offline setting, where reward distributions are known, we leverage submodular properties to design a greedy probing algorithm with a provable performance bound. For the more complex online setting, we develop an algorithm that achieves sublinear regret while maintaining fairness. Extensive experiments on synthetic and real-world datasets show that our approach outperforms baseline methods, achieving better fairness and efficiency.

academic

Algorithmes Équitables avec Sondage pour les Bandits Multi-Agents Multi-Bras

Informations Fondamentales

ID de l'article: 2506.14988
Titre: Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits
Auteurs: Tianyi Xu, Jiaxin Liu, Nicholas Mattei, Zizhan Zheng
Institutions: Tulane University, University of Illinois Urbana-Champaign
Classification: cs.LG, cs.AI
Date de publication: Prépublication arXiv, version du 26 novembre 2025
Lien de l'article: https://arxiv.org/abs/2506.14988v4

Résumé

Cet article propose un cadre de bandits multi-agents multi-bras (MA-MAB) visant à assurer l'équité entre les agents tout en maximisant la performance globale du système. Face au défi décisionnel posé par l'information limitée sur les récompenses des bras, un mécanisme de sondage novateur est introduit, collectant stratégiquement des informations sur les bras sélectionnés avant l'allocation. Dans le cadre hors ligne (distributions de récompenses connues), un algorithme glouton de sondage est conçu avec des garanties d'approximation à facteur constant exploitant la sous-modularité. Dans le cadre en ligne, un algorithme réalisant un regret sous-linéaire tout en maintenant l'équité est développé. Des expériences extensives sur des ensembles de données synthétiques et réelles démontrent que la méthode surpasse les méthodes de base en termes d'équité et d'efficacité.

Contexte et Motivation de la Recherche

Problème Central

Les problèmes traditionnels de bandits multi-bras optimisent généralement le bien-être utilitariste (utilitarian welfare, c'est-à-dire la somme des récompenses totales), ce qui entraîne des phénomènes graves d'inéquité. Par exemple, dans les scénarios de covoiturage, lorsqu'un système de planification centralisé affecte les conducteurs à différentes zones géographiques, l'optimisation du revenu total peut entraîner une situation où certains conducteurs ne reçoivent aucune commande, créant un phénomène de « famine » (starvation).

Importance du Problème

L'allocation équitable des ressources est cruciale dans de nombreuses applications pratiques :

Plateformes de covoiturage: Les conducteurs doivent accéder équitablement aux zones rentables
Systèmes de recommandation de contenu: L'exposition des créateurs ne doit pas être monopolisée
Planification de réseaux sans fil: Les appareils clients nécessitent une allocation équitable de la bande passante

Limitations des Approches Existantes

Absence d'équité: Les méthodes MA-MAB existantes se concentrent principalement sur la maximisation des récompenses totales, négligeant l'équité individuelle
Dépendance informationnelle: Elles dépendent des retours immédiats pour mettre à jour les estimations, performant mal dans les environnements avec informations incomplètes ou bruitées
Exploration insuffisante: Absence de mécanisme de collecte d'informations proactive, entraînant la propagation d'erreurs d'estimation vers les décisions d'allocation

Motivation de la Recherche

Cet article comble le fossé entre les approches multi-agents équitables et les stratégies d'exploration proactive en introduisant un mécanisme de sondage et un objectif de bien-être social de Nash (Nash Social Welfare, NSW), transformant les informations acquises par exploration proactive en résultats équitables pour tous les agents.

Contributions Principales

Nouveau cadre: Extension du cadre MA-MAB introduisant un mécanisme de sondage testant les bras sélectionnés avant allocation, assurant l'équité via l'optimisation NSW
Algorithme hors ligne: Développement d'une stratégie de sondage glouton simple et efficace avec des garanties de performance prouvables pour les modèles de récompenses connus
Algorithme en ligne: Proposition d'un algorithme équilibrant exploration et équité, prouvant que le sondage et l'allocation équitable ne dégradent pas la performance asymptotique (regret sous-linéaire)
Validation expérimentale: Démonstration sur données synthétiques et réelles que la méthode surpasse les méthodes de base en équité et efficacité

Détails de la Méthode

Définition de la Tâche

Configuration de base:

Agents: M agents, notés j ∈ M
Bras: A bras, notés a ∈ A
Distributions de récompenses: Chaque paire agent-bras (j,a) possède une distribution inconnue D_{j,a}, de moyenne μ_{j,a} ∈ 0,1

Processus décisionnel (à chaque tour t):

Phase de sondage: Sélection d'un ensemble de sondage S_t ⊆ A, obtenant des échantillons de récompenses frais R_{j,a,t} pour chaque a ∈ S_t
Phase d'allocation: Allocation des bras aux agents via une politique π_t basée sur les récompenses observées et les estimations courantes

Objectif d'équité: Maximisation du bien-être social de Nash (NSW) $\text{NSW}(S_t, R_t, \mu, \pi_t) = \prod_{j \in [M]} \left( \sum_{a \in S_t} \pi_{j,a,t} R_{j,a,t} + \sum_{a \notin S_t} \pi_{j,a,t} \mu_{j,a} \right)$

Coût de sondage: La récompense effective est $R^{\text{total}}_t = (1 - \alpha(|S_t|)) \mathbb{E}_{R_t}[\text{NSW}(S_t, R_t, \mu, \pi_t)]$ où α(·) est une fonction de coût non décroissante, avec α(0)=0, α(I)=1

Définition du regret: $R_{\text{regret}}(T) = \sum_{t=1}^T \left[ (1-\alpha(|S^*_t|)) \mathbb{E}[\text{NSW}(S^*_t, R_t, \mu, \pi^*_t)] - R^{\text{total}}_t \right]$

Cadre Hors Ligne: Algorithme de Sondage Glouton

Décomposition de l'Objectif d'Optimisation

Définition de deux fonctions d'utilité:

Utilité de sondage g(S): NSW optimale attendue utilisant uniquement les bras sondés $g(S) = \max_{\pi \in \Delta^A_S} \mathbb{E}\left[ \prod_{j \in [M]} \left( \sum_{a \in S} \pi_{j,a} R_{j,a} \right) \right]$
Utilité de non-sondage h(S): NSW optimale utilisant uniquement les bras non sondés $h(S) = \max_{\pi \in \Delta^A_{[A]\backslash S}} \prod_{j \in [M]} \left( \sum_{a \notin S} \pi_{j,a} \mu_{j,a} \right)$

Construction d'une Borne Supérieure Linéaire par Segments

Puisque log(g(S)) n'est pas sous-modulaire, l'optimisation directe est difficile. Une approximation par enveloppe linéaire par segments est adoptée:

Division de l'intervalle 0, x_max en segments fins, avec points de rupture τ_0, τ_1, ..., τ_L
Construction de tangentes à chaque point de rupture T_{τ_i}(z) = log(τ_i) + (z - τ_i)/τ_i
Définition de φ(z) = max_{0≤i<L} T_{τ_i}(z), satisfaisant φ(z) ≥ log(z)
Établissement de f_upper(S) = φ(g(S))

Propriétés de Sous-modularité

Les Lemmes 1-5 établissent les propriétés clés:

Lemme 1: g(S) est monotone croissante
Lemme 2: f_upper(S) est monotone croissante
Lemme 3: f_upper(S) est sous-modulaire (propriété centrale)
Lemme 4: h(S) est monotone décroissante
Lemme 5: R(S) ≤ (1-α(|S|))(g(S) + h(S))

Algorithme 1: Sondage Glouton Hors Ligne

Entrée: Distributions {F_{m,a}}, fonction de coût α(·), budget I, paramètre ζ≥1
Sortie: Ensemble de sondage S_pr

1. Initialiser S_0 = ∅
2. Pour i = 1 à I:
   - Sélectionner le bras avec le gain marginal maximal:
     a = argmax_{a∉S_{i-1}} [f_upper(S_{i-1}∪{a}) - f_upper(S_{i-1})]
   - S_i = S_{i-1} ∪ {a}
3. Trier les ensembles candidats par (1-α(|S_j|))f_upper(S_j) en ordre décroissant
4. Parcourir l'ensemble trié:
   - Si (1-α(|S_j|))f_upper(S_j) < h(∅), retourner ∅
   - Si (1-α(|S_j|))f_upper(S_j) > ζR(S_j), continuer
   - Sinon retourner S_j

Théorème 1 (Garantie d'approximation): Pour tout ζ≥1, l'ensemble S_pr retourné par l'algorithme satisfait $R(S_{pr}) \geq \frac{e-1}{2e-1} \cdot \frac{1}{\zeta} \cdot R(S^*)$ Cette garantie est dérivée du facteur d'approximation (1-1/e) de la maximisation sous-modulaire.

Cadre En Ligne: Algorithme OFMUP

Algorithme 2: Online Fair Multi-Agent UCB with Probing (OFMUP)

Phase d'initialisation (t = 1 à MA):

Chaque paire agent-bras est explorée au moins une fois
Construction de la fonction de distribution empirique F̂_{j,a,t} et estimation de moyenne μ̂_{j,a,t}

Boucle principale (t > MA):

Sélection de l'ensemble de sondage: Appel de l'Algorithme 1 basé sur les estimations courantes F̂_{j,a,t} pour sélectionner S_t
Mise à jour de sondage: Échantillonnage des bras dans S_t, mise à jour des statistiques et des bornes de confiance supérieures $U_{j,a,t} = \min(\hat{\mu}_{j,a,t} + w_{j,a,t}, 1)$ où w_{j,a,t} est la largeur de confiance basée sur l'inégalité de Freedman
Optimisation de politique: $\pi_t = \arg\max_{\pi_t \in \Delta^A} (1-\alpha(|S_t|)) \mathbb{E}_{R_t}[\text{NSW}(S_t, R_t, U_t, \pi_t)]$
Tirage de bras: Chaque agent j tire un bras selon π_t, observe la récompense et met à jour

Construction des Bornes de Confiance

Lemme 7 (Borne de Concentration): Avec probabilité au moins 1-δ/2, pour tous t>A, a∈A, j∈M: $|\mu_{j,a} - \hat{\mu}_{j,a,t}| \leq \sqrt{\frac{2(\hat{\mu}_{j,a,t} - \hat{\mu}^2_{j,a,t}) \ln(\frac{2MAT}{\delta})}{N_{j,a,t}}} + \frac{\ln(\frac{2MAT}{\delta})}{3N_{j,a,t}} = w_{j,a,t}$

Points d'Innovation Technique

Combinaison de sondage et d'équité: Première intégration d'un mécanisme de sondage proactif avec l'objectif d'équité NSW, différent des travaux antérieurs optimisant uniquement les récompenses totales
Technique d'approximation sous-modulaire: Transformation d'un problème non sous-modulaire en optimisation sous-modulaire via une borne supérieure linéaire par segments, maintenant la traitabilité
Fusion UCB-NSW: L'algorithme en ligne combine astucieusement les bornes de confiance UCB avec l'optimisation NSW, équilibrant exploration-exploitation et équité
Analyse de regret stratifiée: Division des tours en deux catégories "grand γ" et "petit γ", traitant séparément les cas de haute et basse incertitude

Configuration Expérimentale

Ensembles de Données

Données synthétiques:

Petite échelle: M=12 agents, A=8 bras
Échelle moyenne: M=20 agents, A=10 bras
Distributions de récompenses:
- Distribution de Bernoulli (récompenses 0 ou 1, moyennes dans 0.3, 0.8)
- Distribution discrète (récompenses échantillonnées de {0.3, 0.4, 0.5, 0.6, 0.7, 0.8})

Données réelles: Ensemble de données NYYellowTaxi 2016

Agents: Véhicules (positions pré-échantillonnées aléatoirement)
Bras: Emplacements de prise en charge discrétisés (grille 0.01°×0.01°)
Récompenses: Basées sur la distance de Manhattan normalisée du véhicule au point de prise en charge (récompense plus élevée pour distance plus courte)

Métriques d'Évaluation

Regret cumulatif: Calculé selon la formule (1), récompense optimale déterminée par recherche exhaustive
Stabilité numérique: Agrégation NSW cumulative par moyenne géométrique des récompenses de chaque agent
Vérification d'approximation: Vérification que la différence entre f_upper(S) et log(g(S)) ≤ 0.03

Méthodes de Comparaison

Non-Probing: Algorithme MA-MAB équitable de Jones et al. (2023), sans capacité de sondage, optimisant l'allocation basée uniquement sur les informations courantes
Random P+A: Sélection aléatoire d'un nombre fixe de bras pour sondage, puis allocation aléatoire
Greedy P+A: Utilisation de la même stratégie de sondage glouton, mais allocation aléatoire après sondage

Détails d'Implémentation

Budget de sondage: Défini selon la taille du problème
Fonction de coût: α(|S|) est une fonction croissante, α(0)=0, α(I)=1
Paramètre de confiance: δ défini pour assurer des garanties haute probabilité
Code open-source: https://github.com/jiaxin26/Fair-MA-MAB-with-Probing

Résultats Expérimentaux

Résultats Principaux

Découvertes principales présentées dans la Figure 1:

Scénario petite échelle (M=12, A=8, Bernoulli):
- OFMUP atteint un regret 85% inférieur à Random P+A à T=3000
- 60% inférieur à Greedy P+A
- Significativement supérieur à Non-Probing
Scénario échelle moyenne (M=20, A=10, Bernoulli):
- L'avantage d'OFMUP est plus prononcé
- À T=3000, regret 88% inférieur à Random P+A
- 80% inférieur à Greedy P+A
- Démontre une meilleure scalabilité
Scénario distribution discrète:
- OFMUP surpasse continuellement les méthodes de base
- L'écart avec les autres méthodes augmente avec l'apprentissage des modèles de récompense
- À T=3000, 85% inférieur à Random P+A, 65% inférieur à Non-Probing
Phénomène anormal de Random P+A:
- Regret légèrement plus élevé que prévu dans les tests petite échelle
- Raison: Lors du calcul de l'équité par moyenne géométrique, les petits échantillons augmentent la variabilité

Analyse de Scalabilité

Scalabilité présentée dans la Figure 2:

Nombre de bras fixe (A=8), nombre d'agents variable:
- OFMUP performe bien pour tous les nombres d'agents
- L'avantage relatif augmente avec la complexité du problème
Nombre d'agents fixe (M=20), nombre de bras variable:
- L'avantage d'OFMUP devient plus prononcé avec l'augmentation du nombre de bras
- Prouve que le mécanisme de sondage est plus précieux dans les espaces haute dimension

Découvertes Expérimentales

Rôle crucial du sondage: Le sondage joue un rôle décisif dans la collecte d'informations et la guidance de l'allocation
Importance de l'allocation équitable: Greedy P+A performe bien moins bien qu'OFMUP, démontrant que l'allocation équitable après sondage est cruciale
Vérification théorique: Les résultats expérimentaux valident l'analyse théorique — OFMUP équilibre efficacement exploration-exploitation et équité
Applicabilité aux données réelles: Le succès sur les données NYYellowTaxi démontre le potentiel d'application pratique

Travaux Connexes

Fondamentaux des Bandits Multi-Bras

MAB mono-agent: Lai & Robbins (1985), Garivier & Cappé (2011)
MAB multi-agents: Martínez-Rubio et al. (2019), Hossain et al. (2021)
Recherche sur l'équité: Joseph et al. (2016, 2018), Patil et al. (2021)

Fondements théoriques: Kaneko & Nakamura (1979)
Méthodes de calcul: Cole & Gkatzelis (2015)
Application MA-MAB: Jones, Nguyen & Nguyen (2023) — travail directement étendu par cet article

Mécanismes de Sondage

Origines économiques: Weitzman (1979)
Bandits mono-agent avec sondage:
- Aaron D. Tucker et al. (2023): Observations de récompenses coûteuses, borne Θ(c^{1/3}T^{2/3})
- Elumar et al. (2024): Sondage d'un bras par tour, regret Õ(√KT)
- Zuo et al. (2020): Cadre Observe-Before-Play
Sondage sous-modulaire: Bhaskara et al. (2020) pour problèmes de routage
Contribution de cet article: Première combinaison de sondage avec équité multi-agents

Lacunes de Recherche

Les travaux existants se concentrent soit sur les MAB équitables dépendant de retours passifs, soit sur le sondage en ignorant l'équité. Cet article comble cette lacune.

Analyse Théorique

Garantie d'Approximation Hors Ligne (Théorème 1)

Résultat: R(S_pr) ≥ (e-1)/(2e-1) · 1/ζ · R(S*)

Étapes clés de la preuve:

Utilisation du Lemme 5: R(S) ≤ (1-α(|S|))(g(S) + h(S))
Application de l'approximation (1-1/e) de la maximisation sous-modulaire
Liaison de f_upper avec R via les conditions de sélection de l'algorithme
Obtention de la garantie d'approximation à facteur constant

Borne de Regret En Ligne (Théorème 2)

Résultat: Avec probabilité au moins 1-δ, $R_{\text{regret}}(T) = O\left(\zeta(\sqrt{MAT} + MA) \ln^c\left(\frac{MAT}{\delta}\right)\right)$

Cadre de preuve:

Lissité NSW (Lemme 6): Propriété de Lipschitz de NSW par rapport à la matrice de récompenses
Borne de concentration (Lemme 7): Borne de confiance basée sur l'inégalité de Freedman
Stratification des tours (Lemme 8):
- Définition γ_{j,t} = Σ_a π_{j,a,t}(1-U_{j,a,t})
- Tours grand γ: |Q(t,p)| ≥ 2^p·3lnT, contribution ≤1/T²
- Tours petit γ: Application de la borne de concentration, décomposition en termes racine et linéaires
Borne du terme racine: Traitement via l'inégalité de Young et le Lemme 8
Borne du terme linéaire: Utilisation du Lemme 4.4 de Jones et al. (2023)
Fusion finale: Obtention du terme principal O(√MAT) plus termes d'ordre inférieur

Techniques clés:

Conversion du regret de (S*,π*) vers (S_t,π_t), utilisant le facteur du Théorème 1
Optimalisme UCB: U_{j,a,t}≥μ_{j,a} assurant l'exploration
Analyse stratifiée évitant le traitement direct des dépendances complexes de tous les tours

Conclusion et Discussion

Conclusions Principales

Contributions théoriques:
- Hors ligne: Algorithme calculable avec garantie d'approximation à facteur constant
- En ligne: Regret sous-linéaire O(√MAT), comparable aux algorithmes équitables sans sondage, mais avec performance pratique supérieure
Valeur pratique:
- Le mécanisme de sondage améliore significativement l'estimation des récompenses
- Équilibre l'exploration-exploitation et l'équité
- Validation sur données réelles de covoiturage démontre l'efficacité
Innovation méthodologique:
- Première combinaison de sondage proactif avec équité multi-agents
- Technique d'approximation sous-modulaire pour optimisation non-convexe
- Cadre d'apprentissage en ligne fusionnant UCB et NSW

Limitations

Complexité computationnelle:
- L'algorithme hors ligne nécessite une résolution itérative de l'optimisation NSW (NP-difficile)
- Chaque tour en ligne nécessite le calcul de la politique optimale π_t
- Les scénarios grande échelle (M,A très grands) peuvent faire face à des goulots d'étranglement computationnels
Hypothèses théoriques:
- L'approximation linéaire par segments nécessite une segmentation suffisamment fine (hypothèse d/d'≥τ_i/τ_j)
- Le budget de sondage I doit être défini à l'avance
- La forme de la fonction de coût α(·) doit être connue
Portée expérimentale:
- L'échelle expérimentale est relativement limitée (maximum M=20, A=10)
- Les données réelles testent uniquement le scénario de covoiturage
- Comparaison limitée avec d'autres méthodes MA-MAB équitables récentes
Mesure d'équité:
- Seul NSW est considéré, sans exploration d'autres concepts d'équité (comme max-min, envy-freeness)
- NSW est sensible aux récompenses nulles (nécessite que tous les agents reçoivent des récompenses positives)

Directions Futures

Bien que non explicitement proposées, les directions futures déductibles incluent:

Extension à d'autres mesures d'équité: Étude de la combinaison des mécanismes de sondage avec d'autres concepts d'équité
Budget de sondage adaptatif: Ajustement dynamique du nombre de sondages plutôt que fixe I
Implémentation distribuée: Décisions de sondage et d'allocation décentralisées
Environnements non-stationnaires: Scénarios où les distributions de récompenses varient dans le temps
Conditions avec contraintes: Intégration de contraintes pratiques comme budgets et délais

Évaluation Approfondie

Forces

Rigueur théorique:
- Garanties théoriques strictes pour les cadres hors ligne et en ligne
- Preuves complètes et détaillées (appendice dépassant 20 pages)
- Établissement astucieux et crucial des propriétés de sous-modularité
Importance du problème:
- Résolution de véritables problèmes pratiques (équité et incertitude)
- Cas d'usage de covoiturage avec valeur d'application directe
- Comblage d'une lacune de recherche entre MAB équitable et exploration proactive
Innovativité de la méthode:
- Combinaison de mécanisme de sondage et objectif NSW est novatrice
- Technique de construction de borne supérieure linéaire par segments est astucieuse
- Fusion de l'optimisation UCB et NSW est non-triviale
Suffisance expérimentale:
- Couverture de données synthétiques et réelles
- Paramètres multiples de distribution et d'échelle
- Analyse de scalabilité complète
- Expériences d'ablation claires (via comparaison avec Greedy P+A)
Clarté de la rédaction:
- Motivation clairement énoncée
- Description complète des détails techniques
- Graphiques intuitifs et efficaces

Insuffisances

Efficacité computationnelle insuffisamment discutée:
- Temps d'exécution de l'algorithme non rapporté
- Analyse de complexité computationnelle de l'optimisation NSW manquante
- Faisabilité pour scénarios grande échelle douteuse
Modélisation simplifiée du coût de sondage:
- Forme de la fonction α(|S|) trop abstraite
- Comment définir α dans les applications réelles non détaillé
- Différences de caractéristiques de coût entre applications non explorées
Méthodes de base limitées:
- Comparaison principale avec la méthode de Jones et al. (2023)
- Comparaison limitée avec d'autres algorithmes MA-MAB équitables récents
- Absence de comparaison avec algorithmes de sondage efficaces mais non-équitables
Échelle expérimentale restreinte:
- Maximum M=20, A=10 relativement petit
- Données réelles d'un seul ensemble de données
- Scénarios extrêmement déséquilibrés non testés (M>>A ou A>>M)
Écart théorie-pratique:
- Le facteur d'approximation du Théorème 1 inclut le paramètre ζ, comment le choisir en pratique non expliqué
- La constante c du Théorème 2 non explicitement définie
- Comment l'erreur d'approximation linéaire par segments (0.03) affecte la performance non analysée
Discussion insuffisante sur l'équité:
- Limitations de NSW (sensibilité aux récompenses nulles) insuffisamment discutées
- Comparaison avec d'autres mesures d'équité manquante
- Rationalité individuelle (individual rationality) non considérée

Impact

Impact académique:

Élevé: Comblage d'une lacune de recherche importante, taux de citation prévu élevé
Fourniture d'un nouveau paradigme de recherche pour le domaine des MAB équitables
Le mécanisme de sondage combiné à l'équité peut inspirer des travaux ultérieurs

Valeur pratique:

Moyen-élevé:
- Potentiel d'application directe pour plateformes de covoiturage
- Complexité computationnelle peut limiter le déploiement grande échelle
- Optimisation d'ingénierie supplémentaire nécessaire

Reproductibilité:

Élevée: Code open-source disponible, description d'algorithme détaillée
Preuve théorique complète, facile à vérifier
Configuration expérimentale claire

Scénarios d'Application

Scénarios fortement applicables:

Planification de covoiturage: Villes de taille moyenne (10-20 régions, 10-50 véhicules)
Recommandation de contenu: Plateformes nécessitant équilibre d'exposition des créateurs
Planification de réseau sans fil: Scénarios WLAN 60 GHz (mentionnés dans l'article)
Allocation de ressources: Tout scénario nécessitant équité avec incertitude

Scénarios faiblement applicables:

Systèmes grande échelle: M,A>100 peut être computationnellement infaisable
Systèmes temps réel: Délai de calcul de l'optimisation NSW peut être trop élevé
Environnements dynamiques: Distributions de récompenses changeant rapidement
Compétition à somme nulle: Agents en compétition directe

Scénarios non applicables:

Problèmes mono-agent: Méthode trop complexe
Récompenses connues: Mécanisme de sondage inutile
Exigences d'équité extrêmes: NSW peut ne pas être "équitable" (considérer max-min)

Références Clés

Jones, Nguyen & Nguyen (2023): "An efficient algorithm for fair multi-agent multi-armed bandit with low regret" - Travail fondamental directement étendu par cet article
Cole & Gkatzelis (2015): "Approximating the Nash social welfare with indivisible items" - Fondements théoriques de l'optimisation NSW
Zuo, Zhang & Joe-Wong (2020): "Observe Before Play: Multi-Armed Bandit with Pre-Observations" - Travail précurseur sur les mécanismes de sondage
Bhaskara et al. (2020): "Adaptive probing policies for shortest path routing" - Application du sondage sous-modulaire
Caragiannis et al. (2019): "The unreasonable fairness of maximum Nash welfare" - Théorie de l'équité NSW

Synthèse

Cet article apporte une contribution importante au domaine des bandits multi-agents multi-bras, combinant systématiquement pour la première fois un mécanisme de sondage proactif avec un objectif d'équité. Rigoureux théoriquement (approximation à facteur constant et regret sous-linéaire), expérimentalement complet (données synthétiques + réelles), et méthodologiquement innovant (approximation sous-modulaire + fusion UCB-NSW). Les principales limitations concernent la complexité computationnelle et l'échelle expérimentale, mais celles-ci n'affectent pas sa valeur académique et son potentiel pratique. Ce travail ouvre une nouvelle direction de recherche dans l'apprentissage équitable et la prise de décision en ligne, méritant une exploration et une application ultérieures.