We propose a multi-agent multi-armed bandit (MA-MAB) framework aimed at ensuring fair outcomes across agents while maximizing overall system performance. A key challenge in this setting is decision-making under limited information about arm rewards. To address this, we introduce a novel probing framework that strategically gathers information about selected arms before allocation. In the offline setting, where reward distributions are known, we leverage submodular properties to design a greedy probing algorithm with a provable performance bound. For the more complex online setting, we develop an algorithm that achieves sublinear regret while maintaining fairness. Extensive experiments on synthetic and real-world datasets show that our approach outperforms baseline methods, achieving better fairness and efficiency.
Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits 论文ID : 2506.14988标题 : Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits作者 : Tianyi Xu, Jiaxin Liu, Nicholas Mattei, Zizhan Zheng机构 : Tulane University, University of Illinois Urbana-Champaign分类 : cs.LG, cs.AI发表时间 : arXiv preprint, 2025年11月26日版本论文链接 : https://arxiv.org/abs/2506.14988v4 本文提出了一个多智能体多臂老虎机(MA-MAB)框架,旨在确保智能体间的公平性同时最大化系统整体性能。针对臂奖励信息有限的决策挑战,引入了一种新颖的探测(probing)机制,在分配前战略性地收集选定臂的信息。在离线设置(已知奖励分布)中,利用子模性质设计了具有常数因子近似保证的贪心探测算法。在在线设置中,开发了一种实现次线性遗憾(sublinear regret)同时保持公平性的算法。在合成和真实世界数据集上的大量实验表明,该方法在公平性和效率方面均优于基线方法。
传统的多臂老虎机问题通常优化功利主义福利 (utilitarian welfare,即总奖励之和),但这会导致严重的不公平现象。例如在网约车场景中,中央调度系统将司机分配到不同地理区域时,优化总收益可能导致部分司机完全没有订单,出现"饥饿"(starvation)现象。
公平的资源分配在许多实际应用中至关重要:
网约车平台 :司机需要公平地访问盈利区域内容推荐系统 :创作者曝光不应被垄断无线网络调度 :客户端设备需要公平的带宽分配公平性缺失 :现有MA-MAB方法主要关注总奖励最大化,忽视个体公平信息依赖 :依赖即时反馈更新估计,在信息不完整或噪声环境下表现不佳探索不足 :缺乏主动信息收集机制,导致对不确定臂的估计误差传播到分配决策本文通过引入探测机制 和纳什社会福利 (Nash Social Welfare, NSW)目标,弥合了公平多智能体方法与主动探索策略之间的空白,使通过主动探索获得的信息直接转化为对所有智能体的公平结果。
新框架 :扩展MA-MAB框架,引入探测机制在分配前测试选定臂,通过NSW优化确保公平性离线算法 :针对已知奖励模式,开发了具有可证明性能保证的简单有效的贪心探测策略在线算法 :提出平衡探索与公平性的算法,证明探测和公平分配不会损害渐近性能(次线性遗憾)实验验证 :在合成和真实数据上证明方法在公平性和效率方面优于基线基本设置 :
智能体 :M个智能体,记为 j ∈ M 臂 :A个臂,记为 a ∈ A 奖励分布 :每个智能体-臂对 (j,a) 有未知分布 D_{j,a},均值 μ_{j,a} ∈ 0,1 决策流程 (每轮 t):
探测阶段 :选择探测集 S_t ⊆ A ,对每个 a ∈ S_t 获取新鲜奖励样本 R_{j,a,t}分配阶段 :基于观察到的奖励和当前估计,通过策略 π_t 分配臂给智能体公平性目标 :最大化纳什社会福利(NSW)
NSW ( S t , R t , μ , π t ) = ∏ j ∈ [ M ] ( ∑ a ∈ S t π j , a , t R j , a , t + ∑ a ∉ S t π j , a , t μ j , a ) \text{NSW}(S_t, R_t, \mu, \pi_t) = \prod_{j \in [M]} \left( \sum_{a \in S_t} \pi_{j,a,t} R_{j,a,t} + \sum_{a \notin S_t} \pi_{j,a,t} \mu_{j,a} \right) NSW ( S t , R t , μ , π t ) = ∏ j ∈ [ M ] ( ∑ a ∈ S t π j , a , t R j , a , t + ∑ a ∈ / S t π j , a , t μ j , a )
探测开销 :有效奖励为
R t total = ( 1 − α ( ∣ S t ∣ ) ) E R t [ NSW ( S t , R t , μ , π t ) ] R^{\text{total}}_t = (1 - \alpha(|S_t|)) \mathbb{E}_{R_t}[\text{NSW}(S_t, R_t, \mu, \pi_t)] R t total = ( 1 − α ( ∣ S t ∣ )) E R t [ NSW ( S t , R t , μ , π t )]
其中 α(·) 是非递减开销函数,α(0)=0, α(I)=1
遗憾定义 :
R regret ( T ) = ∑ t = 1 T [ ( 1 − α ( ∣ S t ∗ ∣ ) ) E [ NSW ( S t ∗ , R t , μ , π t ∗ ) ] − R t total ] R_{\text{regret}}(T) = \sum_{t=1}^T \left[ (1-\alpha(|S^*_t|)) \mathbb{E}[\text{NSW}(S^*_t, R_t, \mu, \pi^*_t)] - R^{\text{total}}_t \right] R regret ( T ) = ∑ t = 1 T [ ( 1 − α ( ∣ S t ∗ ∣ )) E [ NSW ( S t ∗ , R t , μ , π t ∗ )] − R t total ]
定义两个效用函数:
探测效用 g(S):仅使用探测臂的最优NSW期望
g ( S ) = max π ∈ Δ S A E [ ∏ j ∈ [ M ] ( ∑ a ∈ S π j , a R j , a ) ] g(S) = \max_{\pi \in \Delta^A_S} \mathbb{E}\left[ \prod_{j \in [M]} \left( \sum_{a \in S} \pi_{j,a} R_{j,a} \right) \right] g ( S ) = max π ∈ Δ S A E [ ∏ j ∈ [ M ] ( ∑ a ∈ S π j , a R j , a ) ] 非探测效用 h(S):仅使用未探测臂的最优NSW
h ( S ) = max π ∈ Δ [ A ] \ S A ∏ j ∈ [ M ] ( ∑ a ∉ S π j , a μ j , a ) h(S) = \max_{\pi \in \Delta^A_{[A]\backslash S}} \prod_{j \in [M]} \left( \sum_{a \notin S} \pi_{j,a} \mu_{j,a} \right) h ( S ) = max π ∈ Δ [ A ] \ S A ∏ j ∈ [ M ] ( ∑ a ∈ / S π j , a μ j , a ) 由于 log(g(S)) 非子模,直接优化困难。采用分段线性包络近似:
将区间 0, x_max 划分为细粒度分段,断点为 τ_0, τ_1, ..., τ_L 在每个断点构造切线 T_{τ_i}(z) = log(τ_i) + (z - τ_i)/τ_i 定义 φ(z) = max_{0≤i<L} T_{τ_i}(z),满足 φ(z) ≥ log(z) 设置 f_upper(S) = φ(g(S)) 引理1-5 建立了关键性质:
引理1 :g(S) 单调递增引理2 :f_upper(S) 单调递增引理3 :f_upper(S) 子模(核心性质)引理4 :h(S) 单调递减引理5 :R(S) ≤ (1-α(|S|))(g(S) + h(S))输入:分布 {F_{m,a}}, 开销函数 α(·), 预算 I, 参数 ζ≥1
输出:探测集 S_pr
1. 初始化 S_0 = ∅
2. For i = 1 to I:
- 选择边际增益最大的臂:
a = argmax_{a∉S_{i-1}} [f_upper(S_{i-1}∪{a}) - f_upper(S_{i-1})]
- S_i = S_{i-1} ∪ {a}
3. 按 (1-α(|S_j|))f_upper(S_j) 降序排序候选集
4. 遍历排序后的集合:
- 如果 (1-α(|S_j|))f_upper(S_j) < h(∅),返回 ∅
- 如果 (1-α(|S_j|))f_upper(S_j) > ζR(S_j),继续
- 否则返回 S_j
定理1(近似保证) :对任意 ζ≥1,算法返回的 S_pr 满足
R ( S p r ) ≥ e − 1 2 e − 1 ⋅ 1 ζ ⋅ R ( S ∗ ) R(S_{pr}) \geq \frac{e-1}{2e-1} \cdot \frac{1}{\zeta} \cdot R(S^*) R ( S p r ) ≥ 2 e − 1 e − 1 ⋅ ζ 1 ⋅ R ( S ∗ )
这是基于子模最大化的 (1-1/e) 近似因子推导得出。
初始化阶段 (t = 1 到 MA):
每个智能体-臂对至少探索一次 构建经验CDF F̂_{j,a,t} 和均值估计 μ̂_{j,a,t} 主循环阶段 (t > MA):
探测集选择 :调用Algorithm 1 基于当前估计 F̂_{j,a,t} 选择 S_t探测更新 :对 S_t 中的臂采样,更新统计量和置信上界
U j , a , t = min ( μ ^ j , a , t + w j , a , t , 1 ) U_{j,a,t} = \min(\hat{\mu}_{j,a,t} + w_{j,a,t}, 1) U j , a , t = min ( μ ^ j , a , t + w j , a , t , 1 )
其中 w_{j,a,t} 是基于Freedman不等式的置信宽度策略优化 :
π t = arg max π t ∈ Δ A ( 1 − α ( ∣ S t ∣ ) ) E R t [ NSW ( S t , R t , U t , π t ) ] \pi_t = \arg\max_{\pi_t \in \Delta^A} (1-\alpha(|S_t|)) \mathbb{E}_{R_t}[\text{NSW}(S_t, R_t, U_t, \pi_t)] π t = arg max π t ∈ Δ A ( 1 − α ( ∣ S t ∣ )) E R t [ NSW ( S t , R t , U t , π t )] 臂拉取 :每个智能体 j 根据 π_t 拉取臂,观察奖励并更新引理7(浓度界) :以至少 1-δ/2 的概率,对所有 t>A, a∈A , j∈M :
∣ μ j , a − μ ^ j , a , t ∣ ≤ 2 ( μ ^ j , a , t − μ ^ j , a , t 2 ) ln ( 2 M A T δ ) N j , a , t + ln ( 2 M A T δ ) 3 N j , a , t = w j , a , t |\mu_{j,a} - \hat{\mu}_{j,a,t}| \leq \sqrt{\frac{2(\hat{\mu}_{j,a,t} - \hat{\mu}^2_{j,a,t}) \ln(\frac{2MAT}{\delta})}{N_{j,a,t}}} + \frac{\ln(\frac{2MAT}{\delta})}{3N_{j,a,t}} = w_{j,a,t} ∣ μ j , a − μ ^ j , a , t ∣ ≤ N j , a , t 2 ( μ ^ j , a , t − μ ^ j , a , t 2 ) l n ( δ 2 M A T ) + 3 N j , a , t l n ( δ 2 M A T ) = w j , a , t
探测与公平性结合 :首次将主动探测机制与NSW公平目标结合,不同于仅优化总奖励的先前工作子模近似技术 :通过分段线性上界将非子模问题转化为子模优化,保持可处理性UCB-NSW融合 :在线算法巧妙结合UCB置信界与NSW优化,平衡探索-利用与公平性分层遗憾分析 :将轮次分为"大γ"和"小γ"两类,分别处理高不确定性和低不确定性情况合成数据 :
小规模 :M=12 智能体,A=8 臂中等规模 :M=20 智能体,A=10 臂奖励分布 :
Bernoulli分布(奖励0或1,均值在0.3, 0.8 ) 离散分布(奖励从{0.3, 0.4, 0.5, 0.6, 0.7, 0.8}采样) 真实数据 :NYYellowTaxi 2016数据集
智能体 :车辆(随机预采样位置)臂 :离散化的接客位置(0.01°×0.01°网格)奖励 :基于车辆到接客点的归一化曼哈顿距离(距离越近奖励越高)累积遗憾 :按公式(1)计算,最优奖励通过穷举搜索确定数值稳定性 :使用几何平均聚合每个智能体奖励的累积NSW近似验证 :验证 f_upper(S) 与 log(g(S)) 的差异≤0.03Non-Probing :Jones等人(2023)的公平MAB算法,无探测能力,仅基于当前信息优化分配Random P+A :随机选择固定数量臂探测,然后随机分配Greedy P+A :使用相同贪心探测策略,但探测后随机分配探测预算 :根据问题规模设置开销函数 :α(|S|) 为递增函数,α(0)=0, α(I)=1置信参数 :δ 设置确保高概率保证代码开源 :https://github.com/jiaxin26/Fair-MA-MAB-with-Probing 图1展示的核心发现 :
小规模场景(M=12, A=8, Bernoulli) :OFMUP在T=3000时遗憾比Random P+A低85% 比Greedy P+A低60% 比Non-Probing显著更优 中等规模场景(M=20, A=10, Bernoulli) :OFMUP优势更明显 T=3000时遗憾比Random P+A低88% 比Greedy P+A低80% 显示出更好的可扩展性 离散分布场景 :OFMUP持续优于基线 随着学习奖励模式,与其他方法的差距增大 T=3000时比Random P+A低85%,比Non-Probing低65% Random P+A异常现象 :在小规模测试中遗憾略高于预期 原因:通过几何平均计算公平性时,小样本增加变异性 图2展示的扩展性 :
固定臂数(A=8),变化智能体数 :OFMUP在所有智能体数量下表现良好 相对优势随问题复杂度增加而增长 固定智能体数(M=20),变化臂数 :OFMUP优势随臂数增加更明显 证明探测机制在高维度空间更有价值 探测的关键作用 :探测在信息收集和指导分配中起决定性作用公平分配的重要性 :Greedy P+A表现远不如OFMUP,说明探测后的公平分配至关重要理论验证 :实验结果验证了理论分析——OFMUP有效平衡探索-利用与公平性真实数据适用性 :在NYYellowTaxi数据上的成功证明了实际应用潜力单智能体MAB :Lai & Robbins (1985), Garivier & Cappé (2011)多智能体MAB :Martínez-Rubio等(2019), Hossain等(2021)公平性研究 :Joseph等(2016, 2018), Patil等(2021)理论基础 :Kaneko & Nakamura (1979)计算方法 :Cole & Gkatzelis (2015)MA-MAB应用 :Jones, Nguyen & Nguyen (2023)——本文直接扩展的工作经济学起源 :Weitzman (1979)单智能体带探测的Bandit :
Aaron D. Tucker等(2023):昂贵奖励观察,Θ(c^{1/3}T^{2/3})界 Elumar等(2024):每轮探测一臂,Õ(√KT)遗憾 Zuo等(2020):Observe-Before-Play框架 子模探测 :Bhaskara等(2020)路由问题本文贡献 :首次将探测与多智能体公平性结合现有工作要么关注公平MAB但依赖被动反馈,要么研究探测但忽视公平性。本文填补了这一空白。
结果 :R(S_pr) ≥ (e-1)/(2e-1) · 1/ζ · R(S*)
证明关键步骤 :
利用引理5:R(S) ≤ (1-α(|S|))(g(S) + h(S)) 应用子模最大化的(1-1/e)近似 通过算法筛选条件关联f_upper与R 得到常数因子近似保证 结果 :以至少1-δ概率,
R regret ( T ) = O ( ζ ( M A T + M A ) ln c ( M A T δ ) ) R_{\text{regret}}(T) = O\left(\zeta(\sqrt{MAT} + MA) \ln^c\left(\frac{MAT}{\delta}\right)\right) R regret ( T ) = O ( ζ ( M A T + M A ) ln c ( δ M A T ) )
证明框架 :
NSW平滑性 (引理6):NSW关于奖励矩阵的Lipschitz性质浓度界 (引理7):基于Freedman不等式的置信界轮次分层 (引理8):
定义γ_{j,t} = Σ_a π_{j,a,t}(1-U_{j,a,t}) 大γ轮次:|Q(t,p)| ≥ 2^p·3lnT,贡献≤1/T² 小γ轮次:应用浓度界,分解为根项和线性项 根项界 :通过Young不等式和引理8处理线性项界 :利用Jones等(2023)的引理4.4最终合并 :得到O(√MAT)主项加低阶项关键技术 :
将遗憾从(S*,π*)转换到(S_t,π_t),利用定理1的因子 UCB乐观性:U_{j,a,t}≥μ_{j,a}确保探索 分层分析避免直接处理所有轮次的复杂依赖 理论贡献 :离线:常数因子近似保证的可计算算法 在线:次线性遗憾O(√MAT),与非探测公平算法相当,但实际性能更优 实践价值 :探测机制显著改善奖励估计 平衡探索-利用与公平性 在真实网约车数据上验证有效性 方法论创新 :首次将主动探测与多智能体公平性结合 子模近似技术处理非凸优化 UCB-NSW融合的在线学习框架 计算复杂度 :离线算法需要迭代求解NSW优化(NP-hard) 在线每轮需计算最优策略π_t 大规模场景(M,A很大)可能面临计算瓶颈 理论假设 :分段线性近似需要足够细的分割(假设d/d'≥τ_i/τ_j) 探测预算I需要预先设定 开销函数α(·)形式需要已知 实验范围 :实验规模相对有限(最大M=20, A=10) 真实数据仅测试网约车场景 未与更多最新公平MAB方法对比 公平性度量 :仅考虑NSW,未探索其他公平性概念(如max-min, envy-freeness) NSW对零奖励敏感(需要所有智能体获得正奖励) 论文未明确提出,但可推断的方向:
扩展到其他公平性度量 :研究探测机制与其他公平性概念的结合自适应探测预算 :动态调整探测数量而非固定I分布式实现 :去中心化的探测和分配决策非平稳环境 :奖励分布随时间变化的场景约束条件 :加入预算、延迟等实际约束理论严谨性 :离线和在线设置都有严格的理论保证 证明完整详尽(附录超过20页) 子模性质的建立巧妙且关键 问题重要性 :解决了实际应用中的真实痛点(公平性与不确定性) 网约车案例具有直接应用价值 填补了公平MAB与主动探索之间的研究空白 方法创新性 :探测机制与NSW的结合是新颖的 分段线性上界构造技术巧妙 UCB与NSW优化的融合非平凡 实验充分性 :覆盖合成和真实数据 多种分布和规模设置 可扩展性分析完整 消融实验(通过对比Greedy P+A)清晰 写作清晰度 :计算效率未充分讨论 :未报告算法运行时间 NSW优化的计算复杂度分析缺失 大规模场景的可行性存疑 探测开销建模简化 :α(|S|)函数形式过于抽象 实际应用中如何设置α未详细说明 不同应用场景的开销特性差异未探讨 基线方法有限 :主要对比Jones等(2023)的方法 未与更多最新公平MAB算法比较 缺少与非公平但高效的探测算法对比 实验规模受限 :最大M=20, A=10相对较小 真实数据仅一个数据集 未测试极端不平衡场景(M>>A或A>>M) 理论-实践差距 :定理1的近似因子包含ζ参数,实际如何选择ζ未说明 定理2的遗憾界常数c未明确 分段线性近似的实际误差(0.03)如何影响性能未分析 公平性讨论不足 :NSW的局限性(对零奖励敏感)未充分讨论 未与其他公平性度量比较 个体理性(individual rationality)未考虑 学术影响 :
高 :填补重要研究空白,预期引用率高为公平MAB领域提供新的研究范式 探测机制与公平性结合可能启发后续工作 实用价值 :
中等偏高 :
网约车等平台有直接应用潜力 但计算复杂度可能限制大规模部署 需要进一步工程优化 可复现性 :
高 :代码已开源,算法描述详细理论证明完整,易于验证 实验设置清晰 强适用场景 :
网约车调度 :中等规模城市(10-20个区域,10-50辆车)内容推荐 :平台需要平衡创作者曝光无线网络调度 :60 GHz WLAN场景(论文提及)资源分配 :需要公平性且存在不确定性的任何场景弱适用场景 :
大规模系统 :M,A>100时计算可能不可行实时系统 :NSW优化的计算延迟可能过高动态环境 :奖励分布快速变化的场景零和竞争 :智能体之间存在直接竞争的情况不适用场景 :
单智能体问题 :方法过于复杂已知奖励 :探测机制无必要极端公平要求 :NSW可能不够"公平"(考虑max-min)Jones, Nguyen & Nguyen (2023) : "An efficient algorithm for fair multi-agent multi-armed bandit with low regret" - 本文直接扩展的基础工作Cole & Gkatzelis (2015) : "Approximating the Nash social welfare with indivisible items" - NSW优化理论基础Zuo, Zhang & Joe-Wong (2020) : "Observe Before Play: Multi-Armed Bandit with Pre-Observations" - 探测机制先驱工作Bhaskara et al. (2020) : "Adaptive probing policies for shortest path routing" - 子模探测应用Caragiannis et al. (2019) : "The unreasonable fairness of maximum Nash welfare" - NSW公平性理论本文在多智能体多臂老虎机领域做出了重要贡献,首次系统地将主动探测机制与公平性目标结合。理论上严谨(常数因子近似和次线性遗憾),实验上充分(合成+真实数据),方法上创新(子模近似+UCB-NSW融合)。主要局限在于计算复杂度和实验规模,但不影响其学术价值和实践潜力。该工作为公平机器学习和在线决策领域开辟了新的研究方向,值得进一步探索和应用。