In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Ω(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Ω(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
academicNearly Minimax Optimal Regret for Multinomial Logistic Bandit
- 论文ID: 2405.09831
- 标题: Nearly Minimax Optimal Regret for Multinomial Logistic Bandit
- 作者: Joongkyu Lee (Seoul National University), Min-hwan Oh (Seoul National University)
- 分类: stat.ML cs.LG
- 发表时间/会议: NeurIPS 2024 (38th Conference on Neural Information Processing Systems)
- 论文链接: https://arxiv.org/abs/2405.09831
本文研究了上下文多项式逻辑(MNL)老虎机问题,其中学习智能体基于上下文信息顺序选择商品组合,用户反馈遵循MNL选择模型。现有工作在下界和上界之间存在显著差距,特别是在最大商品组合大小K方面。在统一奖励设定下,本文建立了Ω(d√T/K)的遗憾下界,并提出了常数时间算法OFU-MNL+,实现了匹配的上界Õ(d√T/K)。在非统一奖励设定下,证明了Ω(d√T)的下界和Õ(d√T)的上界。这是首个在上下文MNL老虎机文献中证明极小极大最优性的工作。
- MNL老虎机问题:在推荐系统和在线零售等应用中,智能体需要向用户提供一组商品,用户的选择行为遵循多项式逻辑(MNL)模型
- 上下文信息:每轮中智能体可以观察到商品特征和可能的用户上下文信息
- 理论空白:现有工作在遗憾界的上界和下界之间存在显著差距,特别是关于商品组合大小K的依赖性
- 理论完备性:弥补MNL老虎机理论分析的空白,建立紧致的遗憾界
- 算法效率:设计计算高效的算法,避免现有方法的指数时间复杂度
- 实际应用:为推荐系统等实际应用提供理论保证和高效算法
- 理论差距:下界Ω(d√T/K)与上界Õ(d√T)之间存在√K的差距
- 计算复杂度:现有算法需要枚举所有可能的商品组合,导致指数时间复杂度
- 参数依赖:对问题相关常数κ有不良依赖,其中1/κ = O(K²)
- 建立紧致遗憾界:
- 统一奖励下:下界Ω(√(v₀K/(v₀+K))d√T),上界Õ(√(v₀K/(v₀+K))d√T)
- 非统一奖励下:下界Ω(d√T),上界Õ(d√T)
- 提出高效算法OFU-MNL+:
- 常数时间复杂度O(1),与轮数t无关
- 首个在MNL老虎机中证明随K增加而遗憾减少的算法
- 理论创新:
- 首次明确展示外部选项吸引参数v₀对遗憾的影响
- 提供实例相关的极小极大遗憾界
- 技术改进:
- 改进的椭圆势引理,消除对K的依赖
- 常数自协调性质的损失函数分析
输入:
- 每轮t,观察到N个商品的特征向量x_ ∈ ℝᵈ
- 最大商品组合大小K
- 外部选项吸引参数v₀
输出:
- 选择商品组合S_t ⊆ {1,...,N},|S_t| ≤ K
- 观察用户选择c_t ∈ S_t ∪ {0},遵循MNL模型
目标:最小化累积遗憾Reg_T(w*) = Σ_^T R_t(S_t, w) - R_t(S_t, w*)
用户选择商品i ∈ S_t的概率为:
p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
外部选项(不选择任何商品)的概率为:
p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
- 在线参数估计:
w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
其中H̃_t = H_t + ηG_t(w_t),G_t(w)为MNL损失的Hessian矩阵 - 置信集构造:
C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
其中β_t(δ) = O(√(d log t log K)) - 乐观效用计算:
α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}
- 商品组合选择:
- 统一奖励:选择K个最高α_的商品
- 非统一奖励:求解多项式时间的组合优化问题
- 改进的自协调分析:证明MNL损失函数具有3√2-自协调性质,相比之前的√(6K)改进了√K因子
- K无关的椭圆势引理:
Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))
- 紧致KL散度界:建立了更紧的KL散度上界,改进了Chen等人的结果
- 合成数据集,参数w* ∈ ℝᵈ从-1/√d, 1/√dᵈ均匀采样
- 上下文特征x_从多元高斯分布N(0_d, I_d)采样并截断到-1/√d, 1/√dᵈ
- 配置:N=100, K∈{5,10,15}, d=5, T=3000
- 累积遗憾:Σ_^T R_t(S_t, w) - R_t(S_t, w*)
- 每轮计算时间
- UCB-MNL:基于置信上界的方法
- TS-MNL:基于Thompson采样的方法
- 正则化参数λ = 84√(2d)η
- 步长η = (1/2)log(K+1) + 2
- 置信半径β_t(δ) = O(√(d log t log K))
- 遗憾性能:
- 统一奖励下,随着K增加,所有算法的累积遗憾都减少
- 非统一奖励下,K的增加不能保证遗憾改善
- OFU-MNL+在所有设置下都显著优于基线方法
- 计算效率:
- OFU-MNL+保持常数计算成本,与轮数t无关
- 基线方法的计算时间随t线性增长
- 统一奖励设置下的运行时间约为非统一设置的1/10
实验结果验证了理论分析:
- v₀ = Θ(1)时,遗憾随K减少
- v₀ = Θ(K)时,遗憾与K无关
- 非统一奖励下遗憾与K无关
- 非上下文设置:Agrawal等人建立了Ω(√(NT/K))下界
- 上下文设置:Chen等人提出Ω(d√T/K)下界,但算法复杂度指数级
- 计算效率:Oh和Iyengar提出多项式时间算法,但遗憾界有1/κ依赖
- 二元逻辑老虎机已有最优算法
- MNL老虎机是逻辑老虎机的多选择扩展
- 与top-k组合老虎机相关但奖励结构不同
- MNL模型中单个商品奖励依赖于整个组合
- 理论完备性:首次在MNL老虎机中实现极小极大最优性
- 算法效率:提出首个常数时间复杂度的最优算法
- 参数影响:明确量化了v₀和K对遗憾的影响
- 有界假设:要求参数||w*||₂ ≤ 1,放宽后遗憾界会有额外的指数因子
- 实例相关界:非统一奖励下无法建立实例相关界
- 常数因子:理论界中的对数因子在实践中可能较大
- 放宽假设:研究无界参数情况下的最优算法
- 实例适应:为非统一奖励建立实例相关界
- 实际应用:在真实推荐系统中验证算法性能
- 理论贡献重大:首次解决了MNL老虎机的最优性问题,填补了重要理论空白
- 技术创新显著:改进的自协调分析和椭圆势引理具有独立价值
- 实用价值高:常数时间复杂度使算法具有实际应用潜力
- 分析全面:同时考虑统一和非统一奖励,提供完整的理论图景
- 假设限制:有界参数假设在实践中可能过于严格
- 常数优化:理论界中的常数因子可能不够紧致
- 实验规模:实验仅在合成数据上进行,缺乏真实数据验证
- 学术价值:为MNL老虎机理论奠定了坚实基础,预期引用量高
- 实用价值:为推荐系统、在线广告等应用提供理论指导
- 方法论贡献:技术方法可推广到其他相关问题
- 推荐系统:在线商品推荐、内容推荐
- 在线广告:广告组合选择和投放优化
- 电子商务:商品陈列和促销策略优化
论文引用了52篇相关文献,主要包括:
- MNL老虎机基础工作:Agrawal et al., Chen et al.
- 逻辑老虎机理论:Faury et al., Abeille et al.
- 在线学习基础:Lattimore & Szepesvári
- 自协调函数理论:Tran-Dinh et al.
总体评价:这是一篇理论贡献突出的高质量论文,成功解决了MNL老虎机领域的核心开放问题,技术创新显著,实验验证充分,对相关领域具有重要推动作用。