In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Ω(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Ω(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
academic- 論文ID: 2405.09831
- タイトル: Nearly Minimax Optimal Regret for Multinomial Logistic Bandit
- 著者: Joongkyu Lee (ソウル国立大学), Min-hwan Oh (ソウル国立大学)
- 分類: stat.ML cs.LG
- 発表時期/会議: NeurIPS 2024 (第38回ニューラル情報処理システム会議)
- 論文リンク: https://arxiv.org/abs/2405.09831
本論文は、文脈付き多項ロジスティック(MNL)バンディット問題を研究している。学習エージェントは文脈情報に基づいて順序的に商品の組み合わせを選択し、ユーザーのフィードバックはMNL選択モデルに従う。既存の研究では下界と上界の間に大きな隔たりが存在し、特に最大商品組合サイズKに関して顕著である。統一報酬設定では、本論文はΩ(d√T/K)の遺憾下界を確立し、定数時間アルゴリズムOFU-MNL+を提案して、一致する上界Õ(d√T/K)を実現している。非統一報酬設定では、Ω(d√T)の下界とÕ(d√T)の上界を証明している。これは文脈付きMNLバンディット文献において、ミニマックス最適性を証明した初めての研究である。
- MNLバンディット問題: 推奨システムとオンライン小売などのアプリケーションでは、エージェントはユーザーに商品セットを提供する必要があり、ユーザーの選択行動は多項ロジスティック(MNL)モデルに従う
- 文脈情報: 各ラウンドでエージェントは商品特性と可能なユーザー文脈情報を観察できる
- 理論的空白: 既存の研究では遺憾界の上界と下界の間に大きな隔たりが存在し、特に商品組合サイズKへの依存性に関して顕著である
- 理論的完全性: MNLバンディット理論分析の空白を埋め、厳密な遺憾界を確立する
- アルゴリズム効率: 既存方法の指数時間複雑性を回避する計算効率の高いアルゴリズムを設計する
- 実用的応用: 推奨システムなどの実用的アプリケーションに理論的保証と効率的なアルゴリズムを提供する
- 理論的隔たり: 下界Ω(d√T/K)と上界Õ(d√T)の間に√Kの隔たりが存在する
- 計算複雑性: 既存のアルゴリズムはすべての可能な商品組み合わせを列挙する必要があり、指数時間複雑性につながる
- パラメータ依存: 問題関連定数κへの悪い依存性があり、1/κ = O(K²)である
- 厳密な遺憾界の確立:
- 統一報酬下: 下界Ω(√(v₀K/(v₀+K))d√T)、上界Õ(√(v₀K/(v₀+K))d√T)
- 非統一報酬下: 下界Ω(d√T)、上界Õ(d√T)
- 効率的なアルゴリズムOFU-MNL+の提案:
- 定数時間複雑性O(1)、ラウンド数tに無関
- MNLバンディットでKの増加に伴い遺憾が減少することを証明した初めてのアルゴリズム
- 理論的革新:
- 外部選択肢の吸引パラメータv₀が遺憾に与える影響を初めて明確に示す
- インスタンス依存のミニマックス遺憾界を提供する
- 技術的改善:
- 改善された楕円ポテンシャル補題、Kへの依存性を排除
- 定数自己協調性を持つ損失関数の分析
入力:
- 各ラウンドtで、N個の商品の特徴ベクトルx_ ∈ ℝᵈを観察
- 最大商品組合サイズK
- 外部選択肢の吸引パラメータv₀
出力:
- 商品組合S_t ⊆ {1,...,N}を選択、|S_t| ≤ K
- ユーザー選択c_t ∈ S_t ∪ {0}を観察、MNLモデルに従う
目標: 累積遺憾Reg_T(w*) = Σ_^T R_t(S_t, w) - R_t(S_t, w*)を最小化
ユーザーが商品i ∈ S_tを選択する確率:
p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
外部選択肢(商品を選択しない)の確率:
p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
- オンラインパラメータ推定:
w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
ここでH̃_t = H_t + ηG_t(w_t)、G_t(w)はMNL損失のヘッシアン行列 - 信頼集合の構成:
C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
ここでβ_t(δ) = O(√(d log t log K)) - 楽観的効用計算:
α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}
- 商品組合選択:
- 統一報酬: 最も高いα_を持つK個の商品を選択
- 非統一報酬: 多項式時間の組合最適化問題を解く
- 改善された自己協調分析: MNL損失関数が3√2-自己協調性を持つことを証明、従来の√(6K)から√K因子改善
- K無関の楕円ポテンシャル補題:
Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))
- 厳密なKL発散界: より厳密なKL発散上界を確立、Chenらの結果を改善
- 合成データセット、パラメータw* ∈ ℝᵈは-1/√d, 1/√dᵈから均一にサンプリング
- 文脈特徴x_は多変量ガウス分布N(0_d, I_d)からサンプリングし-1/√d, 1/√dᵈに切り詰め
- 設定: N=100, K∈{5,10,15}, d=5, T=3000
- 累積遺憾: Σ_^T R_t(S_t, w) - R_t(S_t, w*)
- ラウンドごとの計算時間
- UCB-MNL: 信頼上界ベースの方法
- TS-MNL: Thompson標本化ベースの方法
- 正則化パラメータλ = 84√(2d)η
- ステップサイズη = (1/2)log(K+1) + 2
- 信頼半径β_t(δ) = O(√(d log t log K))
- 遺憾性能:
- 統一報酬下では、Kの増加に伴いすべてのアルゴリズムの累積遺憾が減少
- 非統一報酬下では、Kの増加は遺憾改善を保証しない
- OFU-MNL+はすべての設定でベースライン方法を大幅に上回る
- 計算効率:
- OFU-MNL+は定数計算コストを維持、ラウンド数tに無関
- ベースライン方法の計算時間はtに対して線形に増加
- 統一報酬設定下の実行時間は非統一設定の約1/10
実験結果は理論分析を検証している:
- v₀ = Θ(1)の場合、遺憾はKに伴い減少
- v₀ = Θ(K)の場合、遺憾はKに無関
- 非統一報酬下の遺憾はKに無関
- 非文脈設定: Agrawalら がΩ(√(NT/K))下界を確立
- 文脈設定: Chenらが提案したΩ(d√T/K)下界だが、アルゴリズム複雑性は指数級
- 計算効率: OhとIyengarが多項式時間アルゴリズムを提案したが、遺憾界は1/κ依存
- 二値ロジスティックバンディットは既に最適アルゴリズムが存在
- MNLバンディットはロジスティックバンディットの複数選択拡張
- Top-k組合バンディットと関連するが報酬構造が異なる
- MNLモデルでは個別商品報酬が全体組合に依存
- 理論的完全性: MNLバンディットで初めてミニマックス最適性を実現
- アルゴリズム効率: 定数時間複雑性を持つ初めての最適アルゴリズムを提案
- パラメータ影響: v₀とKが遺憾に与える影響を明確に定量化
- 有界仮説: パラメータ||w*||₂ ≤ 1を要求、緩和後は遺憾界に追加の指数因子が生じる
- インスタンス依存界: 非統一報酬下ではインスタンス依存界を確立できない
- 定数因子: 理論界の対数因子は実践では大きい可能性がある
- 仮説の緩和: 無界パラメータ情況下での最適アルゴリズムを研究
- インスタンス適応: 非統一報酬に対するインスタンス依存界を構築
- 実用的応用: 実際の推奨システムでアルゴリズム性能を検証
- 理論的貢献が重大: MNLバンディットの最適性問題を初めて解決、重要な理論的空白を埋める
- 技術的革新が顕著: 改善された自己協調分析と楕円ポテンシャル補題は独立した価値を持つ
- 実用価値が高い: 定数時間複雑性によりアルゴリズムは実用的応用の可能性を持つ
- 分析が包括的: 統一報酬と非統一報酬の両方を考慮し、完全な理論的図景を提供
- 仮説の制限: 有界パラメータ仮説は実践では過度に厳格である可能性
- 定数最適化: 理論界の定数因子は十分に厳密でない可能性
- 実験規模: 実験は合成データのみで実施、実データ検証が欠如
- 学術的価値: MNLバンディット理論に堅固な基礎を提供、高い引用数が予想される
- 実用的価値: 推奨システム、オンライン広告などのアプリケーションに理論的指導を提供
- 方法論的貢献: 技術方法は他の関連問題に推広可能
- 推奨システム: オンライン商品推奨、コンテンツ推奨
- オンライン広告: 広告組合選択と配信最適化
- 電子商取引: 商品陳列と販促戦略最適化
論文は52篇の関連文献を引用しており、主に以下を含む:
- MNLバンディット基礎研究: Agrawal et al., Chen et al.
- ロジスティックバンディット理論: Faury et al., Abeille et al.
- オンライン学習基礎: Lattimore & Szepesvári
- 自己協調関数理論: Tran-Dinh et al.
総合評価: これは理論的貢献が顕著な高品質論文であり、MNLバンディット分野の核心的な開放問題を成功裏に解決し、技術的革新が顕著で、実験検証が充分であり、関連分野に重要な推進作用を持つ。